
जर तुम्ही सेट करण्याचा विचार करत असाल तर रास्पबेरी पाई सह एआय असिस्टंटतुम्ही योग्य ठिकाणी आहात: आज, रास्पबेरी पाय ४ आणि अधिक शक्तिशाली रास्पबेरी पाय ५ या दोन्हीसह, या छोट्या एसबीसीमध्ये आवाज, दृष्टी आणि भाषा मॉडेल्सचे संयोजन आधीच व्यवहार्य आहे. हे दाखवणारे खरे प्रकल्प आहेत आणि अधिकृत अॅक्सेसरीज देखील आहेत जे एआय प्रवेग आणून ते एक पाऊल पुढे टाकतात.
या लेखात तुम्हाला एक संपूर्ण आढावा मिळेल: Pi 4 वर आधारित व्हॉइस-अॅक्टिव्हेटेड होम असिस्टंट आणि अशा साधनांमधून व्हॉस्क आणि ओलामा...Qwen3:1.7bo आणि Gemma3:1b सारख्या कॉम्पॅक्ट मॉडेल्ससह वेक वर्ड, ट्रान्सक्रिप्शन आणि स्थानिक अनुमान चालवणाऱ्या Pi 5 पर्यंत. Hailo-8L NPU असलेले AI किट Pi 5 मध्ये कसे बसते, ओळख आणि TTS साठी कोणत्या लायब्ररी वापरायच्या आणि घरी आणि कामाच्या ठिकाणी सुरक्षिततेला प्राधान्य देणे का महत्त्वाचे आहे हे देखील तुम्हाला दिसेल.
रास्पबेरी पाई वापरून एआय असिस्टंट का तयार करायचा?
रास्पबेरी पाईवरील स्मार्ट असिस्टंट तुम्हाला कमी खर्चात आणि कमीत कमी वीज वापरासह डिव्हाइस नियंत्रित करू देतो, प्रश्नांची उत्तरे देऊ देतो आणि दिनचर्या स्वयंचलित करू देतो; दुसऱ्या शब्दांत, हे एक आदर्श व्यासपीठ आहे शिका, प्रोटोटाइप करा आणि तैनात करा नेहमी क्लाउडवर अवलंबून न राहता आवाज आणि भाषा कार्ये.
रास्पबेरी पाई वापरून तुम्ही मायक्रोफोन, कॅमेरे आणि लहान स्क्रीन तसेच पायथॉन, जावा किंवा C++ मधील प्रोग्राम एकत्रित करू शकता; यामुळे व्हॉइस-अॅक्टिव्हेटेड स्टेटस पॅनेलपासून ते फेशियल रेकग्निशनसह अॅक्सेस कंट्रोल सिस्टम आणि अगदी होम बॉटपर्यंतच्या प्रोजेक्ट्सचे दरवाजे उघडतात जे ऐका, अर्थ लावा आणि कृती करा तुमच्या आदेशानुसार.
रास्पबेरी पाय ४ विरुद्ध रास्पबेरी पाय ५: शक्ती आणि शक्यता
रास्पबेरी पाय ४ ने दाखवून दिले की जर तुम्ही योग्य स्टॅक निवडला तर स्थानिक व्हॉइस असिस्टंट शक्य आहे; तथापि, रास्पबेरी पाय ५ केवळ सीपीयू आणि जीपीयूला गती देत नाही तर उच्च-कार्यक्षमता अॅक्सेसरीजसाठी पीसीआयई कनेक्टिव्हिटी देखील जोडते आणि पोर्ट्स आणि बँडविड्थ सुधारते, म्हणून एकूण अनुभव अधिक सुरळीत होतो.
Pi 5 च्या वैशिष्ट्यांमध्ये, त्याच्या उत्कृष्ट वैशिष्ट्यांमध्ये 2,4 GHz पर्यंतचा ARM Cortex-A76 प्रोसेसर, 8 GB पर्यंत LPDDR4X RAM, Wi-Fi 5, ब्लूटूथ 5.0/BLE आणि 60 Hz वर 4K आउटपुटसह ड्युअल मायक्रो-HDMI पोर्ट समाविष्ट आहेत. सेन्सर्सच्या मजबूत संचासह एकत्रित, हे असिस्टंटला समवर्ती कामे अखंडपणे हाताळण्यास आणि देखभाल करण्यास अनुमती देते. कमी विलंब आवाजाच्या संवादात.
ASRAI: Pi 4 सह एक वास्तविक प्रकल्प जो गोपनीयता आणि नियंत्रणावर लक्ष केंद्रित करतो
एका हुशार निर्मात्याने ASRAI तयार केले, जे रास्पबेरी Pi 4 मॉडेल B वर 3,5-इंच GPIO डिस्प्ले आणि सोनी प्लेस्टेशन आय कॅमेरासह बनवलेले व्हॉइस-अॅक्टिव्हेटेड असिस्टंट आहे. खरे रत्न म्हणजे प्लेस्टेशन आय: त्यात चार-मायक्रोफोन अॅरे आहे जे Pi साठी सहजपणे वेगळे केले जाऊ शकते आणि सेकंडहँड मार्केटमध्ये, ते अगदी कमी किमतीत मिळू शकते, ज्यामुळे ते खरोखरच एक सौदा बनते. ऑडिओ कॅप्चरसाठी सौदा मूलभूत बीम निर्मितीसह.
या प्रकल्पात, Pi 4 ऑफलाइन स्पीच रेकग्निशनसाठी स्थानिक पातळीवर VOSK चालवते आणि नेटवर्कवरून लेखकाच्या स्वतःच्या PC वर होस्ट केलेल्या LLM ला Ollama द्वारे OpenAI-सुसंगत API पॉइंटद्वारे कनेक्ट करते. हे कनेक्शन कुठूनही कार्य करण्यासाठी, निर्मात्याने NordVPN चे Meshnet सक्षम केले, अशा प्रकारे एक खाजगी आणि सर्वव्यापी लिंक सेवा थेट इंटरनेटवर न आणता.
कॅप्चर, वेक वर्ड आणि स्थानिक ट्रान्सक्रिप्शन Pi वर डाउनलोड करण्याची कल्पना आहे व्हॉस्क, तर भाषा निर्मिती दुसऱ्या मशीनवर अधिक शक्तिशाली मॉडेलद्वारे हाताळली जाते ज्यामध्ये OpenAI-प्रकारचे API वापरले जाते जे उघड केले जाते ओलामा आणि मेशनेटमुळे सुलभता येते; अशा प्रकारे, कामगिरी आणि गोपनीयता संतुलित राहते.
"मानवी" स्पर्शासाठी, प्रकल्पात झोपण्यासाठी किंवा छोट्या पडद्यावर ऐकण्यासाठी प्रतिमा समाविष्ट आहेत. जर तुम्हाला त्याची प्रतिकृती बनवण्यात रस असेल, तर निर्माता आवश्यक संसाधने सामायिक करतो आणि त्यासाठी उपयुक्त आहे... ३डी प्रिंटर आणि वेल्डर मायक्रोफोन अॅरेच्या असेंब्ली आणि समायोजनासाठी.
या उपक्रमाला विशेष माध्यमांनी महत्त्व दिले आणि ते डिझाइन तत्त्वज्ञानातील इतर रॅस्पीसारख्या दृष्टिकोनांची आठवण करून देते: स्थानिक ओळख आणि मॉड्यूलर ऑर्केस्ट्रेशन. अगदी जवळच्या सहकार्यांचे उल्लेख आहेत ज्यांनी त्यांच्या पायचे रूपांतर केले एआय सहाय्यक आणि पिढीजात झेप घेण्याचा विचार करणाऱ्यांना मार्गदर्शन करण्यासाठी रास्पबेरी पाय ५ वरील वेगवेगळ्या एआयच्या कामगिरीचे विश्लेषण केले.
रास्पबेरी पाय ५ साठी अधिकृत एआय किट: प्रवेग वाढवण्याचा जलद मार्ग
जर तुम्हाला ते पुढील स्तरावर घेऊन जायचे असेल, तर रास्पबेरी पाई ५ साठी एआय किटमध्ये प्री-इंस्टॉल केलेल्या M.2 2242 वर Hailo-8L NPU जोडले आहे जे M.2 HAT+ ला जोडलेले आहे. हे संयोजन कार्यक्षम एज इन्फरन्ससाठी 13 पर्यंत TOPS प्रदान करते, CPU ला गहन वर्कलोडपासून मुक्त करते आणि असिस्टंटला व्हिजन किंवा ऑडिओ मॉडेल्स चालविण्यास अनुमती देते. कमी विलंब आणि वापर.
पॅकेज पूर्ण येते: स्टॅक करण्यायोग्य GPIO हेडर, स्पेसर, स्क्रू, AI बोर्डला Pi 5 च्या PCIe बसशी जोडण्यासाठी एक लवचिक रिबन केबल आणि तापमान नियंत्रणात ठेवण्यासाठी योग्य हीटसिंक. भौतिक स्थापना सोपी आहे आणि नंतर सॉफ्टवेअर तैनात केले जाते. रास्पबेरी पाय ओएस वर योग्य.
- Hailo AI मॉड्यूल Hailo‑8L NPU सह
- रास्पबेरी पाय ५ साठी रास्पबेरी पाय एम.२ हॅट+
- मॉड्यूल आणि HAT+ दरम्यान पूर्व-स्थापित थर्मल पॅड
- स्पेसर आणि स्क्रूसह माउंटिंग किट
- स्टॅक करण्यायोग्य १६ मिमी GPIO कनेक्टर आणि फ्लॅट PCIe केबल
रास्पबेरी पाय ओएस वातावरणात हेलो डिव्हाइसचे एकत्रीकरण परिपक्व आहे: ते यासह कार्य करते libcamera, rpicam-अॅप्स आणि picamera2 आणि सॉफ्टवेअर इकोसिस्टम (Hailo, HailoRT, आणि HailoTappas ड्रायव्हर्स) थेट पॅकेज मॅनेजरद्वारे स्थापित केले जाते. अशा प्रकारे, संगणक व्हिजन असिस्टंटचा पाया (उदा., चेहरा किंवा जेश्चर डिटेक्शन) तयार होतो. कमीत कमी घर्षण.
वापराची प्रकरणे: होम कंट्रोलपासून ते संभाषण सहाय्यकापर्यंत
Pi 5 आणि AI किटसह तुम्ही फेशियल रेकग्निशन अॅक्सेस कंट्रोल सिस्टमपासून ते ए पर्यंत काहीही सेट करू शकता संभाषणात्मक गृह सहाय्यक "हँड्स-फ्री." मूलभूत नेव्हिगेशनसह एक साधा रोबोट जो व्हॉइस कमांड स्वीकारतो आणि प्रतिसाद देतो भाषण संश्लेषण लाऊडस्पीकरद्वारे.
जर तुम्हाला अॅक्सिलरेटर नको असतील, तर ASRAI (लोकल स्पीच प्रोसेसिंग आणि रिमोट LLM) सारखा हायब्रिड दृष्टिकोन किंवा नवीनतम कॉम्पॅक्ट मॉडेल्ससह पूर्ण-स्थानिक दृष्टिकोन देखील व्यवहार्य आहे. एकसंध अनुभव सुनिश्चित करण्यासाठी मॉडेल आकार, क्वांटायझेशन आणि ऑडिओ पाइपलाइनमध्ये सुधारणा करणे ही गुरुकिल्ली आहे. चपळ आणि स्थिर उपलब्ध हार्डवेअरवर.
रास्पबेरी पाई वर आवाज आणि भाषेसाठी की सॉफ्टवेअर
ऑफलाइन स्पीच रेकग्निशनसाठी, रास्पबेरी पाईवर VOSK हा एक सुरक्षित पर्याय आहे. पॉकेटस्फिंक्ससारखे पर्याय देखील उपयुक्त आहेत आणि जर तुम्हाला क्लाउड सेवा आवडत असतील तर गुगल स्पीच रेकग्निशन सारख्या इंजिनसह एकत्रीकरण उपलब्ध आहे; तथापि, बरेच प्रकल्प प्राधान्य देतात गोपनीयता आणि कमी विलंबत्यामुळे स्थानिक लिप्यंतरणाला आधार मिळतो.
स्थानिक भाषण संश्लेषणासाठी, pyttsx3 बाह्य अवलंबित्वांशिवाय मूलभूत TTS प्रदान करते. LLM घटकाबद्दल, Ollama "OpenAI सुसंगत" एंडपॉइंटसह सर्व्हिंग मॉडेल्सना सोपे करते, ज्यामुळे कस्टम स्क्रिप्ट्स किंवा विद्यमान क्लायंट कनेक्ट करणे सोपे होते. या दृष्टिकोनासह, तुमचा Pi पाइपलाइन व्यवस्थित करू शकतो आणि [विशिष्ट अनुप्रयोग/साधन - आवश्यक संदर्भ] कडे जनरेशन सोपवू शकतो. सर्वात शक्तिशाली संघ.
१००% पाय ५ मिनी-एजंट: वेक वर्ड, ट्रान्सक्रिप्शन आणि स्थानिक अनुमान
एका उत्साही व्यक्तीने हे दाखवून दिले आहे की १६ जीबी रॅम असलेला रास्पबेरी पाय ५ संपूर्ण चक्र चालवू शकतो: VOSK सह शब्द शोधणे ट्रिगर करणे, जलद-व्हिस्परसह ट्रान्सक्रिप्शन आणि Gemma3:1b द्वारे Qwen3:1.7 सारख्या कॉम्पॅक्ट LLM सह अनुमान, सर्व स्थानिक पातळीवर. हे एक ऑप्टिमायझेशन आव्हान आहे, परंतु ते केले जाऊ शकते; त्याचे दस्तऐवजीकरण करणारे रिपॉझिटरी आणि ब्लॉग पोस्ट हे एक उत्तम संसाधन आहे. शिकण्यासाठी माझे फाइन-ट्यूनिंग आणि संसाधन व्यवस्थापन यावर.
या उदाहरणातून मिळणारा धडा स्पष्ट आहे: योग्यरित्या निवडलेल्या मॉडेल्स, क्वांटायझेशन आणि सुव्यवस्थित पाइपलाइनसह, Pi 5 वाजवी वेळेत प्रतिसाद देते. जर प्रकल्पाला अधिक प्रक्रिया शक्तीची आवश्यकता असेल, तर धारणा कार्यांसाठी (दृष्टी, ऑडिओ) Hailo-8L वापरणे आणि हलके स्थानिक LLM राखणे किंवा त्यावर अवलंबून राहणे हा पर्याय नेहमीच असतो. रिमोट सर्व्हर सुसंगत
सुरुवात करणे: ऑपरेटिंग सिस्टम, लायब्ररी आणि प्रकल्प रचना
संसाधनांचा जास्तीत जास्त वापर करण्यासाठी, अनेक डेव्हलपर्स त्याच्या लाइट प्रकारात रास्पबियन (रास्पबेरी पाय ओएस) ची शिफारस करतात, जे सेवा आणि बेस मेमरीचा वापर कमी करते. तेथून, तुम्हाला आवश्यक असलेले स्पीच, टीटीएस आणि ऑर्केस्ट्रेशन लायब्ररी स्थापित करा; पायथॉनसह, एक कार्यात्मक आणि स्केलेबल प्रोटोटाइप तयार करणे सोपे आहे. चांगले वेगळे केलेले मॉड्यूल.
साठी एक कृती बूट नेहमीच्यामध्ये हे समाविष्ट आहे:
- रास्पबेरी पाय ओएस लाइट स्थापित करा आणि सिस्टम अपडेट्स लागू करा.
- ऑडिओ (मायक्रोफोन आणि स्पीकर), लागू असल्यास कॅमेरा कॉन्फिगर करा आणि रेकॉर्ड/प्ले वापरून चाचणी करा.
- सारखे पॅकेजेस स्थापित करा उच्चार ओळख (जर तुम्ही क्लाउड सेवा वापरणार असाल तर) किंवा ऑफलाइनसाठी VOSK/PocketSphinx, आणि पिट्सएक्स३ स्थानिक TTS साठी.
- तुमचा LLM बॅकएंड निवडा: ओलामा आणि लहान मॉडेल्ससह स्थानिक, किंवा सुसंगत रिमोट.
- पायथॉनमध्ये मुख्य लूप कोड करा: ऐका, ट्रान्सक्राइब करा, अर्थ लावा (NLP) आणि कृती अंमलात आणा.
NLP लेयरमध्ये, तुम्ही साध्या हेतू आणि नियमांसह सुरुवात करू शकता आणि प्रगती करत असताना LLM समाविष्ट करू शकता. कमांड एक्झिक्युशनसाठी, प्रत्येक डिव्हाइस किंवा सेवेसाठी अॅडॉप्टर परिभाषित करा (उदाहरणार्थ, दिवे, हवामान नियंत्रण, स्मरणपत्रे), जेणेकरून सहाय्यक स्वच्छ आणि विस्तारनीय गाभा.
कनेक्टिव्हिटी आणि ऑर्केस्ट्रेशन: चांगल्या नेटवर्कसह सर्वकाही जुळते.
पायमध्ये वाय-फाय ५ आणि ब्लूटूथ ५.०/बीएलई आहेत, त्यामुळे ते लाईट बल्ब, स्पीकर्स आणि सेन्सर्सशी वायरलेस पद्धतीने संवाद साधू शकते. जेव्हा बाह्य सेवा किंवा अनेक मशीन्स गुंतलेल्या असतात, तेव्हा नॉर्डव्हीपीएनच्या मेशनेट सारख्या खाजगी नेटवर्क फॅब्रिकमुळे पोर्ट जगासमोर न आणता ऑफ-साइट मॉडेल सर्व्हर "पाहण्याची" पायची क्षमता सुलभ होते, नियंत्रण आणि सुरक्षा.
जर तुम्ही वेगवेगळ्या वातावरणात विझार्ड तैनात करण्याची योजना आखत असाल, तर अनुमान घटकांसाठी किंवा मल्टीमीडिया पाइपलाइनसाठी कंटेनर विचारात घ्या. वेगळ्या सेवा (ASR, TTS, LLM, ऑर्केस्ट्रेटर) असलेली रचना तुम्हाला घटकांचे स्केलिंग करण्यास आणि वर्कलोड दुसऱ्या नोडवर हलविण्यास अनुमती देईल. किमान प्रभाव उर्वरित प्रणालीमध्ये.
सुरक्षा: निरीक्षण करण्यासाठी सर्वोत्तम पद्धती आणि भेद्यता
सहाय्यक नेहमीच त्याच्या सभोवतालच्या परिस्थिती ऐकत असतो आणि इतर उपकरणांशी संवाद साधत असतो, म्हणून सायबर सुरक्षा अत्यंत महत्त्वाची आहे. ज्ञात शोषण कमी करण्यासाठी सिस्टम आणि लायब्ररी अद्ययावत ठेवून सुरुवात करा आणि उपकरणांमधील सर्व संप्रेषणांसाठी एन्क्रिप्शन सक्षम करा; घराच्या इतर भागांपासून आयओटी नेटवर्क वेगळे करणे हा एक उपाय आहे. स्वस्त आणि प्रभावी.
आयओटी आणि मिडलवेअरबद्दलच्या सूचनांचे पुनरावलोकन करणे आणि सार्वजनिक भेद्यता जसे की सीव्हीई-२०२५-२४३१९ o सीव्हीई-२०२५-२४३१९ इतर गोष्टींबरोबरच, ते अवलंबित्वे ऑडिट करण्यासाठी आणि पॅचेस जलद लागू करण्यासाठी स्मरणपत्रे म्हणून काम करतात. ध्येय म्हणजे तुमचा सहाय्यक ओझे न बनता मदतगार असावा. जोखीम वेक्टर.
कॅमेरा आणि संगणक दृष्टीसह एकत्रीकरण
जर तुमच्या असिस्टंटमध्ये कॅमेरा असेल, तर Pi 5 libcamera आणि rpicam-अॅप्ससह चांगले काम करते; याव्यतिरिक्त, picamera2 व्हिडिओ स्ट्रीममध्ये प्रोग्रामॅटिक प्रवेश सुलभ करते. Hailo-8L सह, ऑब्जेक्ट डिटेक्शन आणि फेशियल रेकग्निशन सारख्या कार्यांना गती आणि कार्यक्षमता मिळते, ज्यामुळे परिस्थिती सक्षम होते प्रवेश नियंत्रण किंवा संदर्भ-संवेदनशील होम ऑटोमेशन.
एक सामान्य दृष्टिकोन म्हणजे दृष्टी Pi वर ठेवणे आणि उच्च-स्तरीय अर्थ लावणे LLM ला सोपवणे ("जर तुम्ही X ला ओळखले तर मला विचारा की मी दार उघडावे का"). कच्च्या प्रतिमा नव्हे तर फक्त मेटाडेटा किंवा निकाल शेअर करून, तुम्ही गोपनीयता सुधारता आणि कमी करता बँडविड्थ आवश्यक
काम करणारी व्यावहारिक उदाहरणे
– पाय ४ वर ASRAI: प्लेस्टेशन आय मायक्रोफोन (४ मायक्रोफोन), ३.५-इंच GPIO डिस्प्ले, स्थानिक VOSK, ओलामा द्वारे रिमोट LLM आणि मेशनेटसह कुठेही कनेक्टिव्हिटी. यासाठी ३D प्रिंटिंग आणि थोडे सोल्डरिंग आवश्यक आहे, परंतु परिणाम म्हणजे सहाय्यक चपळ आणि विवेकी.
– पाय ५ “ऑल-इन-वन”: व्हीओएसके सह वेक वर्ड, फास्टर-व्हिस्पर सह ट्रान्सक्रिप्शन आणि जेम्मा३:१बी द्वारे क्वेन३:१.७ सह स्थानिक अनुमान. वाजवी विलंब राखण्यासाठी मॉडेल्सचा आकार ऑप्टिमायझेशन आणि कॅपिंग करणे ही गुरुकिल्ली आहे; संबंधित रिपॉझिटरी म्हणजे एक जिवंत मार्गदर्शक तुमचा प्रकल्प समायोजित करण्यासाठी.
- एआय किटसह पाय ५: अॅक्सेससाठी फेशियल रेकग्निशन, अॅक्सिलरेटेड व्हिजन मॉडेल्ससह कॉन्टेक्चुअल रिअॅक्शन आणि संभाषणासाठी हलके एलएलएम; हेलो, हेलोआरटी आणि हेलोटप्पास ड्रायव्हर्स जे एपीटी द्वारे इंस्टॉल करता येतात आणि डिव्हाइसमध्येच एकात्मिक केलेले लिबकॅमेरा आणि पिकॅमेरा२ सह सुसंगतता. रास्पबेरी पी ओ ओएस.
चांगल्या विकास आणि देखभाल पद्धती
कोडची रचना मॉड्यूलमध्ये करा: ऑडिओ कॅप्चर, एएसआर, एनएलपी, एक्झिक्युशन, टीटीएस आणि, लागू असल्यास, व्हिजन. अडथळे ओळखण्यासाठी उपयुक्त लॉग आणि डीबग मोड जोडा. जोडताना रिग्रेशन खंडित होऊ नये म्हणून मूलभूत चाचण्या (उदा. पूर्वनिर्धारित हेतू) स्वयंचलित करा. नवीन कार्ये.
हार्डवेअरच्या बाबतीत, पॉवर आणि वेंटिलेशनकडे लक्ष द्या, विशेषतः जर तुम्ही NPU जोडत असाल किंवा जास्त भारांसह काम करत असाल तर. चांगला हीटसिंक आणि चांगला एअरफ्लो थर्मल थ्रॉटलिंगला प्रतिबंधित करतो आणि स्थिर अनुभव राखतो. सतत संभाषण.
समुदाय आणि नियम: तुमचे प्रकल्प योग्यरित्या शेअर करा
जर तुम्ही तुमचा सहाय्यक रास्पबेरी पाई समुदायांमध्ये प्रकाशित करणार असाल, तर लक्षात ठेवा की तुम्ही ते कसे केले हे स्पष्ट करणे कौतुकास्पद आहे, केवळ निकाल दाखवणे नाही. स्पॅम आणि कोणतेही गैरवर्तन टाळा आणि अर्थातच, कोणत्याही असुरक्षित विद्युत पद्धती टाळा; अधिक शिकण्याव्यतिरिक्त, तुम्ही एक निरोगी वातावरण आणि सर्वांसाठी उपयुक्त.
जेव्हा तुम्ही शेअर करता तेव्हा तुमचे हार्डवेअर, मुख्य पायऱ्या, अवलंबित्वे, ऑडिओ सेटिंग्ज आणि वापरलेले मॉडेल्स दस्तऐवजीकरण करा. हे इतरांना तुमचे काम पुन्हा तयार करण्यास मदत करते आणि मौल्यवान अभिप्राय प्रदान करते; शेवटी, हे सहकार्य तुमच्या प्रकल्पाला इतर कोणत्याही पद्धतीपेक्षा जास्त गती देते. वेगळी युक्ती.
कामगिरीमध्ये काय अपेक्षा करावी आणि तुमच्या आर्किटेक्चरचा निर्णय कसा घ्यावा
– जर तुम्हाला गोपनीयता आणि पूर्ण नियंत्रण हवे असेल, तर स्थानिक ASR आणि TTS आणि Pi 5 वर कॉम्पॅक्ट LLM किंवा तुमच्या खाजगी मेशनेट नेटवर्कवर Ollama द्वारे सेवा दिलेली निवडा. अशा प्रकारे तुम्ही एज-फर्स्ट ऑपरेट करता आणि व्हॉइस डेटा सुरक्षित ठेवता. तुमच्या छताखाली.
– जर तुम्हाला अधिक समृद्ध उत्तरे हवी असतील आणि क्लाउड वापरण्यास हरकत नसेल, तर रिमोट LLM अडथळा दूर करते. त्यानंतर Pi ऑर्केस्ट्रेटिंग ब्रेन म्हणून काम करते, सेन्सर्स आणि अॅक्च्युएटर्स नियंत्रित करते आणि व्हॉइस सेशन व्यवस्थापित करते स्वीकार्य विलंब.
– जर तुमच्या सहाय्यकाला "पाहायचे असेल" तर Hailo-8L सह AI किट हा एक उत्तम पर्याय आहे: एज व्हिजनसाठी १३ TOPS, apt द्वारे ड्रायव्हर्स आणि Raspberry Pi OS द्वारे समर्थित इकोसिस्टम. हे Pi च्या बाहेरील मध्यम-श्रेणीच्या LLM सह एकत्र करा आणि तुम्हाला एक उत्तम अनुभव मिळेल. गोल आणि संतुलित.
– जर तुम्ही पूर्ण-स्थानिक सेटअप निवडलात, तर ऑप्टिमाइझ केलेले मॉडेल निवडा (Qwen3:1.7b, Gemma3:1b, किंवा समतुल्य) आणि ऑडिओ राउटिंगकडे लक्ष द्या; ट्रान्सक्रिप्शनसाठी फास्टर व्हिस्पर आणि वेक वर्ड प्रोसेसिंगसाठी VOSK वापरणे आधीच एक प्रभावी पर्याय असल्याचे सिद्ध झाले आहे. व्यवहार्य मार्ग १६ जीबीसह पाय ५ वर.
शेवटी, रास्पबेरी पाई वापरून एआय असिस्टंट बनवताना सहज उपलब्ध घटकांचा समावेश होतो: पुनर्निर्मित प्लेस्टेशन आयसारखे स्वस्त हार्डवेअर, व्हीओएसके किंवा फास्टर-व्हिस्परसारखे सॉफ्टवेअर, ओलामाद्वारे ओपनएआय-सुसंगत एंडपॉइंट्स आणि आवश्यक असल्यास, पाई ५ वर हेलो-८एलचा अतिरिक्त फायदा. सुरक्षिततेकडे लक्ष देऊन (अपडेट्स, वेगळे नेटवर्क, एन्क्रिप्शन) आणि स्पष्ट दस्तऐवजीकरण, कल्पनेपासून पूर्णपणे कार्यक्षम प्रकल्पाकडे जाणे सोपे आहे. कार्यात्मक सहाय्यक जे बैठकीच्या खोलीत किंवा ऑफिसमध्ये चांगले काम करते.