एंड्रॉइड के लिए पॉकेट स्फीक्स को इस्तेमाल करने की कोशिश करने से पहले, मैंने Google की आवाज पहचान एपीआई का इस्तेमाल किया था मुझे एक खोज नाम या एक शब्दकोश फ़ाइल सेट करने की आवश्यकता नहीं थी यह सिर्फ हर शब्द को पहचान लिया गया था जिसे बताया गया था।
अब, पॉकेटस्फिंक्स में, मुझे यह करना है। लेकिन मैं केवल एक शब्द के लिए मान्यता कैसे सेट कर सकता हूं, या शब्दकोश सेट करने के लिए (डेमो प्रोजेक्ट में उपलब्ध वाले केवल कुछ ही शब्द हैं), पहचानकर्ता को लगता है कि ये केवल एक शब्द हैं, जिसका अर्थ है कि अगर कोई ऐसा कुछ कहता है, पहचानकर्ता यह शब्द सोचता है जो शब्दकोष में सूचीबद्ध है।
मैं बस पूछना चाहता हूं, कैसे मैं कुछ खोज नाम सेट कर सकता हूं, या मैं इसे कैसे उपलब्ध कर सकता हूं (या उनमें से बड़ी मात्रा में भी) इन शब्दों को पहचानने के लिए? हो सकता है कि कोई बड़ी शब्द संख्या के साथ एक शब्दकोश फ़ाइल है?
एंड्रॉइड के लिए पॉकेट स्फीक्स को इस्तेमाल करने की कोशिश करने से पहले, मैंने Google की आवाज पहचान एपीआई का इस्तेमाल किया था मुझे एक खोज नाम या एक शब्दकोश फ़ाइल सेट करने की आवश्यकता नहीं थी यह सिर्फ हर शब्द को पहचान लिया गया था जिसे बताया गया था।
Google एपीआई शब्दों के एक बड़े लेकिन अभी भी सीमित सेट को पहचानता है। एक लंबे समय के लिए यह "स्पॉटिफ़ी" को पहचानने में विफल रहा। Google ऑफ़लाइन भाषण पहचानकर्ता उनके प्रकाशन में बताए गए अनुसार 50k शब्दों का उपयोग करता है
मैं बस पूछना चाहता हूं, कैसे मैं कुछ खोज नाम सेट कर सकता हूं, या मैं इसे कैसे उपलब्ध कर सकता हूं (या उनमें से बड़ी मात्रा में भी) इन शब्दों को पहचानने के लिए? हो सकता है कि कोई बड़ी शब्द संख्या के साथ एक शब्दकोश फ़ाइल है?
डेमो में एक भाषा मॉडल (पूर्वानुमान भाग) के साथ बड़ी शब्दावली का भाषण मान्यता शामिल है। डाउनलोड के लिए उपलब्ध अंग्रेजी भाषा के लिए बड़ा भाषा मॉडल है, उदाहरण के लिए एन-यूएस जेनेरिक भाषा मॉडल ।
मान्यता को चलाने के लिए सरल कोड ऐसा है:
recognizer = defaultSetup() .setAcousticModel(new File(assetsDir, "en-us-ptm")) .setDictionary(new File(assetsDir, "cmudict-en-us.dict")) .getRecognizer(); recognizer.addListener(this); // Create keyword-activation search. recognizer.addNgramSearch(NGRAM_SEARCH, new File(assetsDir, "en-us.lm.bin");); // Start the search recognizer.startListening(NGRAM_SEARCH);
हालांकि, वे उपकरण में फिट होने और रीयलटाइम में डीकोड करने में आसान नहीं हैं। अगर आप बड़े शब्दकोष के साथ रीयलटाइटल में भाषण को डीकोड करना चाहते हैं, तो आपको किसी सर्वर पर ऑडियो स्ट्रीम करना होगा या आपको सामान्य अंग्रेजी के कुछ छोटे सबसेट में शब्दावली और भाषा को सीमित करना होगा। आप ट्यूटोरियल में CMUSphinx में वाक् पहचान के बारे में अधिक जान सकते हैं।