Table of Contents
Universal Speech Model: १००० से भी ज़्यादा भाषाओं की पहचान करने में है सक्षम
Universal Speech Model: यूनिवर्सल स्पीच मॉडल Automatic Speech Recognition Scaling के आधार पर १००० से भी ज़्यादा भाषओं की पहचान कर सकता है।
तकनीकी क्षेत्र में दिग्गज गूगल ने OpenAI को टक्कर देने के लिए अपने नए Universal Speech Model (USM) के अपडेट को पेश कर दिया है। दरअसल, यह एक १,००० भाषाओं को सपोर्ट करने वाला एक स्पीच मॉडल है। Universal Speech Model को लेकर रिसर्चर का कहना है कि Automation Speech Recognition के सभी सेगमेंट के लिए यह ओपनएआई (OpenAI) से बेहतर प्रदर्शन करता है। जैसे कि यह बेहतर यूट्यूब कैप्शन लिख सकता है।
क्या है Google का Universal Speech Model?
Universal Speech Model, स्पीच मॉडल का एक ग्रुप है, जिसमें दो बिलियन पैरामीटर हैं और इसे १२ मिलियन घंटे के स्पीच का बहुत सारा डाटासेट और ३०० से अधिक भाषाओं को कवर करने वाले टेक्स्ट के २८ बिलियन वाक्यों पर प्रशिक्षित किया गया है। इस मॉडल का उपयोग बंद कैप्शन के लिए YouTube में किया जाता है और न केवल व्यापक रूप से बोली जाने वाली भाषाओं पर, बल्कि अम्हारिक, सेबुआनो, असमिया और अजरबैजानी जैसी कुछ भाषाओं पर भी Automatic Speech Recognition का परफॉर्म कर सकता है।
गूगल के अनुसार, USM यानी Universal Speech Model ऑटोमेटिक स्पीच रिकग्निशन स्केलिंग के आधार पर १००० से भी ज़्यादा भाषओं की पहचान कर सकता है। वहीं इस मॉडल की मदद से बहुभाषी डाटासेट की भी पहचान की जा सकती है।
कंपनी के अनुसार, इस मॉडल की मदद से Encoder को Pre-Train करने के लिए इस्तेमाल किया जा सकता है और ट्रेनिंग प्रक्रिया में नई भाषाओं और डाटा को प्रभावी ढंग से इस्तेमाल किया जा सकता है। आसान शब्दों में कहें तो इस मॉडल की मदद से कई भाषाओं के डाटा को आसानी से फिल्टर किया जा सकता है और उसे कंटेंट और स्पीच के लिए भी उपयोग किया जा सकता है।
OpenAI से बेहतर हो सकता है USM?
रिसर्चर ने इस मॉडल के साथ Youtube Captions के बहुभाषी स्पीड डाटा पर Fine-Tuning के माध्यम से Pre-Trend Encoder की प्रभावशीलता का प्रदर्शन भी किया। Youtube के सीमित डाटा के बावजूद, मॉडल ने ७३ भाषाओं में औसतन ३० प्रतिशत से कम शब्द Error किए, जो पहले कभी हासिल नहीं हुआ था। रिसर्चर के अनुसार, USM Automation Speech Recognition के सभी Segment में OpenAI से भी बेहतर प्रदर्शन करता है।
Machine Learning पर आधारित है USM
आपको बता दें कि Machine Learning Model को बनाने के लिए Google ने दुनियाभर की सबसे अधिक बोली जाने वाली १,००० भाषाओं का इस्तेमाल किया है। इसे पहली बार नवंबर २०२२ में पेश किया गया था। हालांकि, इसमें कुछ भाषाएँ २ करोड़ से भी कम लोगों द्वारा बोली जाती हैं, इसलिए गूगल इनके सीमित उपलब्ध डाटा और कुछ स्पीकर के आधार पर डाटा कलेक्ट कर रहा है। इस Machine Learning Model में लगभग सभी भाषाओं से डाटा कलेक्ट कर Universal Speech Model तैयार किया जा रहा है। यानी Google का नया Universal Speech Model सभी भाषाओं में ज़्यादा सटीक जानकारी दे सकेगा।
यह भी पढ़ें-
1 thought on “Universal Speech Model”