टेक-ऑटो

डिजिटल दुनिया में वॉयस AI की क्रांति: ‘डिफॉल्ट’ मोड बनेगा आवाज, इलेवनलैब्स ने भारत में कसी कमर

इलेवनलैब्स के सह-संस्थापक मैटी स्टनीशेवस्की के अनुसार भविष्य में सभी डिजिटल प्लेटफॉर्म्स पर वॉयस एआई डिफॉल्ट रूप से उपलब्ध होगा जिससे मानव-मशीन संवाद अधिक स्वाभाविक बनेगा

Published by
आशीष आर्यन   
शिवानी शिंदे   
Last Updated- February 16, 2026 | 11:09 PM IST

सेकोया कैपिटल और आंद्रेसेन होरोविट्ज (ए16जेड) द्वारा समर्थित वॉयस एआई प्लेटफॉर्म इलेवनलैब्स उन पहली कंपनियों में से है, जिसने सिंथेटिक स्पीच से आगे जाकर अब एआई से उत्पन्न आवाज को स्वाभाविक और मानवीय बना दिया है। इंडिया एआई इम्पैक्ट समिट के लिए भारत आए कंपनी के सह-संस्थापक और सीईओ मैटी स्टनीशेवस्की ने आशिष आर्यन और शिवानी शिंदे से बातचीत की। पेश हैं प्रमुख अंश…

भारत जैसे देश के लिए आप वॉयस एआई की चुनौती को कैसे हल करेंगे, जहां उच्चारण, लहजे और आवाज को सही करने के लिए जरूरी डेटा की विशाल मात्रा और विविधता बहुत जटिल है?

बाजार में हमने देखा है कि प्रक्रिया का समय और आवाज की गुणवत्ता जैसे दो कारक यह तय करते हैं कि कोई वॉयस एजेंट वास्तव में काम करता है या नहीं। आवाज की गुणवत्ता क्षेत्र, भाषा और उपयोग के अनुसार अलग-अलग होती है। मॉडलिंग के दृष्टिकोण से, हमारा पहला कदम एक ऐसी आधारभूत संरचना का निर्माण करना था जो भाषाओं में विस्तार करने के लिए पर्याप्त सारगर्भित हो। हमने वर्तमान में 11 भारतीय भाषाओं के लिए इस दिशा में काम करना शुरू कर दिया है और आने वाले महीनों में 22 भाषाओं को कवर कर लेंगे।

अब कंपनियां एक या दो भाषाओं तक सीमित रहने के बजाय विभिन्न क्षेत्रों में जा रही हैं। दूसरा स्तर बोली और आवाज की भिन्नता है। किसी भाषा का समर्थन करना पर्याप्त नहीं है- आपको विभिन्न लहजे, आयु वर्ग, लिंग, टोनल स्टाइल और उपयोग के मामले के अनुसार विशिष्ट आवाजों की आवश्यकता होती है। इस मसले को हल करने के लिए हमने एक ‘वॉयस मार्केटप्लेस’ बनाया है, जहां लोग अपनी आवाज बना सकते हैं, हम इसे प्रमाणित करते हैं और जैसे ही उस आवाज का उपयोग शुरू होता है, निर्माता को मेहनताना मिल जाता है। आज हमारे पास भारत में विभिन्न शैलियों में लगभग 1,500 प्रोफेशनल-ग्रेड आवाजें उपलब्ध हैं। हमने इस तरह के पेशेवरों को 10 लाख डॉलर की रकम मेहनताने के रूप में वापस कर दी है।

आपके वॉयस एआई मॉडल का परिचालन पर क्या प्रभाव रहा है? क्या वे मनुष्यों के साथ काम कर रहे हैं या कहीं-कहीं उनकी जगह ले रहे हैं?

वॉयस एआई मॉडल को पिछले छह महीनों में सबसे ज्यादा कस्टमर केयर के एल1 लेयर पर लागू किया गया है जहां सबसे ज्यादा वार्तालाप होता है। मीशो, कार्स24, टीवीएस मोटर्स और एचडीएफसी बैंक जैसी कंपनियां इनबाउंड और आउटबाउंड वॉयस वर्कफ्लो को ऑटोमेटिक मोड में बदल रही है, जहां गति और निरंतरता सबसे अधिक मायने रखती है।  अब प्रतिक्रियाशील से सक्रिय वॉयस की ओर सबसे अधिक बदलाव हो रहा है। आवाज को ‘जब कोई समस्या हो तो हमें कॉल करें’ तक सीमित रखने के बजाय इसे ग्राहक के साथ वार्तालाप में शामिल किया जा रहा है।

कल्पना कीजिए कि आप एक ई-कॉमर्स प्लेटफॉर्म पर लॉग इन कर रहे हैं और एक वॉयस कंसीयज के साथ बातचीत कर रहे हैं, जो आपको नेविगेट करने में मदद करता है, आपके खरीदारी रिकॉर्ड के आधार पर उत्पाद पेश करता है और चीजों को पसंद करने में आपकी मदद करता है। यह एक बहुत ही अलग तरह की चीज है। हम जो पैटर्न देख रहे हैं, वह यह है कि एआई संरचित, दोहराए जाने वाले एल1 वर्कफ़्लो को संभालता है और मनुष्य बस जटिल, सूक्ष्म या अपवाद-आधारित मामलों में हस्तक्षेप करते हैं।

अगले तीन वर्षों में वॉयस एआई में क्या प्रगति होगी?

चार साल पहले एक कंपनी के रूप में शुरुआत के समय बातचीत की तकनीक को बदलने के बारे में काम करना था। हमें लगता है कि अब यह और भी अधिक वास्तविक नहीं हो सकता है। मुझे लगता है कि भारत उन पहले क्षेत्रों में से एक होगा, जहां हम इसका व्यापक विस्तार होता देखेंगे। इसका मतलब है कि सभी डिजिटल कामों में डिफॉल्ट रूप से आवाज होगी। चाहे आप कस्टमर केयर को कॉल करें या कोई वेबसाइट खोलें, वॉयस एजेंट, वॉयस कंसीयज आपकी मदद के लिए तैयार मिलेगा।

जैसा कि आप अपने आसपास के उपकरणों के साथ बातचीत करने के बारे में सोचते हैं, चाहे वह हार्डवेयर हो, एलेक्सा हो या सिरी, भविष्य में रोबोट आवाज के साथ उपलब्ध होंगे और आपकी मदद करेंगे। अब यह समीकरण बदल रहा है जब कहा जाता था कि मनुष्य को टेक्नॉलजी के साथ तालमेल बैठाने की सख्त जरूरत है।

अधिकांश प्रमुख एलएलएम कंपनियां मल्टीमॉडल बन रही हैं जो छवि, वीडियो और आवाज की पेशकश कर रही हैं। ऐसे में इलेवनलैब्स स्वयं को कहां पाती है?

हमने शुरुआत में जानबूझकर आवाज में विशेषज्ञता हासिल करने का विकल्प चुना। पहले दिन से हमने टेक्स्ट-टू-स्पीच, स्पीच-टू-टेक्स्ट और संवादी ऑर्केस्ट्रेशन जैसे आधारभूत आवाज मॉडल बनाए। उसके बाद एक पूर्ण प्लेटफॉर्म तैयार किया। हम मॉडल से प्लेटफॉर्म से एप्लिकेशन पर चले गए हैं। वह वर्टिकल इंटीग्रेशन महत्त्वपूर्ण है। आवाज हमारे लिए कोई सुविधा नहीं है, यह हमारी मूल क्षमता है।  

वॉयस क्लोनिंग और दुरुपयोग के जोखिम पर आपकी क्या राय है?

यह एक गंभीर मुद्दा है और हम इसके बारे में लगातार सोचते हैं। हम विश्व स्तर पर कुछ सबसे बड़े उद्यमों के साथ काम करते हैं। हमारी टेक्नॉलजी को अपनाने और हमारे इकोसिस्टम में आवाज निर्माता, दोनों ही तरह की कंपनियों के लिए विश्वास और विश्वसनीयता हमारे लिए सबसे जरूरी तत्त्व हैं।   इसके तीन मुख्य स्तंभ हैं। पहला है पहचान और पारदर्शिता। यह महत्त्वपूर्ण है कि लोग पहचान सकें कि कोई कंटेंट एआई से उत्पन्न है या नहीं। दूसरा, आवाज और टेक्स्ट दोनों स्तरों पर मॉडरेट करें और तीसरा, दुनिया भर की कंपनियों को न केवल हमारा उपयोग करने में मदद करें बल्कि यह भी सुनिश्चित करें कि उनके पास वाटरमार्किंग की क्षमता हो, ताकि वे इसका पता लगा सकें।

First Published : February 16, 2026 | 11:09 PM IST