कंपनियां

बड़ा अवसर या बड़ी चुनौती? भारत की क्षेत्रीय भाषाओं पर एआई का प्रभाव

यदि हम क्षेत्रीय भाषाओं के लिए मजबूत मॉडल विकसित नहीं करते हैं, तो अंग्रेजी पर निर्भरता बढ़ सकती है। इससे क्षेत्रीय भाषाओं को खतरा उत्पन्न हो सकता है।

Published by
अंशु   
Last Updated- September 15, 2024 | 3:26 PM IST

हनुमान एआई को विकसित करने वाली कंपनी एसएमएल जेनरेटिव एआई के संस्थापक डॉ. विष्णु वर्धन का मानना है कि एआई, भारतीय भाषाओं की पहुंच बढ़ाने में अहम साबित हो सकता है लेकिन इसके साथ कुछ जोखिम भी जुड़े हुए हैं। ऐसे में सावधानी बरतना आवश्यक है। अंशु के साथ बातचीत के संक्षिप्त अंश

आर्टिफिशल इंटेलिजेंस (एआई) भारतीय भाषाओं पर क्या असर डालने वाला है? अगले एक दशक में एआई भाषाओं को किस तरह प्रभावित करेगा।

आर्टिफिशल इंटेलिजेंस भारतीय भाषाओं की पहुंच बढ़ाने का एक बड़ा अवसर प्रदान करता है लेकिन इसके साथ एक अहम जोखिम भी जुड़ा हुआ है। आगामी एक दशक में जेनरेटिव एआई का चलन आम हो जाएगा। यदि हम क्षेत्रीय भाषाओं के लिए मजबूत मॉडल विकसित नहीं करते हैं, तो अंग्रेजी पर निर्भरता बढ़ सकती है। इससे क्षेत्रीय भाषाओं को खतरा उत्पन्न हो सकता है। अगर हम इन भाषाओं के लिए एआई मॉडल, विशेष रूप से वॉयस-बेस्ड मॉडल विकसित करते हैं, तो शिक्षा, संचार और मनोरंजन के क्षेत्र में इनका उपयोग बढ़ सकता है।

क्षेत्रीय भाषाओं के लिए मॉडल विकसित करने में दो चुनौतियां सामने आ रही है। पहली चुनौती डेटा-सेट और दूसरी संसाधनों की कमी है। शुरुआती दौर में कुछ ही कंपनियां इस पर ध्यान केंद्रित कर रही हैं। सरकारी समर्थन और ओपन-सोर्स डेटा इन भाषाओं के लिए मॉडल विकसित करने और एक मजबूत इको-सिस्टम बनाने के लिए महत्वपूर्ण हैं। इन प्रयासों के बिना, अंग्रेजी हावी हो सकती है, लेकिन सही प्रोत्साहन के साथ, क्षेत्रीय भाषाएं डिजिटल स्पेस में तेजी से फल-फूल सकती हैं।

एआई नई तकनीक है। जब हम अपनी क्षेत्रीय भाषाओं में चैटबॉट या एआई असिस्टेंट बनाने की बात करते हैं, तो डेटा-सेट कहां से आएगा और इसे कैसे पाया जा सकता है?

डेटा सेट को तकनीकी भाषा में ‘टोकन’ कहा जाता है। हिंदी, मराठी, बांग्ला, तमिल, तेलुगु या अन्य क्षेत्रीय भाषाओं में एआई चैटबॉट या असिस्टेंट विकसित करने में चुनौतियां होती हैं, क्योंकि इन भाषाओं के लिए सीमित डेटा सेट या टोकन उपलब्ध हैं। जबकि अंग्रेजी के लिए पर्याप्त डेटा है, क्योंकि अधिकांश ऑनलाइन कंटेंट अंग्रेजी में है।

स्थानीय मीडिया, सरकारी संस्थान और सोशल मीडिया तेजी से क्षेत्रीय भाषाओं में कंटेंट तैयार कर रहे हैं। ऐसे में इन भाषाओं में डेटा सेट की संभावना मजबूत हुई है। इन भाषाओं के लिए एआई मॉडल बनाने के लिए, हम मीडिया संगठनों, सरकारी निकायों और पब्लिक डोमेन से डेटा का उपयोग कर सकते हैं। हम एनवीडिया जीपीयू जैसे टूल्स का उपयोग करके सिंथेटिक डेटा भी उत्पन्न कर सकते हैं। इसके अलावा, कई भारतीय भाषाओं की जड़ें संस्कृत में हैं, जिससे कुछ सामान्य डेटा सेट का उपयोग विभिन्न भाषाओं में किया जा सकता है।

बाजार में उपलब्ध लगभग सभी एआई मॉडल ट्रांसलेशन की सुविधा दे रहे हैं। एआई मॉडल ट्रांसलेशन के लिए किन बुनियादी सिद्धांतों का उपयोग कर रहे हैं। शब्दों के भाव को समझना जेनरेटिव एआई के लिए कितना मुश्किल है?

अनुवाद के लिए ट्रांसलेशन टूल का उपयोग अक्सर सटीक नहीं होता, और यही कारण है कि इस तरह से क्षेत्रीय भाषा में अनुवादित कंटेंट के यूजर्स कम होते हैं। अधिकांश ट्रांसलेशन टूल पहले किसी भाषा को अंग्रेजी में बदलते हैं और फिर अंग्रेजी से उस भाषा में अनुवाद करते है, जिस भाषा में यूजर्स कंटेंट का उपभोग करना चाहता है। ऐसे अनुवाद में दो बार संदर्भ और सांस्कृतिक बारीकियों को नजरअंदाज करने का भय हमेशा बना रहता है। ऐसे में कई बार अनुवाद संदर्भ से बाहर हो सकता है या अर्थ पूरी तरह से बदल सकता है, जिससे वे अविश्वसनीय हो जाते हैं। तकनीकी रूप से सटीक अनुवाद के लिए हम मूल भाषा में लार्ज लैंग्वेज मॉडल बना सकते हैं, जिसमें संबंधित डेटा सेट का उपयोग किया जाए।

उदाहरण के लिए, अनुवाद करने के बजाय, हमने अंग्रेजी और हिंदी टोकन दोनों का उपयोग करके एक हिंदी मॉडल बनाया है। इससे मॉडल हिंदी भाषा के शब्दों के संदर्भ और सांस्कृतिक विशेषताओं को सीधे समझ और उत्पन्न कर सकता है, जिसमें क्षेत्रीय विविधताओं और “हिंग्लिश” जैसी मिश्रित-भाषा के उपयोग को शामिल किया जा सकता है। ट्रांसलेशन टूल इस स्तर की सटीकता प्रदान नहीं कर सकते, विशेष रूप से तकनीकी या गंभीर कंटेंट के लिए, जिससे मूल भाषा मॉडल बेहतर विकल्प बन जाते हैं।

भारत में एआई द्वारा ऑपरेट होने वाले ट्रांसलेशन टूल का बाजार कितना बड़ा है?

भारत में लगभग 50 करोड़ इंटरनेट यूजर्स क्षेत्रीय भाषाओं का उपयोग करते हैं। देश में एआई द्वारा ऑपरेट होने वाले ट्रांसलेशन टूल का बाजार लगभग 20 अरब डॉलर का है। इसमें ई-कॉमर्स की हिस्सेदारी 20 प्रतिशत है, जो लगभग 4 अरब डॉलर के आस-पास है। बेहतर अनुवाद के साथ, बिक्री में 20 प्रतिशत तक की वृद्धि हो सकती है, जिससे संभावित बाजार 10 अरब डॉलर तक बढ़ सकता है।

ऑनलाइन शिक्षा एक और प्रमुख क्षेत्र है, जिसके पांच साल में 10 अरब डॉलर के बाजार में बदलने की संभावना है। मीडिया अनुवाद, डबिंग, और सबटाइटलिंग 2 से 5 अरब डॉलर की हिस्सेदारी रखते हैं, जबकि बिजनेस के लिए सामान्य अनुवाद सेवाओं का बाजार लगभग 5 से 7 अरब डॉलर के आस-पास हैं।

कुल मिलाकर, AI-पावर्ड ट्रांसलेशन टूल के लिए बाजार दर्जनों अरब डॉलर तक फैला हुआ है। जेनरेटिव एआई से पहले, मौजूदा ट्रांसलेशन टूल सटीकता की कमी के कारण प्रभावी नहीं थे। अब, जेनरेटिव एआई की प्रगति के साथ, टूल ज्यादा सटीक अनुवाद सुविधा प्रदान कर रहे हैं।

वर्तमान में हर एआई मॉडल घाटे में चल रहा है। हाल ही में माइक्रोसॉफ्ट सीएफओ ने कहा था कि निवेश वापस पाने में 15 साल तक का समय लग सकता है। जेनरेटिव एआई से एक लाभदायक बिजनेस बनाने में कितना समय लगेगा?

हां, मैं इससे पूरी तरह सहमत हूं। मौजूदा एआई टूल बेहद महंगे हैं, क्योंकि इन्हें बनाने में भारी निवेश किया गया है, जिससे इनके उपयोग की लागत बढ़ जाती है। हालांकि, हम अपने ‘हनुमान मॉडल’ के साथ एक अलग दृष्टिकोण अपना रहे हैं। इसे एक लीन, कुशल तरीके से बनाया गया है, जिससे इसका उपयोग कहीं अधिक किफायती होगा। हमने अभी तक एपीआई या टोकन की लागत को अंतिम रूप नहीं दिया है, लेकिन हमारी कीमतें काफी कम होंगी, जो कंपनियों और जेनरेटिव एआई यूजर्स के लिए निवेश पर बेहतर रिटर्न प्रदान करेंगी।

जिन मॉडलों को भारी बजट के साथ बनाया गया है, उनके लिए लागत वसूलने में वर्षों लग सकते हैं, लेकिन हमारा ध्यान भारत की 28 आधिकारिक भाषाओं के लिए एक बहुभाषी एआई मॉडल बनाने पर है, जो बिना भारी खर्च के समान परिणाम प्रदान करता है। हमारे लीन दृष्टिकोण के कारण, हम अन्य एआई कंपनियों की तुलना में कहीं जल्दी लाभ कमाने की उम्मीद करते हैं।

First Published : September 15, 2024 | 3:26 PM IST