`StartUp' சாகசம் 22: ஆசிரியர் குரலிலேயே ஆடியோ புத்தகம்; இன்னும் பல மேஜிக்! – இது `India Speaks’ கதை

தமிழ் மொழி, காலத்தால் அழியாத இலக்கியத்தையும், பண்பாட்டையும் தன்னகத்தே கொண்டுள்ள ஒரு தொன்மையான மொழி. ஏறக்குறைய இரண்டாயிரம் ஆண்டுகளுக்கு மேலான தொடர்ச்சியான வரலாற்றைக் கொண்டது. சங்க காலம் தொடங்கி இன்றுவரை, தமிழ் பல்வேறு மாற்றங்களையும், புதுப்பித்தல்களையும் கண்டு வந்துள்ளது.

கல்வெட்டுகளிலும், செப்பேடுகளிலும் பொறிக்கப்பட்டிருந்த தமிழ், பின்னர் இலக்கியங்கள், காப்பியங்கள் என வளர்ந்து, அச்சு ஊடகத்திலும் வந்து புதிய பரிணாமம் பெற்றது.

இருபதாம் நூற்றாண்டில், கணினி மற்றும் இணையத்தின் வருகை தமிழுக்கு ஒரு புதிய தளத்தை அமைத்துக் கொடுத்தது. தமிழ் எழுத்துருக்கள் உருவாக்கப்பட்டன. இணையத்தில் தமிழ் தகவல்கள் பரவலாகக் கிடைக்கத் தொடங்கின. சமூக ஊடகங்களின் வருகை, உலகெங்கிலும் உள்ள தமிழர்களை ஒன்றிணைத்தது மட்டுமின்றி, புதிய சொற்கள் மற்றும் பயன்பாட்டு முறைகளையும் தமிழுக்கு அறிமுகப்படுத்தியது.

தமிழ் மொழி

இன்று, செயற்கை நுண்ணறிவு (Artificial Intelligence) தொழில்நுட்பம் வளர்ந்து வரும் நிலையில், ஜெனரல் ஏஐ (GenAI) தமிழுக்கு எண்ணற்ற வாய்ப்புகளை வழங்குகிறது.

ஜென் ஏஐ மற்றும் தமிழ் மொழி: புதிய வாய்ப்புகள்

* குரலில் இருந்து உரைக்கு (Voice to Text): ஜெனரல் ஏஐ தொழில்நுட்பம், தமிழ் பேச்சுக்களை துல்லியமான உரையாக மாற்றும் திறனைக் கொண்டுள்ளது. இது, ஊடகத்துறை, கல்வித்துறை மற்றும் அன்றாட தகவல் பரிமாற்றத்திற்கு மிகவும் பயனுள்ளதாக இருக்கும். உதாரணமாக, கூட்டங்கள் மற்றும் உரையாடல்களை உடனடியாக எழுத்து வடிவில் பெற முடியும். வேறு மொழியாக இருந்தாலும் நம்மால் மொழி மாற்றம் செய்துகொள்ள முடியும்

* உரை உருவாக்கம் (Text Generation): ஜென் ஏஐ மூலம், கட்டுரைகள், கவிதைகள், கதைகள் மற்றும் வணிக ரீதியான உள்ளடக்கங்களை தமிழில் உருவாக்க முடியும். இது, உள்ளடக்கத்தை விரைவாகவும், அதிக அளவிலும் உருவாக்க உதவுகிறது. சந்தைப்படுத்துதல் மற்றும் விளம்பரத் துறைகளில் இது ஒரு புரட்சியை ஏற்படுத்தும்.

* படங்கள் மற்றும் வீடியோக்கள் உருவாக்கம் (Image and Video Generation):

ஜெனரல் ஏஐ தொழில்நுட்பம், தமிழ் சொற்கள் மற்றும் கருத்துக்களைப் பயன்படுத்தி படங்களையும், வீடியோக்களையும் உருவாக்கும் திறனைக் கொண்டுள்ளது.

இது, கல்வி, பொழுதுபோக்கு மற்றும் விளம்பரத் துறைகளில் புதிய சாத்தியக்கூறுகளைத் திறக்கிறது. உதாரணமாக, தமிழ் கதைகளை அடிப்படையாகக் கொண்ட அனிமேஷன் வீடியோக்களை எளிதாக உருவாக்க முடியும்.

இந்த ஜென் ஏஐ தொழில்நுட்பங்கள், தமிழ் மொழியின் பயன்பாட்டை மேலும் பரவலாக்கவும், நவீன உலகிற்கு ஏற்ப புதுப்பிக்கவும் உதவும். கல்வி, வணிகம் மற்றும் தகவல் தொடர்பு போன்ற பல்வேறு துறைகளில் தமிழ் ஒரு முக்கியப் பங்காற்றும்.

இந்த புதிய தொழில்நுட்பங்களை ஏற்றுக்கொள்வதன் மூலம், தமிழ் மொழி மேலும் வலிமையடையும் என்பதில் சந்தேகமில்லை.

ஒவ்வொரு காலக்கட்டத்தில் பலரின் கூட்டு முயற்சியால் தமிழ் எப்படி இன்று வரை பயணப்பட்டு வந்ததோ GENAI காலத்திலும் பலரின் கூட்டு முயற்சியால் தமிழ் GENAI க்கும் வந்துவிட்டது. GEN AI யில் செய்தி உருவாக்கம், உரை- குரல் உணர்வி, குரல் – உரை உணர்வு, உரை-காணொளி உருவாக்கம் என பலக்கட்டமாக இருக்கும்போது தானியங்கு குரல் உணர்வியை உருவாக்கி அதோடு நமது குரல் வடிவிலேயே தகவலையும் பெற முடியும் வகையில் சென்னையை சேர்ந்த `இந்தியா ஸ்பீக்ஸ் ரிசர்ச் லேப்ஸ்’ நிறுவனம் உருவாக்கியுள்ளது

அதுமட்டுமல்லானல் முழுமையான இந்திய மொழிகளுக்கான குரல் தரவுமையத்தை உருவாக்கி வருகிறது

இந்த வாரம் ஸ்டார்ட் அப் சாகசத்தில் இந்தியா ஸ்பீக்ஸ் நிறுவனத்தின் துணை நிறுவனர் சசிதரன் அவர்களுடனான நேர்காணல் இதோ…

“இந்தியா ஸ்பீக்ஸ் தொடங்க எப்படி ஆர்வம் வந்தது? புதிய துறையில் பயணிக்க என்ன மாதிரியான சிக்கல்கள் எல்லாம் இருந்தது?”

“எனது சகோதரரும், இந்தியா ஸ்பீக்ஸ் ரிசர்ச் லேப்ஸ் நிறுவனத்தின் இணை நிறுவனர் மற்றும் தலைமை தொழில்நுட்ப அதிகாரியுமான டாக்டர் மாதவராஜ் அவர்களுடன் இந்திய மொழிகளின் மொழியியல் சிக்கல்களை தீர்க்கும் நோக்கில் எங்கள் நிறுவனம் தொடங்கப்பட்டது.

இந்திய அறிவியல் நிறுவனத்தில் (IISc) எனது சகோதரர் மேற்கொண்ட மொழியியல் முனைவர் பட்ட ஆய்வு, தகவல் திரட்டுதல், வினைமாற்றம் மற்றும் வடிவவியல் பண்புகள் , மொழியின் இலக்கண அமைப்புகள் போன்றவற்றை இந்திய மொழிகளின் தனித்துவங்களை ஆராய்ந்தார். இந்த சவால்கள் வெறும் கல்வி ரீதியாக மட்டுமல்லாது, நமது சமூகத்தின் மொழி அடையாளத்தையும் பிரதிபலிக்கின்றன என்பதையும் உணர்ந்தார்

India Speaks

ஆரம்பத்தில், இந்திய மொழிகளின் தானியங்கு ஒலி உணரி (Automatic Speech Recognition ASR) தொழில்நுட்பங்களை உருவாக்க, தேவையான உரைமொழி தரவுகள் கிடைக்கவில்லை என்பது மிகப்பெரிய தடையாக இருந்தது. இந்த சவாலை சமாளிக்க நாங்கள், நண்பர்கள், குடும்பத்தினர் மற்றும் கல்வி நிறுவனங்களின் உதவியுடன் மூன்று இந்திய மொழிகளுக்கான உரைமொழி தரவுகளை சேகரித்து, ஆரம்ப மாதிரிகளை பயிற்றுவித்தோம். மேலும், இந்த தரவுகளின் ஒரு பகுதியை கட்டற்ற மென்பொருளாக வெளியிட்டு, மாணவர்கள், ஆராய்ச்சியாளர்கள் மற்றும் ஸ்டார்ட்அப் நிறுவனங்களுக்கு பயன்படச் செய்தோம்.

குறிப்பாக நம் இந்திய மொழிகளுக்கு மொழித்தரவுகள் மிகவும் குறைவு, இந்த சூழலில், இந்திய மொழிகளுக்கான AI மாடல்கள் மட்டும் சிறப்பாகாவா இருக்கப்போகிறது என்று தோன்றியது. அதே சமயம் , இந்தியாவின் கல்வி, சுகாதாரம், நிர்வாகம் மற்றும் கிராமப்புற வளர்ச்சி போன்ற துறைகளில் குரல் அடிப்படையிலான தொடர்பு முக்கியத்துவம் வாய்ந்தது என்பதை உணர்த்தின. இந்த உணர்வே, இந்தியாவின் அனைத்து மொழிகளிலும் குரல் உணர்வுத் தொழில்நுட்பங்களை அடித்தட்ட மக்களுக்கும் அணுகக்கூடியதாக மாற்றும் நோக்கில் இந்தியா ஸ்பீக்ஸ் ரிசர்ச் லேப்ஸ் நிறுவனத்தை உருவாக்குவதற்கு தூண்டுகோலாக அமைந்தது.

“உலகளாவிய போட்டியாளர்களிடமிருந்து உங்கள் தனித்துவம் என்ன?”

“ElevenLabs போன்ற உலகளாவிய நிறுவனங்கள், பெரும்பாலும் ஆங்கிலம் மற்றும் மேற்கு மொழிகளின் குரல் உருவாக்கம் மற்றும் டப்பிங் சேவைகளில் முன்னிலை வகிக்கின்றன. ஆனால், இந்தியா ஸ்பீக்ஸ்-ன் முக்கிய வலிமை, ASR–TTS–மொழிபெயர்ப்பு மூன்றின் ஒருங்கிணைப்பில் உள்ளது, இது இந்திய மொழி சூழலுக்கு ஆதாதரமாக இணைந்துள்ளது.

இது எல்லாருக்குமே பயன்படும்.

எங்கள் தொழில்நுட்பம், வெறும் ஆடியோ தரத்தைப் பற்றியது அல்ல; இது சூழ்நிலை நுண்ணறிவு, உச்சரிப்பு பொருந்தும் திறன், பாரம்பரிய பொருள், பேச்சு வழக்கு வகை மற்றும் கலாசார உணர்வு ஆகியவற்றை உள்ளடக்கியது.

India Speaks

“நீங்கள் gen AI யில் தரவுகள் அடிப்படையில் எதிர்கொண்ட சிக்கல்கள் என்ன? ”

“பல்வேறு மொழிகள் கொண்ட நாட்டில் வலுவான குரல் சார்ந்த செயற்கை நுண்ணறிவு அமைப்புகளை உருவாக்குவது எளிதல்ல, இது, உயர் தரமான, குறிச்சொல்லிடப்பட்ட ஒருங்கிணைந்த ஆடியோ-உரை, ஒலியியல் அகராதிகள், ஒலிக்குழு பல்வகைமை மற்றும் பேச்சாளர் வகைமை ஆகியவற்றைத் அதிகரிக்கிறது . தொழில்நுட்ப ரீதியாக, நாங்கள் GPU கிளஸ்டர்கள் (A100/H100), மேம்பட்ட ஆழமான கற்றல் கட்டமைப்புகள் மற்றும் Tacotron, HiFi-GAN, CTC Decoder, DNN, CNN, RNN போன்ற தொழில்நுட்பங்களைப் பயன்படுத்துகிறோம்.

பல மொழிகளுக்கான ASR–TTS அமைப்புகளுக்கான அடிப்படை கட்டமைப்பை அமைக்க, ₹50–₹80 லட்சம் செலவாகும். தரமான ஒலி பயன்பாட்டிற்கு தனிப்பயனாக்கம், நுண்ணிய ஒலி அமைப்பு அமைத்தல் மற்றும் தொடர்ச்சியான மாதிரித்தகவல்கள் புதுப்பிப்பு ஆகியவை கூடுதல் செலவுகளை ஏற்படுத்துகின்றன.

ஆனால், இந்த சவால்களை தமிழ்நாடு, இந்தியா மற்றும் உலகளாவிய செயற்கை நுண்ணறிவு இயக்கத்தில் இந்தியாஸ்பீக்ஸ் ரிசர்ஸ் லேப் முன்னிலை வகிக்கக்கூடிய வாய்ப்பாக பார்க்கிறோம்.”

“உங்கள் பெரும் முயற்சிக்கு தேவைபடும் நிதிகளை எப்படி பெற்றீர்கள்? கேட்கும் அளவு கிடைக்கிறதா?”

“நாங்கள், எங்கள் தொழில்நுட்ப அறிவை நம்பி முதலில் சொந்த நிதியுடன் ஆராய்ச்சியைத் தொடங்கினோம்.

எங்களின் முதல்கட்ட முதலீட்டுக்கே நாங்கள் எங்கள் விவசாய நிலத்தை குத்தகைக்கு விட்டு அதிலிருந்து வந்தத் தொகையில் தான் முதல் செலவினங்களை எதிர்கொண்டோம்.

எங்கள் முதல் நிறுவன ஆதரவு, Startup India Seed Fund Scheme மூலம் கிடைத்தது, அதனைத் தொடர்ந்து Honeywell நிறுவனத்தின் CSR நிதி உதவி கிடைத்தது. Delhi Police உடனான கூட்டாண்மையில், அவசர பதிலளிப்பு அமைப்பை (ERSS-112) தானியங்கு முறையில் செய்ய ஒரு திட்ட மாதிரி ஒன்றை உருவாக்குவதற்கான பணியைப் பெற்றோம்.

பின்னர், StartupTN நிறுவனத்திடமிருந்து புத்தொழில் நிதி பட்டியலின மற்றும் பழங்குடி (SC /ST Fund) நிதி உதவி பெற்றோம், அதன்பின்னர் NVIDIA Inception, T-AIM மற்றும் Google for Startups போன்ற பிரபலமான நிறுவனங்களின் உறுப்பினர்களாக சேர்ந்தோம். இன்று, Periyar Social Justice Venture Lab உடன் இணைந்து, இந்திய அளவில் ஒரு அமைப்பு ஒன்றை உருவாக்குவதற்காக பெரும் முயற்சி எடுத்துவருகிறோம்

நாங்கள் தற்போது, IndiaAI Foundational Model திட்டம் போன்ற நிறுவன நிதி உதவிகள் மற்றும் தமிழ்நாட்டின் மாநில அளவிலான குரல் அடிப்படை அமைப்பை உருவாக்குவதற்கான அரசியல்-தனியார் கூட்டாண்மைகள் உருவாக்கவும் முயலுகின்றோம்”

India Speaks

`இதுவரை நீங்கள் செய்த திட்டப்பணிகள் பற்றி சொல்லுங்களேன்’

– எழுத்தாக இருந்த சாட்பாட்களை குரல் வழியாக ஊடாடும் தானியங்கு குரல் பாட் ஒன்றை உருவாக்கியுளலோம்

– தமிழ், இந்தி மற்றும் பிற இந்திய மொழிகளில் மற்றும் e-learning தளங்களுக்கு AI டப்பிங் மற்றும் மொழிபெயர்ப்பு கருவிகளைப் பரிசோதித்து ஒரு மென்பொருள் பரிசோதித்து வருகிறோம்.

– DRDO க்காக, எட்ஜ் சாதனங்களில் செயல்படக்கூடிய Mandarin ↔ Hindi நேரடி குரல் – மொழிபெயர்ப்பு இயந்திரத்தை உருவாக்கினோம்.

– கல்வி நிறுவனங்கள் மற்றும் தொடர்பு மையங்களுக்கு உரை-மொழி உருவாக்கத்தை செயல்படுத்தினோம், இதில் பார்வை குறைந்த மாணவர்களுக்கு ஆடியோ புத்தக மாற்றம் உள்ளிட்டவை அடங்கும்.

– எங்கள் LLM அடிப்படையிலான நியூரல் மெஷின் மொழிபெயர்ப்பு மாதிரி (ஆங்கிலம் ↔ தமிழ்), தமிழ் மாணவர்களுக்கு உள்ளடக்கத்தை அணுகக்கூடியதாக மாற்ற பல்கலைக்கழகங்களில் ஏற்கனவே பயன்படுத்தப்படுகிறது.

புத்தகங்களை அதன் ஆசிரியர் குரலிலேயே ஆடியோ புத்தகமாக மாற்றும் தொழில்நுட்பத்தை உருவாக்கிக்கொடுத்துள்ளோம்”

`அடுத்த 5 ஆண்டுகளில் உங்கள் எதிர்கால திட்டம் என்ன?’

“எங்கள் நோக்கம் தெளிவானது. நாங்கள், இந்தியாவிற்கான குரல் சார்ந்த LLM ஐ உருவாக்க விரும்புகிறோம், இது பல மொழிகள், பலமாதிரி மற்றும் உள்ளூர் நிலைபடுத்தக்கூடிய செயற்கை நுண்ணறிவு தளமாக இருக்கும், இது நேரடி மொழிபெயர்ப்பு, தேடல், அணுகல் மற்றும் கல்வியை இயக்கும்.

தமிழ்நாடு, இந்த பயணத்தில் முன்னிலை வகிக்க வேண்டும் என்று நாங்கள் விரும்புகிறோம். மொழியின் பெருமை மற்றும் தொழில்நுட்ப புதுமை ஆகிய இரண்டிலும் வலுவான பாரம்பரியத்துடன், நமது மாநிலம் இந்தியாவின் குரல் AI யின் புரட்சிக்கான மையமாக விளங்கவேண்டும். என்பதே எங்கள் ஆர்வம்

தமிழ்நாட்டில் தமிழ் மொழிக்கான AI க்கு ஒரு கூட்டமைபு ஒன்றினை உருவாக்கும் முயற்சியில் இருக்கிறோம், அதற்கு துறை சார் வல்லுநர்கள் அனைவரையும் வரவேற்கின்றோம்

தமிழ் மொழி எப்போதுமே ஆச்சர்யமானது. ஏனெனில் அது காலத்துக்கு ஏற்ப தன்னை மேம்படுத்திக்கொண்டே வந்துகொண்டிருக்கிறது. அதில் இந்தியா ஸ்பீக்ஸ் போன்ற நிறுவனங்களும் தனி நபர்களின் பங்களிப்பும் காலத்திற்க்கும் பேசப்படும்!

,

India Speaks

– கிராமப்புற பள்ளிகள் மற்றும் கிராமங்கள் போன்ற குறைந்த இணைப்பு சூழ்நிலைகளுக்கு ஏற்ப, ஆஃப்லைன் மற்றும் சாதனத்தில் செயல்படும் AI ஐ உருவாக்குகிறோம்.

– நேர்மையான மற்றும் பொறுப்பான AI கட்டமைப்புகளை உருவாக்குகிறோம், இதில் வாட்டர்மார்க்கிங், பயன்பாட்டு மேற்பார்வை மற்றும் குரல் ஒப்புதல் பாதுகாப்பு ஆகியவை அடங்கும்.

– மாநில மற்றும் மத்திய அரசுகள், கல்வி நிறுவனங்கள் மற்றும் பொது துறை அமைப்புகளுடன் இணைந்து, திறந்தவெளி குரல் தரவுத்தொகுப்புகள், அளவிடக்கூடிய கருவிகள் மற்றும் பயன்பாட்டிற்கு தயாரான தீர்வுகளை உருவாக்குகிறோம்.

நாங்கள் தமிழ்நாட்டின் செயற்கை நுண்ணறிவு கட்டமைப்பில் ஒரு முக்கியத் தூணாக உருவெடுக்க விரும்புகிறோம் மற்றும் இந்தியாவின் குரலை உலகளாவிய செயற்கை நுண்ணறிவு போட்டியில் முன்மாதிரியாக இருக்க செயல்படுவோம்.”

வாழ்த்துகள் சொல்லி விடைபெற்றோம்!

(சாகசம் தொடரும்..!)

Source link

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.