ASTANA — Institut za pametne sisteme i veštačku inteligenciju (ISSAI) na Univerzitetu Nazarbajev predstavljeno Predsjednik Kasym-Jomart Tokayev s prvim velikim jezičkim modelom u Kazahstanu (LLM), označivši značajnu prekretnicu u napredovanju zemlje u svjetsku arenu umjetne inteligencije (AI).
Baziran na tehnologiji neuronske mreže, projekat služi kao osnova za kazahstansku verziju ChatGPT-a.
“KazLLM je kamen temeljac na kojem kazahstanska IT zajednica može graditi buduće proizvode i usluge koristeći domaće inovacije,” rekla je Madina Abdrakhmanova, zamjenica direktora za vanjske odnose ISSAI-ja i vodeći naučnik za podatke, u intervju sa Kazinformom.
Naglasila je kritičnu potrebu za modelom domaćeg jezika i navela rizike korištenja besplatnih ChatGPT verzija.
“Besplatne verzije rade po principu da plaćate svojim podacima umjesto novcem. Podaci su novo zlato. Mnogi ne shvaćaju rizike, posebno za vladine agencije. Državna tijela moraju koristiti certificirane aplikacije koje se nalaze u Kazahstanu”, rekla je Abdrakhmanova.
Kazahstan se pridružuje zemljama kao što su Južna Koreja, Kina, Ujedinjeni Arapski Emirati, Ujedinjeno Kraljevstvo i Francuska u razvoju jezičkih modela prilagođenih njihovom kulturnom i istorijskom kontekstu.
AI s lokalnim dodirom
Osnovan 2019. godine, ISSAI je započeo s malim timom fokusiranim na unapređenje istraživanja umjetne inteligencije i izgradnju skupova podataka za kazahstanski jezik. Rad na KazLLM-u počeo je u aprilu 2024. godine, a zbog nedostatka domaće serverske infrastrukture, tim se za obuku oslanjao na cloud provajdere.
“Oko 95% podataka dolazi iz otvorenih izvora, s dodatnim podacima generiranim kroz prijevode koristeći naše najbolje prakse. Naš tim uključuje inženjere mašinskog učenja i kvalifikovane lingviste“, rekla je Abdrahmanova.
Tim je prikupio preko 150 milijardi tokena za projekat, koji se oslanja na modele zasnovane na transformatorima koji zahtevaju milijarde parametara. Razvijaju dvije verzije: model sa 8 milijardi parametara i model sa 70 milijardi parametara.
“Naš model razumije kazahstanski, ruski, engleski i turski i može obavljati zadatke kao što su prevođenje i sažimanje teksta, koji su posebno korisni za analitički rad”, rekla je.
Abdrakhmanova je istakla planove instituta da omogući modelu da obrađuje glas i slike. „Globalno, mnogi proizvodi kombinuju jezičke modele sa razumevanjem slike, ali mnogo manje adresa za obradu zvuka. To je još složeniji izazov, ali radimo na tome”, rekla je ona.
ISSAI tim ranije razvijeno Soyle App, prva kazahstanska multifunkcionalna aplikacija zasnovana na govoru. Za razliku od KazLLM, istraživačkog projekta, Soyle App je potpuno razvijen proizvod zasnovan na ranijim istraživanjima i lansiran je 20. novembra.
Aplikacija Soyle može prevoditi između kazahstanskog, ruskog, engleskog i turskog, pretvarajući govor u tekst i tekst u govor. Iako još nije u realnom vremenu, dalji razvoj je u toku.
Mogućnosti i izazovi
Abdrakhmanova je istakla važnost zadržavanja lokalnih talenata. KazLLM projekat uključuje studente sa Univerziteta Nazarbayev, IT Univerziteta Astana, diplomce Bolashak stipendije i drugih lokalnih institucija.
„Mnogi talentovani studenti napuštaju Kazahstan radi mogućnosti u inostranstvu. Ovakvi projekti nam omogućavaju da ih zadržimo tako što ćemo ih uključiti u uzbudljiv i smislen posao”, rekla je ona.
Prema riječima Abdrakhmanove, projekat je obučio tim od 70 ljudi.
„Razvijanje velikih jezičkih modela je rijetkost u svijetu. Prilika da podijelimo ovo iskustvo i obučimo našu omladinu bila je neprocjenjiva. Naši mladi ljudi su jedinstveni – motivisani, brzi za učenje i sposobni da postignu velike stvari”, rekla je.
Abdrakhmanova je identifikovala podatke, ljudski kapital i opremu kao tri kritične komponente razvoja veštačke inteligencije.
“Trenutno smo jedina akademska organizacija u centralnoj Aziji sa Nvidia serverima, primarnim dobavljačem AI čipova i infrastrukture. Međutim, izazovi u snabdevanju koče naš napredak”, rekla je ona.
Ona je dodala da, iako se finansiranje i talenti mogu osigurati, potreba za naprednim domaćim serverima predstavlja značajno usko grlo.
„Ako kupimo servere za Kazahstan, steći ćemo ne samo iskustvo u obučavanju modela već i sposobnost rada sa ovim serverima“, rekla je Abdrakhmanova.