7 доллардан басталған қазақ тілі: SozKZ тілдік моделі – отандық AI-дың жаңа кезеңі

Қазақстанда жасанды интеллект саласында маңызды қадам жасалды. Қазақстандық ML-инженер Сакен Тукеновқазақ тіліне арналған SozKZ атты ашық тілдік модельдер отбасын таныстырды. Ерекшелігі – бұл модельдер нөлден бастап оқытылып, толық инженерлік стегімен бірге ашық түрде жарияланған.
2026 жылғы 21 наурызда arXiv платформасында SozKZ туралы ғылыми препринт жарық көрді. Жобамен бірге модельдердің өзі, датасеттер, токенизатор, оқыту коды және бенчмарк нәтижелері де көпшілікке қолжетімді болды. Бұл – қазақ тілі үшін бұрын-соңды болмаған ашық әрі толыққанды AI экожүйесінің қалыптасуы деген сөз.
SozKZ жобасы Llama архитектурасына негізделген. Модельдер 50 миллионнан 600 миллионға дейінгі параметрлерді қамтиды және шамамен 9 миллиард қазақша токеннен тұратын деректер қорында оқытылған. Сонымен қатар жоба аясында 50 мың бірліктен тұратын жеке BPE-токенизатор жасалған, ол қазақ тілінің агглютинативті ерекшеліктерін ескеруге мүмкіндік береді.
Жобаның тағы бір таңғаларлық тұсы – оның қолжетімділігі. Шағын модельдерді оқыту құны небәрі 7–17 доллар аралығында болса, флагман 600M модель шамамен 50 долларға оқытылған. Оқыту процесі Vast.ai сервисі арқылы жалға алынған GPU-ларда автоматтандырылған пайплайн көмегімен жүзеге асқан.
Тестілеу нәтижелері де назар аударарлық. Үш қазақтілді бенчмарк бойынша SozKZ-дің 600M моделі бәсекеге қабілетті екенін көрсетті. Мәселен, мәдениетке қатысты сұрақ-жауап тапсырмаларында ол өзінен екі есе үлкен Llama 3.2 1B моделінің нәтижелеріне жақындаған. Ал SIB-200 тақырыптық классификациясында көлемі 2 миллиард параметрге дейінгі мультитілді модельдердің барлығынан озып шыққан.
Бүгінге дейін қазақ тілі үшін арнайы нөлден бастап оқытылған, әрі толық ашық түрде ұсынылған тілдік модельдер іс жүзінде болмаған. Қолданыстағы шешімдердің көпшілігі қазақ тілін үстірт қамтитын ірі мультитілді жүйелер немесе жабық корпоративтік өнімдер болатын. SozKZ осы олқылықтың орнын толтырып отыр: деректерден бастап дайын модельге дейінгі барлық кезең ашық әрі қайта қолдануға мүмкіндік береді.
Жобаның практикалық маңызы да зор. SozKZ модельдерін корпоративтік жүйелерде, мобильді қосымшаларда, білім беру платформаларында, колл-орталықтарда, құжаттарды іздеу мен жіктеуде, сондай-ақ грамматиканы түзету сияқты түрлі NLP міндеттерінде қолдануға болады. Шағын көлемінің арқасында бұл модельдер қымбат инфрақұрылымсыз-ақ тиімді жұмыс істейді.
Жоба авторы Сакен Тукенов бұл бастаманың мәнін былай түсіндіреді:
«Мәселе тағы бір модель жасауда емес. Мәселе – біз әлемге өзіміздің технологиямызды ұсынып, тек дайын шешімдерді пайдаланумен шектелмеуімізде. Ол үшін ашық инженерлік база қажет. SozKZ – соған жасалған алғашқы қадам».
Қорытындылай келе, SozKZ – тек бір жоба емес, қазақ тілінің цифрлық болашағына жасалған инвестиция. Бұл бастама отандық AI саласының дамуына серпін беріп, Қазақстанның технологиялық тәуелсіздігін нығайту жолындағы маңызды кезеңдердің бірі болмақ.



