КҮРДЕЛІ МОРФОЛОГИЯЛЫҚ ҚҰРЫЛЫМЫ БАР ТІЛГЕ АРНАЛҒАН ЗАМАНАУИ ТІЛДІК МОДЕЛЬДЕУ ӘДІСТЕРІН ЗЕРТТЕУ
DOI:
https://doi.org/10.32014/2023.2518-1726.209Ключевые слова:
языковое моделирование, казахский язык, n-граммы, BERT, GPT, LSTMАннотация
Данная научная статья представляет сравнительный анализ современных методов языкового моделирования и их применение к агглютинативному языку, как казахский язык. Языковая модель — это тип модели машинного обучения, обученной проводить распределение вероятностей по словам. Языковая модель пытается предсказать следующее наиболее подходящее слово для заполнения пробела в предложении или фразе, исходя из контекста определенного текста. Основной акцент сделан на изучение модели BERT (Bidirectional Encoder Representations from Transformers) и ее способности эффективно моделировать языки, характеризующиеся морфологической разнообразностью. В статье представлен обзор n-граммных моделей, рекуррентных нейронных сетей и их ограничений в улавливании долгосрочных зависимостей и семантических отношений в тексте. Затем подробно рассмотрена модель BERT, ее архитектура и принципы работы, включая механизмы внимания и многоуровневые Transformer блоки. Далее представлены результаты исследования, включающие адаптацию модели BERT к языкам со сложной морфологической структурой, включая казахский язык. Показано, что модель BERT демонстрирует высокую точность в моделировании контекстуальных зависимостей и семантических отношений между словами в таких языках. статья подчеркивает значимость и перспективы применения современных методов языкового моделирования, особенно модели BERT, для языков со сложной морфологической структурой. Она также указывает на необходимость дальнейших исследований в области адаптации модели BERT к конкретным языкам, разработки новых архитектур и методов, а также решения вызовов, связанных с редкими и малораспространенными языками Полученные результаты этого исследования помогут улучшить понимание и эффективность языковой обработки текста на казахском языке, а также способствуют развитию области NLP в целом.