ИСПОЛЬЗОВАНИЕ НАБОРОВ ДАННЫХ NER НА КАЗАХСКОМ ЯЗЫКЕ ДЛЯ МУЛЬТИКЛАССИФИКАЦИИ В ПРАВОВОЙ СФЕРЕ: СРАВНИТЕЛЬНОЕ ИССЛЕДОВАНИЕ МОДЕЛЕЙ BERT, GPT И LSTM
DOI:
https://doi.org/10.32014/2025.2518-1726.337Ключевые слова:
NLP, LSTM, BERT, GPT, классификация текстовАннотация
В данном исследовании представлен углубленный сравни тельный анализ производительности трех ключевых подходов в области обработки естественного языка (NLP) — трансформеров, рекуррентных нейронных сетей и традиционных методов машинного обучения — в задачах мультиклассификации текстов в правовой сфере на казахском языке. Для анализа был использован специализированный набор данных для распознавания именованных сущностей, адаптированный под юридическую тематику. Основное внимание уделено классификации текстов, отражающих юридические аспекты и терминологию. Для оценки моделей применены стандартные метрики, такие как точность (accuracy), полнота (recall), precision и площадь под кривой (AUC), что позволило провести объективный анализ эффективности классификации текстов. Особое внимание уделено обработке казахского языка, который относится к категории недостаточно изученных в компьютерной лингвистике. Это обуславливает необходимость разработки специализированных алгоритмов и адаптации существующих методов для эффективной работы с данным языком и его юридической терминологией. Проведенное исследование не только расширяет понимание возможностей существующих моделей для обработки текстов на языках с ограниченными ресурсами, но и подчеркивает значимость дальнейшей работы над автоматизацией юридических услуг, что может способствовать созданию более доступных и масштабируемых инструментов правовой помощи.