ИСПОЛЬЗОВАНИЕ НАБОРОВ ДАННЫХ NER НА КАЗАХСКОМ ЯЗЫКЕ ДЛЯ МУЛЬТИКЛАССИФИКАЦИИ В ПРАВОВОЙ СФЕРЕ: СРАВНИТЕЛЬНОЕ ИССЛЕДОВАНИЕ МОДЕЛЕЙ BERT, GPT И LSTM

Авторы

  • Оралбекова Д. PhD, старший научный сотрудник, Институт информационных и вычислительных технологий, Алматы, Казахстан
  • Мамырбаев О. PhD, профессор, заместитель генерального директора, Институт информационных и вычислительных технологий, Алматы, Казахстан
  • Ахмедиярова А. PhD, профессор, Satbayev Университет, Алматы, Казахстан
  • Касымова Д. PhD, ассистент-профессор, ALT университет имени М. Тынышпаева, Алматы, Казахстан

DOI:

https://doi.org/10.32014/2025.2518-1726.337

Ключевые слова:

NLP, LSTM, BERT, GPT, классификация текстов

Аннотация

В данном исследовании представлен углубленный сравни тельный анализ производительности трех ключевых подходов в области обработки естественного языка (NLP) — трансформеров, рекуррентных нейронных сетей и традиционных методов машинного обучения — в задачах мультиклассификации текстов в правовой сфере на казахском языке. Для анализа был использован специализированный набор данных для распознавания именованных сущностей, адаптированный под юридическую тематику. Основное внимание уделено классификации текстов, отражающих юридические аспекты и терминологию. Для оценки моделей применены стандартные метрики, такие как точность (accuracy), полнота (recall), precision и площадь под кривой (AUC), что позволило провести объективный анализ эффективности классификации текстов. Особое внимание уделено обработке казахского языка, который относится к категории недостаточно изученных в компьютерной лингвистике. Это обуславливает необходимость разработки специализированных алгоритмов и адаптации существующих методов для эффективной работы с данным языком и его юридической терминологией. Проведенное исследование не только расширяет понимание возможностей существующих моделей для обработки текстов на языках с ограниченными ресурсами, но и подчеркивает значимость дальнейшей работы над автоматизацией юридических услуг, что может способствовать созданию более доступных и масштабируемых инструментов правовой помощи.

Загрузки

Опубликован

2025-03-23

Как цитировать

Оралбекова, Д., Мамырбаев, О., Ахмедиярова, А., & Касымова, Д. (2025). ИСПОЛЬЗОВАНИЕ НАБОРОВ ДАННЫХ NER НА КАЗАХСКОМ ЯЗЫКЕ ДЛЯ МУЛЬТИКЛАССИФИКАЦИИ В ПРАВОВОЙ СФЕРЕ: СРАВНИТЕЛЬНОЕ ИССЛЕДОВАНИЕ МОДЕЛЕЙ BERT, GPT И LSTM. Известия НАН РК. Серия физико-математическая, (1), 242–258. https://doi.org/10.32014/2025.2518-1726.337