ОБНАРУЖЕНИЕ ИСКУССТВЕННОГО ГОЛОСА DEEPFAKE. СРАВНЕНИЕ ЭФФЕКТИВНОСТИ МОДЕЛЕЙ LSTM И CNN
DOI:
https://doi.org/10.32014/2025.2518-1726.323Ключевые слова:
DeepFake, классификация голосов, аудиосигналы, мелчастотные кепстральные коэффициенты (MFCC), нулевая частота пересечения (ZCR), модель LSTM, модель CNNАннотация
Данное исследование представляет новую методику для обнаружения голосов DeepFake, основанную на эффективной классификации фейковых и реальных аудиосигналов. С целью улучшения оценки информации в аудитории были собраны аудиозаписи голосов 58 политиков и публичных фигур, содержащие как реальные, так и фейковые аудиофайлы.
В исследовании фейковые аудиопримеры были искусственно созданы, в то время как реальные образцы были получены из достоверных источников. Для анализа структуры аудиосигналов использовались коэффициенты мел-частотного кепстра (MFCC), метрика нулевого пересечения (ZCR) и визуализация данных, включая столбчатые диаграммы и гистограммы.
В ходе исследования была проанализирована распределение числовых значений, длины, особенности MFCC и значения ZCR фейковых и реальных аудиопримеров. Модели LSTM и CNN были протестированы для обнаружения голосов DeepFake, в результате чего модель LSTM достигла 100% точности, а модель CNN была оценена на уровне 97,50% точности. Полученные результаты продемонстрировали, что модель LSTM может точно и надежно различать фейковые и реальные аудиозаписи, подчеркивая важность оценки подлинности аудиосигналов с учетом опасностей, связанных с технологией DeepFake.
Данное исследование предлагает функциональные методологии, направленные на разработку систем с визуальными методами анализа данных, а также открывает новые способы определения подлинности аудиосигналов и демонстрирует эффективность применения современных технологий глубокого обучения. Исследование подчеркивает, что DeepFake
играет важную роль в оценке и идентификации информации в аудитории и предоставляет основы для будущих исследований и практики.