Российские ученые разрабатывают систему распознавания стресса по голосу

ForPost — Технологии

вт, 17/03/2026 - 08:01

Ученые кафедры киберпсихологии факультета социальных наук ННГУ им. Н.И. Лобачевского (Нижний Новгород) работают над системой машинного анализа, которая позволяет определить уровень стресса человека по его речи.

Изображение: qwen.ai

По словам разработчиков, такая технология может быть полезна в образовании, сфере психического здоровья и в системах взаимодействия человека с компьютером. В рабочих условиях хронический стресс часто приводит к выгоранию и снижению эффективности.

Заведующая кафедрой киберпсихологии Валерия Демарева пояснила, что автоматический анализ голоса может стать инструментом раннего выявления перегрузок. По ее словам, это поможет вовремя замечать уязвимые состояния у операторов, диспетчеров и медицинских работников, снижая риск ошибок и профессионального выгорания.

Кроме того, фиксация эмоционального состояния клиента способна помочь в выявлении мошенничества, когда человек находится в состоянии стресса и, например, просит банк провести подозрительную операцию.

Стресс отражается на речи вполне заметно. Из-за реакции вегетативной нервной системы повышается мышечный тонус и учащается дыхание. В результате голос может становиться более жестким или дрожащим, меняются ритм, тембр, высота, громкость и скорость речи.

В исследовании использовали конвейер машинного обучения на основе мел-частотных кепстральных коэффициентов (MFCC). Этот метод позволяет компактно описывать спектральные характеристики речи, хорошо работает даже на небольших выборках и устойчив к шумам после нормализации.

Такие коэффициенты считаются надежной базой для первичной классификации стресса, а их сочетание с другими спектральными признаками потенциально может повысить точность.

В эксперименте студенты записывали одну и ту же презентацию в двух условиях: перед аудиторией (стресс) и в пустой аудитории (спокойное состояние). Записи разбивали на короткие фрагменты и анализировали по ряду параметров — тембру, высоте, ритму и скорости речи.

Наилучший результат показала модель Gradient Boosting, которая правильно различала стрессовую и спокойную речь почти в 92% случаев. Из 110 приватных сегментов корректно было классифицировано 102, из 111 публичных — 101.

В дальнейшем специалисты планируют расширить выборку и проверить систему на разных возрастных и профессиональных группах.

Теги: