Ученые кафедры киберпсихологии факультета социальных наук ННГУ им. Н.И. Лобачевского (Нижний Новгород) работают над системой машинного анализа, которая позволяет определить уровень стресса человека по его речи. Об этом сообщает пресс-служба вуза.
По словам разработчиков, такая технология может быть полезна в образовании, сфере психического здоровья и в системах взаимодействия человека с компьютером. В рабочих условиях хронический стресс часто приводит к выгоранию и снижению эффективности.
Заведующая кафедрой киберпсихологии Валерия Демарева пояснила, что автоматический анализ голоса может стать инструментом раннего выявления перегрузок. По ее словам, это поможет вовремя замечать уязвимые состояния у операторов, диспетчеров и медицинских работников, снижая риск ошибок и профессионального выгорания.
Кроме того, фиксация эмоционального состояния клиента способна помочь в выявлении мошенничества, когда человек находится в состоянии стресса и, например, просит банк провести подозрительную операцию.
Стресс отражается на речи вполне заметно. Из-за реакции вегетативной нервной системы повышается мышечный тонус и учащается дыхание. В результате голос может становиться более жестким или дрожащим, меняются ритм, тембр, высота, громкость и скорость речи.
В исследовании использовали конвейер машинного обучения на основе мел-частотных кепстральных коэффициентов (MFCC). Этот метод позволяет компактно описывать спектральные характеристики речи, хорошо работает даже на небольших выборках и устойчив к шумам после нормализации.
Такие коэффициенты считаются надежной базой для первичной классификации стресса, а их сочетание с другими спектральными признаками потенциально может повысить точность.
В эксперименте студенты записывали одну и ту же презентацию в двух условиях: перед аудиторией (стресс) и в пустой аудитории (спокойное состояние). Записи разбивали на короткие фрагменты и анализировали по ряду параметров — тембру, высоте, ритму и скорости речи.
Наилучший результат показала модель Gradient Boosting, которая правильно различала стрессовую и спокойную речь почти в 92% случаев. Из 110 приватных сегментов корректно было классифицировано 102, из 111 публичных — 101.
В дальнейшем специалисты планируют расширить выборку и проверить систему на разных возрастных и профессиональных группах.
Изображение: qwen.ai
?>
