Новый алгоритм анализирует эмоции по голосу в реальном времени

Максим Наговицын11.06.2025586

Сбербанк и ВШЭ представили систему, которая анализирует не только лицо, но и то, что за ним скрыто.

Новый алгоритм анализирует эмоции по голосу в реальном времени
Источник: нейросеть

Ученые из Центра практического Искусственного Интеллекта Сбербанка и Высшей школы экономики создали систему, которая распознает эмоции не только по лицу, но и по голосу. Раньше алгоритмы анализировали мимику отдельно, теперь же модель учитывает и речь, и интонацию, и даже то, как эмоции меняются со временем.

Новая технология объединяет два подхода: временные сверточные сети (TCN) и трансформеры. Это позволяет точнее улавливать динамику — например, когда человек сначала злится, а потом резко успокаивается.

Точность выросла на 10% по сравнению с системами, которые работают только с изображением.

Исследование опубликовано в сборнике конференции AIST.

Где это пригодится:

  • В кол-центрах — чтобы сразу понимать, доволен клиент или раздражен.
  • В маркетинге — для анализа реакции на рекламу.
  • В безопасности — чтобы замечать агрессию или панику в толпе.

Андрей Савченко, научный директор Центра:

Мы научили систему работать в реальных условиях — при плохом освещении, шуме, даже если лицо частично скрыто. Это практическая модель, которую можно внедрять уже сейчас. Например, в телемедицине или виртуальных ассистентах.

Сейчас разработчики улучшают алгоритм, чтобы он адаптировался к еще более сложным сценариям.

Главное преимущество — мультимодальность. Человек редко выражает эмоции только лицом или только голосом. Обычно все работает вместе: жест, интонация, пауза в речи. Чем ближе алгоритм к такому анализу, тем меньше ошибок.

Это особенно важно там, где эмоции влияют на решения:

  • В переговорах — если система поймет, что клиент колеблется, менеджер сможет склонить его к сделке.
  • В образовании — платформа подстроится под настроение ученика, снизив или увеличив нагрузку.
  • В психиатрии — поможет отслеживать состояние пациентов дистанционно.

Технология снижает зависимость от идеальных условий. Камеры и микрофоны есть везде, но они часто дают шумные данные. Если система работает с этим — она дешевле в масштабировании.

Однако сохраняется этическая проблема. Чем точнее ИИ распознает эмоции, тем проще манипулировать людьми. Например, кол-центр может использовать данные, чтобы давить на слабые места клиента. Или работодатель — анализировать вовлеченность сотрудников без их согласия.

Ранее ученые заметили, что женщины лучше мужчин разбираются в эмоциях.

Подписаться: Телеграм | Дзен | Вконтакте


Net&IT

Поиск на сайте

Лента новостей

Пресс-релизы