Не успеешь моргнуть — WhisperX уже расшифровал: тест скорости от Ainergy

22.04.2025215 просмотров

Команда Ainergy, которая разрабатывает платформу для автоматизации бизнес-процессов с помощью ИИ, провела тест скорости работы модели WhisperX. Эта нейросеть быстро переводит речь в текст — она справляется с одной минутой аудио всего за 9,5 секунд.

Чтобы проверить, как платформа справляется с реальной задачей, инженеры дали ей аудиозапись длиной 8 минут. ИИ обработал ее за 1 минуту 12 секунд. Такой результат стал возможным благодаря особому подходу к обработке звука. Вот как это работает:

  1. Разделение аудио — запись разбивается на небольшие фрагменты.
  2. Спектрограмма — звук превращается в «график», где видно, как меняются частота и громкость.
  3. Анализ паттернов — нейросеть ищет знакомые звуки (например, части слов) и интонации.
  4. Сборка текста — система соединяет распознанные элементы в осмысленные предложения, учитывая контекст.

Мы увидели, что WhisperX отлично справляется с обработкой аудио. Такая скорость открывает для наших клиентов новые возможности в самых разных сферах, — говорит Владимир Молодык, CEO Ainergy.

Сейчас команда тестирует новую версию Whisper — она может работать вдвое быстрее, чем текущая.



Поиск на сайте

Новости компаний, релизы

Как Камчатский университет развивает науку: новые лаборатории и открытия
От школьных проектов до заводских решений: чем живет нефтехимия в Нижнекамске
Бактерии против грибов: как наука защищает картофель без химии
Овцы вместо мышей: как ученые нашли новый способ тестировать материалы для зубов
Пробирки, зелень и взрывы: фестиваль для тех, кто любит науку