Распознавание речи, генерация субтитров и изучение языков при помощи Whisper

Open Data Science corporate blog
Artificial Intelligence
Natural Language Processing
Data Mining
Machine learning
asr
automatic speech recognition
nlp
cezon data mining
whisper
raspoznavanie rechi
Open Data Science corporate blog
Artificial Intelligence
Natural Language Processing
Data Mining
Machine learning
asr
automatic speech recognition
nlp
cезон data mining
whisper
распознавание речи

Есть ряд платных решений по переводу речи в текст (Automatic Speech Recognition). Сравнительно малыми усилиями можно сделать бесплатное решение, — дообучить на своих данных end2end модель (например, взять фреймворк NeMo от NVIDIA) или гибридную модель типа kaldi. Сверху понадобится прикрутить расстановку пунктуации и денормализацию для улучшения читаемости ("где мои семнадцать лет" → "Где мои 17 лет?"). Это задачи решаемые, дающие результат, но требующие времени.

Недавно в открытый доступ была выложена мультиязычная модель whisper от OpenAI. Я попробовал её large вариант на нескольких языках, результат понравился, но есть нюансы. Модель транскрибирует тексты вместе с пунктуацией и капитализацией, расставляет временные метки, умеет генерировать субтитры и определять язык. Языков в обучающем датасете порядка ста. Чтобы прикинуть по качеству, нужно посмотреть на их распределение — данных на 100 часов и более было лишь для 30 языков, более 1000 ч. — для 16-ти, ~10 000 часов — у 5-ти языков, включая русский.

Модель заслуживает внимания так как умеет делать очень много "из коробки". Давайте разберемся подробнее как она устроена и научимся ей пользоваться.

Читать далее
Show backup