Чтобы улучшить точность субтитров, которые становятся всё более востребованными, сервис «VK Видео» внедрил технологии искусственного интеллекта. Новые алгоритмы ИИ были интегрированы для автоматического распознавания речи и создания субтитров в роликах, шоу, клипах и другом контенте. Эти новшества позволили увеличить точность анализа и расшифровки речи на 25 %.
Нейросети теперь обладают обширным словарём, включающим тысячи новых слов, в том числе аббревиатуры, мемы, имена собственные и профессиональные термины. В ближайшем будущем искусственный интеллект научится разделять речь различных спикеров на отдельные реплики, что сделает субтитры ещё более понятными.
Для генерации автоматических субтитров ИИ использует ML-модели, которые формируют текст, расставляют знаки препинания и синхронизируют его с видео. Аудиопоток проходит несколько этапов обработки для достижения высокой точности. На первом этапе нейросеть удаляет посторонние шумы и преобразует речь в текст. Затем модели пунктуации и денормализации преобразуют распознанные слова в грамотно изложенный текст. В завершение ИИ синхронизирует текст с аудиодорожкой.
Субтитрами на платформе «VK Видео» пользуются 11 % от всей аудитории сервиса. Доля пользователей, применяющих эту функцию, возросла на 28 % за последний месяц. Субтитры востребованы среди людей с нарушениями слуха и удобны для тех, кто смотрит видео без звука.
Источник: CNews