Детали модели.
Модели Whisper обучаются распознаванию речи и переводу, и способны транслировать речевой аудио-сигнал в текст на языке, на
котором он произнесен (ASR), а также переводить его на английский язык (перевод
речи). Исследователи OpenAI разработали модели для изучения надежности систем
обработки речи, обученных под слабым руководством на большом масштабе.
Существует 9 моделей различных размеров и возможностей, обобщенных в таблице.
Оцененное использование
Основными
предполагаемыми пользователями этих моделей являются исследователи искусственного интеллекта, изучающие надежность, обобщение, возможности, отклонения и ограничения
текущей модели. Однако, Whisper также потенциально весьма полезен в качестве решения ASR [automatic speech recognition = распознавание речи] для
разработчиков, особенно для распознавания речи на английском языке. Мы
признаем, что после выпуска моделей невозможно ограничить доступ только к
"предполагаемым" видам применения или разработать разумные
руководящие принципы в отношении того, что является или не является предметом
исследований. Модели в первую очередь обучаются и оцениваются по ASR и переводу речи на английский язык. Они
показывают сильные результаты ASR на ~10 языках. Они могут демонстрировать дополнительные возможности,
особенно если они отлажены на определенных задачах, таких как обнаружение
голосовой активности, классификация спикеров или дневниковая запись, но не были
тщательно оценены в этих областях. Мы настоятельно рекомендуем пользователям
проводить надежные оценки моделей в конкретном контексте и домене перед их внедрением. В
частности, мы предостерегаем от использования моделей Whisper для записи лиц без их согласия или
намеревающихся использовать эти модели для какой-либо субъективной
классификации. Мы рекомендуем избегать использования в областях высокого риска,
таких как контекст принятия решений, где ошибки в точности могут привести к заметным ошибкам в
результатах. Модели предназначены для транскрибирования и перевода речи,
использование модели для классификации не только не оценивается, но и не неуместно, особенно для
вывода человеческих атрибутов.
Данные по обучению
Модели обучены на 680000 часов
аудиозаписи и соответствующих транскриптах, собранных из Интернета. 65% этих данных (или
438000 часов) представляют собой аудио на английском языке и соответствующие английские транскрипты, примерно 18%
(или 126 000 часов) представляют собой аудио на неанглийском
языке и английские транскрипты, в то время
как оставшиеся 17% (или 117000 часов) представляет собой аудио
на неанглийском языке и
соответствующие транскрипты. Эти данные на неанглийском языке
представлены на 98 разных языках. Как говорится в сопроводительном документе, мы видим, что
производительность на транскрипции на данном языке напрямую связана с
количеством данных обучения, которые мы используем для
этого языка.
Производительность и ограничения
Наши исследования
показывают, что во многих существующих системах ASR модели демонстрируют улучшенную устойчивость к
акцентам, фоновому шуму, технической лексике, а также обеспечивают перевод из
нескольких языков на английский язык без предварительного обучения; и что точность распознавания речи и
перевода почти на современном уровне. Однако, поскольку модели обучаются слабо
контролируемым образом, с использованием масштабных шумовых эффектов, их предсказания могут
включать в себя тексты, которые на самом деле не были произнесены
в аудио входе ("галлюцинации"
текста). Мы предполагаем, что это происходит потому, что, учитывая общее знание
языка, модели объединяют попытки предсказать следующее слово в аудио с
попытками записать сам звук. Наши модели работают неравномерно на разных
языках, и мы наблюдаем более низкую точность на мало ресурсных и/или мало
обнаруживаемых языках или языках, где у нас меньше данных
для обучения. Модели также
демонстрируют разную производительность на различных акцентах и диалектах определенных языков,
которые могут включать более высокий уровень ошибок в словах среди носителей
разных полов, рас, возрастов или других демографических критериев. Наши полные
результаты оценки представлены в документе, сопровождающем эту публикацию.
Кроме того, архитектура модели "последовательности в последовательности"
делает её склонной к генерации повторяющихся текстов, что может быть в некоторой
степени смягчено посредством "поиска лучшего варианта" и шкалирования температуры, но не идеально. Более подробный анализ
этих ограничений приводится в настоящем документе. Вполне вероятно, что такое
поведение и "галлюцинации" могут быть хуже на языках с более низким
ресурсом и/или низкой раскрываемостью.
Более широкие последствия
Мы ожидаем, что
транскрипционные возможности моделей Whisper могут быть использованы для улучшения
инструментов доступности. В то время как модели Whisper не могут быть
использованы для транскрипции в реальном времени — их скорость и размер подсказывают,
что другие разработчики смогут создать приложения на его основе, позволяющие проводить
распознавание речи и переводить практически в режиме реального времени.
Реальная ценность полезных приложений, построенных поверх моделей Whisper, предполагает, что высокая
производительность этих моделей может иметь реальные экономические последствия.
Мы признаем, что существуют потенциальные проблемы
двойного использования, связанные с выпуском моделей Whisper. Хотя мы надеемся, что эта технология будет
использоваться в первую очередь в благотворных целях, увеличение
доступности к технологиям ASR
может позволить большему числу субъектов создать эффективные технологии
слежения или расширить существующие усилия по наблюдению, так как скорость и
точность позволяют обеспечить доступную автоматическую транскрипцию и перевод
больших объемов аудио-коммуникаций. Кроме того, эти модели могут обладать
определенными возможностями для распознавания конкретных лиц, что, в свою
очередь, создает проблемы безопасности, связанные как с двойным использованием,
так и с несопоставимыми характеристиками.
На практике мы
ожидаем, что стоимость транскрипции не является ограничивающим фактором, для масштабных проектов
наблюдения.

Комментариев нет:
Отправить комментарий