пятница, 5 мая 2023 г.

Оценка возможностей GPT на практике. Неожиданные результаты.


 Перевел несколько страниц текста из статьи компании Open AI в которой описывается процесс создания ChatGPT. В общем, статья трудночитаемая и понятно, что человек который ее писал, писал ее для себя. Но, тем не менее, я сделал несколько страниц и потом с помощью GPT (generative pretrained transformer) перефразировал этот перевод в надежде, что он станет понятнее. Смотрите что получилось. 

Я разместил эти два похожих текста разбив их по абзацам или, в некоторых местах, построчно. Первый абзац - мой, второй создан GPT. На каком-то этапе GPT начинает терять нить повествования. Сравните.

Мы создали GPT-4. Это наша последняя разработка OpenAI по расширению глубинного обучения. GPT-4 — это большая мультимодальная модель (включая изображения и текстовые входы, создание текстовых выходов), которая, хотя и менее пригодна, чем человек, во многих реальных сценариях, демонстрирует человеческий уровень по различным профессиональным и академическим оценкам. Например, ChatGPT-4 проходит симулятивный экзамен на адвоката с оценкой, которая позволяет ему попасть в список из 10% лучших тестируемых. В то время как GPT-3.5 был в 10% участников в нижней части списка.

Мы, команда OpenAI, разработали GPT-4, новую большую мультимодальную модель, которая может работать с изображениями и текстами и создавать текстовые выходы. Хотя она не так хороша, как человек, она демонстрирует достаточно высокий уровень в различных профессиональных и академических задачах. Например, ChatGPT-4 прошла симулятивный экзамен на адвоката с оценкой, позволяющей ей войти в список из 10% лучших тестируемых, в то время как предыдущая версия GPT-3.5 попала в список участников в нижней части списка. 


Мы потратили 6 месяцев на многократное выравнивание GPT-4, используя уроки нашей состязательной программы тестирования. В результате чего мы получили лучшие результаты (хотя и далеки от совершенства) по достоверности, управляемости и отказу выходить за рамки ограничений.

Мы работали над GPT-4 в течение 6 месяцев, проводя многократное выравнивание и используя уроки нашей программы тестирования. Это помогло нам достичь лучших результатов по достоверности, управляемости и соблюдению ограничений. Хотя модель все еще не идеальна, мы считаем, что это важный шаг в развитии глубинного обучения.


За последние два года мы перестроили всю нашу систему глубокого обучения и, вместе с Azure, создали суперкомпьютер с нуля, который используется для нашей работы. Год назад мы обучили GPT-3.5 как первый "пробный запуск" системы. Мы нашли и исправили некоторые ошибки и улучшили наши теоретические основы. 

За последние два года мы перестроили всю нашу систему глубокого обучения и вместе с Azure создали новый суперкомпьютер, который используем для нашей работы. Год назад мы использовали GPT-3.5 как первый "пробный запуск" новой системы и обнаружили несколько ошибок, которые исправили, а также улучшили наши теоретические знания.


В результате, наша тренировка GPT-4 была (по крайней мере, для нас!) беспрецедентно стабильной, став нашей первой большой моделью, эффективность обучения которой мы смогли точно предсказать заранее. По мере того как мы продолжаем фокусироваться на надежном масштабировании, мы стремимся усовершенствовать нашу методологию, чтобы как можно раньше предсказать и подготовиться к новым возможностям. Это то, что мы считаем критически важным для безопасности.

Благодаря этому, тренировка GPT-4 была очень стабильной, что является для нас рекордом, и стала нашей первой большой моделью, эффективность обучения которой мы смогли точно предсказать заранее. Мы продолжаем сосредоточиваться на надежном масштабировании и стремимся улучшить нашу методологию, чтобы как можно раньше предсказывать и готовиться к новым возможностям. Мы считаем, что это критически важно для обеспечения безопасности.

 

Мы выпускаем возможность ввода текста GPT-4 через ChatGPT и API (со списком ожидания). Чтобы подготовить возможность ввода изображений в более широкой доступности, мы тесно сотрудничаем с одним партнером. Мы также открываем для свободного доступа OpenAI Evals, нашего механизма для оценки производительности модели AI, чтобы позволить любому человеку сообщать нам о недостатках наших моделей и помочь нам вносить дальнейшие улучшения.

Мы рады сообщить о возможности использования GPT-4 для ввода текста через ChatGPT и API (с ожиданием в очереди). Чтобы сделать ввод изображений более доступным, мы сотрудничаем с одним из наших партнеров. Кроме того, мы предоставляем бесплатный доступ к OpenAI Evals, нашей системе оценки производительности моделей и приглашаем всех желающих сообщать нам о недостатках в наших моделях, чтобы мы могли продолжать их улучшать.


Возможности

В обычной беседе различий между GPT-3.5 и GPT-4 может не быть. Разница возникает, когда сложность задачи достигает достаточного порога. GPT-4 является более надежным, творческим и способным обрабатывать гораздо более детальные инструкции чем GPT-3.5. Чтобы понять разницу между двумя моделями, мы проверили их на различных тестах.

Возможности

Хотя в обычных беседах между GPT-3.5 и GPT-4 может не быть большой разницы, GPT-4 проявляет свои преимущества в более сложных задачах, где требуются более детальные инструкции. Мы провели ряд тестов, чтобы оценить производительность обеих моделей, и обнаружили, что GPT-4 более надежен и творческий в обработке таких задач.


В том числе мы проводили имитационные экзамены, которые были изначально разработаны для людей. Для этого мы использовали самые последние общедоступные тесты (вопросы тематических олимпиад и экзаменационных билетов в учебных заведениях) или брали издания вопросов для подготовки к экзаменам 2022-2023 годов. Мы не обучали модели для прохождения таких экзаменов. Во время обучения модели почти не было проблем, связанных с экзаменами, выявила, но мы считаем, что результаты являются репрезентативными — подробнее смотрите наш технический отчет.

Это интересный подход для оценки производительности GPT-4, проверять ее на тестах, которые изначально были разработаны для людей. Использование самых последних тестов, таких как вопросы олимпиад и экзаменационных билетов в учебных заведениях, позволяет оценить способность модели обрабатывать более сложные и детальные инструкции. Мы не обучали модель для сдачи экзаменов. Когда мы учили модель, проблем, связанных с экзаменами, было очень мало. Мы считаем, что результаты, которые мы получили, хорошо представляют возможности модели в целом. Если вы хотите узнать больше, можете посмотреть на наш технический отчет.

 

Мы также оценили GPT-4 по традиционным критериям, разработанным для моделей машинного обучения. GPT-4 значительно превосходит существующие крупные языковые модели, наряду с большинством современных моделей (SOTA), которые могут включать в себя эталонные программы или дополнительные протоколы обучения.

Мы также проверили GPT-4 с помощью традиционных критериев, которые используются для оценки моделей машинного обучения. GPT-4 значительно лучше, чем существующие большие языковые модели, и превосходит большинство современных моделей, которые используют эталонные программы или дополнительные протоколы обучения.


Многие существующие тесты ML [практика сопоставления инструментов для выявления наиболее эффективных технологий в отрасли] написаны на английском языке.

Большинство тестов в области машинного обучения, которые используются для сравнения эффективности технологий в этой области, написаны на английском языке.


Чтобы получить первоначальное представление о возможностях в других языках, мы перевели тест MMLU [многофункциональное понимание языков] — набор из 14000 проблем по 57 предметам — на различные языки, используя Azure Translate.

Чтобы понять, насколько модель способна работать с другими языками, мы перевели тест MMLU — это набор из 14 000 задач по 57 предметам — на различные языки, используя службу перевода Azure Translate.


В 24 из 26 протестированных языков GPT-4 превосходит англоязычные GPT-3.5 и другие LLMs (Chinchilla, PaLM), в том числе для низко-ресурсных языков, таких как латышский, валлийский и суахили.

После тестирования на 26 языках, GPT-4 показал лучшие результаты, чем англоязычные GPT-3.5 и другие языковые модели (Chinchilla, PaLM) на 24 из них, включая языки с ограниченными ресурсами, такие как латышский, валлийский и суахили.


На этом этапе, я вынужден очень тщательно проверять то, что он пишет. Иначе, можно сильно ошибиться.  

Блоггер пишет, что этот текст слишком длинный. Придется сокращать. См. продолжение.

Комментариев нет:

Отправить комментарий