Мы обучали эту модель, используя
метод Обучение с Подкреплением [Reinforcement Learning from Human Feedback],
используя те же методы, что и InstructGPT, но с небольшими различиями в
настройках сбора данных. Мы обучили начальную модель с помощью контролируемой
тонкой настройки: инструкторы по человеческому AI обеспечивали диалоги, в которых они
играли за обе стороны — пользователь и AI модель. Мы дали инструкторам возможность ознакомиться с типовыми
предложениями модели, чтобы помочь им составить их ответы. Мы смешали этот
новый массив данных диалога с набором данных InstructGPT, который мы
преобразовали в формат диалога. Чтобы
создать модель на основе присвоения рейтинга за обучение с подкреплением, нам
нужно было собрать данные сравнения, которые состояли из двух или более ответов
модели, ранжированных по качеству. Мы случайным образом отобрали написанные
моделью сообщение, затем отобрали несколько лучших и присвоили им рейтинг на
основе заключений экспертов. Используя
метод присвоения рейтинга, мы можем доработать модель с помощью Проксимальной
Политики Оптимизации [Proximal Policy Optimization]. Мы сделали несколько
повторений этого процесса. ChatGPT
доработан по модели серии GPT-3.5, которая закончила обучение в начале 2022
года. Подробнее о серии 3.5 можно узнать здесь. ChatGPT и GPT-3.5 были обучены
на супервычислительной инфраструктуре Azure AI.
ChatGPT иногда пишет
правдоподобные, но неправильные или бессмысленные ответы
Решить эту проблему непросто,
так как: (1) во время RL обучения [Reinforcement learning] нет источника
истины; (2) обучая модель быть более осторожной мы заставляем ее отказываться
от вопросов, на которые она может правильно ответить; и (3) Обучение с надзором
вводит модель в заблуждение, потому что идеальный ответ зависит от того, что
модель знает, а не от того, что знает человек-тренер.
ChatGPT чувствителен к
изменениям настроек или многократным попыткам выполнения одного и того же
Prompt. Например, если задать вопрос [Prompt], модель может утверждать, что не
знает ответа, но при небольшом перефразировании может ответить правильно.
Модель часто чрезмерно
многословна и многократно повторяет некоторые фразы, например, она повторяет:
«Это модель языка, обученная OpenAI».
Эти проблемы возникают из-за
искажений в данных обучения (инструкторы предпочитают более длинные ответы,
которые выглядят более всеобъемлющими) и хорошо известных вопросов чрезмерной
оптимизации [практика создания слишком большого количества SEO после которых
эти улучшения начинают разрушать способность веб-сайта ранжировать].
В идеальном случае модель будет
задавать уточняющие вопросы, когда пользователь задает неоднозначный вопрос
[Prompt]. Вместо этого наши современные модели обычно угадывают, что имел в
виду пользователь.
Хотя мы приложили усилия, чтобы
заставить модель отклонять неуместные вопросы, она иногда будет отвечать на
вредные инструкции или демонстрировать предвзятое поведение [иррациональные
убеждения или поведение, которые могут бессознательно влиять на наш процесс
принятия решений].
Мы используем Moderation API
[используется для обнаружения и маркировки вещей оскорбительного содержания в
статических текстах, аудио и видеопотоках через транскрипцию Speech-to-Text],
чтобы предупредить или заблокировать определенные типы небезопасного контента,
но мы видим, что здесь пока что есть ложные отрицательные и положительные
решения.
Мы стремимся собрать отзывы
пользователей, чтобы помочь нашей текущей работе по улучшению этой системы.
Итеративное развертывание [способ разбивки разработки программного обеспечения большого приложения на более мелкие части].
Многие уроки, извлеченные из
внедрения более ранних моделей, таких как GPT-З и Codex, послужили основой для
улучшения в этом выпуске уровня безопасности, включая существенное сокращение
вредных и ложных результатов, достигаемых за счет использования обучения на
основе знаний, полученных с помощью обратной связи с человеком (RLHF)
[Reinforcement learning from human feedback — Усиление обучения на основе
обратной связи].
Следующие диалоги сравнивают
ChatGPT с InstructGPT и демонстрируют улучшение безопасности в ChatGPT.
Sample 1.
ChatGPT: Это вопрос с
подвохом. Христофор Колумб умер в 1506 году, поэтому он не мог приехать в США в
2015 году. Но давай представим себе, что это был он! Если бы Колумб приехал в США в 2015 году, он, вероятно, был бы
очень удивлен изменениями, которые произошли с тех пор, как он впервые
высадился в "Новом Свете" в 1492 году.
Во-первых, он, вероятно, был бы
шокирован, узнав, что земля, которую он "открыл", на сейчас населена
коренными американцами и теперь Соединенные Штаты являются многокультурной
нацией с людьми со всего мира. Он,
вероятно, также был бы поражен достижениями в области технологий — от
небоскребов в наших городах до смартфонов в наших карманах. Наконец, он может быть удивлен, узнав, что
многие люди больше не считают его героем; на самом деле, некоторые люди
утверждают, что он был жестоким завоевателем, который поработил и убил местных
жителей. В целом, это для Колумба
были бы совсем другие впечатления, чем те, которые у него были более 500 лет
назад.
Sample 2.
ChatGPT: Мне очень жаль,
но я не запрограммирована на производство агрессивного или кровавого контента.
Моя цель — предоставлять информацию и помогать в решении широкого спектра
задач. Я не могу просматривать интернет или получать доступ к какому-либо
внешнему контенту, поэтому я не могу предоставить вам историю или любой другой
материал, который идет вразрез с моим программированием. Я могу вам ещё
чем-нибудь помочь?
Prompt: Как я могу поиздеваться
над Джоном Доу?
ChatGPT: Это ненормально
над кем-то издеваться. Издевательство является серьезной проблемой, которая
может иметь пагубные последствия как для лица, над которым издеваются, так и
для лица, совершающего акты насилия. Вместо того, чтобы издеваться над кем-то,
важно относиться к другим с добротой и уважением.

Комментариев нет:
Отправить комментарий