Представлен новый диалоговый агент Sparrow для безопасного общения с ИИ

В последние годы большие языковые модели (LLMs) достигли успеха в различных задачах, таких как ответ на вопросы, суммирование и диалог. Новый диалоговый агент Sparrow, разработанный командой исследователей, нацелен на создание более безопасных и полезных систем общения, что делает его значительным шагом вперед в области искусственного интеллекта.

Sparrow использует обучение с подкреплением на основе обратной связи от пользователей для повышения адекватности и надежности ответов. В отличие от своих предшественников, агент способен не только отвечать на вопросы, но и при необходимости искать подтверждающую информацию в интернете. Исследование продемонстрировало, что Sparrow предоставляет правдоподобные ответы и поддерживает их Evidence в 78% случаев, что значительно лучше показателей предыдущих моделей.

Кроме того, в процессе обучения определены простые правила поведения, такие как запрет на угрожающие высказывания и недопустимость использования оскорбительного языка. Однако, несмотря на достижения, Sparrow все еще уязвим к манипуляциям: участники исследования смогли заставить его нарушать правила в 8% случаев. Команда разработчиков намерена улучшить поведение агента, используя экспертные советы и отзывы пользователей.

В будущем команда надеется, что взаимодействие между людьми и машинами станет более безопасным и эффективным, способствуя построению искусственного общего интеллекта, который будет соответствовать человеческим ценностям. Разработка Sparrow открывает новые горизонты в обучении диалоговых агентов и их интеграции в различные языковые и культурные контексты.