Salesforce объявила о запуске отчета по исследованиям AI и новых подходах к оценке производительности ИИ-агентов

Salesforce представила свой первый отчет Salesforce AI Research in Review, подчеркивающий новые достижения и исследовательские работы компании в области искусственного интеллекта. В отчете особое внимание уделяется проблемам, связанным с эффективностью работы больших языковых моделей (LLMs), которые могут затруднять развертывание ИИ-агентов в бизнес-среде.

Согласно отчету, 60% ИИ-агентов работают в IT-отделах, где их главная задача — улучшение производительности. Главный ученый Salesforce, Сильвио Саварезе, отмечает, что новые достижения компании, которые он называет «скромными прорывами», направлены на создание надежных и эффективных решений для бизнеса.

Одним из основных проблемных моментов является то, что LLMs демонстрируют парадоксальную ситуацию, когда хорошо справляются с комплексными задачами, но ошибаются в простых вопросах. Чтобы оценить это явление, Salesforce разработала новый SIMPLE бенчмарк, который включает 225 вопросов, простых для человека, но сложных для ИИ.

Другой важной инициативой компании стал ContextualJudgeBench, который оценивает эффективность ИИ-судей, а не самих моделей, что должно повысить доверие к ИИ-системам в бизнесе. В отчете также представлен CRMArena, фреймворк для анализа производительности ИИ-агентов в задаче управления взаимоотношениями с клиентами.

Полный отчет содержит дополнительные исследования, направленные на улучшение надежности и эффективности ИИ-моделей, что, в свою очередь, должно помочь бизнес-пользователям лучше понимать возможности и ограничения текущих технологий.