Google DeepMind анонсировал выпуск TxGemma — нового набора открытых языковых моделей, предназначенных для поддержки разработки терапий. Модели нацелены на улучшение таких задач, как оценка кандидатов на лекарственные препараты, предсказание свойств молекул и оценка результатов клинических испытаний, благодаря применению возможностей больших языковых моделей к биомедицинским данным.
TxGemma доступна через Vertex AI Model Garden и Hugging Face. Специалисты из исследовательского сообщества могут экспериментировать с этими моделями, настраивать их на основании собственных данных и делиться полученными результатами.
TxGemma основана на модели Gemma и является преемником Tx-LLM, представленного в октябре 2024 года. Она обучена на 7 миллионах примеров и представлена в трёх размерах: 2B, 9B и 27B. Каждая версия включает «предсказательную» модель для выполнения конкретных задач, таких как определение токсичности молекул, и «чату» для проведения разговорного анализа.
«TxGemma специально обучена для понимания и предсказания свойств терапевтических сущностей на всех этапах процесса открытия», — заявила Шекууфе Азизи, старший научный сотрудник Google DeepMind. «Это может потенциально сократить время от лаборатории до клиники и снизить затраты, связанные с традиционными методами».
Модель предсказания 27B продемонстрировала более высокие показатели или была на уровне своего предшественника Tx-LLM и специализированных моделей. Она превзошла Tx-LLM по 45 из 66 тестовых задач и соответствовала или превышала показатели моделей, специализированных на конкретных задачах, по 50 из них.
Помимо предсказательных моделей, TxGemma включает версии на основе чата, которые могут отвечать на сложные научные вопросы. Эти версии помогают исследователям интерпретировать предсказания, например, модель может объяснить предсказания токсичности на основе структуры молекулы.
В анонсе также представлены инструменты для настройки моделей. Блокнот Colab, использующий набор данных TrialBench, демонстрирует, как разработчики могут адаптировать TxGemma для задач, таких как предсказание побочных эффектов в клинических испытаниях. «Настройка позволяет исследователям использовать собственные данные для создания моделей, соответствующих их уникальным потребностям», — добавила Азизи.
DeepMind также представил Agentic-Tx — оркестрованную систему, основанную на Gemini 2.0 Pro, для расширения возможностей модели. Эта агентная структура интегрирует TxGemma с 18 инструментами — включая справочники по генам и белкам, а также модули молекулярного анализа — для выполнения многошаговых задач в биологии и химии.
«Мы рады видеть, как сообщество использует TxGemma для ускорения открытия терапий», — заключила Азизи.
