Google Research представила Cell2Sentence-Scale — новые модели для анализаsingle-cell данных через язык

Команда Google Research совместно с университетом Йель и другими партнерами анонсировала инновационный проект под названием Cell2Sentence-Scale (C2S-Scale), направленный на преобразование сложных данных о отдельных клетках в понятный для человека и модели язык. Этот прорыв создаёт новую перспективу в области биоинформатики и анализа данных о клеточной экспрессии.

Большая часть современных исследований в области клеточной биологии основана на измерении генетической активности отдельных клеток с помощью метода скринтинга RNA (scRNA-seq). Однако массивные объемы данных, содержащие информацию о тысячах генов у каждой клетки, усложняют их интерпретацию и требуют значительных усилий. Cell2Sentence-Scale преобразует профиль активности клетки в последовательность текста, называемую «предложением клетки», где перечислены наиболее активные гены, отсортированные по уровню экспрессии. Такой подход позволяет использовать мощности больших языковых моделей (LLMs), таких как Google Gemini и Gemma, для анализа биологических данных.

Разработанные модели охватывают диапазон от 410 миллионов до 27 миллиардов параметров, что позволяет специалистам выбирать оптимальный уровень мощности и ресурсоёмкости — от быстрых и доступных до максимальных показателей точности. Все модели будут доступны как open-source, что стимулирует их дальнейшее развитие и адаптацию под разные задачи.

Преимущество использования языкового интерфейса заключается в расширении возможностей интерпретации и диалога с клеточными данными. Модель может отвечать на вопросы вроде «Как эта Т-клетка отреагирует на терапию anti-PD-1?» и генерировать ответы в понятной форме. Кроме того, C2S-Scale способен автоматически создавать биологические summaries, облегчая интерпретацию новых наборов данных и ускоряя исследования в области терапии, диагностики и понимания биологических механизмов.

Исследователи отметили, что увеличение размера модели ведет к значительному росту её эффективности на разных задачах — от определения типа клетки до моделирования поведения тканей, что делает их инструменты мощными и универсальными. Также проект включает создание виртуальных клеток для предсказания реакции на лекарства, что может значительно сократить время и затраты в фармацевтических исследованиях.

Представленные модели и ресурсы доступны на платформах HuggingFace и GitHub, где учёные и разработчики могут опробовать их на своих данных и вносить улучшения, расширяя границы научных открытий и практических приложений в биоинформатике.