Google представил улучшенный алгоритм поиска векторов ScaNN с использованием SOAR

Компания Google анонсировала значительное улучшение в своей библиотеке векторного поиска ScaNN с внедрением нового алгоритма под названием Spilling with Orthogonality-Amplified Residuals (SOAR). Этот алгоритм основан на оптимизации redundancy, что позволяет значительно повысить эффективность поиска векторов в рамках приложений машинного обучения.

С момента своего открытия в 2020 году, ScaNN активно развивалась для удовлетворения растущих потребностей в масштабируемых алгоритмах поиска. SOAR был представлен на конференции NeurIPS 2023 и был детально описан в статье “SOAR: Improved Indexing for Approximate Nearest Neighbor Search”. Новая методология внедряет избыточность в процесс индексации векторов, что минимизирует вероятность пропуска ближайших соседей при поиске.

SOAR позволяет векторным данным ассоциироваться с несколькими кластерами, что обеспечивает дополнительный уровень поиска, когда традиционный метод оказывается неэффективным. Эта избыточность помогает ScaNN более точно находить векторы, соответствующие поставленному запросу, при этом существенно не увеличивая размер индекса.

В ходе тестирования на конкурсах Big-ANN 2023, ScaNN с SOAR показал выдающиеся результаты, обеспечивая самую высокую скорость поиска и низкое потребление памяти среди всех сравниваемых библиотек. Это делает ScaNN особенно привлекательным для применения в крупных проектах и сервисах.

ScaNN доступен для сообщества на GitHub и может быть установлен через Pip. Технология векторного поиска ScaNN также интегрирована в продукты Google Cloud.