Согласно мониторингу 1M AI News, Microsoft выпустила в открытый доступ на Hugging Face семейство многоязычных текстовых embedding-моделей harrier-oss-v1, включающее три версии: 270M, 0.6B и 27B. Карточка модели показывает, что эта серия использует архитектуру только декодера (decoder-only), pooling по последнему токену и L2-нормализацию; максимальная поддерживаемая длина составляет 32768 токенов. Модели можно применять для извлечения (retrieval), кластеризации, семантического сходства, классификации, двуязычной добычи (bilingual mining) и переупорядочивания (re-ranking).
Multilingual MTEB v2 — распространенный в отрасли многоязычный текстовый embedding-бенчмарк, в основном оценивающий задачи наподобие извлечения, классификации, кластеризации и семантического сходства. В карточке модели Microsoft заявляет, что результаты трех версий на этом бенчмарке составляют соответственно 66.5, 69.0 и 74.3, причем версия 27B в день релиза заняла первое место в рейтинге. Версии 270M и 0.6B дополнительно используют более крупную embedding-модель для knowledge distillation. Все три модели выпущены под лицензией MIT.