Snowflake ra mắt mô hình nhúng văn bản arctic-embed cho các trường hợp sử dụng truy xuất

- Snowflake giới thiệu và mở mã nguồn arctic-embed, một dòng gồm 5 mô hình nhúng văn bản với giấy phép Apache 2.0.

- Kích thước mô hình dao động từ 23 đến 334 triệu tham số, một mô hình có cửa sổ ngữ cảnh mở rộng, mang lại nhiều lựa chọn tối ưu về độ trễ, chi phí và hiệu suất truy xuất.

- Dựa trên bảng xếp hạng Massive Text Embedding Benchmark (MTEB) Retrieval, mô hình Arctic embed lớn nhất với 334 triệu tham số là mô hình duy nhất vượt qua hiệu suất truy xuất trung bình 55,9.

- Các mô hình có sẵn trên Hugging Face để sử dụng ngay và sẽ sớm có trong hàm Snowflake Cortex embed (đang trong giai đoạn xem trước riêng tư).

- Khi kết hợp với bộ dữ liệu độc quyền và LLM, các mô hình mang lại lợi thế mới cho các tổ chức trong việc tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài (RAG) hoặc dịch vụ tìm kiếm ngữ nghĩa.

- Tính đến ngày 16/04/2024, snowflake-arctic-embed-l là mô hình nguồn mở mạnh mẽ nhất có thể sử dụng trong sản xuất dựa trên tỷ lệ hiệu suất trên kích thước.

 

📌 Snowflake ra mắt arctic-embed, bộ 5 mô hình nhúng văn bản tiên tiến với kích thước từ 23-334 triệu tham số và cửa sổ ngữ cảnh mở rộng. Mô hình lớn nhất đạt hiệu suất truy xuất vượt trội so với các đối thủ. Chúng được mở mã nguồn trên Hugging Face, tích hợp vào Snowflake Cortex, mang lại lợi thế khi kết hợp với dữ liệu độc quyền và LLM cho các ứng dụng RAG và tìm kiếm ngữ nghĩa.

 

Citations:

[1] Snowflake Launches Practical Text-Embedding Model for Retrieval use Cases https://www.snowflake.com/blog/introducing-snowflake-arctic-embed-snowflakes-state-of-the-art-text-embedding-family-of-models/

 

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo