- Hugging Face vừa công bố 2 mô hình AI đa phương thức mới: SmolVLM-256M và SmolVLM-500M, được cho là nhỏ nhất trong loại hình này
- 2 mô hình có kích thước lần lượt là 256 triệu và 500 triệu tham số, được thiết kế để hoạt động hiệu quả trên các thiết bị có giới hạn như laptop với RAM dưới 1GB
- Khả năng chính của các mô hình:
+ Mô tả hình ảnh và video clip
+ Trả lời câu hỏi về nội dung PDF
+ Phân tích văn bản quét và biểu đồ
- Quá trình huấn luyện sử dụng:
+ The Cauldron: tập hợp 50 bộ dữ liệu hình ảnh và văn bản chất lượng cao
+ Docmatix: bộ dữ liệu file quét kèm chú thích chi tiết
- Kết quả kiểm thử cho thấy cả 2 mô hình đều vượt trội hơn Idefics 80B (mô hình lớn hơn nhiều lần) trong các bài kiểm tra như AI2D về khả năng phân tích sơ đồ khoa học cấp tiểu học
- Mô hình được phát hành dưới giấy phép Apache 2.0, cho phép sử dụng không giới hạn
- Nghiên cứu từ Google DeepMind, Microsoft Research và viện nghiên cứu Mila Quebec chỉ ra rằng các mô hình nhỏ có thể kém hiệu quả hơn trong các tác vụ suy luận phức tạp, do chúng có xu hướng nhận diện mẫu bề mặt thay vì áp dụng kiến thức vào ngữ cảnh mới
📌 Hugging Face đã tạo bước đột phá với 2 mô hình AI đa phương thức siêu nhỏ gọn 256M và 500M tham số, hoạt động hiệu quả trên thiết bị RAM dưới 1GB. Mô hình vượt trội hơn Idefics 80B trong nhiều bài kiểm tra, mở ra khả năng ứng dụng AI trên các thiết bị có tài nguyên hạn chế.
https://techcrunch.com/2025/01/23/hugging-face-claims-its-new-ai-models-are-the-smallest-of-their-kind/