- Qwen 2.5 đạt hơn 40 triệu lượt tải và tạo ra hơn 50.000 mô hình phái sinh, trở thành lựa chọn hàng đầu cho phát triển AI Agent
- Một nhà phát triển trên Reddit báo cáo Qwen 2.5 14B vượt trội hơn GPT-4 và GPT-4o trong một số ứng dụng cụ thể nhờ khả năng gọi hàm, lập luận chuỗi suy nghĩ và thực hiện chỉ dẫn phức tạp
- Doanh nghiệp có thể triển khai Qwen 2.5 trong môi trường hoàn toàn cách ly với vLLM, đảm bảo không có kết nối bên ngoài
- Trên GPU 3090 tầm trung, mô hình đạt tốc độ 28 token/giây với ngữ cảnh 32K, phù hợp cho nhiều tình huống lập trình
- Công nghệ suy luận từng lớp của dự án AirLLM cho phép chạy mô hình 72B tham số trên hệ thống chỉ có 4GB VRAM
- Qwen 14B instruct hoạt động tốt với công cụ SQL và là mô hình duy nhất dưới 27B có thể sử dụng công cụ SQL hiệu quả
- Nhiều lập trình viên tích hợp thành công Qwen 2.5 vào môi trường phát triển thông qua Llama.cpp, LM Studio API và VSCodium
- Chi phí token của Qwen rẻ hơn nhiều so với GPT-4o (0,38 so với 5,0 USD/triệu token) và Claude 3.5 Sonnet (3,05 USD/triệu token)
- Một lập trình viên đã tạo game Pac-Man hoàn chỉnh bằng Python với mô hình 72B chạy local, vượt trội Claude chỉ tạo được bản đồ cơ bản
- Hạn chế: đôi khi phản hồi bằng tiếng Trung khi bối rối và cần prompt chính xác hơn cho tác vụ phức tạp
📌 Qwen 2.5 đang dẫn đầu cuộc đua AI Agent với 40 triệu lượt tải, chi phí thấp (0,38 USD/triệu token), khả năng chạy trên GPU phổ thông 4GB VRAM và hiệu suất vượt trội GPT-4 trong nhiều tác vụ lập trình.
https://analyticsindiamag.com/developers-corner/qwen-2-5-is-winning-the-ai-agents-race/