- ByteDance vừa ra mắt UI-TARS - AI agent mới có khả năng điều khiển máy tính và thực hiện các quy trình công việc phức tạp một cách tự động
- UI-TARS được huấn luyện với khoảng 50 tỷ token và có hai phiên bản: 7B và 72B tham số, hoạt động trên cả PC và MacOS
- Mô hình đạt hiệu suất vượt trội trong hơn 10 tiêu chuẩn đánh giá GUI, vượt qua GPT-4o của OpenAI, Claude của Anthropic và Gemini của Google
- Trong bài kiểm tra VisualWebBench, UI-TARS 72B đạt 82,8%, cao hơn GPT-4o (78,5%) và Claude 3.5 (78,2%)
- UI-TARS-7B đạt điểm cao nhất 93,6% trong WebSRC, trong khi UI-TARS-72B đạt 88,6% trong ScreenQA-short
- Giao diện của UI-TARS gồm 2 tab: một tab hiển thị quá trình "suy nghĩ" từng bước và tab còn lại thực hiện các hành động tự động
- Mô hình được huấn luyện trên tập dữ liệu lớn gồm các ảnh chụp màn hình với metadata chi tiết về mô tả phần tử, kiểu, vị trí và chức năng
- UI-TARS có cả bộ nhớ ngắn hạn và dài hạn, có khả năng suy luận nhanh (System 1) và chậm (System 2)
- Mô hình được trang bị khả năng sửa lỗi và phản ánh sau hành động để học hỏi và cải thiện hiệu suất
- Khác với Claude chỉ mạnh trong tác vụ web, UI-TARS thể hiện hiệu suất xuất sắc trên cả web và thiết bị di động
📌 UI-TARS của ByteDance đã thiết lập một cột mốc mới trong lĩnh vực AI agent với khả năng vượt trội GPT-4 và Claude trong các bài kiểm tra GUI. Với điểm số 82,8% trong VisualWebBench và 93,6% trong WebSRC, mô hình chứng minh tiềm năng to lớn trong việc tự động hóa các tác vụ máy tính phức tạp.
https://venturebeat.com/ai/bytedances-ui-tars-can-take-over-your-computer-outperforms-gpt-4o-and-claude/