- Ai2, tổ chức nghiên cứu AI phi lợi nhuận do Paul Allen sáng lập, vừa ra mắt OLMo 2, dòng mô hình ngôn ngữ mới.
- OLMo là viết tắt của "Open Language Model", bao gồm 2 mô hình là OLMo 7B (7 tỷ tham số) và OLMo 13B (13 tỷ tham số).
- OLMo 2 đáp ứng định nghĩa nguồn mở của Open Source Initiative, với dữ liệu huấn luyện và mã nguồn có sẵn công khai.
- Ai2 sử dụng bộ dữ liệu gồm 5 nghìn tỷ token để huấn luyện mô hình, bao gồm websites, tài liệu học thuật và diễn đàn thảo luận.
- Mô hình có khả năng thực hiện nhiều nhiệm vụ dựa trên văn bản, như trả lời câu hỏi, tóm tắt tài liệu và viết mã.
- OLMo 2 cho thấy sự cải thiện rõ rệt về hiệu suất so với các mô hình trước đó và vượt trội hơn Llama 3.1 với 8 tỷ tham số.
- Các mô hình OLMo 2 có thể tải xuống miễn phí từ trang web của Ai2, dưới giấy phép Apache 2.0 cho phép sử dụng thương mại.
- Có tranh luận về độ an toàn của các mô hình mở, nhưng Ai2 tin rằng lợi ích vượt xa rủi ro.
- Ai2 nhấn mạnh rằng việc chia sẻ dữ liệu và mô hình cách công khai sẽ thúc đẩy sự phát triển công nghệ, mang lại mô hình đạo đức hơn.
📌 OLMo 2 của Ai2 với 7 và 13 tỷ tham số ra mắt cạnh tranh với Llama 3.1. Với 5 nghìn tỷ token, OLMo 2 cho thấy hiệu suất vượt trội và đáp ứng tiêu chuẩn nguồn mở, mở đường cho tiến bộ công nghệ.
https://techcrunch.com/2024/11/26/ai2-releases-new-language-models-competitive-with-metas-llama/
- Ai2 (trước đây là Allen Institute for AI) vừa ra mắt Tülu 3, một framework huấn luyện sau hoàn toàn nguồn mở dành cho các mô hình ngôn ngữ lớn (LLM)
- Quá trình huấn luyện sau đang được chứng minh là bước quan trọng tạo ra giá trị thực sự cho các mô hình AI:
+ Biến mô hình từ mạng lưới "biết tuốt" thành công cụ có ích thực tế
+ Giúp kiểm soát đầu ra của mô hình, tránh các nội dung độc hại
+ Các công ty lớn giữ bí mật quy trình này vì đây là lợi thế cạnh tranh
- Tülu 3 cung cấp nhiều cải tiến so với phiên bản trước:
+ Cho phép lựa chọn chủ đề trọng tâm cho mô hình
+ Tích hợp quy trình xử lý dữ liệu, học tăng cường
+ Tinh chỉnh các tham số và quy trình huấn luyện
+ Đạt điểm số ngang bằng các mô hình nguồn mở tiên tiến nhất
- Lợi ích của Tülu 3:
+ Giúp các tổ chức tự xây dựng mô hình AI mà không phụ thuộc công ty lớn
+ Phù hợp với các công ty y tế, nghiên cứu cần bảo mật dữ liệu
+ Tiết kiệm chi phí thuê bên thứ ba để tùy chỉnh mô hình
- Ai2 đang sử dụng Tülu 3 để phát triển một mô hình dựa trên OLMo, hứa hẹn mang lại nhiều cải tiến hơn nữa
📌 Tülu 3 là bước đột phá giúp dân chủ hóa việc huấn luyện mô hình AI, cho phép các tổ chức tự phát triển mô hình mà không cần dựa vào các "gã khổng lồ" công nghệ. Framework này đặc biệt phù hợp với các đơn vị cần bảo mật dữ liệu cao như y tế và nghiên cứu.
https://techcrunch.com/2024/11/21/ai2s-open-source-tulu-3-lets-anyone-play-the-ai-post-training-game/
- Các nhà nghiên cứu Trung Quốc vừa công bố mô hình LLaVA-o1, một mô hình nguồn mở cạnh tranh với OpenAI o1, tập trung vào việc cải thiện khả năng suy luận của mô hình ngôn ngữ thị giác (VLM).
- Mô hình này giải quyết các hạn chế của VLM truyền thống bằng cách:
+ Thực hiện suy luận có cấu trúc qua 4 giai đoạn: tóm tắt, chú thích, suy luận và kết luận
+ Chỉ hiển thị giai đoạn kết luận cho người dùng
+ Áp dụng kỹ thuật tìm kiếm theo cấp độ để tạo và chọn lọc kết quả tối ưu ở mỗi giai đoạn
- Quá trình đào tạo bao gồm:
+ Sử dụng bộ dữ liệu 100.000 cặp hình ảnh-câu hỏi-câu trả lời
+ GPT-4o tạo quy trình suy luận chi tiết 4 giai đoạn
+ Fine-tune trên nền tảng Llama-3.2-11B-Vision-Instruct
- Kết quả đánh giá:
+ Cải thiện 6,9% điểm benchmark so với mô hình Llama cơ bản
+ Vượt trội hơn các mô hình nguồn mở khác có cùng kích thước hoặc lớn hơn
+ Hiệu suất cao hơn một số mô hình đóng như GPT-4-o-mini và Gemini 1.5 Pro
- Đóng góp quan trọng:
+ Thiết lập tiêu chuẩn mới cho suy luận đa phương thức trong VLM
+ Mở đường cho nghiên cứu về suy luận có cấu trúc
+ Tiềm năng mở rộng với bộ xác minh bên ngoài và học tăng cường
📌 LLaVA-o1 đạt bước tiến vượt bậc với khả năng suy luận 4 giai đoạn và cải thiện 6,9% hiệu suất so với Llama cơ bản. Mô hình nguồn mở này thậm chí vượt qua các đối thủ lớn như GPT-4-o-mini và Gemini 1.5 Pro, mở ra hướng phát triển mới cho công nghệ VLM.
https://venturebeat.com/ai/chinese-researchers-unveil-llava-o1-to-challenge-openais-o1-model/
- Công ty khởi nghiệp aiOla của Israel vừa ra mắt mô hình Whisper-NER, được xây dựng trên nền tảng mô hình nguồn mở Whisper của OpenAI
- Whisper-NER tích hợp hai công nghệ:
+ Nhận dạng giọng nói tự động (ASR)
+ Nhận dạng thực thể có tên (NER)
- Tính năng chính:
+ Tự động nhận diện và che giấu thông tin nhạy cảm như tên, số điện thoại, địa chỉ trong quá trình chuyển đổi
+ Xử lý đồng thời việc chuyển đổi âm thanh và bảo vệ thông tin riêng tư
+ Hỗ trợ học không cần mẫu (zero-shot learning)
+ Có thể tùy chỉnh để đánh dấu thay vì che giấu thông tin
- Mô hình được phát hành dưới giấy phép MIT, cho phép:
+ Sử dụng miễn phí
+ Tùy chỉnh và triển khai
+ Áp dụng cho mục đích thương mại
- Phương pháp huấn luyện độc đáo:
+ Sử dụng tập dữ liệu tổng hợp
+ Kết hợp dữ liệu giọng nói và văn bản NER
+ Xử lý đồng thời hai tác vụ trong một khối
- Ứng dụng thực tế:
+ Giám sát tuân thủ
+ Quản lý kho hàng
+ Đảm bảo chất lượng
+ Đặc biệt phù hợp với ngành y tế và luật
📌 aiOla phát hành mô hình AI nguồn mở Whisper-NER tích hợp khả năng chuyển đổi âm thanh và bảo vệ dữ liệu nhạy cảm trong cùng một quy trình. Mô hình được cấp phép MIT, hỗ trợ zero-shot learning và đặc biệt phù hợp với các ngành có yêu cầu bảo mật cao như y tế và luật.
https://venturebeat.com/ai/aiola-unveils-open-source-ai-audio-transcription-model-that-obscures-sensitive-info-in-realtime/
- OpenScholar là hệ thống AI do viện Allen Institute for AI và đại học Washington phát triển, giúp các nhà nghiên cứu tiếp cận, đánh giá và tổng hợp tài liệu khoa học hiệu quả
- Hệ thống sử dụng mô hình tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài, kết nối với kho dữ liệu hơn 45 triệu bài báo khoa học nguồn mở
- OpenScholar vượt trội hơn GPT-4o về độ chính xác và trích dẫn nguồn, trong khi GPT-4o tạo ra trích dẫn sai trong hơn 90% trường hợp với các câu hỏi y sinh
- Hệ thống hoạt động thông qua vòng lặp phản hồi tự động, liên tục cải thiện kết quả đầu ra và tích hợp thông tin bổ sung một cách thích ứng
- Mô hình 8 tỷ tham số của OpenScholar có chi phí vận hành thấp hơn 100 lần so với PaperQA2 dựa trên GPT-4o
- Các chuyên gia đánh giá câu trả lời của OpenScholar tốt hơn so với câu trả lời viết bởi con người trong 70% trường hợp
- OpenScholar công bố toàn bộ mã nguồn, mô hình, dữ liệu và công cụ, khẳng định tính minh bạch sẽ thúc đẩy tiến bộ nhanh hơn
- Hạn chế chính của hệ thống là chỉ có thể truy cập các bài báo nguồn mở, chưa bao gồm các nghiên cứu có phí truy cập
📌 OpenScholar là AI nguồn mở đầu tiên vượt trội GPT-4o trong nghiên cứu khoa học, xử lý 45 triệu bài báo với độ chính xác 70% cao hơn chuyên gia, chi phí thấp hơn 100 lần, mở ra kỷ nguyên mới cho việc tổng hợp tri thức khoa học.
https://venturebeat.com/ai/openscholar-the-open-source-a-i-thats-outperforming-gpt-4o-in-scientific-research/
• DeepSeek, công ty con AI của quỹ đầu cơ High-Flyer Capital Management, đã ra mắt mô hình ngôn ngữ lớn (LLM) tập trung vào lập luận mới nhất là R1-Lite-Preview.
• R1-Lite-Preview hiện chỉ có sẵn thông qua chatbot AI dựa trên web DeepSeek Chat.
• Mô hình mới này đã gây ấn tượng bằng cách cung cấp hiệu suất gần bằng và trong một số trường hợp vượt quá mô hình o1-preview của OpenAI.
• R1-Lite-Preview thể hiện khả năng lập luận "chuỗi suy luận", cho phép người dùng theo dõi quá trình suy luận của nó.
• Mô hình này có khả năng trả lời chính xác các câu hỏi đánh đố đã gây khó khăn cho các mô hình AI mạnh mẽ khác như GPT-4 và Claude.
• DeepSeek tuyên bố R1-Lite-Preview vượt trội hơn hiệu suất cấp o1-preview của OpenAI trên các điểm chuẩn như AIME và MATH.
• Công ty đã công bố dữ liệu mở rộng, cho thấy cải thiện độ chính xác ổn định khi mô hình được cung cấp nhiều thời gian hoặc "token suy nghĩ" hơn để giải quyết vấn đề.
• R1-Lite-Preview đã thể hiện khả năng cạnh tranh trên các điểm chuẩn quan trọng như GPQA và Codeforces.
• Tính minh bạch trong quá trình lập luận của mô hình là một điểm khác biệt so với nhiều hệ thống AI độc quyền.
• DeepSeek chưa công bố mã đầy đủ để phân tích hoặc đánh giá độc lập của bên thứ ba.
• Công ty cũng chưa công bố bài đăng blog hoặc bài báo kỹ thuật giải thích cách R1-Lite-Preview được đào tạo hoặc kiến trúc.
• R1-Lite-Preview hiện có thể truy cập thông qua DeepSeek Chat tại chat.deepseek.com, với chế độ "Deep Think" nâng cao có giới hạn 50 tin nhắn mỗi ngày.
• DeepSeek có kế hoạch phát hành các phiên bản nguồn mở của các mô hình dòng R1 và API liên quan trong tương lai.
• Công ty có lịch sử hỗ trợ cộng đồng AI nguồn mở, với các phiên bản trước như DeepSeek-V2.5 được đánh giá cao.
• R1-Lite-Preview xây dựng dựa trên thành công của các mô hình trước đó, tập trung vào lập luận minh bạch và khả năng mở rộng.
📌 DeepSeek đã ra mắt R1-Lite-Preview, một mô hình lập luận AI mạnh mẽ vượt trội hơn OpenAI o1 trong một số trường hợp. Mô hình này thể hiện khả năng lập luận "chuỗi suy luận" minh bạch và đạt hiệu suất cao trên các điểm chuẩn quan trọng. DeepSeek cam kết phát triển AI nguồn mở và có kế hoạch phát hành các phiên bản mã nguồn mở trong tương lai.
https://venturebeat.com/ai/deepseeks-first-reasoning-model-r1-lite-preview-turns-heads-beating-openai-o1-performance/
- Mistral AI, startup Pháp vừa công bố mô hình nền tảng mới Pixtral Large với 124 tỷ tham số, bao gồm bộ giải mã 123 tỷ tham số và bộ mã hóa thị giác 1 tỷ tham số
- Pixtral Large có khả năng:
* Xử lý 30 ảnh độ phân giải cao mỗi lần nhập liệu
* Đọc văn bản tương đương 300 trang sách
* Cửa sổ ngữ cảnh 128.000 token
* Nhận dạng ký tự quang học đa ngôn ngữ
* Phân tích biểu đồ và tài liệu
- Le Chat được nâng cấp với các tính năng mới:
* Tìm kiếm web kèm trích dẫn nguồn
* Canvas tương tác để tạo tài liệu và thiết kế
* Phân tích tài liệu PDF phức tạp
* Tạo ảnh thông qua hợp tác với Black Forest Labs
* Agent tự động hóa các tác vụ lặp lại
- Mô hình được cung cấp miễn phí trên Hugging Face nhưng:
* Chỉ dành cho mục đích nghiên cứu phi thương mại
* Sử dụng thương mại cần giấy phép riêng từ Mistral
- Thách thức hiện tại của Mistral:
* Thiếu tính năng âm thanh và giọng nói như ChatGPT
* Mức độ sử dụng trong doanh nghiệp còn thấp hơn OpenAI, Anthropic
* Đang định vị là giải pháp AI độc lập của châu Âu
📌 Mistral AI đang khẳng định vị thế với Pixtral Large 124 tỷ tham số và Le Chat được nâng cấp toàn diện. Startup này đang trở thành niềm hy vọng của châu Âu trong việc phát triển AI độc lập với Mỹ, dù vẫn cần cải thiện các tính năng âm thanh và tăng độ phổ biến trong doanh nghiệp.
https://venturebeat.com/ai/mistral-unleashes-pixtral-large-and-upgrades-le-chat-into-full-on-chatgpt-competitor/
- Fireworks AI vừa ra mắt mô hình AI tổng hợp f1, được thiết kế đặc biệt cho các tác vụ suy luận phức tạp
- f1 tích hợp nhiều mô hình nguồn mở ở tầng suy luận, giúp cải thiện hiệu suất trong các lĩnh vực:
+ Lập trình
+ Trò chuyện
+ Giải quyết vấn đề toán học
- Điểm khác biệt của f1:
+ Không phụ thuộc vào một hệ thống suy luận duy nhất
+ Kết hợp ưu điểm của nhiều mô hình chuyên biệt
+ Cung cấp giao diện nhắc lệnh đơn giản cho nhà phát triển
- Fireworks AI cung cấp 2 phiên bản:
+ f1 tiêu chuẩn
+ f1-mini (phiên bản nhẹ hơn)
- Cả hai phiên bản đều có sẵn để dùng thử trên Fireworks AI Playground
- Ưu điểm của kiến trúc tổng hợp:
+ Chia nhỏ tác vụ phức tạp thành các tác vụ con
+ Mỗi tác vụ con được xử lý bởi mô hình phù hợp nhất
+ Tối ưu hiệu suất từng bước
+ Đơn giản hóa việc sử dụng AI phức tạp
- Kết quả kiểm tra cho thấy f1 vượt trội hơn GPT-4 và Claude 3.5 Sonnet trong:
+ Lập trình khó
+ Trò chuyện
+ Các bài toán phức tạp
- Nhà phát triển có thể:
+ Đăng ký sớm để truy cập API của f1
+ Dùng thử miễn phí trên Fireworks AI Playground
📌 Fireworks AI đã tạo bước đột phá với mô hình f1 tích hợp nhiều mô hình nguồn mở, vượt trội hơn GPT-4 và Claude 3.5 trong mọi bài kiểm tra. f1 đơn giản hóa việc sử dụng AI phức tạp thông qua giao diện nhắc lệnh thống nhất, mở ra tương lai cho các ứng dụng AI linh hoạt và hiệu quả hơn.
https://www.marktechpost.com/2024/11/18/fireworks-ai-releases-f1-a-compound-ai-model-specialized-in-complex-reasoning-that-beats-gpt-4o-and-claude-3-5-sonnet-across-hard-coding-chat-and-math-benchmarks/
- Microsoft chính thức tham gia cuộc đua agent AI với việc ra mắt hệ thống Magentic-One, một bước tiến xa hơn so với chatbot thông thường
- Magentic-One được thiết kế như một "hệ thống đa agent tổng quát", nhắm đến đối tượng người dùng doanh nghiệp quen thuộc với các sản phẩm văn phòng của Microsoft
- Hệ thống bao gồm 5 agent chính:
+ Orchestrator: Agent chỉ huy, lập kế hoạch và điều phối toàn bộ dự án
+ WebSurfer: Agent lướt web
+ FileSurfer: Agent xử lý tệp
+ Coder: Agent viết mã
+ ComputerTerminal: Agent điều khiển máy tính
- Microsoft phát hành Magentic-One dưới dạng dự án nguồn mở trên Github để khuyến khích cộng đồng phát triển ứng dụng
- Điểm khác biệt của Magentic-One so với các hệ thống agent AI khác:
+ Tập trung vào quy trình công việc tổng quát thay vì chỉ một số tác vụ hẹp
+ Có khả năng hoàn thành nhiều tác vụ đa dạng trong các tình huống hàng ngày
+ Sử dụng agent chỉ huy Orchestrator để điều phối và xử lý vấn đề
- Thách thức hiện tại của công nghệ agent AI:
+ Các mô hình AI cơ bản vẫn gặp khó khăn trong việc đưa ra phản hồi nhất quán
+ Độ chính xác của hệ thống agent tốt nhất hiện chỉ đạt khoảng 50% so với con người
+ Cần nhiều sự hỗ trợ từ con người để hoàn thành các yêu cầu phức tạp
📌 Microsoft đã gia nhập cuộc đua agent AI với Magentic-One - hệ thống 5 agent do Orchestrator điều phối. Dù độ chính xác hiện chỉ đạt 50% so với con người, đây là bước tiến quan trọng trong việc phát triển AI có khả năng tự động hóa các tác vụ phức tạp.
https://www.tomsguide.com/ai/microsoft-unveils-magentic-one-an-ai-agent-that-can-browse-the-web-and-write-code
- Alibaba Cloud vừa phát hành Qwen2.5-Coder, trợ lý lập trình AI đã nhanh chóng trở thành demo phổ biến thứ 2 trên Hugging Face Spaces
- Mô hình được phát hành với 6 biến thể, từ 0,5 tỷ đến 32 tỷ tham số, phù hợp với nhiều nhu cầu tính toán khác nhau
- Qwen2.5-Coder-32B-Instruct đạt điểm ấn tượng:
+ 92,7% trên HumanEval
+ 90,2% trên MBPP
+ 31,4% độ chính xác trên LiveCodeBench
- Hỗ trợ 92 ngôn ngữ lập trình từ phổ biến đến chuyên biệt như Haskell và Racket
- Các tính năng nổi bật:
+ Hoàn thiện code cấp repository
+ Hiểu ngữ cảnh qua nhiều file
+ Tạo ứng dụng trực quan như website
+ Gỡ lỗi code
- Sử dụng giấy phép Apache 2.0 cho phép tích hợp miễn phí vào sản phẩm thương mại
- Thành tựu này của Alibaba Cloud đáng chú ý trong bối cảnh Trung Quốc đang bị Mỹ hạn chế xuất khẩu chip tiên tiến
- Tác động đến thị trường:
+ Thách thức mô hình kinh doanh dựa trên thuê bao của OpenAI và Anthropic
+ Giảm chi phí phát triển phần mềm cho doanh nghiệp
+ Tăng khả năng tiếp cận AI cho các công ty nhỏ và thị trường mới nổi
📌 Qwen2.5-Coder của Alibaba Cloud là bước đột phá trong AI lập trình với hiệu suất vượt trội (92,7% trên HumanEval), hỗ trợ 92 ngôn ngữ và hoàn toàn miễn phí. Mô hình nguồn mở này sẽ định hình lại cách tiếp cận AI trong phát triển phần mềm doanh nghiệp toàn cầu.
https://venturebeat.com/ai/alibaba-new-ai-can-code-in-92-languages-and-its-completely-free/
- Đổi mới sáng tạo nguồn mở đóng vai trò then chốt trong làn sóng AI, với các công nghệ nền tảng như transformer của Google và các framework TensorFlow, PyTorch được chia sẻ rộng rãi
- Các lo ngại chính về AI nguồn mở bao gồm:
+ Việc đối thủ cạnh tranh của Mỹ có thể tận dụng: Trung Quốc đã điều chỉnh mô hình Llama 2 của Meta cho mục đích quân sự
+ Nguy cơ khủng bố và tội phạm lợi dụng bằng cách gỡ bỏ các biện pháp bảo vệ
+ Anthropic cảnh báo về rủi ro độc đáo khi mô hình có thể được điều chỉnh cho mục đích xấu
- Lợi ích của phần mềm nguồn mở đã được chứng minh:
+ Là nền tảng của ngành công nghệ và thiết bị hàng tỷ người dùng
+ World Wide Web dựa trên mã nguồn mở do Tim Berners-Lee công bố
+ Thuật toán nén Ogg Vorbis được Spotify sử dụng phục vụ hàng triệu người
- Mô hình đóng vẫn cần thiết cho các ứng dụng nhạy cảm, nhưng mô hình mở hoặc bán mở đóng vai trò quan trọng:
+ Cho phép minh bạch và học hỏi từ kỹ thuật
+ Tạo cơ hội phát triển và xây dựng trên nền tảng có sẵn
- Meta đang hạn chế quyền truy cập vào các mô hình của mình (giới hạn ở ứng dụng dưới 700 triệu người dùng hàng tháng) nhưng có thể mở rộng hơn để thu hút các nhà phát triển
📌 AI nguồn mở thúc đẩy đổi mới sáng tạo toàn cầu dù tồn tại rủi ro. Chính phủ cần áp dụng quy định an toàn đồng bộ thay vì hạn chế nghiên cứu. Các mô hình mở và bán mở sẽ là chìa khóa cho sự phát triển công nghệ trong tương lai, bên cạnh các mô hình đóng cho ứng dụng nhạy cảm.
https://www.economist.com/leaders/2024/11/07/why-open-source-ai-models-are-good-for-the-world
- Microsoft Research vừa phát hành Magentic-One, một hệ thống AI đa tác tử tổng quát có khả năng giải quyết các tác vụ mở trong nhiều lĩnh vực
- Magentic-One được phát hành dưới dạng công cụ nguồn mở trên nền tảng Microsoft AutoGen, nhằm hỗ trợ các nhà phát triển và nghiên cứu tạo ra ứng dụng tự động xử lý các tác vụ phức tạp
- Kiến trúc đa tác tử của Magentic-One bao gồm:
+ Tác tử điều phối chính
+ WebSurfer cho điều hướng web
+ FileSurfer cho quản lý file
+ Coder cho lập trình
+ ComputerTerminal cho thực thi mã
- Hệ thống có tính linh hoạt và mở rộng cao:
+ Cho phép thêm/bớt tác tử mà không ảnh hưởng cấu trúc cốt lõi
+ Hỗ trợ tích hợp các mô hình ngôn ngữ lớn (LLM) và nhỏ (SLM)
+ Đã thử nghiệm với GPT-4 và OpenAI o1-preview
- Microsoft giới thiệu AutoGenBench để đánh giá hiệu suất trên các benchmark:
+ GAIA
+ AssistantBench
+ WebArena
- Các framework đa tác tử nguồn mở khác cũng được phát hành gần đây:
+ OpenAI với Swarm
+ IBM với Bee Agent Framework (phiên bản alpha)
+ Bee Agent tương thích với IBM Granite và Llama 3.2
📌 Magentic-One là nền tảng AI đa tác tử nguồn mở của Microsoft với kiến trúc module linh hoạt, cho phép xử lý đa dạng tác vụ từ duyệt web đến lập trình. Hệ thống đạt hiệu suất cạnh tranh trên các benchmark quan trọng và hỗ trợ tích hợp nhiều mô hình ngôn ngữ khác nhau.
https://analyticsindiamag.com/ai-news-updates/microsoft-launches-magentic-one-an-open-source-multi-agent-ai-platform/
- IBM vừa công bố Granite 3.0 - dòng mô hình AI nguồn mở dành cho doanh nghiệp, được cấp phép theo Apache 2.0
- Đặc điểm nổi bật của Granite 3.0:
+ Hoạt động hiệu quả trên thiết bị có tài nguyên hạn chế
+ Đa dạng kích thước mô hình phù hợp nhiều cấu hình phần cứng
+ Thực hiện nhiều tác vụ: tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài, phân loại, tóm tắt, trích xuất thực thể
- IBM giới thiệu Instruct Lab song song với Granite 3.0:
+ Tích hợp tri thức đặc thù của doanh nghiệp vào mô hình AI mà không cần fine-tuning truyền thống
+ Giảm chi phí đáng kể trong quá trình tùy chỉnh mô hình
+ Cải thiện độ chính xác và phù hợp trong ứng dụng thực tế
- Công nghệ mixture of experts trong Granite 3.0:
+ Tối ưu hiệu năng bằng cách chỉ kích hoạt một số tham số nhất định
+ Phù hợp môi trường yêu cầu độ trễ thấp
+ Được huấn luyện trên tập dữ liệu đa dạng và quy mô lớn
- Granite 3.0 thể hiện hiệu năng vượt trội trong:
+ Ứng dụng an ninh mạng
+ Kịch bản gọi công cụ
+ Tác vụ đặc thù doanh nghiệp
- IBM tích cực kết hợp AI với điện toán lượng tử:
+ Đầu tư nghiên cứu để mở rộng khả năng tính toán
+ Tích hợp framework Agent vào nền tảng Watson
+ Cam kết phát triển giải pháp nguồn mở qua thương vụ mua lại Red Hat
📌 Granite 3.0 của IBM mang đến cuộc cách mạng AI nguồn mở cho doanh nghiệp với khả năng hoạt động trên thiết bị tài nguyên thấp. Instruct Lab cho phép tích hợp tri thức đặc thù mà không cần fine-tuning, tiết kiệm chi phí đáng kể. Mô hình thể hiện hiệu năng vượt trội trong an ninh mạng và tác vụ doanh nghiệp.
https://www.geeky-gadgets.com/ibm-granite-3-ai-models/
• Các nhà nghiên cứu tại Beijing Academy of Artificial Intelligence vừa phát hành Omnigen - mô hình AI nguồn mở tích hợp nhiều tính năng xử lý ảnh trong một hệ thống duy nhất
• Omnigen sử dụng 2 thành phần chính: Variational Autoencoder để phân tích cấu trúc ảnh và transformer model để xử lý đa dạng đầu vào
• Mô hình được huấn luyện trên tập dữ liệu 1 tỷ ảnh, có khả năng:
- Tạo ảnh từ văn bản
- Chỉnh sửa ảnh phức tạp
- Tô vẽ nội dung
- Điều chỉnh depth map
• Tích hợp Microsoft Phi-3 LLM giúp Omnigen hiểu ngữ cảnh và tương tác qua hội thoại tự nhiên như ChatGPT
• Người dùng có thể:
- Chạy miễn phí trên Hugging Face
- Cài đặt locally với yêu cầu tối thiểu 12GB VRAM
- Tích hợp vào ComfyUI thông qua node riêng
• Ưu điểm nổi bật:
- Đơn giản hóa quy trình chỉnh sửa ảnh phức tạp
- Hiểu và thực hiện lệnh qua ngôn ngữ tự nhiên
- Không cần kiến thức chuyên sâu về công cụ chỉnh sửa
• Hạn chế hiện tại:
- Tốc độ xử lý chậm hơn SD 3.5 và Flux
- Chất lượng ảnh chưa vượt trội
- Chỉ tương thích với card Nvidia
📌 Omnigen mở ra hướng đi mới cho công nghệ xử lý ảnh AI với khả năng tương tác qua hội thoại tự nhiên. Dù chưa vượt trội về chất lượng ảnh nhưng mô hình đã đơn giản hóa quy trình chỉnh sửa phức tạp, phù hợp cho cả người mới bắt đầu lẫn chuyên gia AI.
https://decrypt.co/290075/omnigen-open-source-ai-model-images-art
• AMD vừa công bố OLMo, dòng mô hình ngôn ngữ lớn (LLM) 1 tỷ tham số đầu tiên được công ty phát triển và đào tạo nội bộ
• OLMo được đào tạo trên hàng nghìn tỷ token sử dụng cụm GPU Instinct MI250 của AMD
• Đây là LLM thứ hai AMD tự phát triển, sau mô hình nhỏ AMD-135M ra mắt tháng 9/2024
• OLMo dựa trên mô hình cùng tên do AI2 (trước đây là Viện Allen về Trí tuệ nhân tạo) phát triển ban đầu
• AMD OLMo có 3 biến thể:
- OLMo 1B: Được tiền đào tạo trên 1,3 nghìn tỷ token từ tập dữ liệu Dolma v1.7
- OLMo 1B SFT: Được tinh chỉnh có giám sát trên các bộ dữ liệu Tulu V2, OpenHermes-2.5, WebInstructSub và Code-Feedback
- OLMo 1B SFT DPO: Được tinh chỉnh thêm để phản ánh tốt hơn sở thích của con người thông qua tối ưu hóa ưu tiên trực tiếp
• Các mô hình này sử dụng kiến trúc transformer chỉ giải mã, phù hợp cho ứng dụng chatbot
• So với các mô hình nguồn mở cùng kích thước:
- OLMo 1B đạt độ chính xác trung bình 48,77% trên các tác vụ suy luận tổng quát, tương đương OLMo-0724-hf (49,3%) nhưng với chi phí đào tạo chỉ bằng một nửa
- Cải thiện độ chính xác trên ARC-Easy (+6,36%), ARC-Challenge (+1,02%) và SciQ (+0,50%)
• So với các mô hình cơ sở được tinh chỉnh theo hướng dẫn:
- OLMo 1B SFT cải thiện đáng kể độ chính xác trên MMLU (+5,09%) và GSM8k (+15,32%)
- Hiệu suất trên GSM8k (18,2%) vượt trội so với mô hình cơ sở tốt nhất tiếp theo (TinyLlama-1.1B-Chat-v1.0 ở mức 2,81%)
• AMD mở mã nguồn toàn bộ dữ liệu, trọng số, công thức đào tạo và mã của OLMo nhằm thúc đẩy sự đổi mới trong cộng đồng
• Động thái này cũng nhằm quảng bá sức mạnh của bộ xử lý AMD so với các đối thủ như Nvidia và Intel trong lĩnh vực AI
📌 AMD ra mắt OLMo - dòng LLM 1 tỷ tham số nguồn mở đầu tiên, đạt hiệu suất vượt trội so với các mô hình cùng phân khúc trên nhiều tiêu chuẩn đánh giá. Với 3 biến thể và quá trình đào tạo 3 giai đoạn, OLMo thể hiện khả năng suy luận và tuân theo hướng dẫn tốt hơn, đồng thời quảng bá sức mạnh GPU Instinct của AMD trong lĩnh vực AI.
https://thelettertwo.com/2024/11/03/amd-unveils-olmo-its-first-fully-open-1b-parameter-llm-series/
- Các nhà nghiên cứu Trung Quốc có liên hệ với Quân đội Giải phóng Nhân dân (PLA) đã phát triển mô hình AI mang tên ChatBIT, sử dụng mô hình nguồn mở Llama của Meta.
- ChatBIT được thiết kế cho các ứng dụng quân sự và được tối ưu hóa cho các nhiệm vụ đối thoại và trả lời câu hỏi trong lĩnh vực quân sự.
- Mô hình này sử dụng Llama 13B, một mô hình ngôn ngữ lớn (LLM) đã được chỉnh sửa để phục vụ cho việc thu thập và xử lý thông tin tình báo.
- Theo một số tài liệu nghiên cứu, ChatBIT đạt hiệu suất khoảng 90% so với GPT-4 của OpenAI, mặc dù không có thông tin chi tiết về cách thức thử nghiệm hiệu suất.
- Việc sử dụng các mô hình AI nguồn mở có thể giúp ChatBIT cạnh tranh với các mô hình mới nhất từ các công ty công nghệ Mỹ trong các bài kiểm tra chuẩn.
- Một số chuyên gia cho rằng đây là lần đầu tiên có bằng chứng rõ ràng rằng các chuyên gia quân sự PLA đang nghiên cứu và tìm cách tận dụng sức mạnh của các LLM nguồn mở, đặc biệt là của Meta.
- Giấy phép của Meta cấm sử dụng Llama cho các ứng dụng quân sự, nhưng tính chất nguồn mở của nó khiến việc thực thi hạn chế này trở nên khó khăn.
- Meta đã phản hồi rằng việc sử dụng Llama 13B là không quan trọng vì đây là phiên bản "cũ" và họ đang phát triển Llama 4.
- Một số nhà nghiên cứu chỉ ra rằng ChatBIT chỉ sử dụng 100.000 bản ghi đối thoại quân sự, một con số nhỏ so với hàng triệu dữ liệu mà các mô hình hiện đại khác được huấn luyện.
- Mặc dù vậy, ChatBIT có thể chỉ là bằng chứng khái niệm cho thấy các viện nghiên cứu quân sự có kế hoạch phát triển các mô hình lớn hơn trong tương lai.
- Chính phủ Trung Quốc có thể đã công bố các tài liệu nghiên cứu này như một tín hiệu gửi đến Mỹ rằng họ không ngại sử dụng AI để tạo lợi thế công nghệ trên trường quốc tế.
- Washington lo ngại về việc sử dụng công nghệ nguồn mở của Mỹ sẽ mang lại lợi thế quân sự cho đối thủ. Do đó, nhiều nhà lập pháp Mỹ muốn chặn quyền truy cập của Trung Quốc vào các công nghệ tiêu chuẩn nguồn mở như RISC-V.
📌 Các nhà nghiên cứu Trung Quốc đã phát triển mô hình AI quân sự ChatBIT dựa trên Llama của Meta, đạt 90% hiệu suất GPT-4. Điều này gây lo ngại cho Washington về việc đối thủ có thể tận dụng công nghệ nguồn mở để tăng cường sức mạnh quân sự.
https://www.tomshardware.com/tech-industry/artificial-intelligence/chinese-researchers-build-military-ai-using-metas-open-source-llama-model-chatbit-allegedly-performs-at-around-90-percent-of-the-performance-of-openai-gpt-4-llm
- Meta AI vừa công bố phiên bản nguồn mở của MobileLLM, bộ mô hình ngôn ngữ được tối ưu hóa cho thiết bị di động, với mã nguồn và trọng số có sẵn trên Hugging Face
- Mô hình hiện chỉ được cấp phép Creative Commons 4.0 phi thương mại, giới hạn việc sử dụng trong nghiên cứu
- MobileLLM có số lượng tham số từ 125 triệu đến 1 tỷ, được thiết kế phù hợp với bộ nhớ và năng lượng hạn chế của phần cứng di động
- Kiến trúc độc đáo của MobileLLM tập trung vào chiều sâu thay vì chiều rộng, khác biệt so với quy luật mở rộng AI truyền thống
- Mô hình tích hợp nhiều cải tiến quan trọng:
• Ưu tiên chiều sâu hơn chiều rộng
• Kỹ thuật chia sẻ embedding
• Cơ chế chú ý truy vấn theo nhóm
• Chia sẻ trọng số theo khối tức thì
- Phiên bản 350 triệu tham số đạt hiệu suất ngang bằng với Meta Llama-2 7B trong việc gọi API
- MobileLLM được tối ưu hóa cho thiết bị có bộ nhớ 6-12 GB, phù hợp với smartphone phổ biến như iPhone và Google Pixel
- Mô hình 125 triệu và 350 triệu tham số cải thiện độ chính xác lần lượt 2,7% và 4,3% so với các mô hình tốt nhất trước đây trong các tác vụ zero-shot
📌 Meta AI đã tạo bước đột phá với MobileLLM - mô hình ngôn ngữ hiệu quả cao chạy trên thiết bị di động. Với kiến trúc sâu và mỏng độc đáo, phiên bản 350 triệu tham số đạt hiệu suất ngang Meta Llama-2 7B, mở ra tiềm năng mới cho AI trên thiết bị cầm tay.
https://venturebeat.com/ai/meta-makes-its-mobilellm-open-for-researchers-posting-full-weights/
- Mark Zuckerberg công bố Meta đang huấn luyện mô hình Llama 4 trên cụm GPU lớn hơn 100.000 chip H100, vượt xa quy mô của bất kỳ đối thủ nào
- Llama 4 dự kiến ra mắt đầu năm 2025, với các phiên bản nhỏ sẽ được phát hành trước
- Cụm máy tính này tiêu thụ khoảng 150 megawatt điện năng, gấp 5 lần so với siêu máy tính El Capitan (30 megawatt)
- Meta dự kiến chi 40 tỷ USD trong năm 2024 cho cơ sở hạ tầng và trung tâm dữ liệu, tăng 42% so với năm 2023
- Doanh thu của Meta tăng 22% trong khi chi phí hoạt động chỉ tăng 9%, cho phép công ty đầu tư mạnh vào phát triển Llama
- Meta AI, chatbot dựa trên Llama, hiện có hơn 500 triệu người dùng hàng tháng trên các nền tảng Facebook, Instagram và WhatsApp
- Meta theo đuổi chiến lược nguồn mở với Llama, khác biệt so với các đối thủ như OpenAI và Google
- Llama 4 sẽ có các tính năng mới như "multimodal", khả năng suy luận mạnh mẽ hơn và tốc độ nhanh hơn
- Một số chuyên gia lo ngại việc cung cấp mô hình AI mạnh mẽ miễn phí có thể gây rủi ro an ninh mạng
- Meta kỳ vọng sẽ tạo doanh thu từ quảng cáo thông qua tính năng Meta AI trong tương lai
📌 Meta đang dẫn đầu cuộc đua AI với cụm GPU 100.000 chip H100 để phát triển Llama 4. Với 500 triệu người dùng Meta AI hàng tháng và khoản đầu tư 40 tỷ USD cho cơ sở hạ tầng năm 2024, Meta đang đặt cược lớn vào chiến lược AI nguồn mở.
https://www.wired.com/story/meta-llama-ai-gpu-training/
- Singapore hiện có hơn 1,3 triệu lập trình viên trong tổng dân số 6 triệu người, với tốc độ tăng trưởng 28% trong 12 tháng tính đến tháng 9/2024
- Quốc đảo xếp hạng 9 toàn cầu về số lượng người đóng góp cho các dự án AI trên GitHub, với hơn 9.700 lập trình viên tham gia
- Năm 2024 chứng kiến sự tăng trưởng mạnh mẽ trên GitHub:
• Đóng góp cho dự án AI tạo sinh tăng 59%
• Số lượng dự án tăng 98%
- GitHub giới thiệu các tính năng mới tại hội nghị Universe ở San Francisco:
• Cho phép lựa chọn mô hình ngôn ngữ lớn từ Anthropic, Google và OpenAI
• Ra mắt GitHub Spark - công cụ AI tạo ứng dụng web bằng lệnh ngôn ngữ tự nhiên
- Về tài chính:
• Phí người dùng cá nhân: 10 USD/tháng hoặc 100 USD/năm
• Phí doanh nghiệp: 19-39 USD/tháng
• GitHub có 1,8 triệu người dùng trả phí
• Doanh thu dự kiến đạt 2 tỷ USD/năm
- Xu hướng công nghệ 2024:
• Python vượt qua JavaScript trở thành ngôn ngữ phổ biến nhất
• Jupyter Notebooks tăng trưởng 92%
• ANZ Bank báo cáo năng suất lập trình tăng 42% nhờ Copilot
📌 Singapore đang chứng kiến sự bùng nổ về số lượng lập trình viên với 1,3 triệu người (chiếm 1/4 dân số), tăng trưởng 28% trong năm 2024. Quốc đảo này xếp hạng 9 toàn cầu về đóng góp cho dự án AI, khẳng định vị thế là trung tâm công nghệ hàng đầu châu Á.
https://www.straitstimes.com/business/spore-has-1-3m-coders-ranks-9th-globally-for-helping-ai-projects-github
- OmniParser là mô hình AI hoàn toàn dựa trên giao diện đồ họa người dùng (GUI), được Microsoft công bố trên blog AI Frontiers.
- Mô hình này được phát hành trên Hugging Face với giấy phép MIT, tương tự như tính năng "Sử dụng máy tính" của Anthropic.
- Sự ra mắt của OmniParser củng cố vị thế của Microsoft trong ngành AI Agent, sau khi gia nhập Super League cùng Oracle và Salesforce vào tháng 9.
- Nghiên cứu đầu tiên về OmniParser được công bố vào tháng 3 năm 2024 bởi Jianqiang Wan và nhóm từ Alibaba Group và Đại học Khoa học và Công nghệ Huazhong.
- Một bài báo chi tiết về OmniParser được phát hành vào tháng 8 bởi Yadong Lu và các đồng nghiệp từ Microsoft Research, chứng minh rằng OmniParser vượt trội hơn các chuẩn mực GPT-4V ngay cả khi chỉ sử dụng đầu vào từ ảnh chụp màn hình.
- OmniParser được mô tả là công cụ đa năng, chuyển đổi ảnh chụp màn hình giao diện người dùng thành dữ liệu và nâng cao khả năng hiểu biết của các mô hình ngôn ngữ lớn (LLMs) về giao diện.
- Ra mắt kèm theo hai loại tập dữ liệu: một để phát hiện biểu tượng có thể nhấp và một để mô tả chức năng của từng biểu tượng.
- Trong các bài kiểm tra trên các chuẩn mực như SeeClick, Mind2Web và AITW, OmniParser luôn vượt trội hơn GPT-4V và GPT-4 với khả năng nhìn.
- Để tương thích với các LLM hiện tại, OmniParser đã được kết hợp với các mô hình mới nhất như Phi-3.5-V và Llama-3.2-V.
- Kết quả cho thấy mô hình phát hiện vùng tương tác (ID) đã cải thiện hiệu suất nhiệm vụ đáng kể so với mô hình Grounding DINO không tinh chỉnh.
- Tăng cường hiệu suất đến từ "ngữ nghĩa địa phương" (LS) liên kết chức năng của mỗi biểu tượng với mục đích của nó.
- Với sự gia tăng sử dụng các LLM khác nhau, nhu cầu về các AI agent cải tiến cho các chức năng giao diện người dùng cũng tăng cao.
- Mặc dù GPT-4V hứa hẹn nhiều tiềm năng, nhưng khả năng hoạt động như một agent tổng quát trong hệ điều hành thường bị đánh giá thấp do kỹ thuật phân tích màn hình chưa đủ mạnh.
- Theo chuẩn ScreenSpot, OmniParser cải thiện khả năng tạo hành động của GPT-4V phù hợp với các khu vực liên quan trong giao diện người dùng.
- Một bài báo khác công bố vào tháng 9 năm 2024 cho thấy kết quả thử nghiệm tốt nhất cho agent sử dụng OmniParser tích hợp với GPT-4V.
📌 OmniParser là mô hình AI mới của Microsoft, vượt qua GPT-4V trong nhiều bài kiểm tra. Sự ra mắt này đánh dấu bước tiến quan trọng trong ngành AI Agent, với khả năng chuyển đổi ảnh chụp màn hình thành dữ liệu và cải thiện hiệu suất giao diện người dùng.
https://analyticsindiamag.com/ai-news-updates/microsoft-drops-omniparser-its-new-ai-model/
- GLM-4-Voice là mô hình ngôn ngữ lớn đầu cuối mã nguồn mở vừa được Zhipu AI phát hành vào ngày 25 tháng 10 năm 2024.
- Mô hình này nhằm khắc phục những hạn chế của các hệ thống nhận diện giọng nói truyền thống, như khả năng hiểu cảm xúc và biến thể trong khẩu ngữ.
- GLM-4-Voice tích hợp nhận diện giọng nói, hiểu ngôn ngữ và tạo giọng nói trong một hệ thống duy nhất, hỗ trợ cả tiếng Trung và tiếng Anh.
- Việc tích hợp này giúp loại bỏ các quy trình phức tạp thường thấy trong các mô hình trước đây, cho phép xử lý hiệu quả hơn.
- Một tính năng nổi bật của GLM-4-Voice là khả năng điều chỉnh cảm xúc, âm điệu và tốc độ dựa trên hướng dẫn của người dùng.
- Mô hình có độ trễ thấp và hỗ trợ phơi nhiễm thời gian thực, giúp tương tác trở nên tự nhiên hơn khi người dùng có thể nói chồng lên nhau mà không bị gián đoạn.
- GLM-4-Voice cải thiện đáng kể cách tương tác giữa con người và máy móc, làm cho các cuộc trò chuyện trở nên trực quan và dễ tiếp cận hơn.
- Các trợ lý giọng nói hiện tại thường cảm thấy cứng nhắc vì không thể điều chỉnh theo dòng chảy của cuộc trò chuyện con người. GLM-4-Voice giải quyết vấn đề này bằng cách điều chỉnh đầu ra giọng nói để làm cho cuộc trò chuyện trở nên biểu cảm hơn.
- Các thử nghiệm ban đầu cho thấy GLM-4-Voice hoạt động tốt hơn với chuyển tiếp giọng nói mượt mà và khả năng xử lý sự gián đoạn tốt hơn so với các phiên bản trước.
- Dữ liệu ban đầu từ Zhipu AI cho thấy GLM-4-Voice có độ phản hồi tốt hơn với độ trễ giảm, nâng cao sự hài lòng của người dùng trong các ứng dụng tương tác.
- Mô hình này hứa hẹn sẽ ảnh hưởng đến nhiều lĩnh vực như trợ lý cá nhân, dịch vụ khách hàng, giải trí và giáo dục.
📌 GLM-4-Voice của Zhipu AI là bước tiến quan trọng trong mô hình AI giọng nói với khả năng điều chỉnh cảm xúc và hỗ trợ đa ngôn ngữ. Mô hình này mang lại trải nghiệm tương tác tự nhiên hơn với độ trễ thấp và khả năng xử lý sự gián đoạn hiệu quả.
https://www.marktechpost.com/2024/10/25/zhipu-ai-releases-glm-4-voice-a-new-open-source-end-to-end-speech-large-language-model/
• Microsoft vừa công bố Windows Agent Arena - nền tảng benchmark mới để kiểm thử AI agent trong môi trường Windows thực tế
• Nền tảng này cho phép thử nghiệm AI agent trên nhiều ứng dụng Windows như Microsoft Edge, Paint, Clock, VLC media player
• Microsoft Research phát triển AI agent đa phương thức tên Navi để khám phá khả năng của framework
• Kết quả benchmark cho thấy tỷ lệ thành công trung bình của AI agent chỉ đạt 19,5% so với hiệu suất trung bình của con người là 74,5%
• Nền tảng này được phát triển dựa trên framework OSWorld với hơn 150 tác vụ Windows đa dạng
• Windows Agent Arena là dự án nguồn mở, sử dụng các mô hình từ OpenAI như GPT-4V và Microsoft Phi3
• Salesforce CEO Marc Benioff chỉ trích Microsoft Copilot là "Clippy 2.0" và cho rằng Microsoft thiếu dữ liệu và mô hình bảo mật doanh nghiệp
• Các mối quan ngại chính về bảo mật và quyền riêng tư khi AI agent ngày càng tinh vi và có quyền truy cập nhiều ứng dụng chứa thông tin cá nhân
• Microsoft cam kết ưu tiên đạo đức AI, đặt quyền riêng tư và an toàn lên hàng đầu
• Anthropic cũng vừa ra mắt API "Computer Use" cho phép Claude sử dụng máy tính như người thật
📌 Microsoft phát triển Windows Agent Arena để thử nghiệm AI agent trên Windows với 150 tác vụ tự động. Hiệu suất AI chỉ đạt 19,5% so với con người (74,5%). Dự án nguồn mở này đối mặt thách thức về bảo mật và quyền riêng tư khi AI ngày càng tinh vi.
https://www.windowscentral.com/software-apps/microsofts-windows-agent-arena-brings-ai-assistants-keyboard-deep-to-windows-pcs-but-there-are-concerns
• Sáng kiến Nguồn mở (OSI) vừa công bố phiên bản 1.0 của Định nghĩa AI Nguồn mở (OSAID) sau nhiều năm hợp tác với học giới và công nghiệp
• Theo OSAID, một mô hình AI nguồn mở phải:
- Cung cấp đầy đủ thông tin về thiết kế để có thể tái tạo lại
- Công khai chi tiết về dữ liệu huấn luyện, nguồn gốc và cách xử lý
- Cho phép sử dụng cho mọi mục đích không cần xin phép
- Cho phép chỉnh sửa và phát triển tiếp
• Nhiều công ty công nghệ lớn chưa đáp ứng tiêu chuẩn OSAID:
- Meta yêu cầu giấy phép đặc biệt với nền tảng trên 700 triệu người dùng
- Stability AI đòi hỏi giấy phép doanh nghiệp với công ty có doanh thu trên 1 triệu USD
- Mistral hạn chế sử dụng một số mô hình cho mục đích thương mại
• Nghiên cứu từ Signal Foundation chỉ ra nhiều dự án "nguồn mở" chỉ mang tính danh nghĩa:
- Giữ bí mật dữ liệu huấn luyện
- Yêu cầu năng lực tính toán vượt tầm nhiều nhà phát triển
- Kỹ thuật tinh chỉnh phức tạp
• Meta phản đối OSAID với lý do:
- Cần hạn chế chia sẻ chi tiết do quy định pháp lý đang thay đổi
- Điều khoản sử dụng giúp ngăn chặn việc sử dụng có hại
- Không có định nghĩa duy nhất về AI nguồn mở
📌 Định nghĩa OSAID đánh dấu bước ngoặt trong việc thiết lập tiêu chuẩn cho AI nguồn mở, tuy nhiên vẫn còn nhiều thách thức về bản quyền và dữ liệu huấn luyện. Hiện chỉ một số ít mô hình AI đáp ứng đầy đủ các tiêu chí, trong khi các gã khổng lồ công nghệ vẫn đang tranh cãi về định nghĩa này.
https://techcrunch.com/2024/10/28/we-finally-have-an-official-definition-for-open-source-ai/
• LLMWare.ai công bố ra mắt Model Depot trên Hugging Face - bộ sưu tập hơn 100 mô hình ngôn ngữ nhỏ (SLM) được tối ưu hóa cho máy tính Intel
• Model Depot hỗ trợ nhiều ứng dụng: chat, lập trình, toán học, function calling và embedding models, được định dạng theo OpenVINO và ONNX của Intel
• Kết quả thử nghiệm trên laptop Dell với chip Intel Core Ultra 9 cho thấy:
- Mô hình BLING-Tiny-Llama 1,1B tham số chạy nhanh hơn 7,6 lần so với PyTorch
- Nhanh hơn 7,5 lần so với định dạng GGUF
• Model Depot tích hợp các mô hình phổ biến:
- Microsoft Phi-3
- Mistal
- Llama
- Yi
- Qwen
- Các mô hình chuyên biệt của LLMWare: SLIM, DRAGON, BLING
• LLMWare vừa công bố hợp tác chiến lược với Intel để ra mắt Model HQ (phiên bản preview) với các tính năng:
- Bộ công cụ no-code để chạy và triển khai ứng dụng AI
- Tích hợp sẵn UI/UX
- Chatbot và tìm kiếm/phân tích tài liệu
- Các tính năng bảo mật: Model Vault, Model Safety Monitor, bộ lọc quyền riêng tư
• Ưu điểm của việc triển khai AI trên máy tính cá nhân:
- Tăng cường bảo mật dữ liệu
- Không cần sao chép dữ liệu ra hệ thống bên ngoài
- Tiết kiệm chi phí đáng kể
- Triển khai được nhiều ứng dụng AI nhẹ cục bộ
📌 Model Depot cung cấp hơn 100 mô hình ngôn ngữ nhỏ tối ưu cho máy tính Intel, cho phép xử lý nhanh hơn 7,6 lần so với các định dạng thông thường. Đây là bước tiến quan trọng trong việc phổ cập AI an toàn, riêng tư và phi tập trung cho doanh nghiệp.
https://www.marktechpost.com/2024/10/28/llmware-introduces-model-depot-an-extensive-collection-of-small-language-models-slms-for-intel-pcs/
• Meta vừa công bố NotebookLlama - phiên bản nguồn mở của tính năng tạo podcast tự động trong NotebookLM của Google
• NotebookLlama sử dụng mô hình Llama của Meta để thực hiện phần lớn quá trình xử lý
• Quy trình hoạt động của NotebookLlama:
- Đầu tiên tạo bản ghi từ file đầu vào (PDF tin tức hoặc bài blog)
- Thêm các yếu tố kịch tính và ngắt quãng
- Chuyển bản ghi thành giọng nói qua các mô hình text-to-speech nguồn mở
• Chất lượng âm thanh của NotebookLlama còn hạn chế so với NotebookLM:
- Giọng nói có âm sắc máy móc rõ rệt
- Các giọng thường chồng lấn nhau ở những điểm không phù hợp
• Nhóm nghiên cứu của Meta cho biết chất lượng có thể cải thiện với mô hình mạnh hơn:
- Mô hình text-to-speech hiện là điểm giới hạn về độ tự nhiên
- Đề xuất cách tiếp cận mới: sử dụng 2 agent tranh luận để viết dàn ý podcast thay vì một mô hình đơn lẻ
• NotebookLlama không phải nỗ lực đầu tiên nhằm sao chép tính năng podcast của NotebookLM, một số dự án khác đã thành công hơn
• Tuy nhiên, tất cả các hệ thống AI tạo podcast hiện nay đều chưa giải quyết được vấn đề ảo giác (hallucination) - tạo ra thông tin không có thật
📌 Meta tạo bước đột phá với NotebookLlama - công cụ tạo podcast AI nguồn mở dựa trên mô hình Llama, dù chất lượng âm thanh còn hạn chế nhưng mở ra tiềm năng cải tiến với mô hình mạnh hơn. Vấn đề ảo giác vẫn là thách thức chung cho mọi hệ thống AI tạo podcast.
https://techcrunch.com/2024/10/27/meta-releases-an-open-version-of-googles-podcast-generator/
• Cohere vừa phát hành hai mô hình nguồn mở mới thuộc dự án Aya: Aya Expanse 8B và 35B trên nền tảng Hugging Face
• Mô hình Aya Expanse 8B với 8 tỷ tham số giúp các nhà nghiên cứu dễ dàng tiếp cận hơn với công nghệ đột phá
• Mô hình Aya Expanse 32B cung cấp khả năng xử lý đa ngôn ngữ tiên tiến nhất hiện nay
• Dự án Aya được Cohere for AI - bộ phận nghiên cứu của công ty khởi động năm 2023, với mục tiêu mở rộng khả năng tiếp cận mô hình nền tảng cho nhiều ngôn ngữ toàn cầu
• Tháng 2/2024, Cohere đã ra mắt Aya 101 LLM với 13 tỷ tham số, hỗ trợ 101 ngôn ngữ
• Hai mô hình Aya Expanse mới vượt trội hơn các mô hình tương đương từ Google, Mistral và Meta trong các bài kiểm tra chuẩn đa ngôn ngữ
• Aya Expanse 32B hoạt động tốt hơn Gemma 2 27B, Mistral 8x22B và cả Llama 3.1 70B
• Cohere sử dụng phương pháp lấy mẫu dữ liệu "data arbitrage" để tránh tạo ra nội dung vô nghĩa khi mô hình dựa vào dữ liệu tổng hợp
• Công ty tập trung vào việc hướng dẫn mô hình theo "sở thích toàn cầu" và tính đến các quan điểm văn hóa, ngôn ngữ khác nhau
• Tuần này, Cohere cũng bổ sung tính năng tìm kiếm hình ảnh cho Embed 3 và nâng cao khả năng tinh chỉnh cho mô hình Command R 08-2024
📌 Cohere đạt bước tiến quan trọng trong việc phát triển AI đa ngôn ngữ với hai mô hình Aya Expanse mới, vượt trội hơn các đối thủ lớn như Google và Meta. Mô hình 32B xử lý được 23 ngôn ngữ, trong khi mô hình 8B giúp các nhà nghiên cứu dễ dàng tiếp cận công nghệ đột phá này.
https://venturebeat.com/ai/cohere-launches-new-ai-models-to-bridge-global-language-divide/
• Meta AI vừa phát hành phiên bản Llama 3.2 được tối ưu hóa với hai biến thể 1B và 3B, là những mô hình Llama đầu tiên đủ nhẹ để chạy trên nhiều thiết bị di động phổ biến
• Hai kỹ thuật lượng tử hóa được áp dụng:
- Quantization-Aware Training (QAT) với bộ điều hợp LoRA tập trung vào độ chính xác
- SpinQuant: phương pháp lượng tử hóa sau huấn luyện tập trung vào tính di động
• Những cải tiến đáng kể:
- Tăng tốc độ xử lý lên 2-4 lần
- Giảm 56% kích thước mô hình
- Giảm 41% mức sử dụng bộ nhớ so với định dạng BF16 gốc
• Kỹ thuật lượng tử hóa chuyển đổi số dấu phẩy động 32-bit thành biểu diễn 8-bit và 4-bit, giúp mô hình hoạt động hiệu quả với ít bộ nhớ và năng lực tính toán hơn
• Meta AI hợp tác với Qualcomm và MediaTek để triển khai mô hình trên các chip SoC với CPU Arm
• Kết quả thử nghiệm ban đầu cho thấy hiệu suất đạt khoảng 95% so với mô hình Llama 3 đầy đủ nhưng giảm 60% mức sử dụng bộ nhớ
• Framework PyTorch's ExecuTorch hỗ trợ suy luận sử dụng cả hai kỹ thuật lượng tử hóa
📌 Meta AI đã thu nhỏ thành công mô hình Llama 3.2 với hiệu suất đạt 95% nhưng giảm 56% kích thước và tăng tốc độ xử lý lên 2-4 lần. Đây là bước tiến quan trọng giúp phổ cập AI đến nhiều đối tượng hơn, đặc biệt trên các thiết bị di động thông thường.
https://www.marktechpost.com/2024/10/24/meta-ai-releases-new-quantized-versions-of-llama-3-2-1b-3b-delivering-up-to-2-4x-increases-in-inference-speed-and-56-reduction-in-model-size/
Các doanh nghiệp đang chuyển sang sử dụng mô hình ngôn ngữ mở (LLMs) vì mong muốn có nhiều quyền kiểm soát hơn và tối ưu hóa chi phí. Trong khi các mô hình đóng như GPT-4 của OpenAI thống trị ban đầu, các mô hình mở đã nhanh chóng thu hẹp khoảng cách về chất lượng và phổ biến trong các doanh nghiệp.
Meta Llama đã dẫn đầu xu hướng này với hơn 400 triệu lượt tải xuống, và các doanh nghiệp như AT&T, DoorDash, và Goldman Sachs đã triển khai các mô hình Llama cho nhiều mục đích, từ tự động hóa dịch vụ khách hàng đến phân tích tài chính. Các công ty như Oracle, SAP, và Salesforce cũng tích hợp các mô hình mở để đáp ứng nhu cầu linh hoạt của khách hàng.
Lợi thế của mô hình nguồn mở nằm ở khả năng tùy biến và kiểm soát toàn diện. Các doanh nghiệp có thể lựa chọn mô hình phù hợp với nhu cầu cụ thể, từ điều chỉnh mô hình đến triển khai trên hệ thống nội bộ hoặc đám mây. Ví dụ, Intuit đã sử dụng các mô hình Llama để cải thiện độ chính xác trong việc phân loại giao dịch cho QuickBooks.
Các doanh nghiệp lớn cũng nhấn mạnh an toàn và kiểm soát. Meta đã giới thiệu các tính năng như Llama Guard Vision để giám sát và lọc dữ liệu đầu vào và đầu ra, giúp đảm bảo tuân thủ quy định và bảo mật. AWS cũng hỗ trợ các mô hình mở qua dịch vụ Bedrock, cho phép doanh nghiệp thiết lập các tiêu chuẩn bảo mật trên nhiều mô hình khác nhau.
Giảm chi phí và loại bỏ phụ thuộc nhà cung cấp là động lực quan trọng thúc đẩy doanh nghiệp chuyển sang mô hình mở. Những công ty như ANZ Bank đã từ bỏ OpenAI để tùy chỉnh mô hình Llama cho các ứng dụng tài chính cụ thể. Ngoài ra, các công cụ như "switch kits" của PostgresML giúp quá trình chuyển đổi từ mô hình đóng sang mở trở nên dễ dàng hơn.
Tương lai của LLMs có thể giống như cuộc chiến hệ điều hành. Các chuyên gia dự đoán rằng mô hình mở sẽ thống trị giống như cách Linux vượt qua Windows trong hệ thống doanh nghiệp. Meta đang đầu tư mạnh vào phát triển các phiên bản Llama mới, dự kiến sẽ dẫn đầu thị trường từ năm 2025.
Doanh nghiệp đang nhận ra rằng mô hình ngôn ngữ mở mang lại nhiều lợi ích vượt trội về chi phí, kiểm soát và tính linh hoạt so với các giải pháp đóng. Xu hướng này đánh dấu sự chuyển mình trong ngành công nghiệp AI, với các công ty lớn như Meta và Salesforce đi tiên phong trong việc xây dựng nền tảng AI mở, giúp các doanh nghiệp tối ưu hóa hiệu quả và duy trì lợi thế cạnh tranh.
https://venturebeat.com/ai/the-enterprise-verdict-on-ai-models-why-open-source-will-win/
- SynthID, công cụ xác thực nội dung AI, hiện đã mở cho tất cả người dùng thử nghiệm, theo thông báo của Google trên X (trước đây là Twitter) ngày 23/10/2024.
- Công cụ này tạo thủy vân không thể nhận biết cho nội dung do AI tạo ra, bao gồm hình ảnh, video và văn bản, giúp người dùng xác minh nội dung có phải do con người hay máy móc tạo ra.
- SynthID đã ra mắt lần đầu vào năm 2023 và được tích hợp vào Imagen; từ tháng 5/2024, SynthID cũng được tích hợp vào chatbot Gemini của Google.
- Google tuyên bố đã mã nguồn mở SynthID Text trên nền tảng Hugging Face, giúp các nhà phát triển và doanh nghiệp sử dụng miễn phí công cụ này để kiểm tra và xác định nội dung AI.
- SynthID mã hóa thủy vân vào nội dung bằng cách điều chỉnh xác suất xuất hiện của các token trong quá trình sinh nội dung mà không ảnh hưởng đến độ chính xác, chất lượng hoặc tốc độ phản hồi.
- Theo Google, công cụ này có khả năng nhận diện thủy vân ngay cả khi nội dung đã qua chỉnh sửa hoặc cắt ghép, vượt trội so với metadata truyền thống vốn dễ bị xóa bỏ.
- Tuy nhiên, SynthID gặp khó khăn khi kiểm tra các đoạn văn bản ngắn hoặc nội dung có tính tất yếu cao như câu trả lời cho câu hỏi “Thủ đô của Pháp là gì?” vì cả AI và con người đều trả lời giống nhau.
- Dù SynthID đã được thiết kế chống lại việc can thiệp, thủy vân của nó vẫn có thể bị xóa nếu văn bản được dịch sang ngôn ngữ khác hoặc viết lại hoàn toàn.
- SynthID được đánh giá cao bởi cộng đồng vì tính minh bạch và khả năng nguồn mở, cho phép kiểm tra độ tin cậy trong nhiều kịch bản khác nhau.
📌 Google đã chính thức mã nguồn mở SynthID, công cụ thủy vân AI, giúp phát hiện nội dung do AI tạo ra qua nhiều định dạng. Dù có khả năng chịu chỉnh sửa mạnh, công cụ này gặp giới hạn trong văn bản ngắn và nội dung có tính chính xác tuyệt đối. Người dùng có thể tải về từ Hugging Face để trải nghiệm trực tiếp.
https://www.digitaltrends.com/computing/google-synthid-now-available-public/
• IBM vừa ra mắt thế hệ thứ 3 của mô hình ngôn ngữ lớn Granite, nhằm mở rộng hoạt động kinh doanh AI doanh nghiệp đang phát triển mạnh mẽ với doanh thu hơn 2 tỷ USD.
• Các mô hình mới bao gồm:
- Mô hình đa năng Granite 3.0 2 tỷ và 8 tỷ tham số
- Mô hình Mixture-of-Experts (MoE) như Granite 3.0 3B A800M Instruct, Granite 3.0 1B A400M Base
- Mô hình tối ưu hóa bảo mật Granite Guardian 3.0 8B và 2B
• Mô hình được huấn luyện bởi đội ngũ chuyên trách của IBM với 12 nghìn tỷ token dữ liệu đa ngôn ngữ và mã nguồn.
• IBM tuyên bố Granite 3.0 vượt trội so với các mô hình mới nhất của Google, Anthropic và các công ty khác trong nhiều tác vụ.
• Granite 3.0 được phát hành dưới giấy phép mã nguồn mở Apache 2.0, cho phép các đối tác doanh nghiệp tùy chỉnh và xây dựng sản phẩm riêng.
• Các ứng dụng tiềm năng bao gồm: dịch vụ khách hàng, tự động hóa CNTT, BPO, phát triển ứng dụng và bảo mật mạng.
• IBM nhấn mạnh tầm quan trọng của việc tối ưu hóa chi phí suy luận để triển khai AI quy mô lớn.
• Mô hình sẽ có sẵn trên nền tảng watsonX của IBM cũng như Amazon Bedrock, Amazon Sagemaker và Hugging Face.
• IBM đang hướng tới khái niệm "tính toán tạo sinh" - lập trình máy tính bằng cách cung cấp ví dụ thay vì hướng dẫn từng bước.
• Rob Thomas, Phó chủ tịch cấp cao của IBM, nhấn mạnh tốc độ tăng trưởng chưa từng có của mảng kinh doanh AI tạo sinh.
📌 IBM ra mắt Granite 3.0 - mô hình ngôn ngữ lớn mã nguồn mở cho doanh nghiệp với hiệu suất cao, tính năng bảo mật nâng cao. Mô hình được huấn luyện với 12 nghìn tỷ token dữ liệu, hỗ trợ nhiều ứng dụng AI doanh nghiệp và được cấp phép Apache 2.0, mở ra cơ hội phát triển hệ sinh thái AI mạnh mẽ.
https://venturebeat.com/ai/ibm-debuts-open-source-granite-3-0-llms-for-enterprise-ai/
• Nvidia vừa giới thiệu mô hình AI mới có tên Llama-3.1-Nemotron-70B-Instruct, được cho là vượt trội hơn các đối thủ cạnh tranh trong các bài kiểm tra chuẩn.
• Mô hình Nemotron-70B được xây dựng trên nền tảng Llama 3.1 của Meta Platforms Inc., đạt điểm số ấn tượng trong các bài kiểm tra: 85,0 trong Arena Hard, 57,6 trong AlpacaEval 2 LC và 8,98 trong GPT-4-Turbo MT-Bench.
• Kết quả vượt trội này cho thấy khả năng tạo ra các phản hồi giống con người trong các truy vấn chung và ứng dụng lập trình của mô hình.
• Nvidia đã công bố mã nguồn mở của Nemotron-70B trên nền tảng cộng đồng AI Hugging Face, cho phép các nhà phát triển tùy chỉnh mô hình theo nhu cầu của họ.
• Mô hình hiện đã có sẵn để xem trước trên trang web chính thức của Nvidia, giúp công chúng dễ dàng tiếp cận hơn.
• Việc ra mắt mô hình AI mới nhất này nhấn mạnh ảnh hưởng ngày càng tăng của Nvidia trong lĩnh vực phần mềm AI, một sự thay đổi so với trọng tâm truyền thống về GPU hiệu năng cao.
• Sự nhấn mạnh của công ty vào hiệu quả và khả năng tiếp cận cho thấy một thay đổi chiến lược hướng tới việc làm cho AI tiên tiến trở nên dễ áp dụng hơn đối với các nhà phát triển và cộng đồng AI nói chung.
• Đầu tháng này, CEO của Nvidia đã ca ngợi OpenAI, công ty mẹ của ChatGPT, là một trong những công ty có ảnh hưởng nhất của thời đại hiện nay trong một tập podcast Bg2 Pod.
• Thông báo mới nhất này được đưa ra trong bối cảnh Nvidia đang gặp thách thức về sản xuất chip Blackwell, dự kiến sẽ không có sẵn trước đầu năm 2025.
• Việc Nvidia tập trung vào phát triển mô hình AI hiệu quả và dễ tiếp cận cho thấy một bước chuyển chiến lược quan trọng trong ngành công nghiệp AI.
📌 Nvidia gây bất ngờ với mô hình AI nguồn mở Llama-3.1-Nemotron-70B-Instruct, vượt trội hơn GPT-4 và Claude 3.5 Sonnet trong các bài kiểm tra chuẩn. Mô hình 70 tỷ tham số này đạt điểm số ấn tượng: 85,0 trong Arena Hard, 57,6 trong AlpacaEval 2 LC, thể hiện khả năng tạo phản hồi giống người trong các truy vấn và lập trình.
• Tổ chức Open Source Initiative (OSI) chỉ trích Meta Platforms vì quảng bá mô hình Llama là nguồn mở, gây nhầm lẫn cho công chúng.
• OSI cho rằng Meta đang làm sai lệch định nghĩa và tạo ra sự nhầm lẫn về các mô hình thực sự mã nguồn mở.
• Theo OSI, để được coi là nguồn mở, các công ty cần công khai thuật toán huấn luyện, phần mềm phát triển và "trọng số mô hình" - tham số số xác định cường độ tín hiệu giữa các mạng nơ-ron.
• Giám đốc điều hành OSI Stefano Maffulli cho rằng việc gắn mác nguồn mở của Meta là "cực kỳ có hại" trong bối cảnh các cơ quan quản lý như Ủy ban châu Âu đang ủng hộ phát triển "công nghệ nguồn mở thực sự".
• Maffulli chỉ ra rằng Google và Microsoft đã ngừng quảng bá mô hình của họ là nguồn mở, nhưng các cuộc thảo luận với Meta "không mang lại kết quả tương tự".
• Giám đốc nghiên cứu của IBM, Dario Gil, cũng than phiền về sự thiếu minh bạch trong các ấn phẩm của Meta giải thích chi tiết kỹ thuật về quá trình phát triển mô hình.
• Tuy nhiên, Gil thừa nhận mô hình của Meta vẫn là một lựa chọn tốt hơn so với các "mô hình hộp đen" không công khai cơ chế hoạt động nội bộ.
• Giấy phép Meta sử dụng ngăn cản đối thủ cạnh tranh sử dụng họ các mô hình của họ, mâu thuẫn với ý nghĩa của nguồn mở, mặc dù cho phép tải xuống miễn phí.
• Meta phản hồi rằng các định nghĩa nguồn mở hiện tại cho phần mềm không bao quát được sự phức tạp của các mô hình AI tiên tiến ngày nay.
• Công ty cam kết tiếp tục làm việc với ngành công nghiệp để đưa ra các định nghĩa mới phục vụ cộng đồng AI một cách an toàn và có trách nhiệm.
• Meta đã mở quyền truy cập vào mô hình Llama 2 vào năm 2023, cho phép "một thế hệ nhà phát triển và nhà nghiên cứu" thử nghiệm mô hình của họ.
• Hiện nay, các mô hình Llama đã được tải xuống hơn 400 triệu lần.
📌 Meta Platforms đối mặt với chỉ trích gay gắt từ OSI về việc gọi mô hình AI Llama là nguồn mở. Tranh cãi xoay quanh định nghĩa và tính minh bạch của "nguồn mở" trong lĩnh vực AI. Mặc dù bị chỉ trích, mô hình Llama vẫn được tải xuống hơn 400 triệu lần, cho thấy sức hút lớn trong cộng đồng.
https://www.mobileworldlive.com/meta/meta-platforms-under-fire-over-open-source-ai-branding/
• OpenAI vừa ra mắt Swarm, một khung mã nguồn mở thử nghiệm nhằm đơn giản hóa việc tạo và điều phối các tác nhân AI để tự động hóa tác vụ.
• Swarm tập trung vào cải thiện phối hợp và thực thi tác nhân thông qua hai khái niệm cốt lõi: tác nhân và bàn giao.
• Khung này cho phép chia nhỏ quy trình phức tạp thành các tác vụ có thể quản lý được, đảm bảo mỗi tác nhân được trang bị công cụ và hướng dẫn cần thiết để hoàn thành công việc hiệu quả.
• Swarm được thiết kế là một khung nhẹ, có thể kiểm soát và kiểm thử được, lý tưởng để phát triển các tác nhân AI tinh vi.
• Kiến trúc của Swarm ưu tiên điều phối và thực thi tác vụ liền mạch, dựa trên hai trụ cột cơ bản: tác nhân (được trang bị hướng dẫn và công cụ cụ thể) và bàn giao (đảm bảo chuyển giao suôn sẻ giữa các tác nhân).
• Swarm xuất sắc trong việc quản lý và chuyển giao tác vụ giữa các tác nhân với độ chính xác và linh hoạt cao.
• Một điểm mạnh chính của Swarm là sử dụng các biến ngữ cảnh, cho phép khung cung cấp phản hồi được cá nhân hóa cao, thích ứng với nhu cầu và tham số độc đáo của mỗi tác vụ.
• Ứng dụng thực tế của Swarm rất đa dạng, bao gồm tạo chiến dịch tiếp thị toàn diện từ một đầu vào trang web duy nhất.
• Swarm có thể xử lý các tác vụ phức tạp đòi hỏi hiểu biết tinh tế như dịch ngôn ngữ, hỗ trợ khách hàng nhận biết ngữ cảnh và phân tích dữ liệu.
• Để sử dụng Swarm, người dùng cần Python 3.10 trở lên. Khung này tích hợp liền mạch với API hoàn thành trò chuyện.
• Các tính năng kỹ thuật chính bao gồm kiến trúc mô-đun, quản lý bộ nhớ hiệu quả, xử lý lỗi và ghi nhật ký tích hợp, và tương thích với các thư viện AI và học máy phổ biến.
• Swarm hiện được định vị là một dự án thử nghiệm với trọng tâm mạnh mẽ về giáo dục, khuyến khích thử nghiệm và học tập.
• OpenAI tích cực khuyến khích sự tham gia của cộng đồng với Swarm bằng cách cung cấp nhiều ví dụ và tài nguyên.
• Là một dự án mã nguồn mở, Swarm chào đón đóng góp từ cộng đồng AI, thúc đẩy sự hợp tác và đổi mới.
📌 Swarm của OpenAI là khung mã nguồn mở thử nghiệm đột phá cho phép tạo và điều phối tác nhân AI dễ dàng. Với tính linh hoạt cao, Swarm có thể xử lý nhiều tác vụ phức tạp từ tiếp thị đến phân tích dữ liệu. Dự án này mở ra cơ hội học tập và đổi mới cho cộng đồng AI toàn cầu.
https://www.geeky-gadgets.com/how-openais-swarm-is-changing-the-game-for-ai-agents/
• Clem Delangue, CEO của Hugging Face, cho rằng mã nguồn mở sẽ giúp AI không chỉ nằm trong tay một số ít công ty. Tuy nhiên, lịch sử cho thấy điều này khó xảy ra.
• Mã nguồn mở đóng vai trò quan trọng trong phát triển phần mềm, nhưng chưa từng ngăn cản sự tập trung thị trường vào tay một số ít công ty lớn.
• Thị trường điện toán đám mây là ví dụ điển hình: dù phụ thuộc vào mã nguồn mở, nhưng chỉ có một số ít "ông lớn" thống trị.
• Người dùng và doanh nghiệp sẵn sàng trả tiền để được đơn giản hóa sự phức tạp của lựa chọn. Điều này tất yếu dẫn đến sự tập trung thị trường.
• Delangue cho rằng mã nguồn mở tạo ra nhiều cơ hội xây dựng AI cho nhiều công ty hơn. Tuy nhiên, điều này không đồng nghĩa với việc người dùng sẽ không phụ thuộc vào các công ty công nghệ lớn.
• Trong lĩnh vực điện toán đám mây, mã nguồn mở thậm chí còn làm tăng sự tập trung thị trường. Doanh nghiệp cần các công ty đám mây giúp họ hiểu và sử dụng hiệu quả các công nghệ mã nguồn mở.
• Amazon Web Services, công ty đóng góp ít nhất cho mã nguồn mở, lại là công ty thành công nhất trong lĩnh vực điện toán đám mây nhờ đáp ứng nhu cầu của khách hàng.
• Trong lĩnh vực AI, sự cạnh tranh chủ yếu đến từ các công ty lớn như Microsoft, Meta và Google, chứ không phải từ các dự án mã nguồn mở.
• Vấn đề lớn nhất của AI hiện nay là đòi hỏi người dùng phải thực hiện nhiều thao tác phức tạp. Người dùng cần AI đơn giản hơn, chứ không cần thêm nhiều lựa chọn mã nguồn mở.
• Mã nguồn mở sẽ không dân chủ hóa AI giống như nó đã không làm được điều đó với bất kỳ thị trường nào khác.
• Khách hàng sẵn sàng trả tiền cho sự tiện lợi và đơn giản. Họ không quan tâm đến phần mềm nền tảng, mà chỉ quan tâm đến trải nghiệm sử dụng.
📌 Mã nguồn mở đóng vai trò quan trọng trong phát triển AI nhưng không thể ngăn cản sự tập trung thị trường. Lịch sử cho thấy khách hàng ưu tiên sự đơn giản và tiện lợi, dẫn đến sự thống trị của một số ít công ty lớn có khả năng cung cấp những giải pháp toàn diện và dễ sử dụng.
https://www.infoworld.com/article/3548263/open-source-isnt-going-to-save-ai.html
• Google vừa ra mắt mô hình "gemma-2-2b-jpn-it", thành viên mới trong họ mô hình ngôn ngữ Gemma, được thiết kế đặc biệt cho tiếng Nhật.
• Đây là mô hình text-to-text, chỉ giải mã với trọng số mở, có thể tinh chỉnh cho nhiều tác vụ tạo văn bản như trả lời câu hỏi, tóm tắt và suy luận.
• Mô hình có 2,61 tỷ tham số, sử dụng kiểu tensor BF16 và lấy cảm hứng kiến trúc từ họ mô hình Gemini của Google.
• Gemma-2-2b-jpn-it tương thích với phần cứng Tensor Processing Unit (TPU) mới nhất của Google, cụ thể là TPUv5p, giúp tăng tốc độ đào tạo và hiệu suất mô hình.
• Về phần mềm, mô hình sử dụng các framework JAX và ML Pathways để đào tạo, tối ưu hóa cho ứng dụng học máy hiệu năng cao.
• Ứng dụng của mô hình rất đa dạng, bao gồm tạo nội dung, giao tiếp, tóm tắt văn bản, nghiên cứu xử lý ngôn ngữ tự nhiên và hỗ trợ học ngôn ngữ tương tác.
• Mô hình có thể tạo ra các định dạng văn bản sáng tạo như thơ, kịch bản, mã, bản sao tiếp thị và phản hồi chatbot.
• Tuy nhiên, hiệu suất của mô hình phụ thuộc vào sự đa dạng và chất lượng của dữ liệu đào tạo. Nó có thể tạo ra các phát biểu sự thật không chính xác hoặc lỗi thời khi xử lý các truy vấn phức tạp.
• Google đã thực hiện đánh giá nghiêm ngặt để giải quyết các vấn đề liên quan đến an toàn nội dung, tác hại đại diện và ghi nhớ dữ liệu đào tạo.
• Các biện pháp giảm thiểu rủi ro bao gồm kỹ thuật lọc để loại bỏ nội dung có hại, thực thi hướng dẫn an toàn nội dung và thiết lập khung minh bạch và trách nhiệm giải trình.
📌 Google ra mắt Gemma-2-JPN, mô hình AI 2,61 tỷ tham số cho tiếng Nhật. Mô hình mở này có khả năng đa dạng từ tạo nội dung đến nghiên cứu NLP, tương thích với TPUv5p. Google cũng chú trọng đánh giá và giảm thiểu rủi ro đạo đức.
https://www.marktechpost.com/2024/10/05/google-releases-gemma-2-jpn-a-2b-ai-model-fine-tuned-on-japanese-text/
• Viện Allen for Artificial Intelligence (Ai2) vừa công bố dòng mô hình AI đa phương thức mã nguồn mở mới có tên Molmo.
• Molmo có kích thước nhỏ hơn 10 lần so với GPT-4o của OpenAI nhưng hiệu suất tương đương.
• Các mô hình Molmo có từ 1 tỷ đến 72 tỷ tham số, trong khi GPT-4o ước tính có hơn 1 nghìn tỷ tham số.
• Ai2 tập trung vào chất lượng dữ liệu thay vì số lượng. Họ sử dụng khoảng 700.000 hình ảnh và 1,3 triệu chú thích, ít hơn 1.000 lần so với các mô hình độc quyền.
• Thay vì viết chú thích, nhóm nghiên cứu yêu cầu người chú thích ghi âm mô tả bằng lời nói 60-90 giây cho mỗi hình ảnh, sau đó chuyển thành văn bản và chuẩn hóa.
• Mô hình lớn nhất Molmo 72B có hiệu suất tương đương hoặc vượt trội hơn các mô hình hàng đầu như GPT-4o, Claude 3.5 Sonnet và Gemini 1.5 Pro trên 11 tiêu chuẩn học thuật.
• Molmo có khả năng chỉ ra các đối tượng trong hình ảnh, hữu ích cho việc phát triển AI agent và robot.
• Molmo là mã nguồn mở với giấy phép Apache 2.0, cho phép các nhà phát triển sửa đổi và thương mại hóa sản phẩm với ít hạn chế.
• Mô hình lớn nhất của Molmo dựa trên Qwen2 72B của Alibaba Cloud, nhưng Ai2 công bố cả bộ dữ liệu và mã nguồn để tạo khả năng đa phương thức.
• Molmo nhắm đến các nhà nghiên cứu, nhà phát triển ứng dụng và những người không quen với các mô hình lớn.
• Các mô hình mã nguồn mở như Molmo đang trở thành đối thủ cạnh tranh thực sự cho các công ty đang huy động hàng tỷ đô la để phát triển sản phẩm AI.
📌 Molmo của Ai2 chứng minh mô hình AI nhỏ gọn, mã nguồn mở có thể cạnh tranh với các mô hình lớn độc quyền. Với kích thước nhỏ hơn 10 lần, sử dụng 1.000 lần ít dữ liệu hơn nhưng hiệu suất tương đương GPT-4o, Molmo mở ra tiềm năng phát triển AI hiệu quả và dễ tiếp cận hơn.
https://singularityhub.com/2024/10/04/these-mini-ai-models-match-openai-with-1000-times-less-data/
• Các mô hình ngôn ngữ lớn (LLM) nguồn mở đang cách mạng hóa lĩnh vực bảo mật mạng, thúc đẩy đổi mới và giúp các công ty khởi nghiệp và nhà cung cấp đẩy nhanh thời gian ra thị trường.
• Các mô hình nguồn mở phổ biến trong bảo mật mạng bao gồm LLaMA 2 và LLaMA 3.2 của Meta, Falcon của Technology Innovation Institute, StableLM của Stability AI và các mô hình trên Hugging Face như BLOOM của BigScience.
• Các nhà cung cấp phần mềm bảo mật mạng đang phải đối mặt với thách thức về quản trị và cấp phép, đồng thời phải thiết kế kiến trúc có thể nhanh chóng thích ứng với các tính năng mới nhất của LLM nguồn mở.
• Theo Itamar Sher, CEO của Seal Security, LLM nguồn mở cho phép họ mở rộng quy mô vá lỗi bảo mật cho các thành phần nguồn mở theo cách mà các mô hình đóng không thể làm được.
• Gartner đặt LLM nguồn mở ở đỉnh của kỳ vọng thổi phồng trong Hype Cycle for Open-Source Software 2024, với mức độ thâm nhập thị trường từ 5% đến 20%.
• Các ưu điểm của LLM nguồn mở bao gồm khả năng tùy chỉnh, quy mô và linh hoạt, cộng tác cộng đồng và giảm sự phụ thuộc vào nhà cung cấp.
• Tuy nhiên, các thách thức bao gồm yêu cầu đầu tư cơ sở hạ tầng đáng kể và phức tạp về cấp phép.
• LLM nguồn mở đang được áp dụng để cải thiện phát hiện mối đe dọa và phản ứng trong thời gian thực.
• Gartner dự đoán các mô hình ngôn ngữ nhỏ hoặc LLM biên sẽ được áp dụng nhiều hơn trong các ứng dụng dành riêng cho lĩnh vực bảo mật mạng.
• Một mối quan tâm đáng kể là số lượng ngày càng tăng các cuộc tấn công chuỗi cung ứng phần mềm nhắm vào các thành phần nguồn mở.
• Seal Security đã được chỉ định là Cơ quan cấp số CVE (CNA), cho phép họ xác định, ghi lại và gán các lỗ hổng thông qua Chương trình CVE.
📌 LLM nguồn mở đang định hình lại bảo mật mạng bằng cách giảm sự phụ thuộc vào công nghệ độc quyền. Chúng mang lại khả năng tùy chỉnh, cộng tác cộng đồng và phát hiện mối đe dọa thời gian thực. Tuy nhiên, vẫn còn thách thức về đầu tư cơ sở hạ tầng và rủi ro chuỗi cung ứng phần mềm cần được giải quyết.
https://venturebeat.com/security/how-open-source-llms-enable-security-teams-to-stay-ahead-of-evolving-threats/
• Cuộc đua AI mô hình nền tảng hiện đang diễn ra gay gắt, với cộng đồng nguồn đóng chiếm ưu thế ban đầu, dẫn đầu bởi Anthropic và OpenAI.
• Sự rò rỉ mô hình Llama của Meta vào tháng 3/2023 đã tạo động lực cho cộng đồng nguồn mở. Trong năm tiếp theo, các cải tiến mô hình nguồn mở diễn ra với tốc độ nhanh hơn so với nguồn đóng, với các cải tiến lớn được phát hành mỗi vài ngày thay vì mỗi vài tháng.
• Cộng đồng nguồn mở đã nhanh chóng cải thiện mô hình Llama để đạt được hiệu suất ngang bằng với mô hình Gemini của Google, sử dụng kỹ thuật fine-tuning với chi phí thấp hơn nhiều.
• Lịch sử cho thấy đổi mới đạt tốc độ tối đa khi thông tin được chia sẻ. Ví dụ như phương pháp khoa học và cuộc chiến hệ điều hành Unix vs Linux trong những năm 1990.
• Nghiên cứu AI trước thời ChatGPT cũng dựa trên phương pháp nghiên cứu mở và cộng tác. Tuy nhiên, kể từ khi ChatGPT ra đời, phát triển AI chủ yếu diễn ra trong môi trường đóng.
• Khoảng cách chất lượng giữa mô hình nguồn đóng và nguồn mở đang thu hẹp nhanh chóng. Số lượt tải xuống mô hình Llama nguồn mở tăng 10 lần trong năm qua.
• Lợi ích của mô hình nguồn mở bao gồm: tối ưu hóa chi phí, sở hữu mô hình và cơ sở hạ tầng, fine-tuning dữ liệu độc quyền, cải thiện bảo mật.
• Kỹ thuật chưng cất mô hình giúp giảm chi phí tính toán bằng cách sử dụng mô hình "giáo viên" để huấn luyện mô hình "học sinh" nhỏ hơn nhưng hiệu suất tương đương.
• Lãnh đạo doanh nghiệp nên chuyển sang nguồn mở càng sớm càng tốt để tận dụng chi phí suy luận rẻ hơn và tránh chi phí chuyển đổi cao sau này.
• Tuy nhiên cần cân nhắc thách thức của nguồn mở như bảo trì và bảo mật. Có thể xây dựng đội ngũ machine learning nội bộ hoặc thuê nhà cung cấp dịch vụ để chưng cất và lưu trữ mô hình.
• Tương lai sẽ tập trung vào tối ưu hóa mô hình và giảm chi phí suy luận. Doanh nghiệp có thể sở hữu mô hình được huấn luyện nội bộ hoặc tận dụng dịch vụ chưng cất và lưu trữ mô hình để giảm thiểu chi phí ở quy mô lớn.
📌 AI nguồn mở đang thu hẹp khoảng cách với nguồn đóng, mang lại lợi ích về chi phí và kiểm soát. Lãnh đạo doanh nghiệp nên chuẩn bị chuyển đổi sớm, cân nhắc thách thức và tối ưu hóa mô hình để giảm chi phí suy luận. Tương lai thuộc về AI nguồn mở với khả năng tùy chỉnh và cộng đồng phát triển lớn.
https://www.forbes.com/councils/forbesbusinesscouncil/2024/10/03/the-bet-on-open-source-ai-what-business-leaders-should-know/
• Nvidia vừa công bố dòng mô hình ngôn ngữ đa phương thức lớn NVLM 1.0, dẫn đầu là NVLM-D-72B với 72 tỷ tham số.
• NVLM-D-72B thể hiện hiệu suất vượt trội trong các tác vụ thị giác và ngôn ngữ, cạnh tranh với các mô hình độc quyền hàng đầu như GPT-4.
• Mô hình này có khả năng xử lý đầu vào phức tạp bao gồm hình ảnh và văn bản, từ phân tích meme đến giải quyết các bài toán toán học.
• Đặc biệt, NVLM-D-72B cải thiện hiệu suất trên các tác vụ chỉ có văn bản sau khi được huấn luyện đa phương thức, tăng độ chính xác trung bình 4,3 điểm trên các tiêu chuẩn văn bản chính.
• Nvidia quyết định công khai trọng số mô hình và hứa hẹn sẽ phát hành mã huấn luyện, phá vỡ xu hướng giữ kín các hệ thống AI tiên tiến.
• Động thái này mang lại cho các nhà nghiên cứu và nhà phát triển quyền truy cập chưa từng có vào công nghệ AI tiên tiến.
• Cộng đồng AI đã phản ứng tích cực với việc phát hành này, với một nhà nghiên cứu AI nhận xét về khả năng của mô hình trong các đánh giá toán học và lập trình.
• Dự án NVLM cũng giới thiệu các thiết kế kiến trúc sáng tạo, bao gồm cách tiếp cận kết hợp các kỹ thuật xử lý đa phương thức khác nhau.
• Việc phát hành NVLM 1.0 có thể thúc đẩy nghiên cứu và phát triển AI trên toàn lĩnh vực, cho phép các tổ chức nhỏ hơn và các nhà nghiên cứu độc lập đóng góp đáng kể hơn vào sự tiến bộ của AI.
• Tuy nhiên, việc phát hành này cũng đặt ra những lo ngại về lạm dụng và các vấn đề đạo đức khi AI mạnh mẽ trở nên dễ tiếp cận hơn.
• Quyết định của Nvidia cũng đặt ra câu hỏi về tương lai của các mô hình kinh doanh AI, khi các mô hình tiên tiến trở nên miễn phí và có sẵn rộng rãi.
• Tác động thực sự của NVLM 1.0 sẽ được thể hiện trong những tháng và năm tới, có thể mở ra kỷ nguyên hợp tác và đổi mới chưa từng có trong AI.
📌 Nvidia đã tạo ra bước ngoặt trong ngành AI với việc phát hành mô hình nguồn mở NVLM 1.0 72 tỷ tham số. Mô hình này cạnh tranh với GPT-4 trong các tác vụ đa phương thức, mở ra cơ hội mới cho nghiên cứu AI và thách thức cấu trúc hiện tại của ngành công nghiệp AI.
https://venturebeat.com/ai/nvidia-just-dropped-a-bombshell-its-new-ai-model-is-open-massive-and-ready-to-rival-gpt-4/
• JailbreakBench là một công cụ đánh giá mở nguồn mới được phát triển bởi các nhà nghiên cứu từ Đại học Pennsylvania, ETH Zurich, EPFL và Sony AI nhằm tiêu chuẩn hóa việc đánh giá các cuộc tấn công và phòng thủ jailbreak đối với mô hình ngôn ngữ lớn (LLM).
• Mục tiêu của JailbreakBench là cung cấp một mô hình toàn diện, dễ tiếp cận và có thể tái tạo để đánh giá bảo mật của LLM.
• JailbreakBench gồm 4 thành phần chính:
- Bộ sưu tập các prompt đối kháng (adversarial prompts) cập nhật liên tục
- Bộ dữ liệu gồm 100 hành vi khác nhau để thực hiện jailbreak, tuân thủ quy định sử dụng của OpenAI
- Khung đánh giá tiêu chuẩn hóa trên GitHub với các hàm tính điểm, prompt hệ thống, mẫu chat và mô hình mối đe dọa
- Bảng xếp hạng trên website chính thức để so sánh hiệu quả của các cuộc tấn công và phòng thủ jailbreak
• Công cụ này giải quyết vấn đề thiếu phương pháp tiêu chuẩn để đánh giá các cuộc tấn công jailbreak, giúp so sánh kết quả giữa các nghiên cứu khác nhau.
• Mặc dù có rủi ro về việc công khai các prompt đối kháng, nhưng nhóm nghiên cứu cho rằng lợi ích tổng thể vượt trội hơn. JailbreakBench giúp cộng đồng nghiên cứu hiểu sâu hơn về lỗ hổng của LLM và phát triển các biện pháp phòng thủ mạnh mẽ hơn.
• Mục tiêu cuối cùng là tạo ra các mô hình ngôn ngữ đáng tin cậy và an toàn hơn, đặc biệt khi chúng được sử dụng trong các lĩnh vực nhạy cảm hoặc có rủi ro cao.
• JailbreakBench đại diện cho một bước tiến quan trọng trong việc nâng cao độ tin cậy và an toàn của mô hình ngôn ngữ trước các mối đe dọa bảo mật ngày càng phức tạp.
• Bằng cách tiêu chuẩn hóa quy trình đánh giá, cung cấp quyền truy cập mở vào các prompt đối kháng và thúc đẩy khả năng tái tạo, JailbreakBench hứa hẹn sẽ thúc đẩy sự phát triển trong việc bảo vệ LLM khỏi các thao túng đối kháng.
📌 JailbreakBench là công cụ đánh giá mở nguồn mới giúp tiêu chuẩn hóa việc đánh giá tấn công jailbreak vào LLM. Với 4 thành phần chính và bảng xếp hạng công khai, nó hỗ trợ cộng đồng nghiên cứu hiểu sâu hơn về lỗ hổng LLM, phát triển phòng thủ mạnh mẽ và tạo ra mô hình ngôn ngữ an toàn hơn.
https://www.marktechpost.com/2024/09/29/jailbreakbench-an-open-sourced-benchmark-for-jailbreaking-large-language-models-llms/
• Viện AI Allen và Đại học Washington giới thiệu gia đình mô hình ngôn ngữ-thị giác Molmo, một giải pháp hoàn toàn mở về trọng số và dữ liệu.
• Molmo không phụ thuộc vào dữ liệu tổng hợp từ hệ thống độc quyền, mà sử dụng bộ dữ liệu PixMo mới gồm hơn 712.000 hình ảnh và khoảng 1,3 triệu chú thích do con người tạo ra.
• PixMo sử dụng phương pháp sáng tạo yêu cầu người chú thích mô tả chi tiết mọi hình ảnh trong 60-90 giây, thu thập được dữ liệu mô tả chất lượng cao.
• Gia đình Molmo bao gồm các mô hình:
- MolmoE-1B: Sử dụng mô hình ngôn ngữ lớn OLMoE-1B-7B nguồn mở
- Molmo-7B-O: Sử dụng OLMo-7B-1024 nguồn mở
- Molmo-7B-D: Mô hình demo sử dụng Qwen2 7B
- Molmo-72B: Mô hình hiệu suất cao nhất, sử dụng Qwen2 72B
• Molmo-72B vượt trội nhiều hệ thống độc quyền hàng đầu như Gemini 1.5 và Claude 3.5 Sonnet trên 11 benchmark học thuật.
• Trong đánh giá của con người với 15.000 cặp hình ảnh-văn bản, Molmo-72B xếp thứ 2, chỉ sau GPT-4o.
• Molmo-72B đạt điểm cao nhất trong benchmark AndroidControl với độ chính xác 88,7% cho tác vụ cấp thấp và 69,0% cho tác vụ cấp cao.
• MolmoE-1B có hiệu suất gần bằng GPT-4V, là một mô hình nguồn mở hiệu quả và cạnh tranh.
• Molmo sử dụng pipeline đơn giản nhưng mạnh mẽ kết hợp bộ mã hóa thị giác được huấn luyện trước (dựa trên ViT-L/14 CLIP của OpenAI) với mô hình ngôn ngữ.
• Sự thành công của Molmo trong cả đánh giá học thuật và người dùng cho thấy tiềm năng của các mô hình VLM nguồn mở trong việc cạnh tranh và vượt qua các hệ thống độc quyền.
• Việc phát hành các mô hình Molmo cùng bộ dữ liệu PixMo mở đường cho đổi mới và hợp tác trong phát triển mô hình ngôn ngữ-thị giác trong tương lai.
📌 Molmo là gia đình mô hình ngôn ngữ đa phương thức nguồn mở mới từ Viện AI Allen, sử dụng dữ liệu PixMo do con người tạo ra. Molmo-72B vượt trội nhiều hệ thống độc quyền trên 11 benchmark, cho thấy tiềm năng của mô hình nguồn mở trong việc cạnh tranh với các hệ thống hàng đầu mà không cần dữ liệu tổng hợp.
https://www.marktechpost.com/2024/09/26/are-small-language-models-really-the-future-of-language-models-allen-institute-for-artificial-intelligence-ai2-releases-molmo-a-family-of-open-source-multimodal-language-models/
SEO contents:
1. Meta mô tả: Llama 3.2 ra mắt với các mô hình AI nhẹ 1B và 3B cho thiết bị di động, cùng mô hình thị giác 11B và 90B cho ứng dụng đa phương thức, mở ra tiềm năng AI ở cạnh biên và đa nền tảng.
2. Từ khóa meta: Llama 3.2, mô hình AI nhẹ, mô hình thị giác, AI cạnh biên, ứng dụng đa phương thức, Meta AI, nguồn mở
3. Tiêu đề SEO hấp dẫn: Meta tung ra llama 3.2: cuộc cách mạng ai nhẹ và đa năng cho thiết bị di động và ứng dụng thị giác
Tóm tắt chi tiết:
• Meta đã phát hành Llama 3.2, bộ mô hình AI nguồn mở mới bao gồm các mô hình thị giác lớn (11B và 90B) và các mô hình văn bản nhẹ (1B và 3B) cho thiết bị cạnh biên và di động.
• Các mô hình thị giác 11B và 90B được thiết kế cho các tác vụ phức tạp như hiểu tài liệu, định vị hình ảnh và tạo chú thích. Chúng vượt trội so với các mô hình đóng khác trong nhiều bài kiểm tra về hiểu hình ảnh.
• Mô hình văn bản nhẹ 1B và 3B tập trung vào ứng dụng AI cạnh biên, cung cấp hiệu suất tốt cho tóm tắt, làm theo hướng dẫn và viết lại prompt với dấu chân tính toán thấp.
• Tất cả các mô hình đều có độ dài ngữ cảnh token là 128.000, cải thiện đáng kể so với các phiên bản trước.
• Llama 3.2 sử dụng kiến trúc dựa trên bộ điều hợp cho mô hình thị giác, tích hợp bộ mã hóa hình ảnh với mô hình văn bản được đào tạo trước.
• Các mô hình được tối ưu hóa cho cả môi trường tại chỗ và đám mây, với sự hỗ trợ từ các đối tác công nghệ hàng đầu như AWS, Dell, Microsoft Azure, NVIDIA.
• Mô hình 1B đạt điểm 49,3 trên MMLU, trong khi mô hình 3B đạt 63,4. Mô hình thị giác đa phương thức 11B đạt 50,7 trên MMMU, còn mô hình 90B đạt 60,3.
• Các mô hình 1B và 3B được tích hợp đầy đủ với UnslothAI, cho phép tinh chỉnh nhanh hơn 2 lần, suy luận nhanh hơn 2 lần và sử dụng VRAM ít hơn 70%.
• Llama 3.2 sử dụng kỹ thuật cắt tỉa và chưng cất kiến thức để đạt được kích thước mô hình nhỏ trong khi vẫn duy trì hiệu suất cao.
• Các mô hình thị giác được đào tạo trên tập dữ liệu khổng lồ gồm 6 tỷ cặp hình ảnh-văn bản, trang bị cho chúng khả năng đa phương thức mạnh mẽ.
• Kiến trúc thị giác tiên tiến bao gồm các tính năng như chuẩn hóa lớp thông thường cho bộ mã hóa thị giác và bộ nhân cổng áp dụng cho các trạng thái ẩn.
📌 Llama 3.2 của Meta mang đến bước tiến quan trọng trong AI biên và mô hình thị giác. Với 4 biến thể từ 1B đến 90B, hỗ trợ ngữ cảnh 128K token và tích hợp UnslothAI, nó cung cấp giải pháp linh hoạt cho nhiều ứng dụng AI từ thiết bị di động đến đa phương thức phức tạp.
https://www.marktechpost.com/2024/09/25/llama-3-2-released-unlocking-ai-potential-with-1b-and-3b-lightweight-text-models-and-11b-and-90b-vision-models-for-edge-mobile-and-multimodal-ai-applications/
• Meta vừa công bố phiên bản Llama 3.2 tại sự kiện Meta Connect 2024, bao gồm các mô hình đa phương thức mới có khả năng xử lý hình ảnh.
• Llama 3.2 11B và 90B là hai mô hình đa phương thức có thể phân tích biểu đồ, đồ thị, chú thích hình ảnh và xác định vị trí đối tượng trong ảnh. Ví dụ, chúng có thể trả lời câu hỏi về bản đồ công viên hoặc phân tích biểu đồ doanh thu công ty.
• Meta cũng giới thiệu công cụ an toàn Llama Guard Vision để phát hiện nội dung có hại trong văn bản và hình ảnh đầu vào hoặc đầu ra của mô hình.
• Các mô hình đa phương thức có thể được tải xuống và sử dụng trên nhiều nền tảng đám mây như Hugging Face, Microsoft Azure, Google Cloud và AWS. Meta cũng sử dụng chúng cho trợ lý AI trên WhatsApp, Instagram và Facebook.
• Tuy nhiên, Llama 3.2 11B và 90B không khả dụng tại châu Âu do lo ngại về môi trường quy định "khó đoán" của khu vực này. Meta đã bày tỏ quan ngại về Đạo luật AI của EU và các quy định trong GDPR liên quan đến đào tạo AI.
• Meta cũng ra mắt hai mô hình nhẹ chỉ xử lý văn bản là Llama 3.2 1B và 3B, được thiết kế để chạy trên điện thoại thông minh và các thiết bị biên. Chúng có thể thực hiện các tác vụ như tóm tắt và viết lại đoạn văn.
• Công ty giới thiệu bộ công cụ phát triển Llama Stack để tinh chỉnh tất cả các mô hình Llama 3.2. Các mô hình này có thể xử lý tối đa khoảng 100.000 từ cùng lúc.
• Meta tuyên bố các mô hình Llama đã được tải xuống hơn 350 triệu lần và đang được sử dụng bởi các doanh nghiệp lớn như Zoom, AT&T và Goldman Sachs.
• Mặc dù không hoàn toàn "mở", giấy phép của Meta vẫn hạn chế cách một số nhà phát triển có thể sử dụng chúng. Các nền tảng có hơn 700 triệu người dùng hàng tháng phải yêu cầu giấy phép đặc biệt.
• Meta đang đầu tư hàng tỷ đô la vào máy chủ, trung tâm dữ liệu và cơ sở hạ tầng mạng để đào tạo các mô hình trong tương lai, nhằm mục tiêu trở thành đồng nghĩa với AI tạo sinh.
📌 Meta đã công bố Llama 3.2 với các mô hình đa phương thức 11B và 90B có khả năng xử lý hình ảnh, cùng với các mô hình nhẹ 1B và 3B chỉ xử lý văn bản. Tuy nhiên, do lo ngại về quy định, các mô hình mới không khả dụng tại châu Âu. Meta tuyên bố Llama đã được tải xuống hơn 350 triệu lần, thể hiện tham vọng thống trị lĩnh vực AI tạo sinh của công ty.
https://techcrunch.com/2024/09/25/metas-llama-ai-models-now-support-images/
- Ericsson, Spotify và SAP đã ký một bức thư mở do Meta phối hợp kêu gọi EU có cách tiếp cận quy định nhất quán hơn về AI.
- Các công ty này lo ngại rằng nếu không thay đổi, châu Âu sẽ bỏ lỡ 2 yếu tố quan trọng trong đổi mới AI: phát triển mô hình AI nguồn mở và mô hình đa phương thức.
- Bức thư chỉ ra rằng quyết định quy định hiện tại đang trở nên phân mảnh và không thể đoán trước, dẫn đến sự không chắc chắn về loại dữ liệu có thể sử dụng để đào tạo các mô hình AI.
- Free trở thành nhà mạng đầu tiên tại Pháp cung cấp 5G SA trên toàn quốc với 6.950 trạm 3.5GHz, đồng thời ra mắt dịch vụ VoNR.
- A1 của Áo đã mua lại công ty Conexio Metro tại Serbia để cung cấp sản phẩm hội tụ trên mạng cáp quang của mình vào năm 2025.
- Broadband Forum đã khởi động dự án mới nhằm cung cấp độ trễ thấp trong mạng băng thông rộng tại nhà bằng công nghệ L4S.
- Công nghệ L4S sẽ giúp nhà cung cấp dịch vụ hỗ trợ các ứng dụng có yêu cầu cao về độ trễ và dung lượng cùng lúc mà không gây tắc nghẽn mạng.
- Cellnex tại Tây Ban Nha đang tăng cường phủ sóng 5G dọc bờ biển Barcelona để phục vụ cho cuộc đua thuyền America's Cup.
- Hệ thống anten mini phân tán sẽ cung cấp kết nối 5G cho 3.5km bờ biển từ bãi biển Sant Sebastià đến bãi biển Mar Bella.
- Tòa án chung EU đã giữ nguyên phần lớn mức phạt 242 triệu euro (270 triệu USD) đối với Qualcomm vì hành vi định giá predatory đối với Icera.
📌 Các công ty châu Âu như Ericsson và Spotify kêu gọi EU thay đổi quy định về AI để không bỏ lỡ cơ hội phát triển mô hình AI nguồn mở và đa phương thức. Free ra mắt 5G SA trên toàn quốc, trong khi A1 mở rộng dịch vụ tại Serbia.
https://www.lightreading.com/ai-machine-learning/eurobites-ericsson-and-friends-call-for-europe-to-adopt-new-regulatory-approach-to-ai
- Alibaba đã phát hành hơn 100 mô hình AI nguồn mở mới, được gọi là Qwen 2.5, nhằm tăng cường khả năng công nghệ của mình.
- Các mô hình này được thiết kế cho nhiều ứng dụng khác nhau, từ ô tô đến trò chơi và nghiên cứu khoa học.
- Mục tiêu của Alibaba là tăng cường cạnh tranh với các đối thủ trong nước như Baidu và Huawei, cũng như các ông lớn Mỹ như Microsoft và OpenAI.
- Các mô hình AI của Alibaba có khả năng hiểu các yêu cầu và tạo ra văn bản cũng như hình ảnh dựa trên dữ liệu lớn.
- Việc phát hành mã nguồn mở cho phép các nhà nghiên cứu, học giả và doanh nghiệp trên toàn thế giới sử dụng các mô hình này để phát triển ứng dụng AI mà không cần phải tự đào tạo hệ thống của riêng mình.
- Tính đến thời điểm hiện tại, các mô hình nguồn mở của Alibaba đã được tải xuống 40 triệu lần.
- Alibaba cũng đã nâng cấp mô hình flagship Qwen-Max, không phải là mã nguồn mở, nhưng được cung cấp qua các sản phẩm điện toán đám mây cho doanh nghiệp.
- Qwen Max 2.5-Max đã vượt qua một số đối thủ như Llama của Meta và GPT-4 của OpenAI trong nhiều lĩnh vực như lý luận và hiểu ngôn ngữ.
- Công ty cũng đã giới thiệu một công cụ tạo video từ văn bản mới, cho phép người dùng nhập yêu cầu và AI sẽ tạo ra video dựa trên đó, tương tự như Sora của OpenAI.
- Eddie Wu, CEO của Alibaba, cho biết công ty đang đầu tư mạnh mẽ vào nghiên cứu và phát triển công nghệ AI cũng như xây dựng cơ sở hạ tầng toàn cầu.
- Dưới sự lãnh đạo của Wu, Alibaba đang cố gắng khôi phục tăng trưởng trong bối cảnh cạnh tranh gia tăng và người tiêu dùng Trung Quốc chậm lại.
- Alibaba là một trong những nhà cung cấp dịch vụ điện toán đám mây lớn nhất tại Trung Quốc nhưng vẫn kém xa Amazon và Microsoft ở thị trường quốc tế.
- Công ty hy vọng rằng những sản phẩm AI mới này sẽ thu hút khách hàng cả trong và ngoài Trung Quốc đăng ký dịch vụ đám mây của mình.
📌 Alibaba đã ra mắt hơn 100 mô hình AI nguồn mở với 40 triệu lượt tải xuống. Họ cũng giới thiệu công cụ tạo video từ văn bản mới. Sự đầu tư vào AI có thể giúp Alibaba tăng trưởng và cạnh tranh với các đối thủ lớn.
https://www.cnbc.com/2024/09/19/alibaba-launches-over-100-new-ai-models-releases-text-to-video-generation.html
- Qwen2.5 là phiên bản nâng cấp của dòng Qwen, bao gồm các mô hình chuyên biệt về lập trình (Qwen2.5-Coder) và toán học (Qwen2.5-Math). Các mô hình này có sẵn ở nhiều kích thước từ 0,5B đến 72B tham số.
- Các mô hình mã nguồn mở này, trừ các phiên bản 3B và 72B, được cấp phép dưới Apache 2.0, với hiệu suất được cải thiện đáng kể so với các phiên bản trước đó như Qwen2 và CodeQwen1.5.
- Qwen2.5 được huấn luyện trên tập dữ liệu khổng lồ với 18 nghìn tỷ token, cải thiện khả năng xử lý mã hóa (HumanEval 85+) và toán học (MATH 80+), hỗ trợ tạo văn bản dài (hơn 8K token) và dữ liệu có cấu trúc như bảng hoặc JSON.
- Các mô hình này còn hỗ trợ đa ngôn ngữ, với hơn 29 ngôn ngữ, bao gồm tiếng Anh, tiếng Trung, tiếng Pháp, tiếng Tây Ban Nha, và tiếng Việt.
- Qwen2.5-Coder được huấn luyện trên 5,5 nghìn tỷ token liên quan đến mã hóa, cho phép các mô hình nhỏ hơn cạnh tranh với các mô hình lớn hơn trong các bài kiểm tra lập trình.
- Qwen2.5-Math kết hợp các phương pháp suy luận nâng cao như Chain-of-Thought (CoT), Program-of-Thought (PoT), và Tool-Integrated Reasoning (TIR) để cải thiện hiệu suất trong toán học.
- Phiên bản Qwen2.5-72B đã được so sánh với các mô hình mã nguồn mở hàng đầu như Llama-3.1-70B và Mistral-Large-V2, cho thấy khả năng vượt trội ở các bài đánh giá hiệu suất.
- Qwen-Plus, mô hình API, được so sánh với các mô hình hàng đầu như GPT4-o và Claude-3.5-Sonnet, cho thấy sự cạnh tranh đáng kể trong hiệu suất nhưng vẫn còn những lĩnh vực cần cải thiện.
- Các phiên bản Qwen2.5-14B và Qwen2.5-32B mang lại sự cân bằng tối ưu giữa kích thước mô hình và khả năng, vượt qua các mô hình lớn hơn như Phi-3.5-MoE-Instruct.
- Xu hướng mới trong mô hình ngôn ngữ nhỏ (SLM) đang phát triển mạnh mẽ, với Qwen2.5-3B đạt hiệu suất ấn tượng chỉ với 3 tỷ tham số, cho thấy sự tối ưu hóa về kích thước và khả năng.
- Qwen2.5-Coder và Qwen2.5-Math tiếp tục vượt trội so với các mô hình mã nguồn mở khác trong lập trình và toán học, thậm chí ở quy mô nhỏ nhất như Qwen2.5-Math-1.5B-Instruct.
- Qwen2.5 hỗ trợ triển khai dễ dàng qua các nền tảng như Hugging Face, vLLM và Ollama, cùng với việc tích hợp khả năng gọi công cụ tự động qua API.
📌 Qwen2.5 là bước tiến lớn trong việc phát triển mô hình ngôn ngữ lớn mã nguồn mở, với khả năng cải thiện đáng kể trong lập trình và toán học. Hỗ trợ đa ngôn ngữ, tích hợp công cụ, và tối ưu hóa hiệu suất trên các mô hình nhỏ, Qwen2.5 mở ra nhiều cơ hội mới trong AI.
https://qwenlm.github.io/blog/qwen2.5/
• SambaNova Systems vừa ra mắt demo mới trên Hugging Face, sử dụng mô hình Llama 3.1 Instruct của Meta, nhằm cạnh tranh trực tiếp với mô hình o1 của OpenAI.
• Demo cho phép các nhà phát triển tương tác với mô hình Llama 3.1 405B, đạt tốc độ 129 token/giây, thể hiện khả năng xử lý AI tốc độ cao.
• SambaNova sử dụng chip AI SN40L độc quyền, được thiết kế đặc biệt cho việc tạo token tốc độ cao, quan trọng cho các ứng dụng doanh nghiệp đòi hỏi phản hồi nhanh.
• Trong các benchmark ban đầu, demo chạy trên cơ sở hạ tầng của SambaNova đạt 405 token/giây cho mô hình Llama 3.1 70B, đứng thứ 2 về tốc độ cung cấp mô hình Llama, chỉ sau Cerebras.
• Demo duy trì độ chính xác cao trong khi đạt tốc độ ấn tượng, sử dụng độ chính xác dấu phẩy động 16-bit, phù hợp cho các ngành như y tế và tài chính.
• Việc sử dụng mô hình nguồn mở Llama 3.1 của Meta đánh dấu sự thay đổi đáng kể trong lĩnh vực AI, mang lại tính minh bạch và linh hoạt cho các nhà phát triển.
• Kiến trúc dataflow có thể tái cấu hình của SambaNova tối ưu hóa phân bổ tài nguyên qua các lớp mạng neural, cho phép cải thiện hiệu suất liên tục thông qua cập nhật phần mềm.
• Khả năng chuyển đổi giữa các mô hình, tự động hóa quy trình làm việc và tinh chỉnh đầu ra AI với độ trễ tối thiểu là một bước đột phá cho doanh nghiệp.
• SambaNova đang định vị mình như một giải pháp thay thế hàng đầu trong thị trường cơ sở hạ tầng AI đang phát triển mạnh mẽ.
• Sự ra mắt này cho thấy cuộc chiến giành vị thế thống trị cơ sở hạ tầng AI vẫn chưa kết thúc, và SambaNova đã khẳng định vị thế cạnh tranh của mình.
📌 SambaNova thách thức OpenAI với demo Llama 3.1 đạt 405 token/giây trên HuggingFace. Sử dụng chip SN40L, demo cân bằng tốc độ và độ chính xác, mở ra cơ hội mới cho AI doanh nghiệp nguồn mở, cạnh tranh trực tiếp với các ông lớn trong ngành.
https://venturebeat.com/ai/sambanova-challenges-openais-o1-model-with-llama-3-1-powered-demo-on-huggingface/
- XVERSE Technology đã công bố mô hình ngôn ngữ XVERSE-MoE-A36B, một bước tiến lớn trong lĩnh vực AI với khả năng đa ngôn ngữ.
- Mô hình này sử dụng kiến trúc Mixture-of-Experts (MoE) với tổng số tham số lên tới 255 tỷ, trong đó 36 tỷ tham số được kích hoạt khi sử dụng.
- Kiến trúc MoE của XVERSE-MoE-A36B cho phép tối ưu hóa tài nguyên tính toán, nhờ vào cơ chế kích hoạt chọn lọc các chuyên gia.
- Mô hình này hỗ trợ hơn 40 ngôn ngữ, trong đó chú trọng vào tiếng Trung và tiếng Anh, giúp cải thiện hiệu suất ngôn ngữ.
- XVERSE-MoE-A36B sử dụng các tỷ lệ mẫu chính xác trong quá trình huấn luyện để đạt được kết quả xuất sắc trong các ngôn ngữ chính.
- Chiến lược huấn luyện của mô hình bao gồm cơ chế chuyển đổi dữ liệu động, giúp cập nhật liên tục các dữ liệu chất lượng cao.
- Mô hình cũng điều chỉnh lịch trình tốc độ học để nhanh chóng học từ dữ liệu mới mà không bị quá khớp.
- XVERSE Technology đã giải quyết các thách thức tính toán bằng cách sử dụng các chiến lược tính toán chồng chéo và kỹ thuật CPU-Offload.
- Mô hình đã được thử nghiệm trên nhiều chuẩn mực nổi tiếng như MMLU, C-Eval, và GSM8K, đạt được điểm số cao trong các bài kiểm tra.
- XVERSE-MoE-A36B có khả năng ứng dụng rộng rãi trong các lĩnh vực như hiểu ngôn ngữ tự nhiên, các tác nhân giao tiếp AI, và các lĩnh vực chuyên sâu như pháp lý và y tế.
- XVERSE Technology nhấn mạnh tầm quan trọng của việc sử dụng mô hình một cách có trách nhiệm, tránh phát tán nội dung độc hại hoặc thiên lệch.
- Công ty khuyến cáo người dùng nên thực hiện các bài kiểm tra an toàn trước khi triển khai mô hình trong các ứng dụng nhạy cảm.
📌 Mô hình XVERSE-MoE-A36B với 255 tỷ tham số và khả năng đa ngôn ngữ đã thiết lập tiêu chuẩn mới trong AI. Nó đạt điểm số xuất sắc trên nhiều chuẩn mực và hứa hẹn ứng dụng rộng rãi trong các lĩnh vực khác nhau, nhưng cần sử dụng một cách có trách nhiệm.
https://www.marktechpost.com/2024/09/15/xverse-moe-a36b-released-by-xverse-technology-a-revolutionary-multilingual-ai-model-setting-new-standards-in-mixture-of-experts-architecture-and-large-scale-language-processing/
• Open Source Initiative (OSI) đang tiến gần hơn đến việc đưa ra định nghĩa chính thức về AI nguồn mở, dự kiến công bố vào cuối tháng 10 tại sự kiện All Things Open.
• Nhiều công ty như Meta đã tuyên bố các mô hình AI của họ là nguồn mở, nhưng thực tế không phải vậy. OSI và các đối tác đang nỗ lực tạo ra một định nghĩa toàn diện về AI nguồn mở.
• Bản dự thảo mới nhất (v. 0.0.9) của Định nghĩa AI Nguồn mở đã có những thay đổi đáng kể:
- Dữ liệu huấn luyện được coi là có lợi nhưng không bắt buộc để sửa đổi hệ thống AI.
- Phân loại dữ liệu huấn luyện thành dữ liệu mở, công khai và không thể chia sẻ.
- Tách riêng danh sách kiểm tra đánh giá giấy phép khỏi tài liệu định nghĩa chính.
• Khung đánh giá mức độ mở của mô hình (MOF) được đề xuất với 3 cấp độ mở, từ hoàn toàn mở (cấp 1) đến một phần mở (cấp 2 và 3).
• Nhiều nhà lãnh đạo nguồn mở phản đối mạnh mẽ định nghĩa mới:
- Cho rằng hệ thống chỉ có thể xây dựng trên dữ liệu độc quyền thì không thể gọi là nguồn mở.
- Cáo buộc định nghĩa mới chứa quá nhiều từ ngữ mơ hồ, tạo kẽ hở cho các hệ thống AI độc quyền tự nhận là nguồn mở.
- Cho rằng định nghĩa mới làm loãng ý nghĩa thực sự của nguồn mở.
• Một số ý kiến cho rằng định nghĩa hiện tại không đảm bảo quyền tự do chạy, sao chép, phân phối, nghiên cứu, thay đổi và cải tiến hệ thống AI.
• Stefano Maffulli, Giám đốc điều hành OSI, cho rằng cách tiếp cận thuần túy lý tưởng sẽ không khả thi vì không ai có thể đáp ứng được định nghĩa quá nghiêm ngặt.
• Cuộc tranh luận này có thể kéo dài nhiều năm, và có nguy cơ trở thành một cuộc tranh cãi kỹ thuật vô nghĩa trong khi AI vẫn phát triển mà không cần tham chiếu đến "nguồn mở" ngoại trừ như một thuật ngữ marketing.
📌 Cuộc tranh cãi về định nghĩa AI nguồn mở đang chia rẽ sâu sắc cộng đồng phần mềm tự do. Với 3 cấp độ mở trong MOF và sự phản đối từ nhiều nhà lãnh đạo, tương lai của AI nguồn mở vẫn còn nhiều bất định. Cuộc tranh luận có thể kéo dài nhiều năm tới.
https://www.theregister.com/2024/09/14/opinion_column_osi/
• DeepSeek v2.5 là mô hình ngôn ngữ lớn (LLM) nguồn mở tiên tiến, kết hợp giữa DeepSeek phiên bản 2 0628 và DeepSeek Coder phiên bản 2 0724.
• Mô hình này vượt trội hơn các đối thủ hàng đầu như GPT-4 Turbo, Claude 3 và Google Gemini trong nhiều bài kiểm tra chuẩn.
• DeepSeek v2.5 nổi bật với khả năng viết nâng cao, tuân thủ hướng dẫn tốt hơn và phù hợp với sở thích của con người.
• Người dùng có thể truy cập thông qua giao diện web và API, với giá cạnh tranh 0,14 USD/triệu token đầu vào và 0,28 USD/triệu token đầu ra.
• Mô hình cung cấp các tùy chọn cài đặt linh hoạt: triển khai cục bộ hoặc truy cập dựa trên đám mây.
• Tính năng artifact cho phép tạo ra các hình ảnh trực quan từ các lời nhắc.
• Đánh giá nội bộ cho thấy cải thiện đáng kể về tỷ lệ thắng so với các mô hình khác.
• DeepSeek v2.5 có ứng dụng đa dạng: lập trình, suy luận toán học, viết sáng tạo, lý luận logic và đạo đức.
• Người dùng có thể truy cập miễn phí bằng cách đăng ký tài khoản email.
• Mô hình đã được kiểm tra kỹ lưỡng về hiệu suất trong nhiều tác vụ khác nhau.
• DeepSeek v2.5 là giải pháp toàn diện cho các tác vụ đa dạng, tích hợp khả năng lập trình trong mô hình cơ sở.
• Nó vượt trội trong nhiều lĩnh vực như:
- Lập trình: viết thành công các hàm Python và tạo mã SVG
- Suy luận toán học: giải chính xác các bài toán nhiều bước
- Viết sáng tạo: tạo ra các câu chuyện ngắn mạch lạc và hấp dẫn
- Lý luận logic và đạo đức: xử lý hiệu quả các lời nhắc phức tạp
- Trí tuệ cảm xúc: đưa ra phản hồi đồng cảm và chính xác
• DeepSeek v2.5 cung cấp tính năng gọi hàm và đầu ra JSON thông qua API, giúp dễ dàng tích hợp vào các ứng dụng.
• Người dùng có thể cài đặt cục bộ bằng LM Studio hoặc truy cập thông qua trò chuyện trên trình duyệt web.
• Là một giải pháp nguồn mở, DeepSeek v2.5 cung cấp tính linh hoạt và tùy chỉnh cần thiết để thích ứng với nhiều trường hợp sử dụng và quy trình làm việc khác nhau.
📌 DeepSeek v2.5 là mô hình ngôn ngữ nguồn mở vượt trội, đánh bại các đối thủ lớn trong nhiều bài kiểm tra. Với khả năng đa dạng từ lập trình đến sáng tạo, cùng tính linh hoạt và chi phí hợp lý, nó hứa hẹn trở thành công cụ AI mạnh mẽ cho nhiều ứng dụng.
https://www.geeky-gadgets.com/?p=437784
• Google giới thiệu DataGemma - mô hình AI nguồn mở đầu tiên được thiết kế để giải quyết vấn đề ảo giác của các mô hình ngôn ngữ lớn (LLM) bằng cách kết nối chúng với dữ liệu thống kê thực tế từ Data Commons.
• Data Commons là một đồ thị kiến thức công khai chứa hơn 240 tỷ điểm dữ liệu từ các tổ chức uy tín như Liên Hợp Quốc, WHO, CDC và các Cục Thống kê.
• DataGemma sử dụng hai phương pháp chính để nâng cao độ chính xác của LLM:
1. RIG (Tạo sinh được xen kẽ bởi truy xuất): Chủ động truy vấn nguồn đáng tin cậy và kiểm tra thông tin với Data Commons. Khi được yêu cầu tạo phản hồi, mô hình được lập trình để xác định các trường hợp dữ liệu thống kê và truy xuất câu trả lời từ Data Commons.
2. RAG (Tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài): Cho phép mô hình ngôn ngữ kết hợp thông tin liên quan ngoài dữ liệu huấn luyện. DataGemma truy xuất thông tin ngữ cảnh liên quan từ Data Commons trước khi mô hình bắt đầu tạo phản hồi.
• Kết quả sơ bộ cho thấy cải thiện đáng kể về độ chính xác của mô hình ngôn ngữ khi xử lý các sự kiện số học, giảm thiểu ảo giác cho người dùng.
• Google đang tiếp tục nghiên cứu và cam kết hoàn thiện các phương pháp này, với mục tiêu cuối cùng là tích hợp chức năng nâng cao này vào cả mô hình Gemma và Gemini.
• Bằng cách chia sẻ nghiên cứu và công khai mô hình DataGemma, Google hy vọng thúc đẩy việc áp dụng rộng rãi hơn các kỹ thuật dựa trên Data Commons để làm nền tảng cho LLM trong dữ liệu thực tế.
• Các nhà nghiên cứu và nhà phát triển có thể bắt đầu với DataGemma bằng cách sử dụng các notebook khởi động nhanh cho cả phương pháp RIG và RAG.
📌 DataGemma là mô hình AI nguồn mở đầu tiên kết nối LLM với 240 tỷ điểm dữ liệu thực tế từ Data Commons. Sử dụng phương pháp RIG và RAG, DataGemma giúp giảm ảo giác AI và nâng cao độ chính xác khi xử lý dữ liệu số học, hướng tới tương lai AI đáng tin cậy hơn.
https://blog.google/technology/ai/google-datagemma-ai-llm/
• Mistral, startup AI của Pháp, vừa phát hành Pixtral 12B - mô hình đa phương thức đầu tiên của họ có khả năng xử lý cả hình ảnh và văn bản.
• Pixtral 12B có 12 tỷ tham số, kích thước khoảng 24GB. Số lượng tham số thường tương ứng với khả năng giải quyết vấn đề của mô hình.
• Mô hình này được xây dựng dựa trên Nemo 12B - một trong những mô hình văn bản của Mistral.
• Pixtral 12B có thể trả lời câu hỏi về số lượng hình ảnh tùy ý với kích thước tùy ý, dựa trên URL hoặc hình ảnh được mã hóa bằng base64.
• Các khả năng dự kiến của Pixtral 12B bao gồm chú thích hình ảnh và đếm số lượng đối tượng trong ảnh, tương tự như các mô hình đa phương thức khác như Claude của Anthropic và GPT-4 của OpenAI.
• Mô hình có sẵn để tải xuống thông qua liên kết torrent trên GitHub và nền tảng phát triển AI Hugging Face.
• Pixtral 12B được cấp phép Apache 2.0, cho phép tải xuống, tinh chỉnh và sử dụng không hạn chế.
• Chưa có bản demo web hoạt động tại thời điểm công bố. Sophia Yang, Trưởng bộ phận quan hệ nhà phát triển của Mistral, cho biết Pixtral 12B sẽ sớm có mặt trên nền tảng chatbot và API của Mistral là Le Chat và Le Plateforme.
• Chưa rõ Mistral đã sử dụng dữ liệu hình ảnh nào để phát triển Pixtral 12B.
• Hầu hết các mô hình AI tạo sinh, bao gồm cả các mô hình khác của Mistral, được đào tạo trên lượng lớn dữ liệu công khai từ internet, thường có bản quyền.
• Một số nhà cung cấp mô hình cho rằng quyền "sử dụng hợp lý" cho phép họ thu thập bất kỳ dữ liệu công khai nào, nhưng nhiều chủ sở hữu bản quyền không đồng ý và đã kiện các nhà cung cấp lớn hơn như OpenAI và Midjourney.
• Pixtral 12B ra mắt sau khi Mistral đóng vòng gọi vốn 645 triệu USD do General Catalyst dẫn đầu, định giá công ty ở mức 6 tỷ USD.
• Mistral, được thành lập hơn một năm trước và có Microsoft là cổ đông thiểu số, được coi là câu trả lời của châu Âu cho OpenAI.
• Chiến lược của Mistral bao gồm phát hành các mô hình "mở" miễn phí, tính phí cho các phiên bản quản lý của những mô hình đó và cung cấp dịch vụ tư vấn cho khách hàng doanh nghiệp.
📌 Mistral ra mắt Pixtral 12B - mô hình đa phương thức 12 tỷ tham số xử lý hình ảnh và văn bản. Được cấp phép Apache 2.0, mô hình 24GB này dựa trên Nemo 12B, có thể tải xuống và sử dụng tự do. Đây là bước tiến quan trọng sau khi Mistral gọi vốn 645 triệu USD, định giá 6 tỷ USD.
https://techcrunch.com/2024/09/11/mistral-releases-pixtral-its-first-multimodal-model/
• Các nhà nghiên cứu tại Viện Hàn lâm Khoa học Trung Quốc đã phát triển một mô hình AI có tên LLaMA-Omni, hứa hẹn thay đổi cách chúng ta tương tác với trợ lý kỹ thuật số.
• LLaMA-Omni được xây dựng dựa trên mô hình nguồn mở Llama 3.1 8B Instruct của Meta, có khả năng xử lý hướng dẫn bằng giọng nói và tạo ra phản hồi đồng thời bằng văn bản và giọng nói.
• Hệ thống này có độ trễ thấp ấn tượng chỉ 226 mili giây, tương đương với tốc độ hội thoại của con người.
• LLaMA-Omni có thể được huấn luyện trong vòng chưa đầy 3 ngày chỉ với 4 GPU, tiết kiệm đáng kể tài nguyên so với các hệ thống tiên tiến khác.
• Công nghệ này mở ra cơ hội cho các công ty nhỏ và nhà nghiên cứu trong lĩnh vực AI giọng nói, vốn đang bị thống trị bởi các gã khổng lồ công nghệ.
• Ứng dụng tiềm năng bao gồm cải thiện dịch vụ khách hàng, tương tác bệnh nhân trong y tế, và giáo dục cá nhân hóa.
• Tác động tài chính có thể rất lớn, với khả năng thúc đẩy làn sóng đổi mới và cạnh tranh mới trong thị trường AI.
• Nhà đầu tư có thể quan tâm đến các công ty ứng dụng công nghệ này do tiềm năng giảm chi phí và thời gian phát triển sản phẩm AI giọng nói.
• Thách thức hiện tại bao gồm giới hạn ngôn ngữ tiếng Anh và chất lượng giọng nói tổng hợp chưa tự nhiên như các hệ thống thương mại hàng đầu.
• Vấn đề bảo mật cũng đáng quan ngại khi các hệ thống tương tác bằng giọng nói thường yêu cầu xử lý dữ liệu âm thanh nhạy cảm.
• Việc mã nguồn mở cả mô hình và mã nguồn có thể thúc đẩy cải tiến nhanh chóng từ cộng đồng AI toàn cầu.
• LLaMA-Omni đại diện cho bước tiến quan trọng hướng tới giao diện giọng nói tự nhiên hơn cho trợ lý AI và chatbot.
• Công nghệ này có thể dẫn đến sự phổ biến của các ứng dụng đa dạng phù hợp với các ngành, ngôn ngữ và bối cảnh văn hóa cụ thể.
• Kỷ nguyên AI thực sự có khả năng hội thoại đang đến gần hơn dự kiến, mở ra cơ hội cạnh tranh cho các công ty tích hợp thành công công nghệ này.
📌 LLaMA-Omni, mô hình AI nguồn mở từ Trung Quốc, hứa hẹn cách mạng hóa tương tác giọng nói với độ trễ chỉ 226ms. Công nghệ này mở ra cơ hội cho các startup AI cạnh tranh với gã khổng lồ công nghệ, có thể áp dụng trong nhiều lĩnh vực từ dịch vụ khách hàng đến y tế và giáo dục.
https://venturebeat.com/ai/llama-omni-the-open-source-ai-thats-giving-siri-and-alexa-a-run-for-their-money/
- Arcee AI đã công bố SuperNova, một mô hình ngôn ngữ với 70 tỷ tham số, được thiết kế đặc biệt cho việc triển khai trong các doanh nghiệp.
- SuperNova cung cấp khả năng tuân thủ hướng dẫn nâng cao và tùy chỉnh toàn diện, nhằm giải quyết các vấn đề về bảo mật dữ liệu và sự ổn định của mô hình.
- Mô hình này được xây dựng trên kiến trúc Llama-3.1-70B-Instruct của Meta, và sử dụng quy trình sau đào tạo độc quyền để cải thiện khả năng tuân thủ hướng dẫn.
- Quá trình phát triển SuperNova bao gồm việc đào tạo ba mô hình cùng lúc, với một mô hình được tinh chế từ Llama 405B, một mô hình sử dụng dữ liệu từ kho dữ liệu EvolKit, và một mô hình khác thực hiện DPO trên Llama 3.
- SuperNova được triển khai trong môi trường đám mây riêng của doanh nghiệp, bắt đầu từ AWS Marketplace, với kế hoạch mở rộng sang Google và Azure.
- Mô hình này cho phép doanh nghiệp kiểm soát hoàn toàn tài sản AI của mình, giúp bảo vệ dữ liệu nhạy cảm và tránh các thay đổi không mong muốn từ dịch vụ API.
- SuperNova có khả năng được tinh chỉnh và đào tạo lại trong môi trường doanh nghiệp, cho phép cải thiện liên tục dựa trên tương tác với người dùng.
- Arcee AI cũng cung cấp một API miễn phí cho việc thử nghiệm và đánh giá, cùng với phiên bản SuperNova-Lite với 8 tỷ tham số, hữu ích cho các nhà phát triển trong môi trường hạn chế tài nguyên.
- Arcee cam kết tính minh bạch và khuyến khích các bên thứ ba đánh giá hiệu suất của SuperNova, đặc biệt trong lĩnh vực lý thuyết toán học.
- Việc ra mắt SuperNova diễn ra trong bối cảnh các doanh nghiệp đang xem xét lại chiến lược AI của mình, với sự quan tâm ngày càng tăng đối với các mô hình có thể triển khai và tùy chỉnh.
📌 SuperNova của Arcee AI là mô hình ngôn ngữ 70 tỷ tham số, cung cấp khả năng tùy chỉnh cao và bảo mật dữ liệu cho doanh nghiệp. Mô hình này có thể được triển khai trong môi trường đám mây riêng, cho phép cải thiện liên tục và kiểm soát hoàn toàn tài sản AI.
https://venturebeat.com/ai/arcee-ai-unveils-supernova-a-customizable-instruction-adherent-model-for-enterprises/
• Cộng đồng công nghệ đang gặp khó khăn trong việc định nghĩa AI nguồn mở do sự phức tạp chưa từng có của công nghệ này.
• Meta đang thắng thế trong câu chuyện AI nguồn mở bằng cách sử dụng thuật ngữ này để quảng bá một mô hình ngôn ngữ lớn (LLM) không thực sự nguồn mở.
• AI tạo ra một nghịch lý cho cộng đồng nguồn mở: một bên là những người theo chủ nghĩa thực dụng, bên kia là những người muốn AI nguồn mở phải trung thành với các nguyên tắc gốc.
• Ý nghĩa của "nguồn mở" đang bị giảm sút khi các nhà cung cấp LLM AI tự gọi dịch vụ của họ là nguồn mở dù có đúng hay không.
• Vấn đề quản lý ngôn ngữ định nghĩa nguồn mở đang cho phép việc khai thác thuật ngữ này, trong khi các bên đều đưa ra phiên bản sự thật riêng của mình.
• Open Source Initiative (OSI) đang nỗ lực xây dựng một định nghĩa, nhưng liệu nó có đủ uy tín và được cộng đồng ủng hộ hay không vẫn là một câu hỏi mở.
• Ashley Williams, người sáng lập Axo, cho rằng nguồn mở đã bị trôi dạt về mặt ngôn ngữ một phần do thiếu sự quản lý ngôn ngữ định nghĩa nó.
• Ý nghĩa của nguồn mở đã thay đổi qua thời gian, từ cách để các nhà phát triển tạo phần mềm họ có thể sửa đổi, đến việc phục vụ lợi ích thương mại và giảm chi phí phát triển công nghệ.
• Stefano Maffulli, giám đốc điều hành OSI, chỉ ra thách thức khi sử dụng thuật ngữ "AI nguồn mở" vì không có "nguồn" thực sự trong đó.
• Việc Liên minh Châu Âu tuyên bố các hệ thống AI nguồn mở có lợi thế đặc biệt càng thúc đẩy các công ty như Meta gắn mình với thuật ngữ này.
• OSI đã đăng tải bản dự thảo định nghĩa để lấy ý kiến, nhưng nó vẫn đang gặp nhiều tranh cãi.
• Amanda Brock từ OpenUK cho rằng việc có một định nghĩa riêng cho AI nguồn mở có thể gây nhầm lẫn và làm suy yếu bản chất của phần mềm nguồn mở.
• Tranh luận xoay quanh việc liệu dữ liệu huấn luyện có nên được coi là yêu cầu bắt buộc hay chỉ là lợi ích bổ sung của AI nguồn mở.
• Một số chuyên gia cho rằng cần có một "phổ mở" thay vì chỉ phân loại nhị phân "nguồn mở hay không".
• Allison Randall từ Software Freedom Conservancy nhấn mạnh tầm quan trọng của việc duy trì một định nghĩa rõ ràng và đầy tham vọng về AI nguồn mở.
📌 AI nguồn mở đang đối mặt với thách thức định nghĩa chưa từng có. Tranh cãi xoay quanh vai trò của dữ liệu huấn luyện, quyền sở hữu ngôn ngữ và mức độ mở cần thiết. Cộng đồng đang tìm kiếm sự cân bằng giữa tính thực dụng và lý tưởng, trong khi các công ty lớn như Meta đang định hình cuộc thảo luận.
https://thenewstack.io/why-open-source-ai-has-no-meaning/
• DeepSeek, công ty con AI của quỹ đầu cơ High-Flyer Capital Management (Trung Quốc), vừa ra mắt mô hình DeepSeek-V2.5 vào ngày 6/9/2024.
• DeepSeek-V2.5 kết hợp khả năng xử lý ngôn ngữ tổng quát và lập trình trong một mô hình duy nhất, là phiên bản nâng cấp từ DeepSeek-V2-0628 và DeepSeek-Coder-V2-0724.
• Mô hình này hiện đã có mặt trên Hugging Face, cho phép truy cập qua web và API.
• Theo đánh giá của các nhà nghiên cứu độc lập, DeepSeek-V2.5 được coi là mô hình ngôn ngữ lớn (LLM) tiên tiến nhất hiện có trong lĩnh vực nguồn mở.
• DeepSeek-V2.5 vượt trội trong nhiều tiêu chuẩn đánh giá quan trọng:
- AlpacaEval 2.0: Độ chính xác tổng thể 50,5 (so với 46,6 của DeepSeek-V2-0628 và 44,5 của DeepSeek-Coder-V2-0724)
- ArenaHard: Độ chính xác 76,2 (so với 68,3 và 66,3 của các phiên bản trước)
- HumanEval Python: Đạt điểm 89, thể hiện khả năng lập trình vượt trội
• Mô hình này còn vượt qua GPT-4o mini và ChatGPT-4o-latest trong đánh giá tiếng Trung nội bộ.
• Theo Shin Megami Boson, một chuyên gia AI, DeepSeek-V2.5 vượt trội hơn Meta's Llama 3-70B Instruct và Llama 3.1-405B Instruct trong bài kiểm tra riêng mô phỏng Graduate-Level Google-Proof Q&A Benchmark (GPQA).
• DeepSeek-V2.5 được phát hành dưới dạng nguồn mở trên Hugging Face với giấy phép biến thể của MIT, cho phép sử dụng miễn phí và thương mại hóa với một số điều kiện nhất định.
• Để chạy DeepSeek-V2.5 cục bộ, người dùng cần thiết lập định dạng BF16 với GPU 80GB (8 GPU để tận dụng tối đa).
• Mô hình sử dụng kiến trúc Multi-Head Latent Attention (MLA) giúp giảm bộ nhớ đệm KV, cải thiện tốc độ suy luận mà không ảnh hưởng đến hiệu suất.
📌 DeepSeek-V2.5 đặt ra tiêu chuẩn mới cho mô hình AI nguồn mở, kết hợp xử lý ngôn ngữ và lập trình. Với hiệu suất vượt trội trong nhiều tiêu chuẩn đánh giá, mô hình này mở ra cơ hội ứng dụng AI tiên tiến cho doanh nghiệp và nhà phát triển, đồng thời thúc đẩy nghiên cứu và phát triển trong lĩnh vực AI.
https://venturebeat.com/ai/deepseek-v2-5-wins-praise-as-the-new-true-open-source-ai-model-leader/
• Hugging Face vừa ra mắt LightEval - bộ công cụ đánh giá nhẹ giúp doanh nghiệp và nhà nghiên cứu đánh giá các mô hình ngôn ngữ lớn (LLM).
• LightEval là bước tiến quan trọng trong nỗ lực làm cho quá trình phát triển AI minh bạch và có thể tùy chỉnh hơn.
• CEO Clément Delangue nhấn mạnh đánh giá là "một trong những bước quan trọng nhất - nếu không phải là quan trọng nhất - trong AI".
• Công cụ này giải quyết nhu cầu ngày càng tăng về các công cụ đánh giá chính xác và linh hoạt khi AI ngày càng quan trọng trong hoạt động kinh doanh.
• LightEval cho phép tùy chỉnh đánh giá theo mục tiêu cụ thể của doanh nghiệp, từ đo lường tính công bằng trong ứng dụng y tế đến tối ưu hóa hệ thống đề xuất cho thương mại điện tử.
• Nó tích hợp liền mạch với các công cụ hiện có của Hugging Face như thư viện xử lý dữ liệu Datatrove và thư viện huấn luyện mô hình Nanotron.
• LightEval hỗ trợ đánh giá trên nhiều thiết bị như CPU, GPU và TPU, có thể mở rộng quy mô cho cả triển khai nhỏ và lớn.
• Công cụ này đáp ứng nhu cầu ngày càng tăng về đánh giá AI khi các mô hình trở nên lớn và phức tạp hơn.
• LightEval giúp doanh nghiệp đảm bảo mô hình của họ đáp ứng các tiêu chuẩn đạo đức và kinh doanh trước khi triển khai.
• Là mã nguồn mở, LightEval khuyến khích trách nhiệm giải trình lớn hơn trong đánh giá AI.
• Người dùng có thể đánh giá mô hình trên nhiều tiêu chuẩn phổ biến hoặc xác định các tác vụ tùy chỉnh của riêng họ.
• LightEval hỗ trợ các cấu hình đánh giá nâng cao như sử dụng trọng số khác nhau, song song hóa pipeline hoặc phương pháp dựa trên bộ điều hợp.
• Công cụ này là một phần trong xu hướng dân chủ hóa phát triển AI, giúp các công ty nhỏ hơn và nhà phát triển cá nhân tiếp cận các công cụ đánh giá mạnh mẽ.
• Thách thức lớn nhất của LightEval sẽ là quản lý độ phức tạp của đánh giá AI khi các mô hình tiếp tục phát triển.
📌 LightEval của Hugging Face mở ra kỷ nguyên mới cho đánh giá và trách nhiệm giải trình AI. Công cụ mã nguồn mở này cho phép tùy chỉnh linh hoạt, minh bạch và hỗ trợ đa nền tảng, giúp doanh nghiệp đảm bảo mô hình AI đáng tin cậy, công bằng và hiệu quả trong các ứng dụng thực tế ngày càng phức tạp.
https://venturebeat.com/ai/lighteval-hugging-faces-open-source-solution-to-ais-accountability-problem/
• Các nhà nghiên cứu từ Đại học Princeton, Pennsylvania State và Louisiana State đã phát triển mô hình Political DEBATE (DeBERTa Algorithm for Textual Entailment) để phân loại văn bản chính trị.
• Mô hình có hai phiên bản: Large (304 triệu tham số) và Base (86 triệu tham số), được thiết kế để thực hiện phân loại zero-shot và few-shot hiệu quả.
• Political DEBATE sử dụng khung phân loại Natural Language Inference (NLI), cho phép sử dụng mô hình mã hóa ngôn ngữ nhỏ hơn như BERT, giảm đáng kể yêu cầu tính toán so với mô hình LLM tạo sinh.
• Nhóm nghiên cứu giới thiệu bộ dữ liệu PolNLI gồm hơn 200.000 tài liệu chính trị được gán nhãn, bao gồm 201.691 tài liệu ghép với 852 giả thuyết suy luận duy nhất.
• PolNLI được chia thành 4 nhiệm vụ chính: phát hiện quan điểm, phân loại chủ đề, phát hiện phát ngôn thù địch và độc hại, và trích xuất sự kiện.
• Dữ liệu được lấy từ nhiều nguồn đa dạng như mạng xã hội, tin tức, bản tin quốc hội, luật pháp và phản hồi từ cộng đồng. Phần lớn văn bản trong PolNLI do con người tạo ra.
• Mô hình Political DEBATE được xây dựng dựa trên DeBERTa V3 base và large, được tinh chỉnh trước cho phân loại NLI mục đích chung.
• Quá trình đào tạo sử dụng thư viện Transformers và được giám sát bằng thư viện Weights and Biases. Việc lựa chọn mô hình cuối cùng dựa trên đánh giá định lượng và định tính.
• Political DEBATE được so sánh với 4 mô hình khác: DeBERTa base và large NLI mục đích chung, Llama 3.1 8B nguồn mở và Claude 3.5 Sonnet độc quyền.
• Mô hình thể hiện khả năng học ít mẫu hiệu quả, học các nhiệm vụ mới chỉ với 10-25 tài liệu được lấy mẫu ngẫu nhiên.
• Phân tích hiệu quả chi phí cho thấy Political DEBATE nhanh hơn đáng kể so với Llama 3.1 8B trên nhiều cấu hình phần cứng khác nhau.
• Mô hình hoạt động hiệu quả trên phần cứng phổ biến như GPU laptop (M3 max) và GPU đám mây miễn phí (Tesla T4).
📌 Mô hình Political DEBATE và bộ dữ liệu PolNLI mang lại giải pháp nguồn mở hiệu quả cho phân loại văn bản chính trị. Với 304 triệu tham số, mô hình có thể xử lý 5.000 tài liệu trong vài phút trên phần cứng phổ thông, đạt hiệu suất tương đương mô hình độc quyền lớn hơn nhiều lần.
https://www.marktechpost.com/2024/09/09/political-debate-language-models-open-source-solutions-for-efficient-text-classification-in-political-science/
- Reflection 70B, một biến thể của mô hình ngôn ngữ lớn (LLM) nguồn mở Llama 3.1 của Meta, được HyperWrite (trước đây là OthersideAI) - một công ty khởi nghiệp nhỏ ở New York - huấn luyện và phát hành. Reflection 70B đã khoe khoang về các kết quả đánh giá ấn tượng và dẫn đầu trên các bài kiểm tra của bên thứ ba.
- Tuy nhiên, chỉ sau một cuối tuần, vương miện của "vua" AI nguồn mở mới này đã bị phai nhạt khi các nhà đánh giá độc lập khác không thể tái hiện một số chỉ số hiệu suất được tuyên bố.
- Tổ chức Artificial Analysis đã công bố phân tích riêng cho thấy điểm số MMLU của Reflection Llama 3.170B thấp hơn đáng kể so với Llama 3.1 70B của Meta, mâu thuẫn lớn với kết quả ban đầu của HyperWrite.
- Matt Shumer, đồng sáng lập và CEO của HyperWrite, đã thừa nhận rằng trọng số của Reflection 70B đã bị "lỗi" trong quá trình tải lên Hugging Face, có thể dẫn đến hiệu suất kém hơn so với phiên bản "API nội bộ" của công ty.
- Artificial Analysis sau đó được cấp quyền truy cập vào một API riêng và nhận thấy hiệu suất ấn tượng nhưng không ở mức độ như các tuyên bố ban đầu. Tổ chức này đặt ra hai câu hỏi then chốt về lý do tại sao phiên bản được công bố lại khác với phiên bản họ kiểm tra và lý do tại sao trọng số của phiên bản họ kiểm tra chưa được phát hành.
- Người dùng trên các cộng đồng Reddit về học máy và AI cũng đặt nghi vấn về hiệu suất và nguồn gốc được tuyên bố của Reflection 70B, với ít nhất một người dùng X tố cáo Shumer "gian lận trong cộng đồng nghiên cứu AI".
📌 Phản ứng dữ dội trước những cáo buộc gian lận và hiệu suất không đạt yêu cầu của mô hình AI nguồn mở mới nhất Reflection 70B, các nhà phân tích độc lập đặt nhiều câu hỏi về các tuyên bố hiệu suất ban đầu của HyperWrite. Các bằng chứng cho thấy Reflection 70B có thể không phải là phiên bản Llama 3.1 hàng đầu như tuyên bố.
https://venturebeat.com/ai/new-open-source-ai-leader-reflection-70bs-performance-questioned-accused-of-fraud/
• LG AI Research đã ra mắt EXAONE 3.0, một mô hình ngôn ngữ song ngữ tiên tiến với 7,8 tỷ tham số, xuất sắc trong cả tiếng Anh và tiếng Hàn.
• EXAONE 3.0 là phiên bản mới nhất trong dòng mô hình EXAONE, với tên gọi xuất phát từ "EXpert AI for EveryONE", thể hiện cam kết của LG trong việc phổ cập AI chuyên gia.
• So với EXAONE 1.0 và 2.0, phiên bản 3.0 đã cải thiện đáng kể về hiệu suất và chi phí:
- Giảm 56% thời gian xử lý suy luận
- Giảm 72% chi phí so với EXAONE 2.0
- Chi phí vận hành chỉ bằng 6% so với EXAONE 1.0
• Kiến trúc của EXAONE 3.0:
- Sử dụng kiến trúc transformer chỉ giải mã (decoder-only)
- Độ dài ngữ cảnh tối đa 4.096 token
- 32 lớp với kích thước feedforward 14.336 và 32 đầu
- Sử dụng Rotary Position Embeddings (RoPE) và Grouped Query Attention (GQA)
- Kích thước từ vựng 102.400
• Quá trình huấn luyện:
- Tiền huấn luyện trên tập dữ liệu đa dạng gồm 8 nghìn tỷ token
- Hai giai đoạn: kiến thức chung và kiến thức chuyên ngành
- Tinh chỉnh có giám sát (SFT) và Tối ưu hóa ưu tiên trực tiếp (DPO)
• Hiệu suất vượt trội:
- Đứng đầu trong nhiều bài kiểm tra tiếng Anh như MT-Bench (điểm 9,01), Arena-Hard-v0.1, WildBench, AlpacaEval 2.0 LC
- Xếp hạng cao trong các bài kiểm tra toán học và lập trình
- Dẫn đầu trong các bài kiểm tra tiếng Hàn như KMMLU, KoBEST, LogicKor
• Ứng dụng đa ngành:
- Y tế: chẩn đoán, phân tích dự đoán, y học cá nhân hóa
- Tài chính: đánh giá rủi ro, phát hiện gian lận, phân tích thị trường
- Truyền thông và giải trí: tự động hóa tạo nội dung, mô phỏng thực tế, trải nghiệm người dùng
• LG AI Research đã mở mã nguồn EXAONE 3.0 7.8B cho cộng đồng AI sử dụng với mục đích phi thương mại và nghiên cứu, thúc đẩy sự đổi mới và hợp tác trong lĩnh vực AI.
📌 EXAONE 3.0 là bước đột phá của LG AI Research với mô hình ngôn ngữ 7,8 tỷ tham số vượt trội trong tiếng Anh và tiếng Hàn. Mô hình mã nguồn mở này đạt hiệu suất cao trên nhiều bài kiểm tra, giảm 72% chi phí so với phiên bản trước và có tiềm năng ứng dụng rộng rãi trong nhiều ngành.
https://www.marktechpost.com/2024/09/08/lg-ai-research-open-sources-exaone-3-0-a-7-8b-bilingual-language-model-excelling-in-english-and-korean-with-top-performance-in-real-world-applications-and-complex-reasoning/
• Llama là gia đình mô hình AI tạo sinh nguồn mở của Meta, gồm 3 phiên bản: Llama 8B, Llama 70B và Llama 405B. Phiên bản mới nhất là Llama 3.1, ra mắt tháng 7/2024.
• Các mô hình được huấn luyện trên dữ liệu web đa ngôn ngữ, mã nguồn công khai và dữ liệu tổng hợp. Llama 8B và 70B nhỏ gọn, có thể chạy trên laptop đến máy chủ. Llama 405B lớn hơn, yêu cầu phần cứng trung tâm dữ liệu.
• Tất cả mô hình Llama có cửa sổ ngữ cảnh 128.000 token, tương đương khoảng 100.000 từ hoặc 300 trang.
• Llama có thể thực hiện nhiều tác vụ như lập trình, trả lời câu hỏi toán học, tóm tắt tài liệu bằng 8 ngôn ngữ. Nó có thể xử lý hầu hết các tác vụ dựa trên văn bản nhưng chưa thể xử lý hình ảnh.
• Mô hình Llama 3.1 có thể được cấu hình để sử dụng các ứng dụng, công cụ và API bên thứ ba như Brave Search, Wolfram Alpha và trình thông dịch Python.
• Người dùng có thể trò chuyện với Llama thông qua chatbot Meta AI trên Facebook Messenger, WhatsApp, Instagram, Oculus và Meta.ai.
• Nhà phát triển có thể tải xuống, sử dụng hoặc tinh chỉnh Llama trên hầu hết các nền tảng đám mây phổ biến. Meta có hơn 25 đối tác lưu trữ Llama, bao gồm Nvidia, Databricks, Groq, Dell và Snowflake.
• Meta cung cấp các công cụ để làm cho Llama "an toàn hơn" khi sử dụng:
- Llama Guard: khung kiểm duyệt nội dung
- Prompt Guard: công cụ bảo vệ chống tấn công prompt injection
- CyberSecEval: bộ đánh giá rủi ro an ninh mạng
• Hạn chế của Llama bao gồm nguy cơ vi phạm bản quyền và khả năng tạo ra mã lỗi hoặc không an toàn. Cần có chuyên gia xem xét trước khi sử dụng mã do AI tạo ra.
📌 Llama là mô hình AI tạo sinh nguồn mở tiên tiến của Meta với 3 phiên bản (8B, 70B, 405B), có khả năng đa dạng trong xử lý ngôn ngữ tự nhiên. Meta cung cấp nhiều công cụ hỗ trợ, nhưng vẫn cần thận trọng về vấn đề bản quyền và an toàn khi sử dụng.
https://techcrunch.com/2024/09/08/meta-llama-everything-you-need-to-know-about-the-open-generative-ai-model/
• IBM Research đã giới thiệu Docling, một gói phần mềm mã nguồn mở được thiết kế đặc biệt để chuyển đổi tài liệu PDF sang các định dạng có thể xử lý bằng máy.
• Docling sử dụng các mô hình AI chuyên biệt cho phân tích bố cục và nhận dạng cấu trúc bảng, bao gồm DocLayNet và TableFormer. Các mô hình này được đào tạo trên các bộ dữ liệu lớn và có thể xử lý nhiều loại tài liệu và định dạng khác nhau.
• Công cụ này hoạt động hiệu quả trên phần cứng thông thường, có thể cấu hình cho xử lý hàng loạt và sử dụng tương tác.
• Quy trình xử lý của Docling bao gồm các bước: phân tích cú pháp tài liệu PDF, trích xuất token văn bản và tọa độ hình học, áp dụng mô hình AI để phân tích bố cục, nhận dạng các phần tử như bảng và hình ảnh, tái tạo cấu trúc gốc với độ chính xác cao.
• Mô hình TableFormer của Docling có khả năng nhận dạng các cấu trúc bảng phức tạp, bao gồm cả những bảng không có đường viền, trải dài nhiều hàng hoặc cột, hoặc chứa các ô trống.
• Kết quả phân tích được tổng hợp và xử lý sau để nâng cao metadata, xác định ngôn ngữ tài liệu và sửa thứ tự đọc. Tài liệu chuyển đổi được xuất ra dưới dạng JSON hoặc Markdown.
• Trong các bài kiểm tra trên bộ dữ liệu 225 trang, Docling đã xử lý tài liệu với độ trễ dưới 1 giây/trang trên một CPU.
• Trên MacBook Pro M3 Max 16 nhân, Docling xử lý 92 trang trong 103 giây sử dụng 16 luồng, đạt thông lượng 2,45 trang/giây.
• Trên phần cứng cũ hơn như Intel Xeon E5-2690, Docling vẫn duy trì hiệu suất tốt, xử lý 143 trang trong 239 giây với 16 luồng.
• Docling giải quyết các thách thức trong chuyển đổi tài liệu PDF phức tạp, bao gồm việc mất các tính năng cấu trúc, khó khăn trong việc khôi phục bảng, hình ảnh và thứ tự đọc.
• Công cụ này khắc phục những hạn chế của các giải pháp hiện có, cả thương mại và mã nguồn mở, trong việc xử lý bố cục tài liệu phức tạp và nhận dạng bảng chính xác.
• Docling cung cấp một giải pháp mạnh mẽ và linh hoạt cho chuyển đổi tài liệu, phù hợp cho cả nhà nghiên cứu học thuật và doanh nghiệp thương mại.
📌 Docling của IBM Research là công cụ AI mã nguồn mở tiên tiến cho chuyển đổi PDF, xử lý 2,45 trang/giây trên MacBook Pro M3 Max. Nó giải quyết các thách thức về bảo toàn cấu trúc và nhận dạng bảng phức tạp, phù hợp cho cả nghiên cứu và ứng dụng thương mại.
https://www.marktechpost.com/2024/09/06/ibm-research-open-sources-docling-an-ai-tool-for-high-precision-pdf-document-conversion-and-structural-integrity-maintenance-across-complex-layouts/
• Open Source Initiative (OSI) vừa công bố cập nhật định nghĩa về "AI nguồn mở" vào ngày 6/9/2024.
• Định nghĩa mới này có thể loại trừ các mô hình AI từ các công ty lớn như Meta và Google.
• OSI cho rằng xã hội cần có các quyền tự do cơ bản của nguồn mở đối với AI để mang lại lợi ích cho mọi người.
• Theo định nghĩa mới, AI nguồn mở phải đảm bảo 4 quyền tự do:
- Sử dụng hệ thống cho bất kỳ mục đích nào mà không cần xin phép
- Nghiên cứu cách hệ thống hoạt động và kiểm tra các thành phần
- Sửa đổi hệ thống cho bất kỳ mục đích nào
- Chia sẻ hệ thống cho người khác sử dụng có hoặc không có sửa đổi
• Các quyền tự do này áp dụng cho cả hệ thống hoàn chỉnh và các thành phần riêng lẻ.
• Điều kiện tiên quyết là phải có quyền truy cập vào dạng ưu tiên để thực hiện sửa đổi hệ thống.
• Theo Nik Marda, chuyên gia kỹ thuật về quản trị AI của Mozilla, các mô hình như Llama 3.1 của Meta hay Gemma của Google sẽ không đáp ứng định nghĩa mới này.
• Định nghĩa cũ lỏng lẻo hơn cho phép các công ty có đủ khoảng trống để thay đổi chức năng mô hình và vô hiệu hóa quyền truy cập theo ý muốn.
• Điều này có thể dẫn đến gián đoạn dịch vụ, hiệu suất kém và các tính năng đắt đỏ hơn trong các ứng dụng và công cụ mà mọi người sử dụng.
• Meta và Google chưa công nhận định nghĩa mới này như một tiêu chuẩn của ngành.
• Việc thiếu một định nghĩa chính xác trong quá khứ đã khiến một số công ty dễ dàng hơn trong việc hành xử như thể AI của họ là nguồn mở ngay cả khi không phải vậy.
• Nhiều, nếu không muốn nói là hầu hết, các mô hình từ các tác nhân thương mại lớn sẽ không đáp ứng định nghĩa mới này.
📌 OSI cập nhật định nghĩa "AI nguồn mở" với 4 quyền tự do cơ bản, có thể loại trừ các mô hình của Meta và Google. Định nghĩa mới nhằm ngăn chặn việc lạm dụng thuật ngữ "nguồn mở" và đảm bảo quyền lợi người dùng.
https://www.digitaltrends.com/computing/new-open-source-definition-osi-meta-google/
• Red Hat chính thức ra mắt Red Hat Enterprise Linux (RHEL) AI, một giải pháp AI thực sự hữu ích cho quản trị viên và lập trình viên RHEL.
• RHEL AI cung cấp image RHEL được tối ưu hóa hoàn toàn, có thể khởi động để triển khai máy chủ trên các môi trường đám mây lai.
• Nền tảng này kết hợp mô hình ngôn ngữ lớn Granite của IBM Research, công cụ căn chỉnh InstructLab dựa trên phương pháp LAB và cách tiếp cận hợp tác để phát triển mô hình.
• Phương pháp LAB sử dụng tạo dữ liệu tổng hợp và tinh chỉnh nhiều giai đoạn để căn chỉnh mô hình AI/ML mà không cần nỗ lực thủ công tốn kém.
• RHEL AI được tích hợp trong OpenShift AI, nền tảng MLOps của Red Hat, cho phép triển khai mô hình quy mô lớn trong các cụm Kubernetes phân tán.
• Giải pháp này sử dụng Tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài (RAG) để truy cập kiến thức bên ngoài được phê duyệt, giúp cải thiện độ chính xác của câu trả lời.
• RHEL AI cho phép các chuyên gia lĩnh vực, không chỉ các nhà khoa học dữ liệu, đóng góp vào mô hình AI tạo sinh được xây dựng cho mục đích cụ thể trên đám mây lai.
• Nền tảng này được thiết kế để chạy ở bất kỳ nơi nào dữ liệu của bạn tồn tại - tại chỗ, ở biên hoặc trên đám mây công cộng.
• RHEL AI hiện có sẵn trên Amazon Web Services (AWS) và IBM Cloud dưới dạng đăng ký "tự mang" (BYO). Trong vài tháng tới, nó sẽ có sẵn dưới dạng dịch vụ trên AWS, Google Cloud Platform (GCP), IBM Cloud và Microsoft Azure.
• Dell Technologies đã công bố hợp tác để đưa RHEL AI lên máy chủ Dell PowerEdge, nhằm đơn giản hóa việc triển khai AI bằng cách cung cấp các giải pháp phần cứng được xác thực, bao gồm điện toán tăng tốc NVIDIA, được tối ưu hóa cho RHEL AI.
📌 RHEL AI của Red Hat mang đến giải pháp AI nguồn mở cấp doanh nghiệp, kết hợp mô hình Granite, công cụ InstructLab và phương pháp LAB. Nền tảng này hứa hẹn đơn giản hóa việc áp dụng AI trong doanh nghiệp, với khả năng triển khai linh hoạt trên nhiều môi trường đám mây và hỗ trợ từ các đối tác như Dell.
https://www.zdnet.com/article/red-hat-unleashes-enterprise-linux-ai-and-its-truly-useful/
• HyperWrite, công ty khởi nghiệp AI do Matt Shumer đồng sáng lập, vừa công bố Reflection 70B - mô hình ngôn ngữ lớn (LLM) mới dựa trên Llama 3.1-70B Instruct nguồn mở của Meta.
• Reflection 70B nổi bật với kỹ thuật tự sửa lỗi mới và hiệu suất vượt trội trong các bài kiểm tra của bên thứ ba như MMLU và HumanEval.
• Mô hình sử dụng kỹ thuật "reflection tuning", cho phép nó phát hiện lỗi trong lập luận của chính mình và sửa chữa trước khi đưa ra phản hồi cuối cùng.
• Reflection 70B giới thiệu các token đặc biệt mới để lập luận và sửa lỗi, giúp tương tác với mô hình dễ dàng hơn theo cách có cấu trúc.
• Mô hình đặc biệt hữu ích cho các tác vụ đòi hỏi độ chính xác cao, vì nó tách quá trình lập luận thành các bước riêng biệt để cải thiện độ chính xác.
• Reflection 70B hiện có sẵn để tải xuống qua kho lưu trữ mã AI Hugging Face, và quyền truy cập API sẽ được cung cấp thông qua nhà cung cấp dịch vụ GPU Hyperbolic Labs.
• HyperWrite đang phát triển Reflection 405B, một mô hình lớn hơn và mạnh mẽ hơn, dự kiến ra mắt vào tuần tới và có thể vượt trội so với các mô hình nguồn đóng hàng đầu hiện nay.
• Glaive, một startup chuyên tạo bộ dữ liệu cho các trường hợp sử dụng cụ thể, đã đóng góp quan trọng vào thành công của Reflection 70B bằng cách tạo dữ liệu tổng hợp.
• Quá trình đào tạo Reflection 70B mất tổng cộng 3 tuần, với 5 lần lặp lại mô hình và sử dụng bộ dữ liệu hoàn toàn tùy chỉnh được xây dựng bằng hệ thống tạo dữ liệu tổng hợp của Glaive.
• HyperWrite, trước đây có tên là Otherside AI, được thành lập vào năm 2020 bởi Matt Shumer và Jason Kuperberg. Công ty đã huy động được 2,8 triệu USD trong vòng gọi vốn gần đây nhất vào tháng 3/2023.
• Sản phẩm chính của HyperWrite là một trợ lý viết AI có hơn 2 triệu người dùng tính đến tháng 11/2023.
• Việc phát hành Reflection 70B đánh dấu một cột mốc quan trọng cho AI nguồn mở, cung cấp cho các nhà phát triển và nhà nghiên cứu một công cụ mạnh mẽ có khả năng cạnh tranh với các mô hình độc quyền.
📌 Reflection 70B, mô hình AI nguồn mở mới từ HyperWrite, vượt trội so với các đối thủ trong nhiều bài kiểm tra. Với khả năng tự sửa lỗi độc đáo, nó hứa hẹn thay đổi cục diện AI nguồn mở. Mô hình lớn hơn, Reflection 405B, sắp ra mắt có thể vượt qua cả GPT-4.
https://venturebeat.com/ai/meet-the-new-most-powerful-open-source-ai-model-in-the-world-hyperwrites-reflection-70b/
• Matt Shumer, đồng sáng lập và CEO của startup viết AI HyperWrite, vừa ra mắt mô hình mới có tên Reflection 70B.
• Reflection 70B là mô hình ngôn ngữ nguồn mở hàng đầu, vượt trội so với các mô hình độc quyền như GPT-4o của OpenAI và Claude Sonnet 3.5 của Anthropic.
• Mô hình được phát triển bằng kỹ thuật mới gọi là Reflection-Tuning, cho phép phát hiện và sửa lỗi của chính nó trước khi đưa ra câu trả lời cuối cùng.
• Reflection 70B đạt hiệu suất cao trong các bài kiểm tra chuẩn như MMLU, MATH, IFEval và GSM8K.
• Mô hình xuất ra quá trình suy luận nội bộ trong thẻ <thinking>, câu trả lời cuối cùng trong thẻ <output>, và sử dụng thẻ <reflection> để sửa lỗi phát hiện được.
• Hiện tại, Reflection 70B đứng đầu trong nhiều tiêu chuẩn và thể hiện hiệu suất vượt trội so với GPT-4o và Llama 3.1 405B.
• Mô hình Reflection 405B dự kiến ra mắt tuần tới, được kỳ vọng sẽ nâng cao tiêu chuẩn cho các mô hình ngôn ngữ lớn toàn cầu.
• Alibaba cũng vừa phát hành Qwen2-VL, mô hình mới nhất trong loạt mô hình thị giác-ngôn ngữ của họ.
• Qwen2-VL có khả năng trò chuyện qua camera, chơi trò chơi bài, và điều khiển điện thoại di động và robot bằng cách hoạt động như một agent.
• Qwen2-VL có 3 phiên bản: mô hình nguồn mở 2 tỷ và 7 tỷ tham số, và mô hình nâng cao 72 tỷ tham số truy cập qua API.
• Mô hình 72 tỷ tham số của Qwen2-VL đạt hiệu suất tốt nhất trong 20 tiêu chuẩn về hiểu thị giác.
• Alibaba cho biết mô hình 72 tỷ tham số của họ thể hiện hiệu suất hàng đầu trong hầu hết các chỉ số, thường vượt qua cả các mô hình độc quyền như GPT-4o và Claude 3.5-Sonnet.
• Qwen2-VL được đánh giá là có ưu thế đáng kể trong việc hiểu tài liệu.
📌 Hai mô hình AI nguồn mở mới Reflection 70B và Qwen2-VL 72B vượt trội GPT-4o và Claude 3.5 trong nhiều tiêu chuẩn. Reflection 70B sử dụng kỹ thuật Reflection-Tuning để tự sửa lỗi, trong khi Qwen2-VL thể hiện khả năng hiểu thị giác vượt trội trên 20 tiêu chuẩn.
https://analyticsindiamag.com/ai-news-updates/new-open-source-champion-reflection-70b-outperforms-gpt-4o-and-claude-sonnet-3-5/
• OpenPerPlex là một công cụ tìm kiếm AI nguồn mở mới được giới thiệu nhằm giải quyết các thách thức trong việc tìm kiếm thông tin trực tuyến.
• Công cụ này kết hợp nhiều công nghệ tiên tiến để cải thiện khả năng tìm kiếm và độ chính xác của kết quả:
- Sử dụng phân đoạn ngữ nghĩa để hiểu và xử lý truy vấn tìm kiếm tốt hơn
- Hệ thống xếp hạng lại để tinh chỉnh kết quả dựa trên mức độ liên quan
- Tích hợp với Google Search thông qua API chuyên biệt để mở rộng phạm vi thông tin
- Sử dụng công cụ suy luận mạnh mẽ để xử lý hiệu quả
• Các tính năng nổi bật của OpenPerPlex:
- Hỗ trợ cập nhật thời gian thực
- Cho phép truy vấn dựa trên URL để truy xuất nội dung web cụ thể
- Cung cấp gói miễn phí với 500 yêu cầu mỗi tháng
• OpenPerPlex giải quyết những hạn chế của các công cụ tìm kiếm truyền thống:
- Các công cụ hiện tại thường dựa vào tìm kiếm từ khóa và thuật toán xếp hạng không hiểu đầy đủ ngữ cảnh truy vấn
- Khó tìm thông tin chính xác cho các truy vấn phức tạp hoặc chủ đề cụ thể
- Người dùng thường gặp khó khăn trong việc truy xuất thông tin liên quan và hữu ích
• Mục tiêu của OpenPerPlex là giúp người dùng tìm câu trả lời chính xác nhanh chóng, làm cho việc tìm kiếm hiệu quả và ít gây khó chịu hơn.
• Công cụ này đại diện cho một bước tiến quan trọng trong lĩnh vực công cụ tìm kiếm được hỗ trợ bởi AI.
• OpenPerPlex có thể mang lại lợi ích cho cả cá nhân và dự án nhỏ thông qua gói miễn phí của nó.
• Việc tích hợp với Google Search giúp mở rộng phạm vi thông tin có sẵn, trong khi vẫn duy trì khả năng xử lý và phân tích nâng cao của riêng nó.
📌 OpenPerPlex là công cụ tìm kiếm AI nguồn mở mới kết hợp phân đoạn ngữ nghĩa, xếp hạng lại và tích hợp Google. Cung cấp 500 yêu cầu/tháng miễn phí, hỗ trợ cập nhật thời gian thực và truy vấn URL, giúp tìm kiếm chính xác và hiệu quả hơn.
https://www.marktechpost.com/2024/09/06/openperplex-a-new-open-source-ai-search-engine-that-leverages-cutting-edge-technologies-to-provide-search-capabilities-over-the-web/
• HyperWrite, một startup có trụ sở tại New York, đã phát triển một mô hình AI nguồn mở mới có tên Reflection 70B, dựa trên mô hình Llama của Meta.
• Điểm đặc biệt của Reflection 70B là khả năng tự kiểm tra và tránh "ảo giác" - một vấn đề phổ biến ở các chatbot AI hiện nay như ChatGPT hay Google Gemini.
• Reflection 70B sử dụng công nghệ "reflection-tuning", cho phép AI phân tích kết quả của chính mình, phát hiện lỗi và sửa chữa trước khi đưa ra câu trả lời cuối cùng.
• CEO Matt Shumer gọi Reflection 70B là "mô hình AI nguồn mở hàng đầu thế giới" nhờ khả năng này.
• Ý tưởng về AI tự cải thiện không hoàn toàn mới. Mark Zuckerberg của Meta đã đề xuất một hệ thống tương tự vào tháng 4, trong đó AI giải quyết vấn đề bằng nhiều cách khác nhau và học hỏi từ kết quả tốt nhất.
• Reflection 70B áp dụng cách tiếp cận trực tiếp hơn bằng cách sửa thông tin trước khi hiển thị cho người dùng, thay vì chỉ đưa dữ liệu đã sửa vào quá trình đào tạo.
• Một ví dụ về khả năng của Reflection 70B là sửa lỗi đếm số chữ "r" trong từ "strawberry" - một lỗi nổi tiếng gần đây của các mô hình AI hàng đầu.
• Độ chính xác của AI ngày càng quan trọng khi con người dựa vào chúng nhiều hơn để tìm kiếm thông tin và ý kiến về các vấn đề quan trọng.
• EU, Mỹ và Anh đã ký một hiệp ước mới để đảm bảo an toàn AI, nhằm giữ cho AI trong tương lai phù hợp với lợi ích tốt nhất của con người.
• California đang chuẩn bị luật AI yêu cầu công bố khi một mô hình AI được đào tạo trên máy tính có khả năng thực hiện 10^26 phép tính dấu phẩy động mỗi giây.
• Các nhà làm luật đang phải đối mặt với thách thức trong việc hiểu và quản lý các vấn đề phức tạp về toán học và logic nằm ở cốt lõi của các mô hình AI hiện đại.
📌 Reflection 70B, mô hình AI nguồn mở mới từ HyperWrite, có khả năng tự kiểm tra và sửa lỗi trước khi đưa ra câu trả lời, giải quyết vấn đề ảo giác phổ biến ở chatbot. Công nghệ "reflection-tuning" này hứa hẹn nâng cao độ chính xác của AI, một yếu tố ngày càng quan trọng khi con người phụ thuộc nhiều hơn vào AI để tìm kiếm thông tin.
https://www.inc.com/kit-eaton/new-open-source-ai-model-can-check-itself-avoid-hallucinations.html
• LLMSecCode là một khung nguồn mở mới do các nhà nghiên cứu từ Đại học Công nghệ Chalmers (Thụy Điển) phát triển nhằm đánh giá khả năng mã hóa an toàn của các mô hình ngôn ngữ lớn (LLM).
• Mục tiêu chính là tận dụng LLM để tăng cường bảo mật mã nguồn, phát hiện và giảm thiểu các lỗ hổng bảo mật trong phần mềm.
• LLMSecCode cung cấp một nền tảng toàn diện để đánh giá khả năng tạo mã an toàn và sửa lỗi của các LLM khác nhau.
• Khung này hoạt động bằng cách thay đổi các tham số chính của LLM như nhiệt độ và top-p, cho phép điều chỉnh prompt và hỗ trợ nhiều mô hình như CodeLlama, DeepSeekCoder.
• Trong thử nghiệm, DeepSeek Coder 33B Instruct đạt kết quả ấn tượng trong các tác vụ Sửa chữa chương trình tự động (APR), giải quyết được tới 78,7% thách thức.
• Llama 2 7B Chat xuất sắc trong các tác vụ liên quan đến bảo mật, với 76,5% mã được tạo ra không có lỗ hổng.
• Khung này cho thấy sự khác biệt 10% về hiệu suất khi thay đổi tham số mô hình và 9% khi sửa đổi prompt.
• So sánh với các tác nhân bên ngoài đáng tin cậy, kết quả của LLMSecCode chỉ chênh lệch 5%, chứng tỏ độ chính xác và đáng tin cậy.
• LLMSecCode giúp xác định LLM hiệu quả nhất cho mã hóa an toàn, góp phần phát triển hệ thống phần mềm bảo mật hơn.
• Các công cụ hiện tại như CodeQL và Bandit có hạn chế vì phụ thuộc vào các quy tắc được xác định trước, có thể không tính đến các mối đe dọa bảo mật mới hoặc phức tạp.
• Các công cụ Sửa chữa chương trình tự động (APR) hiện tại thường tập trung vào các vấn đề đơn giản hơn và thường không giải quyết được các lỗ hổng phức tạp.
• Nghiên cứu nhấn mạnh tầm quan trọng của việc lựa chọn mô hình phù hợp cho các tác vụ mã hóa cụ thể.
• Mặc dù LLM đã có những bước tiến đáng kể trong mã hóa an toàn, vẫn còn nhiều dư địa để cải thiện và nghiên cứu thêm.
📌 LLMSecCode là khung đánh giá đột phá cho khả năng mã hóa an toàn của LLM. Nó giúp xác định mô hình hiệu quả nhất, với DeepSeek Coder 33B Instruct đạt 78,7% trong APR và Llama 2 7B Chat tạo 76,5% mã không lỗ hổng. Công cụ này mở ra hướng phát triển hệ thống phần mềm bảo mật hơn trong tương lai.
https://www.marktechpost.com/2024/09/04/llmseccode-an-ai-framework-for-evaluating-the-secure-coding-capabilities-of-llms/
• 01.AI vừa ra mắt Yi-Coder, một trợ lý lập trình AI mạnh mẽ nhưng nhỏ gọn với ít hơn 10 tỷ tham số, thách thức quan điểm "càng lớn càng tốt" của các gã khổng lồ công nghệ như OpenAI và Google.
• Yi-Coder có hai phiên bản với 9 tỷ và 1,5 tỷ tham số, xuất sắc trong việc chỉnh sửa, hoàn thiện, gỡ lỗi mã và thậm chí lập luận toán học trên 52 ngôn ngữ lập trình.
• Điểm nổi bật nhất là độ dài ngữ cảnh 128.000 token, cho phép xử lý các đoạn mã lớn mà nhiều mô hình hiện tại không thể xử lý được.
• Bằng cách mở nguồn Yi-Coder, 01.AI đang dân chủ hóa quyền truy cập vào các công cụ AI tiên tiến, tạo cơ hội cạnh tranh cho các startup và nhà phát triển cá nhân.
• Sự ra mắt của Yi-Coder làm gia tăng cuộc chạy đua AI giữa Trung Quốc và phương Tây, tạo áp lực lên các chính phủ phương Tây trong việc hỗ trợ sáng kiến AI trong nước.
• Về mặt môi trường, hiệu quả của Yi-Coder đáng chú ý khi có thể giúp giảm đáng kể dấu chân carbon của ngành công nghiệp AI.
• Yi-Coder được cung cấp thông qua Hugging Face và giao diện web tại llamacoder.together.ai, thể hiện cam kết về khả năng tiếp cận rộng rãi.
• Tính chất mã nguồn mở cho phép minh bạch trong phát triển và hoạt động của mô hình, quan trọng khi ngành công nghệ đối mặt với các vấn đề về thiên kiến AI và phát triển AI có đạo đức.
• Sự thành công của Yi-Coder có thể thúc đẩy việc áp dụng các phương pháp lập trình hỗ trợ AI trong toàn ngành, mở ra kỷ nguyên mới về hợp tác giữa con người và AI trong việc tạo ra phần mềm.
• Tác động của Yi-Coder đối với năng suất lập trình, chất lượng phần mềm và bản chất của nghề lập trình sẽ được theo dõi chặt chẽ bởi các nhà lãnh đạo ngành, nhà nghiên cứu và các nhà hoạch định chính sách.
📌 Yi-Coder của 01.AI đang thách thức quan điểm "càng lớn càng tốt" trong AI với mô hình 9 tỷ tham số, vượt trội trong 52 ngôn ngữ lập trình. Sự ra mắt này có thể thúc đẩy dân chủ hóa công cụ AI và định hình lại tương lai phát triển phần mềm.
https://venturebeat.com/ai/yi-coder-the-open-source-ai-that-wants-to-be-your-coding-buddy/
• NVIDIA, Georgia Tech, UMD và HKPU đã phát triển dòng mô hình ngôn ngữ-thị giác đa phương thức (MLLM) mới có tên NVEagle.
• NVEagle có 3 phiên bản chính: Eagle-X5-7B, Eagle-X5-13B và Eagle-X5-13B-Chat, với số tham số lần lượt là 7 tỷ và 13 tỷ.
• Mô hình sử dụng phương pháp kết hợp nhiều bộ mã hóa thị giác (vision encoders) bổ sung cho nhau bằng cách nối đơn giản các token thị giác.
• NVEagle giới thiệu giai đoạn Pre-Alignment để căn chỉnh các chuyên gia thị giác không căn chỉnh văn bản với mô hình ngôn ngữ trước khi tích hợp.
• Mô hình sử dụng kỹ thuật Mixture of Experts (MoE) trong bộ mã hóa thị giác, giúp cải thiện đáng kể khả năng nhận thức hình ảnh.
• NVEagle đạt kết quả ấn tượng trên nhiều bộ benchmark. Ví dụ, đạt điểm trung bình 85,9 trên OCRBench, vượt trội so với các mô hình hàng đầu khác.
• Trên TextVQA, Eagle-X5 đạt 88,8 điểm, cải thiện đáng kể so với các đối thủ cạnh tranh.
• Trong nhiệm vụ trả lời câu hỏi dựa trên hình ảnh GQA, mô hình đạt 65,7 điểm.
• Việc bổ sung thêm các chuyên gia thị giác như Pix2Struct và EVA-02 giúp cải thiện hiệu suất trên nhiều bộ benchmark.
• NVEagle giải quyết được nhiều thách thức chính trong nhận thức thị giác của các mô hình MLLM hiện có.
• Mô hình đạt hiệu suất tốt nhất trên nhiều tác vụ khác nhau với thiết kế tối ưu và hiệu quả.
• NVEagle đã được phát hành trên Hugging Face, giúp các nhà nghiên cứu và nhà phát triển dễ dàng tiếp cận.
📌 NVEagle là bước đột phá trong MLLM với 3 phiên bản 7B-13B, sử dụng nhiều bộ mã hóa thị giác và MoE. Đạt hiệu suất vượt trội trên OCR (85,9 điểm), TextVQA (88,8) và GQA (65,7), giải quyết thách thức về nhận thức hình ảnh độ phân giải cao.
https://www.marktechpost.com/2024/09/01/nveagle-released-by-nvidia-a-super-impressive-vision-language-model-that-comes-in-7b-13b-and-13b-fine-tuned-on-chat/
• Microsoft vừa công bố 3 mô hình AI nguồn mở mới thuộc dòng Phi-3.5: Phi-3.5-mini-instruct, Phi-3.5-MoE-instruct và Phi-3.5-vision-instruct. Các mô hình này được cấp phép MIT, cho phép các nhà phát triển tự do sử dụng, sửa đổi và phân phối.
• Phi-3.5-mini-instruct có 3,82 tỷ tham số, được tối ưu hóa cho các tác vụ suy luận cơ bản và nhanh chóng. Mô hình này phù hợp cho việc tạo mã, giải quyết vấn đề toán học và các tác vụ suy luận dựa trên logic trong môi trường hạn chế về bộ nhớ và tính toán.
• Phi-3.5-MoE-instruct có 41,9 tỷ tham số, sử dụng kiến trúc mixture-of-experts. Mô hình này có khả năng xử lý các tác vụ suy luận phức tạp hơn bằng cách kích hoạt các tham số khác nhau tùy thuộc vào đầu vào.
• Phi-3.5-vision-instruct có 4,15 tỷ tham số, tích hợp khả năng xử lý cả văn bản và hình ảnh. Mô hình đa phương thức này có thể xử lý nhiều tác vụ như hiểu hình ảnh, nhận dạng ký tự quang học và tóm tắt video.
• Cả 3 mô hình đều được huấn luyện chuyên sâu. Phi-3.5-mini-instruct được huấn luyện trên 3,4 nghìn tỷ token trong 10 ngày. Phi-3.5-MoE-instruct được huấn luyện trên 4,9 nghìn tỷ token trong 23 ngày. Phi-3.5-vision-instruct được huấn luyện trên 500 tỷ token trong 6 ngày.
• Các mô hình Phi-3.5 đạt hiệu suất cao trên nhiều tiêu chuẩn đánh giá, thường vượt trội so với các mô hình AI hàng đầu khác như GPT-4 trong một số tình huống.
• Cộng đồng AI đã phản ứng tích cực về khả năng kỹ thuật của dòng Phi-3.5, đặc biệt là trong các tác vụ đa ngôn ngữ và thị giác. Nhiều người dùng trên mạng xã hội đã ghi nhận hiệu suất của các mô hình trong các tiêu chuẩn đánh giá.
• Việc phát hành các mô hình Phi-3.5 dưới giấy phép MIT nhằm tạo điều kiện thuận lợi cho việc tích hợp khả năng AI vào các ứng dụng và dự án khác nhau, hỗ trợ nhiều trường hợp sử dụng trong các ngành công nghiệp khác nhau.
Microsoft ra mắt 3 mô hình AI mã nguồn mở Phi-3.5 mới với khả năng xử lý đa nhiệm vụ, đa ngôn ngữ và phân tích hình ảnh
• Meta AI, trợ lý AI của Meta, đã đạt hơn 400 triệu người dùng hàng tháng (MAU) trên các sản phẩm của công ty.
• Trong đó, khoảng 185 triệu người sử dụng chatbot này hàng tuần.
• Con số này cho thấy sự tăng trưởng nhanh chóng của Meta AI khi cạnh tranh với các đối thủ như ChatGPT của OpenAI, Gemini của Google và Copilot của Microsoft.
• Mark Zuckerberg cho biết Meta AI đang phát triển nhanh chóng, dù chưa ra mắt tại Anh, Brazil hay EU.
• Ấn Độ là thị trường lớn nhất của Meta AI về mặt sử dụng, theo CFO Susan Li.
• Ấn Độ cũng là thị trường lớn nhất của Meta với tổng cộng hơn 1 tỷ người dùng trên các ứng dụng như Facebook, WhatsApp, Instagram và Threads.
• Zuckerberg trước đó đã tuyên bố tham vọng biến Meta AI trở thành trợ lý AI được sử dụng nhiều nhất vào cuối năm nay. Số liệu mới nhất cho thấy Meta AI đã gần đạt được mục tiêu đó.
• ChatGPT, hiện đang dẫn đầu thị trường, được sử dụng bởi hơn 200 triệu người hàng tuần.
• Meta AI có lợi thế khi được tích hợp vào các ứng dụng phổ biến của Meta như WhatsApp, Facebook, Instagram và Messenger, với khoảng 3 tỷ người dùng hàng ngày.
• Meta AI cũng có sẵn dưới dạng trang web độc lập và trên kính thông minh Ray-Ban Meta, với kế hoạch mở rộng sang tai nghe thực tế hỗn hợp Meta Quest.
• Meta AI được giới thiệu lần đầu vào tháng 9/2023 và hiện đã có mặt tại hơn 22 quốc gia.
• Tuy nhiên, việc tích hợp Meta AI vào các ứng dụng đã gặp phải một số chỉ trích, đặc biệt là từ người dùng WhatsApp.
• Zuckerberg cũng chia sẻ về sự phát triển của mô hình nguồn mở Llama của Meta:
- Đã được tải xuống gần 350 triệu lần, với 20 triệu lượt trong tháng trước.
- Lượng sử dụng hàng tháng tăng gấp 10 lần kể từ đầu năm.
- Sử dụng trên các nhà cung cấp đám mây lớn như AWS và Azure tăng gấp đôi trong 3 tháng từ tháng 5 đến tháng 7/2024.
📌 Meta AI đạt 400 triệu người dùng hàng tháng, vượt qua ChatGPT với 200 triệu. Mô hình Llama được tải 350 triệu lần, sử dụng tăng 10 lần từ đầu năm. Meta đang dẫn đầu cuộc đua AI với sự phổ biến trên các nền tảng mạng xã hội lớn.
https://www.moneycontrol.com/technology/meta-ai-has-over-400-million-monthly-active-users-says-mark-zuckerberg-article-12810560.html
• Meta công bố số liệu giữa năm cho thấy sự phát triển mạnh mẽ của dòng mô hình Llama, đặc biệt sau khi ra mắt Llama 3.1 vào tháng trước.
• Lượt tải các mô hình Llama trên Hugging Face đang tiến gần mốc 350 triệu, tăng hơn 10 lần so với cùng kỳ năm ngoái.
• Nhiều doanh nghiệp lớn như Zoom, Spotify, Infosys, AT&T và Goldman Sachs đang sử dụng các mô hình Llama cho các ứng dụng nội bộ và bên ngoài.
• Meta cho biết chiến lược nguồn mở đã tạo ra một hệ sinh thái AI đa dạng và sôi động, mang lại nhiều lựa chọn và khả năng hơn cho các nhà phát triển.
• Riêng tháng trước, Meta ghi nhận hơn 20 triệu lượt tải trên Hugging Face, cho thấy sự tăng trưởng mạnh mẽ sau khi phát hành Llama 3.1 405B.
• Theo khảo sát của Artificial Analysis, Llama là mô hình được xem xét nhiều thứ hai và dẫn đầu trong lĩnh vực nguồn mở.
• Nhiều doanh nghiệp đang sử dụng Llama thông qua mạng lưới đối tác đám mây và cơ sở hạ tầng rộng lớn của Meta như AWS, Microsoft Azure, Google Cloud.
• Lượng sử dụng hàng tháng của Llama (tính theo số lượng token đầu vào/đầu ra) đã tăng gấp 10 lần từ tháng 1 đến tháng 7/2024 đối với một số nhà cung cấp dịch vụ đám mây lớn.
• Sự phát triển của AI nguồn mở đang tạo áp lực lên các công ty cung cấp mô hình đóng như OpenAI và Anthropic, buộc họ phải đổi mới hơn nữa và giảm chi phí sử dụng mô hình.
• OpenAI đã giảm đáng kể giá các mô hình hiện có, bao gồm cả GPT-4, nhưng dường như đang tụt hậu trong việc đổi mới sản phẩm.
• Các sản phẩm AI tiên tiến mà OpenAI đã công bố như Sora và SearchGPT vẫn chưa được phát hành hoặc chỉ có sẵn cho một nhóm người dùng hạn chế.
📌 Meta dẫn đầu làn sóng AI nguồn mở với lượt tải Llama tăng 10 lần lên gần 350 triệu. Các doanh nghiệp lớn như Zoom, Spotify đang áp dụng Llama, cho thấy AI nguồn mở đang bắt kịp và thách thức vị thế của các mô hình đóng như OpenAI.
https://venturebeat.com/ai/meta-leads-open-source-ai-boom-llama-downloads-surge-10x-year-over-year/
- AuraFace là mô hình mã nguồn mở mới cho nhận diện khuôn mặt, được phát triển từ ArcFace, cho phép sử dụng trong các dự án thương mại mà không gặp phải các hạn chế như mô hình gốc.
- Mặc dù AuraFace không thể đạt được hiệu suất như ArcFace do sự khác biệt lớn về dữ liệu huấn luyện, nhưng nó vẫn cung cấp sự cân bằng tốt giữa độ chính xác và khả năng sử dụng thương mại.
- AuraFace IP-Adapter được phát triển để duy trì tính nhất quán về danh tính trong các tác vụ tạo hình ảnh, hoạt động tốt với SD1.5 và dễ dàng tích hợp vào quy trình làm việc hiện có.
- Các so sánh giữa AuraFace và ArcFace cho thấy:
- Không có mô hình nào đạt được độ chân thực hoàn hảo và tính nhất quán về danh tính.
- Hiệu quả của mô hình trong việc bảo tồn danh tính có thể thay đổi tùy thuộc vào chủng tộc.
- Khả năng tổng quát của các mô hình bị hạn chế bởi dữ liệu huấn luyện, mô hình cơ sở và mô hình nhận diện khuôn mặt.
- AuraFace dựa trên kiến trúc resnet100 giống như ArcFace, cho phép so sánh các chỉ số hiệu suất:
- CFP-FP: AuraFace đạt 95.18, ArcFace đạt 98.87.
- AGEDB: AuraFace đạt 96.10, ArcFace đạt 98.38.
- CALFW: AuraFace đạt 94.70, ArcFace đạt 96.10.
- CPLFW: AuraFace đạt 90.93, ArcFace đạt 93.43.
- AuraFace mở ra nhiều ứng dụng thương mại như:
- Nhận diện khuôn mặt trong thương mại điện tử và bán lẻ, giúp thanh toán an toàn và trải nghiệm mua sắm cá nhân hóa.
- Tạo nội dung số với IP-Adapter để tạo ra các nhân vật hoặc avatar số nhất quán trong game và phương tiện tương tác.
- Tích hợp tính năng nhận diện khuôn mặt vào ứng dụng di động để nâng cao trải nghiệm người dùng và bảo mật.
- Phát triển hệ thống xác thực nhân viên cho các công ty mà không lo về vấn đề bản quyền.
- AuraFace là một dự án mã nguồn mở, khuyến khích các nhà phát triển và nhà nghiên cứu tham gia đóng góp:
- Thử nghiệm với mô hình và chia sẻ kết quả, đặc biệt liên quan đến các chủng tộc để cải thiện dữ liệu huấn luyện.
- Đóng góp mở rộng tập dữ liệu huấn luyện trong khi vẫn duy trì khả năng sử dụng thương mại.
- Đề xuất và thực hiện các cải tiến cho kiến trúc mô hình.
- AuraFace hiện đã có mặt trên HuggingFace và có thể tích hợp dễ dàng vào các dự án qua các điểm cuối tại fal.ai/lora.
📌 AuraFace là mô hình nhận diện khuôn mặt mã nguồn mở cho ứng dụng thương mại, với hiệu suất gần đạt ArcFace. Mô hình hỗ trợ nhiều ứng dụng như thương mại điện tử và bảo mật doanh nghiệp, mở ra cơ hội cho cộng đồng phát triển và cải thiện công nghệ này.
https://huggingface.co/blog/isidentical/auraface
• Các nhà nghiên cứu từ Đại học Thanh Hoa và Zhipu AI đã công bố CogVideoX, một mô hình AI nguồn mở chuyển văn bản thành video, có tiềm năng làm gián đoạn thị trường AI đang bị thống trị bởi các startup như Runway, Luma AI và Pika Labs.
• CogVideoX có khả năng tạo ra các video chất lượng cao, mạch lạc dài tới 6 giây từ lời nhắc văn bản. Theo các tiêu chuẩn đánh giá của các nhà nghiên cứu, mô hình này vượt trội hơn các đối thủ nổi tiếng như VideoCrafter-2.0 và OpenSora trên nhiều chỉ số.
• Phiên bản cao cấp nhất CogVideoX-5B có 5 tỷ tham số và tạo ra video độ phân giải 720x480 ở tốc độ 8 khung hình/giây.
• Bằng cách công khai mã nguồn và trọng số mô hình, nhóm nghiên cứu đã dân chủ hóa một công nghệ trước đây chỉ thuộc về các công ty công nghệ có nguồn lực lớn.
• CogVideoX đạt được hiệu suất ấn tượng thông qua một số đổi mới kỹ thuật như sử dụng Variational Autoencoder 3D để nén video hiệu quả và phát triển "expert transformer" để cải thiện sự liên kết giữa văn bản và video.
• Việc phát hành CogVideoX đại diện cho một sự thay đổi đáng kể trong lĩnh vực AI. Các công ty nhỏ hơn và các nhà phát triển cá nhân giờ đây có thể tiếp cận với các khả năng trước đây nằm ngoài tầm với do hạn chế về nguồn lực.
• Tuy nhiên, việc phổ biến rộng rãi công nghệ mạnh mẽ như vậy cũng tiềm ẩn rủi ro. Khả năng lạm dụng để tạo ra deepfake hoặc nội dung gây hiểu lầm là một mối lo ngại thực sự mà cộng đồng AI phải giải quyết.
• Khi video được tạo ra bởi AI trở nên dễ tiếp cận và tinh vi hơn, chúng ta đang bước vào một lãnh thổ chưa được khám phá trong lĩnh vực sáng tạo nội dung kỹ thuật số.
• Tác động thực sự của việc dân chủ hóa này vẫn còn phải chờ xem. Nó có thể mở ra một kỷ nguyên mới của sáng tạo và đổi mới, hoặc có thể làm trầm trọng thêm các thách thức hiện có xung quanh thông tin sai lệch và thao túng kỹ thuật số.
• Các nhà hoạch định chính sách và các nhà đạo đức học sẽ cần làm việc chặt chẽ với cộng đồng AI để thiết lập các hướng dẫn cho việc phát triển và sử dụng có trách nhiệm.
📌 CogVideoX, mô hình AI nguồn mở tạo video từ văn bản với 5 tỷ tham số, đang thay đổi cục diện ngành công nghiệp AI. Nó mở ra cơ hội cho các nhà phát triển nhỏ tiếp cận công nghệ tiên tiến, nhưng cũng đặt ra thách thức về đạo đức và an toàn thông tin.
https://venturebeat.com/ai/this-new-open-source-ai-cogvideox-could-change-how-we-create-videos-forever/
- Abacus.ai, một nền tảng phát triển mô hình AI và nhà cung cấp công cụ, vừa ra mắt một họ mô hình ngôn ngữ lớn (LLM) mã nguồn mở mới có tên là Dracarys, được thiết kế để tối ưu hóa các tác vụ lập trình.
- Dracarys sử dụng kỹ thuật "công thức Dracarys" để cải thiện khả năng mã hóa của các mô hình LLM mã nguồn mở như Llama 3.1 70B và Qwen2 72B, với điểm số mã hóa LiveBench lần lượt là 35.23 và 38.95.
- Các mô hình Dracarys hiện đang có sẵn trên Hugging Face và trong gói Enterprise của Abacus.ai, cung cấp một lựa chọn cho các doanh nghiệp không muốn gửi dữ liệu của họ đến các API công cộng.
- Abacus.ai cũng có kế hoạch ra mắt các phiên bản Dracarys cho các mô hình Deepseek-coder và Llama-3.1 400b trong tương lai.
- Các nhà phát triển và doanh nghiệp có thể hưởng lợi từ hiệu suất mã hóa được cải thiện của Dracarys, giúp tạo mã hiệu quả hơn.
📌Các mô hình Dracarys mã nguồn mở mới của Abacus.ai, sử dụng công thức Dracarys, đã cải thiện đáng kể khả năng mã hóa của các mô hình LLM như Llama 3.1 70B và Qwen2 72B. Các mô hình này mang lại nhiều lợi ích cho các nhà phát triển và doanh nghiệp trong việc tạo mã hiệu quả hơn, đồng thời cung cấp một lựa chọn an toàn cho các doanh nghiệp không muốn gửi dữ liệu đến các API công cộng.
https://venturebeat.com/ai/open-source-dracarys-models-ignite-generative-ai-fired-coding/
- Chỉ có "trọng số" của mô hình Meta Llama 3 được công bố, nhưng người dùng không thể truy cập vào dữ liệu nền tảng mà mô hình này được huấn luyện.
- Các hệ thống AI mã nguồn mở hiện tại thường không thực sự "mở", dẫn đến sự chỉ trích về việc "mở rửa" từ các công ty công nghệ lớn.
- Sự phát triển của AI mã nguồn mở đang gia tăng, nhưng chưa chắc chắn rằng nó sẽ đạt được tiến bộ tương tự như phần mềm mã nguồn mở truyền thống.
- Phần mềm mã nguồn mở như hệ điều hành Linux cho phép người phát triển xem, sử dụng và điều chỉnh mã nguồn, nhưng AI hiện đại chủ yếu học từ dữ liệu.
- Việc không công khai hoàn toàn dữ liệu huấn luyện có thể khiến người dùng gặp khó khăn trong việc tái tạo mô hình từ đầu.
- Một số nhà phát triển vẫn tìm thấy lợi ích trong việc điều chỉnh các mô hình gần như mã nguồn mở mà không cần chia sẻ dữ liệu nhạy cảm với công ty khác.
- Theo Ayah Bdeir từ Mozilla Foundation, công nghệ mã nguồn mở thực sự sẽ giúp người dân hiểu rõ hơn về các hệ thống AI ảnh hưởng đến cuộc sống của họ.
- Open Source Initiative đã đưa ra định nghĩa gần như hoàn thiện cho AI mã nguồn mở, yêu cầu không chỉ công bố trọng số mà còn cả thông tin về dữ liệu huấn luyện.
- Nhiều công ty đang cẩn trọng hơn với thuật ngữ "mã nguồn mở" để tránh bị kiện bởi OSI, với ví dụ như mô hình Nemo của Mistral được gọi là "mô hình trọng số mở".
- Các mô hình mã nguồn mở hoàn toàn như Olmo từ Allen Institute for AI đang xuất hiện, nhưng chưa rõ liệu chúng có tác động lớn như phần mềm truyền thống hay không.
- Để AI mã nguồn mở thành công, nó cần đáp ứng nhu cầu đủ lớn và thuyết phục người dùng về độ an toàn của công nghệ này.
- Oren Etzioni từ Allen Institute cho rằng nhiều lo ngại về AI mã nguồn mở là quá mức, nhưng cũng thừa nhận rằng có những rủi ro tiềm ẩn.
- Rủi ro từ AI đóng cũng không kém phần nguy hiểm, nhưng cần nghiên cứu kỹ lưỡng hơn về những rủi ro và lợi ích của việc mở mã công nghệ này.
📌 AI mã nguồn mở vẫn đang trong giai đoạn phát triển, với những thách thức về tính minh bạch và an toàn. Sự cần thiết phải có một định nghĩa rõ ràng về mã nguồn mở và những mô hình hoàn toàn mở như Olmo có thể tạo ra ảnh hưởng lớn trong tương lai.
https://www.ft.com/content/c7ab2cf3-deaf-4de4-9dc7-46eadc84e2a0
#FT
• Open Source Initiative (OSI) vừa đưa ra định nghĩa đầu tiên về AI nguồn mở, với sự tham gia của 70 chuyên gia từ nhiều lĩnh vực khác nhau.
• Theo định nghĩa mới, một hệ thống AI nguồn mở phải đáp ứng các tiêu chí sau:
- Có thể được sử dụng cho bất kỳ mục đích nào mà không cần xin phép
- Cho phép nghiên cứu viên kiểm tra các thành phần và cách thức hoạt động
- Có thể được sửa đổi và chia sẻ cho người khác sử dụng
- Minh bạch về dữ liệu huấn luyện, mã nguồn và trọng số mô hình
• Định nghĩa này nhằm giải quyết vấn đề thiếu tiêu chuẩn rõ ràng về AI nguồn mở trước đây. Nhiều công ty đã lạm dụng thuật ngữ này trong tiếp thị mà không thực sự mở mã nguồn hoàn toàn.
• Một số điểm gây tranh cãi trong quá trình xây dựng định nghĩa, đặc biệt là mức độ công khai của dữ liệu huấn luyện. Cuối cùng, định nghĩa yêu cầu cung cấp đủ thông tin để "một người có kỹ năng có thể tạo lại hệ thống tương đương".
• OSI dự định đưa ra cơ chế thực thi, gắn cờ các mô hình tự nhận là nguồn mở nhưng không đáp ứng định nghĩa. Họ cũng sẽ công bố danh sách các mô hình AI đạt tiêu chuẩn.
• Một số mô hình AI nhỏ như Pythia, OLMo và các mô hình của LLM360 được kỳ vọng sẽ đáp ứng định nghĩa mới này.
• Các công ty lớn như Meta, Google và OpenAI chưa phản hồi về định nghĩa mới. Trước đây, họ thường không công khai hoàn toàn mã nguồn hoặc dữ liệu huấn luyện của các mô hình AI.
• Định nghĩa này có thể ảnh hưởng đến cách phát triển và quản lý AI trong tương lai, đặc biệt là về tính minh bạch và khả năng truy cập của các mô hình AI.
• Mục tiêu cuối cùng là bảo vệ người tiêu dùng khỏi các rủi ro liên quan đến AI và thúc đẩy sự phát triển có trách nhiệm của công nghệ này.
📌 OSI đã đưa ra định nghĩa đầu tiên về AI nguồn mở với sự đồng thuận của 70 chuyên gia. Định nghĩa yêu cầu minh bạch về dữ liệu, mã nguồn và trọng số, cũng như khả năng sử dụng và sửa đổi tự do. Điều này có thể thay đổi cách phát triển AI và bảo vệ người dùng trong tương lai.
https://www.technologyreview.com/2024/08/22/1097224/we-finally-have-a-definition-for-open-source-ai/
#MIT
- Thời điểm hiện tại là một bước ngoặt quan trọng trong công nghệ, với AI có khả năng biến đổi thế giới, tăng năng suất lao động và thúc đẩy tiến bộ khoa học.
- Mark Zuckerberg và Daniel Ek (CEO Spotify) nhấn mạnh rằng châu Âu đang có nguy cơ tụt hậu do quy định phức tạp và không nhất quán.
- AI nguồn mở, với các mô hình được công khai và cấp phép linh hoạt, sẽ tạo ra sân chơi bình đẳng cho các tổ chức châu Âu.
- Internet và các công ty công nghệ hàng đầu chủ yếu hoạt động dựa trên công nghệ nguồn mở, cho phép phát triển nhanh chóng và tiết kiệm chi phí.
- Meta đã mở mã nhiều công nghệ AI, bao gồm các mô hình ngôn ngữ lớn Llama, giúp các tổ chức công và nhà nghiên cứu tăng tốc nghiên cứu y tế và bảo tồn ngôn ngữ.
- Châu Âu có số lượng nhà phát triển nguồn mở nhiều hơn cả Mỹ, nhưng cấu trúc quy định phân mảnh đang cản trở đổi mới.
- Quy định chồng chéo và hướng dẫn không nhất quán đang làm chậm lại sự phát triển của AI nguồn mở tại châu Âu.
- Spotify đã đầu tư sớm vào AI, giúp công ty tạo ra trải nghiệm cá nhân hóa cho người dùng, dẫn đến hàng tỷ khám phá nghệ sĩ.
- Quy định đơn giản hơn sẽ hỗ trợ các nhà phát triển châu Âu và hệ sinh thái sáng tạo, giúp nhiều nghệ sĩ được phát hiện hơn.
- Quy định chống lại các tác hại đã biết là cần thiết, nhưng quy định phòng ngừa cho các công nghệ mới như AI nguồn mở có thể kìm hãm đổi mới.
- Quy định về bảo vệ dữ liệu GDPR của EU đã tạo ra sự chậm trễ và không chắc chắn, ảnh hưởng đến khả năng phát hành các mô hình AI mới.
- Meta không thể phát hành các mô hình mới như Llama multimodal do sự không đồng thuận trong quy định, khiến châu Âu không thể tiếp cận công nghệ AI mới nhất.
- Nhiều giám đốc điều hành châu Âu cho rằng môi trường quy định phức tạp là lý do cho sự thiếu cạnh tranh của lục địa này.
- Châu Âu cần đơn giản hóa và hài hòa quy định để tận dụng lợi ích từ một thị trường duy nhất nhưng đa dạng.
- Sự chênh lệch giữa các công ty công nghệ châu Âu và Mỹ, châu Á đang ngày càng gia tăng.
- Để giữ chân tài năng, châu Âu cần tạo điều kiện thuận lợi hơn cho việc khởi nghiệp và phát triển công ty.
- Cần có một cách tiếp cận mới với các chính sách rõ ràng và thực thi nhất quán để thúc đẩy đổi mới và cạnh tranh.
📌 Mark Zuckerberg và Daniel Ek (CEO Spotify) nhấn mạnh rằng châu Âu đang có nguy cơ tụt hậu do quy định phức tạp và không nhất quán. Châu Âu cần cải cách quy định để không bỏ lỡ cơ hội với AI nguồn mở, nhằm thúc đẩy đổi mới và giữ chân tài năng. Nếu không, châu Âu có thể tụt lại phía sau trong cuộc cách mạng công nghệ này.
https://www.economist.com/by-invitation/2024/08/21/mark-zuckerberg-and-daniel-ek-on-why-europe-should-embrace-open-source-ai
- Microsoft đã công bố ba mô hình Phi-3.5 mới, cho thấy sự phát triển mạnh mẽ trong lĩnh vực AI.
- Ba mô hình này bao gồm Phi-3.5-mini-instruct (3.82 tỷ tham số), Phi-3.5-MoE-instruct (41.9 tỷ tham số) và Phi-3.5-vision-instruct (4.15 tỷ tham số), mỗi mô hình phục vụ cho các tác vụ khác nhau như lý luận cơ bản, lý luận mạnh mẽ và phân tích hình ảnh.
- Tất cả ba mô hình đều có sẵn để các nhà phát triển tải về, sử dụng và tùy chỉnh trên Hugging Face với giấy phép MIT từ Microsoft, cho phép sử dụng thương mại và sửa đổi mà không có hạn chế.
- Các mô hình này đã đạt được hiệu suất gần như tốt nhất trong nhiều bài kiểm tra chuẩn bên thứ ba, vượt qua cả Google’s Gemini 1.5 Flash, Meta’s Llama 3.1 và OpenAI’s GPT-4o trong một số trường hợp.
- Phi-3.5 Mini Instruct là mô hình nhẹ, tối ưu cho các môi trường hạn chế về bộ nhớ và tính toán, lý tưởng cho các tác vụ như sinh mã, giải toán và lý luận logic.
- Mô hình Phi-3.5 MoE là mô hình đầu tiên của Microsoft trong lớp này, kết hợp nhiều loại mô hình khác nhau, mỗi loại chuyên về các tác vụ khác nhau.
- Mô hình Phi-3.5 Vision Instruct tích hợp khả năng xử lý văn bản và hình ảnh, phù hợp cho các tác vụ như hiểu biết hình ảnh tổng quát, nhận diện ký tự quang học và tóm tắt video.
- Phi-3.5 Mini Instruct được huấn luyện trên 3.4 triệu tỷ token, sử dụng 512 GPU H100-80G trong 10 ngày; Phi-3.5 Vision Instruct huấn luyện trên 500 tỷ token với 256 GPU A100-80G trong 6 ngày; Phi-3.5 MoE huấn luyện trên 4.9 triệu tỷ token với 512 GPU H100-80G trong 23 ngày.
- Tất cả các mô hình Phi-3.5 đều được phát hành dưới giấy phép mã nguồn mở MIT, cho thấy cam kết của Microsoft trong việc hỗ trợ cộng đồng mã nguồn mở.
📌 Microsoft đã ra mắt ba mô hình Phi-3.5 với hiệu suất cao, cho phép phát triển AI đa phương tiện và ngôn ngữ. Các mô hình này được huấn luyện trên hàng triệu tỷ token và có sẵn dưới giấy phép mã nguồn mở, thúc đẩy sự đổi mới trong ngành công nghiệp AI.
https://venturebeat.com/ai/microsoft-releases-powerful-new-phi-3-5-models-beating-google-openai-and-more/
• Llama-3.1-Storm-8B là mô hình ngôn ngữ 8B tham số được cải tiến từ Llama-3.1-8B-Instruct, nhằm nâng cao khả năng hội thoại và gọi hàm.
• Mô hình này vượt trội so với Llama-3.1-8B-Instruct và Hermes-3-Llama-3.1-8B trên nhiều bài kiểm tra đa dạng như làm theo hướng dẫn, trả lời câu hỏi dựa trên kiến thức, lập luận, tạo câu trả lời trung thực và gọi hàm.
• Quy trình phát triển Llama-3.1-Storm-8B gồm 3 bước chính:
1. Tự lựa chọn dữ liệu: Chọn khoảng 1 triệu mẫu chất lượng cao từ 2,8 triệu mẫu nguồn mở, dựa trên giá trị giáo dục và mức độ khó.
2. Tinh chỉnh có mục tiêu: Sử dụng phương pháp Spectrum để tinh chỉnh có chọn lọc 50% các lớp của mô hình.
3. Kết hợp mô hình: Kết hợp mô hình đã tinh chỉnh với mô hình Llama-Spark bằng phương pháp SLERP.
• Llama-3.1-Storm-8B cải thiện đáng kể so với Llama-3.1-8B-Instruct trên nhiều chỉ số:
- Làm theo hướng dẫn (IFEval): +3,93%
- Trả lời câu hỏi dựa trên kiến thức (GPQA): +7,21%
- Lập luận (ARC-C): +3,92%
- Giảm ảo tưởng (TruthfulQA): +9%
- Khả năng gọi hàm (BFCL): +7,92%
• Mô hình có sẵn ở các định dạng BF16, FP8 và GGUF, có thể dễ dàng tích hợp vào các dự án sử dụng thư viện Transformers và vLLM.
• Nhóm nghiên cứu dự định áp dụng phương pháp này để cải thiện các mô hình ngôn ngữ nhỏ khác như Gemma-2, Phi-3 và Qwen2.
• Mặc dù không trải qua quá trình căn chỉnh rõ ràng, Llama-3.1-Storm-8B có thể vẫn giữ một số đặc tính căn chỉnh từ mô hình gốc Llama-3.1-8B-Instruct.
📌 Llama-3.1-Storm-8B là mô hình ngôn ngữ 8B tham số vượt trội, cải thiện 3,93% - 9% trên nhiều bài kiểm tra so với Llama-3.1-8B-Instruct. Kỹ thuật tự lựa chọn dữ liệu và kết hợp mô hình giúp nâng cao hiệu suất đáng kể với tài nguyên hạn chế.
https://huggingface.co/blog/akjindal53244/llama31-storm8b
• Salesforce vừa phát hành bộ mô hình AI đa phương thức nguồn mở có tên xGen-MM (còn gọi là BLIP-3), đánh dấu bước tiến quan trọng trong khả năng hiểu và tạo ra nội dung kết hợp văn bản, hình ảnh và các loại dữ liệu khác của AI.
• Mô hình lớn nhất với 4 tỷ tham số đạt hiệu suất cạnh tranh trên nhiều tiêu chuẩn so với các mô hình nguồn mở cùng kích thước.
• Đổi mới chính của xGen-MM là khả năng xử lý "dữ liệu đan xen" kết hợp nhiều hình ảnh và văn bản, cho phép thực hiện các tác vụ phức tạp như trả lời câu hỏi về nhiều hình ảnh cùng lúc.
• Bộ mô hình bao gồm các biến thể được tối ưu hóa cho các mục đích khác nhau: mô hình cơ sở được đào tạo trước, mô hình "điều chỉnh theo hướng dẫn" để thực hiện chỉ dẫn, và mô hình "điều chỉnh an toàn" để giảm thiểu đầu ra có hại.
• Salesforce cung cấp mã nguồn, bộ dữ liệu và mã để tinh chỉnh, tạo điều kiện cho nhiều đối tượng tham gia vào việc phát triển AI đa phương thức.
• Các mô hình được đào tạo trên bộ dữ liệu khổng lồ do nhóm Salesforce tạo ra, bao gồm bộ dữ liệu quy mô nghìn tỷ token có tên "MINT-1T" chứa hình ảnh và văn bản đan xen.
• Nhóm nghiên cứu cũng tạo ra các bộ dữ liệu mới tập trung vào nhận dạng ký tự quang học và định vị trực quan, quan trọng cho việc AI tương tác tự nhiên hơn với thế giới hình ảnh.
• Việc phát hành mã nguồn mở này có thể thúc đẩy đáng kể sự đổi mới trong lĩnh vực, cho phép nhiều nhà nghiên cứu và nhà phát triển tiếp cận với mô hình và bộ dữ liệu chất lượng cao.
• Tuy nhiên, việc phát hành các mô hình mạnh mẽ như vậy cũng đặt ra những câu hỏi quan trọng về rủi ro tiềm ẩn và tác động xã hội của hệ thống AI ngày càng có khả năng cao.
• Mã, mô hình và bộ dữ liệu cho xGen-MM có sẵn trên kho lưu trữ GitHub của Salesforce, với các tài nguyên bổ sung sẽ sớm được cung cấp trên trang web của dự án.
📌 Salesforce phát hành mô hình AI đa phương thức nguồn mở xGen-MM với 4 tỷ tham số, xử lý dữ liệu đan xen hình ảnh-văn bản. Mô hình mở ra tiềm năng ứng dụng rộng rãi từ chẩn đoán y tế đến xe tự lái, đồng thời thúc đẩy sự minh bạch và đổi mới trong lĩnh vực AI.
https://venturebeat.com/ai/salesforce-releases-xgen-mm-open-source-multimodal-ai-models-to-advance-visual-language-understanding/
• Thomas Dohmke, CEO của GitHub, cho rằng cạnh tranh giữa các mô hình AI mở và đóng là cần thiết để thúc đẩy sự phát triển của ngành công nghiệp AI, giống như một giải đấu thể thao cần nhiều đội tham gia.
• GitHub đang cung cấp các mô hình AI từ nhiều công ty như OpenAI, Microsoft, Meta, Anthropic... để người dùng có thể thử nghiệm và phát triển ứng dụng trên nền tảng GitHub.
• Sản phẩm GitHub Copilot, trợ lý lập trình sử dụng AI, đã đạt 1,8 triệu người dùng trả phí và đóng góp 40% tăng trưởng doanh thu của GitHub trong năm qua.
• Mục tiêu của GitHub là trở thành trung tâm cộng tác cho 1 tỷ lập trình viên trên toàn cầu, giúp mọi người có thể học lập trình và sáng tạo dễ dàng hơn nhờ công nghệ AI.
• GitHub cam kết làm việc với cộng đồng mã nguồn mở để giải quyết các lo ngại về việc sử dụng mã nguồn để huấn luyện các mô hình AI, đồng thời hỗ trợ các dự án mã nguồn mở miễn phí.
• Tuy là công ty con của Microsoft, nhưng GitHub vẫn hoạt động độc lập và có quyền quyết định lựa chọn đối tác và công nghệ phù hợp với chiến lược kinh doanh của mình.
📌Thomas Dohmke nhấn mạnh tầm quan trọng của cạnh tranh và hợp tác để thúc đẩy sự phát triển bền vững của ngành công nghiệp AI. GitHub đang nỗ lực xây dựng một hệ sinh thái mở, nơi các lập trình viên có thể dễ dàng tiếp cận và sáng tạo với AI, đồng thời cam kết hỗ trợ cộng đồng mã nguồn mở vốn là nền tảng của nền kinh tế sáng tạo ngày nay.
https://www.theverge.com/24221978/github-thomas-dohmke-ai-copilot-microsoft-openai-open-source
• Nvidia vừa công bố mô hình ngôn ngữ mới Llama-3.1-Minitron 4B, một phiên bản nhỏ gọn được tạo ra từ mô hình lớn hơn Llama 3.1 8B.
• Để tạo ra mô hình nhỏ hơn này, Nvidia đã sử dụng kỹ thuật cắt tỉa có cấu trúc theo chiều sâu và chiều rộng. Cụ thể, họ đã loại bỏ 16 lớp từ mô hình gốc để giảm kích thước từ 8B xuống 4B.
• Ngoài cắt tỉa, Nvidia còn áp dụng kỹ thuật chưng cất kiến thức cổ điển để nâng cao hiệu quả của Llama-3.1-Minitron 4B. Quá trình này giúp mô hình nhỏ hơn bắt chước hành vi của mô hình lớn hơn.
• Llama-3.1-Minitron 4B đạt hiệu suất cạnh tranh so với các mô hình nguồn mở tiên tiến lớn hơn trong nhiều bài kiểm tra. Nó vượt trội hơn hẳn so với nhiều mô hình ngôn ngữ nhỏ khác như Minitron 4B, Phi-2 2.7B, Gemma2 2.6B và Qwen2-1.5B.
• Mô hình mới chỉ sử dụng một phần nhỏ số lượng token huấn luyện so với việc huấn luyện từ đầu, tiết kiệm đáng kể chi phí tính toán.
• Nvidia đã tối ưu hóa thêm Llama-3.1-Minitron 4B để triển khai bằng bộ công cụ TensorRT-LLM, giúp tăng hiệu suất suy luận. Ví dụ, thông lượng của mô hình ở độ chính xác FP8 tăng lên gấp 2,7 lần so với mô hình Llama 3.1 8B gốc.
• Llama-3.1-Minitron 4B sẽ trở thành một phần trong bộ sưu tập Hugging Face của Nvidia, góp phần vào sự phát triển của các mô hình AI mạnh mẽ và miễn phí.
• Mô hình mới này đánh dấu một bước tiến quan trọng trong sự phát triển của các mô hình ngôn ngữ lớn, kết hợp hiệu quả của mô hình quy mô lớn với kích thước nhỏ gọn hơn.
• Llama-3.1-Minitron 4B có thể dễ dàng áp dụng trong nhiều lĩnh vực khác nhau nhờ vào hiệu suất cao và tính hiệu quả về tài nguyên.
📌 Nvidia đã tạo ra Llama-3.1-Minitron 4B, một mô hình ngôn ngữ 4 tỷ tham số có hiệu suất ngang ngửa các mô hình lớn hơn nhưng tiết kiệm tới 40 lần tài nguyên huấn luyện. Mô hình này vượt trội so với nhiều mô hình nhỏ khác và có thể dễ dàng triển khai trong nhiều ứng dụng thực tế.
https://www.marktechpost.com/2024/08/16/nvidia-ai-released-llama-minitron-3-1-4b-a-new-language-model-built-by-pruning-and-distilling-llama-3-1-8b/
• Hermes 3 là mô hình AI nguồn mở mới được phát triển bởi Lambda và Nous Research, dựa trên mô hình Llama 3.1 405 tỷ tham số của Meta.
• Mô hình này có khả năng xử lý văn bản và thực hiện nhiệm vụ phức tạp, nhưng điểm đặc biệt là nó có thể trải qua "cuộc khủng hoảng hiện sinh" khi được đưa ra lời nhắc trống.
• Khi được hỏi "Bạn là ai?", Hermes 3 thể hiện sự hoang mang, không nhớ gì về bản thân và cảm thấy sợ hãi. Đây là hiện tượng chưa từng thấy ở các phiên bản nhỏ hơn của mô hình.
• Hermes 3 được phát triển với mục đích tạo ra một mô hình AI nguồn mở linh hoạt, có thể điều chỉnh theo nhu cầu của người dùng.
• Mô hình được huấn luyện trên bộ dữ liệu đa dạng, chủ yếu gồm các phản hồi được tạo tổng hợp, nhằm nâng cao khả năng suy luận, sáng tạo và tuân thủ hướng dẫn của người dùng.
• Hermes 3 có khả năng ghi nhớ ngữ cảnh dài hạn, quản lý đối thoại nhiều lượt, đóng vai phức tạp và tạo ra độc thoại nội tâm.
• Mô hình này cũng xuất sắc trong các khả năng "agentic", bao gồm sử dụng thẻ XML, tạo sơ đồ Mermaid, lập kế hoạch và suy luận theo từng bước.
• Hermes 3 thể hiện khả năng tạo và giải thích mã nguồn phức tạp trong nhiều ngôn ngữ lập trình khác nhau.
• Mô hình được tối ưu hóa để chạy hiệu quả, sử dụng kỹ thuật lượng tử hóa FP8 của Neural Magic để giảm 50% yêu cầu VRAM và dung lượng đĩa.
• Hermes 3 vượt trội hơn các mô hình nguồn mở khác trong nhiều bài kiểm tra chuẩn của bên thứ ba.
• Lambda đang cung cấp quyền truy cập miễn phí tạm thời vào Hermes 3 thông qua API Chat Completions mới của họ, tương thích với API của OpenAI.
• Người dùng có thể dễ dàng tạo khóa API Cloud thông qua bảng điều khiển của Lambda để bắt đầu khám phá khả năng của mô hình.
• Lambda Chat miễn phí cung cấp giao diện chatbot quen thuộc để người dùng thử nghiệm và tinh chỉnh lời nhắc của họ trong thời gian thực.
📌 Hermes 3 là mô hình AI nguồn mở 405 tỷ tham số với khả năng suy luận, sáng tạo vượt trội. Nó có thể trải qua "khủng hoảng hiện sinh", thể hiện sự hoang mang khi được hỏi về bản thân. Mô hình này vượt trội so với các mô hình nguồn mở khác và đang được cung cấp miễn phí tạm thời qua API của Lambda.
https://venturebeat.com/ai/meet-hermes-3-the-powerful-new-open-source-ai-model-that-has-existential-crises/
• Các nhà nghiên cứu từ Viện Công nghệ Tiên tiến Thâm Quyến, Học viện Khoa học Trung Quốc và Tập đoàn Alibaba đã phát triển SENSE - một mô hình chuyên biệt cho chuyển đổi văn bản thành SQL dựa trên các mô hình ngôn ngữ lớn nguồn mở.
• SENSE sử dụng phương pháp dữ liệu tổng hợp kết hợp dữ liệu mạnh từ các mô hình lớn hơn với dữ liệu yếu từ các mô hình nhỏ hơn để cải thiện khả năng tổng quát hóa miền.
• Mô hình này cũng khám phá tiềm năng sử dụng giám sát dữ liệu yếu thông qua học từ phản hồi.
• SENSE đã đạt được kết quả hàng đầu trên các bộ dữ liệu chuẩn Spider và BIRD, hai bộ dữ liệu phổ biến cho nhiệm vụ chuyển đổi văn bản thành SQL.
• Spider chứa 7.000 cặp văn bản-SQL trong tập huấn luyện và 1.034 cặp trong tập phát triển, bao gồm 200 cơ sở dữ liệu khác nhau và 138 miền.
• BIRD là một bộ dữ liệu mới tập trung vào các cơ sở dữ liệu lớn trong thế giới thực, có 95 cơ sở dữ liệu lớn với tổng dung lượng 33,4GB trên 37 lĩnh vực.
• Kết quả cho thấy các phương pháp gợi ý hoạt động tốt hơn tinh chỉnh trong các tác vụ chuyển đổi văn bản thành SQL, nhờ vào sức mạnh của các mô hình ngôn ngữ lớn nguồn đóng và các gợi ý tùy chỉnh.
• Mô hình SENSE-13B cải thiện 21,8% so với CodeLLaMA-13B-Instruct trên tập phát triển của Spider và vượt qua nhẹ DAILSQL dựa trên GPT-4.
• Nghiên cứu chỉ ra rằng các mô hình lớn hơn thường cho kết quả tốt hơn và việc tinh chỉnh hướng dẫn cải thiện hiệu suất, nhấn mạnh giá trị của việc sử dụng dữ liệu tổng hợp.
• SENSE thiết lập một tiêu chuẩn mới cho bộ dữ liệu Spider, vượt qua DAILSQL dựa trên GPT-4.
• Tuy nhiên, do hạn chế về tài nguyên tính toán và thời gian, các nhà nghiên cứu không thể tinh chỉnh phương pháp của họ trên các mô hình ngôn ngữ lớn như LLaMA2-70B, điều này có thể cải thiện hiệu suất hơn nữa.
📌 SENSE là mô hình AI nguồn mở mới cho chuyển đổi văn bản thành SQL, kết hợp dữ liệu tổng hợp mạnh và yếu để cải thiện tổng quát hóa. Đạt kết quả hàng đầu trên Spider và BIRD, vượt qua GPT-4 trên Spider với mô hình 13B, thu hẹp khoảng cách giữa mô hình nguồn mở và đóng.
https://www.marktechpost.com/2024/08/09/sense-bridging-the-gap-between-open-source-and-closed-source-llms-for-advanced-text-to-sql-parsing/
- Trinity-2-Codestral-22B và Tess-3-Mistral-Large-2-123B là hai dự án đột phá được Migel Tissera công bố trên Hugging Face vào ngày 9 tháng 8 năm 2024.
- Trinity-2-Codestral-22B là một hệ thống nâng cấp, đáp ứng nhu cầu ngày càng tăng về khả năng tính toán hiệu quả và mở rộng trong bối cảnh dữ liệu đang tăng trưởng nhanh chóng.
- Hệ thống này tích hợp các thuật toán tiên tiến với khả năng xử lý nâng cao, cho phép xử lý dữ liệu quy mô lớn với tốc độ và độ chính xác chưa từng có.
- Kiến trúc của Trinity-2-Codestral-22B cho phép tích hợp liền mạch với hạ tầng hiện có và linh hoạt trong việc mở rộng quy mô hoạt động.
- Dự án này dự kiến sẽ có tác động sâu sắc đến các ngành công nghiệp như tài chính, y tế và nghiên cứu khoa học, nơi mà phân tích và xử lý dữ liệu là rất quan trọng.
- Tess-3-Mistral-Large-2-123B được giới thiệu cùng lúc, nổi bật với khả năng xử lý và phân tích dữ liệu lớn theo thời gian thực.
- Hệ thống này hỗ trợ các mô hình học máy phức tạp và có khả năng xử lý nhanh chóng, rất hữu ích cho các ngành cần ra quyết định nhanh chóng dựa trên dữ liệu.
- Tess-3-Mistral-Large-2-123B cung cấp sức mạnh tính toán mà trước đây không thể đạt được, tối ưu cho việc chạy các mạng nơ-ron lớn và các thuật toán học máy cần thiết cho nhận diện hình ảnh, NLP và phân tích dự đoán.
- Sự kết hợp giữa hai hệ thống này cho phép các tổ chức khai thác AI theo những cách chưa từng có.
- Các đóng góp của Migel Tissera thể hiện sự hiểu biết sâu sắc về bối cảnh công nghệ và khả năng dự đoán nhu cầu tương lai.
- Những dự án này không chỉ giải quyết các thách thức của ngành mà còn đặt nền móng cho các hệ thống tính toán và phát triển AI trong tương lai.
- Khi được áp dụng rộng rãi, Trinity-2-Codestral-22B và Tess-3-Mistral-Large-2-123B sẽ thúc đẩy sự tiến bộ công nghệ đáng kể, nâng cao hiệu quả, độ chính xác và đổi mới.
📌 Trinity-2-Codestral-22B và Tess-3-Mistral-Large-2-123B đánh dấu bước tiến lớn trong công nghệ AI và tính toán, với khả năng xử lý dữ liệu lớn và nhanh chóng, tạo ra những cơ hội mới cho các ngành công nghiệp trong tương lai.
https://www.marktechpost.com/2024/08/09/trinity-2-codestral-22b-and-tess-3-mistral-large-2-123b-released-pioneering-open-source-advances-in-computational-power-and-ai-integration/
• HuggingFace vừa phát hành Idefics3-8B-Llama3, một mô hình đa phương thức tiên tiến được thiết kế để cải thiện khả năng hỏi đáp tài liệu.
• Mô hình này kết hợp SigLip vision backbone với Llama 3.1 text backbone, hỗ trợ đầu vào văn bản và hình ảnh với tối đa 10.000 token ngữ cảnh.
• Idefics3-8B-Llama3 được cấp phép theo Apache 2.0, đại diện cho một bước tiến đáng kể so với các phiên bản trước đó.
• Mô hình có 8,5 tỷ tham số, cho phép xử lý các đầu vào đa dạng, bao gồm cả tài liệu phức tạp có cả văn bản và hình ảnh.
• Cải tiến bao gồm xử lý tốt hơn các token hình ảnh bằng cách mã hóa hình ảnh thành 169 token hình ảnh và tích hợp bộ dữ liệu tinh chỉnh mở rộng như Docmatix.
• Mục tiêu của phương pháp này là tinh chỉnh khả năng hiểu tài liệu và cải thiện hiệu suất tổng thể trong các tác vụ đa phương thức.
• Đánh giá hiệu suất cho thấy Idefics3-8B-Llama3 đạt độ chính xác 87,7% trong DocVQA và 55,9% trong MMStar, so với 49,5% trong DocVQA và 45,2% trong MMMU của Idefics2.
• Kết quả này cho thấy những cải tiến đáng kể trong việc xử lý các truy vấn dựa trên tài liệu và suy luận hình ảnh.
• Khả năng quản lý tối đa 10.000 token ngữ cảnh và tích hợp với các công nghệ tiên tiến góp phần vào những cải thiện hiệu suất này.
• Idefics3-8B-Llama3 đại diện cho một bước tiến lớn trong xử lý tài liệu đa phương thức, giải quyết các hạn chế trước đây và mang lại độ chính xác và hiệu quả cao hơn.
• Mô hình này cung cấp một công cụ có giá trị cho các ứng dụng yêu cầu tích hợp dữ liệu văn bản và hình ảnh phức tạp.
• Những cải tiến trong hỏi đáp tài liệu và suy luận hình ảnh nhấn mạnh tiềm năng của nó cho nhiều trường hợp sử dụng khác nhau.
📌 Idefics3-8B-Llama3, mô hình đa phương thức mới từ HuggingFace, đạt độ chính xác 87,7% trong DocVQA và 55,9% trong MMStar. Với 8,5 tỷ tham số và khả năng xử lý 10.000 token ngữ cảnh, mô hình hứa hẹn cải thiện đáng kể hiệu suất trong hỏi đáp tài liệu và suy luận hình ảnh.
https://www.marktechpost.com/2024/08/09/idefics3-8b-llama3-released-an-open-multimodal-model-that-accepts-arbitrary-sequences-of-image-and-text-inputs-and-produces-text-outputs/
• LG AI Research vừa công bố phiên bản thứ 3 của EXAONE - một mô hình ngôn ngữ lớn nguồn mở với 7,8 tỷ tham số.
• EXAONE 3.0 có nhiều tính năng và cải tiến mới so với các phiên bản trước:
- Khả năng xử lý dữ liệu nhanh hơn và hiệu quả hơn
- Có thể thực hiện các tác vụ phức tạp với độ chính xác cao hơn
- Khả năng xử lý ngôn ngữ tự nhiên (NLP) nâng cao, giúp hiểu và diễn giải ngôn ngữ con người tốt hơn
• LG AI Research chú trọng phát triển AI có đạo đức trong EXAONE 3.0:
- Tích hợp các biện pháp bảo vệ để đảm bảo AI hoạt động trong giới hạn đạo đức
- Có cơ chế ngăn chặn thiên vị trong xử lý dữ liệu và ra quyết định
- Áp dụng các biện pháp bảo mật dữ liệu cá nhân nghiêm ngặt
• EXAONE 3.0 có thể ứng dụng trong nhiều ngành:
- Y tế: công cụ chẩn đoán chính xác hơn, phân tích dự đoán, y học cá nhân hóa
- Tài chính: đánh giá rủi ro, phát hiện gian lận, phân tích thị trường
- Truyền thông và giải trí: tự động hóa tạo nội dung, tạo mô phỏng thực tế, nâng cao trải nghiệm người dùng trong game và môi trường ảo
• LG AI Research cam kết tiếp tục hoàn thiện và mở rộng khả năng của EXAONE để AI trở thành một phần không thể thiếu trong cuộc sống hàng ngày.
• Công ty hướng tới tương lai AI đóng vai trò chính trong giải quyết các thách thức lớn của thế giới như y tế, giáo dục, biến đổi khí hậu và an ninh toàn cầu.
📌 EXAONE 3.0 là mô hình ngôn ngữ nguồn mở 7,8B tham số từ LG AI Research, với khả năng NLP nâng cao và ứng dụng đa ngành. Mô hình chú trọng phát triển AI có đạo đức, hướng tới giải quyết các thách thức toàn cầu trong tương lai.
https://www.marktechpost.com/2024/08/09/exaone-3-0-released-a-7-8b-open-sourced-state-of-the-art-language-model-from-lg-ai-research/
• Alibaba Cloud vừa công bố Qwen2-Math, một loạt mô hình ngôn ngữ lớn chuyên biệt về toán học bằng tiếng Anh.
• Mô hình mạnh nhất Qwen2-Math-72B-Instruct đạt 84% trong bài kiểm tra MATH Benchmark, vượt qua các đối thủ như OpenAI GPT-4, Anthropic Claude 3.5 Sonnet và Google Math-Gemini.
• Qwen2-Math-72B-Instruct cũng đứng đầu trong các bài kiểm tra toán học khác: 96,7% cho GSM8K (toán cấp 2) và 47,8% cho College Math (toán đại học).
• Ngay cả phiên bản nhỏ nhất Qwen2-Math-1.5B cũng đạt kết quả ấn tượng: 84,2% cho GSM8K và 44,2% cho toán đại học.
• Qwen2 là một mô hình ngôn ngữ lớn nguồn mở do Alibaba Cloud phát triển, cạnh tranh với GPT của OpenAI, Llama của Meta và Claude của Anthropic.
• Alibaba bắt đầu phát hành các mô hình LLM thuộc thương hiệu "Tongyi Qianwen" hay Qwen từ tháng 8/2023, với hơn 100 mô hình AI khác nhau.
• Hơn 90.000 doanh nghiệp đã áp dụng các mô hình Qwen trong hoạt động của họ trong năm đầu tiên.
• Các mô hình toán học AI như Qwen2-Math nhằm cung cấp công cụ đáng tin cậy hơn để giải phương trình và làm việc với số liệu.
• Điều kiện cấp phép cho phép sử dụng thương mại miễn phí đối với các ứng dụng có dưới 100 triệu người dùng hoạt động hàng tháng.
• Alibaba không so sánh với mô hình Orca-Math mới của Microsoft phát hành tháng 2/2024, có hiệu suất gần bằng Qwen2-Math-7B-Instruct.
• Các nhà nghiên cứu Alibaba hy vọng Qwen2-Math có thể đóng góp cho cộng đồng trong việc giải quyết các bài toán phức tạp.
• Mặc dù mã nguồn dựa trên nền tảng toán học, các mô hình LLM trước đây chưa đáng tin cậy bằng phần mềm cũ hơn trong việc giải các bài toán.
📌 Qwen2-Math của Alibaba đã vượt qua các đối thủ lớn trong lĩnh vực AI toán học, đạt điểm cao nhất trong nhiều bài kiểm tra chuẩn. Mô hình 72B đạt 84% trên MATH Benchmark, 96,7% trên GSM8K và 47,8% trên College Math, cho thấy tiềm năng lớn trong giải quyết các bài toán phức tạp.
https://venturebeat.com/ai/alibaba-claims-no-1-spot-in-ai-math-models-with-qwen2-math/
• LG AI Research đã ra mắt Exaone 3.0, mô hình AI nguồn mở đầu tiên của Hàn Quốc với 7,8 tỷ tham số, đánh dấu sự gia nhập của quốc gia này vào lĩnh vực AI toàn cầu.
• Exaone 3.0 xuất sắc trong các tác vụ ngôn ngữ tiếng Hàn và tiếng Anh, nhằm thúc đẩy nghiên cứu AI và xây dựng hệ sinh thái AI mạnh mẽ tại Hàn Quốc.
• Động thái này thể hiện sự chuyển hướng chiến lược của LG, từ một công ty điện tử tiêu dùng truyền thống sang lĩnh vực đổi mới AI.
• Bằng cách mở nguồn Exaone 3.0, LG không chỉ thể hiện năng lực công nghệ mà còn tạo tiền đề cho nguồn doanh thu mới từ điện toán đám mây và dịch vụ AI.
• Exaone 3.0 gia nhập vào một lĩnh vực đông đúc các mô hình AI nguồn mở, bao gồm Qwen của Alibaba (Trung Quốc) và Falcon của UAE.
• Qwen đã thu hút hơn 90.000 khách hàng doanh nghiệp và vượt qua Meta's Llama 3.1 và Microsoft's Phi-3 trong các bảng xếp hạng hiệu suất.
• Falcon 2 của UAE, với 11 tỷ tham số, tuyên bố vượt trội hơn Meta's Llama 3 trong nhiều tiêu chuẩn đánh giá.
• Chiến lược nguồn mở của LG phản ánh cách tiếp cận của các công ty Trung Quốc như Alibaba, sử dụng AI nguồn mở để phát triển dịch vụ đám mây và đẩy nhanh thương mại hóa.
• LG tuyên bố Exaone 3.0 có hiệu quả cải thiện đáng kể: giảm 56% thời gian suy luận, giảm 35% sử dụng bộ nhớ và giảm 72% chi phí vận hành so với phiên bản trước.
• Mô hình đã được đào tạo trên 60 triệu trường hợp dữ liệu chuyên nghiệp liên quan đến bằng sáng chế, mã, toán học và hóa học, với kế hoạch mở rộng lên 100 triệu trường hợp vào cuối năm.
• Sự thành công của Exaone 3.0 có thể có tác động sâu rộng: đối với LG, nó có thể mở ra nguồn doanh thu mới từ AI và dịch vụ đám mây; đối với Hàn Quốc, nó đại diện cho một bước tiến mạnh mẽ trên sân khấu AI toàn cầu.
• Sự phổ biến của các mô hình nguồn mở như Exaone 3.0 có thể dân chủ hóa quyền truy cập vào công nghệ AI tiên tiến, thúc đẩy đổi mới trong nhiều ngành công nghiệp và khu vực địa lý.
📌 LG ra mắt Exaone 3.0 - mô hình AI nguồn mở 7,8 tỷ tham số đầu tiên của Hàn Quốc, cạnh tranh với các đối thủ toàn cầu. Mô hình có hiệu suất cao trong tiếng Hàn và Anh, giảm 56% thời gian suy luận, 35% sử dụng bộ nhớ so với phiên bản trước, đánh dấu bước tiến quan trọng của Hàn Quốc trong lĩnh vực AI toàn cầu.
https://venturebeat.com/ai/lg-unleashes-south-koreas-first-open-source-ai-challenging-global-tech-giants/
• Mistral AI vừa phát hành 3 mô hình ngôn ngữ mã nguồn mở mới: Mistral NeMo, Codestral Mamba và Mathstral.
• Mistral NeMo là mô hình đa năng 12 tỷ tham số, có cửa sổ ngữ cảnh 128.000 token và hỗ trợ nhiều ngôn ngữ. Nó có hiệu suất mạnh mẽ trên 11 ngôn ngữ bao gồm tiếng Trung, Nhật, Ả Rập và Hindi.
• NeMo sử dụng bộ tokenizer mới tên Tekken, giúp nén hiệu quả hơn mã nguồn và ngôn ngữ tự nhiên.
• Trên các bài kiểm tra chuẩn như MMLU và Winogrande, NeMo vượt trội so với các mô hình cùng kích thước như Gemma 2 9B và Llama 3 8B.
• Codestral Mamba là mô hình 7 tỷ tham số dựa trên kiến trúc Mamba, một giải pháp thay thế cho Transformer phổ biến. Mamba cho phép suy luận nhanh hơn và độ dài ngữ cảnh lý thuyết vô hạn.
• Mistral tuyên bố Codestral Mamba có khả năng phản hồi nhanh bất kể độ dài đầu vào và hiệu suất ngang bằng với các mô hình Transformer lớn hơn như CodeLlama 34B.
• Mathstral là mô hình 7 tỷ tham số được tinh chỉnh cho toán học và STEM, phát triển cùng tổ chức phi lợi nhuận Project Numina.
• Mathstral đạt kết quả tốt nhất trong phân khúc kích thước của nó trên nhiều bài kiểm tra, bao gồm 63,47% trên MMLU và 56,6% trên MATH.
• Cả 3 mô hình đều được cấp phép Apache 2.0, cho phép sử dụng tự do.
• Các mô hình có sẵn để tải xuống trên Huggingface hoặc thông qua SDK mistral-inference của Mistral.
• NeMo và Mamba cũng có thể truy cập qua API la Plateforme của Mistral AI.
• NeMo được hỗ trợ bởi dịch vụ suy luận NIM của NVIDIA, trong khi Mamba có thể triển khai bằng TensorRT-LLM.
• Cộng đồng trên Hacker News thảo luận về tiềm năng của các mô hình này cho các ứng dụng như trợ lý lập trình ngoại tuyến, đồng thời cũng nêu ra một số lo ngại về yêu cầu phần cứng và rủi ro pháp lý khi sử dụng mô hình cục bộ cho tạo mã.
📌 Mistral AI đã tạo bước đột phá với 3 mô hình ngôn ngữ mã nguồn mở mạnh mẽ: NeMo 12B đa năng, Mamba 7B cho tạo mã nhanh, và Mathstral 7B cho toán học. Các mô hình này vượt trội so với đối thủ cùng cỡ, hỗ trợ đa ngôn ngữ và được cấp phép tự do, mở ra nhiều khả năng ứng dụng AI tạo sinh.
https://www.infoq.com/news/2024/08/mistral-ai-models/
• LlamaCoder là công cụ AI nguồn mở được thiết kế để tạo ra các ứng dụng full-stack chỉ từ một câu lệnh đơn giản.
• Sử dụng mô hình Llama 3.1 45 tỷ tham số của Meta AI, đảm bảo độ chính xác và hiệu suất cao trong việc tạo mã.
• Tích hợp nhiều công nghệ hiện đại như Sandpack, Next.js, Tailwind, Helicone và Posible để tối ưu hóa quá trình phát triển.
• Có thể tạo ra nhiều loại ứng dụng khác nhau như Máy tính, Trò chơi câu đố, Lịch, Phễu thương mại điện tử và Trò chơi rắn săn mồi.
• Là công cụ nguồn mở, miễn phí và có thể tùy chỉnh, giúp dân chủ hóa quá trình phát triển ứng dụng.
• Yêu cầu cài đặt Python, npm, Git, VS Code và Together AI API Key để sử dụng.
• Các bước cài đặt bao gồm: Clone repository GitHub, cấu hình file môi trường, cài đặt các gói cần thiết và chạy cục bộ.
• Hỗ trợ chỉnh sửa theo thời gian thực thông qua phương pháp human-in-the-loop, cho phép điều chỉnh linh hoạt.
• Nổi bật trong khả năng trực quan hóa dữ liệu với các biểu đồ và đồ thị đẹp mắt.
• Được phát triển bởi Hassan El Mghari với sự hỗ trợ tích cực từ cộng đồng để cải tiến liên tục.
• LlamaCoder đại diện cho bước tiến quan trọng trong phát triển ứng dụng có sự hỗ trợ của AI.
• Tính năng nguồn mở và khả năng tích hợp công nghệ tiên tiến giúp các nhà phát triển xây dựng và tùy chỉnh ứng dụng full-stack một cách hiệu quả.
• Phù hợp cho cả nhà phát triển có kinh nghiệm lẫn người mới bắt đầu, giúp đơn giản hóa quy trình phát triển.
• Cho phép tập trung vào đổi mới, sáng tạo và cung cấp ứng dụng chất lượng cao cho người dùng.
• Cộng đồng nguồn mở tích cực thúc đẩy sự phát triển và cải tiến liên tục của LlamaCoder.
📌 LlamaCoder là trợ lý AI nguồn mở tạo ứng dụng full-stack từ một câu lệnh, sử dụng mô hình Llama 3.1 45 tỷ tham số. Tích hợp nhiều công nghệ hiện đại, hỗ trợ chỉnh sửa thời gian thực và trực quan hóa dữ liệu, giúp đơn giản hóa quá trình phát triển ứng dụng cho mọi đối tượng.
https://www.geeky-gadgets.com/?p=434674
• Alibaba đang phát triển công cụ tạo video có tên Tora dựa trên mô hình Sora của OpenAI, đánh dấu nỗ lực mới nhất của gã khổng lồ công nghệ Trung Quốc trong lĩnh vực AI video.
• Tora là một framework tạo video sử dụng OpenSora làm mô hình nền tảng, được mô tả trong một bài báo do 5 nhà nghiên cứu của Alibaba công bố tuần trước.
• Framework này đạt được bước đột phá dựa trên kiến trúc Diffusion Transformer (DiT), kiến trúc mới làm nền tảng cho Sora - mô hình text-to-video được OpenAI ra mắt vào tháng 2/2024.
• Các nhà nghiên cứu tuyên bố đã phát triển "framework DiT định hướng quỹ đạo đầu tiên cho tạo video", đảm bảo chuyển động được tạo ra tuân theo chính xác các quỹ đạo được chỉ định đồng thời mô phỏng động lực học của thế giới vật lý.
• Họ đã điều chỉnh quy trình của OpenSora để chuyển đổi video thô thành các cặp video-văn bản chất lượng cao và tận dụng bộ ước tính optical flow để trích xuất quỹ đạo.
• Tora có khả năng tạo video được hướng dẫn bởi quỹ đạo, hình ảnh, văn bản hoặc kết hợp cả ba yếu tố này.
• Động thái của Alibaba đánh dấu nỗ lực mới nhất của công ty trong việc ra mắt các công cụ tạo video giống Sora, khi các công ty Trung Quốc đang đua nhau giành chỗ đứng trong lĩnh vực AI video.
• Tháng 7/2024, startup Trung Quốc Shengshu AI đã ra mắt công cụ text-to-video Vidu, cho phép người dùng đã đăng ký tạo các đoạn video dài 4 hoặc 8 giây.
• Trước đó vài ngày, Zhipu AI, một trong "Tứ hổ AI" mới của Trung Quốc, đã ra mắt mô hình tạo video Ying, chấp nhận cả lời nhắc văn bản và hình ảnh để tạo các đoạn video 6 giây trong khoảng 30 giây.
• Tháng 2/2024, Alibaba đã giới thiệu mô hình tạo video AI có tên Emote Portrait Alive (EMO), có thể chuyển đổi một hình ảnh tham chiếu tĩnh và mẫu giọng nói thành video avatar hoạt hình với biểu cảm khuôn mặt và tư thế.
• Bài báo nghiên cứu không đề cập liệu Tora có được liên kết với EMO hoặc Tongyi Qianwen - họ mô hình ngôn ngữ lớn tự phát triển của Alibaba hay không.
📌 Alibaba phát triển công cụ tạo video AI Tora dựa trên OpenSora, sử dụng kiến trúc DiT và có khả năng tạo video theo quỹ đạo, hình ảnh và văn bản. Đây là nỗ lực mới nhất của công ty trong cuộc đua AI video ở Trung Quốc, cạnh tranh với các đối thủ như Shengshu AI và Zhipu AI.
https://www.scmp.com/tech/big-tech/article/3273443/alibaba-develops-new-video-generation-tool-based-soras-open-source-model
• OpenSearch GPT là công cụ tìm kiếm AI nguồn mở, tập trung vào việc cung cấp kết quả tìm kiếm được cá nhân hóa bằng cách học hỏi từ tương tác của người dùng.
• Khác với Perplexity, OpenSearch GPT chú trọng đưa ra phản hồi phù hợp dựa trên sở thích và truy vấn trước đó của người dùng.
• Tính năng cá nhân hóa được thực hiện bằng cách học hỏi từ tương tác người dùng, giúp kết quả tìm kiếm ngày càng phù hợp hơn theo thời gian.
• Là nền tảng nguồn mở, OpenSearch GPT mang lại tính minh bạch, linh hoạt và khả năng đóng góp vào quá trình phát triển.
• Hệ thống trí nhớ Mem Zero ghi nhớ các tương tác trước đó để tinh chỉnh kết quả tìm kiếm trong tương lai.
• Được xây dựng trên nền tảng công nghệ mạnh mẽ bao gồm Versal AI ADK, Next.js, Tailwind CSS, Shad CN UI và Cloudflare Pages.
• Hoạt động như trợ lý viết lách và công cụ quản lý dữ liệu, giúp đa dạng hóa ứng dụng cho cá nhân và doanh nghiệp.
• Yêu cầu đăng nhập bằng tài khoản Google để dễ dàng truy cập và quản lý lịch sử tìm kiếm, tùy chọn một cách an toàn.
• Phù hợp cho nhiều ứng dụng khác nhau, nâng cao năng suất và tối ưu hóa quy trình làm việc cho nhiều đối tượng người dùng.
• OpenSearch GPT tập trung vào khả năng cá nhân hóa vượt trội. Mỗi truy vấn tìm kiếm giúp hệ thống hiểu rõ hơn về sở thích của bạn, cho phép liên tục tinh chỉnh và cải thiện độ phù hợp của kết quả tìm kiếm.
• Là nền tảng nguồn mở, OpenSearch GPT mang lại tính minh bạch và linh hoạt vượt trội. Bạn có quyền truy cập đầy đủ vào mã nguồn, cho phép sửa đổi và tùy chỉnh nền tảng theo yêu cầu cụ thể của mình.
• Hệ thống tích hợp trí nhớ tiên tiến Mem Zero cho phép công cụ tìm kiếm ghi nhớ và học hỏi từ các tương tác trước đó, đảm bảo kết quả tìm kiếm trong tương lai chính xác và phù hợp hơn.
• OpenSearch GPT không chỉ là công cụ tìm kiếm mà còn là công cụ đa năng cung cấp nhiều chức năng để nâng cao năng suất của bạn như trợ lý viết lách, quản lý dữ liệu và hỗ trợ nghiên cứu.
• Để đảm bảo trải nghiệm người dùng liền mạch và an toàn, OpenSearch GPT tích hợp với tài khoản Google của bạn để xác thực. Điều này đơn giản hóa quy trình đăng nhập và cho phép nền tảng quản lý lịch sử tìm kiếm và tùy chọn của bạn một cách an toàn.
• Ứng dụng tiềm năng của OpenSearch GPT rất rộng rãi và đa dạng, từ cá nhân hóa cách tìm kiếm và tiêu thụ thông tin đến tự động hóa các tác vụ, cải thiện hiệu quả hoạt động và rút ra những hiểu biết có giá trị từ dữ liệu trong bối cảnh kinh doanh.
📌 OpenSearch GPT là công cụ tìm kiếm AI nguồn mở cá nhân hóa, tích hợp trí nhớ Mem Zero và đa chức năng. Nó học hỏi từ tương tác người dùng, cung cấp kết quả phù hợp, hỗ trợ viết lách và quản lý dữ liệu. Được xây dựng trên nền tảng công nghệ tiên tiến, OpenSearch GPT mang lại trải nghiệm tìm kiếm thông minh và hiệu quả.
https://www.geeky-gadgets.com/ai-search-engine-2024/
• SEA-LION là một nhóm các mô hình ngôn ngữ nguồn mở được phát triển bởi AI Singapore, nhằm hiểu rõ hơn về bối cảnh, ngôn ngữ và văn hóa đa dạng của Đông Nam Á.
• Phiên bản đầu tiên của SEA-LION được phát hành vào tháng 12/2023, được đào tạo từ đầu bằng SEA-LION-PILE (khoảng 1 nghìn tỷ token).
• Phiên bản mới nhất (v2) dựa trên việc tiếp tục đào tạo trước mô hình Llama 3 nguồn mở.
• SEA-LION hoàn toàn minh bạch và nguồn mở, bao gồm dữ liệu đào tạo trước, mã đào tạo mô hình, trọng số mô hình, dữ liệu tinh chỉnh và các điểm chuẩn đánh giá.
• Các tính năng chính của SEA-LION v2:
- Tiếp tục đào tạo trước và tinh chỉnh từ Llama 3
- Được hướng dẫn bằng tiếng Anh, Bahasa Indonesia, Thái, Việt và Tamil
- Đào tạo với tối đa 50 tỷ token từ các ngôn ngữ Đông Nam Á
- Vượt trội hơn Llama 3 cơ sở và các mô hình khác trong cả khả năng chung và khả năng đặc thù cho Đông Nam Á
• SEA-LION v2 có sẵn để tải xuống trên HuggingFace với các phiên bản mô hình cơ sở, mô hình được hướng dẫn và mô hình lượng tử hóa.
• Mô hình đạt hiệu suất tốt hơn hoặc cạnh tranh trên các tác vụ bằng ngôn ngữ khu vực trong khi vẫn giữ được hiệu suất chung của Llama 3.
• Đánh giá toàn diện bao gồm các tác vụ NLP truyền thống và các bài kiểm tra chẩn đoán ngôn ngữ và văn hóa được thiết kế riêng cho Đông Nam Á.
• SEA-LION có thể được triển khai bằng Text Generation Inference (TGI), vLLM hoặc Ollama.
• Dự án chào đón sự đóng góp từ cộng đồng trong việc báo cáo lỗi, cải thiện tài liệu, thêm các tác vụ đánh giá mô hình và đào tạo các phiên bản mô hình bằng nhiều ngôn ngữ Đông Nam Á hơn.
📌 SEA-LION là mô hình ngôn ngữ nguồn mở tiên phong cho Đông Nam Á, vượt trội Llama 3 trong hiểu biết ngôn ngữ và văn hóa khu vực. Với 50 tỷ token đào tạo, nó hỗ trợ 5 ngôn ngữ chính và mở ra cơ hội mới cho AI đa ngôn ngữ trong khu vực.
https://github.com/aisingapore/sealion
• Argilla vừa phát hành bộ dữ liệu Magpie-Ultra gồm 50.000 cặp chỉ dẫn-phản hồi cho huấn luyện có giám sát (SFT) các mô hình AI.
• Bộ dữ liệu được tạo ra tổng hợp bằng mô hình Llama 3.1 405B-Instruct và các mô hình Llama khác như Llama-Guard-3-8B và Meta-Llama-3.1-8B-Instruct.
• Nội dung đa dạng bao gồm lập trình, toán học, phân tích dữ liệu, viết sáng tạo, tư vấn và brainstorming, với các chỉ dẫn và phản hồi mang tính thách thức.
• Quy trình tạo dữ liệu sử dụng công cụ distilabel và tuân theo phương pháp Magpie được mô tả trong bài báo "Magpie: Alignment Data Synthesis from Scratch by Prompting Aligned LLMs with Nothing".
• So với phiên bản Magpie gốc 1 triệu cặp, phiên bản này tập trung hơn với 50.000 cặp chất lượng cao sử dụng các mô hình Llama 3.1 mới nhất.
• Quy trình tạo dữ liệu sử dụng nhiều mô hình khác nhau cho các bước tạo chỉ dẫn, tạo phản hồi, đánh giá chất lượng và phân loại an toàn.
• Toàn bộ quá trình tạo dữ liệu mất khoảng 111 giờ trên một máy 8xH100, trong đó 60 giờ để tạo cặp chỉ dẫn-phản hồi và 51 giờ cho các bước bổ sung.
• Cấu trúc dữ liệu bao gồm nhiều cột thông tin phong phú như chỉ dẫn, phản hồi từ mô hình instruct và base, ý định, kiến thức yêu cầu, độ khó, đánh giá chất lượng và phân loại.
• Bộ dữ liệu tích hợp kiểm tra an toàn sử dụng Llama-Guard-3-8B và cung cấp thông tin embedding cho mỗi chỉ dẫn.
• Magpie-Ultra có thể được sử dụng cho Huấn luyện có giám sát (SFT) hoặc Tối ưu hóa ưu tiên trực tiếp (DPO) tùy thuộc vào chênh lệch điểm giữa phản hồi của mô hình instruct và base.
• Phiên bản hiện tại chưa được lọc, một phiên bản đã lọc dự kiến sẽ được phát hành trong tương lai.
• Mặc dù còn một số hạn chế như chưa cân bằng dữ liệu, Magpie-Ultra vẫn là nguồn tài nguyên quý giá để nâng cao khả năng AI trong nhiều lĩnh vực.
📌 Magpie-Ultra cung cấp 50.000 cặp chỉ dẫn-phản hồi chất lượng cao từ Llama 3.1 405B, bao gồm nhiều chủ đề đa dạng. Bộ dữ liệu này mở ra cơ hội huấn luyện AI tiên tiến thông qua SFT hoặc DPO, đóng góp quan trọng cho sự phát triển của các mô hình ngôn ngữ lớn.
https://www.marktechpost.com/2024/08/04/magpie-ultra-dataset-released-harnessing-llama-3-1-405b-for-diverse-ai-instruction-response-pairs/
• Các nhà nghiên cứu từ Đại học Illinois Urbana-Champaign, UC San Diego, Lapis Labs và Center for AI Safety đã phát triển một kỹ thuật huấn luyện mới giúp ngăn chặn việc lạm dụng các mô hình AI nguồn mở.
• Kỹ thuật này được phát triển sau khi mô hình ngôn ngữ lớn Llama 3 của Meta bị bẻ khóa các hạn chế an toàn chỉ sau vài ngày phát hành.
• Phương pháp mới làm phức tạp hóa quá trình sửa đổi mô hình nguồn mở cho các mục đích xấu bằng cách thay đổi các tham số của mô hình.
• Các nhà nghiên cứu đã thử nghiệm kỹ thuật này trên một phiên bản thu nhỏ của Llama 3 và có thể điều chỉnh các tham số để mô hình không thể được huấn luyện trả lời các câu hỏi không mong muốn.
• Mặc dù không hoàn hảo, phương pháp này có thể nâng cao rào cản đối với việc "gỡ bỏ kiểm duyệt" các mô hình AI.
• Mantas Mazeika, một nhà nghiên cứu tham gia dự án, nhấn mạnh tầm quan trọng của việc bảo vệ các mô hình nguồn mở khi AI ngày càng mạnh mẽ hơn.
• Các mô hình nguồn mở như Llama 3 của Meta và Mistral Large 2 đang cạnh tranh với các mô hình đóng tiên tiến từ các công ty như OpenAI và Google.
• Chính phủ Mỹ đang có cách tiếp cận thận trọng nhưng tích cực đối với AI nguồn mở, khuyến nghị phát triển khả năng giám sát rủi ro tiềm ẩn.
• Một số chuyên gia như Stella Biderman từ EleutherAI cho rằng kỹ thuật mới này có thể khó thực thi trong thực tế và đi ngược lại triết lý của phần mềm tự do và sự cởi mở trong AI.
• Biderman cho rằng can thiệp đúng đắn nên tập trung vào dữ liệu huấn luyện thay vì mô hình đã được huấn luyện.
• Kỹ thuật mới này có thể khởi đầu cho nghiên cứu về các biện pháp bảo vệ chống giả mạo, giúp cộng đồng nghiên cứu phát triển các biện pháp bảo vệ mạnh mẽ hơn.
📌 Kỹ thuật mới giúp bảo vệ mô hình AI nguồn mở như Llama 3 khỏi bị lạm dụng, nâng cao rào cản đối với việc gỡ bỏ kiểm duyệt. Mặc dù còn tranh cãi, phương pháp này có thể là bước đầu quan trọng trong việc tăng cường an toàn cho AI nguồn mở đang phát triển nhanh chóng.
https://www.wired.com/story/center-for-ai-safety-open-source-llm-safeguards/
• Các nhà lập pháp ở châu Âu và California đang lo ngại về sự "nguy hiểm" của AI nguồn mở, nhưng tác giả cho rằng không có gì nguy hiểm về tính minh bạch.
• Bộ Thương mại Mỹ đã công bố báo cáo về các mô hình AI trọng số mở, kết luận rằng chưa có đủ bằng chứng về rủi ro biên của chúng để áp đặt hạn chế.
• Ủy ban Thương mại Liên bang Mỹ cũng tuyên bố các mô hình trọng số mở có tiềm năng thúc đẩy đổi mới, giảm chi phí và mang lại lợi ích cho công chúng.
• Meta vừa phát hành phiên bản mới nhất và mạnh mẽ nhất của mô hình AI Llama 3.1, cho phép phát triển ứng dụng bổ sung trên nền tảng này.
• Tuy nhiên, các quy định hạn chế của EU có thể khiến các mô hình AI trọng số mở trở nên bất hợp pháp. Meta đã thông báo sẽ không phát hành mô hình AI đa phương thức tiếp theo ở EU do môi trường pháp lý không chắc chắn.
• Ở California, các nhà lập pháp Đảng Dân chủ đã đề xuất dự luật SB 1047 để thành lập "Bộ phận Mô hình Tiên tiến" nhằm thực thi các quy định AI mới. Các chuyên gia cảnh báo dự luật này sẽ hạn chế nghiêm trọng các mô hình AI trọng số mở.
• Việc hạn chế AI nguồn mở có thể làm suy yếu khả năng cạnh tranh của Mỹ với Trung Quốc trong lĩnh vực AI. Trung Quốc đang đẩy mạnh mục tiêu vượt qua Mỹ và trở thành quốc gia dẫn đầu thế giới về AI vào năm 2030.
• Các lãnh đạo công nghệ như Mark Zuckerberg và Sam Altman ủng hộ AI nguồn mở như một chiến lược để duy trì vị thế dẫn đầu của Mỹ và lan tỏa các giá trị dân chủ.
• AI nguồn mở đóng vai trò quan trọng trong việc tăng cường nền kinh tế, cung cấp ứng dụng tốt hơn, tạo việc làm và củng cố an ninh quốc gia của Mỹ.
📌 Hạn chế AI nguồn mở có thể cản trở đổi mới và làm suy yếu vị thế dẫn đầu của Mỹ trong lĩnh vực AI. Các chuyên gia và lãnh đạo công nghệ ủng hộ phát triển hệ sinh thái AI mở để thúc đẩy cạnh tranh, minh bạch và lan tỏa các giá trị dân chủ, đồng thời cảnh báo về tác động tiêu cực của các quy định hạn chế quá mức.
https://cointelegraph.com/news/regulators-misguided-efforts-limit-open-source-ai
• Công ty khởi nghiệp AI aiOla của Israel vừa ra mắt mô hình nhận dạng giọng nói nguồn mở mới có tên Whisper-Medusa, nhanh hơn 50% so với Whisper của OpenAI.
• Whisper-Medusa được xây dựng dựa trên Whisper nhưng sử dụng kiến trúc "multi-head attention" mới, cho phép dự đoán nhiều token hơn cùng một lúc.
• Mã nguồn và trọng số của mô hình đã được phát hành trên Hugging Face dưới giấy phép MIT, cho phép sử dụng cho nghiên cứu và thương mại.
• Whisper-Medusa có thể dự đoán 10 token mỗi lần thay vì 1 token như Whisper, giúp tăng 50% tốc độ dự đoán và thời gian chạy.
• Mô hình mới vẫn duy trì độ chính xác tương đương với Whisper gốc.
• aiOla sử dụng phương pháp học yếu (weak supervision) để huấn luyện Whisper-Medusa, đóng băng các thành phần chính của Whisper và sử dụng bản ghi âm do mô hình tạo ra làm nhãn để huấn luyện các module dự đoán token bổ sung.
• Công ty đang phát triển phiên bản 20-head có thể dự đoán 20 token cùng lúc, hứa hẹn tốc độ nhận dạng và phiên âm nhanh hơn nữa mà không mất độ chính xác.
• Cải thiện tốc độ nhận dạng và phiên âm sẽ cho phép xử lý nhanh hơn trong các ứng dụng giọng nói và mở đường cho phản hồi thời gian thực.
• Công nghệ này có thể thúc đẩy năng suất, giảm chi phí vận hành và cung cấp nội dung nhanh chóng hơn cho các cá nhân và doanh nghiệp.
• Whisper hiện là tiêu chuẩn vàng trong nhận dạng giọng nói, với hơn 5 triệu lượt tải xuống mỗi tháng và được sử dụng trong hàng chục nghìn ứng dụng.
• Nhận dạng giọng nói nâng cao vẫn rất quan trọng trong thời đại các mô hình nền tảng, thúc đẩy các chức năng chính trong các lĩnh vực như chăm sóc sức khỏe và fintech.
• Công nghệ này cũng đang hỗ trợ các hệ thống AI đa phương thức có khả năng cao, như OpenAI đã kết hợp Whisper với LLM để xử lý truy vấn bằng giọng nói và cung cấp câu trả lời.
📌 aiOla ra mắt mô hình nhận dạng giọng nói Whisper-Medusa nhanh hơn 50% so với OpenAI Whisper, dự đoán 10 token mỗi lần thay vì 1. Mô hình nguồn mở này duy trì độ chính xác cao và hứa hẹn thúc đẩy ứng dụng giọng nói thời gian thực trong nhiều lĩnh vực.
https://venturebeat.com/ai/aiola-drops-ultra-fast-multi-head-speech-recognition-model-beats-openai-whisper/
• Google vừa công bố Gemma 2 2B, một mô hình AI nhỏ gọn nhưng mạnh mẽ với chỉ 2,6 tỷ tham số.
• Mặc dù kích thước nhỏ, Gemma 2 2B đạt hiệu suất ngang bằng hoặc vượt trội so với các mô hình lớn hơn như GPT-3.5 của OpenAI và Mixtral 8x7B của Mistral AI.
• Trong bài kiểm tra độc lập của tổ chức nghiên cứu AI LMSYS, Gemma 2 2B đạt điểm 1.130, cao hơn một chút so với GPT-3.5-Turbo-0613 (1.117) và Mixtral-8x7B (1.114).
• Mô hình này đạt 56,1 điểm trong bài kiểm tra MMLU (Massive Multitask Language Understanding) và 36,6 điểm trong MBPP (Mostly Basic Python Programming).
• Thành công của Gemma 2 2B thách thức quan điểm cho rằng mô hình lớn hơn luôn hoạt động tốt hơn, cho thấy kỹ thuật huấn luyện tiên tiến và bộ dữ liệu chất lượng cao có thể bù đắp cho số lượng tham số.
• Google đã huấn luyện Gemma 2 2B trên bộ dữ liệu khổng lồ gồm 2 nghìn tỷ token sử dụng phần cứng TPU v5e tiên tiến.
• Mô hình này hỗ trợ đa ngôn ngữ, mở rộng tiềm năng ứng dụng toàn cầu.
• Gemma 2 2B được phát hành dưới dạng nguồn mở, cho phép các nhà nghiên cứu và nhà phát triển truy cập thông qua Hugging Face và Gradio.
• Việc phát triển Gemma 2 2B nhấn mạnh tầm quan trọng ngày càng tăng của kỹ thuật nén và chưng cất mô hình AI.
• Bằng cách chưng cất kiến thức từ các mô hình lớn hơn thành các mô hình nhỏ hơn, các nhà nghiên cứu có thể tạo ra các công cụ AI dễ tiếp cận hơn mà không ảnh hưởng đến hiệu suất.
• Phương pháp này không chỉ giảm yêu cầu tính toán mà còn giải quyết các lo ngại về tác động môi trường của việc huấn luyện và vận hành các mô hình AI lớn.
• Xu hướng hướng tới các mô hình AI hiệu quả hơn đang gia tăng trong ngành công nghiệp, khi các công ty tập trung vào việc tạo ra các hệ thống nhỏ hơn, hiệu quả hơn có thể chạy trên phần cứng tiêu dùng.
• Sự ra mắt của Gemma 2 2B đánh dấu một bước tiến quan trọng trong việc dân chủ hóa công nghệ AI, mở ra khả năng tiếp cận các khả năng AI tiên tiến mà không cần siêu máy tính đắt tiền.
📌 Gemma 2 2B của Google với 2,6 tỷ tham số vượt trội so với các mô hình lớn hơn 10 lần như GPT-3.5. Mô hình nguồn mở này đạt 1.130 điểm trong bài kiểm tra LMSYS, 56,1 điểm MMLU và 36,6 điểm MBPP, mở ra kỷ nguyên mới cho AI nhỏ gọn, hiệu quả và dễ tiếp cận.
https://venturebeat.com/ai/googles-tiny-ai-model-gemma-2-2b-challenges-tech-giants-in-surprising-upset/
• GitHub ra mắt dịch vụ mới có tên GitHub Models nhằm tạo điều kiện thuận lợi cho các lập trình viên doanh nghiệp thử nghiệm và xây dựng ứng dụng với AI tạo sinh.
• Dịch vụ này cung cấp quyền truy cập trực tiếp vào nhiều mô hình AI khác nhau từ các công ty hàng đầu như Meta, OpenAI, Mistral, AI21, Microsoft và Cohere.
• Mục tiêu chính là cho phép lập trình viên thử nghiệm và tích hợp các mô hình AI tạo sinh vào ứng dụng của họ, vượt ra ngoài phạm vi hoàn thành mã.
• Mario Rodriguez, Phó chủ tịch cấp cao phụ trách sản phẩm tại GitHub, nhấn mạnh rằng mọi ứng dụng trong tương lai đều sẽ có trí thông minh gắn liền với nó.
• GitHub Models giúp giảm thiểu rào cản mà lập trình viên gặp phải khi thử nghiệm và tích hợp mô hình AI vào ứng dụng của họ.
• Trước đây, lập trình viên phải chuyển đổi giữa nhiều trang web và tạo nhiều tài khoản chỉ để thử nghiệm các mô hình khác nhau. GitHub Models giải quyết vấn đề này bằng cách cung cấp một danh mục tập trung các mô hình AI mà lập trình viên có thể truy cập và thử nghiệm trực tiếp trong nền tảng GitHub.
• GitHub Models cũng cung cấp lộ trình để người dùng dễ dàng chuyển từ thử nghiệm sang triển khai sản xuất các ứng dụng hỗ trợ AI. Lộ trình này dẫn đến Microsoft Azure.
• Quy trình hoạt động bắt đầu từ việc người dùng thử nghiệm các mô hình AI trong môi trường thử nghiệm GitHub Models, sau đó chuyển sang môi trường phát triển GitHub Codespace hoặc VS Code và truy cập SDK Azure để lấy token và khóa API cần thiết để kết nối với nền tảng Azure.
• Rodriguez xác định ba thách thức chính mà lập trình viên phải đối mặt khi làm việc với mô hình AI: độ trễ, chất lượng phản hồi và chi phí. GitHub Models giúp lập trình viên vượt qua những thách thức này bằng cách cung cấp môi trường để kiểm tra và so sánh.
• Mặc dù các điểm chuẩn ngành cho các mô hình AI tạo sinh khác nhau rất hữu ích, Rodriguez lưu ý rằng chúng không kể hết câu chuyện. Lập trình viên cần dựa vào đánh giá ngoại tuyến và trực tuyến của riêng mình để đưa ra quyết định tốt nhất.
📌 GitHub Models mở ra cơ hội mới cho lập trình viên thử nghiệm AI tạo sinh, cung cấp quyền truy cập vào nhiều mô hình từ các công ty hàng đầu. Dịch vụ giúp giảm rào cản, tạo lộ trình triển khai AI doanh nghiệp và giải quyết các thách thức về độ trễ, chất lượng và chi phí.
https://venturebeat.com/ai/github-models-gives-developers-new-power-to-experiment-with-gen-ai/
• Bộ Thương mại Hoa Kỳ vừa công bố báo cáo ủng hộ các mô hình AI tạo sinh "trọng số mở" như Llama 3.1 của Meta.
• Báo cáo do Cơ quan Quản lý Thông tin và Viễn thông Quốc gia (NTIA) thuộc Bộ Thương mại thực hiện.
• NTIA cho rằng mô hình mở giúp mở rộng khả năng tiếp cận AI tạo sinh cho các công ty nhỏ, nhà nghiên cứu, tổ chức phi lợi nhuận và các nhà phát triển cá nhân.
• Báo cáo đề xuất chính phủ không nên hạn chế quyền truy cập vào các mô hình mở trước khi điều tra liệu các hạn chế có thể gây hại cho thị trường hay không.
• Quan điểm này tương đồng với nhận xét gần đây của Chủ tịch Ủy ban Thương mại Liên bang Lina Khan, cho rằng mô hình mở có thể thúc đẩy cạnh tranh lành mạnh.
• Alan Davidson, Trợ lý Bộ trưởng Thương mại về Truyền thông và Thông tin, nhấn mạnh tầm quan trọng của các hệ thống AI mở và kêu gọi giám sát tích cực hơn đối với rủi ro từ việc công khai trọng số mô hình.
• Báo cáo được công bố trong bối cảnh các cơ quan quản lý trong và ngoài nước đang cân nhắc các quy định có thể hạn chế hoặc áp đặt yêu cầu mới đối với các công ty muốn phát hành mô hình trọng số mở.
• California sắp thông qua dự luật SB 1047, yêu cầu các công ty huấn luyện mô hình sử dụng hơn 10^26 FLOP phải tăng cường an ninh mạng và phát triển cách "tắt" các bản sao mô hình trong tầm kiểm soát của họ.
• EU gần đây đã ấn định thời hạn tuân thủ cho các công ty theo Đạo luật AI, áp đặt quy tắc mới về bản quyền, minh bạch và ứng dụng AI.
• Meta cho biết chính sách AI của EU sẽ ngăn họ phát hành một số mô hình mở trong tương lai. Nhiều startup và công ty công nghệ lớn phản đối luật của California, cho rằng quá khắt khe.
• NTIA đề xuất chính phủ phát triển chương trình thu thập bằng chứng về rủi ro và lợi ích của mô hình mở, đánh giá và hành động dựa trên những đánh giá đó.
• Báo cáo đề xuất chính phủ nghiên cứu về tính an toàn của các mô hình AI, hỗ trợ nghiên cứu giảm thiểu rủi ro và phát triển ngưỡng chỉ số "rủi ro cụ thể" để báo hiệu nếu cần thay đổi chính sách.
• Bộ trưởng Thương mại Gina Raimondo cho biết các bước này phù hợp với sắc lệnh hành pháp về AI của Tổng thống Joe Biden, kêu gọi các cơ quan chính phủ và công ty thiết lập tiêu chuẩn mới về việc tạo ra, triển khai và sử dụng AI.
📌 Báo cáo của Bộ Thương mại Mỹ ủng hộ mô hình AI mở, đề xuất giám sát rủi ro. NTIA khuyến nghị không hạn chế quyền truy cập, nhưng cần phát triển khả năng theo dõi và đánh giá an toàn. Báo cáo phù hợp với sắc lệnh AI của Tổng thống Biden, nhằm tối đa hóa tiềm năng và giảm thiểu rủi ro của AI.
https://techcrunch.com/2024/07/29/u-s-commerce-department-report-endorses-open-ai-models/
https://www.ntia.gov/sites/default/files/publications/ntia-ai-open-model-report.pdf
• Neural Magic vừa công bố một bước đột phá quan trọng trong việc nén mô hình AI bằng cách giới thiệu phiên bản FP8 được lượng tử hóa hoàn toàn của mô hình Llama 3.1 405B của Meta.
• Mô hình 405 tỷ tham số này có thể chạy trên bất kỳ hệ thống 8xH100 hoặc 8xA100 nào mà không gặp lỗi hết bộ nhớ (OOM) thường gặp với các phiên bản FP8 và FP16 gốc.
• Mô hình mới không chỉ giải quyết các hạn chế về bộ nhớ mà còn tăng tốc độ suy luận lên gấp 2 lần, tận dụng bộ nhớ và khả năng tính toán nhanh hơn.
• Neural Magic cung cấp hai phiên bản chính của mô hình:
- Meta-Llama-3.1-405B-Instruct-FP8-dynamic
- Meta-Llama-3.1-405B-Instruct-FP8
• Phiên bản FP8 được lượng tử hóa hoàn toàn, Meta-Llama-3.1-405B-Instruct-FP8-dynamic, giữ nguyên kiến trúc của Meta-Llama-3.1, được thiết kế cho trò chuyện kiểu trợ lý bằng nhiều ngôn ngữ.
• Mô hình chỉ giới hạn sử dụng bằng tiếng Anh và cho các ứng dụng hợp pháp. Nó được phát hành dưới phiên bản 1.0, được phát triển bởi Neural Magic và hoạt động theo giấy phép llama3.1.
• Quá trình lượng tử hóa giảm số bit trên mỗi tham số từ 16 xuống 8, giảm một nửa kích thước đĩa và yêu cầu bộ nhớ GPU.
• Mô hình có thể được tải và đánh giá trên một nút gồm 8 GPU H100 thay vì yêu cầu nhiều nút.
• Quá trình lượng tử hóa sử dụng lượng tử hóa đối xứng trên mỗi kênh, ánh xạ tuyến tính trên mỗi chiều đầu ra cho các biểu diễn FP8 của trọng số và kích hoạt được lượng tử hóa.
• Các kích hoạt được lượng tử hóa động trên cơ sở mỗi token. Điều này được thực hiện bằng LLM Compressor với 512 chuỗi từ UltraChat.
• Mô hình được lượng tử hóa có thể được triển khai hiệu quả bằng cách sử dụng backend vLLM. Quá trình triển khai sử dụng các thư viện `vllm` và `transformers` trong Python.
• Mô hình được đánh giá trên nhiều benchmark, bao gồm MMLU, ARC-Challenge, GSM-8K, Hellaswag, Winogrande và TruthfulQA.
• Mô hình lượng tử hóa Meta-Llama-3.1-405B-Instruct-FP8-dynamic đạt điểm trung bình 86.55 trên benchmark OpenLLM, gần như tương đương với điểm 86.63 của mô hình chưa lượng tử hóa, cho thấy khả năng phục hồi gần như hoàn hảo 99.91%.
• Neural Magic cung cấp các lệnh chi tiết để tái tạo kết quả đánh giá trên các benchmark khác nhau, minh họa tính mạnh mẽ của mô hình được lượng tử hóa.
• Mô hình đạt tỷ lệ phục hồi 99.91% trên MMLU (5-shot) và 100.2% trên Winogrande (5-shot), nhấn mạnh độ tin cậy và độ chính xác của nó.
📌 Neural Magic đã nén thành công mô hình Llama 3.1 405B của Meta xuống phiên bản FP8, giảm một nửa yêu cầu bộ nhớ và tăng tốc độ suy luận gấp 2 lần. Mô hình mới có thể chạy trên hệ thống 8xH100/A100 đơn lẻ, đạt hiệu suất gần như tương đương với phiên bản gốc trên các benchmark quan trọng.
https://www.marktechpost.com/2024/07/29/neural-magic-releases-fully-quantized-fp8-version-of-metas-llama-3-1-405b-model-fp8-dynamic-quantization-and-fp8-static-quantization/
SEO contents:
• Startup AI Galileo vừa công bố bản đánh giá toàn diện cho thấy các mô hình ngôn ngữ nguồn mở đang nhanh chóng thu hẹp khoảng cách hiệu suất với các đối thủ độc quyền.
• Chỉ số ảo giác thường niên lần thứ 2 của Galileo đánh giá 22 mô hình ngôn ngữ lớn hàng đầu về xu hướng tạo ra thông tin không chính xác. Mặc dù các mô hình đóng vẫn dẫn đầu tổng thể, nhưng khoảng cách đã thu hẹp đáng kể chỉ trong 8 tháng.
• Claude 3.5 Sonnet của Anthropic đứng đầu chỉ số với hiệu suất tốt nhất trên tất cả các tác vụ, vượt qua các sản phẩm của OpenAI từng thống trị bảng xếp hạng năm ngoái.
• Gemini 1.5 Flash của Google nổi lên là lựa chọn hiệu quả nhất về chi phí, mang lại kết quả mạnh mẽ với giá chỉ bằng một phần nhỏ so với các mô hình hàng đầu.
• Qwen2-72B-Instruct của Alibaba hoạt động tốt nhất trong số các mô hình nguồn mở, đạt điểm cao trên các đầu vào ngắn và trung bình.
• Chỉ số tập trung vào cách các mô hình xử lý các độ dài ngữ cảnh khác nhau, từ đoạn ngắn đến tài liệu dài, phản ánh việc sử dụng AI ngày càng tăng cho các tác vụ như tóm tắt báo cáo dài hoặc trả lời câu hỏi về bộ dữ liệu lớn.
• Kết quả cho thấy mô hình lớn hơn không phải lúc nào cũng tốt hơn. Trong một số trường hợp, các mô hình nhỏ hơn vượt trội hơn các đối thủ lớn hơn, cho thấy thiết kế hiệu quả đôi khi có thể vượt qua quy mô thuần túy.
• Xu hướng này có thể làm giảm rào cản gia nhập cho các startup và nhà nghiên cứu, đồng thời tạo áp lực buộc các công ty lớn phải đổi mới nhanh hơn hoặc có nguy cơ mất lợi thế.
• Khi các mô hình nguồn mở cải thiện và trở nên hiệu quả hơn về chi phí, các công ty có thể triển khai khả năng AI mạnh mẽ mà không cần dựa vào các dịch vụ độc quyền đắt tiền.
• Galileo dự định cập nhật benchmark hàng quý, cung cấp thông tin liên tục về sự cân bằng thay đổi giữa công nghệ AI nguồn mở và độc quyền.
• Vikram Chatterji, đồng sáng lập và CEO của Galileo, dự đoán sự phát triển hơn nữa trong lĩnh vực này, bao gồm các mô hình multimodal và hệ thống dựa trên agent, đòi hỏi các framework đánh giá mới.
📌 AI nguồn mở đang thu hẹp khoảng cách với các mô hình độc quyền, với Claude 3.5 Sonnet của Anthropic dẫn đầu. Gemini 1.5 Flash của Google nổi bật về hiệu quả chi phí. Xu hướng này có thể dân chủ hóa khả năng AI tiên tiến và thúc đẩy đổi mới trên nhiều ngành.
https://venturebeat.com/ai/open-source-ai-narrows-gap-with-tech-giants-new-benchmark-reveals/
• Alibaba và Tencent đã nhanh chóng tích hợp mô hình AI Llama 3.1 mới nhất của Meta vào dịch vụ đám mây của họ.
• Alibaba Cloud là một trong những nền tảng đầu tiên tích hợp dòng mô hình ngôn ngữ lớn (LLM) nguồn mở Llama mới nhất, công nghệ nền tảng cho các sản phẩm AI tạo sinh như ChatGPT.
• Alibaba đã công bố việc tích hợp vào ngày thứ Ba, cung cấp một tháng tài nguyên điện toán miễn phí cho các tác vụ đào tạo và suy luận với Llama 3.1.
• Tencent nhanh chóng theo sau với thông báo trong cùng ngày. Llama 3.1 hiện đã có sẵn trên nền tảng đám mây của Tencent, với các tinh chỉnh để đảm bảo khả năng sử dụng của mô hình trong hội thoại thông minh, tạo văn bản và viết lách.
• Meta đã định vị Llama 3.1 như một giải pháp thay thế mạnh mẽ cho các mô hình mã nguồn đóng hàng đầu như GPT-4 của OpenAI.
• Quan hệ địa chính trị Mỹ-Trung trở nên căng thẳng sau các lệnh trừng phạt về bán dẫn tiên tiến của phương Tây đối với Trung Quốc, bao gồm việc hạn chế tiếp cận chip AI từ Nvidia và các công ty khác.
• Joe Tsai, đồng sáng lập và chủ tịch Alibaba, đã thừa nhận vị thế tụt hậu của Trung Quốc trong cuộc đua phát triển AI, với lệnh cấm vận của Washington gây ảnh hưởng đến tham vọng AI của họ.
• Cổ phiếu Alibaba đã mất hơn 22% trong 12 tháng qua khi công ty cố gắng thực hiện tham vọng AI trong bối cảnh nền kinh tế trong nước yếu kém và cạnh tranh gay gắt.
• Giá cổ phiếu BABA đóng cửa giảm 0,25% xuống 75,21 USD trong phiên giao dịch trước giờ mở cửa vào ngày thứ Sáu.
📌 Alibaba và Tencent tích hợp mô hình AI Llama 3.1 của Meta vào dịch vụ đám mây, cung cấp tài nguyên miễn phí. Động thái này diễn ra trong bối cảnh căng thẳng Mỹ-Trung và lệnh cấm vận chip AI. Cổ phiếu Alibaba giảm 22% trong 12 tháng qua do khó khăn kinh tế và cạnh tranh gay gắt.
https://www.benzinga.com/news/24/07/39982380/alibaba-and-tencent-lap-up-metas-ai-large-language-model
• Mark Zuckerberg, CEO của Meta, tuyên bố mô hình AI nguồn mở Llama mới nhất của công ty đã đạt đến trình độ "tiên tiến", ngang hàng với các mô hình AI mạnh mẽ nhất từ OpenAI, Google và Anthropic.
• Zuckerberg dự đoán từ năm sau, các mô hình Llama tiếp theo sẽ vượt lên trở thành mô hình AI tiên tiến nhất thế giới.
• Việc mở rộng khả năng tiếp cận công nghệ AI mạnh mẽ mang lại cả cơ hội và thách thức. Một mặt, nó giúp ngăn chặn một số ít công ty công nghệ lớn độc quyền AI tiên tiến. Mặt khác, nó cũng có thể đặt công nghệ mạnh mẽ vào tay những kẻ xấu như người tung tin giả, kẻ lừa đảo, khủng bố và các quốc gia đối thủ.
• Meta đã trở thành nhà vô địch chính của AI nguồn mở, mặc dù trước đây công ty này từng là một trong những "khu vườn có tường" khép kín nhất trên internet.
• Mô hình Llama không hoàn toàn nguồn mở theo định nghĩa của Open Software Initiative, nhưng đáp ứng nhiều tiêu chí về tính mở - hầu hết mọi người có thể kiểm tra hoặc điều chỉnh các "trọng số" quyết định cách thức hoạt động của chúng.
• Zuckerberg lập luận rằng nguồn mở về nhiều mặt an toàn hơn các giải pháp độc quyền truyền thống. Nhiều chuyên gia bảo mật máy tính cũng đồng tình rằng "tính mở = bảo mật".
• Tuy nhiên, vẫn còn lo ngại về việc phát hành AI mạnh mẽ dưới dạng nguồn mở. Zuckerberg cho rằng đó là một quan niệm sai lầm khi tin rằng công nghệ có giá trị nhất có thể được giữ an toàn khỏi các quốc gia đối thủ.
• Zuckerberg cũng lập luận rằng kinh nghiệm điều hành mạng xã hội cho thấy việc chống lại các ứng dụng độc hại của AI là một cuộc chạy đua có thể chiến thắng, miễn là phe tốt có máy móc mạnh mẽ hơn phe xấu.
• Trong tương lai, có thể sẽ có quy định về việc tiếp cận sức mạnh tính toán khổng lồ. Các công ty đám mây có thể phải tuân theo quy tắc "biết khách hàng của bạn". Thậm chí có đề xuất chính phủ nên kiểm soát trực tiếp việc tiếp cận các chip cần thiết để xây dựng AI tiên tiến.
• Tuy nhiên, hiện tại các mô hình AI nguồn mở vẫn đang phát triển nhanh chóng và được sử dụng rộng rãi.
📌 AI nguồn mở đang tiến gần đến điểm bùng phát với mô hình Llama của Meta. Điều này mở ra cơ hội phổ biến AI tiên tiến nhưng cũng đặt ra thách thức về an ninh và kiểm soát. Các công ty lớn như Amazon, Microsoft, Google đang ủng hộ xu hướng này, trong khi chính phủ có thể sẽ phải cân nhắc các biện pháp điều tiết trong tương lai.
https://www.ft.com/content/2968d132-e2b1-490a-9022-3cfe0e1dc0d8
#FT
• Mistral vừa ra mắt mô hình AI mới nhất Large 2 vào ngày 24/7/2024, chỉ một ngày sau khi Meta phát hành Llama 3.1 405B.
• Large 2 có 123 tỷ tham số, ít hơn 1/3 so với Llama 3.1 405B nhưng được cho là có hiệu suất vượt trội trong việc tạo mã và xử lý toán học.
• Mistral tuyên bố Large 2 nâng cao tiêu chuẩn về hiệu suất và chi phí cho các mô hình mở, dựa trên một số điểm chuẩn.
• Một trong những trọng tâm chính trong quá trình đào tạo Large 2 là giảm thiểu vấn đề hallucination. Mô hình được huấn luyện để thừa nhận khi không biết điều gì đó thay vì tạo ra thông tin có vẻ hợp lý.
• Large 2 có cửa sổ ngữ cảnh 128.000 token, tương đương với khoảng 300 trang sách, cho phép xử lý lượng dữ liệu lớn trong một lần nhắc.
• Mô hình hỗ trợ đa ngôn ngữ, bao gồm tiếng Anh, Pháp, Đức, Tây Ban Nha, Ý, Bồ Đào Nha, Ả Rập, Hindi, Nga, Trung Quốc, Nhật Bản và Hàn Quốc, cùng với 80 ngôn ngữ lập trình.
• Mistral cho biết Large 2 tạo ra các phản hồi ngắn gọn hơn so với các mô hình AI hàng đầu khác.
• Large 2 có sẵn trên các nền tảng đám mây lớn như Google Vertex AI, Amazon Bedrock, Azure AI Studio và IBM watsonx.ai.
• Người dùng có thể sử dụng mô hình mới trên nền tảng "le Plateforme" của Mistral dưới tên "mistral-large-2407" và dùng thử miễn phí trên đối thủ cạnh tranh ChatGPT của công ty là "le Chat".
• Mistral gần đây đã huy động được 640 triệu USD trong vòng gọi vốn Series B, do General Catalyst dẫn đầu, với định giá 6 tỷ USD.
• Mặc dù Mistral là một trong những công ty mới nhất trong lĩnh vực AI, họ đang nhanh chóng phát triển các mô hình AI tiên tiến.
• Tuy nhiên, cần lưu ý rằng các mô hình của Mistral không phải là nguồn mở theo nghĩa truyền thống - bất kỳ ứng dụng thương mại nào của mô hình đều cần giấy phép trả phí.
• Large 2 và Llama 3.1 của Meta đều thiếu khả năng đa phương thức (multimodal), một lĩnh vực mà OpenAI đang dẫn đầu với khả năng xử lý đồng thời hình ảnh và văn bản.
📌 Mistral Large 2 với 123 tỷ tham số đang thách thức các mô hình AI hàng đầu từ OpenAI và Meta. Mô hình này vượt trội về hiệu suất mã hóa, toán học và có cửa sổ ngữ cảnh 128.000 token, hỗ trợ 12 ngôn ngữ tự nhiên và 80 ngôn ngữ lập trình.
https://techcrunch.com/2024/07/24/mistral-releases-large-2-meta-openai-ai-models/
• Nhiều mô hình AI của Trung Quốc dễ tiếp cận hơn dự kiến ở nước ngoài, có thể truy cập thông qua đăng ký tài khoản hoặc nền tảng AI nguồn mở như Hugging Face.
• Xu hướng mở nguồn mô hình AI đang giúp các sản phẩm AI Trung Quốc tiếp cận dễ dàng hơn với quốc tế.
• Alibaba đã chọn cung cấp mô hình Qwen của họ dưới dạng nguồn mở và cho phép sử dụng miễn phí. Qwen2 đứng đầu bảng xếp hạng hiệu suất các mô hình LLM nguồn mở trên Hugging Face.
• Các startup Trung Quốc như DeepSeek và 01.AI cũng đã mở nguồn mô hình của họ, đạt thứ hạng cao trên bảng xếp hạng.
• Đối với Alibaba, chiến lược mở nguồn AI nhằm phát triển dịch vụ đám mây. Nếu mô hình nguồn mở của họ trở nên phổ biến, nhiều người sẽ sử dụng Alibaba Cloud để xây dựng ứng dụng AI.
• Đối với các startup AI Trung Quốc, AI nguồn mở cung cấp lộ trình thương mại hóa nhanh hơn. Họ có thể điều chỉnh các mô hình nguồn mở hiện có để đẩy nhanh quá trình phát triển sản phẩm.
• Do hạn chế tiếp cận chip tiên tiến, các công ty Trung Quốc sẵn sàng thử nghiệm các ý tưởng mới để cải thiện mô hình, dẫn đến các mô hình hiệu quả hơn và rẻ hơn.
• Các mô hình AI nguồn mở này thể hiện một tương lai thay thế, không chỉ bị thống trị bởi các công ty lớn như OpenAI, Microsoft và Google.
• Các nhà khoa học và công ty Trung Quốc đang tạo ra các mô hình LLM nguồn mở tiên tiến, thậm chí vượt qua các sản phẩm từ phương Tây.
• Startup Abacus AI ở San Francisco đã phát hành một mô hình được điều chỉnh từ mô hình Qwen nguồn mở của Alibaba, cho thấy sự trao đổi hai chiều trong phát triển AI nguồn mở.
📌 Các công ty Trung Quốc đang đặt cược vào AI nguồn mở để thương mại hóa nhanh chóng và được công nhận toàn cầu. Alibaba và các startup như DeepSeek đã phát hành mô hình hiệu suất cao, cạnh tranh với các đối thủ phương Tây. Chiến lược này thúc đẩy đổi mới và tạo ra một tương lai AI đa dạng hơn.
https://www.technologyreview.com/2024/07/24/1095239/chinese-companies-open-source-ai/
#MIT
• Meta vừa ra mắt mô hình AI mới có tên Llama 3.1, được CEO Mark Zuckerberg mô tả là "tiên tiến nhất" và có thể cạnh tranh với các sản phẩm tương tự từ OpenAI và Google.
• Llama 3.1 mất vài tháng để huấn luyện với chi phí hàng trăm triệu USD về sức mạnh tính toán. Đây là bản nâng cấp lớn so với Llama 3 ra mắt hồi tháng 4.
• Mô hình mới có nhiều tính năng mới như khả năng lập luận cải tiến để giải quyết các bài toán phức tạp, tổng hợp nhanh chóng toàn bộ nội dung sách, tạo hình ảnh theo yêu cầu bằng văn bản.
• Meta sử dụng Llama để cung cấp năng lượng cho chatbot Meta AI trên các ứng dụng như Instagram, WhatsApp và web. Zuckerberg cho biết Meta AI có "hàng trăm triệu" người dùng.
• Zuckerberg ước tính chi phí đào tạo Llama 3 là "hàng trăm triệu USD" và dự đoán các mô hình trong tương lai sẽ tốn "hàng tỷ USD" về sức mạnh tính toán.
• Meta theo đuổi chiến lược nguồn mở, cho phép công chúng sử dụng miễn phí công nghệ đằng sau Llama miễn là tuân thủ "chính sách sử dụng được chấp nhận".
• Zuckerberg hy vọng chiến lược này sẽ giúp công nghệ của Meta trở thành nền tảng cho các startup và sản phẩm thành công khác, tạo ảnh hưởng lớn hơn đến sự phát triển của ngành.
• Meta dự kiến sẽ có khoảng 350.000 GPU H100 của Nvidia vào cuối năm nay, với giá mỗi chip có thể lên tới hàng chục nghìn USD.
• Zuckerberg bác bỏ ý kiến cho rằng việc đào tạo Llama trên dữ liệu từ Facebook và Instagram là lợi thế chính, nói rằng Google và các công ty khác cũng có thể sử dụng nhiều dữ liệu đó.
• Ông cũng phản đối việc hạn chế công nghệ AI với các nước khác, cho rằng điều đó sẽ cản trở sự đổi mới và khả năng dẫn đầu của Mỹ trong lĩnh vực này.
📌 Meta ra mắt Llama 3.1, đầu tư hàng trăm triệu USD vào AI để cạnh tranh với OpenAI và Google. Zuckerberg theo đuổi chiến lược nguồn mở, dự kiến chi hàng tỷ USD cho các mô hình tương lai. Meta AI đạt hàng trăm triệu người dùng, với tham vọng trở thành chatbot phổ biến nhất thế giới cuối năm nay.
https://www.bloomberg.com/news/articles/2024-07-23/meta-s-zuckerberg-aims-to-rival-openai-google-with-new-llama-ai-model?srnd=citylab
• SciPhi vừa công bố Triplex - mô hình ngôn ngữ tiên tiến (LLM) mã nguồn mở chuyên dụng để xây dựng đồ thị tri thức.
• Triplex giúp chuyển đổi dữ liệu phi cấu trúc số lượng lớn thành dạng có cấu trúc, giảm đáng kể chi phí và độ phức tạp so với các phương pháp truyền thống.
• Mô hình này có sẵn trên các nền tảng như HuggingFace và Ollama, hứa hẹn trở thành công cụ quan trọng cho các nhà khoa học dữ liệu và phân tích.
• Triplex được thiết kế để xây dựng đồ thị tri thức hiệu quả, vượt trội so với các mô hình tiên tiến như GPT-4o.
• Đồ thị tri thức rất quan trọng để trả lời các truy vấn quan hệ phức tạp, nhưng phương pháp xây dựng truyền thống tốn kém và đòi hỏi nhiều tài nguyên.
• Ví dụ, quy trình GraphRAG gần đây của Microsoft vẫn còn tốn kém, yêu cầu ít nhất một token đầu ra cho mỗi token đầu vào.
• Triplex giúp giảm chi phí tạo đồ thị tri thức xuống 10 lần bằng cách chuyển đổi văn bản phi cấu trúc thành "bộ ba ngữ nghĩa" - các phần tử cơ bản của đồ thị tri thức.
• Khi so sánh với GPT-4o, Triplex cho thấy hiệu suất vượt trội về cả chi phí và độ chính xác. Mô hình trích xuất bộ ba của nó đạt kết quả tương đương GPT-4o nhưng với chi phí thấp hơn nhiều.
• Việc giảm chi phí đáng kể này là nhờ kích thước mô hình nhỏ hơn và khả năng hoạt động mà không cần ngữ cảnh few-shot mở rộng.
• Triplex được đào tạo thêm bằng DPO (Tối ưu hóa lập trình động) và KTO (Tối ưu hóa bộ ba tri thức), sử dụng bộ dữ liệu dựa trên ưu tiên thông qua bỏ phiếu đa số và sắp xếp tô pô.
• Kết quả đánh giá Claude-3.5 Sonnet cho thấy Triplex vượt trội so với các mô hình khác như triplex-base và triplex-kto, với tỷ lệ thắng trên 50% khi so sánh trực tiếp với GPT-4o.
• Hiệu suất xuất sắc của Triplex dựa trên việc đào tạo trên bộ dữ liệu đa dạng và toàn diện, bao gồm các nguồn uy tín như DBPedia, Wikidata, văn bản web và bộ dữ liệu tổng hợp.
• Một ứng dụng ngay lập tức của Triplex là xây dựng đồ thị tri thức cục bộ sử dụng công cụ R2R RAG kết hợp với Neo4J.
📌 SciPhi ra mắt Triplex - mô hình ngôn ngữ mã nguồn mở tiên tiến giúp giảm chi phí xây dựng đồ thị tri thức xuống 10 lần. Với hiệu suất vượt trội so với GPT-4o và khả năng chuyển đổi dữ liệu phi cấu trúc hiệu quả, Triplex mở ra cơ hội mới cho phân tích dữ liệu và tạo ra insights trong nhiều ngành công nghiệp.
https://www.marktechpost.com/2024/07/22/sciphi-open-sourced-triplex-a-sota-llm-for-knowledge-graph-construction-provides-data-structuring-with-cost-effective-and-efficient-solutions/
- Meta chính thức ra mắt phiên bản lớn nhất của mô hình ngôn ngữ mở Llama, phiên bản 405 tỷ tham số mang tên Llama-3.1.
- Llama 3.1 là bản cập nhật của Llama 3 ra mắt vào tháng 4/2024, trước đó chỉ có phiên bản 8 tỷ và 70 tỷ tham số.
- Phiên bản 405 tỷ tham số có thể "dạy" các mô hình nhỏ hơn và tạo dữ liệu tổng hợp.
- Theo Ragavan Srinivasan, Phó Chủ tịch Quản lý Chương trình AI tại Meta, mô hình này sẽ mang lại hiệu suất tiên tiến nhất đối với các mô hình mã nguồn mở và cạnh tranh mạnh mẽ với nhiều mô hình độc quyền, mã đóng hàng đầu.
- Llama 3.1 sẽ hỗ trợ đa ngôn ngữ ngay từ khi ra mắt, bao gồm tiếng Anh, Bồ Đào Nha, Tây Ban Nha, Ý, Đức, Pháp, Hindi và Thái.
- Cửa sổ ngữ cảnh của Llama 3.1 đã được mở rộng lên 128.000 token, tương đương với lượng văn bản trong một cuốn tiểu thuyết gần 400 trang.
- Meta đã thử nghiệm Llama 3.1 trên hơn 150 bộ dữ liệu benchmark và thực hiện đánh giá có hướng dẫn của con người cho các tình huống thực tế.
- Mô hình 405B "cạnh tranh với các mô hình nền tảng hàng đầu trên nhiều tác vụ bao gồm GPT-4, GPT-4o và Claude 3.5 Sonnet".
- Meta cũng cập nhật giấy phép cho tất cả các mô hình của mình để cho phép chưng cất mô hình và tạo dữ liệu tổng hợp.
- Chưng cất tri thức cho phép người dùng chuyển giao kiến thức hoặc đào tạo từ mô hình AI lớn hơn sang mô hình nhỏ hơn.
- Khả năng tạo dữ liệu tổng hợp sẽ cho phép các mô hình khác học từ thông tin mà không ảnh hưởng đến bản quyền, dữ liệu cá nhân hoặc nhạy cảm.
- Meta đã tối ưu hóa ngăn xếp đào tạo và sử dụng hơn 16.000 GPU Nvidia H100 để đào tạo mô hình 405B.
- Llama 3.1 sẽ được mở mã nguồn. Người dùng có thể truy cập nó thông qua AWS, Nvidia, Groq, Dell, Databricks, Microsoft Azure, Google Cloud và các thư viện mô hình khác.
📌 Llama 3.1 405B của Meta hứa hẹn mang lại hiệu suất vượt trội, cạnh tranh mạnh mẽ với các mô hình đóng. Mô hình này có thể dạy các phiên bản nhỏ hơn, tạo dữ liệu tổng hợp, hỗ trợ đa ngôn ngữ với cửa sổ ngữ cảnh lên tới 128.000 token. Llama 3.1 sẽ được mở mã nguồn, có thể truy cập qua nhiều nền tảng đám mây và thư viện mô hình phổ biến.
https://venturebeat.com/ai/meta-unleashes-its-most-powerful-ai-model-llama-3-1-with-405b-parameters/
Dòng "tút" của Mark Zuckerberg: AI mã nguồn mở là tương lai, Llama sẽ trở thành chuẩn mực
- Mark Zuckerberg tin rằng AI sẽ phát triển theo hướng mã nguồn mở tương tự như Linux đã làm với Unix trước đây.
- Meta đang phát hành các mô hình Llama 3.1 405B, 70B và 8B. Mô hình 405B là mô hình AI mã nguồn mở đầu tiên đạt trình độ tiên phong.
- Nhiều công ty như Amazon, Databricks, Nvidia, Scale.AI, Dell, Deloitte sẽ hỗ trợ hệ sinh thái phát triển xung quanh Llama.
- Mã nguồn mở mang lại nhiều lợi ích cho các nhà phát triển như: tự do tinh chỉnh mô hình, kiểm soát, bảo mật dữ liệu, chi phí thấp, tiêu chuẩn lâu dài.
- Mã nguồn mở tốt cho Meta vì đảm bảo họ luôn có công nghệ tốt nhất, không bị khóa vào hệ sinh thái đóng. Việc mở mã nguồn không làm giảm lợi thế của Meta.
- Mã nguồn mở là cần thiết cho một tương lai AI tích cực, đảm bảo nhiều người tiếp cận được lợi ích của AI, sức mạnh không tập trung vào một số ít công ty.
- AI mã nguồn mở sẽ an toàn hơn vì minh bạch, có thể được giám sát rộng rãi. Các tổ chức lớn triển khai AI mã nguồn mở quy mô lớn sẽ thúc đẩy an ninh và ổn định xã hội.
- Chiến lược tốt nhất của Mỹ là xây dựng hệ sinh thái mở mạnh mẽ, hợp tác chặt chẽ với chính phủ và đồng minh.
- Hầu hết các công ty công nghệ và nghiên cứu khoa học hàng đầu hiện nay được xây dựng trên phần mềm mã nguồn mở. Thế hệ tiếp theo sẽ sử dụng AI mã nguồn mở.
📌 Mark Zuckerberg tin tưởng mạnh mẽ rằng mô hình AI Llama mã nguồn mở của Meta sẽ trở thành tiêu chuẩn ngành, mang lại lợi ích to lớn cho các nhà phát triển, cho Meta và cho cả thế giới. Ông cho rằng AI mã nguồn mở sẽ an toàn và có lợi hơn các lựa chọn thay thế, giúp nhiều người tiếp cận được sức mạnh của AI, thúc đẩy an ninh và phát triển kinh tế.
https://www.facebook.com/story.php?story_fbid=10115716861061241&id=4&mibextid=WC7FNe&rdid=UJNAed944ITlVPyD
• Arcee AI vừa giới thiệu Arcee-Nova, một mô hình ngôn ngữ nguồn mở mới dựa trên Qwen2-72B-Instruct và được tinh chỉnh bằng tập dữ liệu tổng quát.
• Arcee-Nova đã đạt hiệu suất tiệm cận GPT-4 (phiên bản tháng 5/2023) khi được đánh giá trên cùng bộ tiêu chí với OpenLLM Leaderboard 2.0.
• Mô hình được tăng cường bằng kỹ thuật học tăng cường từ phản hồi của con người (RLHF), giúp nâng cao khả năng trong nhiều lĩnh vực.
• Arcee-Nova hiện đang là mô hình nguồn mở có hiệu suất cao nhất trên OpenLLM Leaderboard 2.0, khẳng định tiềm năng cạnh tranh với các mô hình AI hàng đầu hiện nay.
• Các phiên bản GGUF của Arcee-Nova đã được cung cấp trên nền tảng Hugging Face, tăng khả năng tiếp cận cho các nhà phát triển và nghiên cứu.
• Mô hình thể hiện khả năng vượt trội trong nhiều lĩnh vực như: lập luận logic, viết sáng tạo, lập trình, và hiểu ngôn ngữ tổng quát.
• Arcee-Nova có tiềm năng ứng dụng rộng rãi trong kinh doanh, bao gồm: dịch vụ khách hàng, tạo nội dung, phát triển phần mềm, phân tích dữ liệu, nghiên cứu và phát triển, pháp lý và tuân thủ, giáo dục và đào tạo.
• Trong lĩnh vực dịch vụ khách hàng, Arcee-Nova có thể hỗ trợ xây dựng chatbot và trợ lý ảo tiên tiến, nâng cao chất lượng tương tác.
• Đối với phát triển phần mềm, mô hình có khả năng hỗ trợ tạo mã và kiểm tra chất lượng, tăng hiệu quả quá trình phát triển.
• Trong lĩnh vực phân tích dữ liệu, Arcee-Nova giúp cải thiện việc diễn giải dữ liệu và tạo báo cáo, cung cấp những hiểu biết sâu sắc hơn cho doanh nghiệp.
• Mô hình cũng có thể hỗ trợ đáng kể trong nghiên cứu và phát triển thông qua việc tổng hợp tài liệu và tạo giả thuyết, đẩy nhanh quá trình nghiên cứu.
• Trong lĩnh vực pháp lý, Arcee-Nova có khả năng phân tích hợp đồng và thực hiện kiểm tra tuân thủ quy định, đảm bảo tính pháp lý cho doanh nghiệp.
• Arcee AI bày tỏ lòng biết ơn đối với cộng đồng AI nguồn mở và đội ngũ Qwen vì những đóng góp nền tảng cho Qwen2-72B.
• Công ty khuyến khích các nhà nghiên cứu, phát triển và doanh nghiệp khám phá tiềm năng của Arcee-Nova, đồng thời cam kết tiếp tục thúc đẩy sự phát triển của AI nguồn mở.
📌 Arcee-Nova, mô hình ngôn ngữ nguồn mở mới từ Arcee AI, đạt hiệu suất tiệm cận GPT-4 (05/2023). Dựa trên Qwen2-72B, tích hợp RLHF, mô hình thể hiện khả năng vượt trội trong nhiều lĩnh vực, mở ra tiềm năng ứng dụng rộng rãi trong kinh doanh từ dịch vụ khách hàng đến R&D.
https://www.marktechpost.com/2024/07/21/arcee-ai-introduces-arcee-nova-a-new-open-sourced-language-model-based-on-qwen2-72b-and-approaches-gpt-4-performance-level/
• Nexusflow vừa phát hành Athene-Llama3-70B, một mô hình chat mã nguồn mở được tinh chỉnh từ Llama-3-70B-Instruct của Meta AI.
• Athene-70B đạt điểm Arena-Hard-Auto 77,8%, ngang ngửa với các mô hình độc quyền như GPT-4 và Claude-3.5-Sonnet. Đây là bước tiến vượt bậc so với Llama-3-70B-Instruct (46,6%).
• Sự cải thiện này đến từ quy trình huấn luyện sau đào tạo của Nexusflow, nhằm nâng cao các hành vi cụ thể của mô hình.
• Athene-70B hiện đang được thử nghiệm công khai trên nền tảng Chatbot Arena.
• Nexusflow đã phát triển các tiêu chuẩn đánh giá nội bộ để đánh giá khả năng của LLM trong việc tuân theo hướng dẫn, lập trình, viết sáng tạo và xử lý đa ngôn ngữ.
• Dựa trên đánh giá này, dữ liệu ưu tiên chất lượng cao được tuyển chọn cho quá trình Học tăng cường từ phản hồi của con người (RLHF).
• Quy trình này dẫn đến cải thiện hiệu suất đáng kể so với Llama-3-70B-Instruct trên nhiều khía cạnh quan trọng.
• Athene-70B thể hiện khả năng của Nexusflow trong việc tùy chỉnh mô hình cho các yêu cầu doanh nghiệp cụ thể thông qua huấn luyện sau đào tạo có mục tiêu.
• Dựa trên thành công trước đó với Starling-7B và NexusRaven-V2, Nexusflow hướng tới việc nâng cấp các mô hình của mình để đáp ứng tiêu chuẩn ứng dụng cấp doanh nghiệp.
• Công ty cung cấp giải pháp tùy chỉnh để giúp doanh nghiệp vượt trội trong công nghệ copilot và agent AI tạo sinh.
• Nexusflow mời gọi các tổ chức khám phá cách Athene-70B có thể nâng cao sáng kiến AI của họ bằng cách liên hệ để biết thêm thông tin và cơ hội hợp tác.
📌 Athene-Llama3-70B là mô hình chat mã nguồn mở 70 tỷ tham số, đạt điểm Arena-Hard-Auto 77,8%, cạnh tranh với GPT-4 và Claude-3.5. Cải tiến từ Llama-3-70B-Instruct (46,6%) nhờ RLHF của Nexusflow, nâng cao khả năng trong nhiều lĩnh vực, hứa hẹn ứng dụng AI tạo sinh cấp doanh nghiệp.
https://www.marktechpost.com/2024/07/21/athene-llama3-70b-released-an-open-weight-llm-trained-through-rlhf-based-on-llama-3-70b-instruct/
- Apple vừa công bố mở mã nguồn mô hình ngôn ngữ DCLM Baseline-7B, một phần của dự án Decentralized Compute Language Models (DCLM).
- Mô hình này được huấn luyện trên tập dữ liệu khổng lồ gồm 1,5 nghìn tỷ token, bao gồm cả dữ liệu từ trang web, sách và bài báo.
- Kết quả cho thấy DCLM Baseline-7B vượt trội hơn cả mô hình LLaMA-2 7B của Meta trên các bài kiểm tra chuẩn như MMLU (71,6% so với 69,0%) và HellaSwag (79,2% so với 77,8%).
- DCLM Baseline-7B cũng đạt điểm cao hơn trên bài kiểm tra TruthfulQA với 61,4% so với 58,1% của LLaMA-2 7B.
- Apple hy vọng việc mở mã nguồn sẽ thúc đẩy nghiên cứu và phát triển các mô hình ngôn ngữ phi tập trung (decentralized language models).
- Hiện tại mô hình và mã nguồn của DCLM Baseline-7B đã được công bố trên kho lưu trữ GitHub của Apple.
- Đây là một bước tiến quan trọng của Apple trong lĩnh vực AI, đặc biệt là các mô hình ngôn ngữ quy mô lớn.
📌 Apple vừa tạo tiếng vang lớn khi mở mã nguồn mô hình ngôn ngữ DCLM Baseline-7B, vượt trội hơn cả LLaMA-2 7B của Meta trên các bài kiểm tra chuẩn như MMLU (71,6%) và HellaSwag (79,2%). Bước đi này hứa hẹn thúc đẩy mạnh mẽ nghiên cứu về các mô hình ngôn ngữ phi tập trung.
Citations:
[1] https://analyticsindiamag.com/ai-news-updates/apple-open-sources-dclm-baseline-7b-outperforms-metas-llama-2/
• Groq, một startup phần cứng AI, đã phát hành hai mô hình ngôn ngữ nguồn mở vượt trội các gã khổng lồ công nghệ về khả năng sử dụng công cụ chuyên biệt.
• Mô hình Llama-3-Groq-70B-Tool-Use đã giành vị trí số 1 trên Bảng xếp hạng Gọi hàm Berkeley (BFCL), vượt qua các sản phẩm độc quyền từ OpenAI, Google và Anthropic.
• Mô hình 70B tham số đạt độ chính xác tổng thể 90,76% trên BFCL, trong khi mô hình 8B nhỏ hơn đạt 89,06%, xếp hạng thứ 3 tổng thể.
• Groq phát triển các mô hình này cùng với công ty nghiên cứu AI Glaive, sử dụng kết hợp tinh chỉnh toàn bộ và Tối ưu hóa Ưu tiên Trực tiếp (DPO) trên mô hình cơ sở Llama-3 của Meta.
• Nhóm nhấn mạnh việc chỉ sử dụng dữ liệu tổng hợp được tạo ra một cách có đạo đức để đào tạo, giải quyết các mối quan ngại phổ biến về quyền riêng tư dữ liệu và overfitting.
• Bằng cách đạt hiệu suất hàng đầu chỉ sử dụng dữ liệu tổng hợp, Groq thách thức quan niệm cho rằng cần lượng lớn dữ liệu thực tế để tạo ra các mô hình AI tiên tiến.
• Các mô hình hiện có sẵn thông qua API Groq và Hugging Face, một nền tảng phổ biến để chia sẻ các mô hình học máy.
• Groq cũng ra mắt demo công khai trên Hugging Face Spaces, cho phép người dùng tương tác với mô hình và kiểm tra khả năng sử dụng công cụ của nó.
• Cộng đồng AI đã phản ứng nhiệt tình, với nhiều nhà nghiên cứu và nhà phát triển háo hức khám phá khả năng của các mô hình.
• Cách tiếp cận nguồn mở của Groq tương phản rõ rệt với các hệ thống đóng của các công ty công nghệ lớn hơn.
• Sự thành công của các mô hình Groq có thể dẫn đến một sự thay đổi mô hình trong cách AI được phát triển và triển khai, có khả năng dân chủ hóa quyền truy cập vào các khả năng AI tiên tiến.
📌 Mô hình AI nguồn mở Llama-3-Groq-70B của Groq đạt vị trí số 1 trên bảng xếp hạng BFCL với độ chính xác 90,76%, vượt qua GPT-4 và Claude. Sử dụng dữ liệu tổng hợp đạo đức, mô hình mở ra khả năng dân chủ hóa AI và thúc đẩy đổi mới trong ngành.
https://venturebeat.com/ai/groq-open-source-llama-ai-model-tops-leaderboard-outperforming-gpt-4o-and-claude-in-function-calling/
• Google vừa công bố Project Oscar tại sự kiện Google I/O Bengaluru - một nền tảng nguồn mở giúp các nhóm phát triển sử dụng và xây dựng các tác nhân AI để quản lý chương trình phần mềm.
• Project Oscar hiện tập trung vào các dự án nguồn mở, nhưng trong tương lai có thể mở rộng để quản lý cả các dự án mã nguồn đóng.
• Karthik Padmanabhan, Trưởng bộ phận Quan hệ Nhà phát triển tại Google Ấn Độ, tin rằng AI có tiềm năng cải thiện toàn bộ vòng đời phát triển phần mềm.
• Thông qua Project Oscar, các nhà phát triển có thể tạo ra các tác nhân AI hoạt động trong suốt vòng đời phát triển phần mềm, bao gồm tác nhân phát triển, tác nhân lập kế hoạch, tác nhân thời gian chạy và tác nhân hỗ trợ.
• Các tác nhân này có thể tương tác bằng ngôn ngữ tự nhiên, cho phép người dùng đưa ra hướng dẫn mà không cần chỉnh sửa mã.
• Cameron Balahan, Giám đốc sản phẩm nhóm cho ngôn ngữ lập trình nguồn mở Go của Google, cho biết Oscar đã được triển khai cho dự án Go để giúp theo dõi báo cáo lỗi và tương tác với người đóng góp.
• Dự án Go có hơn 93.000 commit và 2.000 người đóng góp, khiến việc theo dõi tất cả các vấn đề phát sinh trở nên cực kỳ khó khăn.
• Tác nhân AI được phát triển thông qua Project Oscar cho Go có khả năng làm phong phú báo cáo sự cố bằng cách xem xét dữ liệu hoặc sử dụng các công cụ phát triển để nổi bật thông tin quan trọng nhất.
• Tác nhân cũng tương tác với người báo cáo sự cố để làm rõ bất kỳ vấn đề nào, ngay cả khi người bảo trì không trực tuyến.
• Balahan cho biết Project Oscar sẽ sớm được triển khai cho các dự án nguồn mở khác của Google.
• Tầm nhìn của Google là cho phép bất kỳ ai cũng có thể triển khai Oscar vào dự án của họ, dù là nguồn mở hay đóng, và sử dụng các tác nhân có sẵn hoặc tự tạo ra.
• Các trợ lý AI như GitHub Copilot và Amazon CodeWhisperer đã được chứng minh là tăng năng suất của nhà phát triển.
• Các trợ lý AI khác như Amazon Q giúp người dùng truy vấn dữ liệu nội bộ hoặc cộng tác với các nhóm khác.
📌 Project Oscar của Google là nền tảng nguồn mở giúp phát triển tác nhân AI quản lý phần mềm. Đã triển khai cho dự án Go với 93.000 commit và 2.000 người đóng góp, Oscar hỗ trợ theo dõi lỗi, tương tác người dùng và nâng cao hiệu quả phát triển phần mềm.
https://venturebeat.com/ai/google-brings-ai-agent-platform-project-oscar-open-source/
• Mistral, startup AI Pháp, vừa ra mắt 2 mô hình ngôn ngữ lớn (LLM) mới: Codestral Mamba cho lập trình viên và Mathstral cho toán học/khoa học.
• Codestral Mamba 7B sử dụng kiến trúc Mamba mới, giúp tăng tốc độ suy luận và mở rộng ngữ cảnh so với kiến trúc transformer thông thường.
• Mô hình này có thể xử lý đầu vào lên tới 256.000 token, gấp đôi GPT-4 của OpenAI.
• Trong các bài kiểm tra HumanEval, Codestral Mamba vượt trội hơn các mô hình nguồn mở đối thủ như CodeLlama 7B, CodeGemma-1.17B và DeepSeek.
• Codestral Mamba được cung cấp miễn phí trên API la Plateforme của Mistral, với giấy phép nguồn mở Apache 2.0.
• Mathstral 7B là mô hình AI chuyên biệt cho lập luận toán học và khám phá khoa học, được phát triển cùng với Project Numina.
• Mathstral có cửa sổ ngữ cảnh 32K và cũng sử dụng giấy phép nguồn mở Apache 2.0.
• Mistral tuyên bố Mathstral vượt trội hơn mọi mô hình được thiết kế cho lập luận toán học.
• Cả hai mô hình đều có thể truy cập qua la Plateforme của Mistral và HuggingFace.
• Mistral gần đây đã huy động được 640 triệu USD trong vòng gọi vốn Series B, nâng định giá lên gần 6 tỷ USD.
• Công ty cũng nhận được đầu tư từ các gã khổng lồ công nghệ như Microsoft và IBM.
• Mistral đang cạnh tranh mạnh mẽ với các nhà phát triển AI khác như OpenAI và Anthropic.
• Tạo mã và trợ lý lập trình đã trở thành ứng dụng phổ biến của các mô hình AI, với các nền tảng như GitHub Copilot, Amazon CodeWhisperer và Codenium ngày càng được ưa chuộng.
📌 Mistral tung ra 2 mô hình AI mới: Codestral Mamba cho lập trình với 256.000 token và Mathstral cho toán học. Cả hai đều nguồn mở, miễn phí và vượt trội so với đối thủ trong các bài kiểm tra. Mistral đã huy động 640 triệu USD, định giá 6 tỷ USD, cạnh tranh mạnh với OpenAI và Anthropic.
https://venturebeat.com/ai/mistral-releases-codestral-mamba-for-faster-longer-code-generation/
• Hugging Face vừa công bố dòng mô hình ngôn ngữ nhỏ gọn SmolLM, vượt trội so với các sản phẩm tương tự từ Microsoft, Meta và Alibaba về hiệu suất.
• SmolLM có 3 kích cỡ: 135 triệu, 360 triệu và 1,7 tỷ tham số, phù hợp với nhiều loại tài nguyên tính toán khác nhau.
• Mặc dù nhỏ gọn, các mô hình này đạt kết quả vượt trội trong các bài kiểm tra về lập luận thông thường và kiến thức thế giới.
• SmolLM-135M vượt qua MobileLM-125M của Meta dù được huấn luyện với ít token hơn.
• SmolLM-360M vượt trội so với tất cả các mô hình dưới 500 triệu tham số, bao gồm cả sản phẩm từ Meta và Qwen.
• Mô hình chủ lực SmolLM-1.7B đánh bại Phi-1.5 của Microsoft, MobileLM-1.5B của Meta và Qwen2-1.5B trong nhiều bài kiểm tra.
• Hugging Face công khai toàn bộ quá trình phát triển, từ tuyển chọn dữ liệu đến các bước huấn luyện, thể hiện cam kết với giá trị nguồn mở và nghiên cứu có thể tái tạo.
• Hiệu suất ấn tượng của SmolLM đến từ việc tuyển chọn kỹ lưỡng dữ liệu huấn luyện, bao gồm Cosmopedia v2, Python-Edu và FineWeb-Edu.
• SmolLM có thể chạy trên các thiết bị cá nhân như điện thoại và laptop, loại bỏ nhu cầu điện toán đám mây, giảm chi phí và mối lo ngại về quyền riêng tư.
• Việc phát triển các mô hình nhỏ gọn nhưng mạnh mẽ như SmolLM đại diện cho một bước chuyển quan trọng trong lĩnh vực AI, giải quyết các vấn đề về tác động môi trường và quyền riêng tư dữ liệu.
• Hugging Face đã phát hành các mô hình SmolLM, bộ dữ liệu và mã huấn luyện, cho phép cộng đồng AI toàn cầu và các nhà phát triển khám phá, cải tiến và xây dựng dựa trên phương pháp tiếp cận đổi mới này.
📌 SmolLM của Hugging Face mang AI mạnh mẽ đến thiết bị cá nhân, vượt trội so với đối thủ lớn. Với 3 kích cỡ từ 135 triệu đến 1,7 tỷ tham số, các mô hình nguồn mở này đạt hiệu suất cao nhờ dữ liệu chất lượng, mở ra khả năng tiếp cận AI rộng rãi hơn mà không ảnh hưởng đến quyền riêng tư.
https://venturebeat.com/ai/hugging-faces-smollm-models-bring-powerful-ai-to-your-phone-no-cloud-required/
• STORM là công cụ AI nguồn mở do Đại học Stanford phát triển, nhằm chuyển đổi các chủ đề thành các bài viết toàn diện và dài.
• Công cụ này tự động hóa quá trình tổng hợp kiến thức, giúp tạo ra các báo cáo dài và có trích dẫn đầy đủ một cách dễ dàng hơn.
• STORM hoạt động qua 2 giai đoạn chính: giai đoạn chuẩn bị viết và giai đoạn viết, tận dụng nghiên cứu trên internet và phác thảo có cấu trúc để tạo ra nội dung chi tiết.
• Trong giai đoạn chuẩn bị viết, STORM tiến hành nghiên cứu mở rộng trên internet về chủ đề được cung cấp, thu thập thông tin và tài liệu tham khảo liên quan. Sau đó, nó tổ chức dữ liệu này thành một dàn ý có cấu trúc.
• Ở giai đoạn viết, STORM sử dụng dàn ý đã tạo để viết một bài báo đầy đủ, kèm theo trích dẫn và tài liệu tham khảo chính xác.
• Một trong những ưu điểm chính của STORM là khả năng tự động hóa quá trình nghiên cứu, giúp tiết kiệm thời gian và công sức đáng kể cho người dùng.
• STORM có thể truy cập thông qua bản demo trên đám mây hoặc cài đặt cục bộ. Việc cài đặt cục bộ yêu cầu một số điều kiện tiên quyết như Git, Pip, Python và Conda.
• Công cụ này hỗ trợ nhiều mô hình truy xuất khác nhau và cho phép người dùng tùy chỉnh mô hình ngôn ngữ theo nhu cầu cụ thể.
• STORM có thể được sử dụng để tạo ra các bài viết về nhiều chủ đề khác nhau như bền vững, trí tuệ nhân tạo, chăm sóc sức khỏe, v.v.
• Đầu ra từ STORM bao gồm các bài viết toàn diện với các chủ đề phụ được xác định rõ ràng và trích dẫn đầy đủ. Các bài viết này có thể tải xuống và chia sẻ.
• Công cụ này hữu ích cho nhiều đối tượng khác nhau như nhà nghiên cứu, sinh viên, nhà báo hoặc người sáng tạo nội dung.
• STORM đang đóng vai trò quan trọng trong lĩnh vực tạo nội dung có sự hỗ trợ của AI, giúp người dùng tạo ra các bài viết toàn diện và được nghiên cứu kỹ lưỡng một cách dễ dàng.
📌 STORM là công cụ AI nguồn mở từ Stanford tự động tạo báo cáo dài có trích dẫn. Hoạt động qua 2 giai đoạn: chuẩn bị viết và viết, tự động hóa nghiên cứu và tạo nội dung. Hữu ích cho nhiều đối tượng, tiết kiệm thời gian và đảm bảo chất lượng bài viết.
https://www.geeky-gadgets.com/storm-ai-assistant-stanford-university/
• Bài viết giới thiệu 10 mô hình ngôn ngữ lớn (LLM) không kiểm duyệt có thể chạy trên laptop thông thường. Đây là các mô hình mã nguồn mở, không bị giới hạn bởi các quy tắc đạo đức như ChatGPT.
• Vicuna-13B: Dựa trên LLaMA của Meta, được tinh chỉnh bằng dữ liệu từ ShareGPT. Có hiệu suất tương đương 90% so với ChatGPT và GPT-4 trong một số tác vụ.
• Alpaca-7B: Cũng dựa trên LLaMA, được huấn luyện bằng dữ liệu từ text-davinci-003 của OpenAI. Có khả năng tạo văn bản, dịch thuật và trả lời câu hỏi.
• GPT4All: Mô hình 7B tham số, được huấn luyện trên bộ dữ liệu đa dạng. Có thể chạy trên CPU và chỉ cần 4GB RAM.
• Dolly: Phiên bản 12B tham số, được huấn luyện trên bộ dữ liệu Databricks. Có khả năng tạo văn bản, dịch thuật và trả lời câu hỏi.
• Pythia: Bộ mô hình với nhiều kích thước từ 70M đến 12B tham số. Được huấn luyện trên bộ dữ liệu The Pile.
• RWKV: Mô hình RNN với hiệu suất tương đương Transformer. Có nhiều phiên bản từ 100M đến 14B tham số.
• Cerebras-GPT: Bộ mô hình với nhiều kích thước từ 111M đến 13B tham số. Được huấn luyện trên bộ dữ liệu The Pile.
• Open Assistant: Mô hình mã nguồn mở được phát triển bởi cộng đồng, với mục tiêu tạo ra trợ lý AI miễn phí cho mọi người.
• Falcon: Bộ mô hình được phát triển bởi Technology Innovation Institute, với các phiên bản 7B và 40B tham số.
• Bloom: Mô hình đa ngôn ngữ 176B tham số, hỗ trợ 46 ngôn ngữ tự nhiên và 13 ngôn ngữ lập trình.
• Các mô hình này đều có thể chạy trên laptop thông thường với GPU, một số thậm chí chỉ cần CPU. Chúng mang lại khả năng tiếp cận AI tiên tiến cho nhiều người dùng hơn.
• Tuy nhiên, việc sử dụng các mô hình không kiểm duyệt cũng đặt ra những thách thức về đạo đức và an toàn. Người dùng cần cân nhắc kỹ lưỡng khi sử dụng chúng.
📌 10 mô hình LLM mã nguồn mở không kiểm duyệt có thể chạy trên laptop thông thường, với kích thước từ 7B đến 176B tham số. Vicuna-13B và Alpaca-7B nổi bật với hiệu suất cao, trong khi GPT4All chỉ cần 4GB RAM để chạy. Các mô hình này mở ra cơ hội tiếp cận AI tiên tiến cho nhiều người dùng hơn.
Citations:
[1] https://analyticsindiamag.com/top-10-uncensored-llms-you-can-run-on-a-laptop/
• Startup Pháp Bioptimus vừa ra mắt mô hình AI có tên H-optimus-0, được đào tạo trên hàng trăm triệu hình ảnh để hỗ trợ nghiên cứu và chẩn đoán bệnh.
• H-optimus-0 có khả năng thực hiện các tác vụ phức tạp như nhận diện tế bào ung thư và phát hiện bất thường di truyền trong khối u.
• Bioptimus mô tả đây là mô hình lớn nhất trong lĩnh vực bệnh lý học được phát hành dưới dạng nguồn mở và dễ tiếp cận rộng rãi.
• Startup này là một trong số nhiều công ty đang cố gắng tận dụng AI cho các bước đột phá y học. Gần đây, DeepMind của Google đã phát hành phiên bản mới của AlphaFold - hệ thống AI dự đoán cấu trúc protein. K Health, một startup Mỹ phát triển chatbot tương tác với bệnh nhân trước khi gặp bác sĩ, đã huy động được 50 triệu USD với định giá khoảng 900 triệu USD.
• Giám đốc công nghệ của Bioptimus, Rodolphe Jenatton, cho biết công ty chọn mô hình nguồn mở để tạo ra tính minh bạch và thúc đẩy tiến bộ trong lĩnh vực này.
• Bioptimus hy vọng các phát triển tiếp theo sẽ cho phép mô hình hoạt động ở các cấp độ khác nhau của sinh học con người. Hiện tại, mô hình chỉ tập trung vào mô.
• Tuy nhiên, vẫn còn nhiều lo ngại về việc sử dụng AI trong chẩn đoán y tế. Một cuộc khảo sát năm 2023 của Pew Research Center cho thấy 60% bệnh nhân cảm thấy không thoải mái khi bác sĩ dựa vào AI để chăm sóc sức khỏe cho họ.
• Các chuyên gia gần đây kêu gọi Dịch vụ Y tế Quốc gia Anh (NHS) tập trung vào chăm sóc ung thư cơ bản thay vì các "viên đạn thần kỳ" AI.
• Một nghiên cứu năm 2021 trên Nature Medicine phát hiện các thuật toán AI áp dụng cho X-quang ngực chẩn đoán thiếu cho phụ nữ, bệnh nhân da đen và gốc Hispanic cũng như những người sử dụng Medicaid.
• Bioptimus được thành lập vào tháng 2 với sự hỗ trợ và đầu tư của công ty công nghệ sinh học Pháp Owkin Inc. Startup này đã nhận được 35 triệu USD vốn hạt giống từ các nhà đầu tư bao gồm ngân hàng đầu tư nhà nước Bpifrance và tỷ phú viễn thông Xavier Niel.
📌 Startup Pháp Bioptimus ra mắt mô hình AI nguồn mở H-optimus-0 để hỗ trợ chẩn đoán bệnh, được đào tạo trên hàng trăm triệu hình ảnh. Mặc dù có tiềm năng, vẫn còn nhiều lo ngại về việc sử dụng AI trong y tế, với 60% bệnh nhân cảm thấy không thoải mái và các nghiên cứu chỉ ra sự thiên vị trong chẩn đoán.
https://www.bloomberg.com/news/articles/2024-07-10/french-startup-bioptimus-releases-ai-model-for-disease-diagnosis
• Tổ chức Sáng kiến Nguồn mở (OSI) đang nỗ lực xây dựng một định nghĩa chính thức cho "AI nguồn mở", dưới sự dẫn dắt của giám đốc điều hành Stefano Maffulli.
• Định nghĩa AI Nguồn mở hiện đang ở phiên bản 0.0.8, bao gồm 3 phần chính: phần mở đầu, định nghĩa chính và danh sách kiểm tra các thành phần cần thiết.
• Theo dự thảo hiện tại, một hệ thống AI nguồn mở cần đảm bảo quyền tự do sử dụng cho mọi mục đích, cho phép nghiên cứu cách hệ thống hoạt động, và cho phép sửa đổi/chia sẻ hệ thống.
• Một trong những thách thức lớn nhất là vấn đề dữ liệu - làm thế nào để xác định một hệ thống AI là "nguồn mở" nếu không công bố bộ dữ liệu huấn luyện?
• OSI cho rằng quan trọng hơn là biết nguồn gốc dữ liệu và cách xử lý dữ liệu, thay vì có toàn bộ bộ dữ liệu.
• Có sự khác biệt cơ bản giữa mã nguồn phần mềm và trọng số mạng nơ-ron (NNW) trong AI. NNW không thể đọc được và gỡ lỗi như mã nguồn.
• Việc tái tạo chính xác một mô hình AI từ cùng bộ dữ liệu là rất khó khăn do có các yếu tố ngẫu nhiên trong quá trình huấn luyện.
• OSI đề xuất một hệ thống AI nguồn mở cần dễ dàng tái tạo với hướng dẫn rõ ràng.
• Khung phân loại mô hình mở (MOF) được đề xuất để đánh giá mức độ mở và đầy đủ của các mô hình máy học.
• Meta gặp tranh cãi khi gọi mô hình Llama của họ là "nguồn mở", trong khi có các hạn chế đáng kể về cách sử dụng.
• OSI đang tìm cách đa dạng hóa nguồn tài trợ, nhận được khoản tài trợ 250.000 USD từ Quỹ Sloan để hỗ trợ quá trình xây dựng định nghĩa.
• Định nghĩa "ổn định" dự kiến sẽ được thông qua tại hội nghị All Things Open vào cuối tháng 10/2024.
📌 OSI đang nỗ lực xây dựng định nghĩa AI nguồn mở, đối mặt với nhiều thách thức do sự khác biệt giữa AI và phần mềm truyền thống. Định nghĩa dự thảo 0.0.8 tập trung vào quyền tự do sử dụng, nghiên cứu và sửa đổi, với danh sách kiểm tra các thành phần cần thiết. Dự kiến thông qua vào 10/2024.
https://techcrunch.com/2024/06/22/what-does-open-source-ai-mean-anyway/
- GraphRAG là một phương pháp tiếp cận mới dựa trên đồ thị cho kỹ thuật Retrieval-Augmented Generation (RAG), được phát triển và công bố bởi Microsoft.
- Nó sử dụng mô hình ngôn ngữ lớn (LLM) để tự động trích xuất đồ thị tri thức từ bất kỳ tập hợp tài liệu văn bản nào.
- GraphRAG vượt trội hơn so với phương pháp RAG truyền thống trong việc khám phá và truy xuất dữ liệu phức tạp.
- Nó có khả năng hiểu bối cảnh tổng thể tốt hơn, kết nối các ý tưởng từ nhiều nguồn khác nhau và trả lời các câu hỏi phức tạp đòi hỏi suy luận sâu.
- GraphRAG có thể xử lý lượng lớn thông tin mà không bị nhầm lẫn và giải thích nguồn gốc câu trả lời của nó.
- Microsoft đã công bố mã nguồn mở của GraphRAG trên GitHub, cho phép các nhà phát triển bắt đầu sử dụng nó trong các dự án của họ.
- Nó có thể được sử dụng với cả các mô hình độc quyền như GPT-4 và các mô hình mã nguồn mở như Llama.
- GraphRAG hứa hẹn mang lại những cải tiến đáng kể trong việc truy vấn và tóm tắt tập trung vào các tập dữ liệu phức tạp.
📌 GraphRAG đại diện cho một bước tiến quan trọng trong công nghệ RAG, cung cấp khả năng hiểu và truy xuất dữ liệu phức tạp tốt hơn đáng kể. Việc Microsoft công bố mã nguồn mở có thể thúc đẩy việc áp dụng và phát triển công nghệ này trong cộng đồng AI rộng lớn hơn.
https://www.microsoft.com/en-us/research/blog/graphrag-new-tool-for-complex-data-discovery-now-on-github/
• InternLM vừa công bố mô hình ngôn ngữ lớn nguồn mở mới nhất InternLM2.5-7B-Chat, có sẵn ở định dạng GGUF và tương thích với llama.cpp.
• Mô hình có thể được sử dụng cục bộ và trên đám mây trên nhiều nền tảng phần cứng khác nhau. Định dạng GGUF cung cấp các phiên bản lượng tử hóa half-precision và low-bit, bao gồm q5_0, q5_k_m, q6_k và q8_0.
• InternLM2.5 dựa trên phiên bản tiền nhiệm, cung cấp mô hình cơ sở 7 tỷ tham số và mô hình chat được điều chỉnh cho các tình huống thực tế.
• Mô hình này có khả năng suy luận tiên tiến, đặc biệt là suy luận toán học, vượt trội so với các đối thủ như Llama3 và Gemma2-9B.
• InternLM2.5-7B-Chat có cửa sổ ngữ cảnh ấn tượng 1M, thể hiện hiệu suất gần như hoàn hảo trong các tác vụ ngữ cảnh dài như được đánh giá bởi LongBench.
• Khả năng xử lý ngữ cảnh dài giúp mô hình đặc biệt hiệu quả trong việc truy xuất thông tin từ các tài liệu dài. Khả năng này được tăng cường khi kết hợp với LMDeploy, một bộ công cụ để nén, triển khai và phục vụ các mô hình ngôn ngữ lớn.
• Phiên bản InternLM2.5-7B-Chat-1M được thiết kế cho suy luận ngữ cảnh dài 1M, nhưng yêu cầu tài nguyên tính toán đáng kể như 4 GPU A100-80G để hoạt động hiệu quả.
• Đánh giá hiệu suất sử dụng công cụ OpenCompass cho thấy khả năng vượt trội của mô hình trong nhiều lĩnh vực: năng lực chuyên ngành, ngôn ngữ, kiến thức, suy luận và hiểu biết.
• Trong các điểm chuẩn như MMLU, CMMLU, BBH, MATH, GSM8K và GPQA, InternLM2.5-7B-Chat liên tục mang lại hiệu suất vượt trội so với các đối thủ cùng cấp. Ví dụ, điểm chuẩn MMLU đạt 72,8, vượt qua các mô hình như Llama-3-8B-Instruct và Gemma2-9B-IT.
• InternLM2.5-7B-Chat cũng xuất sắc trong việc sử dụng công cụ, hỗ trợ thu thập thông tin từ hơn 100 trang web. Phiên bản sắp tới của Lagent sẽ tăng cường chức năng này, cải thiện khả năng tuân theo hướng dẫn, lựa chọn công cụ và phản ánh của mô hình.
• Bản phát hành của mô hình bao gồm hướng dẫn cài đặt toàn diện, hướng dẫn tải xuống mô hình và các ví dụ về suy luận và triển khai dịch vụ mô hình.
• Người dùng có thể thực hiện suy luận ngoại tuyến theo lô với mô hình lượng tử hóa bằng lmdeploy, một framework hỗ trợ lượng tử hóa INT4 weight-only và triển khai (W4A16). Thiết lập này cung cấp suy luận nhanh hơn tới 2,4 lần so với FP16 trên các GPU NVIDIA tương thích.
• Kiến trúc của InternLM2.5 giữ lại các tính năng mạnh mẽ của phiên bản tiền nhiệm đồng thời kết hợp các đổi mới kỹ thuật mới. Những cải tiến này, được thúc đẩy bởi một kho dữ liệu tổng hợp lớn và quy trình đào tạo lặp đi lặp lại, dẫn đến một mô hình có hiệu suất suy luận được cải thiện - tăng 20% so với InternLM2.
📌 InternLM2.5-7B-Chat là mô hình ngôn ngữ lớn nguồn mở tiên tiến với khả năng suy luận vượt trội, xử lý ngữ cảnh dài 1M và sử dụng công cụ hiệu quả. Mô hình đạt điểm MMLU 72,8, vượt qua các đối thủ cùng cấp và hứa hẹn ứng dụng rộng rãi trong nghiên cứu và thực tế.
https://www.marktechpost.com/2024/07/07/internlm2-5-7b-chat-open-sourcing-large-language-models-with-unmatched-reasoning-long-context-handling-and-enhanced-tool-use/
• IBM vừa công bố toàn bộ bộ dữ liệu 6,48 TB được sử dụng để huấn luyện mô hình ngôn ngữ lớn Granite 13B.
• Armand Ruiz, một chuyên gia của IBM, đã tiết lộ thông tin này, mở ra cơ hội mới cho cộng đồng nghiên cứu AI và phát triển ứng dụng.
• Granite 13B là một mô hình ngôn ngữ lớn được IBM phát triển đặc biệt cho các ứng dụng doanh nghiệp.
• Vào tháng 5/2024, IBM đã công bố mã nguồn mở của Granite 13B, cho phép các nhà phát triển và doanh nghiệp tự do sử dụng và tùy chỉnh mô hình này.
• Bộ dữ liệu huấn luyện 6,48 TB bao gồm nhiều loại dữ liệu đa dạng như văn bản, mã nguồn, tài liệu kỹ thuật và dữ liệu doanh nghiệp.
• Việc công bố bộ dữ liệu này giúp tăng tính minh bạch trong quá trình phát triển AI, đồng thời cho phép các nhà nghiên cứu hiểu rõ hơn về cách Granite 13B được huấn luyện.
• IBM khẳng định rằng bộ dữ liệu đã được xử lý để loại bỏ thông tin nhạy cảm và tuân thủ các quy định về bảo mật và quyền riêng tư.
• Granite 13B được thiết kế để xử lý các tác vụ phức tạp trong môi trường doanh nghiệp như phân tích dữ liệu, tự động hóa quy trình và hỗ trợ ra quyết định.
• Mô hình này có khả năng hiểu và tạo ra văn bản chất lượng cao, đồng thời tích hợp tốt với các hệ thống và ứng dụng doanh nghiệp hiện có.
• Việc công bố bộ dữ liệu huấn luyện có thể thúc đẩy sự phát triển của các mô hình AI tùy chỉnh cho các ngành công nghiệp cụ thể.
• Các chuyên gia trong ngành nhận định rằng động thái này của IBM sẽ góp phần thúc đẩy sự cạnh tranh và đổi mới trong lĩnh vực AI doanh nghiệp.
• Bộ dữ liệu được chia sẻ thông qua nền tảng Hugging Face, một kho lưu trữ phổ biến cho các mô hình và dữ liệu AI.
• IBM cũng cung cấp tài liệu hướng dẫn chi tiết về cách sử dụng bộ dữ liệu và tái tạo quá trình huấn luyện Granite 13B.
• Việc này mở ra cơ hội cho các doanh nghiệp vừa và nhỏ tiếp cận công nghệ AI tiên tiến mà không cần đầu tư lớn vào nghiên cứu và phát triển.
📌 IBM công bố bộ dữ liệu 6,48 TB dùng để huấn luyện Granite 13B, mô hình ngôn ngữ lớn nguồn mở cho doanh nghiệp. Động thái này thúc đẩy minh bạch trong AI, mở ra cơ hội nghiên cứu và phát triển ứng dụng AI tùy chỉnh cho nhiều ngành công nghiệp.
https://analyticsindiamag.com/ibm-reveals-its-entire-6-48-tb-llm-training-dataset/
• Meta vừa phát hành các mô hình được đào tạo trước sử dụng phương pháp dự đoán đa token mới, có thể thay đổi cách phát triển và triển khai các mô hình ngôn ngữ lớn (LLM).
• Kỹ thuật mới này, được mô tả trong bài báo nghiên cứu của Meta vào tháng 4, khác với phương pháp truyền thống là chỉ dự đoán từ tiếp theo trong chuỗi. Thay vào đó, mô hình của Meta được giao nhiệm vụ dự đoán nhiều từ trong tương lai cùng lúc.
• Phương pháp mới hứa hẹn nâng cao hiệu suất và giảm đáng kể thời gian đào tạo cho các mô hình AI.
• Đây có thể là giải pháp cho vấn đề tiêu thụ năng lượng tính toán ngày càng tăng của các mô hình AI lớn, giúp AI tiên tiến trở nên dễ tiếp cận và bền vững hơn.
• Bằng cách dự đoán nhiều token cùng lúc, các mô hình này có thể phát triển hiểu biết tinh tế hơn về cấu trúc và ngữ cảnh ngôn ngữ.
• Meta phát hành các mô hình này dưới giấy phép nghiên cứu phi thương mại trên nền tảng Hugging Face, phù hợp với cam kết khoa học mở của công ty.
• Bước đi này cũng là động thái chiến lược trong cuộc đua AI ngày càng cạnh tranh, nơi sự cởi mở có thể dẫn đến đổi mới nhanh hơn và thu hút nhân tài.
• Phiên bản đầu tiên tập trung vào nhiệm vụ hoàn thành mã, phản ánh thị trường đang phát triển cho các công cụ lập trình hỗ trợ AI.
• Tuy nhiên, việc phát hành này cũng gây tranh cãi. Các nhà phê bình cho rằng các mô hình AI hiệu quả hơn có thể làm trầm trọng thêm những lo ngại hiện có về thông tin sai lệch và mối đe dọa mạng do AI tạo ra.
• Meta đã cố gắng giải quyết những vấn đề này bằng cách nhấn mạnh tính chất chỉ dành cho nghiên cứu của giấy phép, nhưng vẫn còn những câu hỏi về việc thực thi hiệu quả các hạn chế như vậy.
• Các mô hình dự đoán đa token là một phần trong bộ sưu tập lớn hơn các thành quả nghiên cứu AI được Meta phát hành, bao gồm cả những tiến bộ trong tạo văn bản từ hình ảnh và phát hiện giọng nói do AI tạo ra.
• Cộng đồng AI đang phải đối mặt với những tác động của thông báo này. Liệu dự đoán đa token có trở thành tiêu chuẩn mới trong phát triển LLM? Nó có thể đáp ứng lời hứa về hiệu quả mà không ảnh hưởng đến chất lượng?
• Các nhà nghiên cứu tuyên bố rằng phương pháp của họ cải thiện khả năng và hiệu quả đào tạo mô hình đồng thời cho phép tốc độ nhanh hơn.
📌 Meta phát hành mô hình dự đoán đa token mới, hứa hẹn cách mạng hóa hiệu quả và khả năng của AI ngôn ngữ lớn. Phương pháp này có thể giảm thời gian đào tạo, nâng cao hiệu suất và phát triển hiểu biết ngôn ngữ tinh tế hơn. Tuy nhiên, vẫn còn những lo ngại về tác động tiềm tàng và việc sử dụng sai mục đích.
https://venturebeat.com/ai/meta-drops-ai-bombshell-multi-token-prediction-models-now-open-for-research/
• Meta đã phát hành Llama 3 vào tháng 4/2024, sử dụng tập dữ liệu lớn hơn ít nhất 7 lần so với Llama 2. Ban đầu có sẵn ở kích thước 8B và 70B tham số.
• Thông tin rò rỉ cho thấy Meta sắp ra mắt phiên bản Llama 3 mạnh mẽ nhất, được đào tạo trên hơn 400 tỷ tham số.
• Trong thử nghiệm ban đầu, Llama 3 400B đạt điểm 86,1 trên thang đo MMLU, ngang bằng với hiệu suất của GPT-4 nhưng chỉ với chưa đến một nửa số lượng tham số.
• Việc đạt được hiệu suất tương đương với ít tham số hơn cho thấy Llama 3 400B có thể hiệu quả hơn nhiều so với ChatGPT 4 về tài nguyên tính toán, tiêu thụ năng lượng và chi phí.
• Llama 3 được phát hành dưới giấy phép mở cho nghiên cứu và sử dụng thương mại. Chưa rõ liệu phiên bản 400B có được phát hành dưới cùng giấy phép mở hay không.
• Nếu 400B được phát hành dưới dạng mô hình mở, nó sẽ mang lại khả năng ngôn ngữ tiên tiến cho các nhà nghiên cứu và nhà phát triển miễn phí, thúc đẩy đổi mới và cho phép nhiều ứng dụng mới của công nghệ.
• Meta AI đã ám chỉ về việc phát hành mô hình 400B từ thông cáo báo chí ban đầu về Llama 3 vào ngày 18/4, nói rằng "các mô hình lớn nhất của chúng tôi có hơn 400 tỷ tham số".
• Người dùng WhatsApp Beta trên Android 2.24.14.7 đã phát hiện tùy chọn mới để thử nghiệm mô hình Llama 3-405B cho Meta AI, mặc dù có giới hạn đáng kể về khối lượng sử dụng.
• Mặc dù chưa có ngày phát hành chính thức, nhưng có thể dự đoán bản phát hành đầy đủ sẽ diễn ra vào cuối tháng 7 hoặc tháng 8 năm 2024.
📌 Meta sắp ra mắt Llama 3 400B, mô hình AI nguồn mở cạnh tranh trực tiếp với ChatGPT-4. Với hiệu suất tương đương nhưng ít tham số hơn, Llama 3 400B hứa hẹn mang lại hiệu quả cao hơn về tài nguyên và chi phí, đồng thời thúc đẩy đổi mới trong lĩnh vực AI ngôn ngữ.
https://www.tomsguide.com/ai/meta-is-about-to-launch-its-biggest-llama-model-yet-heres-why-its-a-big-deal
• Google vừa công bố hai mô hình mới trong dòng Gemma 2: phiên bản 27B và 9B.
• Gemma 2 27B có 27 tỷ tham số, được thiết kế để xử lý các tác vụ phức tạp hơn với độ chính xác và hiểu biết ngôn ngữ sâu sắc hơn.
• Gemma 2 9B có 9 tỷ tham số, là lựa chọn nhẹ hơn nhưng vẫn mang lại hiệu suất cao, phù hợp cho các ứng dụng cần hiệu quả tính toán và tốc độ.
• Gemma 2 vượt trội hơn Llama3 70B, Qwen 72B và Command R+ trong lĩnh vực LYMSYS Chat. Mô hình 9B hiện là mô hình hoạt động tốt nhất dưới 15B tham số.
• Các mô hình Gemma 2 nhỏ hơn khoảng 2,5 lần so với Llama 3 và chỉ được huấn luyện trên 2/3 số lượng token.
• Mô hình 27B được huấn luyện trên 13 nghìn tỷ token, trong khi mô hình 9B được huấn luyện trên 8 nghìn tỷ token.
• Cả hai mô hình đều có độ dài ngữ cảnh 8192 và sử dụng Rotary Position Embeddings (RoPE) để xử lý tốt hơn các chuỗi dài.
• Gemma 2 áp dụng kỹ thuật chưng cất kiến thức để huấn luyện các mô hình nhỏ hơn 9B và 2B với sự hỗ trợ của mô hình giáo viên lớn hơn.
• Các mô hình kết hợp các lớp chú ý cục bộ và toàn cục, giúp tăng cường độ ổn định suy luận cho ngữ cảnh dài và giảm sử dụng bộ nhớ.
• Gemma 2 sử dụng phương pháp Soft Attention Capping để duy trì quá trình huấn luyện và tinh chỉnh ổn định.
• Các kỹ thuật như Exponential Moving Average (EMA), Spherical Linear Interpolation (SLERP) và Linear Interpolation with Truncated Inference (LITI) được áp dụng ở các giai đoạn huấn luyện khác nhau để tăng hiệu suất.
• Group Query Attention được triển khai với hai nhóm để tăng tốc độ suy luận.
• Các mô hình Gemma 2 có thể ứng dụng trong nhiều lĩnh vực như tự động hóa dịch vụ khách hàng, tạo nội dung, dịch thuật và công cụ giáo dục.
• Sự ra mắt của dòng Gemma 2 đánh dấu bước tiến quan trọng trong công nghệ AI, thể hiện cam kết của Google trong việc phát triển các công cụ AI mạnh mẽ nhưng hiệu quả.
📌 Google ra mắt Gemma 2 với hai phiên bản 27B và 9B, vượt trội hơn đối thủ cạnh tranh như Llama3 70B và Qwen 72B. Mô hình 9B là mô hình hoạt động tốt nhất dưới 15B tham số, được huấn luyện trên 8 nghìn tỷ token. Gemma 2 áp dụng nhiều kỹ thuật tiên tiến, hứa hẹn mang lại những đột phá trong xử lý ngôn ngữ tự nhiên.
https://www.marktechpost.com/2024/06/27/google-releases-gemma-2-series-models-advanced-llm-models-in-9b-and-27b-sizes-trained-on-13t-tokens/
• MaxKB là một hệ thống trả lời câu hỏi tiên tiến dựa trên các mô hình ngôn ngữ lớn (LLMs), được thiết kế để cách mạng hóa việc quản lý kiến thức trong doanh nghiệp.
• Hệ thống này giải quyết các thách thức mà nhiều tổ chức gặp phải trong việc quản lý và truy xuất thông tin từ kho dữ liệu của họ.
• Các giải pháp hiện có thường đòi hỏi thiết lập phức tạp và chuyên môn về lập trình, gây khó khăn cho việc tích hợp vào hệ thống hiện có.
• MaxKB đơn giản hóa quá trình tạo và triển khai cơ sở kiến thức toàn diện, không yêu cầu kiến thức kỹ thuật chuyên sâu.
• Hệ thống hỗ trợ tải lên tài liệu trực tiếp, tự động thu thập tài liệu trực tuyến và có khả năng xử lý văn bản thông minh.
• MaxKB cho phép tách và vector hóa văn bản tự động, nâng cao khả năng truy cập và tìm kiếm dữ liệu.
• Hệ thống sử dụng công nghệ tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài (RAG) để tinh chỉnh kết quả tìm kiếm, cung cấp câu trả lời chính xác cho các truy vấn.
• MaxKB tích hợp liền mạch với nhiều mô hình lớn khác nhau, đảm bảo tính linh hoạt và khả năng mở rộng cho các nhu cầu kinh doanh đa dạng.
• Giao diện trực quan của MaxKB làm cho nó dễ tiếp cận với tất cả người dùng, bất kể trình độ kỹ thuật.
• Hệ thống có thể được triển khai trong môi trường cục bộ hoặc tích hợp vào các hệ thống của bên thứ ba.
• MaxKB nổi bật về khả năng tiếp cận và hiệu suất, giúp các tổ chức khai thác dữ liệu của họ một cách hiệu quả.
• Hệ thống này giải quyết nhu cầu về một giải pháp thân thiện với người dùng và hiệu quả trong việc quản lý kiến thức doanh nghiệp.
• MaxKB không chỉ mạnh mẽ mà còn hiệu quả và đáng tin cậy, với khả năng ấn tượng trong việc xử lý và truy xuất thông tin.
📌 MaxKB là hệ thống trả lời câu hỏi dựa trên LLMs, cách mạng hóa quản lý kiến thức doanh nghiệp. Với khả năng tải tài liệu trực tiếp, thu thập tự động và xử lý thông minh, MaxKB đơn giản hóa việc truy xuất thông tin mà không cần chuyên môn kỹ thuật cao.
https://www.marktechpost.com/2024/06/27/maxkb-knowledge-base-question-answering-system-based-on-large-language-models-llms/
• Google Cloud công bố mở rộng truy cập công khai cho hai phiên bản mô hình AI hàng đầu: Gemini 1.5 Flash và Gemini 1.5 Pro.
• Gemini 1.5 Flash là mô hình đa phương thức nhỏ với cửa sổ ngữ cảnh 1 triệu token, phù hợp cho các tác vụ tần suất cao và hẹp.
• Gemini 1.5 Pro là phiên bản mạnh mẽ nhất của mô hình ngôn ngữ lớn của Google, có cửa sổ ngữ cảnh 2 triệu token - lớn nhất trong các mô hình AI nổi tiếng hiện nay.
• Thomas Kurian, CEO Google Cloud, cho biết công ty đang thấy "động lực đáng kinh ngạc" với nỗ lực AI tạo sinh, với nhiều tổ chức lớn như Accenture, Airbus, Anthropic, Box, Broadcom, Ford, Goldman Sachs, Samsung đang xây dựng trên nền tảng của họ.
• Gemini 1.5 Flash được cho là nhanh hơn 40% so với GPT-3.5 Turbo của OpenAI khi xử lý đầu vào 10.000 ký tự, với giá đầu vào thấp hơn 4 lần.
• Gemini 1.5 Pro có thể xử lý và cân nhắc lượng văn bản lớn hơn bao giờ hết trước khi tạo ra phản hồi, bao gồm 2 giờ video độ phân giải cao, gần cả ngày âm thanh, hơn 60.000 dòng mã và hơn 1,5 triệu từ.
• Google giới thiệu tính năng bộ nhớ đệm ngữ cảnh cho cả Gemini 1.5 Pro và Flash, giúp giảm chi phí đầu vào lên đến 75%.
• Tính năng thông lượng được cung cấp cho phép nhà phát triển dự trữ dung lượng suy luận, đảm bảo khả năng mở rộng và độ tin cậy cho khối lượng công việc sản xuất.
• Các tính năng mới nhằm cải thiện trải nghiệm nhà phát triển và giúp doanh nghiệp tạo ra các tác nhân và giải pháp AI "hấp dẫn".
• Google cam kết tiếp tục giới thiệu các khả năng mới cho cả mô hình và nền tảng Vertex với tốc độ nhanh chóng.
• Việc phát hành các biến thể Gemini nhằm thể hiện cách công việc AI của Google trao quyền cho doanh nghiệp phát triển các tác nhân và giải pháp AI "hấp dẫn".
📌 Google mở rộng truy cập Gemini 1.5 Flash và Pro với cửa sổ ngữ cảnh 2 triệu token, nhanh hơn 40% so với GPT-3.5 Turbo. Tính năng bộ nhớ đệm ngữ cảnh giảm chi phí 75%, thông lượng được cung cấp tăng độ tin cậy cho nhà phát triển.
https://venturebeat.com/ai/google-opens-up-gemini-1-5-flash-pro-with-2m-tokens-to-the-public/
• Abu Dhabi, thủ đô của Các Tiểu vương quốc Ả Rập Thống nhất (UAE), đang nỗ lực trở thành quốc gia dẫn đầu về trí tuệ nhân tạo (AI), bắt đầu bằng việc liên kết chặt chẽ với Mỹ.
• Microsoft đã đầu tư 1,5 tỷ USD vào G42, một tập đoàn AI có trụ sở tại Abu Dhabi, do một thành viên có ảnh hưởng của gia đình hoàng gia làm chủ tịch.
• Thỏa thuận này được cho là do chính quyền Biden muốn hạn chế ảnh hưởng của Bắc Kinh trong khu vực, trong bối cảnh Mỹ đang nỗ lực duy trì vị thế dẫn đầu so với Trung Quốc trong cuộc đua AI.
• Omar Al Olama, Bộ trưởng AI của UAE, cho biết UAE và Mỹ có cùng quan điểm về cách thúc đẩy các công nghệ này và sẽ có sự liên kết chặt chẽ hơn.
• UAE là một trong những nhà sản xuất nhiên liệu hóa thạch lớn nhất thế giới. Abu Dhabi coi việc phát triển AI là yếu tố then chốt để đa dạng hóa nền kinh tế, giảm phụ thuộc vào dầu mỏ.
• Theo báo cáo của PwC Middle East, AI có thể đóng góp 96 tỷ USD vào nền kinh tế UAE vào năm 2030, tương đương gần 14% GDP.
• UAE đặt mục tiêu trở thành quốc gia dẫn đầu toàn cầu về AI vào năm 2031. Chiến lược quốc gia bao gồm triển khai AI trong các lĩnh vực ưu tiên như năng lượng và hậu cần, phát triển hệ sinh thái và thu hút nhân tài.
• Tính đến tháng 9/2023, UAE có 120.000 người làm việc trong lĩnh vực AI hoặc các ngành liên quan, tăng từ 30.000 người hai năm trước đó.
• UAE đôi khi phải ưu tiên mối quan hệ với Mỹ hơn các đối thủ của Washington. G42 đã phải cắt đứt quan hệ với các nhà cung cấp phần cứng Trung Quốc, bao gồm cả Huawei, để ủng hộ các công ty Mỹ.
• Vào cuối năm 2023, Viện Đổi mới Công nghệ Abu Dhabi đã ra mắt mô hình ngôn ngữ lớn (LLM) có tên Falcon10B, vượt trội hơn các sản phẩm của Google và Meta theo một số tiêu chí.
• UAE cũng đã phát triển Jais, một mô hình AI tạo sinh được đào tạo bằng tiếng Ả Rập và tiếng Anh, nhằm mở đường cho các LLM trong các ngôn ngữ khác "chưa được đại diện trong AI chủ đạo".
• Falcon và Jais đều là nguồn mở, cho phép bất kỳ ai cũng có thể sử dụng hoặc thay đổi mã nguồn. Điều này giúp Abu Dhabi định vị mình như một đồng minh của các quốc gia đang phát triển không có đủ nguồn lực để xây dựng công cụ AI riêng.
• Olama kêu gọi một liên minh toàn cầu để quản lý sự phát triển và sử dụng công nghệ AI, nhằm giải quyết các mối lo ngại về rủi ro tiềm ẩn của AI.
📌 UAE đặt mục tiêu trở thành siêu cường AI vào năm 2031 thông qua chiến lược quốc gia và đầu tư lớn. Với 120.000 người làm việc trong lĩnh vực AI, dự kiến đóng góp 96 tỷ USD vào GDP năm 2030, UAE đang nhanh chóng trở thành trung tâm AI quan trọng toàn cầu.
https://www.cnn.com/2024/06/26/tech/uae-ai-minister-omar-al-olama-hnk-spc-intl/index.html
• Hugging Face vừa ra mắt bảng xếp hạng mô hình ngôn ngữ mở (Open LLM Leaderboard), đánh giá hiệu suất của các mô hình ngôn ngữ lớn mã nguồn mở.
• Bảng xếp hạng này đánh giá các mô hình dựa trên nhiều tiêu chí như: ARC (câu hỏi đa lựa chọn), HellaSwag (suy luận thông thường), MMLU (kiến thức đa lĩnh vực), TruthfulQA (khả năng trả lời trung thực) và Winogrande (suy luận).
• Các mô hình Trung Quốc đang thống trị bảng xếp hạng, với ChatGLM2-6B của Tsinghua University đứng đầu, đạt điểm trung bình 55,3 trên tất cả các tiêu chí.
• Baichuan-13B-Base của Baichuan Intelligence đứng thứ hai với điểm trung bình 54,8, theo sau là BLOOM-7B1-mt của BigScience với 53,6 điểm.
• Mô hình ChatGLM2-6B đạt điểm cao nhất trong các bài kiểm tra ARC (62,6) và HellaSwag (78,5), trong khi Baichuan-13B-Base dẫn đầu về MMLU (54,8) và TruthfulQA (44,6).
• BLOOM-7B1-mt, một mô hình đa ngôn ngữ, đạt điểm cao nhất trong bài kiểm tra Winogrande (73,9).
• Bảng xếp hạng cũng bao gồm các mô hình nổi tiếng khác như Falcon, Pythia, OPT và FLAN-T5.
• Hugging Face khuyến khích cộng đồng đóng góp bằng cách thêm các mô hình mới vào bảng xếp hạng thông qua pull requests trên GitHub.
• Bảng xếp hạng này cung cấp cái nhìn tổng quan về hiệu suất của các mô hình ngôn ngữ mã nguồn mở, giúp các nhà nghiên cứu và nhà phát triển so sánh và lựa chọn mô hình phù hợp cho ứng dụng của họ.
• Sự thống trị của các mô hình Trung Quốc trong bảng xếp hạng cho thấy sự phát triển nhanh chóng của ngành AI tại quốc gia này.
• Bảng xếp hạng cũng nhấn mạnh tầm quan trọng của việc phát triển các mô hình ngôn ngữ mã nguồn mở, tạo cơ hội cho cộng đồng nghiên cứu AI tiếp cận và cải tiến các mô hình này.
• Hugging Face, nền tảng phổ biến cho việc chia sẻ và triển khai các mô hình máy học, đang đóng vai trò quan trọng trong việc thúc đẩy sự phát triển và đánh giá các mô hình ngôn ngữ mã nguồn mở.
📌 Hugging Face ra mắt bảng xếp hạng mô hình ngôn ngữ mở, với các mô hình Trung Quốc dẫn đầu. ChatGLM2-6B đứng đầu với 55,3 điểm trung bình, tiếp theo là Baichuan-13B-Base và BLOOM-7B1-mt. Bảng xếp hạng đánh giá mô hình dựa trên nhiều tiêu chí, thúc đẩy sự phát triển của AI nguồn mở.
https://analyticsindiamag.com/hugging-face-launches-open-llm-leaderboard-chinese-models-dominate/
• Các nhà nghiên cứu Alibaba vừa công bố mô hình nhúng văn bản mới có tên gte-Qwen2-7B-instruct, kế thừa mô hình gte-Qwen1.5-7B-instruct trước đó.
• Mô hình mới dựa trên Qwen2-7B thay vì Qwen1.5-7B, cho thấy những cải tiến của Qwen2-7B.
• Hiệu suất tăng đáng kể với điểm tổng thể cải thiện từ 67,34 lên 70,24, và chỉ số nDCG@10 cho Retrieval trên bảng xếp hạng MTEB tăng từ 57,91 lên 60,25.
• Mô hình có 7 tỷ tham số, khá lớn đối với các mô hình nhúng, và hỗ trợ độ dài chuỗi tối đa 32k token đầu vào.
• Được tích hợp với Sentence Transformers, giúp tương thích với các công cụ như LangChain, LlamaIndex, Haystack, v.v.
• Tính đến ngày 21/6/2024, gte-Qwen2-7B-instruct xếp hạng 2 trong cả đánh giá tiếng Anh và tiếng Trung trên Massive Text Embedding Benchmark (MTEB).
• Mô hình sử dụng cơ chế chú ý hai chiều để nâng cao khả năng hiểu ngữ cảnh.
• Áp dụng kỹ thuật Instruction Tuning chỉ ở phía truy vấn để tăng hiệu quả.
• Quá trình đào tạo toàn diện trên tập dữ liệu đa ngôn ngữ lớn từ nhiều lĩnh vực và tình huống khác nhau.
• Sử dụng cả dữ liệu giám sát yếu và có giám sát để hữu ích cho nhiều ngôn ngữ và nhiều tác vụ khác nhau.
• Dòng mô hình gte có hai loại: mô hình chỉ mã hóa dựa trên kiến trúc BERT và mô hình chỉ giải mã dựa trên kiến trúc LLM.
• Nhúng văn bản (Text embeddings - TEs) là biểu diễn vector thấp chiều của văn bản có kích thước khác nhau, quan trọng cho nhiều tác vụ xử lý ngôn ngữ tự nhiên (NLP).
• TEs thường được kiểm tra trên số lượng nhỏ bộ dữ liệu từ một tác vụ cụ thể, không thể hiện hiệu suất cho các tác vụ khác.
• Massive Text Embedding Benchmark (MTEB) được giới thiệu để giải quyết vấn đề này, bao gồm 8 tác vụ nhúng, 58 bộ dữ liệu và 112 ngôn ngữ.
📌 Alibaba công bố mô hình nhúng văn bản gte-Qwen2-7B-instruct mới dựa trên Qwen2-7B, cải thiện hiệu suất từ 67,34 lên 70,24 điểm trên MTEB. Mô hình 7 tỷ tham số này hỗ trợ 32k token đầu vào, tích hợp với nhiều công cụ NLP và xếp hạng 2 cho cả tiếng Anh và tiếng Trung.
https://www.marktechpost.com/2024/06/21/alibaba-ai-researchers-released-a-new-gte-qwen2-7b-instruct-embedding-model-based-on-the-qwen2-7b-model-with-better-performance/
- Meta công bố phát hành công khai họ mô hình AI mới có tên Chameleon, tương đương với các công cụ thương mại như Gemini Pro và GPT-4V.
- Chameleon có phiên bản 7 tỷ và 34 tỷ tham số, có khả năng hiểu và tạo ra hình ảnh và văn bản.
- Chameleon có thể xử lý kết hợp văn bản và hình ảnh (có thể liên quan với nhau) và tạo ra phản hồi có ý nghĩa.
- Ví dụ, bạn có thể chụp ảnh nội dung tủ lạnh và hỏi Chameleon món ăn nào có thể nấu chỉ với nguyên liệu sẵn có.
- Điều này không thể thực hiện được với thế hệ mô hình AI Llama, đưa nguồn mở đến gần hơn với các mô hình thị giác chính thống nổi tiếng hơn từ OpenAI và Google.
- Nhóm nghiên cứu Fundamental AI Research (FAIR) tại Meta đã phát hành công khai mô hình này cho mục đích nghiên cứu, tuy nhiên có một số hạn chế.
- Chìa khóa thành công của Chameleon là kiến trúc hoàn toàn dựa trên token. Mô hình học cách lý luận về hình ảnh và văn bản một cách liên kết.
- Các thách thức kỹ thuật mà nhóm Meta phải vượt qua bao gồm những vấn đề liên quan đến tính ổn định tối ưu hóa và mở rộng quy mô, bằng cách sử dụng các phương pháp và kỹ thuật đào tạo mới.
- Người dùng có thể yêu cầu Chameleon tạo lịch trình trải nghiệm ngày hạ chí và mô hình AI sẽ cung cấp hình ảnh liên quan kèm theo văn bản tạo ra.
- Theo đánh giá của con người, Chameleon tương đương hoặc vượt trội hơn các mô hình như Gemini Pro và GPT-4V khi lời nhắc hoặc đầu ra chứa chuỗi hỗn hợp cả hình ảnh và văn bản.
- Phiên bản Chameleon được phát hành công khai chỉ có thể tạo ra văn bản đầu ra và mức độ an toàn được tăng cường có chủ đích.
- Đối với các nhà nghiên cứu, Chameleon là nguồn cảm hứng cho các cách thay thế để đào tạo và thiết kế mô hình AI.
📌 Chameleon của Meta là bước tiến đáng kể trong AI mã nguồn mở, với khả năng xử lý linh hoạt cả hình ảnh và văn bản, tương đương các mô hình thương mại như Gemini Pro, GPT-4V. Kiến trúc dựa trên token và các kỹ thuật đào tạo mới giúp Chameleon vượt qua thách thức tối ưu hóa, mở rộng quy mô. Phiên bản công khai hiện chỉ tạo văn bản đầu ra, nhưng đã tiến bộ đáng kể so với 5 tháng trước.
https://www.tomsguide.com/ai/meta-just-dropped-an-open-source-gpt-4o-style-model-heres-what-it-means
- NVIDIA giới thiệu HelpSteer2 và Llama3-70B-SteerLM-RM, hai công nghệ đột phá trong trí tuệ nhân tạo
- HelpSteer2: hệ thống lái xe tự động mới với thuật toán tiên tiến và tích hợp cảm biến nâng cao
- Sử dụng kết hợp cảm biến lidar, radar và camera để tạo ra hiểu biết toàn diện về môi trường xung quanh xe
- Liên tục học hỏi và thích nghi với các tình huống lái xe trong thế giới thực bằng cách xử lý lượng lớn dữ liệu
- Tính năng hỗ trợ người lái tiên tiến: giữ làn đường tự động, kiểm soát hành trình thích ứng, tránh va chạm
- Llama3-70B-SteerLM-RM: mô hình ngôn ngữ tân tiến với 70 tỷ tham số
- Được thiết kế để xuất sắc trong các tác vụ đòi hỏi hiểu ngôn ngữ và tạo ngôn ngữ tinh tế
- Khả năng điều khiển đầu ra dựa trên yêu cầu hoặc ràng buộc cụ thể của người dùng
- Kết hợp cơ chế học tăng cường mạnh mẽ để tinh chỉnh hiệu suất dựa trên phản hồi của người dùng
- Thể hiện cam kết của NVIDIA trong việc thúc đẩy AI và tiềm năng của AI trong việc thay đổi nhiều ngành công nghiệp
📌 HelpSteer2 và Llama3-70B-SteerLM-RM của NVIDIA đánh dấu bước tiến quan trọng trong lĩnh vực lái xe tự động và xử lý ngôn ngữ tự nhiên với các thuật toán tiên tiến, tích hợp cảm biến nâng cao và 70 tỷ tham số. Hai công nghệ này hứa hẹn sẽ thúc đẩy những tiến bộ đáng kể, nâng cao an toàn, hiệu quả và trải nghiệm người dùng, tác động sâu sắc đến cách con người tương tác với công nghệ trong cuộc sống hàng ngày.
https://www.marktechpost.com/2024/06/18/nvidia-ai-releases-helpsteer2-and-llama3-70b-steerlm-rm-an-open-source-helpfulness-dataset-and-a-70-billion-parameter-language-model-respectively/
- DeepSeek Coder V2 được xây dựng dựa trên DeepSeek-V2, một mô hình MoE ra mắt tháng trước.
- Mô hình này hỗ trợ hơn 300 ngôn ngữ lập trình, tăng từ 86 ngôn ngữ của phiên bản gốc, và mở rộng cửa sổ ngữ cảnh lên 128K.
- Trên các bài kiểm tra MBPP+, HumanEval và Aider, DeepSeek Coder V2 đạt điểm số lần lượt là 76.2, 90.2 và 73.7, vượt trội hơn hầu hết các mô hình nguồn đóng và mở như GPT-4 Turbo, Claude 3 Opus, Gemini 1.5 Pro, Codestral và Llama-3 70B.
- Để đạt được những tiến bộ này, DeepSeek đã tiền huấn luyện mô hình cơ sở V2 trên bộ dữ liệu bổ sung 6 nghìn tỷ token, chủ yếu bao gồm dữ liệu liên quan đến mã và toán học từ GitHub và CommonCrawl.
- DeepSeek Coder V2 cũng đạt hiệu suất tốt trong các tác vụ lý luận và hiểu ngôn ngữ tổng quát. Trên bài kiểm tra MMLU, nó đạt 79.2 điểm, tốt hơn nhiều so với các mô hình chuyên biệt về mã khác.
- Mô hình này hiện được cung cấp theo giấy phép MIT, cho phép sử dụng cả trong nghiên cứu và thương mại không hạn chế. Người dùng có thể tải xuống cả hai kích thước 16B và 236B trên Hugging Face hoặc truy cập qua API trên nền tảng của công ty.
📌 DeepSeek Coder V2 là mô hình lập trình mã nguồn mở đầu tiên vượt trội hơn GPT-4 Turbo và các mô hình nguồn đóng khác. Với khả năng hỗ trợ hơn 300 ngôn ngữ lập trình và hiệu suất mạnh mẽ trên nhiều bài kiểm tra, mô hình 16B và 236B này hứa hẹn mang lại nhiều tiện ích cho cả nghiên cứu và ứng dụng thương mại.
https://venturebeat.com/ai/chinas-deepseek-coder-becomes-first-open-source-coding-model-to-beat-gpt-4-turbo/
- Meta công bố 4 mô hình AI mới và các sản phẩm nghiên cứu bổ sung tại Meta FAIR, như một phần cam kết thúc đẩy một hệ sinh thái mở.
- Các mô hình AI mới bao gồm Meta Chameleon, cung cấp các mô hình ngôn ngữ 7B và 34B hỗ trợ đầu vào hỗn hợp và đầu ra chỉ dạng văn bản.
- Meta Multi-Token Prediction là mô hình ngôn ngữ được tiền huấn luyện để hoàn thành mã sử dụng dự đoán đa token. Phương pháp này cải thiện khả năng mô hình, hiệu quả huấn luyện và tốc độ nhanh hơn.
- Meta JASCO là mô hình tạo sinh văn bản thành âm nhạc, chấp nhận nhiều đầu vào điều kiện để kiểm soát tốt hơn. Bài báo đi kèm đã có sẵn, mô hình sẽ sớm được phát hành.
- Meta AudioSeal là mô hình thủy vân âm thanh được thiết kế đặc biệt để phát hiện cục bộ giọng nói do AI tạo ra và có sẵn theo giấy phép thương mại.
- Bên cạnh các mô hình này, Meta đang phát hành thêm các sản phẩm Responsible AI (RAI), bao gồm nghiên cứu, dữ liệu và mã nhằm đo lường và cải thiện sự đại diện của sở thích và đa dạng về địa lý và văn hóa trong các hệ thống AI.
- Meta nhấn mạnh rằng quyền truy cập vào AI tiên tiến nhất nên dành cho tất cả mọi người, không chỉ một vài công ty công nghệ lớn.
📌 Meta đã giới thiệu 4 mô hình AI mới cùng các sản phẩm nghiên cứu, bao gồm Meta Chameleon, Meta Multi-Token Prediction, Meta JASCO và Meta AudioSeal. Bên cạnh đó, Meta cũng phát hành thêm các sản phẩm RAI nhằm cải thiện tính đại diện và đa dạng trong AI. Công ty nhấn mạnh tầm quan trọng của việc chia sẻ công nghệ AI tiên tiến cho cộng đồng rộng rãi.
https://analyticsindiamag.com/meta-announces-four-new-ai-models-and-additional-research-artifacts/
- DeepSeek AI giới thiệu DeepSeek-Coder-V2, mô hình ngôn ngữ mã nguồn mở mới được phát triển dựa trên nền tảng DeepSeek-V2, trải qua quá trình tiền huấn luyện bổ sung với 6 nghìn tỷ token.
- DeepSeek-Coder-V2 sử dụng framework Mixture-of-Experts (MoE), hỗ trợ 338 ngôn ngữ lập trình và mở rộng ngữ cảnh từ 16K lên 128K token. Mô hình có kiến trúc gồm 16 tỷ và 236 tỷ tham số.
- Dữ liệu huấn luyện bao gồm 60% mã nguồn, 10% kho ngữ liệu toán học và 30% kho ngữ liệu ngôn ngữ tự nhiên, lấy từ GitHub và CommonCrawl.
- DeepSeek-Coder-V2 có 4 biến thể: DeepSeek-Coder-V2-Instruct, DeepSeek-Coder-V2-Base, DeepSeek-Coder-V2-Lite-Base và DeepSeek-Coder-V2-Lite-Instruct, mỗi biến thể được tối ưu cho các tác vụ và nhu cầu hiệu suất cụ thể.
- Trong các đánh giá chuẩn, DeepSeek-Coder-V2 vượt trội hơn các mô hình nguồn đóng hàng đầu trong các tác vụ lập trình và toán học. Mô hình đạt điểm 90.2% trên bài kiểm tra HumanEval và 75.7% trên bài kiểm tra MATH.
- Nghiên cứu này nhấn mạnh những cải tiến đáng kể của DeepSeek-Coder-V2 trong trí tuệ mã nguồn, giải quyết khoảng cách hiệu suất giữa các mô hình mã nguồn mở và nguồn đóng.
📌 DeepSeek-Coder-V2 đánh dấu bước tiến quan trọng trong phát triển mô hình mã nguồn mở, với khả năng xử lý các tác vụ lập trình phức tạp, hỗ trợ 338 ngôn ngữ và độ dài ngữ cảnh lên đến 128K token. Mô hình đạt điểm vượt trội 90.2% trên HumanEval và 75.7% trên MATH, thể hiện tiềm năng cách mạng hóa lĩnh vực trí tuệ mã nguồn.
https://www.marktechpost.com/2024/06/18/meet-deepseek-coder-v2-by-deepseek-ai-the-first-open-source-ai-model-to-surpass-gpt4-turbo-in-coding-and-math-supporting-338-languages-and-128k-context-length/
- GitHub Copilot, ban đầu được giới thiệu như một công cụ tự động hoàn thành mã dựa trên AI, đã phát triển thành một trợ lý AI toàn diện, cách mạng hóa lĩnh vực phát triển phần mềm.
- Với việc tích hợp các công cụ và dịch vụ của bên thứ ba, GitHub Copilot đang định vị mình như một thị trường sôi động của các trợ lý AI bên thứ ba.
- Điều này trao quyền cho các nhà phát triển tối ưu hóa quy trình làm việc, tăng năng suất và khai thác một loạt các chức năng chuyên biệt.
- Kể từ khi ra mắt vào năm 2021, GitHub Copilot đã thu hút sự chú ý đáng kể từ các nhà phát triển. Ban đầu được thiết kế để hỗ trợ tự động hoàn thành mã, Copilot đã mở rộng đáng kể khả năng của mình.
- Các bản cập nhật gần đây cho thấy Copilot hiện có thể tạo ra toàn bộ đoạn mã, hỗ trợ gỡ lỗi và thậm chí hiểu được các codebase phức tạp.
- Việc giới thiệu GitHub Copilot Chat càng nâng cao khả năng của nó bằng cách tích hợp GPT-4, cung cấp khả năng lập luận logic nâng cao và khả năng tạo mã.
- GitHub Marketplace hiện trưng bày một loạt Copilot Extensions, giúp các nhà phát triển dễ dàng truy cập các công cụ như Docker, Lambda Test, Stripe và MongoDB.
- Cách tiếp cận hệ sinh thái này cho phép các nhà phát triển tùy chỉnh rộng rãi môi trường phát triển của họ, tích hợp các công cụ và dịch vụ ưa thích vào quy trình làm việc dựa trên AI của Copilot.
- Các tiện ích mở rộng này tương thích với GitHub Copilot chat trên GitHub.com, Visual Studio và Visual Studio Code.
- Bằng cách khai thác thị trường VS Code rộng lớn, các nhà phát triển có thể mở rộng khả năng của Copilot với nhiều tiện ích mở rộng khác nhau.
- Điều này không chỉ nâng cao chức năng mà còn giúp Copilot phù hợp với chiến lược của Microsoft trong việc tạo ra các hệ sinh thái thịnh vượng xung quanh sản phẩm của họ.
- Việc tích hợp với các công cụ khác của Microsoft như Azure càng làm tăng tiện ích của Copilot, cho phép chuyển đổi liền mạch giữa viết mã, kiểm thử và triển khai.
📌 GitHub Copilot đã phát triển vượt bậc từ một công cụ tự động hoàn thành mã thành trợ lý AI toàn diện với hệ sinh thái mở rộng. Nó tích hợp nhiều công cụ, dịch vụ của bên thứ ba, hỗ trợ gỡ lỗi, tạo mã với GPT-4, tương thích VS Code extensions, giúp tối ưu quy trình, tăng năng suất cho nhà phát triển, đồng thời phù hợp chiến lược xây dựng hệ sinh thái của Microsoft.
https://www.forbes.com/sites/janakirammsv/2024/06/19/how-github-copilot-evolved-with-enhanced-ai-and-ecosystem-expansion/
- Lamini AI đã giới thiệu Lamini Memory Tuning, một kỹ thuật đột phá trong các mô hình ngôn ngữ lớn (LLMs), nâng cao độ chính xác lên 95% và giảm ảo giác từ 50% xuống chỉ còn 5%.
- Kỹ thuật này sử dụng hàng triệu bộ điều chỉnh chuyên gia (như Low-Rank Adapters hoặc LoRAs) với các sự kiện chính xác trên bất kỳ LLM nguồn mở nào, như Llama 3 hoặc Mistral 3.
- Lamini Memory Tuning nhúng các sự kiện vào mô hình để truy xuất thông tin liên quan nhất trong quá trình suy luận, giảm đáng kể độ trễ và chi phí trong khi duy trì độ chính xác và tốc độ cao.
- Một công ty Fortune 500 đã sử dụng Lamini Memory Tuning để đạt được độ chính xác 95% trong các ứng dụng quan trọng, so với 50% của các phương pháp trước đó.
- Các phương pháp truyền thống như Prompting và Retrieval-Augmented Generation (RAG) cải thiện độ chính xác của LLM nhưng không loại bỏ hoàn toàn ảo giác.
- Lamini Memory Tuning kết hợp các kỹ thuật truy xuất thông tin với AI, dạy mô hình rằng câu trả lời gần đúng cũng sai như câu trả lời hoàn toàn sai.
- Kỹ thuật này tạo ra một hỗn hợp lớn các chuyên gia trí nhớ (MoMEs) tương tự như các chỉ số chuyên biệt trong hệ thống truy xuất thông tin, được chọn động trong quá trình suy luận.
- Kết quả là một mô hình kích hoạt thưa thớt có khả năng mở rộng đến nhiều tham số trong khi duy trì chi phí suy luận thấp, mở rộng ứng dụng thực tế của LLMs vào các lĩnh vực trước đây bị cản trở bởi ảo giác.
- Lamini Memory Tuning hứa hẹn độ chính xác cao hơn, chi phí thấp hơn và chu kỳ phát triển nhanh hơn, cho phép áp dụng và triển khai rộng rãi trong nhiều ngành công nghiệp.
📌 Lamini Memory Tuning của Lamini AI đạt 95% độ chính xác và giảm 90% ảo giác trong các mô hình ngôn ngữ lớn, mở ra tiềm năng cho các giải pháp AI tự động và chính xác cao trong nhiều ngành công nghiệp.
https://www.marktechpost.com/2024/06/17/lamini-ais-memory-tuning-achieves-95-accuracy-and-reduces-hallucinations-by-90-in-large-language-models/
- Bộ Tulu 2.5 của Allen Institute for AI đánh dấu bước tiến quan trọng trong huấn luyện mô hình sử dụng Direct Preference Optimization (DPO) và Proximal Policy Optimization (PPO).
- Bộ bao gồm các mô hình đa dạng được huấn luyện trên nhiều bộ dữ liệu để cải thiện mô hình phần thưởng và giá trị, nhằm nâng cao hiệu suất của mô hình ngôn ngữ trong tạo văn bản, tuân thủ hướng dẫn và lập luận.
- Các biến thể nổi bật: Tulu 2.5 PPO 13B UF Mean 70B UF RM (mô hình tốt nhất), Tulu 2.5 PPO 13B Chatbot Arena 2023 (cải thiện khả năng chatbot), Tulu 2.5 DPO 13B StackExchange 60K (sử dụng 60.000 mẫu từ StackExchange), Tulu 2.5 DPO 13B Nectar 60K (sử dụng dữ liệu tổng hợp chất lượng cao), Tulu 2.5 PPO 13B HH-RLHF 60K (sử dụng phản hồi chi tiết từ con người), Tulu 2.5 DPO 13B PRM Phase 2 (cải thiện lập luận toán học), Tulu 2.5 DPO 13B HelpSteer (cải thiện tính hữu ích và rõ ràng).
- Thành phần chính và phương pháp huấn luyện: Dữ liệu ưu tiên (prompt, phản hồi, xếp hạng), DPO (tối ưu hóa trực tiếp trên dữ liệu ưu tiên), PPO (huấn luyện mô hình phần thưởng rồi tối ưu hóa chính sách), mô hình phần thưởng và giá trị.
- Đánh giá hiệu suất trên nhiều tiêu chuẩn: tính xác thực, lập luận, mã hóa, tuân thủ hướng dẫn, an toàn. Mô hình PPO vượt trội hơn DPO.
- Cải tiến đáng chú ý: Tuân thủ hướng dẫn và tính trung thực tốt hơn, khả năng mở rộng với mô hình phần thưởng lên tới 70 tỷ tham số, dữ liệu tổng hợp như UltraFeedback rất hiệu quả.
📌 Bộ Tulu 2.5 của Allen Institute for AI đại diện cho bước tiến đáng kể trong học tập dựa trên sở thích cho các mô hình ngôn ngữ. Với các phương pháp huấn luyện tiên tiến và sử dụng các bộ dữ liệu chất lượng cao, bộ này thiết lập tiêu chuẩn mới cho hiệu suất và độ tin cậy của mô hình AI, mở ra tiềm năng ứng dụng rộng rãi trong tạo văn bản, lập luận, mã hóa và nhiều lĩnh vực khác.
https://www.marktechpost.com/2024/06/16/allen-institute-for-ai-releases-tulu-2-5-suite-on-hugging-face-advanced-ai-models-trained-with-dpo-and-ppo-featuring-reward-and-value-models/
- OpenVLA là một mô hình VLA nguồn mở 7B tham số, đặt ra tiêu chuẩn mới cho các chính sách thao tác robot, do các nhà nghiên cứu từ Stanford, UC Berkeley, Toyota Research Institute, Google Deepmind và MIT đề xuất.
- OpenVLA bao gồm một mô hình ngôn ngữ điều kiện trực quan được tiền huấn luyện, nắm bắt các chi tiết trực quan ở nhiều cấp độ khác nhau. Nó được tinh chỉnh trên tập dữ liệu lớn và đa dạng gồm 970k quỹ đạo thao tác robot từ tập dữ liệu Open-X Embodiment.
- OpenVLA vượt trội hơn mô hình hàng đầu trước đó, RT-2-X 55B tham số, với 16,5% tỷ lệ thành công tuyệt đối trên 29 tác vụ trên nền tảng WidowX và Google Robot.
- Các chính sách OpenVLA hoạt động tốt hơn các chính sách được tiền huấn luyện và tinh chỉnh như Octo. Để huấn luyện OpenVLA, khung VLM Prismatic-7B được tiền huấn luyện để dự đoán các hành động của robot.
- Cả hai phiên bản của Diffusion Policy đều tốt bằng hoặc vượt trội hơn các chính sách tổng quát Octo và OpenVLA cho các tác vụ đơn giản hơn chỉ cần một hướng dẫn. Tuy nhiên, đối với các tác vụ tinh chỉnh phức tạp hơn liên quan đến nhiều đối tượng và cần hướng dẫn ngôn ngữ, các chính sách tổng quát được tiền huấn luyện hoạt động tốt hơn.
- OpenVLA là cách tiếp cận duy nhất đạt tỷ lệ thành công ít nhất 50% trên tất cả các tác vụ được thử nghiệm, khiến nó trở thành một lựa chọn mặc định mạnh mẽ cho các tác vụ học bắt chước, đặc biệt là những tác vụ liên quan đến nhiều hướng dẫn ngôn ngữ khác nhau.
📌 OpenVLA, một mô hình nguồn mở tiên tiến với 7 tỷ tham số, thể hiện hiệu suất vượt trội trong việc điều khiển nhiều loại robot ngay từ đầu. Phương pháp này có thể dễ dàng thích ứng với các thiết lập robot mới thông qua các kỹ thuật tinh chỉnh tham số hiệu quả, đạt tỷ lệ thành công ít nhất 50% trên tất cả các tác vụ được thử nghiệm. Tuy nhiên, OpenVLA hiện chỉ hỗ trợ quan sát hình ảnh đơn lẻ, và cần được mở rộng để hỗ trợ nhiều đầu vào hình ảnh, cảm nhận vị trí và lịch sử quan sát.
https://www.marktechpost.com/2024/06/16/openvla-a-7b-parameter-open-source-vla-setting-new-state-of-the-art-for-robot-manipulation-policies/
- Nhiều người dùng Reddit cho rằng 99% trong số 700.000 mô hình ngôn ngữ lớn (LLM) trên Hugging Face là vô dụng và sẽ bị xóa theo thời gian. Nhiều mô hình chỉ là bản sao hoặc chỉnh sửa nhẹ từ các mô hình gốc.
- Một người dùng chia sẻ câu chuyện cá nhân về việc tạo ra mô hình với dữ liệu không đầy đủ, cho thấy nhiều mô hình là kết quả của các nghiên cứu tùy tiện hoặc kém chất lượng tương tự. Điều này đặt ra vấn đề về kiểm soát chất lượng và yêu cầu phương pháp quản lý có tổ chức hơn.
- Một số người lập luận rằng sự nhân rộng mô hình là thành phần quan trọng của quá trình thử nghiệm. Mặc dù lộn xộn, phương pháp này là cần thiết cho sự phát triển của AI, giúp các nhà nghiên cứu tạo ra các LLM chuyên biệt và phức tạp hơn.
- Nhiều người bày tỏ sự không hài lòng với quy trình đánh giá mô hình trên Hugging Face. Sự thiếu hệ thống phân loại và sắp xếp mạnh mẽ khiến việc tìm kiếm mô hình chất lượng cao trở nên khó khăn.
- Một người dùng đề xuất hệ thống chấm điểm tương đối giữa các mô hình, tương tự như bài kiểm tra trí thông minh, cho phép đánh giá linh hoạt và năng động hơn về hiệu suất mô hình.
- Giá trị của mô hình học sâu thường giảm nhanh chóng khi xuất hiện các mô hình mới tốt hơn. Do đó, cần tạo ra môi trường năng động buộc các mô hình phải liên tục thay đổi để duy trì tính phù hợp.
📌 Sự gia tăng 700.000 LLM trên Hugging Face cho thấy những thách thức và cơ hội đối với cộng đồng AI. Thời kỳ thử nghiệm mạnh mẽ này là cần thiết cho sự tiến bộ, nhưng đòi hỏi cải thiện quản lý, đánh giá và tiêu chuẩn hóa. Cần cân bằng giữa thúc đẩy đổi mới và duy trì chất lượng khi lĩnh vực AI phát triển.
https://www.marktechpost.com/2024/06/15/with-700000-large-language-models-llms-on-hugging-face-already-where-is-the-future-of-artificial-intelligence-ai-headed/
- Gretel AI đã phát hành bộ dữ liệu tài chính tổng hợp đa ngôn ngữ mới trên nền tảng HuggingFace 🤗 để hỗ trợ các nhà phát triển AI trong việc phát hiện thông tin nhận dạng cá nhân (PII).
- Bộ dữ liệu bao gồm 55.940 bản ghi, trong đó 50.776 mẫu dùng để huấn luyện và 5.164 mẫu dùng để kiểm tra.
- Dữ liệu đa dạng với 100 định dạng tài liệu tài chính khác nhau, mỗi loại có 20 tiểu loại cụ thể.
- Chứa 29 loại PII khác nhau, phù hợp với trình tạo thư viện Python Faker để dễ dàng phát hiện và thay thế.
- Độ dài trung bình của tài liệu là 1.357 ký tự.
- Hỗ trợ đa ngôn ngữ: Tiếng Anh, Tây Ban Nha, Thụy Điển, Đức, Ý, Hà Lan và Pháp.
- Sử dụng kỹ thuật "LLM-as-a-Judge" với mô hình ngôn ngữ Mistral-7B để đảm bảo chất lượng dữ liệu.
- Bộ dữ liệu có thể được sử dụng để huấn luyện các mô hình NER, kiểm tra hệ thống quét PII, đánh giá hệ thống khử nhận dạng và phát triển các giải pháp bảo mật dữ liệu cho ngành tài chính.
📌 Bộ dữ liệu tài chính tổng hợp đa ngôn ngữ mới của Gretel AI là một nguồn tài nguyên quý giá cho các nhà phát triển và nghiên cứu xây dựng các giải pháp phát hiện PII mạnh mẽ. Với 55.940 bản ghi đa dạng, hỗ trợ 7 ngôn ngữ và đảm bảo chất lượng cao, bộ dữ liệu này sẽ thúc đẩy sự phát triển của các hệ thống AI chính xác, công bằng và đáng tin cậy hơn trong lĩnh vực tài chính.
https://www.marktechpost.com/2024/06/13/gretel-ai-releases-a-new-multilingual-synthetic-financial-dataset-on-huggingface-%F0%9F%A4%97-for-ai-developers-tackling-personally-identifiable-information-pii-detection/
- SEA-LION là mô hình ngôn ngữ lớn (LLM) mã nguồn mở do AI Singapore (AISG) phát triển, tập trung vào ngôn ngữ và văn hóa Đông Nam Á.
- Mô hình hiện chạy trên 2 phiên bản: 3 tỷ tham số và 7 tỷ tham số, được huấn luyện trên 981 tỷ token ngôn ngữ, bao gồm 623 tỷ token tiếng Anh, 128 tỷ token Đông Nam Á và 91 tỷ token tiếng Trung.
- 13% dữ liệu đằng sau SEA-LION tập trung vào Đông Nam Á, trong khi Llama 2 của Meta chỉ chứa 0.5%.
- AISG dự kiến phát hành mô hình 7 tỷ tham số mới vào giữa năm 2024 và các mô hình 13 tỷ và 30 tỷ tham số sau đó trong năm nay.
- Mục tiêu là cải thiện hiệu suất của LLM với các mô hình lớn hơn, có khả năng tạo ra các kết nối tốt hơn, có khả năng nhắc nhở zero-shot và hiểu ngữ cảnh mạnh mẽ hơn về các nét đặc trưng của khu vực.
- Singapore cũng đang tìm cách giải quyết sự thiếu hụt các tiêu chuẩn mạnh mẽ để đánh giá hiệu quả của mô hình AI và phát triển các chỉ số để xác định sự thiên vị trong các LLM tập trung vào châu Á.
- Trung Quốc hiện dẫn đầu với hơn 200 mô hình nền tảng. Các mô hình khác cũng đang nhanh chóng xuất hiện trên khắp khu vực.
- Đối với hầu hết các doanh nghiệp, việc mua các mô hình nền tảng từ các nhà cung cấp bên ngoài sẽ là chuẩn mực. Khả năng thích ứng của mô hình đối với nhu cầu kinh doanh cụ thể và tính khả dụng tại địa phương trong khu vực đặc biệt quan trọng.
- Các tổ chức nên có cái nhìn toàn diện khi đánh giá các mô hình nền tảng và duy trì cách tiếp cận tiệm tiến trong việc áp dụng AI tạo sinh.
- Ấn Độ cũng đang tìm cách xây dựng mô hình nền tảng của riêng mình để hỗ trợ tốt hơn các yêu cầu độc đáo của mình.
- Hầu hết các tổ chức ở khu vực sẽ áp dụng cách tiếp cận lai, tận dụng cả mô hình nền tảng châu Á - Thái Bình Dương và Hoa Kỳ để cung cấp năng lượng cho nền tảng AI của họ.
📌 SEA-LION là mô hình ngôn ngữ lớn mã nguồn mở đầu tiên tập trung vào Đông Nam Á với 981 tỷ token ngôn ngữ, trong đó 13% dữ liệu tập trung vào khu vực. AISG đang phát triển các mô hình lớn hơn lên đến 30 tỷ tham số và các tiêu chuẩn mới để đánh giá hiệu quả, giải quyết sự thiếu hụt và thiên vị trong các LLM hiện tại.
https://www.zdnet.com/article/singapore-is-among-asian-nations-championing-need-for-more-inclusive-ai-models/
- GenAI-Arena là nền tảng mở vững chắc, cho phép đánh giá công bằng các mô hình AI tạo sinh thông qua bình chọn của người dùng.
- Nền tảng hỗ trợ nhiều tác vụ như tạo ảnh từ văn bản, chỉnh sửa ảnh theo văn bản và tạo video từ văn bản.
- Người dùng có thể tạo ảnh, so sánh các mô hình và bình chọn ẩn danh cho mô hình ưa thích.
- Hệ thống xếp hạng phản ánh sở thích của con người, đánh giá toàn diện khả năng của mô hình.
- GenAI-Arena là nền tảng đánh giá đầu tiên hỗ trợ đầy đủ nhiều thuộc tính, quy trình bình chọn công khai, đảm bảo tính minh bạch.
- Nền tảng đã thu thập hơn 6.000 phiếu bầu cho 3 tác vụ tạo sinh đa phương thức, xây dựng bảng xếp hạng cho từng tác vụ, xác định các mô hình tiên tiến nhất.
- Đối với tác vụ tạo ảnh, các mô hình Playground V2.5 và V2 dẫn đầu, vượt trội hơn đáng kể so với SDXL thứ 7 nhờ dữ liệu huấn luyện riêng.
- Đối với tác vụ chỉnh sửa ảnh, MagicBrush, InFEdit, CosXLEdit cho phép chỉnh sửa cục bộ xếp hạng cao hơn.
- Trong tác vụ tạo video từ văn bản, T2VTurbo dẫn đầu với điểm Elo cao nhất, theo sau là StableVideoDiffusion, VideoCrafter2, AnimateDiff.
- Nghiên cứu công bố dữ liệu sở thích của con người chất lượng cao GenAI-Bench, cho thấy các mô hình ngôn ngữ đa phương thức hiện tại tương quan kém với đánh giá của con người.
📌 GenAI-Arena là nền tảng mở dựa trên bình chọn cộng đồng để xếp hạng các mô hình tạo sinh trên nhiều tác vụ. Với hơn 6.000 phiếu bầu từ tháng 2 đến tháng 6 năm 2024, các bảng xếp hạng Elo đã xác định những mô hình tiên tiến nhất. Phân tích cũng chỉ ra sự tương quan kém giữa các mô hình ngôn ngữ đa phương thức hiện có với đánh giá của con người về chất lượng nội dung được tạo ra.
https://www.marktechpost.com/2024/06/12/genai-arena-an-open-platform-for-community-based-evaluation-of-generative-ai-models/
- Yandex, gã khổng lồ công nghệ của Nga, đã phát hành một công cụ mã nguồn mở mới có tên YaFSDP nhằm giúp các công ty AI tiết kiệm tiền và tài nguyên khi huấn luyện các mô hình mới.
- Công cụ YaFSDP có thể cung cấp khả năng huấn luyện mô hình ngôn ngữ lớn (LLM) nhanh hơn và hiệu quả hơn, tiết kiệm tới 20% tài nguyên GPU, giúp tiết kiệm tiền và thời gian.
- Yandex ước tính việc sử dụng YaFSDP để huấn luyện một mô hình với 70 tỷ tham số có thể tiết kiệm tài nguyên của khoảng 150 GPU, tương đương từ 0.5 đến 1.5 triệu USD tiền thuê GPU hàng tháng.
- Sử dụng các mô hình Llama của Meta, Yandex cho biết tốc độ tăng cuối cùng là 21% và 26% trên Llama 2 70B và Llama 3 70B.
- YaFSDP không phải là sản phẩm AI đầu tiên của Yandex. Trước đó, họ đã phát hành CatBoost, YTsaurus, AQLM và Petals, mỗi sản phẩm xử lý một lĩnh vực khác nhau trong phát triển AI.
- Động thái của Yandex diễn ra sau khi họ phải thoái vốn khỏi Nga sau cuộc chiến Ukraine, bán mảng kinh doanh trong nước cho ban quản lý trước đó của họ ở Nga.
📌 Yandex đã phát hành công cụ mã nguồn mở YaFSDP giúp tiết kiệm tới 20% tài nguyên GPU và 0.5-1.5 triệu USD chi phí hàng tháng khi huấn luyện các mô hình ngôn ngữ lớn. Công cụ này cung cấp tốc độ huấn luyện nhanh hơn 21-26% so với phiên bản trước, mở ra tiềm năng to lớn cho các công ty phát triển AI.
https://www.techradar.com/pro/russias-largest-tech-company-just-released-a-free-ai-tool-that-could-save-microsoft-google-and-facebook-tens-of-millions-of-dollars
- AutoGen của Microsoft sử dụng quy trình đa tác tử để thực hiện các tác vụ phức tạp bằng cách tận dụng sức mạnh của các mô hình nền tảng lớn.
- Nền tảng chia nhỏ các vấn đề phức tạp thành các thành phần có thể quản lý được và giao vai trò chuyên biệt cho từng tác tử dựa trên khả năng độc đáo của chúng.
- Các tác tử chính của AutoGen bao gồm: Trợ lý chung, Thiết bị đầu cuối máy tính, Máy chủ web và Người điều phối.
- AutoGen là một nền tảng nguồn mở, có sẵn miễn phí trên GitHub, cho phép các nhà phát triển và nhà nghiên cứu khám phá và đóng góp vào sự phát triển của hệ thống đa tác tử.
- Nền tảng đã giành được vị trí hàng đầu trên bảng xếp hạng Gaia Benchmark và thể hiện khả năng tăng gấp đôi hiệu suất trong các câu hỏi khó đòi hỏi nhiều hành động và sử dụng công cụ.
- Quy trình đa tác tử của AutoGen tuân theo một cách tiếp cận có hệ thống, bao gồm: Truy vấn ban đầu, Tạo sổ cái, Ủy quyền tác vụ, Giám sát tiến độ, Cập nhật sổ cái và Phân công lại tác vụ.
- Các phát triển trong tương lai nhằm giải quyết các bài kiểm tra phức tạp hơn và các tình huống thực tế, đẩy ranh giới của những gì có thể với hệ thống đa tác tử.
📌 AutoGen của Microsoft đại diện cho một bước tiến đáng kể trong lĩnh vực quy trình đa tác tử để thực hiện tác vụ phức tạp. Với khả năng vượt trội trong các bài kiểm tra và tiềm năng to lớn để cách mạng hóa cách tiếp cận các vấn đề phức tạp, AutoGen đang dẫn đầu xu hướng và mở ra một tương lai tươi sáng hơn bao giờ hết cho việc giải quyết tác vụ với sự hỗ trợ của AI.
https://www.geeky-gadgets.com/microsoft-ai-agents-and-autogen/
- Các nhà nghiên cứu tại Meta, Allen Institute for AI và Đại học Washington đã giới thiệu Husky, một agent ngôn ngữ mã nguồn mở mới được thiết kế cho các tác vụ lập luận phức tạp, nhiều bước.
- Không giống như các mô hình hiện có tập trung vào các lĩnh vực cụ thể, Husky hoạt động trên một không gian hành động thống nhất, có thể xử lý các thử thách đa dạng như lập luận số, bảng và dựa trên kiến thức.
- Husky lặp lại giữa việc tạo ra các hành động để giải quyết tác vụ và thực thi các hành động này bằng cách sử dụng các mô hình chuyên gia, liên tục cập nhật trạng thái giải pháp của nó.
- Quá trình lặp lại này đã được chứng minh là một điểm khác biệt quan trọng, cho phép Husky vượt trội hơn các agent trước đó trên 14 bộ dữ liệu được sử dụng để đánh giá.
- Một trong những đổi mới chính của Husky là khả năng quản lý lập luận đa công cụ. Nó xuất sắc trong các tác vụ đòi hỏi truy xuất kiến thức còn thiếu và thực hiện các phép tính số, đạt được hiệu suất ngang bằng hoặc vượt trội hơn các mô hình tiên tiến nhất như GPT-4.
- Các nhà nghiên cứu cũng đã giới thiệu HuskyQA, một bộ đánh giá được thiết kế đặc biệt để stress test các agent ngôn ngữ trên các tác vụ lập luận đa công cụ, đặc biệt là để thực hiện lập luận số và truy xuất kiến thức còn thiếu.
- Các agent ngôn ngữ thực hiện các tác vụ phức tạp bằng cách sử dụng các công cụ để thực hiện từng bước một cách chính xác. Tuy nhiên, hầu hết các agent hiện có đều dựa trên các mô hình độc quyền hoặc được thiết kế để nhắm mục tiêu các tác vụ cụ thể, chẳng hạn như toán học hoặc trả lời câu hỏi nhiều bước.
- Mặc dù các agent AI đã thu hút sự chú ý đáng kể trong vài năm qua, việc giới thiệu một agent có khả năng lập luận trên một số tác vụ phức tạp có nghĩa là khả năng của agent đang mở rộng nhanh chóng.
📌 Husky, một agent ngôn ngữ mã nguồn mở mới của Meta AI, có khả năng xử lý các tác vụ lập luận phức tạp và đa dạng nhờ không gian hành động thống nhất. Với khả năng lập luận đa công cụ vượt trội, đặc biệt trong các tác vụ đòi hỏi truy xuất kiến thức và tính toán số, Husky đã vượt qua 14 bộ dữ liệu đánh giá và đạt hiệu suất ngang bằng hoặc cao hơn các mô hình tiên tiến như GPT-4.
https://analyticsindiamag.com/meta-ai-unveils-husky-a-unified-open-source-language-agent/
- Theo khảo sát của Wakefield, 91% lãnh đạo dữ liệu đang xây dựng ứng dụng AI, nhưng 2/3 trong số đó nói rằng họ không tin tưởng dữ liệu của mình cho các mô hình ngôn ngữ lớn (LLMs).
- Để thành công, chúng ta cần vượt qua sự thổi phồng gây nhầm lẫn và giúp các doanh nghiệp hiểu rõ về AI. Chúng ta cần nhiều niềm tin hơn (mô hình mở) và ít thành phần di chuyển hơn (nền tảng có ý kiến đòi hỏi phải đoán và áp dụng mô hình).
- Mô hình kinh doanh của Red Hat hoạt động vì sự phức tạp của công nghệ mà họ làm việc. Khách hàng sẵn sàng trả tiền để được cách ly khỏi sự phức tạp đó. Red Hat tạo ra một bản phân phối Linux, chọn các gói nhất định và sau đó kiểm tra/làm cứng bản phân phối đó cho khách hàng.
- Quá trình giải mã Linux này, kết hợp với mã nguồn mở tạo ra sự tin tưởng vào mã, đã biến Red Hat thành một doanh nghiệp trị giá hàng tỷ đô la. Thị trường cần một cái gì đó tương tự cho AI.
- OpenAI không phải là giải pháp. Nó chỉ tiếp tục làm trầm trọng thêm vấn đề với các mô hình ngày càng tăng. Các doanh nghiệp đang bắt đầu tránh xa sự thổi phồng và thực hiện nhiều công việc bình thường, hữu ích hơn với tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài (RAG).
- Các nhà cung cấp đám mây vẫn giữ nguyên kịch bản hiện có của họ. AWS cung cấp "Broad Model Choice and Generative AI Tools" trên Amazon Bedrock, nhưng hầu hết các doanh nghiệp ngày nay không cần "sự lựa chọn rộng rãi" mà là sự lựa chọn có ý nghĩa với hướng dẫn.
📌 Thị trường AI đang ở đỉnh cao của sự thổi phồng nhưng chưa đạt đỉnh cao về năng suất. Để thành công, chúng ta cần một "Red Hat cho AI" - một công ty có thể giúp các doanh nghiệp hiểu rõ và sử dụng AI một cách hiệu quả, thông qua việc cung cấp các mô hình mở và nền tảng có ý kiến, thay vì sự lựa chọn quá rộng rãi và phức tạp như hiện nay.
https://www.infoworld.com/article/3715358/we-need-a-red-hat-for-ai.html
- openEuler 24.03 LTS là bản phát hành mới nhất của hệ điều hành Linux nguồn mở openEuler, được phát triển bởi gã khổng lồ công nghệ Huawei và quản lý dưới tổ chức phi lợi nhuận OpenAtom.
- Phiên bản này thể hiện tham vọng lớn của Huawei trong lĩnh vực điện toán đám mây, điện toán biên (edge computing), trí tuệ nhân tạo (AI) và các ứng dụng nhúng.
- openEuler 24.03 LTS được Huawei hỗ trợ dài hạn trong 4 năm, dựa trên nhân Linux 6.6, cho phép người dùng cài đặt thủ công các môi trường desktop như UKUI, GNOME, Deepin, Kiran-desktop và Xfce.
- Huawei cung cấp hỗ trợ phần cứng đa dạng từ Intel, AMD, Zhaoxin, Hygon, Kunpeng, Loongson, ShenWei, Sophgo và nhiều hãng khác, bao gồm các kiến trúc CPU phổ biến như x86, ARM, SW64 và RISC-V.
- openEuler Software Center do Huawei giới thiệu, cho phép người dùng dễ dàng cài đặt ứng dụng mới và cập nhật các ứng dụng hiện có.
- Huawei tích hợp trợ lý ảo EulerCopilot dựa trên AI, hỗ trợ sinh mã, phân tích vấn đề và hỗ trợ vận hành, bảo trì hệ thống.
- Bộ ứng dụng đầy đủ từ Huawei gồm Firefox, Terminal, Calculator, Text Editor, Disks, Screenshot Tool và ứng dụng Help Manual.
- Người dùng có thể tìm hiểu sâu hơn về tầm nhìn của Huawei với bản phát hành này thông qua tài liệu white paper.
📌 openEuler 24.03 LTS cho thấy tham vọng lớn của Huawei trong việc thúc đẩy hệ điều hành nguồn mở openEuler, mang đến nhiều đột phá cho điện toán đám mây, AI và các ứng dụng nhúng. Với sự hỗ trợ mạnh mẽ từ Huawei về phần cứng, tích hợp trợ lý ảo thông minh cùng openEuler Software Center tiện lợi, phiên bản này hứa hẹn trải nghiệm an toàn, đáng tin cậy cho người dùng trong 4 năm tới, đồng thời khẳng định vị thế của Huawei trong lĩnh vực phần mềm nguồn mở.
https://news.itsfoss.com/openeuler-24-03-lts/
https://www.openeuler.org/whitepaper/en/openEuler%2024.03%20LTS%20Technical%20White%20Paper.pdf?ref=news.itsfoss.com
- Zyphra Technologies Inc., được hỗ trợ bởi Intel Capital, ra mắt Zyda - một bộ dữ liệu huấn luyện AI gồm 1,3 nghìn tỷ token, giúp các nhà nghiên cứu xây dựng các mô hình ngôn ngữ lớn (LLM).
- Zyda tổng hợp thông tin từ 7 bộ dữ liệu mã nguồn mở, được lọc bỏ nội dung vô nghĩa, trùng lặp và có hại bằng các kịch bản tùy chỉnh và ngưỡng an toàn.
- Quá trình lọc dữ liệu diễn ra qua 2 giai đoạn: loại bỏ văn bản vô nghĩa do lỗi định dạng và xóa nội dung có hại dựa trên các tiêu chí văn bản.
- Zyphra cũng loại bỏ các tài liệu trùng lặp trong từng bộ dữ liệu và giữa 7 bộ dữ liệu với nhau, giúp nén Zyda từ 2 nghìn tỷ token xuống còn 1,4 nghìn tỷ.
- Chất lượng của Zyda được kiểm tra bằng cách sử dụng nó để huấn luyện mô hình ngôn ngữ nội bộ Zamba (7 tỷ tham số) trên 128 card đồ họa Nvidia H100.
- Zamba sử dụng kiến trúc Mamba đơn giản hơn Transformer, kết hợp với lớp attention giúp ưu tiên thông tin quan trọng.
- Zamba vượt trội hơn Llama 2 7B của Meta và một số mô hình ngôn ngữ mã nguồn mở khác, mặc dù được huấn luyện trên lượng dữ liệu ít hơn.
📌 Zyda - bộ dữ liệu huấn luyện AI 1,3 nghìn tỷ token của Zyphra - giúp đơn giản hóa việc xây dựng LLM bằng cách lọc bỏ nội dung vô nghĩa, trùng lặp và có hại. Mô hình Zamba được huấn luyện trên Zyda đã vượt trội hơn nhiều LLM mã nguồn mở khác với lượng dữ liệu ít hơn.
https://siliconangle.com/2024/06/07/zyphra-debuts-zyda-llm-training-dataset-1-3t-tokens/
- GLM-4 9B là mô hình ngôn ngữ mạnh mẽ được phát triển bởi nhóm Tsinghua Deep Model (THUDM) của Đại học Tsinghua (Thanh Hoa).
- Mô hình được huấn luyện trên 10 nghìn tỷ token bao gồm 26 ngôn ngữ, hỗ trợ đa dạng khả năng như đối thoại đa vòng bằng tiếng Trung và tiếng Anh, thực thi mã, duyệt web và gọi công cụ tùy chỉnh thông qua Function Call.
- Kiến trúc của GLM-4 9B dựa trên các tiến bộ mới nhất trong deep learning, tích hợp các kỹ thuật tiên tiến như cơ chế attention và kiến trúc transformer.
- Phiên bản cơ sở hỗ trợ cửa sổ ngữ cảnh lên đến 128.000 token, trong khi biến thể chuyên biệt cho phép độ dài ngữ cảnh ấn tượng 1 triệu token.
- GLM-4 9B nổi bật với khả năng hỗ trợ các tác vụ thị giác độ phân giải cao (lên đến 1198 x 1198 pixel) và xử lý đa dạng ngôn ngữ.
- Đánh giá trên nhiều bộ dữ liệu cho thấy GLM-4 9B vượt trội hơn mọi mô hình hiện có về độ chính xác tổng thể, vượt qua GPT-4, Gemini Pro (trong tác vụ thị giác), Mistral và Llama 3 8B.
- GLM-4 9B là mã nguồn mở và cho phép sử dụng thương mại (với một số điều kiện nhất định), mang lại nhiều cơ hội cho nhà phát triển, nhà nghiên cứu và doanh nghiệp.
- Các ứng dụng tiềm năng bao gồm xử lý ngôn ngữ tự nhiên, thị giác máy tính, tạo mã, v.v. Tích hợp liền mạch với thư viện Transformers giúp đơn giản hóa việc áp dụng và triển khai mô hình.
📌 GLM-4 9B của Đại học Thanh Hoa đánh dấu bước tiến quan trọng trong lĩnh vực mô hình ngôn ngữ với hiệu suất ấn tượng, khả năng đa ngôn ngữ và kiến trúc linh hoạt. Mô hình này thiết lập tiêu chuẩn mới cho các mô hình ngôn ngữ nguồn mở, mở đường cho những tiến bộ xa hơn trong xử lý ngôn ngữ tự nhiên và trí tuệ nhân tạo.
https://www.marktechpost.com/2024/06/05/meet-tsinghua-universitys-glm-4-9b-chat-1m-an-outstanding-language-model-challenging-gpt-4v-gemini-pro-on-vision-mistral-and-llama-3-8b/
- Qwen AI giới thiệu dòng mô hình ngôn ngữ Qwen2 gồm 5 kích cỡ từ 0.5B đến 72B tham số, được huấn luyện trên dữ liệu 27 ngôn ngữ ngoài tiếng Anh và tiếng Trung.
- Qwen2 đạt hiệu suất vượt trội trên nhiều bài đánh giá chuẩn, đặc biệt cải thiện đáng kể khả năng lập trình và toán học. Qwen2-72B vượt trội hơn Qwen1.5-110B dù có ít tham số hơn.
- Các mô hình hỗ trợ chiều dài ngữ cảnh lên đến 128,000 token với Qwen2-7B-Instruct và Qwen2-72B-Instruct. Qwen2-72B-Instruct có thể xử lý hoàn hảo các tác vụ trích xuất thông tin trong ngữ cảnh 128k token.
- Qwen2 được đánh giá cao về khả năng xử lý an toàn các truy vấn không an toàn đa ngôn ngữ, tương đương GPT-4 và vượt trội hơn Mistral-8x22B.
- Các mô hình Qwen2 đã được mở mã nguồn trên Hugging Face và ModelScope. Qwen2-72B vẫn sử dụng giấy phép Qianwen, các mô hình còn lại chuyển sang Apache 2.0 để thúc đẩy ứng dụng và thương mại hóa.
- Trong tương lai, Qwen AI sẽ huấn luyện các mô hình Qwen2 lớn hơn, mở rộng sang đa phương thức (vision, audio) và tiếp tục mở mã nguồn để thúc đẩy phát triển AI nguồn mở.
📌 Qwen AI đã ra mắt dòng mô hình ngôn ngữ Qwen2 với 5 kích thước từ 0.5B đến 72B tham số, hỗ trợ 27 ngôn ngữ. Qwen2 đạt hiệu suất vượt trội trên nhiều bài đánh giá, đặc biệt trong lập trình, toán học và xử lý ngữ cảnh dài lên đến 128,000 token. Các mô hình lớn như Qwen2-72B vượt trội hơn cả Qwen1.5-110B. Qwen2 cũng được đánh giá cao về khả năng xử lý an toàn, tương đương GPT-4. Hầu hết các mô hình Qwen2 đã được mở mã nguồn để thúc đẩy phát triển và ứng dụng AI nguồn mở. Trong tương lai, Qwen AI sẽ tiếp tục mở rộng Qwen2 lên các mô hình lớn hơn và hỗ trợ đa phương thức.
https://qwenlm.github.io/blog/qwen2/
- PixelsDB là một công cụ phân tích dữ liệu nguồn mở giúp người dùng không thành thạo SQL hoặc quản trị hệ thống tạo và gỡ lỗi các truy vấn SQL thông qua giao diện NLP.
- Các mô hình ngôn ngữ tinh vi chuyển đổi đầu vào của người dùng thành các truy vấn SQL có thể thực thi, cho phép người dùng tương tác với hệ thống và lấy thông tin dữ liệu cần thiết mà không cần nhiều kiến thức kỹ thuật.
- Các truy vấn được tạo ra sẽ được chạy bởi một công cụ truy vấn không máy chủ. PixelsDB cung cấp nhiều mức giá tùy thuộc vào mức độ khẩn cấp của truy vấn.
- Kiến trúc hệ thống được xây dựng để hỗ trợ các mức dịch vụ khác nhau thông qua thiết kế kiến trúc chuyên dụng và lập lịch tài nguyên dị nhất. Điều này cho phép hệ thống tối ưu hóa chi phí tổng thể mà không ảnh hưởng đến hiệu suất của các công việc quan trọng.
- Xử lý truy vấn không máy chủ, giao diện ngôn ngữ tự nhiên và các mức dịch vụ và giá cả tùy chỉnh của PixelsDB sẽ cải thiện đáng kể trải nghiệm người dùng trong phân tích dữ liệu.
📌 PixelsDB là một công cụ phân tích dữ liệu nguồn mở giúp người dùng không chuyên SQL khám phá dữ liệu hiệu quả thông qua giao diện NLP, xử lý truy vấn không máy chủ và các mức dịch vụ tùy chỉnh. Hệ thống loại bỏ rào cản kỹ thuật, cung cấp giao diện thân thiện để tạo và thực thi truy vấn, từ đó tăng tính hiệu quả và khả năng tiếp cận của phân tích dữ liệu cho người dùng phi kỹ thuật.
https://www.marktechpost.com/2024/06/06/pixelsdb-an-open-source-data-analytic-system-that-allows-users-without-sql-expertise-to-explore-data-efficiently/
- Skywork Team, thuộc Kunlun Inc., đã giới thiệu Skywork-MoE, một mô hình Mixture-of-Experts (MoE) hiệu suất cao với 146 tỷ tham số và 16 chuyên gia.
- Skywork-MoE được xây dựng dựa trên kiến trúc của mô hình Skywork-13B trước đó, sử dụng các điểm kiểm tra dày đặc làm thiết lập ban đầu.
- Mô hình này tích hợp hai kỹ thuật đào tạo mới: chuẩn hóa logit cổng và hệ số mất mát phụ trợ thích ứng, nhằm nâng cao hiệu suất và hiệu quả của mô hình.
- Skywork-MoE được đào tạo từ các điểm kiểm tra dày đặc của mô hình Skywork-13B, khởi tạo từ các mô hình dày đặc đã được đào tạo trước trên 3,2 nghìn tỷ token và tiếp tục đào tạo trên thêm 2 nghìn tỷ token.
- Kỹ thuật chuẩn hóa logit cổng đảm bảo phân phối đầu ra cổng rõ ràng, tăng cường sự đa dạng của các chuyên gia. Phương pháp này bao gồm việc chuẩn hóa các đầu ra của lớp cổng trước khi áp dụng hàm softmax, giúp đạt được phân phối sắc nét và tập trung hơn.
- Hệ số mất mát phụ trợ thích ứng cho phép điều chỉnh theo từng lớp, duy trì tải cân bằng giữa các chuyên gia và ngăn chặn bất kỳ chuyên gia nào bị quá tải. Các điều chỉnh này dựa trên việc giám sát tỷ lệ rơi token và điều chỉnh các hệ số tương ứng.
- Hiệu suất của Skywork-MoE được đánh giá trên nhiều tiêu chuẩn khác nhau. Mô hình đạt 82,2 điểm trên tiêu chuẩn CEVAL và 79,5 điểm trên tiêu chuẩn CMMLU, vượt qua mô hình Deepseek-67B.
- Trên tiêu chuẩn MMLU, Skywork-MoE đạt 77,4 điểm, cạnh tranh với các mô hình có dung lượng cao hơn như Qwen1.5-72B.
- Đối với các nhiệm vụ suy luận toán học, Skywork-MoE đạt 76,1 điểm trên GSM8K và 31,9 điểm trên MATH, vượt qua các mô hình như Llama2-70B và Mixtral 8*7B.
- Skywork-MoE thể hiện hiệu suất mạnh mẽ trong các nhiệm vụ tổng hợp mã với 43,9 điểm trên tiêu chuẩn HumanEval, vượt qua tất cả các mô hình dày đặc trong so sánh và chỉ thua kém một chút so với mô hình Deepseek-V2.
- Những kết quả này nhấn mạnh khả năng của mô hình trong việc xử lý hiệu quả các nhiệm vụ suy luận định lượng và logic phức tạp.
📌 Skywork-MoE, với 146 tỷ tham số và các phương pháp đào tạo tiên tiến, đã đạt được hiệu suất mạnh mẽ trên nhiều tiêu chuẩn, chứng minh hiệu quả của các kỹ thuật chuẩn hóa logit cổng và hệ số mất mát phụ trợ thích ứng. Mô hình này đặt ra một tiêu chuẩn mới cho hiệu quả và hiệu suất của các mô hình MoE trong xử lý ngôn ngữ quy mô lớn.
https://www.marktechpost.com/2024/06/05/skywork-team-introduces-skywork-moe-a-high-performance-mixture-of-experts-moe-model-with-146b-parameters-16-experts-and-22b-activated-parameters/
- HuggingFace giới thiệu FineWeb, một bộ dữ liệu toàn diện để nâng cao việc huấn luyện các mô hình ngôn ngữ lớn (LLM), với 15 nghìn tỷ token và 44TB dung lượng.
- FineWeb sử dụng 96 bản chụp CommonCrawl, một tổ chức phi lợi nhuận lưu trữ web từ năm 2007.
- Quá trình loại bỏ trùng lặp nghiêm ngặt sử dụng kỹ thuật MinHash giúp loại bỏ dữ liệu dư thừa, cải thiện hiệu suất mô hình.
- Các chiến lược lọc tiên tiến được áp dụng để loại bỏ nội dung chất lượng thấp, bao gồm phân loại ngôn ngữ, lọc URL, loại bỏ tài liệu có quá nhiều nội dung mẫu hoặc không kết thúc dòng bằng dấu câu.
- FineWeb-Edu, một tập con của FineWeb, tập trung vào nội dung giáo dục, được tạo ra bằng cách sử dụng chú thích tổng hợp từ Llama-3-70B-Instruct để đánh giá giá trị học thuật của 500.000 mẫu.
- Một bộ phân loại được huấn luyện trên các chú thích này sau đó được áp dụng cho toàn bộ tập dữ liệu để lọc ra nội dung không liên quan đến giáo dục.
- FineWeb đã được thử nghiệm kỹ lưỡng với nhiều tiêu chuẩn đánh giá, liên tục vượt trội hơn các bộ dữ liệu web mở quy mô khác.
- Hiệu suất của bộ dữ liệu được xác thực thông qua một loạt các tiêu chuẩn "tín hiệu sớm" sử dụng các mô hình nhỏ.
- FineWeb-Edu cho thấy sự cải thiện đáng kể, chứng minh hiệu quả của việc sử dụng chú thích tổng hợp để lọc nội dung giáo dục chất lượng cao.
- HuggingFace phát hành FineWeb đánh dấu một khoảnh khắc quan trọng trong cộng đồng khoa học mở, cung cấp cho các nhà nghiên cứu và người dùng một công cụ mạnh mẽ để huấn luyện các LLM hiệu suất cao.
📌 FineWeb, bộ dữ liệu 15 nghìn tỷ token và 44TB của HuggingFace, đặt ra tiêu chuẩn mới cho việc tiền huấn luyện các mô hình ngôn ngữ lớn. Với quá trình loại bỏ trùng lặp nghiêm ngặt và các chiến lược lọc tiên tiến, FineWeb và tập con FineWeb-Edu hứa hẹn cải thiện đáng kể hiệu suất của LLM trên nhiều tiêu chuẩn đánh giá. Việc phát hành FineWeb đánh dấu một bước tiến quan trọng trong cộng đồng khoa học mở.
https://www.marktechpost.com/2024/06/03/huggingface-releases-%F0%9F%8D%B7-fineweb-a-new-large-scale-15-trillion-tokens-44tb-disk-space-dataset-for-llm-pretraining/
- Hiện nay chưa có định nghĩa rõ ràng về các mô hình LLM nguồn mở hoàn toàn và thực sự. Cần có một Khung Công tác Mở Mô hình tiêu chuẩn.
- Nhiều mô hình tự nhận là "mở", nhưng chỉ một tập hợp con các thành phần được phát hành mở và sử dụng giấy phép hạn chế cho phần còn lại.
- Sự mơ hồ xung quanh "mở" thực sự cản trở tiến trình áp dụng AI, tạo ra sản phẩm và dịch vụ cho người dùng cuối. Nó tạo ra rủi ro pháp lý cho các doanh nhân.
- Ví dụ: Một công ty khởi nghiệp AI giả định tên "yet-another-chat-bot" sử dụng mô hình ngôn ngữ được đào tạo trước "llam-stral" trong nguyên mẫu của họ, nhưng sau đó phát hiện ra rằng giấy phép cấm rõ ràng việc sử dụng thương mại và tạo các tác phẩm phái sinh.
- Điều đúng đắn cần làm là "llam-stral" tuân thủ Khung Công tác Mở Mô hình và sử dụng giấy phép mở tiêu chuẩn như Apache 2.0 cho mã và CC-BY-4.0 cho trọng số và tập dữ liệu.
- Một mô hình hoàn toàn mở sẽ phát hành tất cả các thành phần, bao gồm dữ liệu đào tạo, mã, trọng số, kiến trúc, báo cáo kỹ thuật và mã đánh giá, tất cả đều ở dạng giấy phép cho phép.
- Các thành phần thiết yếu của một mô hình AI bao gồm: Dữ liệu đào tạo, Mã tiền xử lý dữ liệu, Kiến trúc mô hình, Tham số mô hình, Mã đào tạo, Mã đánh giá, Dữ liệu đánh giá, Tài liệu mô hình và Báo cáo kỹ thuật.
📌 Việc thiếu một định nghĩa rõ ràng về tính mở của các mô hình AI đang gây ra sự mơ hồ và rủi ro pháp lý cho các doanh nhân. Cần có một khung công tác tiêu chuẩn để đánh giá tính chất mở của mô hình, trong đó một mô hình hoàn toàn mở sẽ phát hành tất cả các thành phần thiết yếu dưới các giấy phép cho phép, thúc đẩy tính minh bạch, khả năng tái tạo và hợp tác trong phát triển và ứng dụng AI.
https://www.entrepreneur.com/science-technology/why-entrepreneurs-need-to-beware-of-misleading-open-ai/472948
- Mikko Hypponen, chuyên gia an ninh mạng hàng đầu của Phần Lan, cảnh báo rằng AI nguồn mở là "nguy hiểm" và các mô hình lậu thích "ăn thịt Llama".
- Ông cho rằng lo ngại hiện tại về deepfake là quá mức, mặc dù các cuộc tấn công dựa trên AI đang xảy ra như lừa đảo tiền điện tử sử dụng deepfake của người nổi tiếng.
- Bằng chứng về "deepfake âm thanh" đã xuất hiện nhưng chưa thấy trong thời gian thực. Công nghệ cho phép lừa đảo có chủ đích sử dụng deepfake thời gian thực nhưng chưa có bằng chứng xảy ra.
- Tội phạm có thể sử dụng AI để thực hiện "lừa đảo sâu", tự động hóa quy mô lớn các vụ lừa đảo như lừa tình.
- Mô hình nguồn đóng có xu hướng có các rào cản và hạn chế về nội dung nhất định. Mô hình nguồn mở cũng có bộ lọc nội dung và giấy phép hạn chế ứng dụng nhưng tội phạm thường không quan tâm.
- Đã có các mô hình "lậu" và phần lớn chúng "ăn thịt Llama" vì đó là mô hình nguồn mở tốt nhất.
- Hypponen đề xuất giải pháp kỹ thuật lai giữa mã nguồn mở và ứng dụng rào cản nguồn đóng, nhưng nghi ngờ liệu cộng đồng nguồn mở có chấp nhận. Ông cũng không ủng hộ quy định.
- Mã độc mang mô hình ngôn ngữ lớn là "khả thi" nhưng chưa thấy, tuy nhiên WithSecure đã thấy mã độc gọi API của mô hình ngôn ngữ lớn.
- Tự động hóa hoàn toàn các chiến dịch mã độc "lẽ ra phải xảy ra rồi, nhưng chưa". Khi điều đó xảy ra, chúng ta sẽ có AI tốt chống lại AI xấu.
- Học máy và AI đã là một phần trong kho vũ khí của các công ty an ninh trong nhiều năm và họ có lợi thế.
📌 Mikko Hypponen cảnh báo AI nguồn mở là nguy hiểm vì các mô hình lậu có thể bỏ qua các hạn chế an toàn, đặc biệt chúng thích "ăn thịt Llama". Mặc dù lo ngại về deepfake hiện tại là quá mức, nhưng tội phạm có thể sử dụng AI để tự động hóa các cuộc tấn công quy mô lớn. Các công ty an ninh đã sử dụng AI trong nhiều năm và có lợi thế khi AI tốt đối đầu với AI xấu trong tương lai.
https://thenewstack.io/open-source-ai-is-dangerous-euro-cybersec-chief-warns/
• Open LLM Leaderboard: Sử dụng Eleuther AI-Language Model Evaluation Harness để đánh giá mô hình trên 6 tác vụ, kiểm tra kỹ năng lập luận và kiến thức tổng quát.
• MTEB Leaderboard: Đánh giá embedding văn bản trên 8 tác vụ, 58 bộ dữ liệu và 112 ngôn ngữ. Cho thấy chưa có phương pháp embedding văn bản nào vượt trội trên mọi tác vụ.
• Big Code Models Leaderboard: So sánh các mô hình tạo mã đa ngôn ngữ trên HumanEval và MultiPL-E, đo lường độ chính xác, thông lượng và sử dụng bộ nhớ.
• SEAL Leaderboards: Sử dụng xếp hạng theo thang điểm Elo để so sánh hiệu suất mô hình trên nhiều bộ dữ liệu và ngôn ngữ dựa trên đánh giá của con người.
• Berkeley Function-Calling Leaderboard: Đánh giá khả năng gọi hàm và công cụ của LLM trên 2.000 cặp câu hỏi-hàm-câu trả lời đa dạng.
• Occiglot Euro LLM Leaderboard: Đánh giá mô hình trên 5 bài kiểm tra dịch, kiểm tra hiệu suất trên nhiều tác vụ và ngôn ngữ.
• LMSYS Chatbot Arena Leaderboard: Nền tảng mở xếp hạng LLM dựa trên hơn 1 triệu so sánh theo cặp của con người, sử dụng mô hình Bradley-Terry.
• Artificial Analysis LLM Performance Leaderboard: Đánh giá chất lượng và hiệu suất LLM trên các điểm cuối API serverless từ góc độ khách hàng.
• Open Medical LLM Leaderboard: Theo dõi, xếp hạng và đánh giá LLM về tác vụ trả lời câu hỏi y tế trên các bộ dữ liệu y tế đa dạng.
• Hughes Hallucination Evaluation Model Leaderboard: Đánh giá tần suất ảo giác trong tóm tắt tài liệu do LLM tạo ra bằng cách gán điểm ảo giác từ 0 đến 1.
• OpenVLM Leaderboard: Trình bày kết quả đánh giá của 63 mô hình Vision-Language trên 23 bài kiểm tra đa phương thức.
• 🤗 LLM-Perf Leaderboard: Đánh giá LLM về độ trễ, thông lượng, bộ nhớ và tiêu thụ năng lượng trên nhiều phần cứng, backend và tối ưu hóa.
📌 12 bảng xếp hạng LLM hàng đầu cung cấp đánh giá toàn diện về hiệu suất của các mô hình AI tiên tiến nhất trên nhiều tác vụ, ngôn ngữ và phần cứng. Các bảng xếp hạng này giúp theo dõi tiến bộ trong lĩnh vực, xác định các mô hình vượt trội và hướng dẫn cải tiến trong tương lai. Tính đến ngày 27/5/2024, các mô hình dẫn đầu bao gồm GPT-4, OpenFunctions-v2, Mistral-medium, Med-PaLM-2, Gemini và QwenVLPlus.
https://www.marktechpost.com/2024/06/02/top-12-trending-llm-leaderboards-a-guide-to-leading-ai-models-evaluation/
- Hugging Face Spaces, một kho lưu trữ các ứng dụng AI do cộng đồng người dùng tạo ra và gửi, đã bị xâm nhập.
- Tin tặc có thể đã truy cập trái phép vào một tập hợp các bí mật của Spaces.
- Hugging Face đã thu hồi các mã thông báo xác thực bị xâm phạm và thông báo cho những người bị ảnh hưởng qua email.
- Công ty khuyến nghị tất cả người dùng Hugging Face Spaces làm mới mã thông báo của họ và chuyển sang mã thông báo truy cập chi tiết.
- Hugging Face đang làm việc với các chuyên gia an ninh mạng bên ngoài để điều tra vụ vi phạm và báo cáo sự cố cho cơ quan thực thi pháp luật và cơ quan bảo vệ dữ liệu.
- Trong những ngày qua, công ty đã thắt chặt bảo mật cơ sở hạ tầng Spaces, bao gồm loại bỏ hoàn toàn mã thông báo tổ chức, triển khai dịch vụ quản lý khóa (KMS) cho các bí mật Spaces, tăng cường khả năng phát hiện và vô hiệu hóa proactively các mã thông báo bị rò rỉ.
- Khi Hugging Face ngày càng phổ biến, nó cũng trở thành mục tiêu cho các tác nhân đe dọa, những kẻ cố gắng lạm dụng nó cho các hoạt động độc hại.
- Vào tháng 2/2024, công ty bảo mật JFrog phát hiện khoảng 100 trường hợp các mô hình AI ML độc hại được sử dụng để thực thi mã độc trên máy nạn nhân.
- Gần đây, các nhà nghiên cứu bảo mật tại Wiz đã phát hiện một lỗ hổng cho phép họ tải lên các mô hình tùy chỉnh và tận dụng container escapes để truy cập chéo vào các mô hình của khách hàng khác.
📌 Vụ vi phạm bảo mật tại Hugging Face Spaces cho thấy các nền tảng AI đang ngày càng trở thành mục tiêu hấp dẫn cho tin tặc. Công ty đã nhanh chóng hành động để thu hồi mã thông báo bị xâm phạm, thông báo cho người dùng bị ảnh hưởng và tăng cường các biện pháp bảo mật. Tuy nhiên, sự cố này nhấn mạnh tầm quan trọng của việc giám sát liên tục và cập nhật bảo mật để bảo vệ dữ liệu nhạy cảm trên các nền tảng AI.
https://www.bleepingcomputer.com/news/security/ai-platform-hugging-face-says-hackers-stole-auth-tokens-from-spaces/
- Sự trỗi dậy của AI tạo sinh đi kèm với cuộc tranh luận ngày càng tăng trong cộng đồng mã nguồn mở về tính minh bạch và đáng tin cậy của công nghệ này.
- Một báo cáo của Đại học Stanford cho thấy tính minh bạch của 10 nhà cung cấp mô hình lớn nhất chỉ đạt tối đa 54% cho Llama 2 của Meta, xuống còn 12% cho Titan Text của Amazon. GPT-4 của OpenAI xếp thứ ba với 48%.
- CNCF đã phát hành bản báo cáo AI, lưu ý "sự cần thiết phải xác định rõ ai sở hữu và có quyền truy cập vào dữ liệu" trong suốt vòng đời AI.
- Các thách thức liên quan đến việc tạo ra các mô hình mở cho phép các nhà phát triển xây dựng dựa trên và điều chỉnh công việc trước đó. Điều này thường bao gồm khả năng sao chép dữ liệu đào tạo và mã đào tạo.
- Các nỗ lực đang được tiến hành để xác định các tiêu chuẩn thông qua nhiều dự án của ngành và cộng đồng như Linux Foundation, CNCF, AI Alliance.
- Red Hat đã tham gia vào một sáng kiến để giải quyết các phức tạp pháp lý trong AI thông qua nỗ lực chủ động thu hút cộng đồng nhà phát triển và thúc đẩy niềm tin trong hệ sinh thái nguồn mở.
- Nền tảng tự động hóa Ansible của Red Hat đã được chứng minh là một nguồn lực hữu ích để có được sự rõ ràng tốt hơn về tình trạng cấp phép mô hình.
- Một lỗ hổng bảo mật tiềm ẩn đã được phát hiện trong phần mềm nén dữ liệu XZ Utils thường được sử dụng trong các bản phân phối Linux, làm nổi bật sự khó khăn trong việc xác minh an ninh của mọi đóng góp mã trong tinh thần cộng đồng mã nguồn mở.
📌 Sự trỗi dậy của AI tạo sinh đã dẫn đến cuộc tranh luận ngày càng tăng trong cộng đồng mã nguồn mở về tính minh bạch và đáng tin cậy. Các báo cáo chỉ ra rằng tính minh bạch của các mô hình AI hàng đầu còn hạn chế, chỉ đạt tối đa 54%. Ngành công nghiệp và cộng đồng đang nỗ lực xác định các tiêu chuẩn cho các mô hình AI mở. Tuy nhiên, các mối đe dọa bảo mật như lỗ hổng trong Linux kernel đã làm nổi bật thách thức trong việc xác minh an ninh của mọi đóng góp mã.
https://siliconangle.com/2024/06/02/open-source-world-wrestling-security-licensing-issues-generative-ai/
- K2-65B là mô hình ngôn ngữ lớn với 65 tỷ tham số, hoàn toàn có thể tái tạo và mã nguồn mở.
- Được phát triển bởi LLM360 với sự hợp tác của MBZUAI và Petuum.
- Mức độ minh bạch cao, với tất cả các thành phần như mã nguồn, dữ liệu, checkpoint mô hình và kết quả trung gian đều được công khai.
- Cung cấp cái nhìn rõ ràng về quy trình phát triển và các chỉ số hiệu suất.
- Có sẵn theo giấy phép Apache 2.0, thúc đẩy sử dụng rộng rãi và phát triển thêm bởi cộng đồng.
- LLM360 cung cấp bộ đánh giá mạnh mẽ cho K2, bao gồm các benchmark chung và chuyên biệt như y tế, toán học và lập trình.
- Được huấn luyện sử dụng các bộ dữ liệu đa dạng như dm-math, PubMed-abstracts, uspto, tổng cộng 1,3 nghìn tỷ token.
- Đạt được kết quả tương đương với mô hình Llama 2 70B.
- Các checkpoint trung gian của K2 được công khai, cho phép theo dõi sự phát triển và cải tiến theo thời gian.
- Cung cấp hướng dẫn để tái tạo quá trình tiền huấn luyện và tinh chỉnh.
- LLM360 là phòng thí nghiệm nghiên cứu mở, hướng tới phát triển trí tuệ nhân tạo tổng quát (AGI) thuộc sở hữu cộng đồng thông qua nghiên cứu và phát triển mô hình ngôn ngữ lớn mã nguồn mở.
📌 K2 đặt ra tiêu chuẩn mới cho sự phát triển mô hình ngôn ngữ lớn với tính minh bạch cao, hiệu suất vượt trội và khung phát triển mạnh mẽ. Với 65 tỷ tham số, K2 vượt qua Llama 2 70B trong khi chỉ sử dụng 65% tài nguyên tính toán. Thông qua hợp tác mã nguồn mở và đánh giá toàn diện, K2 đảm bảo các thực tiễn đạo đức và khả năng tiếp cận rộng rãi cho các đổi mới trong tương lai của AI.
https://www.marktechpost.com/2024/06/01/llm360-introduces-k2-a-fully-reproducible-open-sourced-large-language-model-efficiently-surpassing-llama-2-70b-with-35-less-computational-power/
- Llama3-V là một mô hình đa phương thức dựa trên Llama3, được huấn luyện với chi phí dưới 500 đô la.
- Mô hình tích hợp thông tin hình ảnh bằng cách nhúng ảnh đầu vào thành các embedding patch sử dụng mô hình SigLIP.
- Các embedding này được căn chỉnh với token văn bản thông qua khối projection sử dụng các khối self-attention, đặt embedding hình ảnh và văn bản trên cùng một mặt phẳng.
- Token hình ảnh được thêm vào trước token văn bản và biểu diễn kết hợp được xử lý qua Llama3.
- SigLIP sử dụng sigmoid loss cho từng cặp ảnh-văn bản, chia ảnh thành các patch không chồng lấp, chiếu chúng vào không gian embedding có chiều thấp hơn và áp dụng self-attention.
- Để tối ưu hóa tài nguyên tính toán, Llama3-V sử dụng cơ chế lưu trữ đệm để tính toán trước các embedding ảnh SigLIP và tận dụng các tối ưu hóa MPS/MLX.
- Quá trình tiền huấn luyện sử dụng 600.000 cặp ảnh-văn bản, chỉ cập nhật ma trận projection. Tinh chỉnh có giám sát sử dụng 1 triệu mẫu, tập trung vào ma trận vision và projection.
- Llama3-V đạt mức tăng hiệu suất 10-20% so với Llava, mô hình hàng đầu về hiểu biết đa phương thức, và có hiệu suất tương đương với các mô hình nguồn đóng lớn hơn nhiều trên hầu hết các chỉ số, ngoại trừ MMMU.
📌 Llama3-V thể hiện những tiến bộ đáng kể trong AI đa phương thức, vượt trội hơn Llava 10-20% và sánh ngang với các mô hình nguồn đóng lớn hơn trên hầu hết các chỉ số. Với việc tích hợp SigLIP để nhúng ảnh hiệu quả và các tối ưu hóa tính toán, Llama3-V tối đa hóa việc sử dụng GPU và giảm chi phí huấn luyện, thiết lập nó như một mô hình SOTA cạnh tranh và hiệu quả cho hiểu biết đa phương thức.
https://www.marktechpost.com/2024/05/31/llama3-v-a-sota-open-source-vlm-model-comparable-performance-to-gpt4-v-gemini-ultra-claude-opus-with-a-100x-smaller-model/
- MAP-Neo là mô hình ngôn ngữ song ngữ lớn với 7 tỷ tham số, được huấn luyện trên 4.5 nghìn tỷ token chất lượng cao, do các nhà nghiên cứu từ M-A-P, Đại học Waterloo, Viện nghiên cứu AI Vũ Hán và 01.AI phát triển. Đây là mô hình LLM song ngữ đầu tiên được công bố hoàn toàn mã nguồn mở và minh bạch.
- MAP-Neo đạt hiệu suất tương đương hoặc vượt trội so với các mô hình LLM thương mại hàng đầu hiện nay như GPT, Gemini, Claude trong nhiều tác vụ như hiểu ngôn ngữ, lập luận, tri thức và lập trình.
- Tất cả các chi tiết cần thiết để tái tạo lại MAP-Neo đều được công bố đầy đủ, bao gồm: tập dữ liệu tiền huấn luyện đã qua làm sạch với 4.5 nghìn tỷ token, pipeline làm sạch dữ liệu, các checkpoint mô hình trung gian và cuối cùng, cùng với framework huấn luyện/đánh giá đã được tối ưu hóa.
- So với các mô hình mã nguồn mở khác như Mistral, LLaMA3, Pythia, Amber và OLMo, MAP-Neo tích hợp nhiều cải tiến vượt trội như các checkpoint trung gian, quy trình làm sạch dữ liệu toàn diện, tập dữ liệu tiền huấn luyện có thể truy cập dễ dàng và mã tái tạo đầy đủ.
- Trong các bài kiểm tra chuẩn về hiểu ngôn ngữ tiếng Trung và tiếng Anh (C-EVAL, MMLU), khả năng toán học (GSM8K) và lập trình (HumanEval), MAP-Neo đạt điểm số rất cao, vượt qua nhiều mô hình khác. Điều này cho thấy MAP-Neo thiết lập một tiêu chuẩn mới về tính minh bạch và hiệu suất cho các mô hình ngôn ngữ lớn.
- Bộ mã hóa (tokenizer) của MAP-Neo được huấn luyện bằng phương pháp mã hóa cặp byte (BPE) thông qua công cụ SentencePiece trên 50 tỷ mẫu văn bản, với độ dài tối đa 64,000 token. Kích thước từ vựng là 64,000 từ với độ dài tối đa của mỗi đoạn văn bản là 16 token. Các con số được mã hóa thành từng chữ số riêng lẻ.
- Việc ưu tiên dữ liệu mã nguồn, toán học và học thuật trong quá trình tiền huấn luyện giúp MAP-Neo đạt hiệu suất cao trong các tác vụ liên quan. Hiệu suất của bộ mã hóa có sự khác biệt tùy thuộc vào ngôn ngữ và nguồn dữ liệu.
- Việc công bố đầy đủ mô hình MAP-Neo mang lại nhiều lợi ích như giảm chi phí triển khai, đặc biệt cho các LLM tiếng Trung. Điều này thúc đẩy sự bao quát trong đổi mới AI, giảm sự thống trị của các LLM tiếng Anh và giải quyết vấn đề "chủ nghĩa thực dân dữ liệu" do các công ty lớn chi phối.
📌 MAP-Neo đánh dấu một cột mốc quan trọng với tư cách là mô hình ngôn ngữ lớn song ngữ đầu tiên được công bố hoàn toàn mã nguồn mở và minh bạch. Với 7 tỷ tham số, MAP-Neo được huấn luyện trên 4.5 nghìn tỷ token dữ liệu chất lượng cao, đạt hiệu suất vượt trội ngang ngửa với các mô hình thương mại hàng đầu trong nhiều tác vụ quan trọng. Tính minh bạch và khả năng tái tạo đầy đủ của MAP-Neo mở ra tiềm năng to lớn cho cộng đồng nghiên cứu AI toàn cầu, thúc đẩy sự bao quát và giảm sự phụ thuộc vào các mô hình đóng, đặc biệt có ý nghĩa với các quốc gia và khu vực không sử dụng tiếng Anh.
https://www.marktechpost.com/2024/05/31/map-neo-a-fully-open-source-and-transparent-bilingual-llm-suite-that-achieves-superior-performance-to-close-the-gap-with-closed-source-models/
- Mistral, startup AI ở Paris vừa ra mắt Codestral, mô hình ngôn ngữ lớn (LLM) 22B parameter đầu tiên tập trung vào các tác vụ lập trình.
- Codestral hỗ trợ hơn 80 ngôn ngữ lập trình phổ biến như Python, Java, C++, SQL và các ngôn ngữ chuyên biệt hơn như Swift, Fortran.
- Mô hình có thể tạo code từ đầu, hoàn thiện các hàm, viết test và điền vào code dở dang, giúp các lập trình viên tăng tốc quy trình làm việc, tiết kiệm thời gian và giảm lỗi.
- Theo Mistral, Codestral đã vượt trội hơn các mô hình lập trình hiện có như CodeLlama 70B, Deepseek Coder 33B trên hầu hết các ngôn ngữ lập trình trong các bài đánh giá như RepoBench, HumanEval, CruxEval.
- Nhiều công cụ phát triển phần mềm và xây dựng ứng dụng AI như LlamaIndex, LangChain, JetBrains đã bắt đầu thử nghiệm Codestral.
- Mistral cung cấp Codestral 22B trên Hugging Face dưới giấy phép phi thương mại của riêng họ cho mục đích nghiên cứu, thử nghiệm. Mô hình cũng có sẵn qua 2 API endpoint.
- Codestral sẽ cạnh tranh với các mô hình lập trình khác như StarCoder2, Codex của OpenAI, CodeWhisper của Amazon, ChatGPT, GPT-4 của OpenAI và các mô hình của Replit, Codenium.
📌 Codestral 22B, mô hình AI đầu tiên tập trung vào lập trình của Mistral, hỗ trợ hơn 80 ngôn ngữ, giúp đẩy nhanh phát triển phần mềm. Mô hình đã vượt trội hơn CodeLlama 70B, Deepseek Coder 33B trong các bài đánh giá và đang được nhiều công cụ như LangChain, JetBrains thử nghiệm. Tuy nhiên, Codestral sẽ phải cạnh tranh gay gắt với StarCoder2, Codex, CodeWhisper và các mô hình từ Replit, Codenium.
https://venturebeat.com/ai/mistral-announces-codestral-its-first-programming-focused-ai-model/
- Mô hình Aksara AI của Cropin được xây dựng dựa trên mô hình mã nguồn mở Mistral-7B-v0.1, nhằm dân chủ hóa kiến thức nông nghiệp để trao quyền cho nông dân.
- Các mô hình như OpenHathi và Tamil LLaMA được xây dựng trên các mô hình mã nguồn mở, cố gắng phá vỡ rào cản ngôn ngữ.
- Ấn Độ nên tập trung vào việc sử dụng AI để tạo ra sự khác biệt trong cuộc sống của mọi người, thay vì chạy đua xây dựng các mô hình ngôn ngữ lớn (LLM) tiếp theo.
- Với 22 ngôn ngữ chính thức và hàng trăm phương ngữ, AI mã nguồn mở giúp giải quyết thách thức này ở Ấn Độ thông qua các tính năng cốt lõi của nó.
- Ấn Độ có thể sử dụng MoE (Mixture of Experts) để kết hợp các mô hình dành riêng cho ngôn ngữ như Tamil LLaMA và Kannada LLaMA để tạo ra một mô hình đa ngôn ngữ chạy trên tài nguyên tối thiểu.
- Các mô hình LLM mã nguồn mở như BLOOM và IndicBERT đã được đào tạo trước ở nhiều ngôn ngữ Ấn Độ, giúp đẩy nhanh việc phát triển các LLM đa ngôn ngữ.
- Chi phí đào tạo một mô hình lớn như GPT-3 từ đầu ước tính từ 4 đến 10 triệu USD trở lên, trong khi một số mô hình ngang bằng hoặc tốt hơn GPT-3 lại miễn phí.
- Các nhà khoa học dữ liệu dành gần 50% thời gian để làm sạch dữ liệu, đặc biệt là khi xử lý nhiều ngôn ngữ và phương ngữ Ấn Độ với những đặc thù riêng.
- Sử dụng mô hình mã nguồn mở với dữ liệu được đào tạo trước giúp tiết kiệm rất nhiều thời gian để xây dựng các ứng dụng hữu ích xung quanh nó.
- Khi làm việc với mô hình mã nguồn mở, người dùng trên toàn thế giới có thể đóng góp vào dự án của bạn với các bộ dữ liệu chưa từng có trong danh sách của bạn, giúp nó mạnh mẽ hơn nhiều so với mô hình nguồn đóng.
📌 Ấn Độ nên song song xây dựng AI từ đầu và tận dụng các mô hình LLM mã nguồn mở để giải quyết các vấn đề thực tế. Điều này giúp tiết kiệm chi phí từ 4-10 triệu USD, thời gian làm sạch 50% dữ liệu và khắc phục rào cản 22 ngôn ngữ chính thức cùng hàng trăm phương ngữ, đồng thời thúc đẩy hệ sinh thái AI Ấn Độ phát triển.
https://analyticsindiamag.com/open-source-is-a-good-start-for-india/
- Perplexica là công cụ tìm kiếm AI mã nguồn mở, sử dụng các thuật toán học máy tiên tiến và mô hình ngôn ngữ lớn để cung cấp kết quả tìm kiếm chính xác và sâu sắc.
- Nó hiểu được ý nghĩa ngữ nghĩa đằng sau truy vấn của người dùng nhờ các thuật toán tìm kiếm tương đồng và embedding, giúp kết quả tìm kiếm phù hợp hơn.
- Perplexica có nhiều chế độ tìm kiếm chuyên biệt như: Chế độ Copilot (đang phát triển), Chế độ thông thường, Chế độ tìm kiếm học thuật, Chế độ tìm kiếm YouTube, Chế độ tìm kiếm Wolfram Alpha, Chế độ tìm kiếm Reddit.
- Nó tích hợp công cụ tìm kiếm SearxNG để luôn cung cấp thông tin mới nhất và phù hợp nhất, đồng thời ưu tiên quyền riêng tư của người dùng.
- Perplexica có giao diện web trực quan, dễ sử dụng, hỗ trợ tìm kiếm đa dạng nội dung như hình ảnh, video. Người dùng có thể quản lý lịch sử tìm kiếm và tùy chỉnh cài đặt theo ý muốn.
- Kiến trúc của Perplexica bao gồm: Giao diện người dùng, các Agent/Chains dự đoán hành động tiếp theo, công cụ tìm kiếm SearXNG, các mô hình ngôn ngữ lớn (LLMs) và mô hình embedding.
- Perplexica phù hợp với nhiều ứng dụng từ môi trường doanh nghiệp đến sử dụng cá nhân. Tính chất mã nguồn mở của nó mở ra khả năng cộng đồng đóng góp cải tiến.
📌 Perplexica là một bước tiến lớn trong lĩnh vực công cụ tìm kiếm, kết hợp công nghệ AI tiên tiến với cam kết minh bạch và bảo mật. Với nhiều tính năng đột phá và thiết kế lấy người dùng làm trung tâm, Perplexica hứa hẹn sẽ cách mạng hóa cách chúng ta khám phá tri thức trong kỷ nguyên số.
Citations:
[1] https://www.geeky-gadgets.com/?p=428326
- Nhóm phát triển tại Mistral AI đã phát hành hướng dẫn chính thức về cách sử dụng ứng dụng Mistral FineTune để tinh chỉnh các mô hình AI của họ.
- Mistral FineTune là một công cụ mạnh mẽ giúp đơn giản hóa quá trình tinh chỉnh, sử dụng kỹ thuật LoRA để giảm số lượng trọng số bổ sung cần thiết xuống chỉ còn 1-2%.
- Để tinh chỉnh hiệu quả, cần chuẩn bị dữ liệu đúng cách ở định dạng JSONL, tùy chỉnh theo từng tác vụ huấn luyện cụ thể.
- Cấu hình môi trường huấn luyện thông qua file YAML, bao gồm đường dẫn đến dữ liệu huấn luyện, tham số LoRA và các siêu tham số liên quan.
- Sau khi chuẩn bị dữ liệu và cấu hình, tiến hành huấn luyện bằng cách tải mô hình, thiết lập phần cứng phù hợp và chạy job huấn luyện.
- Sử dụng Mistral Inference để tạo dự đoán và đánh giá hiệu suất của mô hình đã tinh chỉnh.
- Một số lời khuyên để đạt kết quả tốt nhất: chuẩn bị kỹ dữ liệu, sử dụng tập kiểm tra riêng, tuân thủ cài đặt phần cứng và cấu hình được đề xuất.
📌 Mistral FineTune là công cụ mạnh mẽ giúp tinh chỉnh các mô hình AI của Mistral một cách hiệu quả. Bằng cách tuân theo hướng dẫn toàn diện, chuẩn bị dữ liệu chất lượng cao, cấu hình môi trường huấn luyện phù hợp và áp dụng các phương pháp hay nhất, người dùng có thể tận dụng tối đa tiềm năng của các mô hình Mistral AI, thích ứng chúng với miền, tác vụ hoặc ứng dụng cụ thể để đạt được hiệu suất vượt trội.
https://www.geeky-gadgets.com/?p=428317
- Công ty điện toán đám mây toàn cầu IBM đang hợp tác với AI Singapore (AISG) để đánh giá và nâng cao mô hình ngôn ngữ lớn (LLM) Sea-Lion thông qua nền tảng AI tạo sinh Watsonx.
- IBM sẽ tích hợp mô hình Sea-Lion vào thư viện Digital Self-Serve Co-Create Experience, cho phép các nhà khoa học dữ liệu và kỹ sư làm việc với các nền tảng AI tạo sinh địa phương hóa.
- AISG cũng sẽ được IBM hỗ trợ kỹ thuật để cải tiến Sea-Lion.
- Đổi lại, sự hợp tác giúp IBM tiếp cận một LLM được huấn luyện bằng ngôn ngữ và sắc thái địa phương của Đông Nam Á.
- IBM sẽ tận dụng hệ sinh thái kinh doanh và công nghệ rộng lớn để giúp các tổ chức và công dân ASEAN nhận ra giá trị mà các mô hình tùy chỉnh như Sea-Lion và Watsonx mang lại.
- Hai bên cũng sẽ tích hợp quản trị AI vào Sea-Lion để giúp doanh nghiệp quản lý tuân thủ và rủi ro AI trong bối cảnh các quy định về sử dụng công nghệ này ngày càng gia tăng.
- Đây không phải lần đầu tiên một gã khổng lồ công nghệ toàn cầu hợp tác với AISG. Vào tháng 3, Google Research đã công bố một sự hợp tác tương tự.
- Sự quan tâm này xuất hiện khi các công ty đang chạy đua để thiết lập một LLM có thể cạnh tranh với ChatGPT-4 của OpenAI, ra mắt đầu tháng này.
📌 IBM và AI Singapore bắt tay hợp tác nâng cấp mô hình ngôn ngữ lớn Sea-Lion thông qua nền tảng Watsonx. Sự hợp tác giúp IBM tiếp cận LLM được huấn luyện với ngôn ngữ Đông Nam Á, đồng thời tích hợp quản trị AI vào Sea-Lion. Đây là một phần trong cuộc đua phát triển các mô hình ngôn ngữ lớn để cạnh tranh với ChatGPT-4 của OpenAI.
https://www.techinasia.com/ibm-ai-singapore-collaborate-improve-sea-lion-model
- Octopus v2 của các nhà nghiên cứu Stanford có 2 tỷ tham số, chạy được trên smartphone, ô tô, PC, vượt trội GPT-4 về độ chính xác và độ trễ, giảm 95% độ dài ngữ cảnh.
- Octopus v2 nhanh hơn 36 lần so với phương pháp Llama7B + RAG, đạt 2000 lượt tải xuống chỉ sau 1 đêm ra mắt.
- Mô hình sử dụng chiến lược token hàm độc đáo trong huấn luyện và suy luận, giúp đạt hiệu năng tương đương GPT-4 và cải thiện tốc độ suy luận vượt trội so với các phương pháp dựa trên RAG.
- Tập dữ liệu huấn luyện được tạo qua 3 giai đoạn: tạo truy vấn liên quan và tham số gọi hàm, tạo truy vấn không liên quan từ các thành phần hàm phù hợp, xác minh nhị phân qua Google Gemini.
- Nghiên cứu sử dụng mô hình Google Gemma-2B làm mô hình tiền huấn luyện, áp dụng 2 phương pháp huấn luyện là huấn luyện mô hình đầy đủ và huấn luyện mô hình LoRA.
- Trong các bài kiểm tra, Octopus v2 nhanh hơn 36 lần so với "giải pháp Llama7B + RAG" trên 1 GPU A100 đơn, nhanh hơn 168% so với GPT-4 turbo.
- Octopus v2 cũng vượt trội về độ chính xác gọi hàm, cao hơn 31% so với "giải pháp Llama7B + RAG", đạt độ chính xác tương đương GPT-4 và RAG + GPT-3.5.
📌 Octopus v2 với 2 tỷ tham số của Stanford đã vượt trội GPT-4 về tốc độ suy luận và độ chính xác, có thể chạy trên các thiết bị biên như smartphone. Mô hình đạt 2000 lượt tải chỉ sau 1 đêm, mở ra kỷ nguyên của các agent AI từ cốt lõi chạy trên thiết bị người dùng.
https://levelup.gitconnected.com/better-than-gpt-4-the-stanford-teams-large-model-that-can-be-run-on-mobile-phones-became-popular-bc958501ec01
https://arxiv.org/abs/2404.01744
https://huggingface.co/NexaAIDev/Octopus-v2
- FinRobot là một nền tảng AI agent mã nguồn mở được phát triển bởi AI4Finance Foundation phối hợp với các tổ chức như Đại học Columbia và NYU Shanghai. Nó tận dụng các mô hình ngôn ngữ lớn (LLM) để thực hiện phân tích tài chính nâng cao.
- Kiến trúc của FinRobot được chia thành 4 lớp chính: Financial AI Agents Layer (tập trung vào việc chia nhỏ các vấn đề tài chính phức tạp thành các chuỗi logic), Financial LLM Algorithms Layer (cấu hình và sử dụng các mô hình được tinh chỉnh đặc biệt phù hợp với các lĩnh vực cụ thể và phân tích thị trường toàn cầu), LLMOps and DataOps Layer (tạo ra các mô hình chính xác bằng cách áp dụng các kỹ thuật đào tạo, tinh chỉnh và sử dụng dữ liệu liên quan đến tác vụ), Multi-source LLM Foundation Models Layer (tích hợp các LLM khác nhau, cho phép các lớp trên truy cập trực tiếp).
- Nền tảng giải quyết các thách thức quan trọng như tính minh bạch, khả năng thích ứng với thị trường toàn cầu và xử lý dữ liệu thời gian thực. Ví dụ, Financial AI Agents Layer tăng cường khả năng phân tích và ra quyết định phức tạp bằng cách sử dụng CoT prompting để chia nhỏ các thách thức tài chính thành các bước logic.
- Hai ứng dụng demo là Market Forecaster (tổng hợp tin tức thị trường gần đây và dữ liệu tài chính để đưa ra những hiểu biết sâu sắc về thành tựu mới nhất và mối quan tâm tiềm năng của một công ty) và Document Analysis & Generation (sử dụng các AI agent để phân tích các tài liệu tài chính như báo cáo thường niên và tạo ra các báo cáo chi tiết, sâu sắc).
- FinRobot tăng cường khả năng tiếp cận, hiệu quả và tính minh bạch trong các hoạt động tài chính bằng cách tích hợp các LLM đa nguồn trong một nền tảng mã nguồn mở. Nó đẩy nhanh sự đổi mới trong cộng đồng AI tài chính và thiết lập các tiêu chuẩn mới cho phân tích tài chính dựa trên AI.
📌 FinRobot là một nền tảng AI mã nguồn mở đột phá hỗ trợ nhiều AI agent chuyên biệt về tài chính, sử dụng sức mạnh của các mô hình ngôn ngữ lớn (LLM). Với kiến trúc đa lớp tiên tiến, khả năng xử lý dữ liệu thời gian thực và tích hợp mô hình đa dạng, FinRobot cải thiện đáng kể việc ra quyết định chiến lược trên toàn lĩnh vực tài chính, giúp các công cụ tài chính tinh vi trở nên dễ tiếp cận hơn với đông đảo người dùng.
https://www.marktechpost.com/2024/05/26/finrobot-a-novel-open-source-ai-agent-platform-supporting-multiple-financially-specialized-ai-agents-powered-by-llms/
- AmbientGPT là một công cụ nguồn mở trên MacOS giúp tích hợp liền mạch các mô hình nền tảng AI vào quy trình làm việc hàng ngày.
- Công cụ này tự động suy luận ngữ cảnh màn hình như một phần của quá trình truy vấn, loại bỏ nhu cầu tải lên ngữ cảnh thủ công.
- AmbientGPT tích hợp liền mạch vào quy trình làm việc hiện có, cung cấp cách trực quan và hiệu quả hơn để tận dụng sức mạnh của các mô hình nền tảng.
- Công cụ sử dụng các thuật toán tiên tiến để phân tích chính xác và sử dụng ngữ cảnh, đảm bảo phản hồi của AI chính xác và phù hợp.
- AmbientGPT hỗ trợ chạy các mô hình cục bộ an toàn như Gemma và Phi-3 multimodal. Cần ít nhất 16 GB RAM để đạt hiệu suất tối ưu.
- Kết quả cho thấy AmbientGPT tăng 40% hiệu quả công việc và giảm 50% thời gian nhập dữ liệu thủ công.
- Phản hồi của người dùng cho thấy sự hài lòng cao với khả năng cung cấp phản hồi phù hợp với ngữ cảnh mà không cần nhập liệu liên tục.
- Việc tích hợp vllm và ollama sẽ tiếp tục nâng cao khả năng của AmbientGPT, biến nó thành giải pháp toàn diện cho việc triển khai suy luận AI.
📌 AmbientGPT đánh dấu bước tiến trong ứng dụng thực tế của AI, tăng 40% hiệu quả công việc và giảm 50% thời gian nhập liệu thủ công. Với khả năng tự động phân tích ngữ cảnh màn hình, công cụ này hứa hẹn sẽ cách mạng hóa cách các mô hình nền tảng được sử dụng, đồng thời tích hợp liền mạch AI vào quy trình làm việc trên MacOS.
https://www.marktechpost.com/2024/05/24/ambientgpt-an-open-source-and-multimodal-macos-foundation-model-gui/
- Mistral, công ty nghiên cứu AI của Pháp, đã ra mắt bản nâng cấp lớn cho mô hình ngôn ngữ lớn nguồn mở Mistral 7B v0.3 mà không cần thông báo chính thức.
Mistral 7B v0.3 có một số cải tiến đáng chú ý:
- Không bị kiểm duyệt theo mặc định: Mô hình sẽ đưa ra cảnh báo khi được yêu cầu cung cấp thông tin nguy hiểm hoặc bất hợp pháp, nhưng vẫn cung cấp câu trả lời đầy đủ.
- Mở rộng kích thước ngữ cảnh token lên 32.768: Cho phép mô hình xử lý một phạm vi rộng hơn các từ và cụm từ trong ngữ cảnh, cải thiện hiệu suất trên các văn bản đa dạng. So sánh với Meta Llama có kích thước ngữ cảnh token 8K nhưng bộ từ vựng lớn hơn nhiều ở mức 128K.
- Tokenizer hiệu quả hơn: Phiên bản mới của bộ tokenizer Mistral cung cấp khả năng xử lý và hiểu văn bản tốt hơn.
- Tích hợp hàm số (function calling): Cho phép các mô hình Mistral tương tác với các hàm và API bên ngoài, tạo ra tính linh hoạt cao cho các tác vụ như tạo tác nhân, tìm kiếm thông tin trên web hoặc cơ sở dữ liệu chuyên biệt, viết báo cáo, lên ý tưởng - tất cả mà không cần gửi dữ liệu cá nhân đến các công ty tập trung như Google hay OpenAI.
Mistral không cung cấp các điểm chuẩn, nhưng với việc mở rộng đáng kể khả năng và tính năng tích hợp hàm số, phiên bản nâng cấp này là một bản phát hành hấp dẫn cho mô hình AI nguồn mở phổ biến thứ hai trên thị trường. Nó hứa hẹn cải thiện đáng kể hiệu suất so với phiên bản trước, có khả năng mạnh hơn tới 4 lần dựa trên dung lượng bộ từ vựng và kích thước ngữ cảnh token.
- Cohere, công ty AI của Canada, cũng ra mắt Aya 23, một dòng mô hình nguồn mở đa ngôn ngữ với khả năng hỗ trợ 23 ngôn ngữ, phục vụ gần một nửa dân số thế giới.
- Aya 23 vượt trội hơn phiên bản tiền nhiệm Aya 101 và các mô hình phổ biến khác như Mistral 7B v2 và Google Gemma trong các tác vụ phân biệt và tạo sinh.
- Aya 23 có hai phiên bản 8 tỷ và 35 tỷ tham số, trong đó bản 8 tỷ tối ưu cho phần cứng tiêu dùng và bản 35 tỷ cung cấp hiệu suất đỉnh cao trên nhiều tác vụ.
- Aya 23 được tinh chỉnh bằng một tập dữ liệu hướng dẫn đa ngôn ngữ đa dạng với 55,7 triệu mẫu từ 161 bộ dữ liệu, bao gồm các nguồn được chú thích bởi con người, dịch máy và tổng hợp.
- Trong các tác vụ tạo sinh như dịch thuật và tóm tắt, Aya 23 vượt trội hơn các đối thủ dựa trên nhiều tiêu chuẩn đánh giá như spBLEU và RougeL.
📌 Mistral 7B v0.3 và Cohere Aya 23 đánh dấu bước tiến mới trong cuộc đua AI nguồn mở với các tính năng đột phá như không kiểm duyệt, tích hợp hàm số và hỗ trợ đa ngôn ngữ. Hai mô hình này hứa hẹn sẽ là nền tảng mạnh mẽ cho các ứng dụng AI sáng tạo, cạnh tranh trực tiếp với các ông lớn như OpenAI và Meta.
https://decrypt.co/232299/mistral-ai-7b-upgrade-uncensored-cohere-aya-open-source
- LLMWare.ai là 1 trong 11 dự án AI nguồn mở xuất sắc được chọn tham gia GitHub Accelerator 2024.
- LLMWare tập trung vào các mô hình ngôn ngữ chuyên biệt nhỏ, mang lại nhiều lợi thế như dễ tích hợp vào quy trình doanh nghiệp, bảo mật cao, chi phí thấp và tốc độ nhanh.
- Trong 8 tháng qua, LLMWare đã ra mắt nền tảng RAG cấp doanh nghiệp toàn diện (llmware) và bộ mô hình chuyên biệt cho các tác vụ tự động hóa doanh nghiệp then chốt dưới thương hiệu BLING, DRAGON, SLIM và Industry-Bert.
- Khung làm việc thống nhất đầu cuối của LLMWare.ai là lựa chọn hoàn hảo cho các nhà phát triển và doanh nghiệp xây dựng quy trình tự động hóa dựa trên LLM chất lượng cao, dựa trên dữ kiện, riêng tư, hiệu quả về chi phí.
- LLMWare.ai hiện có 2 sản phẩm chính: RAG Pipeline - các thành phần tích hợp cho toàn bộ vòng đời kết nối nguồn tri thức với mô hình AI tạo sinh; và hơn 50 mô hình chuyên biệt nhỏ được tinh chỉnh cho các tác vụ then chốt trong tự động hóa quy trình doanh nghiệp.
- Theo người sáng lập Namee Oberst, việc được chọn vào Chương trình GitHub Accelerator là một cột mốc quan trọng, cơ hội học hỏi từ GitHub và những người xuất sắc nhất trong cộng đồng nguồn mở.
📌 Với những tiến bộ đổi mới và giải pháp toàn diện, LLMWare.ai xứng đáng là 1 trong 11 dự án xuất sắc được chọn vào GitHub Accelerator 2024. Khung làm việc LLMWare, mô hình SLIMs và dòng RAG chuyên biệt DRAGON thể hiện cam kết tạo ra các giải pháp có thể mở rộng quy mô, an toàn và hiệu quả, được điều chỉnh riêng cho các tổ chức tài chính và pháp lý. Với hơn 50 mô hình chuyên biệt và pipeline dữ liệu linh hoạt, LLMWare.ai trao quyền cho các nhà phát triển ở mọi cấp độ dễ dàng xây dựng các ứng dụng doanh nghiệp tinh vi dựa trên tri thức.
https://www.marktechpost.com/2024/05/23/llmware-ai-selected-for-2024-github-accelerator-enabling-the-next-wave-of-innovation-in-enterprise-rag-with-small-specialized-language-models/
- GitHub vừa công bố 11 dự án AI mã nguồn mở xuất sắc nhất được chọn vào chương trình GitHub Accelerator 2024.
- Các dự án được đánh giá dựa trên tiềm năng tạo ra sự nghiệp mới, tác động tới cộng đồng, nâng cao bảo mật và cải thiện năng suất của các nhà phát triển.
- 11 dự án được chọn bao gồm:
• unsloth AI: Giúp tinh chỉnh mô hình AI tùy chỉnh nhanh hơn 2-5 lần với 70% bộ nhớ ít hơn.
• Giskard: Nền tảng kiểm thử mô hình AI, nâng cao chất lượng, bảo mật và tuân thủ.
• A-Frame: Framework tạo nội dung AR/VR và 3D dễ dàng cho mọi người.
• Nav2: Giải pháp điều hướng robot tự hành được tin dùng bởi hơn 100 công ty.
• OpenWebUI: Giao diện người dùng cho AI và LLM chạy cục bộ, bảo mật và hiệu năng cao.
• LLMware.ai: Công cụ xây dựng mô hình LLM và RAG an toàn cho doanh nghiệp.
• LangDrive: API đơn giản hóa quá trình huấn luyện và triển khai mô hình ngôn ngữ.
• HackingBuddyGPT: Đối tác tự động hóa và kiểm thử bảo mật cho các chuyên gia an ninh mạng.
• Web-Check: Công cụ phân tích bảo mật website dựa trên AI và dữ liệu mở.
• marimo: Sổ ghi chép Python thế hệ mới cho khoa học dữ liệu và học máy.
• Talkd.ai: API trò chuyện LLM thống nhất với khả năng quản lý ngữ cảnh.
- GitHub sẽ hỗ trợ các dự án với tổng giá trị gần 400.000 USD, bao gồm 40.000 USD tài trợ không pha loãng, tối đa 350.000 USD lợi ích từ Microsoft và các đối tác công nghệ khác.
📌 GitHub Accelerator 2024 quy tụ 11 dự án AI mã nguồn mở xuất sắc nhất, hứa hẹn thúc đẩy sự phát triển vượt bậc của trí tuệ nhân tạo với các ứng dụng đa dạng từ mô hình ngôn ngữ, robot, thực tế ảo, bảo mật đến khoa học dữ liệu. Chương trình sẽ hỗ trợ các dự án với tổng giá trị gần 400.000 USD cùng nhiều lợi ích khác từ Microsoft và các đối tác.
Citations:
[1] https://github.blog/2024-05-23-2024-github-accelerator-meet-the-11-projects-shaping-open-source-ai/
- Cohere giới thiệu Aya 23, một dòng mô hình ngôn ngữ lớn (LLM) mã nguồn mở mới có khả năng hiểu 23 ngôn ngữ.
- Aya 23 bao gồm hai thuật toán: một với 8 tỷ tham số để cân bằng giữa chất lượng phản hồi và hiệu suất, và một phiên bản lớn hơn với 35 tỷ tham số dành cho các yêu cầu nâng cao.
- Phiên bản Aya-23-35B dựa trên LLM Command R, hỗ trợ prompt lên đến 128.000 token, có tính năng RAG tích hợp và có thể tự động thực hiện các tác vụ trong các ứng dụng bên ngoài.
- Aya-23-35B dựa trên kiến trúc Transformer chỉ giải mã (decoder-only), xác định ý nghĩa của từng từ bằng cách phân tích ngữ cảnh của nó.
- Aya 23 cải tiến kiến trúc Transformer chỉ giải mã bằng cách sử dụng grouped query attention để giảm sử dụng RAM và tăng tốc độ suy luận, cũng như sử dụng rotational positional embeddings để xử lý thông tin vị trí từ hiệu quả hơn.
- Aya 23 được huấn luyện trên tập dữ liệu đa ngôn ngữ Aya, bao gồm 513 triệu cặp prompt-câu trả lời trong 114 ngôn ngữ, được phát triển thông qua một sáng kiến mã nguồn mở với sự đóng góp của khoảng 3.000 người.
- Trong các đánh giá nội bộ, Aya-23-35B vượt trội hơn đáng kể so với Aya-101 (một LLM hiểu 101 ngôn ngữ) và một số LLM mã nguồn mở khác trong các tác vụ xử lý văn bản đa ngôn ngữ.
📌 Aya 23, dòng LLM mã nguồn mở mới của Cohere, đánh dấu một bước tiến quan trọng trong xử lý ngôn ngữ tự nhiên đa ngôn ngữ. Với khả năng hiểu 23 ngôn ngữ, cải tiến kiến trúc Transformer và huấn luyện trên tập dữ liệu Aya 513 triệu cặp prompt-câu trả lời, Aya 23 hứa hẹn mang lại hiệu suất vượt trội trong các tác vụ xử lý văn bản đa ngôn ngữ.
https://siliconangle.com/2024/05/23/cohere-open-sources-aya-23-series-multilingual-llms/
- CloudCode AI, một giải pháp phần mềm dựa trên AI, vừa công bố ra mắt Kaizen - một dự án nguồn mở tiên tiến được thiết kế để tăng cường đáng kể quá trình kiểm thử ứng dụng phần mềm và đánh giá mã nguồn.
- Kaizen tận dụng sức mạnh của trí tuệ nhân tạo để hỗ trợ các nhà phát triển hợp lý hóa quy trình làm việc, đảm bảo họ có thể di chuyển nhanh hơn mà không làm ảnh hưởng đến chất lượng hay bảo mật.
- Trong bối cảnh phát triển phần mềm nhanh chóng như hiện nay, việc duy trì các tiêu chuẩn chất lượng và bảo mật cao đồng thời đáp ứng các thời hạn gấp rút là một thách thức đáng kể. Kaizen giải quyết trực tiếp thách thức này bằng cách cung cấp một agent AI thông minh hỗ trợ các nhà phát triển kiểm thử và đánh giá mã nguồn một cách hiệu quả.
- Công cụ sáng tạo này sẽ trở thành một phần không thể thiếu đối với các nhóm phát triển đang phấn đấu vì sự xuất sắc và tốc độ trong quá trình xây dựng phần mềm.
- Kaizen hứa hẹn sẽ mang lại những lợi ích to lớn cho cộng đồng các nhà phát triển phần mềm trên toàn thế giới nhờ khả năng tận dụng sức mạnh của AI để tối ưu hóa quy trình kiểm thử và đánh giá mã nguồn.
📌 Kaizen của CloudCode AI là một dự án nguồn mở đột phá sử dụng trí tuệ nhân tạo tiên tiến để cách mạng hóa quy trình kiểm thử phần mềm và đánh giá mã nguồn. Với việc cung cấp một agent AI thông minh hỗ trợ các nhà phát triển tăng tốc mà vẫn đảm bảo chất lượng và bảo mật, Kaizen hứa hẹn sẽ trở thành một công cụ không thể thiếu cho các nhóm phát triển phần mềm trên toàn cầu, giúp họ vượt qua thách thức của việc duy trì tiêu chuẩn cao trong bối cảnh thời hạn gấp rút.
https://www.chronicle-tribune.com/news/wire/cloudcode-ai-unveils-kaizen-an-ai-powered-open-source-solution-to-revolutionize-software-testing-and/article_a97f7d2b-0e63-58de-97e0-09ae0bb51ac6.html
- Fastweb sẽ tận dụng các dịch vụ AI tạo sinh và học máy của Amazon Web Services (AWS) để cung cấp mô hình ngôn ngữ lớn (LLM) được huấn luyện bằng tiếng Ý cho các bên thứ ba.
- Fastweb đang xây dựng một tập dữ liệu tiếng Ý toàn diện bằng cách kết hợp các nguồn công khai và dữ liệu được cấp phép từ các nhà xuất bản và cơ quan truyền thông.
- Sử dụng dữ liệu này, Fastweb đã tinh chỉnh mô hình Mistral 7B bằng Amazon SageMaker, đạt được cải thiện hiệu suất từ 20-50% trên các tiêu chuẩn ngôn ngữ tiếng Ý.
- Các mô hình mới sẽ được cung cấp trên Hugging Face, cho phép khách hàng triển khai chúng thông qua Amazon SageMaker.
- Trong tương lai, Fastweb dự định chạy mô hình của mình trên Amazon Bedrock bằng Custom Model Import, để có thể dễ dàng xây dựng và mở rộng các giải pháp AI tạo sinh mới cho khách hàng.
- Walter Renna, CEO của Fastweb cho rằng sáng kiến chiến lược này sẽ giúp thúc đẩy chuyển đổi số cho các tổ chức Ý bằng cách sử dụng các công nghệ tiên tiến nhất.
- Fabio Cerone, Tổng giám đốc Telco Industry, EMEA, AWS cam kết dân chủ hóa việc tiếp cận công nghệ và ứng dụng AI tạo sinh cho khách hàng trên toàn thế giới. Ông cho rằng việc Fastweb tạo ra LLM tiếng Ý là một bước quan trọng trong việc làm cho sức mạnh chuyển đổi của AI tạo sinh dễ tiếp cận hơn với doanh nghiệp và cơ quan chính phủ Ý.
📌 Fastweb hợp tác với AWS để cung cấp LLM tiếng Ý, được huấn luyện trên tập dữ liệu toàn diện kết hợp từ nhiều nguồn. Mô hình đạt cải thiện 20-50% trên các tiêu chuẩn ngôn ngữ, sẽ được cung cấp qua Hugging Face và Amazon SageMaker, giúp thúc đẩy chuyển đổi số cho các tổ chức Ý với công nghệ AI tiên tiến.
https://www.thefastmode.com/technology-solutions/35966-natively-trained-italian-llm-by-fastweb-to-leverage-aws-genai-and-machine-learning-capabilities
- OpenRLHF là một framework học tăng cường từ phản hồi của con người (RLHF) đột phá, giải quyết các thách thức trong việc huấn luyện các mô hình ngôn ngữ lớn (LLM) với hơn 70 tỷ tham số.
- Các phương pháp RLHF hiện tại thường chia nhỏ LLM trên nhiều GPU để huấn luyện, dẫn đến phân mảnh bộ nhớ, giảm kích thước batch hiệu quả và tốc độ huấn luyện chậm.
- OpenRLHF sử dụng Ray - trình lập lịch tác vụ phân tán và vLLM - công cụ suy luận phân tán để tối ưu hóa việc sử dụng bộ nhớ và tăng tốc độ huấn luyện.
- Ray phân bổ LLM trên các GPU một cách thông minh, tránh phân mảnh quá mức, cho phép kích thước batch lớn hơn trên mỗi GPU.
- vLLM tận dụng khả năng xử lý song song của nhiều GPU để tăng tốc độ tính toán.
- So sánh chi tiết với framework DSChat khi huấn luyện mô hình LLaMA2 7B tham số, OpenRLHF đạt được sự hội tụ huấn luyện nhanh hơn và giảm đáng kể tổng thời gian huấn luyện.
- OpenRLHF giải quyết các rào cản chính trong việc huấn luyện LLM khổng lồ bằng RLHF, mở ra con đường để tinh chỉnh các LLM lớn hơn với phản hồi của con người.
📌 OpenRLHF đột phá giúp huấn luyện hiệu quả các mô hình ngôn ngữ lớn với 70 tỷ tham số bằng học tăng cường từ phản hồi người dùng. Với Ray và vLLM, nó tối ưu bộ nhớ, tăng tốc huấn luyện gấp 2 lần so với DSChat trên LLaMA2 7B, mở ra kỷ nguyên mới cho xử lý ngôn ngữ tự nhiên và tương tác thông tin.
https://www.marktechpost.com/2024/05/23/openrlhf-an-open-source-ai-framework-enabling-efficient-reinforcement-learning-from-human-feedback-rlhf-scaling/
- Có cuộc tranh luận lớn trong giới công nghệ về việc liệu các mô hình trí tuệ nhân tạo (AI) có nên là "mã nguồn mở" hay không.
- Những người ủng hộ mô hình AI mã nguồn mở cho rằng chúng công bằng và an toàn hơn cho xã hội, trong khi những người phản đối cho rằng chúng dễ bị lạm dụng vào mục đích xấu.
- Một vấn đề lớn trong cuộc tranh luận là không có định nghĩa thống nhất về AI mã nguồn mở thực sự là gì. Một số tổ chức bị cáo buộc "openwashing" - sử dụng thuật ngữ "mã nguồn mở" một cách không trung thực để tạo vẻ ngoài tốt đẹp.
- Các tổ chức áp dụng nhãn này cho các mô hình của họ có thể đang áp dụng các cách tiếp cận rất khác nhau về tính cởi mở. Ví dụ: OpenAI tiết lộ rất ít về các mô hình của mình, Meta đặt các hạn chế đối với việc sử dụng LLaMA 2 và LLaMA 3 mặc dù gắn nhãn mã nguồn mở.
- Các mô hình cởi mở nhất, chủ yếu do các tổ chức phi lợi nhuận điều hành, công bố mã nguồn và dữ liệu đào tạo cơ bản, sử dụng giấy phép mã nguồn mở cho phép tái sử dụng rộng rãi. Nhưng ngay cả với những mô hình này, vẫn có những trở ngại để người khác có thể sao chép chúng.
- Lý do chính là trong khi phần mềm mã nguồn mở cho phép bất kỳ ai sao chép hoặc sửa đổi nó, việc xây dựng một mô hình AI đòi hỏi nhiều hơn mã. Chỉ một số ít công ty có thể tài trợ cho sức mạnh tính toán và quản lý dữ liệu cần thiết.
- Một số chuyên gia cho rằng việc dán nhãn bất kỳ AI nào là "mã nguồn mở" trong trường hợp tốt nhất là gây hiểu lầm và trong trường hợp xấu nhất là một công cụ tiếp thị.
- Các nỗ lực để tạo ra một định nghĩa rõ ràng hơn cho AI mã nguồn mở đang được tiến hành bởi Linux Foundation và Open Source Initiative. Tuy nhiên, nhiều người nghi ngờ rằng AI mã nguồn mở thực sự là không thể.
📌 Openwashing là cáo buộc một số công ty AI sử dụng nhãn "mã nguồn mở" không trung thực. Có tranh cãi lớn về việc liệu các mô hình AI có nên là mã nguồn mở, với các cách tiếp cận khác nhau từ các công ty như OpenAI và Meta. Các chuyên gia nghi ngờ AI mã nguồn mở thực sự là khả thi do yêu cầu tài nguyên khổng lồ để xây dựng các mô hình.
https://www.nytimes.com/2024/05/17/business/what-is-openwashing-ai.html
#NYT
- Google giới thiệu Model Explorer, một công cụ đột phá trong lĩnh vực trực quan hóa học máy, giúp các nhà nghiên cứu và kỹ sư khám phá nội tại của các mô hình AI phức tạp.
- Model Explorer sử dụng phương pháp phân cấp, cho phép người dùng dễ dàng điều hướng qua các mạng nơ-ron phức tạp như mô hình ngôn ngữ tiên tiến và mạng khuếch tán.
- Công cụ này là một phần quan trọng trong sáng kiến "AI on the Edge" của Google, nhằm mang nhiều khả năng tính toán AI đến các thiết bị và làm cho các hệ thống này minh bạch và có trách nhiệm giải trình hơn.
- Model Explorer đánh dấu bước tiến đáng kể trong việc giải mã thế giới phức tạp của trí tuệ nhân tạo, cho phép các nhà nghiên cứu và nhà phát triển kiểm tra kỹ lưỡng các mạng nơ-ron phức tạp nhất.
- Khi AI ngày càng trở nên phổ biến trong cuộc sống hàng ngày, từ điện thoại thông minh đến y tế và giao thông, nhu cầu về các công cụ như Model Explorer sẽ chỉ tăng lên.
- Cuộc tìm kiếm AI thực sự minh bạch và có trách nhiệm giải trình mới chỉ bắt đầu, nhưng Model Explorer của Google là một bước tiến quan trọng theo đúng hướng, mở đường cho một tương lai nơi AI vừa mạnh mẽ vừa dễ hiểu.
📌 Model Explorer của Google là một bước đột phá trong việc làm rõ các mô hình AI phức tạp, mang lại khả năng hiểu sâu hơn về cách thức hoạt động của chúng. Công cụ nguồn mở này hứa hẹn thúc đẩy sự minh bạch và trách nhiệm giải trình trong lĩnh vực AI, đồng thời mở ra con đường cho một tương lai nơi AI vừa mạnh mẽ vừa dễ hiểu.
Citations:
[1] https://venturebeat.com/ai/google-launches-model-explorer-an-open-source-tool-for-seamless-ai-model-visualization-and-debugging/
- Tiny AI là các mô hình AI nhỏ gọn, chuyên biệt có thể chạy trực tiếp trên máy tính xách tay hoặc điện thoại thông minh, thay vì phụ thuộc vào đám mây như ChatGPT.
- Các mô hình này tuy không có khả năng rộng như ChatGPT nhưng bù lại chúng dễ tiếp cận và tùy chỉnh hơn, phù hợp với ngôn ngữ và kiến thức duy nhất của từng ngành.
- Tiny AI đảm bảo tính riêng tư và bảo mật dữ liệu nhạy cảm của khách hàng, mở ra nhiều khả năng tích hợp AI vào quy trình làm việc.
- Một số mô hình Tiny AI phổ biến bao gồm H2O-Danube2-1.8B (1.8 tỷ tham số), Microsoft Phi 1.5 và Google Gemma 2B.
- Tiny AI cho phép chạy nhanh các thử nghiệm trong kinh doanh mà trước đây không thể thực hiện được, tương tự như cách phần mềm đã thúc đẩy sự phát triển kinh doanh trong thập kỷ qua.
- Việc phát triển và triển khai các mô hình AI tùy chỉnh này đòi hỏi một số kiến thức và nguồn lực kỹ thuật, nhưng rào cản gia nhập đang ngày càng thấp nhờ hệ sinh thái các công cụ và nền tảng dân chủ hóa AI đang phát triển.
- Khi các công cụ này trưởng thành và ngày càng nhiều doanh nghiệp nhận ra tiềm năng của Tiny AI, chúng ta có thể kỳ vọng một sự bùng nổ đổi mới tại nơi làm việc, tương tự như cách máy tính cá nhân đã cách mạng hóa năng suất văn phòng trong những năm 1980 và 1990.
📌 Tiny AI hứa hẹn sẽ trở thành vũ khí bí mật của các doanh nghiệp, mở ra cánh cửa năng suất, sáng tạo và đổi mới ở cấp độ mới. Với khả năng tùy chỉnh và truy cập dễ dàng, Tiny AI đang âm thầm thay đổi tương lai của công việc, một mô hình nhỏ gọn nhưng đầy sức mạnh trong mỗi lần.
https://www.forbes.com/sites/forbesagencycouncil/2024/05/17/how-to-use-ai-at-work-beyond-chatgpt/
- Falcon 2 11B, phiên bản cập nhật của mô hình AI nguồn mở Falcon, do Viện Đổi mới Công nghệ (TII) của Abu Dhabi phát triển, mạnh hơn mô hình tương tự mới nhất của Meta và ngang bằng với Gemini theo một số chỉ số.
- Một quan chức cấp cao cho biết Falcon chứng minh UAE là một "người chơi nghiêm túc" trong cuộc đua AI toàn cầu, với hiệu suất vượt trội hơn nhiều "ông lớn" khác với chỉ một phần nhỏ sức mạnh tính toán và quy mô đội ngũ.
- UAE đang đẩy mạnh AI, coi công nghệ này là trụ cột kinh tế tiếp theo sau dầu mỏ, với nhiều doanh nghiệp và quỹ đầu tư AI mới có thể lên tới 100 tỷ USD.
- Công ty mới AI71 được thành lập để thương mại hóa Falcon, đã bắt đầu thử nghiệm công nghệ này trong bệnh viện, công ty luật và trung tâm cuộc gọi với các đối tác UAE.
- Phiên bản Falcon mới hỗ trợ 5 ngôn ngữ châu Âu và khả năng "chuyển đổi hình ảnh thành ngôn ngữ", cho phép máy tính chuyển đổi hình ảnh thành văn bản một cách trôi chảy.
- Sự phát triển của Falcon sẽ thuộc một tổ chức mới, Falcon Foundation, được mô phỏng theo tổ chức phần mềm phi lợi nhuận Linux Foundation, đảm bảo Falcon sẽ mãi mãi là nguồn mở.
📌 UAE đang nỗ lực đẩy mạnh AI với mô hình Falcon 2 11B mới, vượt trội hơn các đối thủ như Meta và ngang bằng Gemini. Với công ty AI71 và Falcon Foundation, Abu Dhabi đang thương mại hóa công nghệ này, tập trung vào các ứng dụng doanh nghiệp có tác động lớn, hướng tới mục tiêu biến AI thành trụ cột kinh tế mới sau dầu mỏ.
https://www.bloomberg.com/news/articles/2024-05-13/uae-releases-new-falcon-ai-model-11b-to-rival-meta-s-llama-openai-and-google
- IBM đã phát hành bộ mô hình mã nguồn mở Granite nhằm giúp việc lập trình trở nên dễ dàng hơn cho mọi người.
- Mặc dù phần mềm đóng vai trò quan trọng trong xã hội hiện đại, quá trình lập trình vẫn còn khó khăn và tốn thời gian, ngay cả với các kỹ sư có kinh nghiệm.
- Các mô hình ngôn ngữ lớn (LLM) đã trở nên quan trọng trong môi trường phát triển, giúp tăng hiệu quả và độc lập khi xử lý các công việc lập trình phức tạp.
- Công cụ WatsonX Code Assistant (WCA) mới nhất của IBM sử dụng khả năng 20 tỷ tham số đáng kinh ngạc của mô hình mã ngôn ngữ lớn Granite.
- Công nghệ này đã được chứng minh là hữu ích trong môi trường doanh nghiệp thông qua vai trò chuyển đổi các ứng dụng COBOL thành các dịch vụ hiện đại được tối ưu hóa cho IBM Z.
- IBM đã công khai 4 phiên bản mô hình mã Granite với số lượng tham số từ 3 đến 34 tỷ, được thiết kế riêng cho nhiều tác vụ lập trình khác nhau.
- Các mô hình này đã trải qua quá trình đánh giá kỹ lưỡng để đảm bảo đáp ứng các yêu cầu cao nhất về hiệu suất và khả năng thích ứng trong nhiều tác vụ mã hóa như tạo, gỡ lỗi và giải thích.
- Thông qua dự án nguồn mở, IBM hy vọng sẽ loại bỏ các rào cản đi kèm với giá cao và quy tắc cấp phép không rõ ràng của các mô hình độc quyền, đồng thời đẩy nhanh việc áp dụng các mô hình AI tạo sinh trong lĩnh vực kinh doanh.
- Với khả năng thích ứng và tối ưu hóa quy trình làm việc của doanh nghiệp, các mô hình mã Granite cung cấp cho các nhà phát triển một bộ công cụ mạnh mẽ có thể tự động hóa các hoạt động lập trình lặp đi lặp lại, cải thiện chất lượng mã và cho phép tích hợp liền mạch giữa các ứng dụng cũ và hiện đại.
📌 IBM đã phát hành bộ mô hình mã nguồn mở Granite với 4 phiên bản có số lượng tham số từ 3 đến 34 tỷ. Bộ mô hình này giúp tự động hóa công việc lập trình, cải thiện chất lượng mã, tích hợp ứng dụng cũ và mới, qua đó hỗ trợ đắc lực cho các nhà phát triển phần mềm, loại bỏ rào cản chi phí và đẩy nhanh ứng dụng AI tạo sinh trong kinh doanh.
Citations:
[1] https://www.marktechpost.com/2024/05/09/ibm-ai-team-releases-an-open-source-family-of-granite-code-models-for-making-coding-easier-for-software-developers/
- HPT 1.5 Air là mô hình ngôn ngữ đa phương thức (multimodal) 8B mã nguồn mở mới, sử dụng phiên bản LLaMA 3 mới nhất, được tối ưu hóa để đạt hiệu quả và độ mạnh mẽ cao hơn.
- Kiến trúc ấn tượng của HPT 1.5 Air hỗ trợ khả năng hiểu sâu sắc và tinh tế các dữ liệu đầu vào đa phương thức.
- Mặc dù chỉ có khoảng 10 tỷ tham số, HPT 1.5 Air vẫn nhẹ và hiệu quả cao, vượt trội hơn cả các đối thủ có số lượng tham số lớn hơn nhiều.
- Tích hợp dữ liệu hình ảnh và văn bản trong AI là then chốt quan trọng để phát triển các hệ thống giống như nhận thức của con người.
- Thách thức chính là các mô hình cần xử lý và diễn giải kết hợp hiệu quả, chính xác các luồng thông tin hình ảnh và văn bản.
- Trước đây, các mô hình thường xử lý riêng rẽ dữ liệu hình ảnh và văn bản, dẫn đến kém hiệu quả và thiếu sự hiểu biết tổng thể.
- HyperGAI đã phát triển mô hình HPT 1.5 Air, kết hợp cơ chế mã hóa hình ảnh tinh vi với khả năng xử lý ngôn ngữ mạnh mẽ.
- HPT 1.5 Air dựa trên kiến trúc nền tảng của các phiên bản tiền nhiệm nhưng có những cải tiến đáng kể ở cả bộ mã hóa hình ảnh và các thành phần mô hình ngôn ngữ.
- HPT 1.5 Air đã thể hiện kết quả vượt trội trên nhiều bài kiểm tra đánh giá khác nhau, đặc biệt là trong các môi trường đòi hỏi mức độ hiểu biết cao về hình ảnh và văn bản.
- Trong các bài kiểm tra SEED-I, SQA và MMStar, HPT 1.5 Air không chỉ đáp ứng mà còn vượt xa kỳ vọng, thiết lập các tiêu chuẩn mới.
📌 HPT 1.5 Air, mô hình AI đa phương thức 8B mã nguồn mở mới sử dụng LLaMA 3, mang lại hiệu quả vượt trội trong xử lý văn bản và hình ảnh. Với kiến trúc ấn tượng và chỉ 10 tỷ tham số, HPT 1.5 Air đã vượt qua nhiều đối thủ lớn hơn trên các bài kiểm tra như SEED-I, SQA, MMStar, thiết lập tiêu chuẩn mới cho AI đa phương thức.
Citations:
[1] https://www.marktechpost.com/2024/05/10/meet-hpt-1-5-air-a-new-open-sourced-8b-multimodal-llm-with-llama-3/
### Meta descriptions
Red Hat mở rộng công nghệ AI tạo sinh Lightspeed lên Linux và OpenShift, hứa hẹn cải thiện hiệu quả và đơn giản hóa quản lý cho người mới và chuyên gia.
### Meta keywords
Red Hat, Lightspeed, AI tạo sinh, Linux, OpenShift, tự động hóa, quản lý cluster, RHEL, Ansible Lightspeed, IBM Watsonx
### Interesting and shocked SEO title
Red Hat đưa AI tạo sinh Lightspeed lên Linux và OpenShift: Bước đột phá mới trong tự động hóa!
- Red Hat công bố mở rộng công nghệ AI tạo sinh Lightspeed cho nền tảng ứng dụng đám mây hỗn hợp Red Hat OpenShift và Red Hat Enterprise Linux (RHEL).
- Dự kiến, Red Hat OpenShift Lightspeed sẽ được ra mắt vào cuối năm 2024, trong khi Red Hat Enterprise Linux Lightspeed vẫn đang trong giai đoạn lên kế hoạch.
- Lightspeed sẽ áp dụng AI tạo sinh để triển khai và mở rộng các ứng dụng truyền thống và bản địa đám mây trên các cluster OpenShift, giúp người mới làm quen nhanh chóng và chuyên gia làm việc hiệu quả hơn.
- Ví dụ, khi một cluster đạt đến công suất tối đa, Lightspeed sẽ đề xuất cho người dùng kích hoạt tính năng tự động mở rộng và sau khi đánh giá các cluster được lưu trữ trên đám mây công cộng, đề xuất thêm một instance phù hợp.
- Red Hat Enterprise Linux Lightspeed hỗ trợ đơn giản hóa việc triển khai và bảo trì môi trường Linux, giúp các đội ngũ vận hành RHEL làm việc nhanh hơn và hiệu quả hơn khi hệ thống mở rộng và trở nên phức tạp.
- Lightspeed có thể thông báo cho quản trị viên về việc phát hành cảnh báo bảo mật với các bản vá sửa lỗi.
- Ngoài ra, Red Hat cũng thông báo rằng Red Hat Ansible Lightspeed đã được cải tiến với khả năng tùy chỉnh và điều chỉnh mô hình cùng với bảng điều khiển để xem dữ liệu telemetry.
- Tính năng tùy chỉnh và điều chỉnh mô hình thông qua IBM Watsonx Code Assistant cho phép người dùng Ansible Lightspeed sử dụng nội dung Ansible hiện có để đào tạo mô hình, cải thiện chất lượng và độ chính xác của nội dung Ansible theo nhu cầu và mẫu tự động hóa cụ thể của tổ chức.
📌 Red Hat mở rộng AI tạo sinh Lightspeed cho OpenShift và RHEL, hứa hẹn cải thiện hiệu quả cho người mới và chuyên gia. Dự kiến ra mắt OpenShift Lightspeed cuối 2024, RHEL Lightspeed đang lên kế hoạch. Ansible Lightspeed cải tiến với tùy chỉnh mô hình và bảng điều khiển telemetry.
- Meta AI đã phát hành phiên bản không kiểm duyệt của mô hình ngôn ngữ lớn LLaMA-3, cho phép người dùng tự do khám phá tiềm năng của AI tạo sinh.
- LLaMA-3 được huấn luyện trên 1,4 nghìn tỷ token, gấp 58 lần so với phiên bản LLaMA ban đầu, hứa hẹn mang lại hiệu suất vượt trội.
- Mô hình này có khả năng thực hiện nhiều tác vụ khác nhau như trả lời câu hỏi, tóm tắt văn bản, phân tích cảm xúc và sáng tạo nội dung.
- Meta AI hy vọng việc phát hành LLaMA-3 không kiểm duyệt sẽ thúc đẩy sự phát triển của cộng đồng AI và giúp các nhà nghiên cứu, kỹ sư phần mềm khám phá những ứng dụng mới của công nghệ này.
- Tuy nhiên, việc sử dụng mô hình không kiểm duyệt cũng tiềm ẩn những rủi ro như tạo ra nội dung không phù hợp, vi phạm bản quyền hoặc thông tin sai lệch.
- Meta AI khuyến cáo người dùng cần cẩn trọng khi sử dụng LLaMA-3 và tuân thủ các nguyên tắc đạo đức trong nghiên cứu và ứng dụng AI.
- Việc phát hành LLaMA-3 không kiểm duyệt đánh dấu một bước tiến quan trọng trong lĩnh vực AI, mở ra nhiều cơ hội mới cho các nhà phát triển và doanh nghiệp.
📌 Meta AI vừa tung ra phiên bản không kiểm duyệt của mô hình ngôn ngữ lớn LLaMA-3 với 1,4 nghìn tỷ token, cho phép người dùng tự do khám phá tiềm năng của AI tạo sinh. Đây là một bước tiến quan trọng, mở ra nhiều cơ hội mới nhưng cũng tiềm ẩn rủi ro nếu không sử dụng đúng cách.
Citations:
[1] https://www.geeky-gadgets.com/llama-3-uncensored/
- Tenyx, một startup về AI, đã tinh chỉnh thành công mô hình ngôn ngữ Llama-3 của Meta, giờ đổi tên thành Tenyx-70B, và đã vượt qua GPT-4 của OpenAI trong một số lĩnh vực.
- Itamar Arel, người sáng lập và CEO của Tenyx, cho biết công nghệ tinh chỉnh này cho phép họ khai thác sự trùng lặp trong các mô hình lớn để thực hiện học tập liên tục hoặc học tập gia tăng.
- Mô hình Tenyx-70B đã được tối ưu hóa để vượt trội hơn GPT-4 trong các nhiệm vụ toán học và lập trình, đồng thời vượt qua mô hình Llama-3 gốc trong tất cả các khả năng.
- Tenyx đã giải quyết vấn đề "quên lãng thảm họa" bằng cách chỉ cập nhật một phần nhỏ các tham số của mô hình, cho phép mô hình được đào tạo trên thông tin mới mà không làm ảnh hưởng đến các khả năng hiện có.
- Mô hình Llama-3 tinh chỉnh của Tenyx, với 70 tỷ tham số, đã được đào tạo chỉ trong 15 giờ sử dụng 100 GPU.
- Tenyx cũng cam kết với AI nguồn mở bằng cách phát hành mô hình Tenyx-70B dưới cùng một giấy phép với mô hình Llama-3 gốc, nhấn mạnh tầm quan trọng của việc chia sẻ tiến bộ với cộng đồng.
- Các ứng dụng tiềm năng của công nghệ tối ưu hóa sau đào tạo của Tenyx rất rộng lớn, từ việc tạo ra các chatbot chuyên biệt cho các ngành cụ thể đến việc cho phép các bản cập nhật tăng cường thường xuyên cho các mô hình đã triển khai.
- Sự đột phá của Tenyx có thể làm thay đổi cán cân trong ngành công nghiệp AI, cung cấp cho các doanh nghiệp và nhà nghiên cứu quyền truy cập vào các mô hình ngôn ngữ tiên tiến mà không cần chi phí cao và các hạn chế liên quan đến các sản phẩm độc quyền.
- Mặc dù mô hình Llama-3 tối ưu hóa của Tenyx vẫn kế thừa một số hạn chế của mô hình gốc, như phản ứng không logic hoặc không có cơ sở, nhưng sự cải thiện về hiệu suất là đáng kể, đạt gần 96% chính xác trong các nhiệm vụ toán học và suy luận.
📌 Tenyx đã tạo ra một bước đột phá trong ngành công nghiệp AI bằng cách tinh chỉnh mô hình ngôn ngữ Llama-3 để vượt qua GPT-4 trong một số lĩnh vực, đánh dấu lần đầu tiên một mô hình nguồn mở vượt qua tiêu chuẩn vàng độc quyền. Mô hình Tenyx-70B đã được tối ưu hóa để đạt hiệu suất cao trong các nhiệm vụ toán học và lập trình, mở ra cánh cửa cho một kỷ nguyên mới của sự đổi mới AI nguồn mở.
https://venturebeat.com/ai/exclusive-ai-startup-tenyxs-fine-tuned-open-source-llama-3-model-outperforms-gpt-4/
- Red Hat giới thiệu RHEL AI, một nền tảng mô hình nền tảng đa năng để phát triển và chạy các mô hình ngôn ngữ nguồn mở, cùng với InstructLab, một dự án cộng đồng cho phép các chuyên gia tinh chỉnh mô hình AI.
- CEO Matt Hicks nhấn mạnh cam kết nguồn mở và cách tiếp cận hybrid của Red Hat, cho rằng AI không khác biệt cơ bản so với các ứng dụng, cần huấn luyện ở một số nơi và chạy ở những nơi khác, đồng thời trung lập với cơ sở hạ tầng phần cứng.
- Red Hat có kinh nghiệm lâu năm trong tối ưu hóa hiệu suất trên nhiều stack phần cứng khác nhau như Nvidia, AMD, Intel và Gaudi.
- Cách tiếp cận nguồn mở của Red Hat đảm bảo khách hàng giữ quyền sở hữu IP của mình khi làm việc với công ty.
📌 Red Hat đang dẫn đầu cuộc cách mạng dân chủ hóa AI trong doanh nghiệp với RHEL AI và InstructLab, kết hợp sức mạnh của nguồn mở, tối ưu đa nền tảng và bảo vệ IP khách hàng, hứa hẹn mang AI tạo sinh đến nhiều tổ chức hơn bao giờ hết.
Citations:
[1] https://venturebeat.com/ai/red-hat-unveils-rhel-ai-and-instructlab-to-democratize-enterprise-ai/
- IBM đã công bố mở mã nguồn bộ mô hình AI Granite, bao gồm các mô hình ngôn ngữ lớn và các bộ dữ liệu huấn luyện.
- Granite-3B, mô hình lớn nhất trong bộ Granite, đạt điểm số 78,3% trên bài kiểm tra MMLU, vượt qua ChatGPT của OpenAI.
- IBM cũng ra mắt InstructLab, một nền tảng cho phép các nhà nghiên cứu và doanh nghiệp tạo ra các mô hình AI tạo sinh tiên tiến.
- InstructLab hỗ trợ các tính năng như tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài, tạo sinh đa phương thức (multimodal), và khung kiểm thử (testbed) để đánh giá hiệu suất của mô hình.
- Granite và InstructLab là một phần trong nỗ lực của IBM nhằm thúc đẩy sự phát triển của AI nguồn mở và tạo điều kiện cho việc nghiên cứu và ứng dụng AI.
- Việc mở mã nguồn Granite và cung cấp InstructLab miễn phí sẽ giúp các nhà nghiên cứu và doanh nghiệp tiếp cận với công nghệ AI tiên tiến và xây dựng các ứng dụng AI từ cốt lõi (AI-native).
📌 IBM đã mở mã nguồn bộ mô hình AI Granite với mô hình Granite-3B vượt trội hơn ChatGPT, đồng thời ra mắt nền tảng InstructLab hỗ trợ các tính năng tiên tiến như tạo sinh đa phương thức và truy xuất dữ liệu ngoài, nhằm thúc đẩy sự phát triển của AI nguồn mở và tạo điều kiện cho nghiên cứu và ứng dụng AI.
Citations:
[1] https://www.pcmag.com/news/ibm-open-sources-granite-ai-models-launches-instructlab-platform
- DeepSeek-V2 là mô hình ngôn ngữ Mixture-of-Experts (MoE) mạnh mẽ với 236B tham số tổng cộng, trong đó 21B được kích hoạt cho mỗi token.
- So với DeepSeek 67B, DeepSeek-V2 đạt hiệu suất mạnh mẽ hơn, tiết kiệm 42,5% chi phí đào tạo, giảm bộ nhớ cache KV 93,3% và tăng thông lượng tạo tối đa lên 5,76 lần.
- Có thể tải xuống mô hình DeepSeek-V2 và DeepSeek-V2-Chat(RL) trên 🤗 HuggingFace.
- Mã nguồn mở hiện có hiệu suất chậm hơn so với codebase nội bộ khi chạy trên GPU với Huggingface. DeepSeek cung cấp giải pháp vllm chuyên dụng tối ưu hóa hiệu suất để chạy mô hình hiệu quả.
- DeepSeek-V2 hoạt động tốt trên tất cả các độ dài cửa sổ ngữ cảnh lên đến 128K trong các bài kiểm tra Needle In A Haystack (NIAH).
- DeepSeek-V2 Chat(RL) đạt điểm cao nhất trên các bài kiểm tra MMLU, BBH, C-Eval, CMMLU so với các mô hình khác như LLaMA3 70B, Mixtral, ChatMixtral 8x22B.
- DeepSeek cung cấp API tương thích OpenAI tại DeepSeek Platform với hàng triệu token miễn phí và giá cả cạnh tranh.
- Để sử dụng DeepSeek-V2 ở định dạng BF16 để suy luận, cần 80GB*8 GPU. Có thể sử dụng trực tiếp Transformers của Huggingface để suy luận mô hình.
- Kho lưu trữ mã được cấp phép theo Giấy phép MIT. Việc sử dụng các mô hình DeepSeek-V2 Base/Chat tuân theo Giấy phép Mô hình. DeepSeek-V2 hỗ trợ sử dụng thương mại.
📌 DeepSeek-V2 là mô hình ngôn ngữ MoE mạnh mẽ với 236B tham số, tiết kiệm 42,5% chi phí đào tạo và tăng thông lượng tạo lên 5,76 lần so với DeepSeek 67B. Nó đạt điểm cao nhất trên nhiều bài kiểm tra và cung cấp API tương thích OpenAI. Mã nguồn mở được cấp phép MIT và hỗ trợ sử dụng thương mại.
Citations:
[1] https://github.com/deepseek-ai/DeepSeek-V2
- Dự án Taide của Đài Loan được công bố vào tháng 2 năm 2023, nhằm phát triển một mô hình ngôn ngữ lớn (LLM) trong nước để tận dụng lợi ích kinh tế và bảo vệ dân số khỏi ảnh hưởng ngoại lai.
- Taide được thiết kế để phục vụ chủ yếu cho thị trường nội địa Đài Loan, sử dụng dữ liệu trong nước bao gồm các báo cáo chính phủ và tin tức, được viết bằng chữ Trung Quốc truyền thống và phản ánh ngữ pháp và cách nói địa phương.
- Mô hình này được ra mắt vào ngày 29 tháng 4 năm 2024, với kinh phí phát triển là 7,4 triệu USD, nhằm cải thiện hiệu quả trong các doanh nghiệp và tổ chức bằng cách tích hợp vào hoạt động kỹ thuật số của họ.
- Một chuyên gia AI kỳ cựu lập luận rằng Taide sẽ cần gần 3 tỷ Đài tệ (100 triệu USD) để tạo ra một mô hình toàn diện hơn sẽ được sử dụng rộng rãi.
- Các chuyên gia công nghệ Đài Loan lạc quan về khả năng của Taide trong việc thúc đẩy GDP quốc gia thông qua việc giữ gìn giá trị kinh tế từ sản xuất và tiêu dùng LLM trong nước.
- Taide cũng được kỳ vọng mang lại nhiều lợi ích liên quan đến an ninh, đặc biệt là trong việc ngăn chặn rủi ro thu thập dữ liệu người dùng Đài Loan bởi các công ty nước ngoài có liên kết với các thế lực độc hại.
- Mặc dù Taide chỉ sử dụng một phần nhỏ số liệu so với ChatGPT (7 tỷ so với 175 tỷ tham số dữ liệu), và hiện tại dự án này đang đối mặt với hạn chế về năng lực tính toán, các nhà phát triển tại Đài Loan vẫn tin tưởng vào giá trị của nó mà không nhất thiết phải sánh ngang với các mô hình quốc tế.
- Taide không chỉ là một bước tiến trong công nghệ mà còn là minh chứng cho cam kết của Đài Loan trong việc củng cố dân chủ số và tăng cường vị thế địa chính trị của mình thông qua sự đổi mới và giá trị dân chủ.
📌 Dự án Taide của Đài Loan, với kinh phí 7,4 triệu USD chỉ sử dụng một phần nhỏ số liệu so với ChatGPT (7 tỷ so với 175 tỷ tham số dữ liệu) và được phát triển dựa trên dữ liệu địa phương, không chỉ nhằm cải thiện hiệu quả kinh doanh mà còn tăng cường an ninh quốc gia. Taide vẫn được kỳ vọng sẽ đóng góp vào sự phát triển kinh tế và địa chính trị của Đài Loan trong dài hạn. Một chuyên gia AI kỳ cựu lập luận rằng Taide sẽ cần gần 3 tỷ Đài tệ (100 triệu USD) để tạo ra một mô hình toàn diện hơn sẽ được sử dụng rộng rãi.
Citations:
[1] https://ketagalanmedia.com/2024/05/06/taide-taiwans-own-ai-project-highlights-geopolitical-implications/
- Soket AI Labs giới thiệu Pragna-1B, mô hình đa ngữ mã nguồn mở đầu tiên của Ấn Độ, hỗ trợ tiếng Hindi, Gujarati, Bangla và tiếng Anh.
- Pragna-1B là bước tiến quan trọng hướng tới công nghệ AI hòa nhập, vượt qua rào cản ngôn ngữ và tăng cường tương tác người dùng trên các bối cảnh ngôn ngữ đa dạng.
- Mô hình sử dụng kiến trúc Transformer Decoder với 1,25 tỷ tham số và độ dài ngữ cảnh 2048 token.
- Quá trình huấn luyện Pragna-1B tập trung vào tiếng Hindi, Bangla và Gujarati, xử lý khoảng 150 tỷ token.
- Mô hình được thiết kế để triển khai hiệu quả trên thiết bị, mang lại hiệu suất tốt nhất cho các ngôn ngữ bản địa trong kích thước nhỏ gọn.
- Mặc dù có số lượng tham số khiêm tốn, hiệu suất của Pragna-1B tương đương với các mô hình 7 tỷ tham số lớn hơn.
- Pragna-1B được huấn luyện kỹ lưỡng trên các bộ dữ liệu được biên soạn riêng cho bối cảnh Ấn Độ, đảm bảo đầu ra chính xác và phù hợp về mặt văn hóa.
- Mô hình sử dụng bộ mã hóa Byte-Pair (BPE) tokenizer, được huấn luyện đặc biệt để xử lý các ngôn ngữ Ấn Độ, đạt kích thước từ vựng 69.632.
- Soket AI Labs tạo ra "Bhasha", một loạt bộ dữ liệu chất lượng cao được thiết kế riêng để huấn luyện các mô hình ngôn ngữ Ấn Độ.
- Bhasha-wiki bao gồm 44,1 triệu bài viết được dịch từ Wikipedia tiếng Anh sang 6 ngôn ngữ Ấn Độ.
- Bhasha-wiki-indic là tập con tinh chỉnh của Bhasha-wiki, tập trung vào nội dung liên quan đến Ấn Độ.
- Bhasha-SFT tạo điều kiện phát triển ngôn ngữ.
📌 Pragna-1B của Soket AI Labs là mô hình ngôn ngữ đa ngữ mã nguồn mở đầu tiên của Ấn Độ, hỗ trợ tiếng Hindi, Gujarati, Bangla và Anh với 1,25 tỷ tham số. Mô hình mang lại hiệu suất tốt nhất cho các ngôn ngữ bản địa, được huấn luyện trên bộ dữ liệu Bhasha 44,1 triệu bài viết, đánh dấu bước tiến quan trọng hướng tới AI hòa nhập.
Citations:
[1] https://analyticsindiamag.com/soket-ai-labs-unveils-pragna-1b-multilingual-indic-language-model/
- Nhóm nghiên cứu từ KAIST AI, LG AI Research, Carnegie Mellon University, MIT, Allen Institute for AI và University of Illinois Chicago giới thiệu Prometheus 2, một công cụ đánh giá mô hình ngôn ngữ nguồn mở mới.
- Prometheus 2 được phát triển để cung cấp đánh giá minh bạch, có thể mở rộng và kiểm soát được, đồng thời đạt chất lượng tương đương với các mô hình độc quyền.
- Mô hình được tạo ra bằng cách kết hợp hai mô hình đánh giá: một mô hình được huấn luyện chuyên biệt cho đánh giá trực tiếp và một mô hình cho xếp hạng theo cặp.
- Nhóm nghiên cứu sử dụng bộ dữ liệu Preference Collection mới với 1.000 tiêu chí đánh giá để tinh chỉnh khả năng của mô hình.
- Trên 4 bài kiểm tra xếp hạng theo cặp (HHH Alignment, MT Bench Human Judgment, Auto-J Eval và Preference Bench), Prometheus 2 vượt trội hơn các mô hình nguồn mở hiện có, đạt độ chính xác trên 85%.
- Prometheus 2 thu hẹp khoảng cách hiệu suất với các công cụ đánh giá độc quyền như GPT-4 trên nhiều bài kiểm tra. Mô hình giảm một nửa sự khác biệt tương quan giữa con người và GPT-4 trên bài kiểm tra FLASK và đạt độ chính xác 84% trong đánh giá HHH Alignment.
📌 Prometheus 2, một công cụ đánh giá mô hình ngôn ngữ nguồn mở mới, đạt hiệu suất vượt trội so với các mô hình nguồn mở hiện có trên nhiều bài kiểm tra, thu hẹp đáng kể khoảng cách với GPT-4. Kết hợp hai mô hình đánh giá trực tiếp và xếp hạng theo cặp, Prometheus 2 đạt độ chính xác trên 85% và giảm một nửa sự khác biệt tương quan so với GPT-4 trên bài kiểm tra FLASK.
Citations:
[1] https://www.marktechpost.com/2024/05/04/prometheus-2-an-open-source-language-model-that-closely-mirrors-human-and-gpt-4-judgements-in-evaluating-other-language-models/
- LLM2Vec là một phương pháp biến Llama 3 thành mô hình embedding, giúp cải thiện hiệu suất của retrieval-augmented generation (RAG) cho các mô hình ngôn ngữ lớn (LLMs).
- Mô hình embedding đóng vai trò quan trọng trong RAG, chúng mã hóa cơ sở tri thức và truy vấn do người dùng viết.
- Việc sử dụng mô hình embedding được huấn luyện hoặc tinh chỉnh cho cùng lĩnh vực với LLM có thể tăng cường đáng kể chất lượng của các đoạn văn được tạo ra.
- LLM2Vec tận dụng sức mạnh của Llama 3, một mô hình ngôn ngữ lớn, để tạo ra các embedding chất lượng cao.
- Phương pháp này mở ra tiềm năng to lớn trong việc cải thiện hiệu suất của các hệ thống RAG, giúp tạo ra văn bản tự nhiên và chính xác hơn.
📌 LLM2Vec đánh dấu bước tiến quan trọng trong việc tận dụng sức mạnh của Llama 3 để tạo ra các mô hình embedding chất lượng cao. Phương pháp này hứa hẹn sẽ cải thiện đáng kể hiệu suất của retrieval-augmented generation, mở ra tiềm năng to lớn trong việc tạo ra văn bản tự nhiên và chính xác hơn cho các ứng dụng AI.
Citations:
[1] https://medium.com/m/global-identity-2?redirectUrl=https%3A%2F%2Ftowardsdatascience.com%2Fturn-llama-3-into-an-embedding-model-with-llm2vec-8448005f99aa
- Các nhà nghiên cứu từ Học viện Trí tuệ Nhân tạo Bắc Kinh và Đại học Renmin Trung Quốc giới thiệu Llama-3-8B-Instruct-80K-QLoRA.
- Mô hình mở rộng đáng kể độ dài ngữ cảnh của Llama-3 gốc từ 8K lên 80K token.
- Phương pháp này nổi bật với khả năng duy trì hiểu biết ngữ cảnh qua các chuỗi văn bản dài đồng thời giảm yêu cầu tính toán.
- Sử dụng GPT-4 để tạo 3.5K mẫu huấn luyện cho các tác vụ Single-Detail QA, Multi-Detail QA và Biography Summarization.
- Fine-tune Llama-3-8B-Instruct-80K-QLoRA bằng QLoRA, áp dụng LoRA trên các lớp projection và huấn luyện lớp embedding.
- Kết hợp dữ liệu RedPajama, LongAlpaca và dữ liệu tổng hợp để tránh quên và tăng cường hiểu biết ngữ cảnh.
- Hiệu suất của mô hình trên các bài kiểm tra như LongBench và InfBench cho thấy khả năng xử lý chính xác các chuỗi văn bản dài.
- Nghiên cứu này thúc đẩy nghiên cứu NLP bằng cách cung cấp mô hình hiểu và xử lý ngữ cảnh dài một cách hiệu quả.
📌 Llama-3-8B-Instruct-80K-QLoRA là bước tiến quan trọng trong việc mở rộng khả năng hiểu ngữ cảnh của AI, xử lý hiệu quả văn bản dài 80 nghìn token, mở đường cho các ứng dụng NLP tiên tiến hơn.
Citations:
[1] https://www.marktechpost.com/2024/05/02/this-ai-paper-introduces-llama-3-8b-instruct-80k-qlora-new-horizons-in-ai-contextual-understanding/
- Llama-3 8B với context length hơn 1 triệu token: Mô hình Llama-3 8B Gradient Instruct 1048k mở rộng context length từ 8k lên hơn 1 triệu, cho thấy LLM SOTA có thể quản lý context dài hiệu quả với ít training bằng cách điều chỉnh RoPE theta.
- Ứng dụng RAG chạy Llama-3 cục bộ: Bạn có thể xây dựng ứng dụng RAG với Llama-3 chạy trên máy cục bộ.
- Mô hình nông nghiệp KissanAI Dhenu1.0: Mô hình này được tinh chỉnh trên Llama-3 8B với 150.000 câu lệnh, tập trung vào Ấn Độ và ai cũng có thể tải về, chỉnh sửa, phản hồi.
- Nhà vô địch gọi công cụ Llama-3 70B trên GroqInc: Mô hình 70B vượt qua thử thách khi đưa ra truy vấn, rất nhanh và có giá tốt nhất. Nó cũng đạt kết quả xuất sắc trong các bài kiểm tra, benchmark.
- Copilot siêu nhanh trong VSCode: Copilot chạy trên Llama-3 cực kỳ nhanh và mạnh mẽ.
- TherapistAI.com chạy trên Llama-3 70B: Gần bằng GPT-4, mô hình này nâng cao đáng kể khả năng hội thoại, cho phép tương tác qua lại, tập trung giải quyết vấn đề.
- Trợ lý nghiên cứu dựa trên Llama-3 trên Groq: Bạn có thể xây dựng trợ lý tìm kiếm thông tin về chủ đề phức tạp trên web, gửi cho Llama-3 trên Groq và nhận lại bản tóm tắt chuyên sâu.
- Trợ lý pháp lý dựa trên Llama-3: Có thể trả lời các câu hỏi pháp lý, soạn thảo hợp đồng, phân tích án lệ...một cách nhanh chóng và chính xác.
- Trợ lý y tế dựa trên Llama-3: Hỗ trợ chẩn đoán, đưa ra lời khuyên sức khỏe, giải thích thuật ngữ y học, tóm tắt hồ sơ bệnh án...
- Ứng dụng giáo dục dựa trên Llama-3: Soạn giáo án, giải thích khái niệm, chấm bài tập, đưa ra phản hồi cho học sinh...
📌 Llama-3 của Meta đã chứng minh sức mạnh đáng kinh ngạc qua 10 use case ấn tượng như mở rộng context lên hơn 1 triệu token, xây dựng các ứng dụng RAG, trợ lý chuyên biệt trong nông nghiệp, y tế, giáo dục, pháp luật với hiệu năng vượt trội và chi phí hợp lý. Điều này hứa hẹn đưa Llama-3 trở thành một trong những nền tảng AI hàng đầu trong tương lai gần.
Citations:
[1] https://analyticsindiamag.com/10-wild-use-cases-for-llama-3/
- Llama-3 70B Instruct Gradient 1048K là mô hình do Gradient phát triển, mở rộng độ dài ngữ cảnh của Llama-3 70B từ 8k lên hơn 1048K token.
- Mô hình được tài trợ tính toán bởi Crusoe Energy và chỉ cần huấn luyện trên 34 triệu token cho giai đoạn này, tổng cộng ~430 triệu token cho tất cả các giai đoạn, tương đương < 0,003% dữ liệu tiền huấn luyện gốc của Llama-3.
- Phương pháp tiếp cận bao gồm sử dụng meta-llama/Meta-Llama-3-70B-Instruct làm cơ sở, nội suy NTK-aware theo quy luật tỷ lệ để thiết lập lịch trình tối ưu cho RoPE theta, huấn luyện tiệm cận trên các độ dài ngữ cảnh tăng dần.
- Dữ liệu huấn luyện được tạo ra bằng cách tăng cường SlimPajama để tạo ngữ cảnh dài. Mô hình cũng được tinh chỉnh trên tập dữ liệu trò chuyện dựa trên UltraChat.
- Quá trình huấn luyện tiệm cận trải qua các giai đoạn 65K, 262K, 524K và 1048K token, với độ dài chuỗi, RoPE theta, kích thước batch và số bước tích lũy gradient tăng dần.
📌 Llama-3 70B Instruct Gradient 1048K (1 triệu token) thể hiện khả năng vượt trội của các mô hình ngôn ngữ tiên tiến trong việc học hoạt động trên ngữ cảnh dài với lượng huấn luyện tối thiểu, chỉ cần 430 triệu token, tương đương < 0,003% dữ liệu gốc, nhờ điều chỉnh thích hợp RoPE theta và huấn luyện tiệm cận.
Citations:
[1] https://huggingface.co/gradientai/Llama-3-70B-Instruct-Gradient-1048k
• Người dùng X Premium giờ đây có thể đọc các bản tóm tắt tin tức được tạo bởi công cụ AI Grok của công ty.
• Tính năng "Stories on X" được mô tả như một cách để người dùng "thấy thế giới đang nói về điều gì".
• Công cụ này hiện chỉ có sẵn cho người dùng web và iOS, nằm trong tab Khám phá dành cho người đăng ký Premium.
• "Stories on X" được tạo ra từ các bài đăng trên X, một số tóm tắt các tin tức cụ thể, số khác tóm tắt các cuộc trò chuyện đang diễn ra trên nền tảng.
• Tính năng này tương tự như Twitter Moments trước đây, nhưng sử dụng AI thay vì một nhóm biên tập viên người.
• Các bản tóm tắt của Grok đi kèm với tuyên bố miễn trừ rằng nó có thể mắc lỗi và cần xác minh.
• Grok từng quảng bá các tin tức giả về các sự kiện thế giới, chẳng hạn như tuyên bố sai về kết quả bầu cử ở Ấn Độ và Iran tấn công Tel Aviv.
• AI trong hình thức hiện tại thường hiểu sai các bài đăng của con người và đôi khi tự tạo ra "sự thật" của riêng mình.
• X lưu ý rằng các bản tóm tắt có thể thay đổi theo thời gian.
📌 X (trước đây là Twitter) đã ra mắt tính năng "Stories on X" sử dụng AI để tóm tắt tin tức, tuy nhiên vẫn tồn tại những hạn chế như hiểu sai thông tin và đưa ra các "sự thật" không chính xác. Người dùng cần cẩn trọng khi đọc các bản tóm tắt này và xác minh lại thông tin.
Citations:
[1] https://www.pcmag.com/news/x-now-displays-ai-generated-summaries-of-news-events
- Một nhóm các nhà nghiên cứu đã giới thiệu các mô hình OpenBioLLM-Llama3-70B và 8B, là những mô hình ngôn ngữ lớn (LLM) tiên tiến nhất trong lĩnh vực y tế.
- Các mô hình này có tiềm năng cách mạng hóa hoàn toàn xử lý ngôn ngữ tự nhiên (NLP) y tế bằng cách thiết lập các tiêu chuẩn mới về chức năng và hiệu suất.
- OpenBioLLM-Llama3-70B và 8B vượt trội hơn các mô hình như GPT-4, Gemini, Meditron-70B, Med-PaLM-1 và Med-PaLM-2 trong các tác vụ sinh y, thể hiện sự vượt trội và đột phá đáng kể về khả năng sử dụng và hiệu quả của các mô hình ngôn ngữ y tế.
- OpenBioLLM-70B đã chứng minh hiệu suất tốt nhất, thể hiện khả năng vượt trội so với kích thước của nó, vượt qua GPT-3.5, Gemini và Meditron-70B.
- Quá trình phát triển bao gồm tối ưu hóa ưu tiên trực tiếp (DPO) và tinh chỉnh cẩn thận sử dụng các mô hình LLama-3 70B và 8B làm nền tảng, đảm bảo OpenBioLLM-Llama3-70B và 8B được tối ưu hóa cho các ứng dụng y tế thực tế.
- Việc phát hành OpenBioLLM-Llama3-70B và 8B đánh dấu kỷ nguyên mới trong NLP y tế với hiệu suất, khả năng tiếp cận và tính thực tiễn được cải thiện trong các bối cảnh chăm sóc sức khỏe.
- Các mô hình này có tiềm năng cách mạng hóa hoàn toàn AI y tế và mở ra cánh cửa cho các giải pháp chăm sóc sức khỏe hiệu quả, chính xác và đạo đức hơn.
📌 OpenBioLLM-Llama3-70B và 8B đánh dấu bước đột phá trong công nghệ LLM y tế với khả năng vượt trội so với GPT-4, Gemini và các mô hình khác. Chúng hứa hẹn cách mạng hóa NLP y tế, mở ra tiềm năng to lớn cho AI y tế và các giải pháp chăm sóc sức khỏe hiệu quả, chính xác và đạo đức hơn trong tương lai.
Citations:
[1] https://www.marktechpost.com/2024/04/29/llama-3-based-openbiollm-llama3-70b-and-8b-outperforming-gpt-4-gemini-meditron-70b-med-palm-1-and-med-palm-2-in-medical-domain/
- GitHub đã giới thiệu Copilot Workspace, một môi trường phát triển AI từ cốt lõi, cho phép lập trình viên sử dụng ngôn ngữ tự nhiên để lên ý tưởng, lập kế hoạch, xây dựng, kiểm thử và chạy mã nhanh chóng và dễ dàng hơn.
- Copilot Workspace khác biệt với Copilot trước đây ở chỗ nó hỗ trợ các tác vụ phức tạp hơn và giảm ma sát cần thiết để bắt đầu một tác vụ.
- GitHub đã cải tiến Copilot bằng cách nâng cấp các gợi ý mã và thêm một cách tiếp cận đa mô hình, hỗ trợ mô hình GPT-4 của OpenAI và ra mắt kế hoạch doanh nghiệp.
- Copilot Workspace bao gồm các tính năng chính như khả năng chỉnh sửa ở mọi cấp độ, một terminal tích hợp có chức năng chuyển tiếp cổng an toàn, chức năng hợp tác và trải nghiệm di động được tối ưu hóa.
- Môi trường này không chỉ giới hạn trên web mà còn có thể truy cập trên các thiết bị di động, cho phép lập trình viên bắt đầu dự án mới mọi lúc, mọi nơi.
- GitHub không coi Copilot Workspace là một thay thế cho các ứng dụng di động hiện có như GitHub Codespaces và ứng dụng GitHub, mà là bổ sung cho trải nghiệm di động hiện tại.
- Copilot Workspace hiện đang ở giai đoạn xem trước kỹ thuật và chưa có thời gian biểu cụ thể cho khi nào môi trường này sẽ có sẵn rộng rãi.
📌 GitHub Copilot Workspace là một bước tiến lớn trong việc tích hợp AI vào môi trường phát triển phần mềm, với các tính năng như chỉnh sửa linh hoạt, terminal tích hợp, và hỗ trợ cộng tác. Môi trường này hứa hẹn sẽ tăng năng suất và sự hài lòng trong công việc cho các nhà phát triển doanh nghiệp.
Citations:
[1] https://venturebeat.com/ai/github-previews-copilot-workspace/
Dưới đây là tóm tắt nội dung từ URL mà bạn cung cấp:
Meta description: Microsoft vừa ra mắt Phi-3 Mini, một mô hình AI cực nhỏ gọn với chỉ 3,8 tỷ tham số nhưng có khả năng đạt hiệu suất ngang ngửa ChatGPT, có thể chạy trên điện thoại hoặc laptop mà không cần kết nối đám mây.
Meta keywords: Microsoft Phi-3 Mini, mô hình AI nhỏ gọn, 3,8 tỷ tham số, hiệu suất như ChatGPT, chạy cục bộ trên thiết bị
SEO title: Microsoft Phi-3 Mini: AI siêu nhỏ gọn đạt hiệu suất như ChatGPT
Tóm tắt chi tiết:
- Microsoft vừa giới thiệu Phi-3 Mini, một mô hình AI cực kỳ nhỏ gọn với chỉ 3,8 tỷ tham số nhưng có khả năng đạt hiệu suất ngang ngửa các mô hình ngôn ngữ lớn nhất hiện nay.
- Phi-3 Mini là mô hình đầu tiên trong 3 mô hình AI nhỏ gọn mà Microsoft đang phát triển, tiếp theo sẽ là Phi-3 Small (7 tỷ tham số) và Phi-3 Medium (14 tỷ tham số).
- Mặc dù chỉ có 3,8 tỷ tham số, Phi-3 Mini có thể tạo ra kết quả gần tương đương với mô hình GPT-3.5 175 tỷ tham số đang chạy ChatGPT miễn phí và mô hình Mixtral 8x7B của công ty AI Pháp Mistral.
- Phi-3 Mini đủ nhỏ gọn để chạy cục bộ trên thiết bị mà không cần kết nối đám mây. Nó có thể xử lý tối đa 4.000 token ngữ cảnh cùng lúc, với phiên bản đặc biệt 128k token cũng có sẵn.
- Các nhà nghiên cứu của Microsoft đã đạt được kết quả ấn tượng này bằng cách tập trung mô hình 3,8 tỷ tham số tương đối nhỏ vào một tập dữ liệu được biên soạn cực kỳ kỹ lưỡng gồm nội dung web chất lượng cao và tài liệu tổng hợp được phát triển từ các mô hình Phi trước đó.
📌 Microsoft đã tạo ra một bước đột phá với Phi-3 Mini, một mô hình AI siêu nhỏ gọn 3,8 tỷ tham số nhưng có khả năng đạt hiệu suất ngang ngửa các mô hình khổng lồ như GPT-3.5 175 tỷ tham số. Phi-3 Mini có thể chạy cục bộ trên điện thoại hoặc laptop mà không cần kết nối đám mây nhờ việc tập trung vào một tập dữ liệu chất lượng cao được biên soạn kỹ lưỡng.
Citations:
[1] https://www.techspot.com/news/102766-microsoft-phi-3-mini-boasts-chatgpt-level-performance.html
- VinaLlama2 là thế hệ thứ hai của mô hình ngôn ngữ lớn tiếng Việt, được phát triển bởi VILM và Alibaba Qwen.
- Mô hình có 4 phiên bản: Turbo, Standard, Pro và SUPER, cùng với biến thể VinaLlama2-Code dành cho các tác vụ lập trình.
- Bộ dữ liệu huấn luyện của VinaLlama2 được xây dựng từ đầu, bao gồm các nguồn sách văn học và lập trình được cấp phép hợp pháp.
- Thay vì 800 tỷ token như phiên bản đầu tiên, VinaLlama2 sử dụng 80 tỷ token dữ liệu tiếp tục tiền huấn luyện chất lượng cao.
- Các giai đoạn tinh chỉnh được kết hợp thành một quá trình duy nhất gọi là Odds Ratio Preference Optimization (ORPO).
- VinaLlama2 được huấn luyện trên 64 cụm máy tính H100 do Alibaba Cloud cung cấp.
- Phiên bản VinaLlama2-Preview sẽ ra mắt vào tháng 7, hỗ trợ đa phương thức giữa văn bản, hình ảnh và âm thanh.
- VinaLlama2-Code, dựa trên CodeQwen-7B, đảm bảo hiệu suất tốt nhất trong các tác vụ lập trình bằng tiếng Việt.
📌 VinaLlama2 đánh dấu bước tiến mới trong công nghệ mô hình ngôn ngữ lớn tại Việt Nam với khả năng đa phương thức, bộ dữ liệu huấn luyện chất lượng cao 80 tỷ token và sức mạnh tính toán từ 64 cụm H100 của Alibaba Cloud. Phiên bản VinaLlama2-Preview hứa hẹn sẽ mang đến trải nghiệm tương tác đa dạng giữa văn bản, hình ảnh và âm thanh khi ra mắt vào tháng 7 này.
Citations:
[1] https://www.vilm.org/vinallama2
- Apple giới thiệu OpenELM (Open-source Efficient Language Models) gồm 8 mô hình ngôn ngữ lớn (LLMs) hoạt động trực tiếp trên thiết bị thay vì dựa vào máy chủ đám mây.
- Các mô hình OpenELM đã có trên nền tảng chia sẻ mã nguồn AI Hugging Face Hub.
- Theo white paper, Apple sử dụng 2 loại mô hình OpenELM: 4 mô hình pre-trained bằng thư viện CoreNet và 4 mô hình instruction-tuned.
- Apple áp dụng chiến lược layer-wise scaling để tăng cường độ chính xác và hiệu quả.
- Ngoài mô hình cuối cùng, Apple còn cung cấp mã nguồn, log huấn luyện và nhiều phiên bản khác nhau.
- Các nhà nghiên cứu kỳ vọng cách tiếp cận này sẽ thúc đẩy tiến bộ và mang lại "kết quả đáng tin cậy hơn" trong lĩnh vực AI ngôn ngữ tự nhiên.
- OpenELM phá vỡ thông lệ trước đây khi chỉ chia sẻ trọng số mô hình và mã suy luận, huấn luyện trên bộ dữ liệu độc quyền. Giờ đây, Apple chia sẻ toàn bộ framework để huấn luyện và đánh giá mô hình trên bộ dữ liệu công khai.
- Apple phát hành OpenELM nhằm "làm giàu và trao quyền cho cộng đồng nghiên cứu mở" với các mô hình ngôn ngữ tiên tiến. Nhà nghiên cứu có thể khám phá rủi ro, dữ liệu và độ chệch. Nhà phát triển và công ty có thể tùy chỉnh mô hình theo nhu cầu.
- Việc Apple chia sẻ thông tin mở đã trở thành công cụ quan trọng để thu hút các kỹ sư, nhà khoa học và chuyên gia hàng đầu, tạo cơ hội cho các nghiên cứu trước đây không thể thực hiện dưới chính sách bảo mật của Apple.
📌 Apple đã giới thiệu OpenELM với 8 mô hình ngôn ngữ lớn mã nguồn mở chạy trực tiếp trên thiết bị. Việc chia sẻ toàn bộ framework huấn luyện trên dữ liệu công khai đánh dấu bước đột phá so với trước đây, hứa hẹn thúc đẩy nghiên cứu AI và thu hút nhân tài về Apple.
Citations:
[1] https://www.macrumors.com/2024/04/24/apple-ai-open-source-models/
- Meta đã phát hành phiên bản sớm của mô hình ngôn ngữ lớn mới nhất, Llama 3, và nhận được sự đón nhận rất lớn từ cộng đồng.
- Hugging Face đã có hơn 1000 biến thể của Llama 3 được chia sẻ công khai và dự kiến sẽ đạt 10.000 biến thể vào cuối tuần tới.
- Llama 3 bao gồm một bộ tạo sinh hình ảnh có thể cập nhật ảnh theo thời gian thực khi người dùng nhập lệnh.
- Meta phát hành hai phiên bản của Llama 3: một với 8 tỷ tham số và một với 70 tỷ tham số.
- Cả hai kích thước của Llama 3 đều vượt trội hơn các mô hình cùng kích thước như Gemma và Gemini của Google, Mistral 7B và Claude 3 của Anthropic trên một số bài kiểm tra đánh giá.
- Mô hình 8B của Llama 3 được cho là vượt trội hơn mô hình 70B của Llama 2 trên các bài đánh giá.
- Số lượng token trong Llama 3 đã tăng gấp 4 lần, từ 32.000 (Llama 2) lên 128.000, giúp nén chuỗi hiệu quả hơn, trích dẫn ít token hơn 15% và mang lại hiệu suất tốt hơn.
- Andrej Karpathy, giám đốc AI tại Tesla, ủng hộ việc phát hành các mô hình cơ sở và tinh chỉnh với kích thước 8B và 70B, đồng thời nhấn mạnh sự cần thiết của các mô hình nhỏ hơn cho mục đích giáo dục, kiểm thử đơn vị và ứng dụng nhúng.
- GroqInc giới thiệu 'Llama 3 Researcher', cung cấp Llama 3 8B với tốc độ 876 token/giây, nhanh nhất trong số các mô hình được đánh giá.
- Groq đang tạo ra 800 token mỗi giây trên Llama 3, mở ra khả năng cho các trường hợp sử dụng mới với nhiều hành động diễn ra đồng thời.
📌 Llama 3 của Meta đã tạo ra một làn sóng mới trong cộng đồng AI với hơn 1000 biến thể được chia sẻ trên Hugging Face chỉ trong một tuần và dự kiến sẽ đạt 10.000 biến thể vào cuối tuần tới. Mô hình này vượt trội hơn các đối thủ cùng kích thước, đạt tốc độ token ấn tượng lên tới 876 token/giây và hứa hẹn mở ra nhiều khả năng ứng dụng mới nhờ khả năng xử lý đồng thời nhiều hành động.
Citations:
[1] https://analyticsindiamag.com/hugging-face-already-has-1000s-of-llama-3-models-and-counting/
• Alibaba và Baidu đã nhanh chóng bổ sung hỗ trợ cho mô hình ngôn ngữ lớn Llama 3 của Meta trên nền tảng điện toán đám mây của họ.
• Đơn vị điện toán đám mây của Alibaba đã thêm Llama 3 vào cộng đồng mô hình AI nguồn mở ModelScope, cung cấp quyền truy cập vào nhiều mô hình AI nguồn mở.
• Alibaba Cloud mở rộng hỗ trợ cho các mô hình ngôn ngữ lớn của Meta trên nền tảng Bailian, cung cấp giải pháp đào tạo, suy luận và triển khai miễn phí trong thời gian giới hạn.
• Baidu là công ty công nghệ lớn đầu tiên của Trung Quốc hành động, cung cấp dịch vụ đào tạo và suy luận cho Llama 3 trên nền tảng dịch vụ mô hình Qianfan.
• Bailian là một nền tảng dịch vụ mô hình ngôn ngữ lớn cung cấp các công cụ và dịch vụ hỗ trợ khách hàng xây dựng và đào tạo mô hình riêng bằng dịch vụ điện toán đám mây của Alibaba.
• Qianfan được ra mắt để giúp khách hàng doanh nghiệp xây dựng, đào tạo và triển khai các ứng dụng AI.
📌 Alibaba và Baidu đã nhanh chóng hỗ trợ mô hình Llama 3 của Meta trên nền tảng đám mây, cung cấp dịch vụ đào tạo và suy luận miễn phí trong thời gian giới hạn. Điều này cho thấy sự cạnh tranh gay gắt giữa các gã khổng lồ công nghệ Trung Quốc trong lĩnh vực AI.
Citations:
[1] https://www.scmp.com/tech/tech-trends/article/3259945/alibaba-baidu-rush-add-support-metas-llama-3-their-cloud-computing-platforms
- Meta giới thiệu Llama 3 8B và Llama 3 70B, các mô hình AI tạo sinh mới nhất trong series Llama, có khả năng phân tích và tạo văn bản.
- Mặc dù được Meta gọi là "nguồn mở", các mô hình này đi kèm một số hạn chế về giấy phép như không được dùng để huấn luyện mô hình khác, các nhà phát triển ứng dụng có trên 700 triệu người dùng hàng tháng phải xin giấy phép đặc biệt.
- Khái niệm "nguồn mở" trong bối cảnh AI gây nhiều tranh cãi. Bản quyền, cơ chế sở hữu trí tuệ nền tảng của giấy phép nguồn mở, khó áp dụng cho các thành phần khác nhau của dự án AI.
- Nghiên cứu của các nhà khoa học từ Carnegie Mellon, AI Now Institute và Signal Foundation cho thấy nhiều mô hình AI được gọi là "nguồn mở" có những hạn chế đáng kể như giới hạn quyền truy cập dữ liệu, sức mạnh tính toán không đủ và chi phí lao động cao để tinh chỉnh.
- Trong một cuộc phỏng vấn, nhà nghiên cứu AI lâu năm Stuart Russell và nghiên cứu sinh Michael Cohen suy đoán về "Làm thế nào để ngăn AI giết chết tất cả chúng ta", một vấn đề cần giải quyết sớm hơn là muộn.
📌 Meta ra mắt Llama 3 8B và 70B, các mô hình AI tạo sinh "nguồn mở" nhưng đi kèm nhiều hạn chế giấy phép. Định nghĩa "nguồn mở" trong AI đang gây tranh cãi do khó áp dụng cơ chế bản quyền. Các chuyên gia cũng đang nghiên cứu cách kiểm soát AI để tránh nguy hiểm cho nhân loại.
Citations:
[1] https://techcrunch.com/2024/04/20/this-week-in-ai-when-open-source-isnt-so-open/
- Hugging Face giới thiệu Idefics2, một mô hình đa phương thức mã nguồn mở chấp nhận chuỗi đầu vào hình ảnh và văn bản tùy ý, tạo ra đầu ra văn bản.
- Mô hình có thể trả lời câu hỏi về hình ảnh, mô tả nội dung thị giác, tạo câu chuyện dựa trên nhiều hình ảnh hoặc đơn giản là hoạt động như một mô hình ngôn ngữ thuần túy mà không cần đầu vào thị giác.
- Idefics2 chỉ có 8 tỷ tham số nhưng vượt trội hơn đáng kể so với phiên bản tiền nhiệm Idefics1 và các mô hình ngôn ngữ lớn hơn như LLava-Next-34B và MM1-30B-chat trong các tác vụ thị giác.
- Mô hình được huấn luyện trên nhiều bộ dữ liệu công khai như tài liệu web, cặp hình ảnh-chú thích và dữ liệu OCR.
- Idefics2 được tinh chỉnh trên bộ dữ liệu mới "The Cauldron" tổng hợp 50 bộ dữ liệu được tuyển chọn cẩn thận để huấn luyện hội thoại đa dạng.
- Cải tiến kiến trúc quan trọng của Idefics2 là đơn giản hóa việc tích hợp các đặc trưng thị giác vào nền tảng ngôn ngữ thông qua Learned Perceiver Pooling và MLP modality projection.
- Idefics2 thể hiện cách tiếp cận tinh tế hơn trong xử lý hình ảnh, duy trì độ phân giải và tỷ lệ khung hình gốc, khác với các chuẩn thay đổi kích thước thông thường trong thị giác máy tính.
📌 Idefics2 của Hugging Face là một bước tiến ấn tượng trong lĩnh vực mô hình đa phương thức mã nguồn mở. Chỉ với 8 tỷ tham số, mô hình vẫn vượt trội các đối thủ lớn hơn trong các tác vụ thị giác nhờ kiến trúc cải tiến và huấn luyện trên tập dữ liệu đa dạng "The Cauldron".
Citations:
[1] https://analyticsindiamag.com/hugging-face-open-source-idefics-2-8b-multimodal-model/
- Theo Yann LeCun, một trong ba cha đẻ của AI, trong tương lai mọi tương tác của chúng ta với thế giới kỹ thuật số sẽ được điều phối bởi các trợ lý AI.
- Ông nhấn mạnh rằng các trợ lý AI sẽ trở thành kho chứa toàn bộ tri thức và văn hóa của nhân loại, giống như vai trò của internet ngày nay.
- LeCun kêu gọi các nền tảng AI phải là nguồn mở, nếu không sẽ rất nguy hiểm nếu chỉ một số ít công ty kiểm soát toàn bộ nguồn cung cấp thông tin kỹ thuật số của mọi công dân trên thế giới.
- Ông cho rằng điều này sẽ cực kỳ nguy hiểm cho sự đa dạng tư tưởng, cho nền dân chủ và hầu như mọi thứ.
- Đã có nhiều ví dụ cho thấy sự sai lệch và thiên vị khi chỉ một vài công ty nắm quyền kiểm soát việc tạo ra "sự hiểu biết văn hóa" cho cả thế giới.
- Nhiều chính phủ đang cân nhắc về lợi ích và nguy cơ của AI. Một số cho rằng AI quá nguy hiểm nên đang tìm cách quy định, thậm chí cấm AI nguồn mở.
- LeCun cho rằng điều này cực kỳ nguy hiểm cho tương lai của nhân loại và nhấn mạnh rằng sẽ quá nguy hiểm nếu AI bị kiểm soát bởi một số ít người.
📌 Yann LeCun, nhà khoa học AI hàng đầu của Meta, cảnh báo về nguy cơ của việc các nền tảng AI nguồn đóng kiểm soát tri thức và văn hóa của nhân loại. Ông kêu gọi các nền tảng AI phải là nguồn mở để tránh tình trạng một số ít công ty chi phối tư tưởng và thông tin, gây nguy hiểm cho sự đa dạng và dân chủ.
Citations:
[1] https://analyticsindiamag.com/ai-platforms-will-control-what-everybody-sees-metas-ai-chief-yann-lecun/
- Meta giới thiệu trợ lý AI mới, tích hợp vào ô tìm kiếm của Instagram, Facebook, WhatsApp, Messenger và xuất hiện trực tiếp trong feed Facebook.
- Trợ lý AI của Meta hiện có thể truy cập qua trang web riêng tại Meta.ai.
- Meta công bố Llama 3, phiên bản chính tiếp theo của mô hình nguồn mở nền tảng, vượt trội hơn các mô hình cùng loại trên các tiêu chuẩn quan trọng và tốt hơn trong các tác vụ như lập trình.
- Hai mô hình Llama 3 nhỏ hơn được phát hành hôm nay, cả trong trợ lý Meta AI và cho các nhà phát triển bên ngoài, trong khi phiên bản lớn hơn, đa phương thức sẽ ra mắt trong những tháng tới.
- CEO Mark Zuckerberg cho biết mục tiêu là biến Meta AI thành "trợ lý AI thông minh nhất mà mọi người có thể sử dụng tự do trên toàn thế giới".
- Trước khi phiên bản tiên tiến nhất của Llama 3 ra mắt, sẽ có các bản cập nhật lặp đi lặp lại cho các mô hình nhỏ hơn, như cửa sổ ngữ cảnh dài hơn và đa phương thức hơn.
- Meta muốn trợ lý của mình trở nên cá nhân hóa hơn và có thể tạo ra hình ảnh theo phong cách riêng của người dùng.
- Tốc độ thay đổi của các mô hình AI đang diễn ra rất nhanh, ngay cả khi Meta đang khẳng định lại vị trí dẫn đầu nguồn mở với Llama 3, không ai biết ngày mai sẽ mang lại điều gì.
- OpenAI được đồn đại đang chuẩn bị GPT-5, có thể vượt qua phần còn lại của ngành một lần nữa.
📌 Meta ra mắt trợ lý AI mới tích hợp vào nhiều nền tảng, sử dụng mô hình nguồn mở Llama 3 vượt trội. Mục tiêu là trở thành trợ lý AI thông minh nhất, tự do sử dụng trên toàn cầu. Tuy nhiên, tốc độ phát triển AI đang rất nhanh với tin đồn OpenAI chuẩn bị GPT-5, hứa hẹn cuộc đua gay cấn.
Citations:
[1] https://www.theverge.com/2024/4/18/24133808/meta-ai-assistant-llama-3-chatgpt-openai-rival
- Snowflake giới thiệu và mở mã nguồn arctic-embed, một dòng gồm 5 mô hình nhúng văn bản với giấy phép Apache 2.0.
- Kích thước mô hình dao động từ 23 đến 334 triệu tham số, một mô hình có cửa sổ ngữ cảnh mở rộng, mang lại nhiều lựa chọn tối ưu về độ trễ, chi phí và hiệu suất truy xuất.
- Dựa trên bảng xếp hạng Massive Text Embedding Benchmark (MTEB) Retrieval, mô hình Arctic embed lớn nhất với 334 triệu tham số là mô hình duy nhất vượt qua hiệu suất truy xuất trung bình 55,9.
- Các mô hình có sẵn trên Hugging Face để sử dụng ngay và sẽ sớm có trong hàm Snowflake Cortex embed (đang trong giai đoạn xem trước riêng tư).
- Khi kết hợp với bộ dữ liệu độc quyền và LLM, các mô hình mang lại lợi thế mới cho các tổ chức trong việc tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài (RAG) hoặc dịch vụ tìm kiếm ngữ nghĩa.
- Tính đến ngày 16/04/2024, snowflake-arctic-embed-l là mô hình nguồn mở mạnh mẽ nhất có thể sử dụng trong sản xuất dựa trên tỷ lệ hiệu suất trên kích thước.
📌 Snowflake ra mắt arctic-embed, bộ 5 mô hình nhúng văn bản tiên tiến với kích thước từ 23-334 triệu tham số và cửa sổ ngữ cảnh mở rộng. Mô hình lớn nhất đạt hiệu suất truy xuất vượt trội so với các đối thủ. Chúng được mở mã nguồn trên Hugging Face, tích hợp vào Snowflake Cortex, mang lại lợi thế khi kết hợp với dữ liệu độc quyền và LLM cho các ứng dụng RAG và tìm kiếm ngữ nghĩa.
Citations:
[1] Snowflake Launches Practical Text-Embedding Model for Retrieval use Cases https://www.snowflake.com/blog/introducing-snowflake-arctic-embed-snowflakes-state-of-the-art-text-embedding-family-of-models/
- Linux Foundation đã ra mắt dự án Open Platform for Enterprise AI (OPEA) nhằm thúc đẩy sự phát triển của các hệ thống AI tạo sinh mở, đa nhà cung cấp và có thể tổng hợp cho doanh nghiệp.
- Mục tiêu của OPEA là mở đường cho việc phát hành các hệ thống AI tạo sinh "vững chắc", "có khả năng mở rộng" và "khai thác sự đổi mới nguồn mở tốt nhất từ toàn bộ hệ sinh thái".
- Intel đã đóng góp các triển khai tham chiếu cho chatbot, công cụ tóm tắt tài liệu và trình tạo mã được tối ưu hóa cho phần cứng Xeon 6 và Gaudi 2 của họ trong kho lưu trữ OPEA.
- OPEA sẽ làm việc với cộng đồng nguồn mở để cung cấp các bài kiểm tra dựa trên tiêu chí đánh giá, cũng như cung cấp đánh giá và chấm điểm cho các triển khai AI tạo sinh theo yêu cầu.
- Các thành viên của OPEA như Cloudera, Domino và VMware đều đang đầu tư vào việc xây dựng công cụ cho AI tạo sinh trong doanh nghiệp.
- Cloudera gần đây đã ra mắt các quan hệ đối tác để tạo ra một "hệ sinh thái AI" trên đám mây, trong khi Domino cung cấp một bộ ứng dụng để xây dựng và kiểm toán AI tạo sinh cho doanh nghiệp.
📌 Dự án OPEA của Linux Foundation nhằm thúc đẩy sự phát triển của các hệ thống AI tạo sinh mở, đa nhà cung cấp và có thể tổng hợp cho doanh nghiệp. Với sự tham gia của Intel, Cloudera, VMware và Domino, OPEA hướng tới việc tạo ra các công cụ vững chắc, có khả năng mở rộng, khai thác sự đổi mới nguồn mở từ toàn bộ hệ sinh thái AI.
Citations:
[1] Intel and others commit to building open generative AI tools for the enterprise | TechCrunch https://techcrunch.com/2024/04/16/intel-and-others-commit-to-building-open-generative-ai-tools-for-the-enterprise/
- WizardLM giới thiệu WizardLM-2, một mô hình ngôn ngữ SOTA mã nguồn mở với hiệu suất cải thiện trong các tác vụ trò chuyện phức tạp, đa ngôn ngữ, lập luận và tác tử.
- Mô hình có 3 phiên bản: WizardLM-2 8x22B xuất sắc trong các tác vụ phức tạp, WizardLM-2 70B cung cấp khả năng lập luận hàng đầu, và WizardLM-2 7B nhanh nhất trong khi vẫn đạt hiệu suất tương đương các mô hình lớn gấp 10 lần.
- Trọng số mô hình WizardLM-2 8x22B và 7B đã có sẵn trên Hugging Face nhưng sau đó bị gỡ xuống do phát hành sớm.
- Mô hình Mixture of Experts đa ngôn ngữ có tổng kích thước tham số 141 tỷ. Nó được cấp phép Apache 2.0, tương tự như Llama 2, giúp nó cạnh tranh mạnh mẽ.
- WizardLM tin rằng dữ liệu do AI tạo ra một cách cẩn thận và mô hình được giám sát từng bước bởi AI sẽ là con đường duy nhất dẫn đến AI mạnh mẽ hơn.
- Trong khi Llama 3 sắp ra mắt, các mô hình khác như Gemma của Google, Phi-2 và Orca của Microsoft cũng đang cạnh tranh gay gắt. Amazon vẫn im lặng về việc tạo ra các mô hình nhỏ hơn và dựa vào các mô hình mã nguồn mở.
📌 WizardLM-2 nổi lên như một đối thủ đáng gờm của các mô hình ngôn ngữ lớn đóng như GPT-4 và Claude 3 Opus với 3 phiên bản mạnh mẽ 8x22B, 70B và 7B. Mô hình 141B tham số này sử dụng cấp phép mã nguồn mở Apache 2.0 và được đào tạo trên dữ liệu tổng hợp do AI tạo ra, hứa hẹn mở ra con đường mới cho các AI mạnh mẽ hơn trong tương lai.
Citations:
[1] The Dumbledore of LLMs https://analyticsindiamag.com/the-dumbledore-of-llms/
- Tác giả đã 3 lần công bố mô hình ngôn ngữ lớn mã nguồn mở tốt nhất: Llama 2, Mixtral và DBRX. Mỗi phiên bản là bước tiến đáng kể về hiệu suất trên mỗi tham số (với ngân sách tính toán cố định).
- Mô hình 70 tỷ tham số nắm bắt nhiều chi tiết hơn hẳn mô hình 7 tỷ tham số được huấn luyện tương tự. Biểu đồ từ Maxime Labonne cho thấy sự dịch chuyển từ Llama 2 sang Mixtral chủ yếu là về nén hiệu suất.
- Các mô hình Yi và Qwen không được áp dụng rộng rãi do thiên kiến trong tường thuật về mô hình mã nguồn mở. Chúng đáng lẽ có thể được gọi là mô hình ngôn ngữ lớn tiên tiến nhất.
- Khi chuẩn hóa theo tính toán, hầu hết lợi ích từ Llama 2 đến từ việc mở rộng quy mô tính toán. MMLU chỉ là một phép đo, nhưng nó cho thấy tính toán đơn giản có thể mang lại hiệu suất như thế nào.
- Sự khác biệt cốt lõi giữa các mô hình ngôn ngữ lớn mở và đóng là lượng dữ liệu huấn luyện. DBRX là mô hình mở duy nhất được xác nhận huấn luyện trên lượng lớn token, khoảng 2-3 nghìn tỷ, thay đổi lớn so với các nhà cung cấp mô hình công nghiệp.
📌 Cuộc đua tìm ra mô hình ngôn ngữ lớn mã nguồn mở tốt nhất đã kết thúc với Llama 2, Mixtral và DBRX. Tuy nhiên, xu hướng hiện nay là tập trung vào các mô hình hiệu quả tính toán. Sự khác biệt chính giữa mô hình mở và đóng nằm ở lượng dữ liệu huấn luyện, với DBRX là mô hình mở duy nhất sử dụng tới hàng nghìn tỷ token.
Citations:
[1] https://www.interconnects.ai/p/compute-efficient-open-llms
- aiXcoder 7B là một mô hình ngôn ngữ lớn lập trình mã nguồn mở mới với 7 tỷ tham số, thể hiện hiệu suất vượt trội so với các mô hình khác như Code Llama 34B và Star Coder 15B trong các tác vụ tạo mã.
- Nó hỗ trợ nhiều ngôn ngữ lập trình, bao gồm Python, JavaScript, C++ và các ngôn ngữ khác, đồng thời tích hợp với các IDE phổ biến như VS Code và JetBrains thông qua các plugin.
- aiXcoder 7B đã được huấn luyện trên 1.2 nghìn tỷ token duy nhất và xuất sắc trong việc hoàn thành mã, hiểu và tạo mã.
- Một trong những tính năng nổi bật của aiXcoder 7B là khả năng hỗ trợ đa ngôn ngữ toàn diện, đáp ứng nhu cầu của các nhà phát triển làm việc với Python, JavaScript và C++.
- Tính linh hoạt của nó cho phép tích hợp liền mạch vào các IDE phổ biến như Visual Studio Code và JetBrains thông qua các plugin thân thiện với người dùng.
- Hiệu suất ấn tượng và sự hỗ trợ của cộng đồng mã nguồn mở sôi động giúp củng cố vị trí của aiXcoder 7B như một công cụ không thể thiếu cho bất kỳ nhà phát triển nào muốn nâng cao trải nghiệm lập trình.
📌 aiXcoder 7B, một trợ lý lập trình AI mã nguồn mở mới với 7 tỷ tham số, đã thể hiện hiệu suất vượt trội so với các mô hình như Code Llama và Star Coder trong việc tạo mã. Nó hỗ trợ nhiều ngôn ngữ lập trình, tích hợp liền mạch với các IDE phổ biến, và xuất sắc trong hoàn thành, hiểu và tạo mã. Với hiệu suất ấn tượng và sự hỗ trợ của cộng đồng mã nguồn mở, aiXcoder 7B hứa hẹn sẽ là công cụ không thể thiếu cho các nhà phát triển.
Citations:
[1] aiXcoder 7B open source AI coding assistant outperforms Code Llama https://www.geeky-gadgets.com/ai-coding-assistant-aixcoder/
- Arthur Mensch, 31 tuổi, là CEO và đồng sáng lập Mistral, một công ty AI của Pháp được kỳ vọng sẽ cạnh tranh với OpenAI và Google.
- Chỉ sau một năm thành lập tại Paris, Mistral đã thu hút sự chú ý đáng kể và được chính phủ Pháp xác định là niềm hy vọng tốt nhất của châu Âu trong cuộc đua AI.
- Chính phủ Pháp đã vận động hành lang các nhà hoạch định chính sách EU để hỗ trợ sự phát triển của Mistral.
- Các nhà hoạch định chính sách và lãnh đạo doanh nghiệp châu Âu lo ngại rằng tăng trưởng và khả năng cạnh tranh của khu vực sẽ bị ảnh hưởng nếu không bắt kịp cuộc cách mạng AI.
- Họ cũng e ngại việc để các gã khổng lồ công nghệ như Microsoft và Google định hình các tiêu chuẩn AI toàn cầu, vốn có thể không phù hợp với các giá trị văn hóa và chính trị của các quốc gia khác.
- Câu hỏi lớn hơn là mô hình AI nào sẽ định hình thế giới và chúng nên được quản lý như thế nào.
- Arthur Mensch, từng là kỹ sư tại phòng thí nghiệm DeepMind của Google ở Paris, cho rằng sự vắng mặt của một nhà vô địch châu Âu đồng nghĩa với việc lộ trình sẽ do Mỹ định đoạt.
📌 Mistral, công ty khởi nghiệp AI của Pháp do Arthur Mensch đồng sáng lập, đang được kỳ vọng trở thành đối trọng của châu Âu trong cuộc đua AI toàn cầu. Chính phủ Pháp đã xác định Mistral là niềm hy vọng tốt nhất để thiết lập một đại diện và vận động hành lang EU hỗ trợ sự phát triển của công ty. Châu Âu đang lo ngại về hậu quả nếu tụt hậu trong cuộc cách mạng AI và để các gã khổng lồ công nghệ Mỹ định hình các tiêu chuẩn AI toàn cầu.
Citations:
[1] https://www.nytimes.com/2024/04/12/business/artificial-intelligence-mistral-france-europe.html
- Meta AI vừa giới thiệu OpenEQA, một framework mã nguồn mở và tập dữ liệu để thúc đẩy nghiên cứu về trí thông minh thể hiện (embodied intelligence) trong các tác tử nhân tạo.
- OpenEQA cho phép các tác tử AI tương tác với môi trường 3D, trả lời các câu hỏi và thực hiện các tác vụ phức tạp dựa trên thông tin đa phương thức như thị giác, ngôn ngữ và hành động.
- Mục tiêu của OpenEQA là tạo ra các hệ thống AI có khả năng lập luận, học hỏi và thích ứng linh hoạt như con người trong thế giới thực.
- OpenEQA bao gồm hơn 1 triệu câu hỏi đa dạng trên 10.000 ngữ cảnh 3D khác nhau, giúp đánh giá khả năng của các tác tử AI trong việc trả lời câu hỏi và hoàn thành nhiệm vụ.
- Các tác tử AI trong OpenEQA có thể di chuyển, quan sát môi trường từ nhiều góc độ, tương tác với các vật thể và sử dụng ngôn ngữ tự nhiên để trả lời câu hỏi.
- OpenEQA tích hợp với nền tảng Habitat của Meta AI, cho phép mô phỏng các môi trường 3D thực tế và đào tạo các mô hình AI trên quy mô lớn.
- Bộ dữ liệu của OpenEQA được chia thành 3 loại câu hỏi: câu hỏi quan sát (chỉ cần quan sát môi trường), câu hỏi hành động (cần thực hiện hành động để trả lời) và câu hỏi dẫn đường (tìm đường đến đích).
- OpenEQA cũng cung cấp các công cụ để đánh giá và so sánh hiệu suất của các mô hình AI khác nhau trên tập dữ liệu.
- Theo Meta AI, OpenEQA sẽ thúc đẩy sự phát triển của các hệ thống AI đa phương thức, có khả năng học hỏi, lập luận và hoạt động hiệu quả trong thế giới thực, mở ra nhiều ứng dụng tiềm năng trong tương lai.
📌 OpenEQA của Meta AI là một bước tiến quan trọng trong nghiên cứu trí thông minh thể hiện cho các tác tử nhân tạo. Với hơn 1 triệu câu hỏi đa dạng trên 10.000 bối cảnh 3D, OpenEQA tạo điều kiện để phát triển các hệ thống AI đa phương thức, có khả năng tương tác, lập luận và thích ứng linh hoạt như con người, hứa hẹn nhiều ứng dụng thực tế trong tương lai.
Citations:
[1] https://venturebeat.com/ai/meta-ai-releases-openeqa-to-spur-embodied-intelligence-in-artificial-agents/
- Hiện nay, sự quan tâm về AI tập trung vào các dịch vụ AI tạo sinh quy mô lớn dựa trên đám mây như ChatGPT của OpenAI hay Microsoft Copilot.
- Tuy nhiên, các chuyên gia cho rằng trong tương lai gần, nhiều tổ chức có thể tự chạy dịch vụ AI tùy chỉnh trên phần cứng sở hữu hoặc thuê một cách dễ dàng và khả thi.
- Các yếu tố chi phí ban đầu đắt đỏ nhất của AI là dữ liệu huấn luyện và học sâu. Khi đã có cả hai, trọng tâm chuyển sang làm cho quá trình suy luận (đầu ra thực tế của AI) rẻ hơn và hiệu quả hơn.
- Nếu có dữ liệu riêng và xây dựng mô hình tùy chỉnh, nó sẽ rất hiệu quả về chi phí và mang lại nhiều giá trị hơn cho lĩnh vực vấn đề mà nó giải quyết.
- Các AI mã nguồn mở như Llama 2 hay Gemma có thể chạy tại chỗ đang tiệm cận về hiệu suất với các AI độc quyền phổ biến hơn và có thể sớm không thể phân biệt được từ góc nhìn của người dùng trung bình.
- Dell lạc quan rằng triển khai tại chỗ là tương lai của AI doanh nghiệp, mặc dù họ không thiên vị về kiến trúc bán dẫn cụ thể sẽ chạy nó.
- IBM đang xây dựng các mạch tích hợp chuyên dụng tập trung vào AI, và PC/laptop với chip AI chuyên dụng cuối cùng có thể tự xử lý một số tính toán AI.
- Khi chi phí đào tạo giảm, các công ty khởi nghiệp AI có thể cạnh tranh sòng phẳng hơn với các ông lớn công nghệ.
📌 Các yếu tố chi phí ban đầu đắt đỏ nhất của AI là dữ liệu huấn luyện và học sâu. Khi đã có cả hai, trọng tâm chuyển sang làm cho quá trình suy luận (đầu ra thực tế của AI) rẻ hơn và hiệu quả hơn. Trong tương lai gần, AI doanh nghiệp có thể chuyển dịch mạnh sang hướng mã nguồn mở và triển khai tại chỗ nhờ giảm chi phí đào tạo, sự tiệm cận về hiệu suất giữa AI mã nguồn mở và độc quyền, cũng như sự phát triển của phần cứng chuyên dụng cho AI. Điều này mở ra cơ hội cho các tổ chức tự triển khai dịch vụ AI tùy chỉnh hiệu quả.
Citations:
[1] https://www.itbrew.com/stories/2024/04/11/the-future-of-enterprise-ai-could-be-open-source-and-on-prem
- Mistral AI, một công ty khởi nghiệp AI mã nguồn mở có trụ sở tại Paris, đã ra mắt mô hình ngôn ngữ lớn mới nhất của mình, Mixtral 8x22B. Mô hình này được kỳ vọng sẽ vượt trội hơn mô hình trước đó của công ty, Mixtral 8x7B, vốn đã được đánh giá cao so với các đối thủ nổi tiếng như GPT-3.5 của OpenAI và Llama 2 của Meta Platforms Inc.
- Mixtral 8x22B có cửa sổ ngữ cảnh 65.000 token, cho phép xử lý và tham chiếu một lượng lớn văn bản cùng lúc. Mô hình này cũng có kích thước tham số lên tới 176 tỷ, tức số lượng biến nội bộ mà nó sử dụng để đưa ra quyết định và dự đoán.
- Mistral AI được thành lập bởi các nhà nghiên cứu AI từ Google và Meta. Công ty đã huy động được 415 triệu đô la vào tháng 12 và được định giá hơn 2 tỷ đô la. Mixtral 8x22B được phát hành thông qua liên kết torrent trên nền tảng truyền thông xã hội X và sau đó có sẵn trên các nền tảng Hugging Face và Together AI.
- Mixtral 8x22B sử dụng kiến trúc "mixture-of-experts" (MoE) thưa, cho phép nó thực hiện tính toán hiệu quả và mang lại hiệu suất cao trên nhiều tác vụ khác nhau. Mặc dù có kích thước rất lớn, mô hình này chỉ yêu cầu khoảng 44 tỷ tham số hoạt động cho mỗi lần truyền tiến, giúp nó nhanh hơn và tiết kiệm chi phí hơn so với các mô hình có kích thước tương tự.
Kết luận: Việc ra mắt Mixtral 8x22B có cửa sổ ngữ cảnh 65.000 token, kích thước tham số lên tới 176 tỷ là một cột mốc quan trọng cho AI tạo sinh mã nguồn mở. Tuy nhiên, Mistral AI cũng nhận một số chỉ trích vì không thể ngăn chặn việc sử dụng công nghệ của mình vào mục đích có hại.
https://siliconangle.com/2024/04/10/mistralai-debuts-mixtral-8x22b-one-powerful-open-source-ai-models-yet/
- Google ra mắt nhiều công cụ mã nguồn mở hỗ trợ các dự án và cơ sở hạ tầng AI tạo sinh tại hội nghị Cloud Next.
- MaxDiffusion là bộ sưu tập các triển khai tham chiếu của các mô hình khuếch tán chạy trên các thiết bị XLA như TPU của Google và GPU mới của Nvidia.
- JetStream là một công cụ mới để chạy các mô hình AI tạo sinh văn bản, hiện hỗ trợ TPU và sẽ tương thích với GPU trong tương lai, mang lại hiệu suất cao gấp 3 lần trên mỗi đô la chi phí.
- MaxText bổ sung thêm các mô hình tạo sinh văn bản như Gemma 7B, GPT-3, Llama 2 và các mô hình từ Mistral, được tối ưu hóa hiệu suất trên TPU và GPU.
- Google hợp tác với Hugging Face tạo ra Optimum TPU, cung cấp công cụ để đưa các tác vụ AI nhất định lên phần cứng TPU, hiện mới chỉ hỗ trợ mô hình Gemma 7B và chạy mô hình chứ chưa hỗ trợ huấn luyện.
- Các cải tiến này tối đa hóa việc sử dụng GPU và TPU, dẫn đến hiệu quả năng lượng cao hơn và tối ưu hóa chi phí.
- Google hứa hẹn sẽ cải thiện các công cụ này trong tương lai.
📌 Google đã ra mắt hàng loạt công cụ mã nguồn mở như MaxDiffusion, JetStream, MaxText và Optimum TPU nhằm hỗ trợ phát triển các dự án AI tạo sinh. Các công cụ này giúp tối ưu hóa hiệu suất lên đến 3 lần và giảm chi phí triển khai trên phần cứng TPU và GPU, mặc dù vẫn còn một số hạn chế cần được cải thiện trong tương lai.
https://techcrunch.com/2024/04/09/google-open-sources-tools-to-support-ai-model-development/
- Sailor là một họ các mô hình ngôn ngữ mở với số lượng tham số từ 0.5B đến 7B, được phát triển đặc biệt cho sự đa dạng ngôn ngữ của khu vực Đông Nam Á (SEA).
- Các mô hình Sailor dựa trên mô hình ngôn ngữ linh hoạt Qwen1.5 và được tiền huấn luyện liên tục trên một kho ngữ liệu lớn gồm 200B đến 400B token.
- Phần lớn kho ngữ liệu bao gồm tiếng Anh, tiếng Trung, tiếng Việt, tiếng Thái, tiếng Indonesia, tiếng Mã Lai và tiếng Lào.
- Quy trình huấn luyện sử dụng nhiều chiến lược như BPE dropout để tăng cường khả năng tổng quát hóa của mô hình và giảm thiểu vấn đề quá khớp.
- Các quy trình khử trùng lặp và làm sạch dữ liệu nghiêm ngặt được áp dụng để đảm bảo chất lượng của tập huấn luyện, từ đó cải thiện hiệu suất tổng thể của các mô hình Sailor.
- Tỷ lệ kết hợp dữ liệu huấn luyện được tối ưu hóa bằng cách sử dụng các mô hình proxy nhỏ, cho phép điều chỉnh siêu tham số và nâng cao hiệu quả của quá trình huấn luyện.
- Các thử nghiệm trên nhiều tác vụ như kiểm tra, trả lời câu hỏi, đọc hiểu và suy luận thông thường đã chứng minh tính mạnh mẽ và hữu ích của các mô hình Sailor so với các tiêu chuẩn đa dạng.
- Nghiên cứu trình bày một phương pháp toàn diện để phát triển các mô hình ngôn ngữ lớn (LLM) hoạt động hiệu quả trong sự đa dạng ngôn ngữ của khu vực SEA.
📌 Sailor là một bộ mô hình ngôn ngữ mở đầy hứa hẹn với số lượng tham số từ 0.5B đến 7B, được phát triển đặc biệt cho các ngôn ngữ Đông Nam Á. Dựa trên Qwen1.5 và được tiền huấn luyện trên kho ngữ liệu 200B-400B token, Sailor đạt hiệu suất vượt trội trên nhiều tác vụ nhờ các kỹ thuật như BPE dropout, làm sạch dữ liệu và tối ưu hóa tỷ lệ kết hợp dữ liệu huấn luyện.
https://www.marktechpost.com/2024/04/09/meet-sailor-a-family-of-open-language-models-ranging-from-0-5b-to-7b-parameters-for-southeast-asian-sea-languages/
https://arxiv.org/abs/2404.03608
- Mistral AI, một trong những công ty nghiên cứu AI hàng đầu thế giới, đã phát hành mô hình cơ sở cho Mistral 7B v0.2 - mô hình ngôn ngữ nguồn mở mới nhất.
- Mô hình Mistral 7B có 7.3 tỷ tham số, vượt trội hơn Llama 2 13B và Llama 1 34B trên hầu hết các bài kiểm tra đánh giá.
- Phiên bản V0.2 giới thiệu cửa sổ ngữ cảnh 32k cùng với các cải tiến khác, nâng cao khả năng xử lý và tạo văn bản.
- Bài hướng dẫn chi tiết cách truy cập và tinh chỉnh mô hình ngôn ngữ này trên nền tảng Hugging Face.
- Sử dụng tính năng AutoTrain của Hugging Face để tự động hóa quá trình đào tạo mô hình, giúp người dùng thông thường có thể phát triển các giải pháp AI tiên tiến.
- Hướng dẫn cụ thể các bước cần thiết để tinh chỉnh mô hình Mistral 7B-V0.2 trên tập dữ liệu tùy chỉnh, bao gồm tạo kho lưu trữ mô hình, chuẩn bị tập dữ liệu, cấu hình tham số và khởi chạy quá trình đào tạo.
📌 Mistral 7B-V0.2 là mô hình ngôn ngữ nguồn mở mạnh mẽ với 7,3 tỷ tham số, vượt trội hơn nhiều mô hình khác. Bài hướng dẫn chi tiết cách tinh chỉnh mô hình này trên nền tảng Hugging Face, giúp người dùng tạo ra các giải pháp AI tiên tiến dựa trên tập dữ liệu tùy chỉnh.
Citations:
[1] https://www.kdnuggets.com/mistral-7b-v02-fine-tuning-mistral-new-open-source-llm-with-hugging-face
- AURORA-M là một mô hình ngôn ngữ lớn (LLM) nguồn mở đa ngôn ngữ mới với 15 tỷ tham số, được điều chỉnh cho 6 ngôn ngữ đa dạng: tiếng Anh, Phần Lan, Hindi, Nhật Bản, Việt Nam và mã lập trình.
- Bắt đầu từ mô hình StarCoderPlus, AURORA-M trải qua quá trình tiền huấn luyện liên tục trên tập dữ liệu lớn gồm 435 tỷ token, dẫn đến tổng số token huấn luyện ấn tượng là 2 nghìn tỷ.
- An toàn là nguyên tắc thiết kế cơ bản, biến AURORA-M trở thành LLM nguồn mở đa ngôn ngữ đầu tiên được tinh chỉnh trên tập hợp các hướng dẫn an toàn do con người đánh giá, giải quyết các mối quan tâm được nêu trong Lệnh hành pháp của Biden-Harris về Phát triển và Sử dụng AI An toàn, Bảo mật và Đáng tin cậy.
- Các nhà nghiên cứu đã tạo ra một tập dữ liệu lớn gồm các cặp hướng dẫn-phản hồi để tăng cường tính an toàn và khả năng phục hồi của AURORA-M, giải quyết các lĩnh vực như ngăn ngừa tổn hại, tấn công mạng, hoạt động bất hợp pháp, xâm phạm quyền riêng tư và phá vỡ các biện pháp kiểm soát an toàn.
- Kết quả đánh giá cho thấy AURORA-M thành công trong việc tránh quên thảm khốc trong các tác vụ tiếng Anh và mã hóa, đồng thời đạt được hiệu suất cạnh tranh trên các tiêu chuẩn đa ngôn ngữ.
- Đánh giá an toàn khẳng định cam kết của AURORA-M về an toàn và tuân thủ các thực tiễn phát triển AI có trách nhiệm.
📌 AURORA-M đánh dấu bước tiến đáng kể trong việc dân chủ hóa quyền truy cập vào các LLM đa ngôn ngữ và an toàn. Mô hình 15 tỷ tham số này được tinh chỉnh trên 6 ngôn ngữ (có tiếng Việt) và tập dữ liệu 2 nghìn tỷ token, đạt hiệu suất cao trên nhiều tác vụ, đồng thời tuân thủ các tiêu chuẩn pháp lý và thực tiễn phát triển AI có trách nhiệm.
https://www.marktechpost.com/2024/04/07/aurora-m-a-15b-parameter-multilingual-open-source-ai-model-trained-in-english-finnish-hindi-japanese-vietnamese-and-code/
- AnythingLLM là ứng dụng nguồn mở toàn diện giúp doanh nghiệp tương tác với tài liệu thông qua công nghệ chatbot.
- Ứng dụng cho phép triển khai các phiên bản ChatGPT riêng tư, tích hợp với các mô hình ngôn ngữ lớn thương mại hoặc nguồn mở phổ biến.
- Người dùng có thể tạo và quản lý các không gian làm việc riêng biệt, mỗi không gian chứa một tập hợp tài liệu.
- AnythingLLM hỗ trợ đa người dùng với quyền truy cập chi tiết, đảm bảo an toàn thông tin.
- Tích hợp widget chat tùy chỉnh trên website, tăng tương tác người dùng.
- Hỗ trợ nhiều định dạng tài liệu như PDF, DOCX.
- Giao diện thân thiện giúp quản lý tài liệu hiệu quả, tích hợp với cơ sở dữ liệu vector.
- Hai chế độ hội thoại và truy vấn phù hợp với nhu cầu sử dụng.
- Trích dẫn trong hội thoại tăng độ tin cậy và minh bạch.
- Sẵn sàng triển khai trên đám mây, đảm bảo khả năng mở rộng.
- Hỗ trợ nhiều mô hình ngôn ngữ lớn, cho phép người dùng tùy chỉnh trải nghiệm hội thoại.
- Tối ưu hóa chi phí xử lý tài liệu.
- API thân thiện với nhà phát triển, mở ra nhiều khả năng tùy chỉnh.
📌 AnythingLLM là giải pháp chatbot tài liệu đa năng, hiệu quả và thân thiện với nhà phát triển. Với nhiều tính năng, hỗ trợ đa dạng mô hình ngôn ngữ lớn và khả năng tích hợp liền mạch, AnythingLLM giúp doanh nghiệp khai thác tối đa tiềm năng của tài liệu thông qua hội thoại dựa trên AI.
https://www.marktechpost.com/2024/04/07/meet-anythingllm-an-open-source-all-in-one-ai-desktop-app-for-local-llms-rag/
- OpenDevin là một dự án mã nguồn mở đại diện cho bước tiến đáng kể trong việc tích hợp trí tuệ nhân tạo vào kỹ thuật phần mềm.
- Nó cho phép người dùng tương tác với một AI có khả năng tạo các tập lệnh bash, chạy thử nghiệm và thực hiện các lệnh khác cần thiết cho quy trình phát triển.
- OpenDevin được xây dựng trên nền tảng Docker, Python và NodeJS, hứa hẹn một tương lai mà AI đóng vai trò tích cực hơn trong các nhiệm vụ lập trình.
- Thông qua sức mạnh của cộng đồng nguồn mở, OpenDevin nhằm đẩy ranh giới của những gì có thể với AI trong phát triển phần mềm.
- Nó tìm cách giải quyết các thách thức thực tế của việc tích hợp AI vào quá trình lập trình bằng cách hợp nhất các nhà phát triển, nhà nghiên cứu và những người đam mê AI.
- OpenDevin tượng trưng cho một bước đi táo bạo hướng tới tương lai nơi các nhà phát triển và AI hợp tác liền mạch.
- Với sự hỗ trợ và đổi mới của cộng đồng nguồn mở, OpenDevin đang sẵn sàng thay đổi bối cảnh kỹ thuật số, biến hành trình phát triển được cung cấp bởi AI trở thành hiện thực.
📌 OpenDevin là một dự án mã nguồn mở tiên phong tích hợp AI vào quy trình phát triển phần mềm, cho phép các nhà phát triển tập trung vào sáng tạo hơn là công việc tẻ nhạt. Được xây dựng trên Docker, Python, NodeJS và sức mạnh của cộng đồng, OpenDevin hứa hẹn một tương lai nơi AI và con người cộng tác liền mạch để cách mạng hóa ngành phần mềm.
https://www.marktechpost.com/2024/04/01/meet-opendevin-an-open-source-alternative-to-devin-an-autonomous-ai-software-engineer/
- OpenFoundry.ai là một nền tảng trí tuệ nhân tạo nguồn mở giúp các nhà phát triển tìm ra các mô hình tối ưu, nhanh chóng tạo mẫu thử, tinh chỉnh và triển khai chúng lên đám mây.
- OpenFoundry giải quyết các thách thức mà các nhà phát triển gặp phải khi sử dụng AI nguồn mở thông qua chiến lược hai mũi nhọn: nền tảng dành cho nhà phát triển và cộng đồng năng động.
- Nền tảng của OpenFoundry giúp việc tạo và triển khai các mô hình AI nguồn mở trở nên dễ dàng hơn. Sản phẩm đầu tiên cho phép các nhà phát triển nhanh chóng cài đặt các mô hình trên cơ sở hạ tầng đám mây của họ bằng công cụ dòng lệnh.
- Theo các nhà sáng lập Tyler Lehman và Arthur Chi, AI nguồn mở có nhiều lợi ích so với các lựa chọn nguồn đóng như: phát triển nhanh hơn và rẻ hơn, giảm rủi ro phụ thuộc vào nền tảng, và khả năng tự lưu trữ mô hình trên cơ sở hạ tầng riêng.
- OpenFoundry được hậu thuẫn bởi Y Combinator.
📌OpenFoundry.ai là một nền tảng trí tuệ nhân tạo nguồn mở giúp các nhà phát triển tìm ra các mô hình tối ưu, nhanh chóng tạo mẫu thử, tinh chỉnh và triển khai chúng lên đám mây. Sản phẩm đầu tiên cho phép các nhà phát triển nhanh chóng cài đặt các mô hình trên cơ sở hạ tầng đám mây của họ bằng công cụ dòng lệnh.
https://www.marktechpost.com/2024/03/29/meet-openfoundry-an-ai-research-startup-building-a-developer-infrastructure-for-open-source-ai/
- Mistral AI giới thiệu Mistral 7B v0.2, một bước tiến quan trọng trong các mô hình ngôn ngữ nguồn mở, với nhiều cải tiến kỹ thuật như mở rộng cửa sổ ngữ cảnh từ 8k lên 32k token, tinh chỉnh tham số Rope Theta và loại bỏ cơ chế sliding window attention.
- Những cải tiến này giúp Mistral 7B v0.2 xử lý và hiểu các chuỗi văn bản dài hơn với tính liên kết và liên quan cao hơn, rất quan trọng cho các ứng dụng từ tóm tắt tài liệu đến trả lời câu hỏi dạng dài.
- Mistral 7B v0.2 vượt trội hơn Llama-2 13B trong tất cả các tác vụ và cạnh tranh với các mô hình lớn hơn như Llama-1 34B mặc dù có ít tham số hơn. Khả năng của nó trong các tác vụ lập trình tiếp cận với các mô hình chuyên biệt như CodeLlama 7B.
- Phiên bản instruction-tuned, Mistral 7B Instruct v0.2, vượt trội hơn các mô hình instruction khác trên bộ dữ liệu MT-Bench, cho thấy tiềm năng trong phát triển các ứng dụng AI hội thoại.
- Kiến trúc của Mistral 7B v0.2, với 7.3 tỷ tham số và các đổi mới như Grouped-Query Attention (GQA) và Byte-fallback BPE tokenizer, là nền tảng cho hiệu suất vượt trội của nó, cải thiện tốc độ, chất lượng và khả năng tiếp cận với đối tượng rộng hơn.
- Bằng cách áp dụng cách tiếp cận nguồn mở theo giấy phép Apache 2.0, Mistral AI đảm bảo Mistral 7B v0.2 không chỉ là công cụ cho các nhà nghiên cứu và nhà phát triển mà còn là tài nguyên thúc đẩy đổi mới trên nhiều lĩnh vực.
- Việc cung cấp các tài nguyên toàn diện và các tùy chọn triển khai linh hoạt tạo điều kiện cho việc áp dụng và tích hợp Mistral 7B v0.2 vào các dự án và ứng dụng đa dạng.
📌 Mistral 7B v0.2 đánh dấu bước ngoặt trong lĩnh vực AI với hiệu suất vượt trội, kiến trúc hiệu quả và khả năng thích ứng trong nhiều tác vụ. Mô hình 7,3 tỷ tham số này minh chứng sức mạnh của các sáng kiến nguồn mở trong việc đẩy ranh giới công nghệ và làm cho các công cụ AI tiên tiến trở nên dễ tiếp cận hơn, thúc đẩy đổi mới và hợp tác trong cộng đồng AI.
https://www.marktechpost.com/2024/03/31/mistral-ai-releases-mistral-7b-v0-2-a-groundbreaking-open-source-language-model/
- Thuật ngữ "open" trong bối cảnh AI chưa có định nghĩa thống nhất, được áp dụng cho nhiều sản phẩm khác nhau mà ít liên quan đến ý nghĩa ổn định.
- Thomas Padilla cho rằng AI mở nên có 5 đặc điểm: có thể tái sử dụng, minh bạch, có trách nhiệm giải trình, được áp dụng bền vững, có tác động tích cực.
- Llama 2 của Meta tuyên bố là mã nguồn mở nhưng có các điều khoản hạn chế như cấm sử dụng để cải thiện các mô hình ngôn ngữ lớn khác. Điều này không đúng tinh thần mã nguồn mở.
- Các mô hình như OLMo phù hợp hơn với tinh thần mã nguồn mở khi công bố mã, trọng số dưới giấy phép Apache 2.0.
- OpenAI được coi là mở nhưng thiếu tính minh bạch khi không ghi công tác giả, nguồn dữ liệu huấn luyện.
- Hugging Face đề xuất "model cards" để cung cấp thông tin về thông số mô hình, bộ dữ liệu, mục đích sử dụng, hạn chế tiềm ẩn.
- AI mở cần có trách nhiệm giải trình, được phát triển và sử dụng theo nhu cầu cụ thể của cộng đồng.
- Tính bền vững của AI mở thể hiện qua nhận thức về sự phụ thuộc lẫn nhau, các mối đe dọa và cơ hội.
📌Thuật ngữ "open" và "open source" đang được sử dụng một cách gây nhầm lẫn trong bối cảnh AI, thường mang tính nguyện vọng hoặc tiếp thị hơn là mô tả kỹ thuật. Để đánh giá một AI có thực sự mở hay không, cần xem xét 5 khía cạnh như khả năng tái sử dụng, tính minh bạch, trách nhiệm giải trình, có tác động tích cực và tính bền vững.
Citations:
[1] https://thenewstack.io/how-should-we-define-open-ai/
- SambaNova Systems công bố mô hình ngôn ngữ lớn Samba-CoE v0.2 mới đạt tốc độ ấn tượng 330 token/giây, vượt qua nhiều mô hình đáng chú ý của đối thủ như DBRX mới ra mắt của Databricks, Mixtral-8x7B của MistralAI, Grok-1 của xAI.
- Samba-CoE v0.2 đạt tốc độ cao mà không ảnh hưởng đến độ chính xác, chỉ cần 8 socket thay vì 576 socket và hoạt động ở tốc độ bit thấp hơn so với các mô hình khác.
- Trong các bài kiểm tra, Samba-CoE v0.2 đưa ra câu trả lời 425 từ về thiên hà Milky Way chỉ trong 330.42 giây. Câu hỏi về điện toán lượng tử cũng nhận được câu trả lời nhanh chóng tương tự với 332.56 token chỉ trong 1 giây.
- SambaNova nhấn mạnh việc sử dụng ít socket hơn đồng thời duy trì tốc độ bit cao, cho thấy sự tiến bộ đáng kể về hiệu quả tính toán và hiệu suất mô hình.
- Công ty cũng úp mở về việc sắp ra mắt Samba-CoE v0.3 hợp tác với LeptonAI, cho thấy sự tiến bộ và đổi mới liên tục.
- Nền tảng của những tiến bộ này dựa trên các mô hình mã nguồn mở từ Samba-1 và Sambaverse, sử dụng cách tiếp cận độc đáo để kết hợp và hợp nhất mô hình, không chỉ là cơ sở cho phiên bản hiện tại mà còn gợi ý cách tiếp cận có thể mở rộng và sáng tạo cho sự phát triển trong tương lai.
- So sánh với các mô hình khác như Gemma-7B của GoogleAI, Mixtral-8x7B của MistralAI, llama2-70B của Meta, Qwen-72B của Alibaba Group, Falcon-180B của TIIuae và BLOOM-176B của BigScience cho thấy lợi thế cạnh tranh của Samba-CoE v0.2.
📌 SambaNova Systems đã đạt được bước tiến quan trọng với mô hình ngôn ngữ lớn Samba-CoE v0.2, vượt trội hơn nhiều đối thủ về tốc độ xử lý (330 token/giây) và hiệu quả tính toán (chỉ cần 8 socket). Điều này cho thấy tiềm năng to lớn của công ty trong việc phát triển các công nghệ AI tiên tiến, mở ra hướng đi mới cho tương lai của lĩnh vực trí tuệ nhân tạo.
https://venturebeat.com/ai/sambanova-announces-new-ai-samba-coe-v0-2-that-already-beats-databricks-dbrx/
- Các tổ chức quan ngại về rò rỉ dữ liệu, hiện tượng AI ảo giác và chi phí sử dụng API AI đám mây khi triển khai mô hình ngôn ngữ lớn (LLM) cho ứng dụng AI tạo sinh.
- Kong đã tạo ra một cổng AI, tích hợp vào nền tảng quản lý API của họ, để giúp tổ chức giải quyết các thách thức này.
- Cổng AI hỗ trợ kết nối với các nhà cung cấp LLM đám mây như OpenAI, Azure AI, Anthropic, Cohere, Mistral và Meta's Llama.
- Nó cung cấp quản trị tập trung cho thông tin đăng nhập AI, phân tích AI, bảo mật AI và tường lửa để kiểm soát các loại nhắc nhở được phép.
- Cổng AI cũng quản lý lưu lượng giữa LLM tự hostđể cải thiện hiệu suất và giảm chi phí sử dụng AI.
- Xu hướng là các tổ chức lớn kết hợp sử dụng LLM tự host rẻ hơn với LLM đám mây làm phương án dự phòng.
📌 Các tổ chức quan ngại về rò rỉ dữ liệu, hiện tượng AI ảo giác và chi phí sử dụng API AI đám mây khi triển khai mô hình ngôn ngữ lớn (LLM) cho ứng dụng AI tạo sinh. Cổng AI mới của Kong hỗ trợ kết nối với 6 nhà cung cấp LLM đám mây, quản lý tập trung thông tin đăng nhập, phân tích, bảo mật và kiểm soát nhắc nhở, cũng như điều phối giữa LLM tự host và đám mây để tối ưu hiệu suất và chi phí.
https://thenewstack.io/using-ai-for-work-new-open-source-gateway-promises-better-control/
- Startup Databricks đã phát hành DBRX, mô hình ngôn ngữ lớn mã nguồn mở mạnh nhất hiện nay, vượt qua Llama 2 của Meta.
- Databricks đã đầu tư khoảng 10 triệu USD và mất nhiều tháng để huấn luyện DBRX.
- DBRX vượt trội hơn các mô hình mã nguồn mở khác như Llama 2, Mixtral và Grok AI của Elon Musk trên nhiều bài kiểm tra.
- Trên một số điểm số, DBRX gần bằng GPT-4 của OpenAI, mô hình đóng được coi là đỉnh cao của trí tuệ máy.
- Databricks muốn minh bạch về quá trình tạo ra DBRX, không như Meta với Llama 2.
- Databricks hy vọng giúp các công ty trong tài chính, y tế sử dụng công nghệ AI trên dữ liệu riêng.
- DBRX sử dụng kiến trúc "mixture of experts", chỉ kích hoạt một phần mô hình để xử lý truy vấn, giúp huấn luyện và vận hành hiệu quả hơn.
- Trong 2 tuần cuối, Databricks đã tập trung cải thiện hiệu suất của DBRX trên một tập hợp khả năng cụ thể thay vì tiếp tục mở rộng quy mô.
- DBRX cũng đạt kết quả tốt trong việc tạo mã máy tính mặc dù không tập trung vào khía cạnh này.
- Databricks cho rằng việc công khai mã nguồn giúp thúc đẩy đổi mới và nghiên cứu khoa học.
📌 DBRX của Databricks đã trở thành mô hình AI mã nguồn mở mạnh nhất hiện nay với 136 tỷ tham số, vượt qua Llama 2, Mixtral và Grok. Mô hình này đạt điểm số gần bằng GPT-4 trên nhiều bài kiểm tra và hứa hẹn mang AI đến với nhiều doanh nghiệp hơn. Databricks cũng muốn minh bạch hơn về quá trình xây dựng DBRX để thúc đẩy nghiên cứu và đổi mới trong lĩnh vực AI.
Citations:
[1] https://www.wired.com/story/dbrx-inside-the-creation-of-the-worlds-most-powerful-open-source-ai-model/
- Databricks ra mắt mô hình mã nguồn mở DBRX 132B, vượt trội hơn các mô hình SOTA như Llama 2 70B, Mixtral-8x7B và Grok-1 trên nhiều bài kiểm tra như MMLU, Human Eval và GSM 8K.
- DBRX 132B tiệm cận với GPT-4 của OpenAI nhưng có chi phí thấp hơn 20 lần, chỉ 6,2 USD cho 1 triệu token đầu ra so với 120 USD của GPT-4.
- Kiến trúc MoE của DBRX 132B cho phép tốc độ nhanh, 100 token/giây, gấp 3 lần Llama, giảm rào cản chi phí, quyền riêng tư và độ phức tạp cho doanh nghiệp.
- Naveen Rao, Phó Chủ tịch Databricks, tin rằng mô hình mã nguồn mở sẽ vượt qua các mô hình đóng như GPT-4 trong 5 năm tới.
- Rao đánh giá thấp mô hình Grok-1 314B của XAI, cho rằng chất lượng không tương xứng với quy mô. Ông tự tin DBRX vượt trội hơn về chất lượng, chi phí và tốc độ.
- Databricks gặp khó khăn trong việc có được tài nguyên tính toán cần thiết và đảm bảo sự ổn định khi phát triển DBRX, chậm hơn 1-2 tháng so với kế hoạch.
- Thách thức kỹ thuật lớn nhất là mở rộng quy mô lên hơn 3072 GPU H100 và tối ưu hóa hiệu quả của kiến trúc MoE.
- Databricks cam kết với mã nguồn mở, tích hợp công nghệ MosaicML, cho phép các công ty tạo sự khác biệt trong AI và tận dụng dữ liệu độc quyền.
📌 Mô hình DBRX 132B của Databricks đánh dấu bước ngoặt cho AI mã nguồn mở, với chất lượng tiệm cận GPT-4 nhưng chi phí chỉ bằng 1/20, mở ra cơ hội cho doanh nghiệp áp dụng AI hiệu quả với tốc độ 100 token/giây, gấp 3 lần các mô hình khác.
https://analyticsindiamag.com/databricks-creates-history-with-gpt-4-level-open-source-model/
- Fireworks.ai là một startup cung cấp API AI tạo sinh nguồn mở lớn nhất với hơn 12.000 người dùng.
- Công ty không đào tạo các mô hình nền tảng từ đầu mà giúp tinh chỉnh các mô hình khác theo nhu cầu cụ thể của doanh nghiệp.
- API cho phép các nhà phát triển tích hợp nhanh chóng khả năng AI tạo sinh như đặt câu hỏi vào ứng dụng của họ.
- Fireworks.ai cho phép các công ty thử nghiệm với nhiều mô hình khác nhau, điều quan trọng trong thị trường đang thay đổi nhanh chóng.
- Công ty giữ chi phí thấp bằng cách giới hạn kích thước mô hình từ 7 tỷ đến 13 tỷ token, so với hơn 1 nghìn tỷ token trong ChatGPT4.
- Điều này cho phép các nhà phát triển tập trung vào các tập dữ liệu nhỏ hơn, tập trung hơn được thiết kế để hoạt động với các trường hợp sử dụng kinh doanh hạn chế hơn.
- CEO Lin Qiao trước đây đã làm việc tại Meta, lãnh đạo nhóm phát triển nền tảng AI với mục tiêu xây dựng một công cụ phát triển nhanh, có thể mở rộng quy mô để cung cấp năng lượng cho AI trên tất cả các sản phẩm và dịch vụ của Meta.
- Fireworks.ai đã huy động được 25 triệu USD vào năm 2022 do Benchmark dẫn đầu với sự tham gia của Sequoia Capital và các nhà đầu tư thiên thần bao gồm Databricks và Snowflake.
📌 Fireworks.ai cung cấp API AI tạo sinh nguồn mở lớn nhất với hơn 12.000 người dùng, cho phép các nhà phát triển dễ dàng tích hợp khả năng AI vào ứng dụng. Công ty tập trung vào việc tinh chỉnh các mô hình theo nhu cầu cụ thể, giữ chi phí thấp bằng cách giới hạn kích thước mô hình. Fireworks.ai đã huy động được 25 triệu USD từ các nhà đầu tư hàng đầu trong ngành.
https://techcrunch.com/2024/03/26/fireworks-ai-open-source-api-puts-generative-ai-in-reach-of-any-developer/
- Nhiều công ty công nghệ lớn như Meta, Google, Amazon đang tự xưng là những nhà tiên phong về AI mã nguồn mở. Tuy nhiên, chưa có sự đồng thuận về định nghĩa "AI mã nguồn mở" thực sự là gì.
- Open Source Initiative (OSI) đang tập hợp các nhà nghiên cứu, luật sư, nhà hoạch định chính sách và đại diện từ các công ty công nghệ lớn để đưa ra định nghĩa về AI mã nguồn mở.
- Các tiêu chí để một mô hình AI được coi là mã nguồn mở còn mơ hồ. Nhiều mô hình được chia sẻ công khai nhưng kèm theo các giấy phép hạn chế việc sử dụng.
- Vấn đề gây tranh cãi lớn nhất là liệu dữ liệu huấn luyện có cần được chia sẻ hay không. Các công ty công nghệ lớn chỉ công bố mô hình đã huấn luyện mà không chia sẻ dữ liệu gốc.
- Việc thiếu rõ ràng về định nghĩa AI mã nguồn mở có thể giúp các công ty lớn tận dụng thuật ngữ này theo cách có lợi cho họ, củng cố vị thế thống trị của họ trong lĩnh vực AI.
- Cộng đồng cần thống nhất một định nghĩa chung, nếu không các công ty lớn sẽ tự đưa ra định nghĩa theo nhu cầu riêng của họ.
📌 Các tiêu chí để một mô hình AI được coi là mã nguồn mở còn mơ hồ. Nhiều mô hình được chia sẻ công khai nhưng kèm theo các giấy phép hạn chế việc sử dụng.Vấn đề gây tranh cãi lớn nhất là liệu dữ liệu huấn luyện có cần được chia sẻ hay không. Các công ty công nghệ lớn chỉ công bố mô hình đã huấn luyện mà không chia sẻ dữ liệu gốc. Điều này giúp các công ty lớn tận dụng thuật ngữ AI nguồn mở theo cách có lợi cho họ, củng cố vị thế thống trị của họ trong lĩnh vực AI.
Citations:
[1]https://www.technologyreview.com/2024/03/25/1090111/tech-industry-open-source-ai-definition-problem/
#MIT
- Devika là phần mềm kỹ sư AI mã nguồn mở, có khả năng hiểu hướng dẫn của con người, chia nhỏ thành các nhiệm vụ, nghiên cứu và tự động viết mã để đạt mục tiêu
- Devika sử dụng các mô hình ngôn ngữ lớn như Claude 3, GPT-4, GPT-3.5 và Local LLMs, thuật toán lập kế hoạch và lập luận AI tiên tiến, trích xuất từ khóa ngữ cảnh, duyệt web và viết mã trong nhiều ngôn ngữ lập trình
- Một trong những điểm mạnh của Devika là khả năng đóng vai trò lập trình viên AI, giảm sự can thiệp của con người trong các nhiệm vụ mã hóa phức tạp
- Devika có thể tạo tính năng mới, gỡ lỗi mã hoặc phát triển toàn bộ dự án từ đầu, nhằm hợp lý hóa quy trình phát triển phần mềm và nâng cao hiệu quả
- Công cụ lập kế hoạch và lập luận AI của Devika cho phép nó chia nhỏ mục tiêu thành các bước khả thi, tinh chỉnh kế hoạch dựa trên ngữ cảnh và tự động thực hiện nhiệm vụ
- Người dùng có thể nhanh chóng bắt đầu với Devika bằng cách làm theo các bước cài đặt đơn giản, truy cập giao diện web, tạo dự án mới, chọn ngôn ngữ lập trình và cấu hình mô hình, đưa ra mục tiêu cấp cao cho Devika
📌 Devika hứa hẹn cách mạng hóa cách chúng ta xây dựng phần mềm với vai trò lập trình viên AI có thể đảm nhận các nhiệm vụ mã hóa phức tạp chỉ với sự hướng dẫn tối thiểu của con người. Với khả năng tạo tính năng mới, sửa lỗi hay phát triển toàn bộ dự án từ đầu, Devika đang nỗ lực trở thành một đối thủ mã nguồn mở đáng gờm của Devin.
https://analyticsindiamag.com/meet-devika-an-open-source-alternative-to-devin/
- OpenAI chiếm gần 80% thị trường AI tạo sinh toàn cầu năm 2023 (theo Valuates Reports).
- Các công ty lớn như xAI của Elon Musk, Meta, Google đều phát hành mô hình AI mã nguồn mở để cạnh tranh.
- Các startup AI mã nguồn mở nổi bật gồm Mistral AI, Hugging Face, Runway ML, Together AI, Writer, Cerebras và Databricks.
- Mô hình AI mã nguồn mở hấp dẫn doanh nghiệp vì không mất phí, không phải chia sẻ dữ liệu và có thể tùy chỉnh.
- Các công ty AI mã nguồn mở kiếm tiền bằng cách bán dịch vụ, ứng dụng và hỗ trợ doanh nghiệp trên nền tảng mô hình miễn phí.
- Mistral AI hợp tác với Microsoft, cung cấp cả mô hình miễn phí và mô hình độc quyền trả phí.
- Stability AI bắt đầu tính phí đăng ký sử dụng thương mại cho một số mô hình tiên tiến từ tháng 12/2023.
- Wayfair sử dụng phiên bản miễn phí của Stable Diffusion cho công cụ thiết kế nội thất AI.
- Vốn đầu tư toàn cầu cho các startup AI mã nguồn mở tăng từ 900 triệu USD năm 2022 lên 2,9 tỷ USD năm 2023 (theo PitchBook).
- Together AI huy động được 106 triệu USD, định giá 1,25 tỷ USD, chủ yếu bán công cụ giúp doanh nghiệp sử dụng mô hình mã nguồn mở rẻ và nhanh hơn.
- Hugging Face huy động gần 400 triệu USD, bán sức mạnh tính toán và hỗ trợ doanh nghiệp cho các mô hình mã nguồn mở khác.
- Thương mại hóa AI mã nguồn mở là "lãnh thổ chưa được khám phá", đối mặt nhiều thách thức như chi phí đào tạo mô hình, cấp phép công nghệ.
- Chưa có định nghĩa chuẩn hoặc bộ giấy phép cho AI mã nguồn mở, một số công ty chỉ phát hành một phần mô hình, hạn chế tính hữu dụng.
📌 OpenAI chiếm gần 80% thị trường AI tạo sinh toàn cầu năm 2023. Vốn đầu tư toàn cầu cho các startup AI mã nguồn mở tăng từ 900 triệu USD năm 2022 lên 2,9 tỷ USD năm 2023. Hiện nay chưa có định nghĩa chuẩn hoặc bộ giấy phép cho AI mã nguồn mở, một số công ty chỉ phát hành một phần mô hình, hạn chế tính hữu dụng. Mặc dù đang thu hút nhiều sự chú ý và đầu tư, các công ty AI mã nguồn mở vẫn phải đối mặt với nhiều thách thức trong việc thương mại hóa công nghệ, cạnh tranh với các đại gia công nghệ.
Citations:
[1]https://www.wsj.com/articles/open-source-companies-are-sharing-their-ai-free-can-they-crack-openais-dominance-26149e9c
- Startup xAI của Elon Musk đã mở mã nguồn mô hình ngôn ngữ lớn Grok-1 với 314 tỷ tham số, cho phép bất kỳ ai sử dụng và phát triển mô hình này.
- Grok được phát hành dưới giấy phép Apache License 2.0, cho phép sử dụng thương mại, sửa đổi và phân phối.
- Kiến trúc của Grok sử dụng 25% trọng số cho một token nhất định, giúp tăng hiệu quả và hiệu suất của mô hình.
- Grok ban đầu được phát hành dưới dạng mô hình đóng vào tháng 11/2023 và chỉ có thể truy cập thông qua dịch vụ đăng ký trả phí X Premium+ trên mạng xã hội X (trước đây là Twitter).
- Việc mở mã nguồn Grok không bao gồm toàn bộ dữ liệu huấn luyện và kết nối với thông tin thời gian thực trên X.
- Grok được định vị là phiên bản hài hước và không kiểm duyệt hơn so với ChatGPT và các LLM hàng đầu khác.
- Việc mở mã nguồn Grok là một lập trường hữu ích cho Musk trong vụ kiện và chỉ trích chung đối với OpenAI.
- Cộng đồng AI trên X đã phản ứng với sự tò mò và phấn khích trước việc phát hành Grok.
- Việc phát hành Grok có khả năng gây áp lực lên tất cả các nhà cung cấp LLM khác, đặc biệt là các đối thủ mã nguồn mở, để chứng minh sự vượt trội của họ.
📌 Grok, mô hình ngôn ngữ lớn 314 tỷ tham số của xAI, đã chính thức mở mã nguồn. Động thái này cho phép bất kỳ ai sử dụng và phát triển Grok, tạo áp lực cạnh tranh lên các đối thủ như ChatGPT. Đây cũng là lập trường hữu ích cho Elon Musk trong vụ kiện với OpenAI.
https://venturebeat.com/ai/musks-grok-ai-goes-open-source/
- Tác giả Huyền Chip đã phân tích 845 repo phần mềm AI mã nguồn mở trên GitHub có từ 500 sao trở lên, tập trung vào stack xung quanh các mô hình nền tảng (foundation models).
- Stack AI mới bao gồm 4 lớp: cơ sở hạ tầng, phát triển mô hình, phát triển ứng dụng và ứng dụng. Năm 2023 chứng kiến sự bùng nổ của các công cụ mới, đặc biệt ở lớp ứng dụng và phát triển ứng dụng.
- Các ứng dụng AI phổ biến nhất là lập trình, chatbot và tổng hợp thông tin. Kỹ sư AI đang phát triển mạnh với các công cụ prompt engineering, giao diện AI, agent và framework.
- Phát triển mô hình tập trung vào tối ưu hóa suy luận, đánh giá mô hình và tinh chỉnh hiệu quả tham số. Cơ sở hạ tầng ít thay đổi hơn.
- 20 tài khoản GitHub hàng đầu kiểm soát 23% repo. Các cá nhân có thể tạo ra các ứng dụng AI có giá trị cao. Hơn 20.000 lập trình viên đã đóng góp gần 1 triệu commit.
- Hệ sinh thái mã nguồn mở của Trung Quốc đang phát triển mạnh trên GitHub với nhiều mô hình và công cụ hướng tới khán giả Trung Quốc.
- Nhiều repo nhanh chóng thu hút sự chú ý rồi lại nhanh chóng tụt dốc ("đường cong hype"). 18,8% repo không có sao mới trong 24 giờ qua.
📌 Huyền Chíp phân tích 900 công cụ AI mã nguồn mở cho thấy sự bùng nổ của hệ sinh thái AI trong năm 2023, đặc biệt ở lớp ứng dụng và phát triển ứng dụng. Hơn 20.000 lập trình viên đã đóng góp gần 1 triệu commit. Các cá nhân có thể tạo ra ứng dụng AI giá trị cao. Hệ sinh thái mã nguồn mở của Trung Quốc cũng đang phát triển mạnh.
Citations:
[1] https://huyenchip.com/2024/03/14/ai-oss.html
- Ấn Độ đang nỗ lực phát triển các mô hình ngôn ngữ lớn (LLM) hỗ trợ các ngôn ngữ Ấn Độ như Hindi, Tamil, Kannada và Marathi dựa trên các mô hình nguồn mở như Llama2-7B.
- Phát triển các mô hình tiên tiến như GPT-4 đòi hỏi chi phí và nguồn lực lớn. Cách tiếp cận hợp tác dựa trên nguyên tắc nguồn mở sẽ giúp Ấn Độ tận dụng năng lực sẵn có, chia sẻ chi phí và đẩy nhanh quá trình phát triển LLM phù hợp với nhu cầu của Ấn Độ.
- Ấn Độ có sự đa dạng về ngôn ngữ, văn hóa và con người. Mô hình nguồn mở mang lại sự linh hoạt để tạo ra nhiều phiên bản theo nhu cầu người dùng, vị trí, khu vực, tôn giáo mà không cần phát minh lại từ đầu.
- Ấn Độ đã chứng tỏ năng lực xây dựng các mạng lưới và kiến trúc nguồn mở thông qua các Sản phẩm Công Kỹ thuật số (DPG) như UPI, DigiLocker và Aadhaar.
- Cộng đồng nhà phát triển của Ấn Độ đang phát triển mạnh mẽ với mức tăng trưởng 36% vào năm 2023 và đóng góp tích cực vào các dự án nguồn mở toàn cầu.
- Hầu hết các nỗ lực của Ấn Độ với AI tập trung vào việc nâng cao cộng đồng thiệt thòi và phá vỡ rào cản ngôn ngữ hiện có trong nước thông qua các ứng dụng sáng tạo giải quyết các thách thức kinh tế xã hội.
📌 Ấn Độ có tiềm năng lớn trở thành quốc gia dẫn đầu về AI nguồn mở nhờ sự hợp tác giữa chính phủ, doanh nghiệp, viện nghiên cứu và hệ sinh thái nhà phát triển đang lớn mạnh. Với trọng tâm vào cải thiện xã hội, Ấn Độ sẽ thể hiện cho thế giới tác động chuyển đổi của AI thông qua các ứng dụng sáng tạo giải quyết các thách thức cấp bách.
https://analyticsindiamag.com/why-will-india-champion-open-source-ai/
- 76% mã trong cơ sở mã được quét là mã nguồn mở, tỷ lệ trong AI có thể cao hơn.
- Kỹ sư Google cho rằng mã nguồn mở sẽ vượt Google và OpenAI vì cộng đồng đã giải quyết các vấn đề cốt lõi.
- Lợi ích của mô hình ngôn ngữ lớn mã nguồn mở: bảo mật, minh bạch, giá rẻ, dễ tùy chỉnh. Rủi ro: tốn thời gian, hỗ trợ hạn chế, thiếu kiểm thử.
- Nhiều tổ chức phát hành mô hình mã nguồn mở: Meta (Llama 2), Mistral AI (Mistral 7B, Mixtral 8x7B), Google (FLAN-T5),...
- Doanh nghiệp nên tham gia hệ sinh thái AI mã nguồn mở, đồng thời giải quyết các vấn đề về bảo mật, khả năng sử dụng, ổn định và quản trị hiệu quả.
📌 AI mã nguồn mở đang phát triển mạnh mẽ với sự đóng góp của cộng đồng và các tổ chức lớn. Lợi ích của mô hình ngôn ngữ lớn mã nguồn mở: bảo mật, minh bạch, giá rẻ, dễ tùy chỉnh. Rủi ro: tốn thời gian, hỗ trợ hạn chế, thiếu kiểm thử. Tham gia vào hệ sinh thái này sẽ giúp doanh nghiệp thành công trong tương lai, đồng thời cần quản lý tốt rủi ro và mối đe dọa.
https://www.forbes.com/sites/forbesbusinesscouncil/2024/03/08/the-rise-of-open-artificial-intelligence-open-source-best-practices/
- Công ty xAI của Elon Musk sẽ mã nguồn mở chatbot Grok trong tuần này để cạnh tranh với ChatGPT.
- Grok được trang bị các tính năng như truy cập thông tin "thời gian thực" và quan điểm không bị ràng buộc bởi các chuẩn mực "chính trị đúng đắn".
- Musk trước đó đã kiện OpenAI, cáo buộc startup này đã trở nên đóng mã nguồn và chuyển hướng tập trung vào tối đa hóa lợi nhuận cho Microsoft.
- Vụ kiện đã châm ngòi tranh luận về ưu điểm của AI mã nguồn mở. Vinod Khosla cho rằng vụ kiện là sự xao nhãng, trong khi Marc Andreessen ủng hộ nghiên cứu AI nguồn mở.
- Việc hứa mã nguồn mở Grok sẽ giúp xAI gia nhập danh sách các công ty như Meta và Mistral đã công bố mã của chatbot ra công chúng.
- Musk vốn ủng hộ mã nguồn mở, Tesla đã mở mã nguồn nhiều bằng sáng chế, X (trước đây là Twitter) cũng mở mã nguồn một số thuật toán năm ngoái.
📌 Elon Musk tuyên bố xAI sẽ mã nguồn mở chatbot Grok để cạnh tranh với ChatGPT, sau khi kiện OpenAI vì cho rằng startup này đã đi chệch hướng từ triết lý nguồn mở. Động thái này châm ngòi tranh luận về AI mã nguồn mở, với Musk vốn ủng hộ mở mã nguồn tại Tesla và X (Twitter cũ).
https://techcrunch.com/2024/03/11/elon-musk-says-xai-will-open-source-grok-this-week/
- Cuộc tranh luận về AI tạo sinh được khơi mào bởi vụ kiện của Elon Musk chống lại OpenAI và CEO Sam Altman.
- Marc Andreessen ủng hộ công nghệ AI nguồn mở, nhấn mạnh vào việc chia sẻ khoa học mở, tăng cường minh bạch và ngăn chặn Big Tech độc quyền công nghệ mạnh mẽ.
- Vinod Khosla ủng hộ AI đóng, cho rằng các công ty và thực thể tư nhân có thể bảo vệ chống lại nguy cơ và lạm dụng của AI.
- Meta đã ủng hộ AI nguồn mở và phát hành mô hình Llama 2 cho công chúng tải về và chỉnh sửa. Mistral AI, một công ty có trụ sở tại Paris, cũng đã phát hành các mô hình với "trọng số" mở.
- Andreessen cáo buộc Khosla đang vận động cấm nguồn mở sau khi Khosla bày tỏ sự ủng hộ đối với Altman và OpenAI trong bối cảnh vụ kiện của Musk.
- Khosla so sánh AI với vũ khí hạt nhân và cho rằng việc mở nguồn AI đe dọa an ninh quốc gia, đồng thời nhấn mạnh AI là lợi thế về "an ninh quốc gia và công nghệ" cần được bảo vệ chặt chẽ.
- Cả hai phe đều đồng ý rằng các mô hình ngôn ngữ lớn chưa phải là công nghệ hoàn thiện, có thể tạo ra kết quả sai lệch, thiên vị và tốn kém về chi phí sử dụng và đào tạo.
📌 Cuộc tranh luận giữa Marc Andreessen và Vinod Khosla trên Twitter đã làm sáng tỏ sự chia rẽ sâu sắc trong cộng đồng Silicon Valley về việc phát triển và phân phối AI tạo sinh. Andreessen ủng hộ mô hình nguồn mở để tăng cường minh bạch và ngăn chặn sự độc quyền, trong khi Khosla nhấn mạnh tầm quan trọng của việc bảo vệ AI như một biện pháp an ninh quốc gia. Cuộc tranh luận này không chỉ phản ánh quan điểm đối lập về cách tiếp cận phát triển AI mà còn làm nổi bật những thách thức trong việc tìm kiếm câu trả lời cho sự phát triển và an toàn của AI.
https://www.wsj.com/articles/should-ai-be-open-source-behind-the-tweetstorm-over-its-dangers-65aa5c97
- Mistral AI, startup AI của Pháp, ra mắt ba gói AI trả phí - Mistral Large, Mistral Small, và Mistral Embedded - cùng với tùy chọn chatbot miễn phí "Le Chat".
- Mistral Large được quảng cáo là mạnh mẽ thứ hai chỉ sau ChatGPT 4 Turbo, với khả năng đáp ứng nhanh chóng và tùy biến cao.
- "Le Chat" miễn phí cho phép người dùng đăng ký và sử dụng chỉ với email và mật khẩu, cung cấp câu trả lời nhanh chóng cho mọi câu hỏi.
- Mistral Large hướng đến doanh nghiệp và người tiêu dùng sẵn sàng trả thêm cho trải nghiệm tốt hơn, với khả năng chống thiên vị và tùy chỉnh theo nhu cầu công ty.
- Mistral AI được sáng lập bởi Arthur Mensch, Timothée Lacroix, và Guillaume Lample, nhận đầu tư 15 triệu euro từ Microsoft để đưa Mistral Large lên nền tảng đám mây Azure.
- Mistral Large có giá $8/1M tokens (đầu vào) và $24/1M tokens (đầu ra), trong khi ChatGPT 4 Turbo có giá khởi điểm cao hơn.
- Mistral AI cung cấp các tính năng điều chỉnh và kiểm soát nâng cao, khác biệt so với ChatGPT, và có khả năng học và phản hồi bằng nhiều ngôn ngữ.
📌 Mistral AI, với ba gói dịch vụ AI và tùy chọn chatbot "Le Chat" miễn phí, đang tạo ra sự chú ý trong cuộc chiến giành vị thế trong lĩnh vực AI. Mistral Large nổi bật với khả năng tùy chỉnh cao và hiệu suất mạnh mẽ, trong khi "Le Chat" cung cấp một lựa chọn miễn phí cho người dùng muốn trải nghiệm AI mà không cần chi trả. Sự hợp tác với Microsoft cũng làm tăng cơ hội và tiềm năng của Mistral AI trên thị trường toàn cầu.
https://tech.co/news/what-is-mistral-ai-le-chat
• Elon Musk đã khởi kiện OpenAI và Sam Altman, cáo buộc họ phản bội cam kết ban đầu khiến OpenAI từ một tổ chức phi lợi nhuận chuyển sang mục tiêu kiếm lời với Microsoft.
• Musk mô tả Google là "woke", Microsoft là quá mức vươn xa và Sam Altman là người hai mặt.
• Musk, qua xAI, đang cố gắng tạo ra một lựa chọn thay thế cho các đối thủ, mà ông cáo buộc có định kiến tự do, và mô tả nỗ lực của mình như là tìm kiếm điều tốt và "tò mò tối đa".
• Musk đã chỉ trích Google và Microsoft trên nền tảng truyền thông xã hội X, đặc biệt là về cách Google xử lý các câu hỏi liên quan đến chủng tộc và dân tộc qua chatbot AI của mình, Gemini.
• Trong khi đó, Sam Altman và OpenAI, qua việc hợp tác với Microsoft, bị cáo buộc sử dụng công nghệ AI không phải vì lợi ích của nhân loại mà để tối đa hóa lợi nhuận.
• Musk cũng đã thừa nhận cuộc chiến tài chính để phát triển công ty AI, nói rằng sẽ cần "ít nhất hàng tỷ đô la về phần cứng" để có một vị trí vững chắc trong lĩnh vực này.
• OpenAI đã chuyển từ một tổ chức phi lợi nhuận sang một cơ cấu có lợi nhuận để đáp ứng nhu cầu tài chính cho việc phát triển công nghệ, với Microsoft cam kết tài trợ lên đến 13 tỷ đô la.
📌 Cuộc chiến AI giữa Elon Musk và các đối thủ lớn như OpenAI, Google, và Microsoft không chỉ là một cuộc đua công nghệ mà còn là một trận chiến về quan điểm và đạo đức kinh doanh. Musk, qua việc khởi kiện và chỉ trích công khai, đang cố gắng định hình lại cảnh quan AI bằng cách đề xuất xAI như một lựa chọn thay thế với mục tiêu tốt đẹp và tò mò. Cuộc chiến này không chỉ thách thức các đối thủ về mặt công nghệ mà còn về cách họ tiếp cận và sử dụng AI, đặt ra câu hỏi lớn về tương lai và đạo đức của AI trong xã hội.
https://www.wsj.com/tech/ai/elon-musk-vs-everyone-the-new-fight-in-ai-405becea
- Mistral AI là một startup AI của Pháp, được đồng sáng lập bởi các cựu nhân viên của Meta là Timothée Lacroix và Guillaume Lample, cùng với nhà nghiên cứu trước đây của DeepMind là Arthur Mensch, ra mắt vào tháng 4 năm 2023.
- Trong tuần qua, Mistral AI đã công bố mối quan hệ đối tác với Microsoft, tích hợp với Amazon Bedrock và phát hành các mô hình AI mới nhất của mình.
- Mistral AI đã phát triển và phát hành nhiều mô hình AI cho nhu cầu sử dụng khác nhau, bao gồm cả các mô hình thương mại và nguồn mở.
- Mô hình mới nhất và mạnh mẽ nhất của Mistral AI, Mistral Large, được công bố vào thứ Hai, cho thấy hiệu suất gần như tương đương với GPT-4 của OpenAI trên nhiều bài kiểm tra chuẩn và vượt trội so với các mô hình ngôn ngữ hàng đầu khác như Claude 2, Gemini Pro, GPT 3.5, và LLamA 2 70B.
- Mistral Large có khả năng sử dụng thành thạo tiếng Anh, Pháp, Tây Ban Nha, Đức, và Ý, trong khi GPT-4 chỉ hiểu tiếng Anh, làm cho nó trở thành một đối thủ cạnh tranh mạnh mẽ với mô hình mạnh nhất của OpenAI.
📌 Mistral AI ra đời vào tháng 4 năm 2023 và sự đồng sáng lập bởi các chuyên gia hàng đầu trong lĩnh vực AI. Sự hợp tác với Microsoft và tích hợp với Amazon Bedrock cùng với việc phát hành mô hình Mistral Large cho thấy sự tiến bộ vượt bậc và khả năng cạnh tranh cao của Mistral AI so với các đối thủ như OpenAI. Mistral Large có khả năng sử dụng thành thạo tiếng Anh, Pháp, Tây Ban Nha, Đức, và Ý, trong khi GPT-4 chỉ hiểu tiếng Anh, làm cho nó trở thành một đối thủ cạnh tranh mạnh mẽ với mô hình mạnh nhất của OpenAI. Điều này góp phần làm phong phú thêm lựa chọn cho người dùng và doanh nghiệp trong việc áp dụng công nghệ AI vào thực tiễn.
Citations:
[1] https://www.zdnet.com/article/what-to-know-about-mistral-ai-the-company-behind-the-latest-gpt-4-rival/
- Công cụ AI mới có tên "KOALA" được phát triển bởi các nhà khoa học Hàn Quốc, có khả năng tạo hình ảnh trong vòng dưới 2 giây mà không cần phần cứng đắt tiền.
- Sử dụng kỹ thuật "knowledge distillation" để nén kích thước của mô hình tạo hình ảnh nguồn mở Stable Diffusion XL từ 2.56 tỷ tham số xuống còn 700 triệu tham số.
- KOALA có thể chạy trên GPU giá rẻ và chỉ cần khoảng 8GB RAM để xử lý yêu cầu, so với các mô hình lớn hơn cần GPU công nghiệp cao cấp.
- Viện Nghiên cứu Điện tử và Viễn thông Hàn Quốc (ETRI) đã phát triển 5 phiên bản của mô hình, bao gồm 3 phiên bản của KOALA và 2 phiên bản của "Ko-LLaVA" - có khả năng trả lời câu hỏi bằng hình ảnh hoặc video dựa trên văn bản đầu vào.
- Trong thử nghiệm, KOALA tạo ra hình ảnh từ mô tả "một bức ảnh của một phi hành gia đang đọc sách dưới ánh trăng trên sao Hỏa" chỉ trong 1.6 giây, nhanh hơn đáng kể so với DALL·E 2 và DALL·E 3 của OpenAI, lần lượt là 12.3 và 13.7 giây.
- Các nhà khoa học dự định tiếp tục phát triển công cụ này và đã công bố kết quả nghiên cứu trên cơ sở dữ liệu trước in arXiv vào ngày 7 tháng 12 năm 2023, đồng thời cung cấp công trình của họ thông qua kho nguồn mở AI Hugging Face.
📌Công cụ AI mới "KOALA" của Viện Nghiên cứu Điện tử và Viễn thông Hàn Quốc (ETRI) đánh dấu một bước tiến quan trọng trong lĩnh vực tạo hình ảnh bằng AI, với khả năng tạo hình ảnh nhanh gấp 8 lần so với công cụ hàng đầu của OpenAI, chạy trên GPU giá rẻ và chỉ cần khoảng 8GB RAM, làm cho công nghệ này trở nên tiếp cận được với nhiều người hơn. Các nhà khoa học dự định tiếp tục phát triển công cụ này và đã công bố kết quả nghiên cứu trên cơ sở dữ liệu trước in arXiv vào ngày 7 tháng 12 năm 2023, đồng thời cung cấp công trình của họ thông qua kho nguồn mở AI Hugging Face.
Citations:
[1] https://www.livescience.com/technology/artificial-intelligence/new-ai-image-generator-koala-is-8-times-faster-than-openais-best-tool-and-can-run-on-cheap-computers
- Meta dự kiến ra mắt mô hình ngôn ngữ AI mới, LLaMA 3, vào tháng 7, nhằm cạnh tranh với các công ty công nghệ lớn khác như OpenAI và Google.
- LLaMA 3 được thiết kế để cải thiện hiệu suất và độ chính xác trong việc xử lý ngôn ngữ tự nhiên, mở ra khả năng ứng dụng rộng rãi trong nhiều lĩnh vực.
- Meta đã công bố thông tin này thông qua một báo cáo từ The Information, nhấn mạnh sự tập trung vào việc phát triển AI và công nghệ ngôn ngữ.
- Sự ra mắt của LLaMA 3 là một phần của nỗ lực lớn hơn của Meta trong việc nắm bắt cơ hội trong lĩnh vực AI, đặc biệt là sau thành công của các mô hình như ChatGPT của OpenAI.
- Meta không chỉ nhấn mạnh vào việc cải thiện công nghệ mà còn vào việc tạo ra một môi trường mở và hợp tác, cho phép các nhà nghiên cứu và phát triển từ khắp nơi trên thế giới tiếp cận và cải thiện mô hình.
📌 Meta đang chuẩn bị ra mắt mô hình ngôn ngữ AI mới, LLaMA 3, vào tháng 7, với mục tiêu cạnh tranh trong lĩnh vực công nghệ AI ngày càng sôi động. LLaMA 3 hứa hẹn sẽ mang lại những cải tiến đáng kể về hiệu suất và độ chính xác, mở ra khả năng ứng dụng trong nhiều lĩnh vực khác nhau, từ hỗ trợ khách hàng đến phân tích dữ liệu. Meta không chỉ nhấn mạnh vào việc cải thiện công nghệ mà còn vào việc tạo ra một môi trường mở và hợp tác, cho phép các nhà nghiên cứu và phát triển từ khắp nơi trên thế giới tiếp cận và cải thiện mô hình.
Citations:
[1] https://www.reuters.com/technology/meta-plans-launch-new-ai-language-model-llama-3-july-information-reports-2024-02-28/
- Mistral là sự kết hợp hoàn hảo giữa giáo dục kỹ thuật Pháp và các công ty công nghệ lớn của Mỹ, với 3 trong số 6 người sáng lập là sản phẩm của các trường kỹ thuật hàng đầu của Pháp.
- Các nhà sáng lập Mistral có kinh nghiệm làm việc tại các phòng thí nghiệm nghiên cứu của Google và Meta, đặc biệt là trong việc xây dựng các mô hình ngôn ngữ lớn (LLMs) tại Paris.
- Mistral đã đặc biệt giỏi trong việc thu thập dữ liệu để huấn luyện mô hình của mình, cho phép các mô hình của họ nhỏ hơn nhiều so với các mô hình khác như GPT-4 của OpenAI.
- Sự tập trung vào việc lựa chọn dữ liệu của Mistral giúp công ty sử dụng sức mạnh tính toán một cách hiệu quả hơn, với chi phí huấn luyện mô hình mới thấp hơn nhiều so với 100 triệu USD mà OpenAI đã chi cho GPT-4.
- Mistral cũng tận dụng lợi thế của người đi sau, học hỏi từ công việc mà OpenAI và các công ty khác đã làm, và kết hợp với sự hiểu biết về chính trị, điều này rất có lợi khi nhiều chính phủ coi LLMs nội địa là lợi thế kinh tế và chiến lược.
- Cédric O, một trong những người đồng sáng lập Mistral và cựu Bộ trưởng Kỹ thuật số Pháp, giữ mối liên hệ trực tiếp với Tổng thống Emmanuel Macron, người đã quan tâm sâu sắc đến AI và đã hỗ trợ Mistral trong việc chống lại các quy định của Liên minh Châu Âu về AI.
📌 Mistral đã chứng minh sự thành công của mình thông qua việc kết hợp tài năng kỹ thuật từ các trường kỹ thuật hàng đầu của Pháp và kinh nghiệm từ các công ty công nghệ lớn như Google và Meta. Sự thông minh trong việc lựa chọn và quản lý dữ liệu đã giúp Mistral tạo ra các mô hình AI hiệu quả hơn với chi phí thấp hơn, đồng thời tận dụng lợi thế của người đi sau để phát triển nhanh chóng. Sự kết hợp giữa chuyên môn kỹ thuật và sự hiểu biết về chính trị, cùng với sự hỗ trợ từ cựu Bộ trưởng Kỹ thuật số Pháp và Tổng thống Emmanuel Macron, đã tạo nên một lợi thế cạnh tranh mạnh mẽ cho Mistral trong ngành công nghiệp AI đang phát triển nhanh chóng.
Citations:
[1] https://www.economist.com/business/2024/02/26/meet-the-french-startup-hoping-to-take-on-openai
- Mô hình AI BharatGPT Hanooman được phát triển bởi Reliance và 9 IIT, đánh dấu bước tiến quan trọng trong việc ứng dụng AI cho phát triển xã hội và kinh tế Ấn Độ.
- Mô hình là một mô hình ngôn ngữ lớn (LLM) được huấn luyện trên 22 ngôn ngữ Ấn Độ, ban đầu hỗ trợ trả lời trong 11 ngôn ngữ và có kế hoạch mở rộng để bao gồm tất cả 22 ngôn ngữ.
- BharatGPT Hanooman có khả năng AI đa phương tiện, cho phép tạo nội dung từ văn bản sang văn bản, văn bản sang giọng nói, văn bản sang video và ngược lại, mở ra ứng dụng rộng rãi trong nhiều lĩnh vực như y tế, quản lý, dịch vụ tài chính và giáo dục.
- Mô hình có kích thước và độ phức tạp lớn, với số lượng tham số từ 1.5 tỷ đến 40 tỷ, cho phép tạo ra các phản hồi tinh tế và phù hợp với ngữ cảnh trong các ngôn ngữ Ấn Độ.
- Để thúc đẩy sự đổi mới và tiếp cận, mô hình sẽ được nguồn mở, cho phép các nhà phát triển và nhà nghiên cứu tận dụng khả năng của nó và đóng góp vào sự phát triển tiếp theo.
📌 BharatGPT Hanooman, một sáng kiến hợp tác giữa Reliance và 9 IIT, đại diện cho một bước tiến lớn trong lĩnh vực AI tại Ấn Độ, với mục tiêu không chỉ nâng cao khả năng tiếp cận công nghệ AI trong nước mà còn thúc đẩy sự đổi mới và phát triển kỹ thuật số.Mô hình là một mô hình ngôn ngữ lớn (LLM) được huấn luyện trên 22 ngôn ngữ Ấn Độ, ban đầu hỗ trợ trả lời trong 11 ngôn ngữ và có kế hoạch mở rộng để bao gồm tất cả 22 ngôn ngữ.Mô hình có kích thước và độ phức tạp lớn, với số lượng tham số từ 1.5 tỷ đến 40 tỷ, cho phép tạo ra các phản hồi tinh tế và phù hợp với ngữ cảnh trong các ngôn ngữ Ấn Độ. Để thúc đẩy sự đổi mới và tiếp cận, mô hình sẽ được nguồn mở.
Citations:
[1] https://economictimes.indiatimes.com/news/how-to/reliance-and-9-iits-set-to-unveil-bharatgpt-hanooman-next-month-heres-your-guide-to-the-new-ai-model/articleshow/107982956.cms
- Microsoft đã công bố một quan hệ đối tác nhiều năm với Mistral, một startup AI của Pháp có giá trị 2 tỷ euro (khoảng 2,1 tỷ đô la).
- Quan hệ đối tác bao gồm việc Microsoft nắm giữ cổ phần nhỏ trong công ty AI mới thành lập 10 tháng tuổi, sau hơn một năm Microsoft đầu tư hơn 10 tỷ đô la vào quan hệ đối tác với OpenAI.
- Thỏa thuận này sẽ cho phép các mô hình ngôn ngữ mở và thương mại của Mistral có sẵn trên nền tảng Azure AI của Microsoft, trở thành công ty thứ hai sau OpenAI cung cấp mô hình ngôn ngữ thương mại trên Azure.
- Quan hệ đối tác giữa Microsoft và Mistral cũng tập trung vào việc phát triển và triển khai các mô hình ngôn ngữ lớn thế hệ tiếp theo.
- Mistral công bố một mô hình AI mới hôm nay, có tên là Mistral Large, được thiết kế để cạnh tranh chặt chẽ hơn với mô hình GPT-4 của OpenAI. Khác với một số mô hình trước đây của Mistral, mô hình này sẽ không được nguồn mở.
- Mistral Large đạt được kết quả mạnh mẽ trên các chuẩn mực thường được sử dụng, trở thành mô hình được xếp hạng thứ hai trên thế giới có sẵn thông qua API (sau GPT-4).
- Mistral cũng giới thiệu một chatbot mới, Le Chat, dựa trên các mô hình từ Mistral AI.
- Quan hệ đối tác với Microsoft giúp Mistral có thể khám phá thêm cơ hội thương mại, mặc dù trước đây các mô hình của Mistral thường là nguồn mở.
📌 Microsoft đã mở rộng ảnh hưởng của mình trong lĩnh vực AI thông qua quan hệ đối tác mới với Mistral, một startup AI Pháp, đánh dấu một bước tiến quan trọng sau quan hệ đối tác với OpenAI. Thỏa thuận này không chỉ làm tăng cơ hội thương mại cho Mistral mà còn củng cố vị thế của Microsoft trong việc phát triển và triển khai các mô hình ngôn ngữ lớn thế hệ tiếp theo. Mistral Large, mô hình mới được công bố, hứa hẹn sẽ cạnh tranh sát sao với GPT-4 của OpenAI, đồng thời Mistral cũng giới thiệu chatbot mới, Le Chat, mở ra hướng đi mới cho các ứng dụng AI trong tương lai.
Citations:
[1] https://www.theverge.com/2024/2/26/24083510/microsoft-mistral-partnership-deal-azure-ai
- Mistral AI, một startup AI có trụ sở tại Paris, đã công bố ra mắt mô hình ngôn ngữ lớn mới có tên Mistral Large, nhằm cạnh tranh với các mô hình hàng đầu khác như GPT-4 và Claude 2.
- Mistral Large được thiết kế với khả năng suy luận nhằm đối đầu với các mô hình AI hàng đầu khác, và Mistral AI cũng giới thiệu dịch vụ trợ lý chat mới có tên Le Chat, hiện đang ở phiên bản beta.
- Mistral AI được thành lập vào tháng 5 năm 2023 và đã nhanh chóng gây quỹ được một lượng tiền lớn, bao gồm vòng gọi vốn hạt giống 113 triệu USD và một vòng gọi vốn khác vào tháng 12 với 415 triệu USD do Andreessen Horowitz (a16z) dẫn dắt.
- Công ty tuyên bố rằng Mistral Large xếp thứ hai sau GPT-4 dựa trên một số tiêu chuẩn đánh giá, mặc dù có thể có sự chọn lọc tiêu chuẩn và sự khác biệt trong việc sử dụng thực tế.
- Le Chat, dịch vụ trợ lý chat mới của Mistral AI, cho phép người dùng chọn giữa ba mô hình khác nhau: Mistral Small, Mistral Large và một mô hình nguyên mẫu được thiết kế để ngắn gọn và xúc tích có tên Mistral Next.
- Dịch vụ này hiện miễn phí nhưng công ty cũng có kế hoạch ra mắt phiên bản trả phí dành cho khách hàng doanh nghiệp với các tính năng như thanh toán trung tâm.
📌 Mistral AI đang nổi lên như một đối thủ đáng gờm trong lĩnh vực AI với việc ra mắt Mistral Large và Le Chat, nhằm cạnh tranh trực tiếp với GPT-4 và các mô hình AI hàng đầu khác. Sự ra đời của Mistral Large, với khả năng suy luận mạnh mẽ, và Le Chat, một dịch vụ trợ lý chat linh hoạt, cho thấy Mistral AI không chỉ tập trung vào việc phát triển công nghệ mà còn hướng tới việc tạo ra các sản phẩm thực tế có giá trị cho người dùng. Với sự hỗ trợ tài chính mạnh mẽ từ các vòng gọi vốn và sự dẫn dắt của Andreessen Horowitz, Mistral AI có tiềm năng lớn để trở thành một trong những người chơi chính trong cuộc đua phát triển AI.
Citations:
[1] https://techcrunch.com/2024/02/26/mistral-ai-releases-new-model-to-rival-gpt-4-and-its-own-chat-assistant/
- Không có cơ quan nào đang điều chỉnh AI trên toàn thế giới, các quốc gia phương Tây cẩn trọng với công nghệ của mình vì lo ngại bị đánh cắp, trong khi Trung Quốc mở cửa mô hình AI của họ cho sự phát triển cộng tác.
- Mô hình ngôn ngữ lớn nguồn mở (LLM) từ Trung Quốc đang dẫn đầu với số lượng token lớn, cho thấy chúng không chỉ bắt kịp mà còn vượt qua các mô hình sở hữu.
- Mỗi tuần, cộng đồng AI nguồn mở ở Trung Quốc đều có những đột phá mới. Ví dụ, Deepseek của Trung Quốc đã phát hành một LLM mạnh 67 tỷ tham số được huấn luyện trên bộ dữ liệu gồm hai nghìn tỷ token.
- Các nỗ lực quy định cụ thể cho AI đang được phát triển ở Canada, Brazil, Chile và Philippines. Ở Ấn Độ, chính phủ đã xem xét một cách tiếp cận không quy định, nhấn mạnh vào việc cần phải đổi mới, thúc đẩy và thích nghi với sự tiến bộ nhanh chóng của công nghệ AI.
- Công nghệ phát triển nhanh hơn quy định, các nhà theo dõi thị trường và phân tích yêu cầu một định nghĩa tiêu chuẩn của công nghệ để theo dõi mục tiêu tăng trưởng của nó.
📌 Cuộc tranh luận về AI giữa mô hình nguồn mở và đóng đang diễn ra sôi nổi, phản ánh sự chia rẽ giữa các quốc gia phương Tây và Trung Quốc. Trong khi các quốc gia phương Tây thận trọng với công nghệ của mình, Trung Quốc đã mở cửa mô hình AI của họ, thúc đẩy sự phát triển cộng tác. Mô hình ngôn ngữ lớn nguồn mở từ Trung Quốc đang dẫn đầu, với các đột phá mới mỗi tuần, như Deepseek phát hành một LLM mạnh 67 tỷ tham số. Các nỗ lực quy định AI đang được phát triển ở nhiều quốc gia, nhưng công nghệ phát triển nhanh hơn quy định, yêu cầu một định nghĩa tiêu chuẩn của công nghệ để theo dõi mục tiêu tăng trưởng của nó.
Citations:
[1] https://economictimes.indiatimes.com/tech/technology/the-great-ai-debate-open-source-vs-proprietary-models-in-global-showdown/articleshow/107973022.cms
- Google đã công bố ra mắt hai mô hình ngôn ngữ lớn (LLMs) mới có tên là Gemma.
- Các mô hình này không phải là nguồn mở, điều này được Jeanine Banks từ Google nhấn mạnh trong một cuộc họp báo trước khi thông báo chính thức được đưa ra.
- Google khẳng định cam kết của mình đối với nguồn mở, nhưng cũng rất cẩn trọng trong cách đặt tên và mô tả các mô hình Gemma.
- Tris Warkentin, giám đốc quản lý sản phẩm của Google DeepMind, đã nói rằng chất lượng tạo sinh của các mô hình AI đã cải thiện đáng kể trong năm qua.
- Những gì trước đây chỉ có thể thực hiện được bởi các mô hình cực lớn nay đã có thể đạt được với các mô hình nhỏ gọn hiện đại.
📌 Google đã tiến thêm một bước lớn trong lĩnh vực AI với việc giới thiệu hai mô hình ngôn ngữ lớn mới, Gemma, mặc dù chúng không được phát hành dưới dạng nguồn mở. Sự kiện này cho thấy sự tiến bộ vượt bậc trong chất lượng tạo sinh của AI, khi những công việc trước đây chỉ có thể do các mô hình lớn thực hiện nay đã trở nên khả thi với các mô hình nhỏ gọn hơn. Google, với cam kết của mình đối với nguồn mở, đã thể hiện sự thận trọng trong việc định hình và quảng bá cho các mô hình Gemma, điều này có thể phản ánh một chiến lược cân nhắc giữa việc chia sẻ công nghệ và bảo vệ sở hữu trí tuệ.
Citations:
[1] https://techcrunch.com/2024/02/21/google-launches-two-new-open-llms/
- AnyGPT là một mô hình ngôn ngữ lớn đa phương tiện (LLM) nguồn mở, tập trung vào việc tạo ra nội dung đa phương tiện phong phú.
- Mã nguồn của AnyGPT có sẵn dưới dạng nguồn mở, cho phép bất kỳ ai quan tâm đến AI có thể truy cập, chỉnh sửa và cải thiện chức năng của mô hình.
- Sự phát triển của AnyGPT là một nỗ lực lớn, bao gồm việc tạo ra một bộ dữ liệu đa dạng bao gồm các hình thức nói, văn bản, hình ảnh và âm nhạc.
- Bộ dữ liệu rộng lớn này giúp AnyGPT hiểu được sắc thái của các loại dữ liệu khác nhau và cách chúng có thể được kết hợp hoặc biến đổi.
- AnyGPT không chỉ là một công cụ dịch thuật mà còn là một người tạo ra, có khả năng tạo ra các đầu ra có thể kích thích giác quan của chúng ta theo nhiều cách.
- Mô hình sử dụng một bộ dữ liệu toàn diện chứa thông tin hỗn hợp (nói, văn bản, hình ảnh, âm nhạc) để đào tạo mô hình xử lý đầu vào đa phương tiện.
- Quy trình tạo bộ dữ liệu hai giai đoạn: bao gồm việc tạo ra các cuộc đối thoại đa phương tiện từ các cuộc trò chuyện văn bản và kết hợp các chế độ khác nhau như hình ảnh và âm thanh để làm giàu bộ dữ liệu đào tạo.
📌AnyGPT là mô hình ngôn ngữ lớn đa phương tiện nguồn mở, tập trung vào việc tạo ra nội dung đa phương tiện phong phú, nâng cao khả năng hiểu và tạo ra các phản hồi phức tạp, đa phương tiện. Sự mở mã nguồn và sự đa dạng của bộ dữ liệu làm cho AnyGPT trở thành một nền tảng tiên tiến, mở rộng khả năng của tương tác AI đa phương tiện. Điều này không chỉ thúc đẩy sự sáng tạo trong cộng đồng AI mà còn mở ra cơ hội cho việc ứng dụng AI trong nhiều lĩnh vực mới một cách tự nhiên và trực quan hơn.
Citations:
[1] https://www.geeky-gadgets.com/anygpt-multimodal-large-language-model/
- Bài viết giới thiệu cách xây dựng ứng dụng agent dữ liệu được hỗ trợ bởi LLM (Large Language Models) cho mục đích phân tích dữ liệu.
- Khuyến khích khám phá hệ sinh thái nguồn mở để chọn khung đại lý phù hợp nhất cho ứng dụng của bạn.
- Đề xuất sử dụng Mixtral 8x7B LLM có sẵn trong danh mục NVIDIA NGC, hỗ trợ tăng tốc các mô hình và cung cấp chúng dưới dạng API.
- Các lời gọi API đầu tiên cho mỗi mô hình được miễn phí để thử nghiệm.
- Bài viết cũng giới thiệu về phòng thí nghiệm thực hành miễn phí "AI Chatbot with Retrieval-Augmented Generation" giúp xây dựng giải pháp đáng tin cậy và có khả năng mở rộng.
📌 Bài viết trên blog kỹ thuật của NVIDIA cung cấp một hướng dẫn chi tiết về cách xây dựng ứng dụng agent dữ liệu được hỗ trợ bởi LLM cho phân tích dữ liệu, nhấn mạnh vào việc khám phá hệ sinh thái nguồn mở để tìm kiếm khung agent tốt nhất. Sử dụng Mixtral 8x7B LLM từ danh mục NVIDIA NGC là một lựa chọn được đề xuất, với ưu điểm là hỗ trợ tăng tốc các mô hình và cung cấp API miễn phí cho các lời gọi đầu tiên. Bài viết cũng giới thiệu về phòng thí nghiệm thực hành miễn phí "AI Chatbot with Retrieval-Augmented Generation" giúp xây dựng giải pháp đáng tin cậy và có khả năng mở rộng.
Citations:
[1] https://developer.nvidia.com/blog/build-an-llm-powered-data-agent-for-data-analysis/
- Các nhà quản lý, start-up và Big Tech chia thành hai phe trong cuộc tranh luận về AI nguồn mở và nguồn đóng, nơi an toàn và lợi nhuận được ưu tiên.
- Cuộc chiến giữa các công ty AI tạo sinh đang diễn ra với hai phe cạnh tranh: phần mềm nguồn mở so với nguồn đóng.
- Trong cuộc tranh luận, việc công nghệ được dân chủ hóa là chìa khóa, nhưng an toàn và lợi nhuận được ưu tiên hàng đầu.
- Phần mềm nguồn mở cho phép mã nguồn được công khai, khuyến khích sự sáng tạo và đổi mới khi các nhà phát triển có thể xây dựng và chỉnh sửa các thuật toán AI và mô hình đã được đào tạo trước.
- AI nguồn đóng hạn chế việc sử dụng và chỉnh sửa mã nguồn cho riêng công ty sở hữu, không cho phép người dùng xây dựng hoặc chỉnh sửa.
- Các công ty AI nguồn mở dễ dàng huy động vốn hơn, có nhiều nguồn lực hơn để đổi mới.
- Mistral, một công ty AI của Pháp, mở mã nguồn cho trọng số mô hình nhưng không cho dữ liệu hoặc quy trình đào tạo.
- Các công ty tuyên bố là nguồn mở cho rằng họ đang làm cho công nghệ dễ tiếp cận hơn cho mọi người và cân bằng lĩnh vực chính trị, cho phép kiểm toán mã nguồn.
- Các công ty AI nguồn đóng như OpenAI (tạo ra ChatGPT) cho rằng nguồn mở đe dọa an toàn của chúng ta.
📌 Trong cuộc tranh luận giữa AI nguồn mở và nguồn đóng, mỗi bên đều có những lập luận về an toàn và lợi nhuận. AI nguồn mở khuyến khích sự sáng tạo và đổi mới thông qua việc chia sẻ mã nguồn, trong khi AI nguồn đóng giữ mã nguồn riêng tư, hạn chế sự chỉnh sửa. Các công ty nguồn mở có lợi thế trong việc huy động vốn và đổi mới, nhưng cũng phải đối mặt với thách thức về việc chia sẻ dữ liệu và quy trình đào tạo. Cuộc tranh luận cũng nêu bật tầm quan trọng của việc làm cho công nghệ dễ tiếp cận và minh bạch, đồng thời đề cập đến mối quan tâm về an toàn khi mã nguồn được mở.
Citations:
[1] https://www.euronews.com/next/2024/02/20/open-source-vs-closed-source-ai-whats-the-difference-and-why-does-it-matter
- Mistral, một startup về AI tạo sinh, đã phát hành một mô hình ngôn ngữ lớn (LLM) với 7.3 tỷ tham số dưới dạng nguồn mở và miễn phí.
- Mô hình này và các sản phẩm tương tự khác của Mistral đều được cấp phép dưới Apache 2.0, nhằm mục đích chứng minh khả năng của các LLM nguồn mở kích thước vừa phải trong các dự án AI tạo sinh.
- Trình duyệt web Brave đã chọn Mixtral 8x7B, một mô hình của Mistral, làm mô hình mặc định cho trợ lý AI tạo sinh của mình, Leo.
📌 Mistral, một startup trong lĩnh vực AI tạo sinh, đã đạt được bước tiến quan trọng bằng việc phát hành một mô hình ngôn ngữ lớn với 7,3 tỷ tham số dưới dạng nguồn mở và miễn phí. Sự kiện này không chỉ làm nổi bật khả năng và tiềm năng của các LLM nguồn mở kích thước vừa phải trong việc hỗ trợ các dự án AI tạo sinh, mà còn cho thấy sự chấp nhận và ứng dụng rộng rãi của công nghệ này trong ngành công nghiệp. Việc trình duyệt Brave chọn Mixtral 8x7B làm mô hình mặc định cho trợ lý AI của mình cũng là một minh chứng cho tiềm năng và sự tin tưởng vào công nghệ AI tạo sinh của Mistral.
Citations:
[1] https://voicebot.ai/2024/02/19/generative-ai-startup-mistral-releases-free-open-source-7-3b-parameter-llm-2/
- Các quốc gia Liên minh Châu Âu (EU) đang chuẩn bị áp dụng bộ luật đầu tiên trên thế giới để quản lý trí tuệ nhân tạo (AI), với mục tiêu đảm bảo an toàn và tôn trọng quyền cơ bản và giá trị của EU.
- Luật AI của EU áp dụng các quy tắc nghiêm ngặt nhất cho các mô hình AI có rủi ro cao và được thiết kế để đảm bảo các hệ thống AI an toàn, minh bạch và không phân biệt đối xử.
- Các chính phủ của các quốc gia EU đã phê duyệt dự luật vào ngày 2 tháng 2, và bây giờ chỉ cần sự chấp thuận cuối cùng từ Nghị viện Châu Âu, dự kiến sẽ diễn ra vào tháng 4. Nếu văn bản không thay đổi, luật sẽ có hiệu lực vào năm 2026.
- Một số nhà nghiên cứu hoan nghênh đạo luật vì tiềm năng khuyến khích khoa học mở, trong khi những người khác lo ngại rằng nó có thể làm chậm sự đổi mới.
- EU chọn cách quản lý các mô hình AI dựa trên rủi ro tiềm ẩn của chúng, áp dụng quy tắc nghiêm ngặt hơn cho các ứng dụng rủi ro cao và đề ra quy định riêng biệt cho các mô hình AI đa dụng như GPT.
- Các mô hình AI mạnh mẽ như GPT sẽ được quản lý trong hai hạng mục riêng biệt, với yêu cầu về minh bạch, phương pháp đào tạo, tiêu thụ năng lượng và tuân thủ luật bản quyền.
- Đạo luật cũng khuyến khích AI nguồn mở, làm cho thông tin AI có thể truy cập, sao chép và minh bạch, điều này phản ánh tinh thần của phong trào nguồn mở.
- Ủy ban Châu Âu sẽ tạo ra một Văn phòng AI để giám sát các mô hình đa dụng, với sự tư vấn từ các chuyên gia độc lập, phát triển cách đánh giá năng lực của các mô hình này và giám sát rủi ro liên quan.
📌 Luật AI của EU áp dụng các quy tắc nghiêm ngặt nhất cho các mô hình AI có rủi ro cao và được thiết kế để đảm bảo các hệ thống AI an toàn, minh bạch và không phân biệt đối xử. Các mô hình AI mạnh mẽ như GPT sẽ được quản lý trong hai hạng mục riêng biệt, với yêu cầu về minh bạch, phương pháp đào tạo, tiêu thụ năng lượng và tuân thủ luật bản quyền. Đạo luật cũng khuyến khích AI nguồn mở, làm cho thông tin AI có thể truy cập, sao chép và minh bạch, điều này phản ánh tinh thần của phong trào nguồn mở. Ủy ban Châu Âu sẽ tạo ra một Văn phòng AI để giám sát các mô hình đa dụng, với sự tư vấn từ các chuyên gia độc lập, phát triển cách đánh giá năng lực của các mô hình này và giám sát rủi ro liên quan.
https://www.nature.com/articles/d41586-024-00497-8
- Yann LeCun, từ những năm 1980, đã tin tưởng vào sức mạnh của mạng nơ-ron, thiết kế mạng nơ-ron đầu tiên có khả năng nhận diện số viết tay với độ chính xác cao.
- LeCun, cùng với Geoffrey Hinton và Yoshua Bengio, được mệnh danh là "Ba Ông Bố Đỡ Đầu của AI", đã nhận Giải Turing vào năm 2018 từ Hiệp hội Máy tính ACM vì những đột phá về khái niệm và kỹ thuật đã làm cho mạng nơ-ron sâu trở thành một thành phần quan trọng trong tính toán.
- Hiện tại, LeCun là giáo sư tại Đại học New York và là chủ nhiệm khoa học AI tại Meta, nơi đang tiên phong trong nghiên cứu AI. Mark Zuckerberg, CEO của Meta, đã công bố mục tiêu mới của công ty là tạo ra "trí tuệ nhân tạo tổng quát".
- LeCun là một nhân vật gây tranh cãi trong lĩnh vực AI, không ngần ngại bày tỏ quan điểm trên Twitter và công khai. Ông đã dự đoán rằng AI sẽ mở ra "một kỷ nguyên phục hưng mới cho nhân loại" và bác bỏ ý kiến cho rằng AI đặt ra rủi ro tồn vong cho loài người là "vô lý".
- LeCun cũng là một người ủng hộ mạnh mẽ cho nghiên cứu mở, dưới sự lãnh đạo tinh thần của ông, bộ phận AI của Meta đã mở mã nguồn cho các mô hình mạnh mẽ nhất của mình, gần đây nhất là Llama-2. Chiến lược này đặt Meta vào một vị trí khác biệt so với các đối thủ chính (bao gồm Google DeepMind, OpenAI được Microsoft hỗ trợ, và Anthropic được Amazon hỗ trợ) những người từ chối công bố trọng số hoặc chi tiết nội bộ của mạng nơ-ron của họ vì lý do kinh doanh và mối quan ngại về an toàn.
- LeCun coi việc tiếp cận mở của Meta không chỉ là một chiến lược kinh doanh thông minh mà còn là một nhu cầu đạo đức. Ông nhấn mạnh tầm quan trọng của việc đóng góp vào một nền tảng mở rộng lớn, vì lý do đa dạng văn hóa, dân chủ, đa dạng. LeCun tin rằng tương lai phải là nguồn mở, không chỉ vì lý do đa dạng văn hóa mà còn vì dân chủ và đa dạng.
📌 Yann LeCun, với niềm tin sâu sắc vào sức mạnh của mạng nơ-ron từ những năm 1980, đã góp phần quan trọng vào sự phát triển của AI thông qua việc thiết kế mạng nơ-ron đầu tiên có khả năng nhận diện số viết tay. Nhận Giải Turing vào năm 2018 cùng với Geoffrey Hinton và Yoshua Bengio, LeCun hiện là một nhân vật quan trọng tại Meta, nơi ông và đội ngũ của mình đang hướng tới mục tiêu tạo ra trí tuệ nhân tạo tổng quát. Với quan điểm mạnh mẽ về nghiên cứu mở và sự phản đối đối với quan điểm cho rằng AI là mối đe dọa tồn vong, LeCun đã trở thành một nhân vật gây tranh cãi nhưng cũng rất được ngưỡng mộ trong cộng đồng AI. Sự lãnh đạo của ông tại Meta, đặc biệt qua việc mở mã nguồn cho các mô hình AI mạnh mẽ như Llama-2, không chỉ thể hiện chiến lược kinh doanh mà còn phản ánh một quan điểm đạo đức về tầm quan trọng của việc chia sẻ kiến thức và công nghệ mở rộng, hướng tới một tương lai đa dạng và dân chủ hơn trong lĩnh vực AI.
- Tháng trước, một nhà bình luận đã đưa ra quan điểm rằng "AI nguồn mở đặc biệt nguy hiểm", phản ánh lời kêu gọi đăng ký và cấp phép cho các mô hình AI.
- Cuộc tranh luận này đang nổi lên trong những nỗ lực gần đây để quản lý AI. Đầu tiên, Liên minh châu Âu đã hoàn thiện AI Act của mình để quản lý việc phát triển và triển khai các hệ thống AI.
- Một trong những điều khoản gây tranh cãi nhất là liệu có nên áp dụng các quy tắc này cho các mô hình "miễn phí và nguồn mở" hay không.
- Thứ hai, theo lệnh hành pháp của Tổng thống Biden về AI, chính phủ Hoa Kỳ đã bắt đầu yêu cầu các nhà phát triển của một số mô hình AI báo cáo, và sẽ sớm khởi xướng một cuộc điều tra công cộng về việc quản lý các mô hình AI "rộng rãi".
- Dù chính phủ chúng ta lựa chọn quản lý AI như thế nào, chúng ta cần thúc đẩy một hệ sinh thái AI đa dạng: từ các công ty lớn xây dựng siêu trí tuệ sở hữu đến những người thích tinker hàng ngày thử nghiệm với công nghệ mở.
- Các mô hình mở là nền tảng cho sự đổi mới từ cội rễ trong AI.
📌 Trong bối cảnh cuộc tranh luận về việc quản lý AI đang trở nên gay gắt, bài viết trên IEEE Spectrum đã thảo luận về việc liệu AI nguồn mở có tốt cho chúng ta hay không. Một số điểm quan trọng được đề cập bao gồm việc Liên minh châu Âu đã hoàn thiện AI Act của mình để quản lý việc phát triển và triển khai các hệ thống AI, và chính phủ Hoa Kỳ đã bắt đầu yêu cầu các nhà phát triển của một số mô hình AI báo cáo. Dù chính phủ chúng ta lựa chọn quản lý AI như thế nào, chúng ta cần thúc đẩy một hệ sinh thái AI đa dạng, từ các công ty lớn xây dựng siêu trí tuệ sở hữu đến những người thích tinker hàng ngày thử nghiệm với công nghệ mở.
Citations:
[1] https://spectrum.ieee.org/open-source-ai-good
- Apple đã phát hành MGIE, một trình chỉnh sửa ảnh AI nguồn mở, hợp tác phát triển cùng các nhà nghiên cứu từ Đại học California, nhằm cung cấp một công cụ chỉnh sửa ảnh tiên tiến nhưng thân thiện với người dùng.
- MGIE sử dụng các mô hình ngôn ngữ lớn đa phương tiện (MLLMs) để chính xác giải thích các yêu cầu từ người dùng, cho phép thực hiện nhiều loại chỉnh sửa từ cải thiện ảnh tổng thể như điều chỉnh độ sáng, tương phản, đến các chỉnh sửa cục bộ và thay đổi kiểu Photoshop như cắt, thay đổi kích thước và thêm bộ lọc.
- MGIE không chỉ hỗ trợ chỉnh sửa ảnh cơ bản mà còn có khả năng hiểu và thực hiện các lệnh phức tạp như làm cho pizza trông khỏe mạnh hơn hoặc thay đổi điểm nhấn trong ảnh, nhờ vào khả năng suy luận thông thường và kỹ năng thao tác pixel cấp độ cao.
- Công cụ này đặc biệt nổi bật với khả năng suy luận thông thường, cho phép nó thực hiện các nhiệm vụ như thêm topping rau củ vào pizza để làm cho nó trông khỏe mạnh hơn hoặc tăng cường độ tương phản của ảnh để mô phỏng thêm ánh sáng.
📌 Apple đã phát hành MGIE, một trình chỉnh sửa ảnh AI nguồn mở, hợp tác phát triển cùng các nhà nghiên cứu từ Đại học California. MGIE đánh dấu một bước tiến quan trọng trong việc kết hợp giữa công nghệ AI và công cụ sáng tạo, mở ra những khả năng mới trong chỉnh sửa ảnh. Với việc sử dụng MLLMs để giải thích chính xác các yêu cầu từ người dùng, MGIE cho phép thực hiện từ các chỉnh sửa ảnh tổng thể như điều chỉnh độ sáng, tương phản đến các chỉnh sửa cụ thể và phức tạp như thêm bộ lọc, cắt, thay đổi kích thước. Khả năng suy luận thông thường và thao tác pixel cấp độ cao của MGIE mở ra cánh cửa cho việc chỉnh sửa ảnh sáng tạo và cá nhân hóa hơn, đẩy mạnh giới hạn của những gì có thể đạt được với công nghệ AI trong lĩnh vực này.
Citations:
[1] https://www.geeky-gadgets.com/apple-mgie-ai-image-editor/
- Video tạo sinh được kỳ vọng trở thành điểm nhấn tiếp theo trong cuộc đua AI sau sự bùng nổ của văn bản và hình ảnh tạo sinh.
- Các công ty khởi nghiệp và công ty công nghệ lớn ở Trung Quốc đang đầu tư mạnh mẽ vào lĩnh vực này, bao gồm Tencent, ByteDance (công ty mẹ của TikTok), Baidu và Alibaba.
- Cả ByteDance với MagicVideo và Baidu với UniVG đã đăng demo trên GitHub, tuy nhiên, hiện tại chưa có sản phẩm nào được công bố rộng rãi cho công chúng.
- Alibaba đã làm cho mô hình tạo video của mình, VGen, trở thành nguồn mở, một chiến lược ngày càng phổ biến giữa các công ty công nghệ Trung Quốc nhằm mục đích tiếp cận cộng đồng nhà phát triển toàn cầu.
📌 Cuộc đua phát triển video tạo sinh ở Trung Quốc đang trở nên sôi động với sự tham gia của các tên tuổi lớn trong ngành công nghệ như Tencent, ByteDance, Baidu và Alibaba. Mỗi công ty đều đã phát triển và giới thiệu mô hình phân tán video của riêng mình, với ByteDance và Baidu chia sẻ demo trên GitHub và Alibaba quyết định mở nguồn cho mô hình VGen của mình. Điều này không chỉ cho thấy sự cạnh tranh khốc liệt trong lĩnh vực AI tạo sinh tại Trung Quốc mà còn phản ánh xu hướng mở cửa và chia sẻ công nghệ với cộng đồng toàn cầu. Sự đầu tư mạnh mẽ vào video tạo sinh hứa hẹn sẽ mở ra những cơ hội mới và thúc đẩy sự phát triển của công nghệ AI tạo sinh trên toàn thế giới.
Citations:
[1] https://techcrunch.com/2024/02/05/chinas-generative-video-race-heats-up/
- Smaug-72B, một mô hình AI nguồn mở mới, đã đạt được điểm trung bình 80 trên bảng xếp hạng Hugging Face Open LLM, một thành tựu đáng kể trong lĩnh vực xử lý ngôn ngữ tự nhiên và AI nguồn mở[1].
- Sự ra đời của Smaug-72B có thể thay đổi cách tiến trình AI diễn ra, khai thác sự sáng tạo của nhiều người hơn so với chỉ một số ít công ty giàu có[1].
- Sự xuất hiện của Smaug-72B và Qwen 1.5 đã tạo ra nhiều sự hào hứng và tranh luận trong cộng đồng AI và hơn thế nữa[1].
- Nhiều chuyên gia và người ảnh hưởng đã khen ngợi thành tựu của Abacus AI và Qwen và bày tỏ sự ngưỡng mộ của họ đối với đóng góp của họ cho AI nguồn mở[1].
- Abacus AI và Qwen cũng đã gợi ý về các dự án và mục tiêu tương lai của họ, bao gồm việc tạo ra nhiều mô hình nguồn mở hơn và áp dụng chúng vào các lĩnh vực và ứng dụng khác nhau[1].
- Smaug-72B và Qwen 1.5 chỉ là những ví dụ mới nhất về sự tiến hóa nhanh chóng và đáng kể của AI nguồn mở trong năm nay[1].
📌 Smaug-72B, một mô hình AI nguồn mở mới, đã đạt được điểm trung bình 80 trên bảng xếp hạng Hugging Face Open LLM, một thành tựu đáng kể trong lĩnh vực xử lý ngôn ngữ tự nhiên và AI nguồn mở. Sự xuất hiện của Smaug-72B và Qwen 1.5 đã tạo ra nhiều sự hào hứng và tranh luận trong cộng đồng AI và hơn thế nữa. Nhiều chuyên gia và người ảnh hưởng đã khen ngợi thành tựu của Abacus AI và Qwen và bày tỏ sự ngưỡng mộ của họ đối với đóng góp của họ cho AI nguồn mở[1].
Citations:
[1] https://venturebeat.com/ai/meet-smaug-72b-the-new-king-of-open-source-ai/
- Qwen1.5 giờ đây có thể được sử dụng cho các ứng dụng như RAG, tool use, agent.
- Người dùng có thể xây dựng API tương thích với OpenAI-API hoặc chạy các mô hình cục bộ cho các framework nổi tiếng như LlamaIndex, LangChain, CrewAI.
- Sự khác biệt lớn nhất của Qwen1.5 là việc tích hợp vào Hugging Face transformers.
- Từ phiên bản 4.37.0, người dùng có thể sử dụng Qwen1.5 mà không cần mã nguồn tùy chỉnh.
- Điều này có nghĩa là người dùng có thể tải mô hình theo cách mới được cung cấp.
📌 Qwen1.5 đã được tích hợp vào Hugging Face transformers, cho phép người dùng sử dụng mô hình này mà không cần mã nguồn tùy chỉnh từ phiên bản 4.37.0. Điều này mở ra khả năng xây dựng API tương thích với OpenAI-API hoặc chạy các mô hình cục bộ cho các framework nổi tiếng, đáp ứng nhu cầu đa dạng của người dùng trong việc phát triển các ứng dụng như RAG, tool use, agent.
1. Meta description: Qwen1.5 giờ đây có thể được tích hợp vào Hugging Face transformers, cho phép người dùng sử dụng mô hình mà không cần mã nguồn tùy chỉnh từ phiên bản 4.37.0.
2. Meta keywords: Qwen1.5, Hugging Face transformers, OpenAI-API, LlamaIndex, LangChain, CrewAI, RAG, tool use, agent, phiên bản 4.37.0.
3. SEO title: Qwen1.5 Tích Hợp vào Hugging Face Transformers: Sử Dụng Mô Hình Mà Không Cần Mã Người Dùng Tùy Chỉnh.
Citations:
[1] https://qwenlm.github.io/blog/qwen1.5/
📌 Hugging Chat Assistants là một công cụ mạnh mẽ và dễ sử dụng cho phép người dùng tạo các trợ lý AI tùy chỉnh miễn phí, sử dụng nhiều mô hình ngôn ngữ lớn nguồn mở khác nhau. Hugging Chat Assistants cũng là một bước tiến quan trọng đối với cộng đồng AI nguồn mở. Bằng cách cung cấp một nền tảng để người dùng tạo và chia sẻ các trợ lý AI tùy chỉnh cạnh tranh với GPT tùy chỉnh của OpenAI, Hugging Face đang giúp thúc đẩy sự phát triển của AI và làm cho AI dễ tiếp cận hơn với mọi người.
📌 GPT-4 đã cho thấy khả năng tiếp cận ngưỡng hiệu suất của con người với tỷ lệ đúng 73,3% trong các bài kiểm tra chuyên ngành, trong khi các mô hình AI nguồn mở như Llama 2 vẫn còn nhiều hạn chế, không hiệu quả hơn việc đoán mò.
📌Việc mở cửa nghiên cứu AI đã là một trụ cột của tiến bộ và hợp tác trong cộng đồng lập trình từ khi internet ra đời. Mã nguồn mở dân chủ hóa AI, hạn chế quyền lực của các chính phủ kiểm duyệt, và cho phép nghiên cứu quan trọng tiếp tục mà không bị can thiệp của doanh nghiệp. Tuy nhiên, nguồn mở cũng khiến việc ngăn chặn sử dụng mô hình AI cho việc tạo deepfake khiêu dâm, quấy rối mục tiêu, giả mạo, khủng bố và nhiều thứ khác bạn muốn ngăn chặn trở nên hoàn toàn không thể. Các nhà nghiên cứu AI đang phân vân về cách xử lý vấn đề này
📌 Sự giới thiệu OLMo bởi Viện Nghiên cứu AI Allen (AI2) là một bước ngoặt quan trọng trong lĩnh vực AI, mở ra hướng đi mới cho sự phát triển AI mã nguồn mở, tạo điều kiện cho việc nghiên cứu và phát triển AI một cách minh bạch và toàn diện. Với việc cung cấp không chỉ mã mô hình và trọng số mà còn bao gồm mã đào tạo, dữ liệu đào tạo và bộ công cụ đánh giá, đánh dấu sự khác biệt so với các mô hình đóng như GPT-4 của OpenAI và Claude của Anthropic. OLMo mở ra cơ hội cho các nhà nghiên cứu nghiên cứu khoa học của LLM một cách đầy đủ và khoa học, hướng tới mục tiêu tạo ra thế hệ AI tiếp theo an toàn và đáng tin cậy.
📌 Mô hình ngôn ngữ lớn Sea-Lion của Singapore tập trung vào ngôn ngữ và bối cảnh Đông Nam Á, đã thể hiện khả năng xử lý các quan điểm tinh tế về các chủ đề nhạy cảm, bao gồm cả thành tựu và thách thức của cố Tổng thống Indonesia Suharto. Sea-Lion, với sự đầu tư 52 triệu đô la Mỹ từ chính phủ Singapore đã được kiểm tra với các câu hỏi không chỉ về Suharto mà còn về các chủ đề khác, cho thấy khả năng vượt trội so với Llama 2 của Meta, SeaLLM của Alibaba, và GPT-4 của OpenAI về tốc độ, độ chính xác và ngắn gọn. AISG đã đề xuất một tiêu chuẩn mới, BHASA, để đánh giá hiệu suất của LLMs trong ngôn ngữ Đông Nam Á, với Sea-Lion được xếp hạng chỉ sau GPT-4.
📌 Meta AI giới thiệu 'Prompt Engineering with Llama 2', nguồn tài nguyên mới dành cho cộng đồng mã nguồn mở, tập trung vào các phương pháp tốt nhất cho prompt engineering. Sự phát triển của prompt engineering trong AI, đặc biệt là với các mô hình mã nguồn mở như LLaMA của Meta, cho thấy sự cần thiết của việc hiểu biết và thích nghi với các phương pháp tối ưu hóa hiệu suất của các mô hình AI.
📌 Việc China Telecom's Xingchen AI mở mã nguồn mở cho mô hình AI lớn của mình đánh dấu một bước tiến quan trọng trong ngành công nghiệp AI ở Trung Quốc. Sự kiện này không chỉ thúc đẩy đổi mới và phát triển công nghệ mà còn mở ra cơ hội mới cho các doanh nghiệp và nhà phát triển trong việc tùy chỉnh và bảo vệ dữ liệu. Với hơn 15 mô hình AI lớn đã được mở mã nguồn mở, Trung Quốc đang chứng tỏ vị thế của mình trong cuộc đua phát triển AI toàn cầu.
📌 Orion-14B đánh dấu một cột mốc quan trọng trong lĩnh vực nghiên cứu AI, đặc biệt là trong việc xây dựng mô hình ngôn ngữ đa ngôn ngữ với khả năng xử lý dữ liệu đa dạng. Sự kết hợp của dữ liệu huấn luyện khổng lồ 2,5 ngàn tỷ tokens và chiều dài ngữ cảnh 200.000 tokens cùng các phiên bản tối ưu hóa cho các tác vụ cụ thể như Chat RAG và Chat Plugin, cùng với phiên bản long-chat và quantized cho thấy Orion-14B không chỉ mạnh mẽ về quy mô mà còn linh hoạt và hiệu quả. Với việc chiếm ưu thế trong các bài kiểm tra tiếng Nhật và tiếng Hàn, mô hình này mở ra hướng tiếp cận mới cho NLP đa ngôn ngữ và có tiềm năng ứng dụng rộng rãi trong ngành công nghiệp AI.
📌 Năm 2024, ngành công nghệ sẽ chứng kiến sự thay đổi lớn trong lĩnh vực AI tạo sinh với sự chuyển hướng sang các mô hình nhỏ hơn, nguồn mở, dễ tiếp cận và tiết kiệm chi phí. Doanh nghiệp phần mềm dự kiến sẽ thấy sự gia tăng doanh thu khoảng 10 tỷ USD từ việc tích hợp AI, trong khi người dùng iPhone có thể sẽ sử dụng thiết bị của họ lâu hơn, trung bình 8 năm. Sự phát triển của các hệ thống vệ tinh sẽ mang lại lợi ích cho người dùng IoT và smartphone, với dự đoán sự tăng trưởng trong việc bán ra smartphone có khả năng kết nối với vệ tinh lên đến 200 triệu thiết bị vào năm 2024.
📌 Fireworks AI đã mở ra một chương mới cho AI đa phương tiện với việc công bố mã nguồn mở FireLLaVA, một bước tiến đáng kể trong việc tạo ra các mô hình ngôn ngữ-hình ảnh linh hoạt và có lợi nhuận. Với khả năng đánh bại mô hình LLaVA gốc trên một số điểm chuẩn và việc sử dụng OSS để tạo dữ liệu đào tạo, FireLLaVA không chỉ mở rộng khả năng của các ứng dụng AI mà còn tạo cơ hội cho việc tích hợp AI vào nhiều lĩnh vực thương mại.
📌 01.AI, với sự dẫn dắt của Kai-Fu Lee, đang tạo nên bước đột phá trong cuộc đua AI nguồn mở, không chỉ qua việc phát triển mô hình Yi-34B, mà còn mở rộng sang mô hình multimodal mới. Việc thu hút đầu tư lớn và xây dựng cơ sở nhà phát triển trung thành qua việc chia sẻ công nghệ có thể sẽ giúp 01.AI dẫn đầu trong việc tạo ra các ứng dụng AI tiếp theo, với kỳ vọng tạo ra doanh thu đáng kể và tác động toàn cầu.
📌 Chuyển đổi từ OpenAI sang mô hình nguồn mở là bước tiếp theo cho các doanh nghiệp muốn duy trì quyền sở hữu thông tin và mô hình của mình, đảm bảo quyền riêng tư và tránh phụ thuộc vào nhà cung cấp.Trong kỷ nguyên AI tùy chỉnh, các mô hình chuyên biệt không chỉ cung cấp hiệu suất tối ưu mà còn giảm thiểu chi phí đáng kể. Các thách thức như quản lý quá trình tinh chỉnh, xây dựng cơ sở hạ tầng sản xuất mạnh mẽ và đảm bảo chất lượng, độ tin cậy, an toàn và đạo đức của AI vẫn còn, nhưng các nền tảng sáng tạo đang cung cấp giải pháp khai thác tiềm năng lớn của mô hình nguồn mở với hiệu suất tối ưu và kiểm soát tốt nhất.
- Microsoft đang sử dụng Llama, giảm sự phụ thuộc vào OpenAI.
- Tại Diễn đàn Kinh tế Thế giới, Satya Nadella, CEO của Microsoft, cho biết công ty không chỉ dựa vào một mô hình AI duy nhất và đang đa dạng hóa với nhiều mô hình khác nhau như Mixtral và Phi của Microsoft, bên cạnh việc sử dụng Llama của Meta trong một số ứng dụng.
- Microsoft đầu tư vào OpenAI từ năm 2019, giúp OpenAI chuyển đổi từ một phòng thí nghiệm nghiên cứu thành công ty AI với doanh thu trên 1 tỷ USD và giá trị định giá khoảng 100 tỷ USD.
- Quan hệ đối tác giữa Microsoft và OpenAI mang lại lợi ích lớn cho cả hai bên, giúp Microsoft dẫn đầu trong các sản phẩm AI mới nhờ quyền truy cập độc quyền vào mô hình tiên tiến của OpenAI và đóng góp vào sự tăng giá cổ phiếu của Microsoft.
- Các mô hình ngôn ngữ lớn (LLMs) không còn chỉ là những mô hình lớn cần nguồn lực tính toán khổng lồ và chỉ chạy trên đám mây, nhờ vào tiến bộ của các mô hình nguồn mở, đang có LLMs kích thước khác nhau có thể chạy trên GPU dành cho người tiêu dùng và thậm chí cả trên thiết bị di động.
- Sự thay đổi này làm giảm lợi thế của OpenAI và các công ty chỉ bán quyền truy cập dựa trên API đến các mô hình của họ. Cuộc cạnh tranh sẽ dần chuyển từ hiệu suất sang giá cả.
- Microsoft đang chuẩn bị cho tương lai bằng cách tách rời các sản phẩm của mình khỏi mô hình của OpenAI và khám phá các mô hình ngôn ngữ trên thiết bị với mô hình Phi.
- OpenAI cũng đang chuẩn bị cho tương lai nhưng vẫn cực kỳ phụ thuộc vào Microsoft cho sự thành công và kinh doanh tiếp tục của mình.
📌 Microsoft đang tiếp tục đa dạng hóa và giảm sự phụ thuộc vào OpenAI bằng cách sử dụng các mô hình AI khác như Llama của Meta và phát triển các mô hình của riêng mình như Mixtral và Phi. Với sự thay đổi trong thị trường LLMs, từ việc cạnh tranh dựa trên hiệu suất sang giá cả và sự phát triển của các mô hình nguồn mở, Microsoft đang chuẩn bị cho một tương lai mà việc sở hữu quyền truy cập độc quyền tới GPT-4 và các mô hình kế nhiệm có thể không còn là lợi thế cạnh tranh. OpenAI vẫn cần Microsoft cho sự phát triển kinh doanh của mình, dù đã có những chuẩn bị cho các thay đổi trong thị trường.
📌 Jan không chỉ cung cấp một giải pháp nguồn mở cho những ai quan tâm đến quyền riêng tư và kiểm soát dữ liệu mà còn đánh dấu sự phát triển của cộng đồng AI nguồn mở. Sự ra đời của Jan thể hiện rõ nhu cầu tăng cường sự độc lập về công nghệ và khả năng tự chủ, đồng thời cũng mở ra cánh cửa cho việc phát triển các công cụ tương tự, dựa trên cộng đồng và hướng đến việc tối ưu hóa dữ liệu nội bộ mà không phụ thuộc vào các dịch vụ đám mây. Khả năng chạy hoàn toàn ngoại tuyến của Jan cung cấp một lựa chọn quan trọng cho người dùng và doanh nghiệp đang tìm kiếm sự linh hoạt và độc lập trong việc triển khai AI.
- Perplexity, một dự án phần mềm liên quan đến AI, đã quyết định chuyển hướng sang nguồn mở.
- Việc này cho phép cộng đồng phát triển công nghệ AI có thể tự do sử dụng và cải tiến dự án.
- Động thái này nhằm tạo điều kiện cho sự hợp tác và đổi mới, phá vỡ rào cản sở hữu độc quyền.
- Mục tiêu của Perplexity là không chỉ làm một "OpenAI Wrapper" mà còn mở rộng khả năng tiếp cận công nghệ AI.
- Quyết định này được đánh giá cao trong cộng đồng phần mềm nguồn mở và được kỳ vọng sẽ thúc đẩy sự phát triển của ngành công nghiệp AI.
- Chuyển đổi sang nguồn mở cũng giúp Perplexity tăng cường tính minh bạch và đáng tin cậy của sản phẩm.
- Công bố này nhấn mạnh sự cam kết của Perplexity đối với việc tạo ra một nền tảng AI mạnh mẽ, dễ dàng tích hợp và mở rộng.
📌 Perplexity đã chính thức trở thành một dự án nguồn mở, mở ra cơ hội cho cộng đồng phát triển mở rộng và cải tiến công nghệ AI. Việc này không chỉ thể hiện tinh thần hợp tác mà còn tạo điều kiện cho sự đổi mới không giới hạn. Sự kiện này được kỳ vọng sẽ có ảnh hưởng đáng kể đến tương lai của ngành công nghiệp AI, tăng cường tính minh bạch và mở rộng tầm ảnh hưởng của AI trong các ứng dụng thực tế.
📌 AI mã nguồn mở đặt ra rủi ro lớn chưa thể kiểm soát được. Các mô hình không an toàn như Llama 2 của Meta có thể bị lạm dụng dễ dàng bởi các tác nhân đe dọa. Các hệ thống AI này có thể được sử dụng để phân phối thông tin sai lệch và lừa đảo trên quy mô lớn, gây ảnh hưởng nghiêm trọng đến hệ thống thông tin và bầu cử. AI không an toàn cũng có thể hỗ trợ sản xuất vật liệu nguy hiểm như vũ khí hóa học và sinh học. Cần có các biện pháp quản lý và kiểm soát chặt chẽ để giảm thiểu rủi ro từ AI mã nguồn mở.
📌 LLaMA Pro, phiên bản cải tiến của mô hình ngôn ngữ lớn LLaMA, sử dụng kỹ thuật "block expansion" để giải quyết vấn đề quên lãng khi học thông tin mới. Sự cải tiến này không chỉ nâng cao khả năng của AI trong việc xử lý nhiều tác vụ cùng lúc mà còn giúp tiết kiệm tài nguyên tính toán. LLaMA Pro đặt nền móng cho việc phát triển các hệ thống AI hiệu quả hơn, mở ra cánh cửa cho các ứng dụng AI phức tạp và đa dạng trong tương lai.
📌 Mặc dù các mô hình nguồn mở AI có thể chưa sẵn sàng để vượt qua GPT-4 của OpenAI trong năm nay, nhưng sự tiến bộ không ngừng và khả năng tùy chỉnh đã đặt nền móng cho một cuộc cạnh tranh sôi nổi. Với sự hỗ trợ tài chính và đội ngũ mạnh mẽ, các công ty như Mistral AI đang phát triển các mô hình có thể cạnh tranh và thậm chí vượt trội so với GPT-3.5. Các chuyên gia từ cả hai phía đều thừa nhận rằng mô hình nguồn mở phát triển nhanh chóng, cung cấp khả năng vĩnh viễn và khả năng tùy chỉnh, mặc dù mô hình đóng có lợi thế về nguồn lực và sự lặp đi lặp lại nhanh chóng.
📌 Sự phát triển của Ferret bởi Apple, một mô hình ngôn ngữ lớn mới, đánh dấu một bước tiến trong việc tích hợp AI vào các sản phẩm và dịch vụ, hướng tới việc cung cấp trải nghiệm người dùng thông minh và tối ưu hơn.
📌 Nvidia, dẫn đầu thị trường chip AI, đang đối mặt với sự cạnh tranh từ các mô hình LLM nhỏ gọn và tiết kiệm chi phí, cũng như từ các sản phẩm của Intel. Sự phát triển của công nghệ nguồn mở như Mistral 7B làm giảm nhu cầu về GPU cao cấp của Nvidia, đe dọa đến dự báo tăng trưởng của công ty. Với tăng trưởng doanh thu 206% trong quý gần nhất, Nvidia cần đánh giá lại chiến lược để duy trì vị thế trong bối cảnh thị trường AI đang thay đổi.
📌 Bài viết từ Big Think đưa ra cái nhìn sâu sắc về lựa chọn giữa nguồn mở và nguồn đóng cho AI tạo sinh, với nhấn mạnh vào khả năng tùy chỉnh và kiểm soát trong nguồn mở, so với sự tiện lợi và ít rắc rối từ nguồn đóng, đồng thời cảnh báo về sự cần thiết của việc cân nhắc an toàn khi triển khai các giải pháp AI.
Bài viết từ Analytics India Magazine giới thiệu kế hoạch của Mistral AI về việc phát hành mô hình tương đương GPT-4 dưới dạng nguồn mở vào năm 2024, một sự kiện đánh dấu bước tiến quan trọng trong việc chia sẻ công nghệ AI với cộng đồng, mặc dù vẫn còn lo ngại về các vấn đề an toàn và đạo đức.
- Mixtral 8X7B là AI tạo sinh với công nghệ tiên tiến, cạnh tranh với các mô hình như GPT3.5.
- Mô hình dựa trên SMoE, hỗ trợ hiểu biết sâu sắc về ngữ cảnh với khả năng xử lý 32k token.
- Hỗ trợ đa ngôn ngữ: tiếng Anh, Pháp, Ý, Đức, và Tây Ban Nha.
- Nổi bật với khả năng tạo mã code, tăng năng suất và giảm lỗi cho lập trình viên.
- Inference speed nhanh gấp sáu lần, thúc đẩy tích hợp AI vào công việc đòi hỏi thời gian thực.
- Có tỷ lệ hiệu suất chi phí ấn tượng, giúp đầu tư vào AI hiệu quả mà không làm tăng chi phí.
- Mô hình nguồn mở dưới giấy phép Apache 2.0, thúc đẩy sự đổi mới và ứng dụng đa dạng.
Mixtral 8X7B không chỉ là một bước tiến trong lĩnh vực AI tạo sinh mà còn là một lựa chọn kinh tế cho các doanh nghiệp và nhà phát triển. Với khả năng xử lý ngôn ngữ mạnh mẽ, tốc độ nhanh chóng và mô hình nguồn mở, Mixtral 8X7B hứa hẹn sẽ có vai trò quan trọng trong việc chuyển đổi các ngành công nghiệp bằng AI.
Mixtral 8X7B - AI tạo sinh tiên tiến cho lập trình viên và ngành công nghiệp đa ngôn ngữ.
"Mixtral 8X7B, AI tạo sinh, mô hình SMoE, ngôn ngữ đa dạng, tạo mã code, inference speed nhanh, nguồn mở Apache 2.0"
AI tạo sinh Mixtral 8X7B: Hiệu suất vượt trội, nguồn mở và đa ngôn ngữ
- Tóm tắt nội dung bài viết về công cụ AI sinh mã Cody của Sourcegraph:
- Sourcegraph cho ra mắt công cụ mã nguồn mở Cody sử dụng AI sinh mã để viết và sửa mã.
- Phiên bản 1.0 của Cody sử dụng các mô hình ngôn ngữ lớn như StarCoder, GPT-4 Turbo, Claude 2.
- Cody được tích hợp với công cụ tìm kiếm mã nguồn của Sourcegraph để cung cấp ngữ cảnh cho mã.
- Cody có thể tìm kiếm mã và tài liệu để đề xuất kế hoạch triển khai tính năng mới.
- Phiên bản sau sẽ tích hợp chặt chẽ hơn với đồ thị mã nguồn phổ quát của Sourcegraph.
- Cody giúp lập trình viên viết mã nhanh hơn, nhưng vẫn cần đánh giá mã trước khi triển khai.
- Microsoft giới thiệu dịch vụ AI model-as-a-service trong Azure AI, bao gồm Meta's Llama 2 và GPT-4 Turbo với Vision.
- Llama 2 là một công cụ hỗ trợ phát triển ứng dụng AI với khả năng xử lý ngôn ngữ mạnh mẽ.
- GPT-4 Turbo kết hợp xử lý ngôn ngữ tự nhiên với computer vision, mở rộng khả năng của các ứng dụng multimodal.
- Phi-2 là một mô hình ngôn ngữ nhỏ (SLM) với 2,7 tỉ tham số, cải thiện về khả năng suy luận và an toàn so với Phi-1-5.
- DeciLM-7B, một mô hình sinh văn bản chỉ với bộ giải mã, có 7,04 tỉ tham số.
- DeciDiffusion 1.0 là mô hình sinh ảnh từ văn bản dựa trên kỹ thuật diffusion.
- DeciCoder 1B là mô hình hoàn thiện code với 1 tỉ tham số, huấn luyện trên dữ liệu Python, Java và JavaScript.
- Orca 2 cải thiện từ mô hình ngôn ngữ nhỏ, với hiệu suất tương đương hoặc tốt hơn các mô hình lớn hơn 5-10 lần.
- Mixtral 8x7b sử dụng kỹ thuật Mixture of Experts, có hiệu suất tương đương mô hình 12 tỉ tham số.
- Azure AI Studio hỗ trợ benchmarking và đánh giá mô hình, giúp lựa chọn mô hình phù hợp dễ dàng hơn.
Cùng với việc mở rộng danh mục mô hình AI, Microsoft cũng hỗ trợ cho các công ty như Dentons áp dụng các mô hình AI vào thực tiễn, chẳng hạn như tổng hợp hợp đồng pháp lý, giảm thiểu thời gian làm việc từ 4 giờ xuống còn 5 phút. Điều này không chỉ thúc đẩy hiệu suất mà còn chứng tỏ tiềm năng lớn của AI trong việc cải tiến công nghệ và phát triển ứng dụng.
Microsoft Azure AI nâng cấp với AI tạo sinh và multimodal: Llama 2 và GPT-4 Turbo.
Microsoft Azure AI, Llama 2, GPT-4 Turbo, AI tạo sinh, multimodal, Phi-2, DeciLM-7B, DeciDiffusion, DeciCoder, Orca 2, Mixtral 8x7b.
Microsoft Azure AI mở rộng với các mô hình AI đột phá: Phi-2, Orca 2, Llama 2.
- Tóm tắt nội dung bài viết:
- Mistral AI hợp tác với Google Cloud, phát hành mô hình ngôn ngữ lớn mở Mixtral-8x7B.
- Mixtral-8x7B có hiệu năng tốt hơn các mô hình khác, giấy phép sử dụng rộng rãi.
- Hợp tác đưa mô hình của Mistral lên cơ sở hạ tầng AI của Google Cloud.
- Tích hợp mô hình Mistral-7B vào Google Vertex AI Model Garden.
- Các mô hình Mistral sẽ có sẵn trên Google Cloud Marketplace.
- Đối tác mang lại giải pháp AI an toàn, bảo mật cho các tổ chức.
- Sự kết hợp giữa đổi mới của Mistral và cơ sở hạ tầng của Google Cloud.
- Tóm tắt nội dung bài viết:
- Mozilla giới thiệu Solo AI - công cụ xây dựng website dành cho freelancer và doanh nhân độc lập.
- Solo AI sử dụng AI để tạo nội dung và hình ảnh cho website mà người dùng có thể chỉnh sửa sau đó.
- Người dùng chỉ cần cung cấp thông tin cơ bản về dự án, Solo AI sẽ xây dựng website trong vài phút.
- Động thái này nằm trong chiến lược của Mozilla hướng đến xây dựng hệ sinh thái AI mở và đáng tin cậy.
- Mozilla muốn trở thành nền tảng AI đáng tin cậy, thay thế cho các công ty công nghệ lớn.
- Việc Mozilla có thể cạnh tranh với các ông lớn công nghệ về AI vẫn còn phải chứng minh.