LLM mã nguồn mở xuất hiện trong lộ trình chủ quyền số của châu Âu

- OpenEuroLLM là dự án hợp tác giữa 20 tổ chức châu Âu, do Jan Hajič từ Đại học Charles Prague và Peter Sarlin từ Silo AI đồng lãnh đạo

- Ngân sách xây dựng mô hình là 37,4 triệu Euro, trong đó 20 triệu Euro từ Chương trình Châu Âu Số

- Dự án hướng tới phát triển mô hình ngôn ngữ hỗ trợ 24 ngôn ngữ chính thức của EU và các ngôn ngữ của quốc gia đang đàm phán gia nhập EU

- Các đối tác bao gồm trung tâm siêu máy tính EuroHPC tại Tây Ban Nha, Ý, Phần Lan và Hà Lan

- Thời gian triển khai: phiên bản đầu tiên dự kiến ra mắt giữa năm 2026, phiên bản cuối cùng vào năm 2028

- Dự án kế thừa từ High Performance Language Technologies (HPLT), với bộ dữ liệu được huấn luyện trên 4,5 petabyte dữ liệu web và hơn 20 tỷ tài liệu

- Các tổ chức tham gia đến từ nhiều quốc gia: Cộng hòa Séc, Hà Lan, Đức, Thụy Điển, Phần Lan, Na Uy cùng các công ty như Silo AI, Aleph Alpha, Ellamind

- Mục tiêu tạo ra mô hình nền tảng đa mục đích với độ chính xác cao và phiên bản nhỏ gọn cho ứng dụng biên

- Thách thức về định nghĩa "nguồn mở thực sự" khi cân bằng giữa chất lượng và khả năng chia sẻ dữ liệu huấn luyện

- Dự án song song với EuroLLM - một sáng kiến tương tự được EU tài trợ ra mắt vào tháng 9/2024

📌 Châu Âu đầu tư 37,4 triệu Euro vào OpenEuroLLM để phát triển AI nguồn mở hỗ trợ 24 ngôn ngữ EU, nhằm đạt chủ quyền số. Dự án tập hợp 20 tổ chức, kế thừa 4,5 petabyte dữ liệu, dự kiến ra mắt 2026-2028.

 

https://techcrunch.com/2025/02/16/open-source-llms-hit-europes-digital-sovereignty-roadmap/

 

LLM mã nguồn mở xuất hiện trong lộ trình chủ quyền số của châu Âu

Paul Sawers
6:30 sáng PST · Ngày 16 tháng 2 năm 2025

Các mô hình ngôn ngữ lớn (LLM) đã chính thức xuất hiện trong chương trình nghị sự về chủ quyền số của châu Âu vào tuần trước, khi có thông tin về một chương trình mới nhằm phát triển một loạt LLM “thực sự” mã nguồn mở, bao phủ tất cả các ngôn ngữ của Liên minh châu Âu (EU).

Điều này bao gồm 24 ngôn ngữ chính thức hiện tại của EU, cũng như ngôn ngữ của các quốc gia đang đàm phán để gia nhập thị trường EU, như Albania. Tư duy hướng đến tương lai chính là trọng tâm của dự án này.

OpenEuroLLM là sự hợp tác giữa khoảng 20 tổ chức, được đồng lãnh đạo bởi Jan Hajič, một nhà ngôn ngữ học tính toán từ Đại học Charles ở Prague, và Peter Sarlin, CEO kiêm đồng sáng lập phòng thí nghiệm AI Silo AI của Phần Lan, công ty mà AMD đã mua lại năm ngoái với giá 665 triệu USD.

Dự án này phù hợp với chiến lược rộng lớn hơn của châu Âu, trong đó ưu tiên chủ quyền số nhằm đưa các cơ sở hạ tầng và công cụ quan trọng về gần hơn. Hầu hết các tập đoàn điện toán đám mây lớn đang đầu tư vào cơ sở hạ tầng địa phương để đảm bảo dữ liệu của EU được lưu trữ trong khu vực, trong khi OpenAI gần đây đã công bố một dịch vụ mới cho phép khách hàng xử lý và lưu trữ dữ liệu tại châu Âu.

Ngoài ra, EU mới đây đã ký một thỏa thuận trị giá 11 tỷ USD để tạo ra một chòm sao vệ tinh độc lập nhằm cạnh tranh với Starlink của Elon Musk.

Vì vậy, OpenEuroLLM hoàn toàn phù hợp với định hướng này.

Tuy nhiên, ngân sách được công bố chỉ để xây dựng các mô hình này là 37,4 triệu EUR (~40,2 triệu USD), trong đó khoảng 20 triệu EUR (~21,5 triệu USD) đến từ Chương trình Kỹ thuật số châu Âu (Digital Europe Programme) – con số này rất nhỏ so với khoản đầu tư của các tập đoàn AI lớn. Ngân sách thực tế cao hơn khi tính đến các khoản tài trợ cho các công việc liên quan, và chi phí lớn nhất có lẽ là tài nguyên tính toán. Các đối tác của OpenEuroLLM bao gồm các trung tâm siêu máy tính EuroHPC tại Tây Ban Nha, Ý, Phần Lan và Hà Lan – và dự án EuroHPC rộng hơn có ngân sách khoảng 7 tỷ EUR (~7,5 tỷ USD).

Liệu có khả thi?

Số lượng lớn các bên tham gia, trải dài từ giới học thuật, nghiên cứu đến doanh nghiệp, khiến nhiều người đặt câu hỏi liệu mục tiêu của dự án có thực tế hay không.

Anastasia Stasenko, đồng sáng lập công ty LLM Pleias, hoài nghi rằng một liên minh gồm hơn 20 tổ chức có thể có cùng một mức độ tập trung như một công ty AI tư nhân nội địa.

“Những thành công gần đây của châu Âu trong AI đến từ các nhóm nhỏ, tập trung như Mistral AILightOn – những công ty thực sự kiểm soát những gì họ xây dựng," Stasenko viết. "Họ có trách nhiệm ngay lập tức với các lựa chọn của mình, từ tài chính, định vị thị trường cho đến danh tiếng.”

Xuất phát từ con số 0 hay có lợi thế?

Dự án OpenEuroLLM có thể coi là bắt đầu từ con số không, hoặc đã có nền tảng – tùy theo cách nhìn nhận.

Từ năm 2022, Hajič cũng đang điều phối dự án High Performance Language Technologies (HPLT), hướng đến việc phát triển bộ dữ liệu, mô hình và quy trình làm việc miễn phí và có thể tái sử dụng, sử dụng tính toán hiệu năng cao (HPC). Dự án này dự kiến kết thúc vào cuối năm 2025, nhưng theo Hajič, nó có thể được xem là tiền đề cho OpenEuroLLM, vì hầu hết các đối tác của HPLT (ngoại trừ các đối tác Anh) đều tham gia vào dự án mới này.

Dự án này thực chất chỉ là một sự mở rộng với sự tham gia rộng rãi hơn, nhưng tập trung hơn vào LLM tạo sinh,” Hajič nói. “Vì vậy, chúng tôi không bắt đầu từ con số không về mặt dữ liệu, chuyên môn, công cụ và kinh nghiệm tính toán. Chúng tôi đã tập hợp được những người có kinh nghiệm – nên có thể bắt kịp nhanh chóng.”

Hajič kỳ vọng phiên bản đầu tiên sẽ được phát hành vào giữa năm 2026, với phiên bản cuối cùng ra mắt vào năm 2028. Tuy nhiên, những mục tiêu này vẫn có vẻ đầy tham vọng, đặc biệt khi hiện tại dự án chỉ mới có một hồ sơ GitHub sơ khai.

“Ở khía cạnh đó, chúng tôi đang bắt đầu từ con số không – dự án mới chính thức khởi động vào thứ Bảy [ngày 1 tháng 2],” Hajič nói. “Nhưng chúng tôi đã chuẩn bị trong một năm rồi [quy trình đấu thầu mở vào tháng 2 năm 2024].”

Các bên tham gia và sự vắng mặt của Mistral AI

Từ giới học thuật và nghiên cứu, dự án có sự tham gia của các tổ chức từ Séc, Hà Lan, Đức, Thụy Điển, Phần Lan và Na Uy, bên cạnh các trung tâm EuroHPC. Từ khu vực doanh nghiệp, các công ty như Silo AI (Phần Lan, thuộc sở hữu của AMD), Aleph Alpha (Đức), Ellamind (Đức), Prompsit Language Engineering (Tây Ban Nha) và LightOn (Pháp) cũng tham gia.

Một điểm đáng chú ý là Mistral AI – startup AI kỳ lân của Pháp, vốn tự định vị là đối thủ mã nguồn mở của OpenAI – không có mặt trong danh sách.

Mặc dù không ai từ Mistral AI phản hồi TechCrunch để bình luận, Hajič xác nhận rằng ông đã cố gắng liên hệ với startup này nhưng không có kết quả.

“Tôi đã tiếp cận họ, nhưng vẫn chưa có cuộc thảo luận tập trung nào về việc tham gia của họ,” Hajič cho biết.

Dự án vẫn có thể thu hút thêm đối tác mới trong khuôn khổ chương trình tài trợ của EU, nhưng sẽ giới hạn trong các tổ chức EU. Điều này có nghĩa là các tổ chức từ Anh và Thụy Sĩ sẽ không thể tham gia, trái ngược với chương trình nghiên cứu Horizon, mà Anh đã tái gia nhập vào năm 2023 sau thời gian đình trệ do Brexit, và từng cấp vốn cho HPLT.

Xây dựng nền tảng

Mục tiêu hàng đầu của dự án, theo khẩu hiệu của nó, là tạo ra: "Một loạt mô hình nền tảng cho AI minh bạch tại châu Âu." Ngoài ra, các mô hình này phải bảo tồn "sự đa dạng ngôn ngữ và văn hóa" của tất cả các ngôn ngữ trong EU — hiện tại và tương lai.

Việc này sẽ được hiện thực hóa như thế nào vẫn đang được xác định, nhưng nhiều khả năng dự án sẽ tập trung vào một LLM đa ngôn ngữ cốt lõi, phục vụ các nhiệm vụ tổng quát đòi hỏi độ chính xác cao. Đồng thời, cũng có thể có các phiên bản nhỏ hơn, được "lượng tử hóa" để tối ưu hóa cho các ứng dụng biên (edge computing), nơi tốc độ và hiệu suất quan trọng hơn.

“Chúng tôi vẫn cần lập kế hoạch chi tiết về vấn đề này,” Hajič nói. “Chúng tôi muốn mô hình có kích thước nhỏ nhất có thể nhưng vẫn đạt chất lượng cao nhất. Chúng tôi không muốn tung ra một sản phẩm chưa hoàn thiện, vì từ góc độ châu Âu, đây là một dự án quan trọng với rất nhiều tiền từ Ủy ban châu Âu – tiền công.”

Mặc dù mục tiêu là làm cho mô hình hoạt động tốt nhất có thể trên tất cả các ngôn ngữ, nhưng đạt được sự cân bằng tuyệt đối giữa các ngôn ngữ sẽ là một thách thức.

“Đó là mục tiêu, nhưng việc có thể làm tốt đến đâu với những ngôn ngữ có tài nguyên số khan hiếm vẫn là một câu hỏi,” Hajič nói. “Nhưng đó cũng là lý do chúng tôi muốn có các bộ đánh giá thực sự đại diện cho các ngôn ngữ này, thay vì chỉ dựa vào các tiêu chí đánh giá không phản ánh đúng thực tế ngôn ngữ và văn hóa đằng sau chúng.”

Về dữ liệu, phần lớn công việc từ dự án HPLT trước đó sẽ phát huy tác dụng, với phiên bản 2.0 của bộ dữ liệu đã được phát hành bốn tháng trước. Bộ dữ liệu này được huấn luyện trên 4,5 petabyte dữ liệu quét web và hơn 20 tỷ tài liệu. Hajič cho biết họ sẽ bổ sung dữ liệu từ Common Crawl (kho dữ liệu quét web mã nguồn mở).


Định nghĩa về mã nguồn mở

Trong phần mềm truyền thống, cuộc tranh luận giữa mã nguồn mởđộc quyền thường xoay quanh định nghĩa thực sự của "mã nguồn mở." Vấn đề này thường được giải quyết bằng cách tham chiếu đến tiêu chuẩn của Open Source Initiative (OSI) – tổ chức định hướng ngành về các giấy phép mã nguồn mở hợp lệ.

Gần đây, OSI đã đưa ra định nghĩa về AI mã nguồn mở, nhưng điều này không làm hài lòng tất cả mọi người. Những người ủng hộ AI mã nguồn mở lập luận rằng không chỉ các mô hình nên được công khai, mà cả bộ dữ liệu, mô hình tiền huấn luyện, trọng số – tất cả mọi thứ. Tuy nhiên, định nghĩa của OSI không bắt buộc công khai dữ liệu huấn luyện, vì AI thường được huấn luyện trên dữ liệu độc quyền hoặc dữ liệu có hạn chế về phân phối lại.

Tương tự, OpenEuroLLM đang đối mặt với những tranh luận này. Mặc dù dự án đặt mục tiêu “thực sự mở”, nhưng có thể vẫn phải thỏa hiệp để đảm bảo chất lượng.

“Mục tiêu là công khai tất cả. Nhưng tất nhiên, sẽ có một số hạn chế,” Hajič nói. “Chúng tôi muốn tạo ra các mô hình có chất lượng cao nhất có thể, và theo chỉ thị bản quyền của EU, chúng tôi có thể sử dụng bất kỳ dữ liệu nào có thể tiếp cận được. Một số dữ liệu không thể phân phối lại, nhưng có thể lưu trữ để kiểm tra sau này.”

Điều này có nghĩa là một số dữ liệu huấn luyện của OpenEuroLLM có thể không được công khai hoàn toàn, nhưng sẽ có sẵn cho các cơ quan kiểm toán khi cần, theo yêu cầu của Đạo luật AI của EU đối với các hệ thống AI có rủi ro cao.

“Chúng tôi hy vọng rằng phần lớn dữ liệu sẽ mở, đặc biệt là dữ liệu từ Common Crawl,” Hajič nói. “Chúng tôi muốn công khai tất cả, nhưng còn phải chờ xem. Dù thế nào đi nữa, chúng tôi vẫn phải tuân thủ các quy định về AI.”


Hai dự án trùng lặp?

Một trong những chỉ trích xuất hiện ngay sau khi OpenEuroLLM được công bố là việc châu Âu đã có một dự án rất giống ra mắt chỉ vài tháng trước đó.

EuroLLM, được công bố vào tháng 9 năm ngoái và tiếp tục ra mắt một mô hình khác vào tháng 12, cũng do EU đồng tài trợ và có sự tham gia của 9 đối tác, bao gồm Đại học Edinburgh và công ty Unbabel.

EuroLLM có mục tiêu tương tự như OpenEuroLLM:

"Xây dựng một mô hình ngôn ngữ lớn mã nguồn mở cho châu Âu, hỗ trợ 24 ngôn ngữ chính thức của EU và một số ngôn ngữ quan trọng chiến lược khác."

Andre Martins, trưởng bộ phận nghiên cứu tại Unbabel, đã lên tiếng trên mạng xã hội về sự trùng lặp này, cho rằng OpenEuroLLM đã sử dụng một cái tên đã tồn tại.

"Tôi hy vọng các cộng đồng khác nhau sẽ hợp tác cởi mở, chia sẻ chuyên môn, và không cố gắng 'phát minh lại bánh xe' mỗi khi có một dự án mới được tài trợ," Martins viết.

Hajič gọi tình huống này là "đáng tiếc," nhưng hy vọng hai dự án có thể hợp tác, dù thừa nhận rằng OpenEuroLLM bị hạn chế trong việc hợp tác với các tổ chức ngoài EU, bao gồm các trường đại học của Anh.


Khoảng cách tài trợ

Sự xuất hiện của DeepSeek từ Trung Quốc, cùng với tỷ lệ chi phí-hiệu suất mà mô hình này hứa hẹn, đã khiến một số người tin rằng có thể làm được nhiều hơn với ngân sách ít hơn. Tuy nhiên, trong vài tuần qua, nhiều người đã đặt câu hỏi về chi phí thực sự để xây dựng DeepSeek.

Peter Sarlin, đồng lãnh đạo kỹ thuật của OpenEuroLLM, nói với TechCrunch:

“Với DeepSeek, thực sự chúng ta biết rất ít về những gì đã được đầu tư để xây dựng nó.”

Dù vậy, Sarlin tin rằng OpenEuroLLM sẽ có đủ tài trợ, vì phần lớn ngân sách chủ yếu dành cho con người. Phần tốn kém nhất khi xây dựng AI là tài nguyên tính toán, nhưng phần lớn chi phí này sẽ được EuroHPC hỗ trợ.

“Có thể nói rằng OpenEuroLLM thực sự có ngân sách khá lớn,” Sarlin nói. “EuroHPC đã đầu tư hàng tỷ EUR vào AI và cơ sở hạ tầng tính toán, và sẽ tiếp tục đầu tư thêm trong những năm tới.”

Ngoài ra, OpenEuroLLM không nhắm đến việc phát triển một sản phẩm thương mại dành cho người tiêu dùng hay doanh nghiệp. Dự án chỉ tập trung vào mô hình nền tảng, giúp các công ty châu Âu xây dựng ứng dụng AI của riêng mình.

“Chúng tôi không đang tạo ra một chatbot hay trợ lý AI – đó sẽ là một dự án sản phẩm đòi hỏi nhiều nỗ lực hơn, giống như ChatGPT đã làm rất tốt,” Sarlin nói. “Chúng tôi đang cung cấp một mô hình nền tảng mở, đóng vai trò là hạ tầng AI để các công ty châu Âu xây dựng trên đó. Chúng tôi biết cần gì để xây dựng mô hình – và không nhất thiết phải tốn hàng tỷ USD.”


Chủ quyền số

Cuối cùng, OpenEuroLLM không phải là về cạnh tranh với Big Tech hay các startup AI tỷ USD; mục tiêu cốt lõi vẫn là chủ quyền số – xây dựng mô hình mã nguồn mở (phần lớn), bởi châu Âu, cho châu Âu.

“Ngay cả khi chúng tôi không phải là mô hình số một, nhưng nếu có một mô hình 'tốt', thì ít nhất đó vẫn sẽ là một mô hình với tất cả các thành phần đặt tại châu Âu," Hajič nói. “Đó vẫn sẽ là một kết quả tích cực.”

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo