Ngành công nghiệp AI của Trung Quốc đã gần bắt kịp Mỹ với các mô hình mở và hiệu quả hơn

- Tháng 9/2024, OpenAI phát hành mô hình suy luận đầu tiên trên thế giới o1, sử dụng phương pháp "chuỗi suy nghĩ" để giải quyết các vấn đề khoa học và toán học phức tạp

- Chỉ sau 3 tháng, Alibaba của Trung Quốc đã phát hành phiên bản mới của chatbot Qwen có tên QwQ với khả năng suy luận tương tự

- DeepSeek, công ty Trung Quốc, phát hành mô hình ngôn ngữ lớn v3 với 685 tỷ tham số, vượt xa Llama 3.1 của Meta (405 tỷ tham số)

- Chi phí đào tạo v3 chỉ khoảng 6 triệu USD, bằng 1/10 chi phí của Llama 3.1. v3 chỉ sử dụng 2.000 chip so với 16.000 chip của Llama 3.1

- Phí sử dụng v3 thấp hơn 1/10 so với Claude của Anthropic

- Các công ty Trung Quốc như Alibaba và DeepSeek theo đuổi mô hình nguồn mở, cho phép tải về miễn phí và công khai chi tiết kỹ thuật

- QwQ của Alibaba là mô hình suy luận nguồn mở đầu tiên trên thế giới, khác với cách tiếp cận kín của OpenAI

- Các công ty Trung Quốc phải tuân thủ kiểm duyệt nội dung và các lệnh cấm vận chip của Mỹ

- Môi trường làm việc tại Mỹ trở nên khó khăn hơn với các nhà nghiên cứu Trung Quốc do nghi ngờ về gián điệp

- Sam Altman của OpenAI dự kiến sẽ công bố các "siêu agent cấp độ tiến sĩ" với khả năng ngang tầm chuyên gia

📌 Trung Quốc đã gần như bắt kịp Mỹ trong cuộc đua AI với chi phí thấp hơn 90%, mô hình nguồn mở và hiệu quả cao. DeepSeek và Alibaba dẫn đầu với v3 (685 tỷ tham số) và QwQ, thách thức vị thế của OpenAI và Google.

Ngành công nghiệp AI của Trung Quốc gần như đã bắt kịp Mỹ
Và còn cởi mở hơn, hiệu quả hơn nữa

Mô hình “lý luận” đầu tiên trên thế giới, một dạng AI tiên tiến, được OpenAI, một công ty Mỹ, ra mắt vào tháng 9. Mô hình này, được gọi là o1, sử dụng một “chuỗi suy nghĩ” để trả lời các câu hỏi khó về khoa học và toán học, chia nhỏ các vấn đề thành các bước cấu thành và thử nghiệm các cách tiếp cận khác nhau ở phía sau trước khi đưa ra kết luận cho người dùng. Việc công bố mô hình này đã khởi động một cuộc đua sao chép phương pháp này. Google đã phát triển một mô hình lý luận có tên “Gemini Flash Thinking” vào tháng 12. OpenAI ngay sau đó phản hồi bằng cách ra mắt o3, một bản cập nhật của o1, chỉ vài ngày sau.

Nhưng thực tế, Google, dù có tất cả nguồn lực, không phải là công ty đầu tiên sao chép OpenAI. Chỉ chưa đầy 3 tháng sau khi o1 được ra mắt, Alibaba, một gã khổng lồ thương mại điện tử của Trung Quốc, đã phát hành phiên bản mới của chatbot Qwen của mình, gọi là QwQ, với khả năng “lý luận” tương tự. “Suy nghĩ, đặt câu hỏi, hiểu biết nghĩa là gì?” công ty viết trong một bài blog đầy hoa mỹ kèm theo liên kết đến phiên bản miễn phí của mô hình này. Một công ty Trung Quốc khác, DeepSeek, đã tung ra một “bản xem trước” của một mô hình lý luận, gọi là R1, một tuần trước đó. Bất chấp nỗ lực của chính phủ Mỹ nhằm kìm hãm ngành công nghiệp AI của Trung Quốc, 2 công ty Trung Quốc đã rút ngắn khoảng cách công nghệ với các đối thủ Mỹ chỉ còn tính bằng tuần.

Không chỉ với các mô hình lý luận, các công ty Trung Quốc còn đang đi đầu ở một lĩnh vực khác: vào tháng 12, DeepSeek công bố một mô hình ngôn ngữ lớn (LLM) mới, một dạng AI phân tích và tạo sinh văn bản. v3 có kích thước gần 700 gigabyte, quá lớn để chạy trên bất cứ thiết bị nào ngoài phần cứng chuyên dụng, và sở hữu 685 tỷ tham số, các nguyên tắc cá nhân kết hợp lại để tạo nên mạng nơ-ron của mô hình. Điều đó khiến nó lớn hơn bất kỳ mô hình nào từng được phát hành miễn phí trước đây. Llama 3.1, mô hình LLM chủ lực của Meta, công ty mẹ của Facebook, được ra mắt vào tháng 7, chỉ có 405 tỷ tham số.

LLM của DeepSeek không chỉ lớn hơn nhiều so với các đối thủ phương Tây—nó còn tốt hơn, chỉ bị sánh ngang bởi các mô hình độc quyền của Google và OpenAI. Paul Gauthier, người sáng lập Aider, một nền tảng mã hóa AI, đã kiểm tra mô hình mới của DeepSeek thông qua các bài kiểm tra mã hóa của mình và phát hiện rằng nó vượt trội so với tất cả các đối thủ, ngoại trừ chính o1. Lmsys, một bảng xếp hạng chatbot dựa trên đánh giá từ cộng đồng, xếp mô hình này ở vị trí thứ 7, cao hơn bất kỳ mô hình nguồn mở nào khác và là vị trí cao nhất đạt được bởi một công ty ngoài Google hoặc OpenAI (xem biểu đồ).

Sự trỗi dậy của rồng
AI của Trung Quốc hiện đã gần đạt chất lượng ngang bằng với các đối thủ Mỹ đến mức CEO của OpenAI, Sam Altman, cảm thấy cần phải giải thích khoảng cách nhỏ này. Ngay sau khi DeepSeek ra mắt v3, ông đã đăng một dòng tweet có phần khó chịu: “Sao chép thứ mà bạn biết là hoạt động (tương đối) dễ dàng. Nhưng tạo ra một thứ mới, đầy rủi ro và khó khăn khi bạn không biết liệu nó có hoạt động hay không thì cực kỳ khó.”

Ban đầu, ngành công nghiệp AI của Trung Quốc có vẻ kém cạnh. Điều này có thể một phần do phải đối mặt với các lệnh trừng phạt từ Mỹ. Năm 2022, Mỹ cấm xuất khẩu chip tiên tiến sang Trung Quốc. Nvidia, một nhà sản xuất chip hàng đầu, đã phải thiết kế các phiên bản hạ cấp đặc biệt cho thị trường Trung Quốc. Mỹ cũng đã cố gắng ngăn Trung Quốc phát triển năng lực sản xuất chip hàng đầu trong nước bằng cách cấm xuất khẩu thiết bị cần thiết và đe dọa trừng phạt các công ty không phải của Mỹ có thể giúp đỡ Trung Quốc.

Nhờ những cải tiến này và các yếu tố khác, việc xây dựng hàng tỷ tham số của v3 chỉ mất chưa đến 3 triệu giờ chip, với chi phí ước tính dưới 6 triệu USD—chỉ bằng khoảng một phần mười tài nguyên tính toán và chi phí của Llama 3.1. Việc huấn luyện v3 chỉ cần 2.000 chip, trong khi Llama 3.1 sử dụng 16.000. Do các lệnh trừng phạt của Mỹ, các chip mà v3 sử dụng thậm chí không phải loại mạnh nhất. Trong khi đó, các công ty phương Tây dường như ngày càng tiêu tốn nhiều chip: Meta có kế hoạch xây dựng một trung tâm máy chủ sử dụng 350.000 chip. Giống như Ginger Rogers nhảy múa ngược và mang giày cao gót, DeepSeek, theo lời Andrej Karpathy, cựu trưởng bộ phận AI tại Tesla, đã khiến việc huấn luyện một mô hình tiên tiến “trông dễ dàng” dù “với một ngân sách như trò đùa”.

Không chỉ được huấn luyện với chi phí thấp, chi phí vận hành mô hình cũng rẻ hơn. DeepSeek phân chia nhiệm vụ trên nhiều chip hiệu quả hơn so với các đối thủ và bắt đầu bước tiếp theo của một quy trình trước khi bước trước đó hoàn thành. Điều này cho phép giữ các chip hoạt động ở công suất tối đa với rất ít dư thừa. Do đó, vào tháng 2, khi DeepSeek bắt đầu cho phép các công ty khác tạo dịch vụ sử dụng v3, giá phí sẽ thấp hơn một phần mười so với mức phí Anthropic đưa ra để sử dụng Claude, LLM của họ. “Nếu các mô hình thực sự có chất lượng tương đương, đây là một diễn biến mới ấn tượng trong cuộc chiến giá LLM đang diễn ra,” Simon Willison, một chuyên gia AI, nhận định.

Cuộc tìm kiếm hiệu quả của DeepSeek không dừng lại ở đó. Tuần này, ngay cả khi công bố toàn bộ R1, công ty cũng phát hành một bộ các biến thể "distilled" nhỏ hơn, rẻ hơn và nhanh hơn, nhưng vẫn gần như mạnh mẽ như mô hình lớn. Điều này bắt chước các phát hành tương tự từ Alibaba và Meta, đồng thời một lần nữa chứng minh rằng công ty có thể cạnh tranh với những tên tuổi lớn nhất trong ngành.

Con đường của rồng
Alibaba và DeepSeek thách thức các phòng thí nghiệm tiên tiến nhất của phương Tây theo một cách khác. Không giống như OpenAI và Google, các phòng thí nghiệm của Trung Quốc đi theo hướng dẫn của Meta và cung cấp hệ thống của họ dưới dạng giấy phép mã nguồn mở. Nếu muốn tải xuống Qwen AI và xây dựng lập trình của riêng mình dựa trên nó, bạn hoàn toàn có thể làm điều đó mà không cần xin phép cụ thể. Sự cởi mở này còn được thể hiện qua việc công bố thông tin đáng kinh ngạc: hai công ty này xuất bản các bài báo mỗi khi phát hành mô hình mới, cung cấp rất nhiều chi tiết về các kỹ thuật được sử dụng để cải thiện hiệu năng.

Khi Alibaba phát hành QwQ, viết tắt của “Questions with Qwen”, công ty trở thành doanh nghiệp đầu tiên trên thế giới công bố một mô hình như vậy theo giấy phép mở, cho phép bất kỳ ai tải xuống tệp 20 gigabyte đầy đủ, chạy trên hệ thống của họ hoặc tháo rời để xem cách hoạt động. Đây là một cách tiếp cận khác biệt rõ rệt với OpenAI, công ty giữ bí mật về cách hoạt động nội bộ của o1.

Trên một khía cạnh rộng lớn hơn, cả hai mô hình đều áp dụng phương pháp gọi là “test-time compute”: thay vì tập trung sử dụng sức mạnh tính toán trong giai đoạn huấn luyện mô hình, chúng cũng tiêu tốn nhiều tài nguyên hơn khi trả lời các truy vấn so với các thế hệ LLM trước đó (xem phần Kinh doanh). Đây là một phiên bản kỹ thuật số của điều mà Daniel Kahneman, một nhà tâm lý học, gọi là tư duy “hệ thống loại hai”: chậm hơn, cẩn thận và phân tích hơn so với tư duy nhanh và bản năng “loại một”. Điều này đã mang lại những kết quả đầy hứa hẹn trong các lĩnh vực như toán học và lập trình.

Nếu bạn được hỏi một câu hỏi thực tế đơn giản — chẳng hạn như tên thủ đô của Pháp — bạn có thể sẽ trả lời bằng từ đầu tiên xuất hiện trong đầu và có lẽ đúng. Một chatbot thông thường hoạt động theo cách tương tự: nếu biểu diễn thống kê của ngôn ngữ đưa ra một câu trả lời chiếm ưu thế, nó sẽ hoàn thành câu đó theo cách tương ứng.

Nhưng nếu bạn được hỏi một câu hỏi phức tạp hơn, bạn có xu hướng suy nghĩ về nó theo cách có cấu trúc hơn. Chẳng hạn, nếu được yêu cầu nêu tên thành phố đông dân thứ năm ở Pháp, bạn có thể bắt đầu bằng cách lập một danh sách dài các thành phố lớn của Pháp; sau đó cố gắng sắp xếp chúng theo dân số và chỉ sau đó mới đưa ra câu trả lời.  

Thủ thuật của o1 và các mô hình bắt chước nó là khuyến khích LLM tham gia vào cùng một dạng tư duy có cấu trúc: thay vì thốt ra câu trả lời có vẻ hợp lý nhất ngay lập tức, hệ thống sẽ phân tích vấn đề và từng bước tiến tới câu trả lời.  

Tuy nhiên, o1 giữ quá trình suy nghĩ này cho riêng mình, chỉ tiết lộ với người dùng một bản tóm tắt về quy trình và kết luận cuối cùng. OpenAI đã đưa ra một số lý do cho lựa chọn này. Đôi khi, chẳng hạn, mô hình sẽ cân nhắc xem có nên sử dụng từ ngữ nhạy cảm hoặc tiết lộ thông tin nguy hiểm hay không, nhưng sau đó quyết định không làm như vậy. Nếu toàn bộ quá trình suy luận được phơi bày, thì những nội dung nhạy cảm này cũng sẽ bị tiết lộ. Nhưng sự kín kẽ này của mô hình cũng giúp che giấu cơ chế chính xác trong suy luận của nó khỏi những kẻ muốn sao chép.  

Alibaba không có những lo ngại như vậy. Nếu yêu cầu QwQ giải một bài toán khó, mô hình này sẽ vui vẻ chi tiết mọi bước trong quá trình giải, đôi khi "tự nói chuyện" hàng nghìn từ khi thử nghiệm nhiều cách tiếp cận khác nhau. “Vậy, tôi cần tìm ước số lẻ nhỏ nhất của 20198 + 1. Hmm, con số này có vẻ lớn, nhưng tôi nghĩ mình có thể chia nhỏ nó ra từng bước,” mô hình bắt đầu, tạo ra 2.000 từ phân tích trước khi kết luận chính xác rằng câu trả lời là 97.  

Sự cởi mở của Alibaba không phải là ngẫu nhiên, theo Eiso Kant, đồng sáng lập Poolside, một công ty tại Bồ Đào Nha chuyên phát triển công cụ AI cho lập trình viên. Các phòng thí nghiệm Trung Quốc đang cạnh tranh để thu hút cùng một nhóm nhân tài với phần còn lại của ngành, ông lưu ý. “Nếu bạn là một nhà nghiên cứu đang cân nhắc việc ra nước ngoài, điều gì là thứ mà các phòng thí nghiệm phương Tây không thể cung cấp cho bạn? Chúng tôi không thể mở toàn bộ dữ liệu và mô hình nữa. Chúng tôi phải giữ mọi thứ trong bí mật, vì tính chất cuộc đua mà chúng tôi đang tham gia.”  

Ngay cả khi các kỹ sư tại các công ty Trung Quốc không phải là người đầu tiên phát hiện ra một kỹ thuật, họ thường là người đầu tiên công bố nó, ông Kant nói thêm. “Nếu bạn muốn thấy bất kỳ kỹ thuật bí mật nào xuất hiện, hãy theo dõi các nhà nghiên cứu mã nguồn mở Trung Quốc. Họ công bố mọi thứ và họ đang làm điều đó rất xuất sắc.” Bài báo kèm theo bản phát hành v3 liệt kê 139 tác giả theo tên, ông Lane lưu ý. Sự công nhận như vậy có thể hấp dẫn hơn nhiều so với làm việc trong thầm lặng tại một phòng thí nghiệm Mỹ.  

Quyết tâm của chính phủ Mỹ trong việc ngăn chặn sự lan tỏa của công nghệ tiên tiến sang Trung Quốc cũng khiến cuộc sống của các nhà nghiên cứu Trung Quốc tại Mỹ trở nên khó khăn hơn. Vấn đề không chỉ nằm ở gánh nặng hành chính mà các luật mới nhằm giữ bí mật những đổi mới gần đây áp đặt. Thường có một bầu không khí nghi ngờ mơ hồ. Các cáo buộc về gián điệp thậm chí xuất hiện cả trong các sự kiện xã hội.  

Sếp lớn
Làm việc ở Trung Quốc cũng có những hạn chế. Chẳng hạn, nếu hỏi DeepSeek v3 về Đài Loan, mô hình sẽ vui vẻ bắt đầu giải thích rằng đây là một hòn đảo ở Đông Á “còn được gọi chính thức là Trung Hoa Dân Quốc”. Nhưng sau khi soạn được vài câu theo hướng này, nó tự dừng lại, xóa câu trả lời ban đầu và thay vào đó ngắn gọn gợi ý: “Hãy nói về chủ đề khác.”

Các phòng thí nghiệm Trung Quốc minh bạch hơn chính phủ của họ một phần vì họ muốn tạo ra một hệ sinh thái các công ty xoay quanh AI của mình. Điều này mang lại một số giá trị thương mại, bởi vì các công ty xây dựng dựa trên các mô hình mã nguồn mở cuối cùng có thể bị thuyết phục để mua sản phẩm hoặc dịch vụ từ các nhà sáng tạo. Nó cũng mang lại lợi ích chiến lược cho Trung Quốc, bởi vì nó tạo ra các đồng minh trong cuộc xung đột với Mỹ về AI.

Các công ty Trung Quốc tự nhiên sẽ muốn xây dựng dựa trên các mô hình của Trung Quốc, bởi vì họ không cần lo lắng rằng các lệnh cấm hoặc hạn chế mới có thể cắt đứt quyền truy cập của họ vào nền tảng cơ sở. Họ cũng biết rằng mô hình của Trung Quốc sẽ không gặp phải các yêu cầu kiểm duyệt mà các mô hình phương Tây có thể không tuân thủ. Đối với các công ty như Apple và Samsung, những công ty muốn tích hợp công cụ AI vào các thiết bị bán tại Trung Quốc, đối tác địa phương là điều bắt buộc, theo Francis Young, một nhà đầu tư công nghệ ở Thượng Hải.

Thậm chí một số công ty ở nước ngoài cũng có lý do cụ thể để sử dụng các mô hình của Trung Quốc: Qwen được cố tình thiết kế để thành thạo các ngôn ngữ “ít tài nguyên” như tiếng Urdu và tiếng Bengal, trong khi các mô hình của Mỹ chủ yếu được đào tạo bằng dữ liệu tiếng Anh. Và sau đó là sức hấp dẫn lớn của chi phí vận hành thấp hơn từ các mô hình của Trung Quốc.

Tuy nhiên, điều này không có nghĩa là các mô hình Trung Quốc sẽ thống trị toàn cầu. AI của Mỹ vẫn có những khả năng mà các đối thủ Trung Quốc chưa thể sánh được. Một chương trình nghiên cứu của Google cho phép chatbot Gemini kiểm soát trình duyệt web của người dùng, mở ra tiềm năng AI “tác nhân” tương tác trực tiếp với web. Các chatbot của Anthropic và OpenAI không chỉ giúp viết mã mà còn chạy mã cho bạn. Claude có thể xây dựng và lưu trữ toàn bộ ứng dụng.

Ngoài ra, lý luận từng bước không phải cách duy nhất để giải quyết các vấn đề phức tạp. Nếu hỏi phiên bản ChatGPT thông thường câu hỏi toán học đã đề cập, nó sẽ viết một chương trình đơn giản để tìm ra câu trả lời.

Theo ông Altman, hiện có nhiều đổi mới đang được triển khai. Dự kiến ông sẽ sớm công bố rằng OpenAI đã phát triển các “siêu tác nhân trình độ Tiến sĩ” có khả năng ngang với các chuyên gia con người trong nhiều nhiệm vụ trí tuệ khác nhau. Sự cạnh tranh đang bám sát gót AI của Mỹ có thể thúc đẩy nó đạt được những thành tựu lớn hơn.

https://www.economist.com/briefing/2025/01/23/chinas-ai-industry-has-almost-caught-up-with-americas

China’s AI industry has almost caught up with America’s

And it is more open and more efficient, too

 
 
THE WORLD’s first “reasoning model”, an advanced form of artificial intelligence, was released in September by OpenAI, an American firm. o1, as it is called, uses a “chain of thought” to answer difficult questions in science and mathematics, breaking down problems to their constituent steps and testing various approaches to the task behind the scenes before presenting a conclusion to the user. Its unveiling set off a race to copy this method. Google came up with a reasoning model called “Gemini Flash Thinking” in December. OpenAI responded with o3, an update of o1, a few days later.
Chart: The Economist
But Google, with all its resources, was not in fact the first firm to emulate OpenAI. Less than three months after o1 was launched, Alibaba, a Chinese e-commerce giant, released a new version of its Qwen chatbot, QwQ, with the same “reasoning” capabilities. “What does it mean to think, to question, to understand?” the company asked in a florid blog post with a link to a free-to-use version of the model. Another Chinese firm, DeepSeek, had released a “preview” of a reasoning model, dubbed R1, a week before that. Despite the American government’s efforts to hold back China’s AI industry, two Chinese firms had reduced their American counterparts’ technological lead to a matter of weeks.
It is not just with reasoning models that Chinese firms are in the vanguard: in December DeepSeek published a new large language model (LLM), a form of AI that analyses and generates text. v3 was almost 700 gigabytes, far too large to run on anything but specialist hardware, and had 685bn parameters, the individual precepts that combine to form the model’s neural network. That made it bigger than anything previously released for free download. Llama 3.1, the flagship LLM of Meta, the parent of Facebook, which was released in July, has only 405bn parameters.
DeepSeek’s LLM is not only bigger than many of its Western counterparts—it is also better, matched only by the proprietary models at Google and OpenAI. Paul Gauthier, founder of Aider, an AI coding platform, ran the new DeepSeek model through his coding benchmark and found that it outclassed all its rivals except for o1 itself. Lmsys, a crowdsourced ranking of chatbots, puts it seventh, higher than any other open-source model and the highest produced by a firm other than Google or OpenAI (see chart).

Enter the dragon

Chinese AI is now so close in quality to its American rivals that the boss of OpenAI, Sam Altman, felt obliged to explain the narrowness of the gap. Shortly after DeepSeek released v3, he tweeted peevishly, “It is (relatively) easy to copy something that you know works. It is extremely hard to do something new, risky, and difficult when you don’t know if it will work.”
China’s AI industry had initially appeared second-rate. That may be in part because it has had to contend with American sanctions. In 2022 America banned the export of advanced chips to China. Nvidia, a leading chipmaker, has had to design special downgrades to its products for the Chinese market. America has also sought to prevent China from developing the capacity to manufacture top-of-the-line chips at home, by banning exports of the necessary equipment and threatening penalties for non-American firms that might help, too.
Another impediment is home-grown. Chinese firms came late to LLMs, in part owing to regulatory concerns. They worried about how censors would react to models that might “hallucinate” and provide incorrect information or—worse—come up with politically dangerous statements. Baidu, a search giant, had experimented with LLMs internally for years, and had created one called “ERNIE”, but was hesitant to release it to the public. Even when the success of ChatGPT prompted it to reconsider, it at first allowed access to ERNIEbot by invitation only.
Eventually the Chinese authorities issued regulations to foster the AI industry. Although they called on model-makers to emphasise sound content and to adhere to “socialist values”, they also pledged to “encourage innovative development of generative AI”. China sought to compete globally, says Vivian Toh, editor of TechTechChina, a news site. Alibaba was one of the first wave of companies to adapt to the new permissive environment, launching its own LLM, initially called Tongyi Qianwen and later abbreviated to “Qwen”.
For a year or so, what Alibaba produced was nothing to be excited about: a fairly undistinguished “fork” based on Meta’s open-source Llama LLM. But over the course of 2024, as Alibaba released successive iterations of Qwen, the quality began to improve. “These models seem to be competitive with very powerful models developed by leading labs in the West,” said Jack Clark of Anthropic, a Western AI lab, a year ago, when Alibaba released a version of Qwen that is capable of analysing images as well as text.
China’s other internet giants, including Tencent and Huawei, are building their own models. But DeepSeek has different origins. It did not even exist when Alibaba released the first Qwen model. It is descended from High-Flyer, a hedge fund set up in 2015 to use AI to gain an edge in share-trading. Conducting fundamental research helped High-Flyer become one of the biggest quant funds in the country.
But the motivation wasn’t purely commercial, according to Liang Wenfeng, High-Flyer’s founder. The first backers of OpenAI weren’t looking for a return, he has observed; their motivation was to “pursue the mission”. The same month that Qwen launched in 2023, High-Flyer announced that it, too, was entering the race to create human-level AI and span off its AI research unit as DeepSeek.
As OpenAI had before it, DeepSeek promised to develop AI for the public good. The company would make most of its training results public, Mr Liang said, to try to prevent the technology’s “monopolisation” by only a few individuals or firms. Unlike OpenAI, which was forced to seek private funding to cover the ballooning costs of training, DeepSeek has always had access to High-Flyer’s vast reserves of computing power.
DeepSeek’s gargantuan llm is notable not just for its scale, but for the efficiency of its training, whereby the model is fed data from which it infers its parameters. This success derived not from a single, big innovation, says Nic Lane of Cambridge University, but from a series of marginal improvements. The training process, for instance, often used rounding to make calculations easier, but kept numbers precise when necessary. The server farm was reconfigured to let individual chips speak to each other more efficiently. And after the model had been trained, it was fine-tuned on output from DeepSeek R1, the reasoning system, learning how to mimic its quality at a lower cost.
Thanks to these and other innovations, coming up with v3’s billions of parameters took fewer than 3m chip-hours, at an estimated cost of less than $6m—about a tenth of the computing power and expense that went into Llama 3.1. v3’s training required just 2,000 chips, whereas Llama 3.1 used 16,000. And because of America’s sanctions, the chips v3 used weren’t even the most powerful ones. Western firms seem ever more profligate with chips: Meta plans to build a server farm using 350,000 of them. Like Ginger Rogers dancing backwards and in high heels, DeepSeek, says Andrej Karpathy, former head of AI at Tesla, has made it “look easy” to train a frontier model “on a joke of a budget”.
Not only was the model trained on the cheap, running it costs less as well. DeepSeek splits tasks over multiple chips more efficiently than its peers and begins the next step of a process before the previous one is finished. This allows it to keep chips working at full capacity with little redundancy. As a result, in February, when DeepSeek starts to let other firms create services that make use of v3, it will charge less than a tenth of what Anthropic does for use of Claude, its LLM. “If the models are indeed of equivalent quality this is a dramatic new twist in the ongoing LLM pricing wars,” says Simon Willison, an AI expert.
DeepSeek’s quest for efficiency has not stopped there. This week, even as it published R1 in full, it also released a set of smaller, cheaper and faster “distilled” variants, which are almost as powerful as the bigger model. That mimicked similar releases from Alibaba and Meta and proved yet again that it could compete with the biggest names in the business.

The way of the dragon

Alibaba and DeepSeek challenge the most advanced Western labs in another way, too. Unlike OpenAI and Google, the Chinese labs follow Meta’s lead and make their systems available under an open-source licence. If you want to download a Qwen AI and build your own programming on top of it, you can—no specific permission is necessary. This permissiveness is matched by a remarkable openness: the two companies publish papers whenever they release new models that provide a wealth of detail on the techniques used to improve their performance.
When Alibaba released QwQ, standing for “Questions with Qwen”, it became the first firm in the world to publish such a model under an open licence, letting anyone download the full 20-gigabyte file and run it on their own systems or pull it apart to see how it works. That is a markedly different approach from OpenAI, which keeps o1’s internal workings hidden.
In broad strokes, both models apply what is known as “test-time compute”: instead of concentrating the use of computing power during the training of the model they also consume much more while answering queries than previous generations of LLMs (see Business section). This is a digital version of what Daniel Kahneman, a psychologist, called “type two” thinking: slower, more deliberate and more analytical than the quick and instinctive “type one”. It has yielded promising results in such fields as maths and programming.
If you are asked a simple factual question—to name the capital of France, say—you will probably respond with the first word that comes into your head, and probably be correct. A typical chatbot works in much the same way: if its statistical representation of language gives an overwhelmingly preferred answer, it completes the sentence accordingly.
But if you are asked a more complex question, you tend to think about it in a more structured way. Asked to name the fifth-most-populous city in France, you will probably begin by coming up with a longlist of large French cities; then attempt to sort them by population and only after that give an answer.
The trick for o1 and its imitators is to induce an LLM to engage in the same form of structured thinking: rather than blurting out the most plausible response that comes to mind, the system instead takes the problem apart and works its way to an answer step by step.
But o1 keeps its thoughts to itself, revealing to users only a summary of its process and its final conclusion. OpenAI cited some justifications for this choice. Sometimes, for instance, the model will ponder whether to use offensive words or reveal dangerous information, but then decide not to. If its full reasoning is laid bare, then the sensitive material will be, too. But the model’s circumspection also keeps the precise mechanics of its reasoning hidden from would-be copycats.
Alibaba has no such qualms. Ask QwQ to solve a tricky maths problem and it will merrily detail every step in its journey, sometimes talking to itself for thousands of words as it attempts various approaches to the task. “So I need to find the least odd prime factor of 20198 + 1. Hmm, that seems pretty big, but I think I can break it down step by step,” the model begins, generating 2,000 words of analysis before concluding, correctly, that the answer is 97.
Alibaba’s openness is not a coincidence, says Eiso Kant, the co-founder of Poolside, a firm based in Portugal that makes an AI tool for coders. Chinese labs are engaged in a battle for the same talent as the rest of the industry, he notes. “If you’re a researcher considering moving abroad, what’s the one thing the Western labs can’t give you? We can’t open up our stuff any more. We’re keeping everything under lock and key, because of the nature of the race we’re in.” Even if engineers at Chinese firms are not the first to discover a technique, they are often the first to publish it, says Mr Kant. “If you want to see any of the secret techniques come out, follow the Chinese open-source researchers. They publish everything and they’re doing an amazing job at it.” The paper that accompanied the release of v3 listed 139 authors by name, Mr Lane notes. Such acclaim may be more appealing than toiling in obscurity at an American lab.
The American government’s determination to halt the flow of advanced technology to China has also made life less pleasant for Chinese researchers in America. The problem is not just the administrative burden imposed by new laws that aim to keep the latest innovations secret. There is also often a vague atmosphere of suspicion. Accusations of espionage fly even at social events.

The big boss

Working in China has its downsides, too. Ask DeepSeek v3 about Taiwan, for instance, and the model cheerfully begins to explain that it is an island in East Asia “officially known as the Republic of China”. But after it has composed a few sentences along these lines, it stops itself, deletes its initial answer and instead curtly suggests, “Let’s talk about something else.”
Chinese labs are more transparent than their government in part because they want to create an ecosystem of firms centred on their AI. This has some commercial value, in that the companies building on the open-source models might eventually be persuaded to buy products or services from their creators. It also brings a strategic benefit to China, in that it creates allies in its conflict with America over AI.
Chinese firms would naturally prefer to build on Chinese models, since they do not then need to worry that new bans or restrictions might cut them off from the underlying platform. They also know they are unlikely to fall foul of censorship requirements in China that Western models would not take into account. For firms like Apple and Samsung, eager to build AI tools into the devices they sell in China, local partners are a must, notes Francis Young, a tech investor based in Shanghai. And even some firms abroad have specific reasons for using Chinese models: Qwen was deliberately imbued with fluency in “low-resource” languages such as Urdu and Bengali, whereas American models are trained using predominantly English data. And then there is the enormous draw of the Chinese models’ lower running costs.
This does not necessarily mean that Chinese models will sweep the world. American AI still has capabilities that its Chinese rivals cannot yet match. A research programme from Google hands a user’s web browser over to its Gemini chatbot, raising the prospect of AI “agents” interacting with the web. Chatbots from Anthropic and OpenAI won’t just help you write code, but will run it for you as well. Claude will build and host entire applications. And step-by-step reasoning is not the only way to solve complex problems. Ask the conventional version of ChatGPT the maths question above and it writes a simple program to find the answer.
More innovations are in the pipeline, according to Mr Altman, who is expected to announce soon that OpenAI has built “PhD-level super-agents” which are as capable as human experts across a range of intellectual tasks. The competition nipping at American AI’s heels may yet spur it to greater things. ■

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo