- DeepSeek đã tạo bước đột phá với kỹ thuật chưng cất AI, cho phép tạo ra mô hình mới bằng cách học từ mô hình có sẵn thông qua việc đặt hàng trăm nghìn câu hỏi và phân tích câu trả lời
- Các công ty công nghệ lớn như OpenAI và Anthropic đã chi hàng tỷ USD để phát triển AI từ đầu, mất nhiều tháng và hàng chục triệu USD. Trong khi đó, phương pháp chưng cất có thể tạo ra mô hình tương đương chỉ trong vài tuần với chi phí thấp hơn nhiều
- OpenAI cáo buộc DeepSeek đã sử dụng kỹ thuật chưng cất từ ChatGPT để xây dựng hệ thống của họ, vi phạm điều khoản dịch vụ
- Các nhà nghiên cứu tại đại học Berkeley đã phát triển công nghệ ngang tầm với mô hình gần đây của OpenAI chỉ với 450 USD bằng cách chưng cất mô hình nguồn mở từ Alibaba
- Giá sử dụng các mô hình AI từ OpenAI và các công ty khác đã giảm mạnh trong năm qua. AI nguồn mở như DeepSeek hứa hẹn sẽ làm giảm chi phí hơn nữa
- Các chuyên gia dự đoán sẽ có nhiều ứng dụng AI chất lượng cao được tạo ra bằng phương pháp chưng cất trong tương lai gần
- David Sacks, cố vấn AI của tổng thống Mỹ, cho biết các công ty Mỹ sẽ có biện pháp ngăn chặn việc sử dụng mô hình của họ để chưng cất
- Mặc dù các mô hình của OpenAI và Google vẫn dẫn đầu về xếp hạng, nhiều người dùng và doanh nghiệp sẵn sàng chấp nhận công nghệ kém hơn một chút nhưng chi phí thấp hơn nhiều
📌 Kỹ thuật chưng cất AI của DeepSeek đã tạo ra cuộc cách mạng trong ngành, cho phép tạo ra mô hình AI chất lượng cao với chi phí chỉ bằng một phần nhỏ so với phương pháp truyền thống. Điều này đặt ra thách thức lớn cho chiến lược đầu tư hàng tỷ USD vào nghiên cứu AI của các công ty công nghệ lớn.
https://www.wsj.com/tech/ai/why-distillation-has-become-the-scariest-wordfor-ai-companies-aa146ae3
#WSJ
Thành công của DeepSeek trong việc học từ các mô hình AI lớn hơn đặt ra câu hỏi về hàng tỷ USD đang được đầu tư vào công nghệ tiên tiến nhất
Các gã khổng lồ công nghệ đã chi hàng tỷ USD dựa trên giả định rằng mô hình AI càng lớn thì càng tốt. Nhưng bước đột phá của DeepSeek lại cho thấy nhỏ hơn cũng có thể hiệu quả không kém.
Việc startup Trung Quốc này vươn lên hàng ngũ những công ty AI hàng đầu đã làm dấy lên các cuộc tranh luận sôi nổi ở Silicon Valley về một kỹ thuật mà DeepSeek sử dụng, gọi là chưng cất (distillation). Đây là quá trình mà một hệ thống AI mới học từ hệ thống hiện có bằng cách đặt hàng trăm nghìn câu hỏi và phân tích câu trả lời.
"Nó giống như việc bạn có vài tiếng đồng hồ để phỏng vấn Einstein, và sau đó bước ra với lượng kiến thức gần như ngang ngửa ông ấy về vật lý," Ali Ghodsi, CEO của Databricks, công ty quản lý dữ liệu, nhận xét.
Các mô hình AI hàng đầu từ OpenAI hay Anthropic về cơ bản đều tự học từ con số 0, sử dụng lượng dữ liệu khổng lồ—một quá trình có thể mất hàng tháng và tiêu tốn hàng chục triệu USD hoặc hơn. Nhưng bằng cách tận dụng kết quả của quá trình này, chưng cất có thể tạo ra một mô hình gần như tốt tương đương chỉ trong vài tuần, thậm chí vài ngày, với chi phí rẻ hơn đáng kể.
OpenAI tuyên bố hôm thứ Tư rằng họ đã phát hiện dấu hiệu cho thấy DeepSeek đã chưng cất từ các mô hình AI đứng sau ChatGPT để xây dựng hệ thống của mình. Điều khoản dịch vụ của OpenAI cấm sử dụng AI của công ty để phát triển sản phẩm cạnh tranh.
DeepSeek chưa phản hồi email yêu cầu bình luận.
Chưng cất (distillation) không phải là một khái niệm mới, nhưng sự thành công của DeepSeek đang đặt ra nghi vấn về mô hình kinh doanh của các tập đoàn công nghệ và startup đang đổ hàng tỷ USD vào việc phát triển AI tiên tiến nhất, bao gồm Google, OpenAI, Anthropic và xAI của Elon Musk.
Chỉ mới tuần trước, OpenAI đã công bố hợp tác với SoftBank và các đối tác khác để đầu tư 500 tỷ USD vào hạ tầng AI trong 5 năm tới. Nhưng nếu những khoản đầu tư khổng lồ này không mang lại lợi thế áp đảo mà chỉ tạo bệ phóng cho các đối thủ rẻ hơn, thì việc biện minh cho chúng sẽ trở nên khó khăn hơn.
Sau cú sốc DeepSeek, các giám đốc điều hành và nhà đầu tư tại Silicon Valley đang xem xét lại mô hình kinh doanh của mình, tự hỏi liệu việc dẫn đầu ngành có còn đáng giá hay không.
"Có thực sự xứng đáng khi đi đầu công nghệ, nếu chi phí cao gấp 8 lần so với những kẻ theo sau nhanh chóng?" Mike Volpi, một cựu giám đốc công nghệ kỳ cựu và hiện là đối tác tại Hanabi Capital, đặt câu hỏi.
Trên X, Sam Altman, CEO của OpenAI, gọi mô hình mới nhất của DeepSeek là “một mô hình ấn tượng, đặc biệt là về khả năng cung cấp hiệu suất cao với chi phí thấp”, đồng thời khẳng định “OpenAI sẽ tiếp tục thực hiện lộ trình nghiên cứu của mình”.
Trong khi đó, Dario Amodei, CEO của Anthropic, viết trên blog rằng mô hình của DeepSeek không phải là một đột phá độc nhất hay thứ gì đó có thể thay đổi căn bản bài toán kinh tế của AI tiên tiến, mà đơn giản “chỉ là một điểm tất yếu trong xu hướng giảm chi phí liên tục”.
Các giám đốc công nghệ dự đoán sẽ sớm có nhiều ứng dụng AI chất lượng cao hơn được tạo ra bằng phương pháp chưng cất. Các nhà nghiên cứu tại Hugging Face đã bắt đầu thử xây dựng một mô hình tương tự DeepSeek từ tuần trước.
"Thứ dễ sao chép nhất chính là quy trình chưng cất," Lewis Tunstall, nhà khoa học nghiên cứu cấp cao tại Hugging Face, nhận định.
Các mô hình AI của OpenAI và Google vẫn đứng đầu trong các bảng xếp hạng phổ biến nhất tại Silicon Valley. Các tập đoàn công nghệ có khả năng duy trì lợi thế trong các hệ thống AI tiên tiến nhất vì họ thực hiện phần lớn nghiên cứu nguyên bản. Nhưng nhiều người dùng và doanh nghiệp sẵn sàng chọn công nghệ kém hơn một chút nhưng rẻ hơn rất nhiều.
David Sacks, người đứng đầu chính sách AI trong chính quyền Tổng thống Trump, cho biết trên Fox News hôm thứ Ba rằng ông dự đoán các công ty Mỹ sẽ siết chặt quy định để hạn chế việc sử dụng mô hình của họ cho mục đích chưng cất.
DeepSeek trước đây đã tuyên bố rằng họ sử dụng chưng cất từ các mô hình AI mã nguồn mở do Meta Platforms và Alibaba phát hành, cũng như từ một mô hình của chính họ để phát triển mô hình khác. Các nhà phát triển AI mã nguồn mở thường cho phép chưng cất miễn là họ được ghi nhận công lao. Các mô hình của DeepSeek cũng được cung cấp dưới dạng mã nguồn mở.
NovaSky, một phòng thí nghiệm nghiên cứu tại Đại học California, Berkeley, trong tháng này đã công bố một công nghệ được cho là ngang hàng với một mô hình gần đây của OpenAI. Các nhà khoa học của NovaSky chỉ mất 450 USD để tạo ra mô hình này bằng cách chưng cất một mô hình mã nguồn mở của Alibaba.
Các nhà nghiên cứu tại Berkeley đã phát hành mô hình của họ dưới dạng phần mềm mã nguồn mở, và nó đã nhanh chóng được sử dụng để phát triển công nghệ AI giá rẻ hơn. Một startup có tên Bespoke Labs đã sử dụng nó để chưng cất công nghệ của DeepSeek thành một mô hình mới, được đánh giá hoạt động tốt trên các bài toán lập trình và toán học.
"Chưng cất là một kỹ thuật rất hiệu quả để bổ sung khả năng mới cho một mô hình hiện có," Ion Stoica, giáo sư khoa học máy tính tại UC Berkeley, nhận định.
Sự cạnh tranh trong ngành AI đang ngày càng khốc liệt, và hầu hết các công ty đều đang lỗ khi chạy đua giành thị phần. Sự xuất hiện của DeepSeek và các đối thủ khác sử dụng chưng cất có thể đẩy giá xuống thấp hơn nữa, tạo ra một vòng lặp giảm giá, khiến các khoản đầu tư khổng lồ vào nghiên cứu AI tiên tiến ngày càng khó biện minh.
Giá sử dụng mô hình AI từ OpenAI và các công ty khác đã giảm mạnh trong năm qua. AI mã nguồn mở, như của DeepSeek, chỉ càng làm giảm chi phí hơn nữa, theo các giám đốc công nghệ.
"Sẽ khó để biện minh cho mức lợi nhuận khổng lồ với loại trí tuệ này," Vipul Ved Prakash, CEO của Together AI, công ty cung cấp dịch vụ tính toán cho các nhà phát triển AI, nhận định.
Why ‘Distillation’ Has Become the Scariest Word for AI Companies
DeepSeek’s success learning from bigger AI models raises questions about the billions being spent on the most advanced technology
By
Miles Kruppa
and
Deepa Seetharaman
Jan. 30, 2025 8:00 am ET
Tech giants have spent billions of dollars on the premise that bigger is better in artificial intelligence. DeepSeek’s breakthrough shows smaller can be just as good.
The Chinese company’s leap into the top ranks of AI makers has sparked heated discussions in Silicon Valley around a process DeepSeek used known as distillation, in which a new system learns from an existing one by asking it hundreds of thousands of questions and analyzing the answers.
”It’s sort of like if you got a couple of hours to interview Einstein and you walk out being almost as knowledgeable as him in physics,” said Ali Ghodsi, chief executive officer of data management company Databricks.
The leading AIs from companies like OpenAI and Anthropic essentially teach themselves from the ground up with huge amounts of raw data—a process that typically takes many months and tens of millions of dollars or more. By drawing on the results of such work, distillation can create a model that is almost as good in a matter of weeks or even days, for substantially less money.
OpenAI said Wednesday that it has seen indications DeepSeek distilled from the AI models that power ChatGPT to build its systems. OpenAI’s terms of service forbid using its AI to develop rival products.
DeepSeek didn’t respond to emails seeking comment.
Distillation isn’t a new idea, but DeepSeek’s success with it is raising new doubts about the business models of tech giants and startups spending billions to develop the most advanced AI, including Google, OpenAI, Anthropic and Elon Musk’s xAI. Just last week, OpenAI announced a partnership with SoftBank and others to invest $500 billion in AI infrastructure over the next five years.
If those investments don’t provide companies with an unbeatable advantage but instead serve as springrounds for cheaper rivals, they might become difficult to justify. In the wake of DeepSeek, executives and investors in Silicon Valley are re-examining their business models and questioning whether it still pays to be an industry leader.
“Is it economically fruitful to be on the cutting edge if it costs eight times as much as the fast follower?” said Mike Volpi, a veteran tech executive and venture capitalist who is general partner at Hanabi Capital.
OpenAI CEO Sam Altman on X called DeepSeek’s latest release “an impressive model, particularly around what they’re able to deliver for the price,” and added, “we are excited to continue to execute on our research roadmap.” Anthropic CEO Dario Amodei wrote on his blog that DeepSeek’s flagship model “is not a unique breakthrough or something that fundamentally changes the economics” of advanced AI systems, but rather “an expected point on an ongoing cost reduction curve.”
Tech executives expect to see more high-quality AI applications made with distillation soon. Researchers at AI company Hugging Face began trying to build a model similar to DeepSeek’s last week. “The easiest thing to replicate is the distillation process,” said senior research scientist Lewis Tunstall.
AI models from OpenAI and Google remain ahead of DeepSeek on the most widely used rankings in Silicon Valley. Tech giants are likely to maintain an edge in the most advanced systems because they do the most original research. But many consumers and businesses are happy to use technology that’s a little worse but costs a lot less.
President Trump’s AI czar, David Sacks, said on Fox News on Tuesday that he expects American companies to make it harder to use their models for distillation.
DeepSeek has said it used distillation on open-source AIs released by Meta Platforms and Alibaba in the past, as well as from one of its models to build another. Open-source AI developers typically allow distillation if they are given credit. DeepSeek’s own models are open-source.
NovaSky, a research lab at University of California, Berkeley, this month released technology it said was on par with a recent model released by OpenAI. The NovaSky scientists built it for $450 by distilling an open-source model from Chinese company Alibaba.
The Berkeley researchers released the model as open-source software, and it is already being used to help build more cheap AI technology. One startup, Bespoke Labs, used it to distill DeepSeek’s technology into a new model it said performed well on coding and math problems.
“Distillation as a technique is very effective to add new capabilities to an existing model,” said Ion Stoica, a professor of computer science at UC Berkeley.
Competition in the AI industry is already fierce, and most companies are losing money as they battle for market share. The entry of DeepSeek and others that use distillation could drive prices down further, creating a feedback loop in which it is harder and harder to justify spending huge sums on advanced research.
Prices for software developers accessing AI models from OpenAI and others have fallen dramatically in the past year. Open-source AI such as DeepSeek’s only promises to lower costs further, according to tech executives.
“It will be harder to justify very large margins for this level of intelligence,” said Vipul Ved Prakash, CEO of Together AI, which sells computational services to developers of AI applications.
Write to Miles Kruppa at [email protected] and Deepa Seetharaman at [email protected]