- DeepSeek, startup Trung Quốc, đã gây chấn động thị trường tài chính Mỹ khi công bố xây dựng hệ thống AI mạnh mẽ chỉ với 2.000 chip chuyên dụng, thay vì 16.000 chip như thông thường
- Chi phí năng lực tính toán thô chỉ khoảng 6 triệu USD, bằng 1/10 chi phí của Meta cho công nghệ AI mới nhất
DeepSeek áp dụng phương pháp "mixture of experts" bằng cách:
- Chia hệ thống thành nhiều neural network nhỏ chuyên biệt (khoảng 100 hệ thống)
- Mỗi network tập trung vào một lĩnh vực cụ thể như thơ ca, lập trình, sinh học
- Kết hợp với một hệ thống "generalist" để điều phối tương tác giữa các expert
Thủ thuật tối ưu hóa bộ nhớ:
- Nén số liệu vào 8 bit thay vì 16 bit thông thường
- Khi nhân các số, kết quả được mở rộng thành 32 bit để tăng độ chính xác
- Giảm độ chính xác của từng phép tính nhưng vẫn đủ hiệu quả
Các yếu tố then chốt khác:
- Kỹ sư DeepSeek có kỹ năng viết mã tinh vi để tối ưu GPU
- Công ty chấp nhận rủi ro cao trong thử nghiệm
- Chi phí 6 triệu USD chỉ tính cho lần huấn luyện cuối cùng
📌 Startup Trung Quốc DeepSeek đã cách mạng hóa việc phát triển AI bằng cách giảm 90% chi phí so với Meta, chỉ dùng 2.000 chip thay vì 16.000, nhờ kết hợp phương pháp "mixture of experts" với các thủ thuật tối ưu hóa bộ nhớ sáng tạo.
https://www.nytimes.com/2025/02/12/technology/deepseek-ai-chip-costs.html
Công ty khởi nghiệp Trung Quốc đã sử dụng nhiều kỹ thuật công nghệ, bao gồm một phương pháp có tên "mixture of experts," để giảm đáng kể chi phí phát triển công nghệ.
Cade Metz
Tường thuật từ San Francisco
12 tháng 2, 2025, 5:02 sáng ET
Tháng trước, thị trường tài chính Mỹ chao đảo sau khi một công ty khởi nghiệp Trung Quốc có tên DeepSeek tuyên bố đã xây dựng một trong những hệ thống trí tuệ nhân tạo mạnh nhất thế giới mà chỉ cần sử dụng số lượng chip máy tính ít hơn nhiều so với những gì nhiều chuyên gia từng nghĩ là có thể.
Các công ty AI thường huấn luyện chatbot của họ bằng cách sử dụng siêu máy tính được trang bị ít nhất 16.000 chip chuyên dụng. Nhưng DeepSeek cho biết họ chỉ cần khoảng 2.000 chip.
Trong một bài báo nghiên cứu được công bố ngay sau Giáng sinh, các kỹ sư của DeepSeek đã trình bày nhiều kỹ thuật công nghệ giúp họ giảm đáng kể chi phí phát triển hệ thống. Theo ước tính, công ty chỉ tốn khoảng 6 triệu USD cho năng lực tính toán thô, tức chỉ bằng khoảng 1/10 so với số tiền Meta đã chi để xây dựng công nghệ AI mới nhất của họ.
DeepSeek đã làm gì? Dưới đây là những điều cần biết.
Các công nghệ AI hàng đầu hiện nay dựa trên cái mà các nhà khoa học gọi là mạng nơ-ron—hệ thống toán học học hỏi kỹ năng bằng cách phân tích một lượng dữ liệu khổng lồ.
Những hệ thống mạnh nhất mất nhiều tháng để phân tích gần như toàn bộ văn bản tiếng Anh trên internet, cùng với hàng loạt hình ảnh, âm thanh và các dữ liệu đa phương tiện khác. Quá trình này đòi hỏi một lượng lớn sức mạnh tính toán.
Khoảng 15 năm trước, các nhà nghiên cứu AI nhận ra rằng GPU (graphics processing unit - bộ xử lý đồ họa) là một công cụ hiệu quả để thực hiện loại phân tích dữ liệu này. Ban đầu, các công ty như Nvidia của Thung lũng Silicon thiết kế GPU để xử lý đồ họa trong trò chơi điện tử. Nhưng hóa ra, GPU cũng rất phù hợp để thực hiện các phép toán chạy mạng nơ-ron.
Khi các công ty lắp đặt ngày càng nhiều GPU vào trung tâm dữ liệu của họ, các hệ thống AI có thể phân tích dữ liệu nhanh hơn và nhiều hơn.
Tuy nhiên, các GPU tốt nhất có giá khoảng 40.000 USD mỗi chiếc và tiêu thụ một lượng điện năng khổng lồ. Việc truyền dữ liệu giữa các GPU thậm chí còn tốn điện hơn cả quá trình vận hành chúng.
DeepSeek áp dụng nhiều kỹ thuật khác nhau. Đáng chú ý nhất là họ sử dụng một phương pháp có tên "mixture of experts" (hỗn hợp chuyên gia).
Thông thường, các công ty AI tạo ra một mạng nơ-ron duy nhất để học tất cả các quy luật từ toàn bộ dữ liệu trên internet. Điều này rất tốn kém vì đòi hỏi một lượng dữ liệu khổng lồ phải di chuyển liên tục giữa các GPU.
Ví dụ, nếu một GPU đang học cách viết thơ, trong khi một GPU khác học cách viết chương trình máy tính, cả hai vẫn phải trao đổi dữ liệu với nhau—trong trường hợp có sự liên quan nào đó giữa thơ ca và lập trình.
Với "mixture of experts," các nhà nghiên cứu cố gắng giải quyết vấn đề này bằng cách chia hệ thống thành nhiều mạng nơ-ron nhỏ hơn: một mạng chuyên về thơ, một mạng chuyên về lập trình, một mạng chuyên về sinh học, một mạng chuyên về vật lý, v.v. Hệ thống có thể bao gồm 100 "chuyên gia" như vậy, mỗi chuyên gia chỉ tập trung vào lĩnh vực riêng của mình.
Nhiều công ty từng gặp khó khăn với phương pháp này, nhưng DeepSeek đã làm tốt hơn bằng cách kết hợp các hệ thống "chuyên gia" nhỏ với một hệ thống "tổng quát."
Dù các chuyên gia vẫn cần trao đổi thông tin với nhau, nhưng hệ thống tổng quát—vốn có hiểu biết chung về mọi lĩnh vực nhưng không chuyên sâu—có thể giúp điều phối sự tương tác giữa các chuyên gia.
Cách hoạt động này tương tự như một tổng biên tập điều hành một tòa soạn, nơi có nhiều phóng viên chuyên viết về các lĩnh vực khác nhau. Tổng biên tập không phải là chuyên gia về từng lĩnh vực, nhưng có vai trò điều phối và đảm bảo mọi thứ vận hành trơn tru.
Hiệu quả hơn rất nhiều. Nhưng đó không phải là tất cả những gì DeepSeek đã làm. Họ còn tận dụng một thủ thuật đơn giản liên quan đến số thập phân—một khái niệm mà bất kỳ ai từng học toán tiểu học đều có thể hiểu.
Hãy nhớ lại bài học về số pi (π) mà giáo viên toán từng giảng. Pi là một số vô hạn: 3,14159265358979…
Có thể sử dụng π để thực hiện các phép tính hữu ích, như tính chu vi hình tròn. Nhưng khi làm những phép tính đó, thường chỉ cần rút gọn π xuống vài chữ số thập phân, chẳng hạn 3,14. Dù không hoàn toàn chính xác, nhưng con số này vẫn đủ để đưa ra một kết quả gần đúng.
DeepSeek đã làm điều tương tự—nhưng ở quy mô lớn hơn rất nhiều—trong quá trình huấn luyện AI của họ.
Mô hình toán học giúp mạng nơ-ron nhận diện các mẫu trong văn bản thực chất chỉ là phép nhân—một lượng khổng lồ các phép nhân, kéo dài hàng tháng trời trên hàng nghìn con chip máy tính.
Thông thường, các chip xử lý các phép nhân này bằng cách sử dụng 16 bit bộ nhớ cho mỗi con số. Nhưng DeepSeek đã nén mỗi con số xuống chỉ còn 8 bit—tức là một nửa không gian bộ nhớ. Về bản chất, họ đã lược bỏ một số chữ số thập phân của mỗi con số.
Đúng, mỗi phép tính sẽ kém chính xác hơn một chút. Nhưng điều đó không quan trọng. Các phép tính này vẫn đủ chính xác để tạo ra một mạng nơ-ron mạnh mẽ.
Không hẳn. DeepSeek còn bổ sung một thủ thuật khác.
Sau khi nén mỗi số xuống 8 bit, DeepSeek đã chọn một cách khác khi thực hiện phép nhân giữa các số này. Khi tính toán kết quả của từng phép nhân—một bước quan trọng giúp xác định cách mạng nơ-ron hoạt động—họ đã mở rộng kết quả đó lên 32 bit bộ nhớ. Nói cách khác, họ giữ lại nhiều chữ số thập phân hơn trong đáp án cuối cùng, giúp kết quả chính xác hơn.
Không hẳn. Các kỹ sư của DeepSeek đã chứng minh trong bài báo nghiên cứu rằng họ cũng rất giỏi trong việc viết mã máy tính tinh vi, giúp GPU hoạt động hiệu quả hơn. Họ biết cách tối ưu từng phần nhỏ của quá trình tính toán để tận dụng tối đa sức mạnh của chip.
Rất ít người có kỹ năng như vậy. Nhưng các phòng thí nghiệm AI lớn trên thế giới đều có đội ngũ kỹ sư tài năng đủ khả năng bắt kịp những gì DeepSeek đã làm.
Một số phòng thí nghiệm AI có thể đã sử dụng một phần các kỹ thuật này. Các công ty như OpenAI không phải lúc nào cũng công khai toàn bộ những gì họ đang làm.
Nhưng nhiều người rõ ràng đã bất ngờ trước công nghệ của DeepSeek. Những gì công ty khởi nghiệp này làm không hề dễ dàng.
Việc thử nghiệm để tìm ra một đột phá như vậy cần hàng triệu, thậm chí hàng tỷ USD tiền điện.
Nói cách khác, nó đòi hỏi một mức độ rủi ro rất lớn.
“Bạn phải đầu tư rất nhiều tiền để thử nghiệm những ý tưởng mới—và thường thì chúng thất bại,” Tim Dettmers, một nhà nghiên cứu tại Viện Trí tuệ Nhân tạo Allen ở Seattle, người chuyên về tối ưu hóa AI và từng làm việc tại Meta, cho biết.
“Đó là lý do tại sao chúng ta không thấy nhiều đổi mới: Mọi người sợ mất hàng triệu USD chỉ để thử một ý tưởng có thể không hiệu quả,” ông nói thêm.
Nhiều chuyên gia cũng chỉ ra rằng 6 triệu USD mà DeepSeek công bố chỉ là số tiền họ chi cho lần huấn luyện cuối cùng của hệ thống.
Trong bài báo nghiên cứu, các kỹ sư DeepSeek thừa nhận rằng họ đã chi thêm tiền cho nghiên cứu và thử nghiệm trước khi tiến hành huấn luyện chính thức. Nhưng điều này cũng đúng với bất kỳ dự án AI tiên tiến nào khác.
DeepSeek đã thử nghiệm—và thành công. Giờ đây, vì công ty khởi nghiệp Trung Quốc này đã chia sẻ phương pháp của họ với cộng đồng nghiên cứu AI, những kỹ thuật này có thể sẽ giúp giảm đáng kể chi phí xây dựng AI trong tương lai.
How Did DeepSeek Build Its A.I. With Less Money?
The Chinese start-up used several technological tricks, including a method called “mixture of experts,” to significantly reduce the cost of building the technology.
By Cade Metz
Reporting from San Francisco
Feb. 12, 2025, 5:02 a.m. ET
Last month, U.S. financial markets tumbled after a Chinese start-up called DeepSeek said it had built one of the world’s most powerful artificial intelligence systems using far fewer computer chips than many experts thought possible.
A.I. companies typically train their chatbots using supercomputers packed with 16,000 specialized chips or more. But DeepSeek said it needed only about 2,000.
As DeepSeek engineers detailed in a research paper published just after Christmas, the start-up used several technological tricks to significantly reduce the cost of building its system. Its engineers needed only about $6 million in raw computing power, roughly one-tenth of what Meta spent in building its latest A.I. technology.
What exactly did DeepSeek do? Here is a guide.
How are A.I. technologies built?
The leading A.I. technologies are based on what scientists call neural networks, mathematical systems that learn their skills by analyzing enormous amounts of data.
The most powerful systems spend months analyzing just about all the English text on the internet as well as many images, sounds and other multimedia. That requires enormous amounts of computing power.
About 15 years ago, A.I. researchers realized that specialized computer chips called graphics processing units, or GPUs, were an effective way of doing this kind of data analysis. Companies like the Silicon Valley chipmaker Nvidia originally designed these chips to render graphics for computer video games. But GPUs also had a knack for running the math that powered neural networks.
As companies packed more GPUs into their computer data centers, their A.I. systems could analyze more data.
But the best GPUs cost around $40,000, and they need huge amounts of electricity. Sending the data between chips can use more electrical power than running the chips themselves.
How was DeepSeek able to reduce costs?
It did many things. Most notably, it embraced a method called “mixture of experts.”
Companies usually created a single neural network that learned all the patterns in all the data on the internet. This was expensive, because it required enormous amounts of data to travel between GPU chips.
If one chip was learning how to write a poem and another was learning how to write a computer program, they still needed to talk to each other, just in case there was some overlap between poetry and programming.
With the mixture of experts method, researchers tried to solve this problem by splitting the system into many neural networks: one for poetry, one for computer programming, one for biology, one for physics and so on. There might be 100 of these smaller “expert” systems. Each expert could concentrate on its particular field.
Many companies have struggled with this method, but DeepSeek was able to do it well. Its trick was to pair those smaller “expert” systems with a “generalist” system.
The experts still needed to trade some information with one another, and the generalist — which had a decent but not detailed understanding of each subject — could help coordinate interactions between the experts.
It is a bit like an editor’s overseeing a newsroom filled with specialist reporters.
And that is more efficient?
Much more. But that is not the only thing DeepSeek did. It also mastered a simple trick involving decimals that anyone who remembers his or her elementary school math class can understand.
There is math involved in this?
Remember your math teacher explaining the concept of pi. Pi, also denoted as π, is a number that never ends: 3.14159265358979 …
You can use π to do useful calculations, like determining the circumference of a circle. When you do those calculations, you shorten π to just a few decimals: 3.14. If you use this simpler number, you get a pretty good estimation of a circle’s circumference.
DeepSeek did something similar — but on a much larger scale — in training its A.I. technology.
The math that allows a neural network to identify patterns in text is really just multiplication — lots and lots and lots of multiplication. We’re talking months of multiplication across thousands of computer chips.
Typically, chips multiply numbers that fit into 16 bits of memory. But DeepSeek squeezed each number into only 8 bits of memory — half the space. In essence, it lopped several decimals from each number.
This meant that each calculation was less accurate. But that didn’t matter. The calculations were accurate enough to produce a really powerful neural network.
That’s it?
Well, they added another trick.
After squeezing each number into 8 bits of memory, DeepSeek took a different route when multiplying those numbers together. When determining the answer to each multiplication problem — making a key calculation that would help decide how the neural network would operate — it stretched the answer across 32 bits of memory. In other words, it kept many more decimals. It made the answer more precise.
So any high school student could have done this?
Well, no. The DeepSeek engineers showed in their paper that they were also very good at writing the very complicated computer code that tells GPUs what to do. They knew how to squeeze even more efficiency out of these chips.
Few people have that kind of skill. But serious A.I. labs have the talented engineers needed to match what DeepSeek has done.
Then why didn’t they do this already?
Some A.I. labs may be using at least some of the same tricks already. Companies like OpenAI do not always reveal what they are doing behind closed doors.
But others were clearly surprised by DeepSeek’s work. Doing what the start-up did is not easy. The experimentation needed to find a breakthrough like this involves millions of dollars — if not billions — in electrical power.
In other words, it requires enormous amounts of risk.
“You have to put a lot of money on the line to try new things — and often, they fail,” said Tim Dettmers, a researcher at the Allen Institute for Artificial Intelligence in Seattle who specializes in building efficient A.I. systems and previously worked as an A.I. researcher at Meta.
“That is why we don’t see much innovation: People are afraid to lose many millions just to try something that doesn’t work,” he added.
Many pundits pointed out that DeepSeek’s $6 million covered only what the start-up spent when training the final version of the system. In their paper, the DeepSeek engineers said they had spent additional funds on research and experimentation before the final training run. But the same is true of any cutting-edge A.I. project.
DeepSeek experimented, and it paid off. Now, because the Chinese start-up has shared its methods with other A.I. researchers, its technological tricks are poised to significantly reduce the cost of building A.I.
Cade Metz writes about artificial intelligence, driverless cars, robotics, virtual reality and other emerging areas of technology. More about Cade Metz