- DeepSeek, công ty khởi nghiệp tại Hàng Châu, phát hành mô hình nguồn mở mới về tạo hình ảnh vào ngày thứ Hai trước Tết Nguyên đán
- Alibaba và các công ty khởi nghiệp như Moonshot và Zhipu cũng liên tiếp ra mắt các mô hình mới
- DeepSeek gây chú ý toàn cầu khi cho thấy hiệu suất tương đương với đối thủ Mỹ như OpenAI và Meta, dù có ít tài nguyên tính toán hơn và bị hạn chế tiếp cận chip Nvidia
- Mô hình R1 của DeepSeek có khả năng tự học và cải thiện mà không cần giám sát của con người
- Cổ phiếu liên quan đến AI giảm mạnh, Nvidia mất gần 600 tỷ USD giá trị thị trường vào ngày thứ Hai
- Alibaba phát hành Qwen2.5-1M có khả năng xử lý đầu vào dài hơn, phù hợp cho ứng dụng Agent AI
- Zhipu, được định giá 3 tỷ USD, cập nhật GLM-PC nhắm vào khách hàng doanh nghiệp
- Moonshot cập nhật mô hình Kimi k1.5 với khả năng xử lý văn bản và hình ảnh, đồng thời xử lý các truy vấn dài và phức tạp
- Các công ty thường phát hành sản phẩm trước kỳ nghỉ dài để khách hàng có thời gian thử nghiệm
- Sau Tết, cuộc đua tập trung vào phát triển ứng dụng AI cho mục đích thương mại
📌 Các công ty AI Trung Quốc đang thể hiện khả năng cạnh tranh mạnh mẽ với Mỹ, đặc biệt là DeepSeek với mô hình nguồn mở mới. Dù bị hạn chế chip, họ vẫn đạt được tiến bộ đáng kể, với Zhipu đạt giá trị 3 tỷ USD và Nvidia mất 600 tỷ USD vốn hóa do lo ngại về sự đột phá này.
https://www.ft.com/content/036cb510-5cf2-4dd8-9aec-1341396dfc2a
#FT
Ngành AI đầy tham vọng của Trung Quốc tung ra hàng loạt bản cập nhật mô hình
Thành công của DeepSeek truyền cảm hứng khi các sản phẩm mới nhất được ra mắt trước kỳ nghỉ Tết Nguyên đán
Các công ty AI khởi nghiệp của Trung Quốc kỳ vọng những tiến bộ của DeepSeek sẽ thúc đẩy đầu tư vào ngành này © AP
Eleanor Olcott tại Bắc Kinh – 11 phút trước
Các nhóm trí tuệ nhân tạo Trung Quốc đang gấp rút tung ra các bản cập nhật mô hình trước kỳ nghỉ Tết Nguyên đán, khi thế giới bắt đầu nhận ra những tiến bộ lớn trong ngành này do DeepSeek dẫn đầu bất chấp các hạn chế về chip từ Mỹ.
Vào thứ Hai, ngay trước ngày nghỉ lễ quan trọng nhất của Trung Quốc, công ty có trụ sở tại Hàng Châu đã phát hành một mô hình mã nguồn mở mới để tạo hình ảnh, củng cố danh tiếng là kẻ phá vỡ cuộc chơi chính trong lĩnh vực trước đây do các tập đoàn Mỹ thống trị. Điều này diễn ra ngay sau các lần ra mắt mô hình từ gã khổng lồ công nghệ Alibaba và các công ty khởi nghiệp Moonshot và Zhipu.
“Mọi chuyện giống như tung ra một bản phát hành lớn vào đêm Giáng sinh vậy. Chúng tôi đã làm việc ngoài giờ để kịp ra mắt sản phẩm trước kỳ nghỉ,” một quản lý sản phẩm tại một công ty phát triển mô hình ngôn ngữ lớn cho biết.
Mặc dù thành tựu của DeepSeek đã khiến Mỹ lo ngại về những tiến bộ mà các phòng thí nghiệm Trung Quốc đạt được với ngân sách hạn chế, nhưng các chuyên gia trong ngành cho rằng điều này đang tạo ra một “niềm tin” mới ở Trung Quốc, thúc đẩy đầu tư vào lĩnh vực này.
“DeepSeek đang tiến bộ nhanh hơn so với các công ty mô hình khác của Trung Quốc. Nhưng điều này cũng giúp các công ty khác tin rằng họ có thể bắt kịp,” một nhà đầu tư AI tại Trung Quốc nhận định.
DeepSeek đã thu hút sự chú ý toàn cầu với một loạt các bản phát hành mô hình có hiệu năng tương đương với các đối thủ Mỹ như OpenAI và Meta, dù công ty tuyên bố chỉ có một phần nhỏ tài nguyên tính toán và bị cấm mua các bộ xử lý Nvidia mới nhất do lệnh hạn chế xuất khẩu của Mỹ. Tuần trước, công ty này đã ra mắt mô hình lập luận R1 – một mô hình tiên tiến có thể cạnh tranh với o1 của OpenAI và có khả năng tự động học hỏi, cải thiện mà không cần sự giám sát của con người.
“DeepSeek đã tiếp thêm rất nhiều năng lượng cho các công ty AI Trung Quốc và rộng hơn là cho cộng đồng AI mã nguồn mở toàn cầu. Cộng đồng này sẽ sử dụng các phát hiện từ bài báo nghiên cứu về R1 để tiến bộ hơn trong các mô hình lập luận,” Wang Tiezhen, một kỹ sư tại trung tâm nghiên cứu AI Hugging Face, nhận xét.
Tuần này, nhà đầu tư ồ ạt bán tháo cổ phiếu liên quan đến AI, khiến Nvidia mất gần 600 tỷ USD giá trị vốn hóa vào thứ Hai. Họ phản ứng trước các đột phá của Trung Quốc, cho thấy hoàn toàn có thể xây dựng các mô hình mạnh mẽ bằng cách đi theo một chiến lược khác với Mỹ – thay vì tập trung vào mở rộng cụm tính toán ngày càng lớn, Trung Quốc đang tìm kiếm con đường khác để dẫn đầu trong cuộc đua AI.
Cũng vào thứ Hai, Alibaba’s Qwen đã ra mắt Qwen2.5-1M, một loạt mô hình mới có khả năng xử lý đầu vào dài hơn. Theo Wang, đây là một bước phát triển quan trọng giúp mô hình có thể được triển khai cho các ứng dụng AI đòi hỏi bộ nhớ cao hơn.
Cùng ngày, DeepSeek giới thiệu Janus-Pro, một mô hình tạo ảnh từ văn bản mà công ty tuyên bố có thể vượt qua các mô hình tiên tiến nhất hiện nay, bao gồm DALL-E 3 của OpenAI và Stable Diffusion 3 của Stability AI, trên một số tiêu chí đánh giá.
Zhipu, được định giá 3 tỷ USD trong vòng gọi vốn gần nhất vào tháng 12, tuần trước cũng cập nhật GLM-PC – một mô hình AI hỗ trợ doanh nghiệp, giúp máy tính tự động hoàn thành các nhiệm vụ như điền biểu mẫu hoặc phân tích báo cáo tài chính.
Trong khi Zhipu không thu hút nhiều sự chú ý trong lĩnh vực phát triển mô hình ngôn ngữ lớn (LLM), công ty này đang dẫn đầu trong việc thương mại hóa công nghệ trong số các công ty khởi nghiệp AI tại Trung Quốc. Zhipu nhận được sự hỗ trợ từ chính quyền địa phương và các doanh nghiệp nhà nước, những đơn vị đã hợp tác với công ty có trụ sở tại Bắc Kinh để triển khai các mô hình của họ.
Tuần trước, một công ty khởi nghiệp khác tại Bắc Kinh là Moonshot – đơn vị sở hữu chatbot AI phổ biến Kimi – đã cập nhật mô hình lập luận của họ lên Kimi k1.5. Mô hình này cho thấy kết quả ấn tượng khi so sánh với các mô hình AI hiện có trong các nhiệm vụ lập luận phức tạp. Bản phát hành mới nhất có thể xử lý cả văn bản và hình ảnh, đồng thời giải quyết các truy vấn dài và phức tạp.
Việc các công ty công nghệ Trung Quốc tung ra sản phẩm trước kỳ nghỉ dài là điều phổ biến, với lợi ích đi kèm là khách hàng tiềm năng sẽ có nhiều thời gian rảnh rỗi để thử nghiệm và khám phá sản phẩm.
Ngay sau kỳ nghỉ Tết, cuộc đua giành vị trí dẫn đầu trong việc phát triển ứng dụng AI phục vụ thương mại sẽ bước vào giai đoạn mới. “Nếu AI agent có thể tạo ra giá trị thương mại đột phá, một hoặc hai công ty phát triển mô hình ngôn ngữ lớn có cơ hội trở thành thế hệ công ty phần mềm mới,” nhà đầu tư AI nhận định.
China’s emboldened AI industry releases flurry of model updates
Success of DeepSeek inspires confidence as latest products are pushed out ahead of lunar new year holiday
An office information board in Beijing displays company names in both English and Chinese, including "DeepSeek AI"
Chinese AI start-ups expect DeepSeek’s advances to spur further investment in the sector © AP
Eleanor Olcott in Beijing 11 minutes ago
Chinese artificial intelligence groups have been rushing out model updates before the lunar new year holiday, as the world wakes up to the sector’s major advances led by start-up DeepSeek in the face of US chip restrictions.
On Monday, the eve of China’s most important annual holiday, the Hangzhou-based company released a new open-source model for image generation, cementing its reputation as the disrupter-in-chief in a field previously dominated by US giants. It came hot on the heels of model releases from tech giant Alibaba and start-ups Moonshot and Zhipu.
“This is the equivalent of dropping a massive release on Christmas Eve. We’ve all been working overtime to get stuff out before the holiday,” said one product manager at a large language model start-up.
While DeepSeek’s achievement has prompted panic in the US about the advances Chinese labs are making on bootstrapped budgets, industry insiders say it is feeding into a newfound “confidence” in China that will spur investment.
“DeepSeek has made faster progress than the other Chinese model companies. But this is giving them confidence that they can catch up,” said one AI investor in China.
DeepSeek has captured the world’s attention with a series of model releases that show similar performance to those of US rivals such as OpenAI and Meta, even though it claims to have a fraction of the computing resources and is blocked from acquiring the latest Nvidia processors by US export restrictions. Last week, it released its R1 reasoning model, an advanced model that rivals OpenAI’s o1 and can automatically learn and improve itself without human supervision.
“DeepSeek has injected a lot of energy into China’s AI players and, more broadly, into the global open-source AI community that will use its findings from its R1 paper to make progress on reasoning models,” said Wang Tiezhen, an engineer at AI research hub Hugging Face.
This week, investors dumped AI-related stocks, with Nvidia losing almost $600bn in market value on Monday. They were reacting to Chinese breakthroughs that show it is possible to build powerful models while pursuing a different strategy to the US one of building ever-larger computing clusters to get ahead in the AI race.
On Monday, Alibaba’s Qwen released Qwen2.5-1M, a series of new models that are capable of handling longer inputs, an important development that would mean the model could be deployed for AI agent applications with higher memory demands, according to Wang.
On the same day, DeepSeek released Janus-Pro, a text-to-image generation model that it claims can surpass state of the art ones from competitors such as OpenAI’s Dall-E 3 and Stability AI’s Stable Diffusion 3 on some benchmarks.
Zhipu, valued at its last funding round in December at $3bn, last week released an update to GLM-PC. The AI agent model is aimed at enterprise customers, enabling computers to automatically complete tasks such as filling out forms or digesting financial reports.
Recommended
Artificial intelligence
OpenAI’s Altman vows ‘better models’ as China’s DeepSeek disrupts global race
A montage of DeepSeek, Meta and OpenAI logos
While Zhipu has not courted much attention for its LLM development, it has a lead among local AI start-ups in commercialising its technology, with support from local governments and state-owned enterprises that have partnered with the Beijing-based company to deploy its models.
Last week, another Beijing-based start-up Moonshot, which owns the popular AI chatbot Kimi, updated its reasoning model to Kimi k1.5, demonstrating strong results compared with established AI models for complex reasoning tasks. The latest release can process texts and images while handling long and complex queries.
It is standard practice for Chinese tech companies to release products before the long holiday, with the added benefit that potential customers with lots of free time during the break can test and explore them.
Once Chinese AI players return from their break, the race is on to become the leading player developing AI applications for commercial use. “If AI agents can create dramatic commercial value, one or two of the LLM players have a chance to transform into a new generation of software companies,” the AI investor said.