- Công ty Wiz phát hiện cơ sở dữ liệu quan trọng của DeepSeek bị để lộ trên internet, chứa hơn 1 triệu bản ghi bao gồm nhật ký hệ thống, câu hỏi người dùng và mã xác thực API
- DeepSeek là công ty AI tạo sinh của Trung Quốc, đang tạo áp lực cạnh tranh lớn với các công ty AI của Mỹ
- Sau khi Wiz thông báo, DeepSeek đã khóa cơ sở dữ liệu trong vòng 30 phút, tuy nhiên không rõ liệu dữ liệu đã bị khai thác hay không
- Cơ sở dữ liệu bị lộ là loại ClickHouse nguồn mở, thường dùng cho phân tích máy chủ
- Dữ liệu bị lộ bao gồm:
- Lộ trình người dùng trong hệ thống DeepSeek
- Câu hỏi và tương tác của người dùng
- Khóa API xác thực
- Hầu hết nội dung bằng tiếng Trung
- Hạ tầng DeepSeek được thiết kế rất giống OpenAI, từ cấu trúc đến định dạng khóa API
- DeepSeek đang thu hút sự chú ý từ các cơ quan quản lý:
- Cơ quan bảo vệ dữ liệu Italy yêu cầu làm rõ về nguồn dữ liệu huấn luyện
- Hải quân Mỹ cảnh báo nhân viên không sử dụng DeepSeek vì lo ngại an ninh
- OpenAI điều tra cáo buộc DeepSeek sử dụng dữ liệu ChatGPT để huấn luyện mô hình
📌 Lỗ hổng bảo mật nghiêm trọng của DeepSeek để lộ hơn 1 triệu bản ghi dữ liệu người dùng, cho thấy những rủi ro bảo mật tiềm ẩn của các công ty AI mới nổi. Sự việc càng thu hút sự giám sát chặt chẽ hơn từ các cơ quan quản lý toàn cầu về quyền riêng tư và an ninh quốc gia.
https://www.wired.com/story/exposed-deepseek-database-revealed-chat-prompts-and-internal-data/
Cơ sở dữ liệu DeepSeek bị lộ đã tiết lộ các lời nhắc trò chuyện và dữ liệu nội bộ
DeepSeek có trụ sở tại Trung Quốc đã bùng nổ về mức độ phổ biến, thu hút sự giám sát ngày càng nhiều. Điển hình là các nhà nghiên cứu bảo mật đã phát hiện hơn 1 triệu bản ghi, bao gồm dữ liệu người dùng và khóa API, trong một cơ sở dữ liệu mở.
Nền tảng AI tạo sinh của Trung Quốc, DeepSeek, đã có một tuần tăng trưởng thần tốc, làm dấy lên sự cạnh tranh và tạo áp lực thị trường đối với các công ty AI tại Mỹ, kéo theo sự giám sát chặt chẽ hơn đối với dịch vụ này. Giữa làn sóng quan tâm, các nhà nghiên cứu từ công ty bảo mật đám mây Wiz đã công bố phát hiện vào thứ Tư rằng DeepSeek đã để lộ một trong những cơ sở dữ liệu quan trọng trên internet, làm rò rỉ nhật ký hệ thống, các lời nhắc do người dùng gửi và thậm chí cả mã thông báo xác thực API của người dùng—tổng cộng hơn 1 triệu bản ghi—cho bất kỳ ai tình cờ tìm thấy cơ sở dữ liệu này.
DeepSeek là một công ty tương đối mới và hầu như không thể liên lạc được với báo chí cũng như các tổ chức khác trong tuần này. Do đó, công ty chưa phản hồi ngay lập tức yêu cầu bình luận của WIRED về vụ lộ dữ liệu. Các nhà nghiên cứu của Wiz cho biết họ cũng không chắc chắn về cách tiết lộ phát hiện này cho công ty và chỉ đơn giản là gửi thông tin về phát hiện này vào thứ Tư đến mọi địa chỉ email và hồ sơ LinkedIn của DeepSeek mà họ có thể tìm thấy hoặc đoán được. Họ vẫn chưa nhận được phản hồi, nhưng trong vòng nửa giờ sau khi họ cố gắng liên hệ hàng loạt, cơ sở dữ liệu đã bị khóa và không còn khả dụng đối với những người dùng không được ủy quyền. Hiện chưa rõ liệu có bên độc hại hoặc bên được ủy quyền nào đã truy cập hoặc tải xuống bất kỳ dữ liệu nào hay không.
“Ai cũng có thể mắc sai lầm, nhưng đây là một sai lầm nghiêm trọng, vì mức độ nỗ lực rất thấp nhưng mức độ truy cập mà chúng tôi có được lại rất cao,” Ami Luttwak, CTO của Wiz, nói với WIRED. “Tôi cho rằng điều này có nghĩa là dịch vụ này chưa đủ trưởng thành để có thể sử dụng với bất kỳ dữ liệu nhạy cảm nào.”
Các cơ sở dữ liệu bị lộ có thể được truy cập công khai trên internet là một vấn đề tồn tại từ lâu mà các tổ chức và nhà cung cấp dịch vụ đám mây đã dần tìm cách giải quyết. Tuy nhiên, các nhà nghiên cứu của Wiz lưu ý rằng cơ sở dữ liệu DeepSeek mà họ phát hiện có thể được nhìn thấy gần như ngay lập tức mà không cần quét hoặc thăm dò nhiều.
“Thông thường, khi tìm thấy kiểu lộ dữ liệu như thế này, đó là một dịch vụ bị bỏ quên, và chúng tôi phải mất hàng giờ quét mới phát hiện ra,” Nir Ohfeld, trưởng bộ phận nghiên cứu lỗ hổng bảo mật tại Wiz, cho biết. Nhưng lần này, “nó ở ngay trước cửa.” Ohfeld bổ sung rằng “mức độ phức tạp kỹ thuật của lỗ hổng này gần như tối thiểu.”
Các nhà nghiên cứu cho biết kho dữ liệu họ tìm thấy có vẻ là một loại cơ sở dữ liệu mã nguồn mở thường được sử dụng để phân tích máy chủ, gọi là cơ sở dữ liệu ClickHouse. Và thông tin bị lộ cũng xác nhận điều này, vì có các tệp nhật ký chứa đường dẫn mà người dùng đã đi qua trong hệ thống DeepSeek, các lời nhắc mà họ đã nhập cũng như các tương tác khác với dịch vụ, và cả khóa API được sử dụng để xác thực. Các lời nhắc mà nhóm nghiên cứu nhìn thấy đều bằng tiếng Trung, nhưng họ lưu ý rằng cũng có khả năng cơ sở dữ liệu này chứa lời nhắc bằng các ngôn ngữ khác. Các nhà nghiên cứu khẳng định họ chỉ thực hiện đánh giá tối thiểu cần thiết để xác nhận phát hiện mà không làm tổn hại quyền riêng tư của người dùng, nhưng họ suy đoán rằng kẻ xấu có thể tận dụng quyền truy cập sâu vào cơ sở dữ liệu này để di chuyển ngang sang các hệ thống khác của DeepSeek và thực thi mã trong những phần khác của cơ sở hạ tầng công ty.
"Thật sốc khi xây dựng một mô hình AI nhưng lại để ngỏ cửa hậu hoàn toàn từ góc độ bảo mật," nhà nghiên cứu bảo mật độc lập Jeremiah Fowler cho biết. Fowler không tham gia vào nghiên cứu của Wiz nhưng chuyên phát hiện các cơ sở dữ liệu bị lộ. "Dữ liệu vận hành kiểu này và khả năng bất kỳ ai có kết nối internet đều có thể truy cập rồi thao túng nó là một rủi ro lớn đối với tổ chức và người dùng."
Các hệ thống của DeepSeek dường như được thiết kế rất giống với OpenAI, theo các nhà nghiên cứu của Wiz chia sẻ với WIRED vào thứ Tư. Họ cho rằng điều này có thể giúp khách hàng mới dễ dàng chuyển sang sử dụng DeepSeek mà không gặp khó khăn. Toàn bộ cơ sở hạ tầng của DeepSeek dường như mô phỏng OpenAI, đến mức ngay cả định dạng khóa API cũng tương tự.
Các nhà nghiên cứu của Wiz cho biết họ không rõ liệu có ai khác phát hiện cơ sở dữ liệu bị lộ trước họ hay không, nhưng điều đó hoàn toàn có thể xảy ra do mức độ dễ tìm thấy của nó. Fowler, nhà nghiên cứu độc lập, cũng lưu ý rằng cơ sở dữ liệu dễ bị tấn công này "chắc chắn" đã bị phát hiện nhanh chóng—nếu chưa bị phát hiện từ trước—bởi các nhà nghiên cứu khác hoặc thậm chí cả tin tặc.
"Tôi nghĩ đây là một hồi chuông cảnh tỉnh cho làn sóng sản phẩm và dịch vụ AI mà chúng ta sẽ thấy trong tương lai gần, và cách mà họ xử lý vấn đề an ninh mạng một cách nghiêm túc."
DeepSeek đã tạo ra ảnh hưởng toàn cầu trong tuần qua, với hàng triệu người đổ xô sử dụng dịch vụ, đẩy ứng dụng này lên vị trí đầu bảng trên kho ứng dụng của Apple và Google. Hệ quả của sự bùng nổ này đã khiến giá cổ phiếu của các công ty AI tại Mỹ giảm hàng tỷ USD và làm dấy lên lo ngại trong giới lãnh đạo doanh nghiệp trên toàn quốc. Vào thứ Tư, các nguồn tin từ OpenAI nói với Financial Times rằng họ đang điều tra cáo buộc DeepSeek sử dụng đầu ra của ChatGPT để huấn luyện mô hình của mình.
Cùng lúc đó, DeepSeek ngày càng thu hút sự chú ý của các nhà lập pháp và cơ quan quản lý trên toàn cầu, khi họ bắt đầu đặt câu hỏi về chính sách bảo mật của công ty, tác động của việc kiểm duyệt nội dung, và liệu quyền sở hữu của Trung Quốc có đặt ra mối lo ngại về an ninh quốc gia hay không.
Cơ quan bảo vệ dữ liệu của Ý đã gửi một loạt câu hỏi đến DeepSeek, yêu cầu cung cấp thông tin về nguồn dữ liệu huấn luyện, liệu thông tin cá nhân của người dùng có nằm trong đó hay không, và cơ sở pháp lý để công ty sử dụng những thông tin này. Theo báo cáo của WIRED Italy, ứng dụng DeepSeek dường như đã không thể tải xuống tại Ý sau khi các câu hỏi được gửi đi.
Các mối liên hệ của DeepSeek với Trung Quốc cũng đang làm dấy lên lo ngại về an ninh. Theo CNBC, vào cuối tuần trước, Hải quân Mỹ đã phát cảnh báo đến nhân sự, khuyến cáo không được sử dụng dịch vụ của DeepSeek "dưới bất kỳ hình thức nào." Email này yêu cầu nhân viên không tải xuống, cài đặt hoặc sử dụng mô hình DeepSeek, đồng thời cảnh báo về những "vấn đề tiềm ẩn liên quan đến bảo mật và đạo đức."
Tuy nhiên, bất chấp những tranh cãi, vụ lộ dữ liệu cho thấy gần như tất cả các công nghệ dựa trên cơ sở dữ liệu đám mây đều có thể bị tổn thương do những sai sót bảo mật đơn giản.
"AI là biên giới mới trong mọi lĩnh vực liên quan đến công nghệ và an ninh mạng," Ohfeld từ Wiz nhận định, "thế nhưng, chúng ta vẫn thấy những lỗ hổng cũ như cơ sở dữ liệu bị để mở trên internet."
Exposed DeepSeek Database Revealed Chat Prompts and Internal Data
China-based DeepSeek has exploded in popularity, drawing greater scrutiny. Case in point: Security researchers found more than 1 million records, including user data and API keys, in an open database.
The Chinese generative artificial intelligence platform DeepSeek has had a meteoric rise this week, stoking rivalries and generating market pressure for United States–based AI companies, which in turn has invited scrutiny of the service. Amid the hype, researchers from the cloud security firm Wiz published findings on Wednesday that show that DeepSeek left one of its critical databases exposed on the internet, leaking system logs, user prompt submissions, and even users’ API authentication tokens—totaling more than 1 million records—to anyone who came across the database.
DeepSeek is a relatively new company and has been virtually unreachable to press and other organizations this week. In turn, the company did not immediately respond to WIRED’s request for comment about the exposure. The Wiz researchers say that they themselves were unsure about how to disclose their findings to the company and simply sent information about the discovery on Wednesday to every DeepSeek email address and LinkedIn profile they could find or guess. The researchers have yet to receive a reply, but within a half hour of their mass contact attempt, the database they found was locked down and became inaccessible to unauthorized users. It is unclear whether any malicious actors or authorized parties accessed or downloaded any of the data.
“The fact that mistakes happen is correct, but this is a dramatic mistake, because the effort level is very low and the access level that we got is very high,” Ami Luttwak, the CTO of Wiz tells WIRED. “I would say that it means that the service is not mature to be used with any sensitive data at all.”
Exposed databases that are accessible to anyone on the open internet are a long-standing problem that institutions and cloud providers have slowly worked to address. But the Wiz researchers note that the DeepSeek database they found was visible almost immediately with minimal scanning or probing.
“Usually when we find this kind of exposure, it’s in some neglected service that takes us hours to find—hours of scanning,” says Nir Ohfeld, the head of vulnerability research at Wiz. But this time, “here it was at the front door.” Ohfeld adds that the “technical difficulty of this vulnerability is the bare minimum.”
The researchers say that the trove they found appears to have been a type of open source database typically used for server analytics called a ClickHouse database. And the exposed information supported this, given that there were log files that contained the routes or paths users had taken through DeepSeek’s systems, the users’ prompts and other interactions with the service, and the API keys they had used to authenticate. The prompts the researchers saw were all in Chinese, but they note that it is possible the database also contained prompts in other languages. The researchers say they did the absolute minimum assessment needed to confirm their findings without unnecessarily compromising user privacy, but they speculate that it may even have been possible for a malicious actor to use such deep access to the database to move laterally into other DeepSeek systems and execute code in other parts of the company’s infrastructure.
“It's pretty shocking to build an AI model and leave the backdoor wide open from a security perspective,” says independent security researcher Jeremiah Fowler, who was not involved in the Wiz research but specializes in discovering exposed databases. “This type of operational data and the ability for anyone with an internet connection to access it and then manipulate it is a major risk to the organization and users.”
DeepSeek’s systems are seemingly designed to be very similar to OpenAI’s, the researchers told WIRED on Wednesday, perhaps to make it easier for new customers to transition to using DeepSeek without difficulty. The entire DeepSeek infrastructure appears to mimic OpenAI’s, they say, down to details like the format of the API keys.
The Wiz researchers say they don’t know if anyone else found the exposed database before they did, but it wouldn’t be surprising, given how simple it was to discover. Fowler, the independent researcher, also notes that the vulnerable database would have “definitely” been found quickly—if it wasn’t already—whether by other researchers or bad actors.
“I think this is a wake-up call for the wave of AI products and services we will see in the near future and how seriously they take cybersecurity,” he says.
DeepSeek has made a global impact over the past week, with millions of people flocking to the service and pushing it to the top of Apple’s and Google’s app stores. The resulting shock waves have wiped billions from the stock prices of US-based AI companies and spooked executives at firms across the country. On Wednesday, sources at OpenAI told the Financial Times that it was looking into DeepSeek’s alleged use of ChatGPT outputs to train its models.
At the same time, DeepSeek has increasingly drawn the attention of lawmakers and regulators around the world, who have started to ask questions about the company’s privacy policies, the impact of its censorship, and whether its Chinese ownership provides national security concerns.
Italy’s data protection regulator sent DeepSeek a series of questions asking about where it obtained its training data, if people’s personal information was included in this, and the firm’s legal grounding for using this information. As WIRED Italy reported, the DeepSeek app appeared to be unavailable to download within the country following the questions being sent.
DeepSeek’s Chinese connections also appear to be raising security concerns. At the end of last week, according to CNBC reporting, the US Navy issued an alert to its personnel warning them not to use DeepSeek’s services “in any capacity.” The email said Navy members of staff should not download, install, or use the model, and raised concerns of “potential security and ethical” issues.
However, despite the hype, the exposed data shows that almost all technologies relying on cloud-hosted databases can be vulnerable through simple security lapses. “AI is the new frontier in everything related to technology and cybersecurity,” Wiz’s Ohfeld says, “and still we see the same old vulnerabilities like databases left open on the internet.”