• Cade Metz, phóng viên công nghệ của The New York Times, chia sẻ những phát hiện về cách các công ty công nghệ hàng đầu của Mỹ đã bỏ qua các quy tắc ngay từ đầu trong nỗ lực phát triển các hệ thống AI tiên tiến.
• Các công ty công nghệ đã sử dụng nhiều phương pháp tắt để thu thập dữ liệu huấn luyện AI, bất chấp các quy định hiện hành.
• Họ cũng tận dụng chính AI để huấn luyện các mô hình AI mới, tạo ra một vòng lặp phản hồi.
• Tập podcast đi sâu vào cuộc điều tra của Cade Metz, cung cấp góc nhìn sâu sắc về cách các gã khổng lồ công nghệ đang chạy đua phát triển AI mà không cần tuân thủ các quy tắc.
• Bài viết cung cấp thông tin cơ bản về chủ đề và giới thiệu các bài báo liên quan để độc giả tìm hiểu thêm.
• Phiên bản ghi âm của podcast có sẵn trên Apple Podcasts, Spotify và Amazon Music. Bản ghi tập podcast sẽ được đăng tải vào ngày hôm sau.
Tóm tắt bản ghi âm:
- Cuộc điều tra của New York Times phát hiện các công ty công nghệ lớn như OpenAI, Google, Meta đã sẵn sàng làm mọi thứ để lấy dữ liệu huấn luyện AI, kể cả vi phạm các quy tắc nội bộ và pháp lý.
- OpenAI đã hết dữ liệu văn bản tiếng Anh "đàng hoàng" trên internet vào cuối 2021. Họ chuyển sang chép lậu hàng triệu giờ video YouTube, chuyển thành văn bản bằng công nghệ nhận dạng giọng nói để huấn luyện ChatGPT, bất chấp điều khoản của YouTube.
- Google biết OpenAI đang "cào" trái phép dữ liệu YouTube nhưng làm ngơ vì chính Google cũng dùng dữ liệu đó để huấn luyện AI. Tuy Google sở hữu YouTube nhưng việc sử dụng nội dung có bản quyền vẫn nằm trong vùng xám pháp lý.
- Các lãnh đạo và kỹ sư của Meta thảo luận về việc vi phạm luật bản quyền để lấy dữ liệu. Họ cân nhắc mua cả nhà xuất bản Simon & Schuster để lấy dữ liệu sách. Cuối cùng, họ quyết định bắt chước OpenAI, bất chấp nguy cơ bị kiện.
- Nhiều đơn kiện đang được đệ trình chống lại các công ty AI vì vi phạm bản quyền. Nếu thua kiện, họ có thể phải trả phí bản quyền đắt đỏ hoặc thậm chí xây dựng lại hoàn toàn mô hình từ đầu.
- Các công ty đang tính đến phương án dùng dữ liệu tổng hợp do chính AI tạo ra để huấn luyện AI. Tuy nhiên, phương pháp này vẫn chưa khả thi và có nguy cơ khiến AI tự củng cố sai lầm.
- Nếu không có đủ dữ liệu, các công nghệ AI hiện tại sẽ ngừng cải thiện và lộ rõ giới hạn. Các công ty sẽ buộc phải tìm giải pháp kỹ thuật khác.
📌 Cuộc điều tra của The New York Times cho thấy các công ty công nghệ hàng đầu đã sử dụng nhiều mánh khóe để thu thập dữ liệu huấn luyện AI, bao gồm cả việc dùng chính AI để rèn luyện AI mới, bất chấp các quy định. Điều này đặt ra câu hỏi về tính minh bạch và trách nhiệm giải trình trong cuộc đua phát triển AI ngày càng khốc liệt.
Citations:
[1] A.I.’s Original Sin https://www.nytimes.com/2024/04/16/podcasts/the-daily/ai-data.html