NASA và IBM giới thiệu INDUS - bộ mô hình ngôn ngữ lớn chuyên biệt cho nghiên cứu khoa học tiên tiến

• NASA và IBM đã hợp tác phát triển INDUS - một bộ mô hình ngôn ngữ lớn (LLM) chuyên biệt cho các lĩnh vực khoa học như khoa học Trái đất, thiên văn học, vật lý, vật lý thiên văn, vật lý Mặt Trời, khoa học hành tinh và sinh học.

• INDUS được thiết kế để khắc phục hạn chế của các mô hình ngôn ngữ lớn hiện tại, vốn hoạt động kém hiệu quả trong các lĩnh vực chuyên môn do sự khác biệt về từ vựng và ngữ cảnh.

• Bộ INDUS bao gồm nhiều loại mô hình khác nhau:
- Mô hình mã hóa được huấn luyện trên từ vựng và kho ngữ liệu chuyên ngành
- Mô hình nhúng văn bản tổng quát dựa trên học đối nghịch
- Các phiên bản mô hình nhỏ hơn sử dụng kỹ thuật chưng cất kiến thức

• Nhóm nghiên cứu đã tạo ra INDUSBPE - một tokenizer chuyên biệt sử dụng kỹ thuật mã hóa cặp byte (BPE) để xử lý tốt hơn ngôn ngữ chuyên ngành.

• Ba bộ dữ liệu chuẩn mới đã được công bố:
- CLIMATE-CHANGE NER: nhận dạng thực thể liên quan đến biến đổi khí hậu
- NASA-QA: trả lời câu hỏi trích xuất về các chủ đề liên quan đến NASA
- NASA-IR: truy xuất thông tin về nội dung liên quan đến NASA

Các mô hình INDUS đã được huấn luyện trước bằng tokenizer INDUSBPE và kho ngữ liệu khoa học được chọn lọc kỹ lưỡng. Sau đó, chúng được tinh chỉnh với mục tiêu học đối nghịch để tạo ra các mô hình nhúng câu.

• Kết quả thực nghiệm cho thấy các mô hình INDUS vượt trội hơn so với các mô hình chuyên ngành như SCIBERT và mô hình đa năng như RoBERTa trên cả các bộ dữ liệu chuẩn mới và hiện có.

• INDUS được đánh giá là một bước tiến lớn trong lĩnh vực Trí tuệ nhân tạo, cung cấp công cụ mạnh mẽ giúp nâng cao khả năng thực hiện các tác vụ Xử lý ngôn ngữ tự nhiên chính xác và hiệu quả cho các chuyên gia và nhà nghiên cứu trong nhiều lĩnh vực khoa học.

📌 NASA và IBM đã phát triển INDUS - bộ mô hình ngôn ngữ lớn chuyên biệt cho nghiên cứu khoa học tiên tiến, vượt trội hơn các mô hình hiện có. INDUS bao gồm nhiều loại mô hình khác nhau và đi kèm 3 bộ dữ liệu chuẩn mới, hứa hẹn nâng cao hiệu quả xử lý ngôn ngữ tự nhiên trong các lĩnh vực khoa học chuyên sâu.

https://www.marktechpost.com/2024/07/04/nasa-and-ibm-researchers-introduce-indus-a-suite-of-domain-specific-large-language-models-llms-for-advanced-scientific-research/

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo