Soket AI Labs ra mắt Pragna-1B, mô hình đa ngữ Ấn Độ đầu tiên mở, nhỏ

- Soket AI Labs giới thiệu Pragna-1B, mô hình đa ngữ mã nguồn mở đầu tiên của Ấn Độ, hỗ trợ tiếng Hindi, Gujarati, Bangla và tiếng Anh.
- Pragna-1B là bước tiến quan trọng hướng tới công nghệ AI hòa nhập, vượt qua rào cản ngôn ngữ và tăng cường tương tác người dùng trên các bối cảnh ngôn ngữ đa dạng.
- Mô hình sử dụng kiến trúc Transformer Decoder với 1,25 tỷ tham số và độ dài ngữ cảnh 2048 token.
- Quá trình huấn luyện Pragna-1B tập trung vào tiếng Hindi, Bangla và Gujarati, xử lý khoảng 150 tỷ token.
- Mô hình được thiết kế để triển khai hiệu quả trên thiết bị, mang lại hiệu suất tốt nhất cho các ngôn ngữ bản địa trong kích thước nhỏ gọn.
- Mặc dù có số lượng tham số khiêm tốn, hiệu suất của Pragna-1B tương đương với các mô hình 7 tỷ tham số lớn hơn.
- Pragna-1B được huấn luyện kỹ lưỡng trên các bộ dữ liệu được biên soạn riêng cho bối cảnh Ấn Độ, đảm bảo đầu ra chính xác và phù hợp về mặt văn hóa.
- Mô hình sử dụng bộ mã hóa Byte-Pair (BPE) tokenizer, được huấn luyện đặc biệt để xử lý các ngôn ngữ Ấn Độ, đạt kích thước từ vựng 69.632.
- Soket AI Labs tạo ra "Bhasha", một loạt bộ dữ liệu chất lượng cao được thiết kế riêng để huấn luyện các mô hình ngôn ngữ Ấn Độ.
- Bhasha-wiki bao gồm 44,1 triệu bài viết được dịch từ Wikipedia tiếng Anh sang 6 ngôn ngữ Ấn Độ.
- Bhasha-wiki-indic là tập con tinh chỉnh của Bhasha-wiki, tập trung vào nội dung liên quan đến Ấn Độ.
- Bhasha-SFT tạo điều kiện phát triển ngôn ngữ.

📌 Pragna-1B của Soket AI Labs là mô hình ngôn ngữ đa ngữ mã nguồn mở đầu tiên của Ấn Độ, hỗ trợ tiếng Hindi, Gujarati, Bangla và Anh với 1,25 tỷ tham số. Mô hình mang lại hiệu suất tốt nhất cho các ngôn ngữ bản địa, được huấn luyện trên bộ dữ liệu Bhasha 44,1 triệu bài viết, đánh dấu bước tiến quan trọng hướng tới AI hòa nhập.

Citations:
[1] https://analyticsindiamag.com/soket-ai-labs-unveils-pragna-1b-multilingual-indic-language-model/

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo