• Microsoft vừa công bố VoiceRAG - hệ thống tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài dựa trên giọng nói, sử dụng mô hình gpt-4o-realtime-preview mới của Azure OpenAI.
• VoiceRAG kết hợp đầu vào và đầu ra âm thanh với khả năng truy xuất dữ liệu mạnh mẽ, cho phép tương tác liền mạch với ứng dụng bằng lệnh thoại.
• Hệ thống sử dụng hai thành phần chính: gọi hàm và kiến trúc trung gian thời gian thực. Gọi hàm cho phép tìm kiếm và xác định thông tin từ cơ sở kiến thức.
• Kiến trúc trung gian thời gian thực tách biệt hoạt động phía máy khách và máy chủ, tăng cường bảo mật và đơn giản hóa quản lý cấu hình.
• VoiceRAG hỗ trợ truyền phát âm thanh song công toàn phần, cho phép xử lý đồng thời đầu vào và đầu ra âm thanh, tạo trải nghiệm hội thoại liền mạch.
• Hệ thống sử dụng lệnh gọi hàm "search" đặc biệt để truy vấn dịch vụ Azure AI Search với các truy vấn phức tạp, kết hợp tìm kiếm vector và lai.
• Công cụ "report_grounding" giúp đảm bảo tính minh bạch bằng cách ghi lại các đoạn từ cơ sở kiến thức được sử dụng để tạo ra mỗi phản hồi.
• VoiceRAG được xây dựng với tính bảo mật cao, quản lý an toàn tất cả các yếu tố cấu hình trên backend.
• Azure OpenAI và Azure AI Search cung cấp các tính năng bảo mật toàn diện như cách ly mạng và mã hóa nhiều lớp.
• Hệ thống mở ra nhiều khả năng cho các ứng dụng dựa trên giọng nói như tự động hóa dịch vụ khách hàng, quản lý kiến thức và môi trường học tập tương tác.
• Kiến trúc của VoiceRAG cho phép tùy chỉnh và mở rộng dễ dàng, đảm bảo khả năng phát triển phù hợp với tiến bộ trong AI và thay đổi kỳ vọng của người dùng.
📌 Microsoft đã tạo bước đột phá với VoiceRAG, kết hợp GPT-4 và Azure AI Search để tạo ra hệ thống tương tác bằng giọng nói tiên tiến. Công nghệ này mở ra tiềm năng to lớn cho các ứng dụng AI dựa trên giọng nói, hứa hẹn cách mạng hóa tương tác người-máy trong tương lai.
https://www.marktechpost.com/2024/10/03/microsoft-released-voicerag-an-advanced-voice-interface-using-gpt-4-and-azure-ai-search-for-real-time-conversational-applications/