• Hume vừa ra mắt phiên bản cập nhật Empathic Voice Interface 2 (EVI 2) - mô hình AI giọng nói và API mới với nhiều tính năng nâng cao.
• EVI 2 có độ trễ thấp hơn 40% và giá rẻ hơn 30% so với phiên bản trước, chỉ 0,072 USD/phút.
• Mô hình mới cải thiện tính tự nhiên, phản hồi cảm xúc và khả năng tùy chỉnh của giọng nói AI.
• EVI 2 chuyển đổi trực tiếp tín hiệu âm thanh thành token, không qua bước chuyển thành văn bản như phiên bản cũ.
• Thời gian phản hồi trung bình chỉ từ 500-800 mili giây, giúp cuộc hội thoại trôi chảy và tự nhiên hơn.
• Tích hợp cả giọng nói và ngôn ngữ vào một mô hình duy nhất, giúp hiểu rõ hơn ngữ cảnh cảm xúc của người dùng.
• Cho phép điều chỉnh các tham số giọng nói như giới tính, âm vực để tạo giọng nói độc đáo mà không cần sao chép giọng.
• Hỗ trợ thay đổi phong cách nói trong cuộc hội thoại như nói nhanh hơn hoặc hào hứng hơn.
• Hiện hỗ trợ tiếng Anh, dự kiến bổ sung tiếng Tây Ban Nha, Pháp và Đức vào cuối năm 2024.
• Mô hình tự học được nhiều ngôn ngữ khác như Ba Lan mà không cần huấn luyện cụ thể.
• Nhà phát triển có thể tích hợp EVI 2 vào ứng dụng thay vì chuyển người dùng sang trợ lý riêng biệt.
• Hume cũng cung cấp API Đo lường Biểu cảm và API Mô hình Tùy chỉnh cho các ứng dụng AI phản hồi cảm xúc.
• EVI 2 được thiết kế để làm việc liền mạch với các mô hình ngôn ngữ lớn khác và tích hợp với công cụ tìm kiếm web.
• Hume sẽ tiếp tục cải tiến EVI 2 trong những tháng tới, bao gồm mở rộng hỗ trợ ngôn ngữ và tinh chỉnh khả năng thực hiện hướng dẫn phức tạp.
📌 EVI 2 của Hume là bước tiến lớn trong trợ lý giọng nói AI với độ trễ giảm 40%, giá rẻ hơn 30%, hỗ trợ đa ngôn ngữ và tùy chỉnh giọng nói. API dễ tích hợp giúp nhà phát triển xây dựng ứng dụng AI thông minh cảm xúc hiệu quả hơn.
https://venturebeat.com/ai/who-needs-gpt-4o-voice-mode-humes-evi-2-is-here-with-emotionally-inflected-voice-ai-and-api/