Chẳng cần GPT-4o khi EVI 2 đã ra mắt với giọng nói cảm xúc với độ trễ thấp hơn và giá rẻ hơn

• Hume vừa ra mắt phiên bản cập nhật Empathic Voice Interface 2 (EVI 2) - mô hình AI giọng nói và API mới với nhiều tính năng nâng cao.

• EVI 2 có độ trễ thấp hơn 40% và giá rẻ hơn 30% so với phiên bản trước, chỉ 0,072 USD/phút.

• Mô hình mới cải thiện tính tự nhiên, phản hồi cảm xúc và khả năng tùy chỉnh của giọng nói AI.

• EVI 2 chuyển đổi trực tiếp tín hiệu âm thanh thành token, không qua bước chuyển thành văn bản như phiên bản cũ.

Thời gian phản hồi trung bình chỉ từ 500-800 mili giây, giúp cuộc hội thoại trôi chảy và tự nhiên hơn.

Tích hợp cả giọng nói và ngôn ngữ vào một mô hình duy nhất, giúp hiểu rõ hơn ngữ cảnh cảm xúc của người dùng.

Cho phép điều chỉnh các tham số giọng nói như giới tính, âm vực để tạo giọng nói độc đáo mà không cần sao chép giọng.

• Hỗ trợ thay đổi phong cách nói trong cuộc hội thoại như nói nhanh hơn hoặc hào hứng hơn.

Hiện hỗ trợ tiếng Anh, dự kiến bổ sung tiếng Tây Ban Nha, Pháp và Đức vào cuối năm 2024.

Mô hình tự học được nhiều ngôn ngữ khác như Ba Lan mà không cần huấn luyện cụ thể.

Nhà phát triển có thể tích hợp EVI 2 vào ứng dụng thay vì chuyển người dùng sang trợ lý riêng biệt.

• Hume cũng cung cấp API Đo lường Biểu cảm và API Mô hình Tùy chỉnh cho các ứng dụng AI phản hồi cảm xúc.

• EVI 2 được thiết kế để làm việc liền mạch với các mô hình ngôn ngữ lớn khác và tích hợp với công cụ tìm kiếm web.

• Hume sẽ tiếp tục cải tiến EVI 2 trong những tháng tới, bao gồm mở rộng hỗ trợ ngôn ngữ và tinh chỉnh khả năng thực hiện hướng dẫn phức tạp.

📌 EVI 2 của Hume là bước tiến lớn trong trợ lý giọng nói AI với độ trễ giảm 40%, giá rẻ hơn 30%, hỗ trợ đa ngôn ngữ và tùy chỉnh giọng nói. API dễ tích hợp giúp nhà phát triển xây dựng ứng dụng AI thông minh cảm xúc hiệu quả hơn.

 

https://venturebeat.com/ai/who-needs-gpt-4o-voice-mode-humes-evi-2-is-here-with-emotionally-inflected-voice-ai-and-api/

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo