• Meta AI giới thiệu MovieGen - bộ mô hình nền tảng truyền thông tiên tiến mới, hứa hẹn cách mạng hóa việc tạo và tương tác với nội dung truyền thông
• MovieGen có khả năng tạo video 16 giây ở độ phân giải 1080p và 16 khung hình/giây, kèm âm thanh đồng bộ, nhờ mô hình 30 tỷ tham số sử dụng kỹ thuật khuếch tán tiềm ẩn tiên tiến
• Mô hình 13 tỷ tham số chuyên biệt cho tổng hợp âm thanh từ video/văn bản, tạo âm thanh điện ảnh 48kHz đồng bộ với hình ảnh, có thể xử lý đa dạng độ dài phương tiện lên đến 30 giây
• Khả năng xử lý linh hoạt các ngữ cảnh âm thanh khác nhau như tạo mới, mở rộng và điền vào khoảng trống nhờ huấn luyện dự đoán âm thanh có mặt nạ
• Sử dụng mục tiêu Flow Matching kết hợp kiến trúc Diffusion Transformer (DiT) để huấn luyện và suy luận hiệu quả, giúp tăng tốc quá trình và giảm yêu cầu tính toán
• Kỹ thuật khuếch tán tiềm ẩn với DAC-VAE mã hóa âm thanh 48kHz ở tốc độ 25Hz, cho chất lượng cao hơn ở tốc độ khung hình thấp hơn so với phương pháp truyền thống
• Mô hình DAC-VAE được cải tiến với biến đổi Fourier thời gian ngắn đa tỷ lệ, hàm kích hoạt Snake và loại bỏ lượng tử hóa vector dư thừa để nâng cao chất lượng tái tạo âm thanh
• MovieGen cho phép tạo video từ văn bản, cá nhân hóa video bằng hình ảnh do người dùng cung cấp và chỉnh sửa video với các yếu tố âm thanh-hình ảnh mới
• Công nghệ này có ý nghĩa quan trọng đối với các ngành như giải trí, quảng cáo, giáo dục - nơi nội dung năng động và cá nhân hóa ngày càng được yêu cầu cao
• MovieGen đại diện cho bước tiến lớn trong lĩnh vực tạo nội dung truyền thông, thiết lập tiêu chuẩn mới cho khả năng tạo nội dung tự động và mở ra cơ hội chưa từng có cho sáng tạo
📌 Meta AI giới thiệu MovieGen - bộ mô hình AI tạo video 1080p 16 giây với âm thanh 48kHz đồng bộ. Sử dụng mô hình 30 tỷ tham số, MovieGen cho phép tạo, cá nhân hóa và chỉnh sửa video từ văn bản/hình ảnh, mở ra tiềm năng lớn cho ngành giải trí và quảng cáo.
https://www.marktechpost.com/2024/10/05/meta-ai-unveils-moviegen-a-series-of-new-advanced-media-foundation-ai-models/