Google SoundStorm: trí tuệ nhân tạo để tạo âm thanh hiệu quả

SoundStorm có thể tổng hợp các đoạn hội thoại với nhiều giọng nói khác nhau và mở ra những khả năng mới, chẳng hạn như tạo nội dung âm thanh từ văn bản và podcast thực tế.
Không giống như người tiền nhiệm, SoundStorm tạo âm thanh theo từng đoạn 30 giây, giúp tăng hiệu quả.
Anh ấy đã đào tạo với một tập dữ liệu lớn về các cuộc đối thoại, đảm bảo sự hiểu biết sâu sắc về ngôn ngữ nói.
SoundStorm nhanh gấp đôi so với model trước, có khả năng tạo ra âm thanh 30 giây chỉ trong 0,5 giây.
Công cụ này vẫn chưa đến được với công chúng, nhưng nghiên cứu trình bày cho thấy AI sẽ hoạt động như thế nào.
Âm thanh do SoundStorm tạo ra có chất lượng tương đương với mẫu trước đó và giữ nguyên chính xác giọng nói của người nói.
Điều quan trọng là phải xem xét các vấn đề đạo đức có thể xảy ra, chẳng hạn như những thành kiến liên quan đến giọng nói và lạm dụng việc bắt chước giọng nói.
O Google nhấn mạnh tầm quan trọng của việc thực hiện các biện pháp bảo vệ và nghiên cứu các cách để phát hiện việc sử dụng công nghệ này một cách có đạo đức, chẳng hạn như hình mờ âm thanh.
Nghe bằng tiếng Anh một ví dụ về âm thanh được tạo bởi SoundStorm: