- SoundStorm 可以合成不同声音的对话并开辟新的可能性,例如从文本和真实播客创建音频内容。
- 与其前身不同,SoundStorm 以 30 秒的块生成音频,从而提高了效率。
- 他是 训练有素 拥有大量对话数据集,确保对口语的深入理解。
- SoundStorm 的速度是之前型号的两倍,只需 30 秒即可生成 0,5 秒的音频。
- 该工具尚未普及到公众,但是 研究 展示了人工智能应该如何工作。
- SoundStorm 生成的音频与之前的模型具有相同的质量,并且准确地保留了说话者的声音。
- 重要的是要考虑可能的道德问题,例如与口音相关的偏见和模仿声音的滥用。
- O Google 强调了实施保护措施的重要性,并研究了检测该技术的道德使用的方法,例如音频水印。
- 听一下由 SoundStorm 生成的英语音频示例:
另请参阅: