- SoundStorm puede sintetizar diálogos con diferentes voces y abrir nuevas posibilidades, como crear contenido de audio a partir de texto y podcasts realistas.
- A diferencia de su predecesor, SoundStorm genera audio en fragmentos de 30 segundos, lo que aumenta la eficiencia.
- Él fue entrenado con un gran conjunto de datos de diálogos, lo que garantiza una sólida comprensión del lenguaje hablado.
- SoundStorm es dos veces más rápido que el modelo anterior, capaz de generar 30 segundos de audio en sólo 0,5 segundos.
- La herramienta aún no ha llegado al público en general, pero investigación presentados muestran cómo debería funcionar la IA.
- El audio generado por SoundStorm es de calidad equivalente al modelo anterior y preserva con precisión la voz del hablante.
- Es importante considerar posibles problemas éticos, como sesgos relacionados con los acentos y abusos en la imitación de voces.
- O Google destaca la importancia de implementar protecciones y estudia formas de detectar el uso ético de esta tecnología, como la marca de agua de audio.
- Escuche, en inglés, un ejemplo de audio generado por SoundStorm:
Vea también: