Google SoundStorm: inteligencia artificial para una generación de audio eficiente

SoundStorm puede sintetizar diálogos con diferentes voces y abrir nuevas posibilidades, como crear contenido de audio a partir de texto y podcasts realistas.
A diferencia de su predecesor, SoundStorm genera audio en fragmentos de 30 segundos, lo que aumenta la eficiencia.
Él fue entrenado con un gran conjunto de datos de diálogos, lo que garantiza una sólida comprensión del lenguaje hablado.
SoundStorm es dos veces más rápido que el modelo anterior, capaz de generar 30 segundos de audio en sólo 0,5 segundos.
La herramienta aún no ha llegado al público en general, pero investigación presentados muestran cómo debería funcionar la IA.
El audio generado por SoundStorm es de calidad equivalente al modelo anterior y preserva con precisión la voz del hablante.
Es importante considerar posibles problemas éticos, como sesgos relacionados con los acentos y abusos en la imitación de voces.
O Google destaca la importancia de implementar protecciones y estudia formas de detectar el uso ético de esta tecnología, como la marca de agua de audio.
Escuche, en inglés, un ejemplo de audio generado por SoundStorm: