Nvidia ha presentado un nuevo modelo de Inteligencia Artificial llamado Fugatto que es capaz de crear o transformar cualquier mezcla de voces (acentos), música y sonidos de forma totalmente personalizada y flexible a partir de descripciones y empleando cualquier combinación de archivos de texto y audio.
Fugatto es la abreviatura de Foundational Generative Audio Transformer Opus 1 y se ha presentado como “una navaja suiza para el sonido” que ofrece características que no se han dado hasta ahora en otros modelos de IA, según ha explicado en una nota de prensa.
A pesar de que otras tecnologías generativas pueden componer una canción o modificar una voz “ninguno tiene la destreza de la nueva oferta”, debido a que Fugatto es capaz de generar o transformar elementos como voces, sonidos o música descritos con indicaciones de texto.
Por ejemplo, con esta IA es posible crear un fragmento de música basado en un determinado texto, eliminar o añadir instrumentos de una cancón existente, cambiar el acento o la emoción de una voz e, incluso “permitir que los usuarios produzcan sonidos nunca antes escuchados”.
El gerente de investigación de audio aplicado en Nvidia, Rafael Valle, ha matizado que esta herramienta es la primera que muestra propiedades emergentes, esto es, capacidades que surgen de la interacción de sus habilidades entrenadas, así como la capacidad de combinar instrucciones de formato libre.
Este modelo utiliza una técnica denominada ComposableART para combinar instrucciones que se le hayan proporcionado por separado durante el entrenamiento, de manera que una combinación de ellas podría solicitar un texto hablado con acento francés y tono de tristeza. Esto significa que el usuario puede detallar lo cerrado o abierto que sea el acento o el grado de la emoción de lo que narre.
Para ofrecer esa flexibilidad en su uso, también genera sonidos que cambian con el tiempo, lo que Nvidia ha denominado ‘interpolación temporal’. De esta manera, se pueden crear los sonidos de una tormenta que se desplaza por una zona concreta con ‘crescendos’ de truenos que se desvanecen en la distancia.
La compañía también ha indicado que, a diferencia de la mayoría de los modelos, “que solo pueden recrear los datos de entrenamiento a los que han sido expuestos”, Fugatto puede crear paisajes sonoros que transformen el contexto de una tormenta eléctrica que se transforme en el amanecer con el sonido de pájaros cantando.
Fugatto se podrá emplear, por ejemplo, en campañas de marketing, para orientarlas a múltiples regiones o contextos, aplicando diferentes acentos y emociones a las voces en ‘off’ que narren los anuncios. Asimismo, los desarrolladores de videojuegos podrán usarlo para modificar los recursos pregrabados de sus títulos y que se puedan adaptar a la acción de éste a medida que transcurren las partidas, entre otros casos de uso.