Tecnología

Meta lanza la IA generativa AudioCraft, diseñada para generar audio y música a partir de texto

Published

9 meses ago

agosto 4, 2023

Meta ha creado una herramienta de Inteligencia Artificial (IA) generativa llamada AudioCraft, que está diseñada para generar audio y música a partir de entradas de texto y que se entrena con señales de audio sin procesar.

AudioCraft engloba tres modelos de lenguaje: EnCodec, AudioGen y MusicGen, siendo esta última la que presentó el pasado mes de junio como un modelo simple de lenguaje desarrollado bajo un enfoque de una sola etapa de patrones de tokens eficientes entrelazados.

En este caso, Meta ha recordado que MusicGen es un modelo entrenado con música propiedad de la compañía y con licencia específica, que genera música a partir de entradas de usuario basadas en texto.

AudioGen, por su parte, se entrenó con efectos de sonido de uso público y genera audio a partir de entradas de usuario basadas en texto. Finalmente, el decodificador EnCodec, permite “generar música de mayor calidad con menos artificios”. Todos estos modelos están disponibles para fines de investigación.

Meta ha reconocido que, si vien los modelos de lenguaje de IA generativa han generado expectación y demostrado “habilidades excepcionales”, no se ha mostrado el mismo interés por la IA generativa de audio.

Esto podría deberse a “que la música es el tipo de audio más difícil de generar porque se compone de patrones locales y de largo alcance, desde un conjunto de notas hasta una estructura musical global con múltiples instrumentos”, según ha comentado en el anuncio de AudioCraft.

Además de porque “la música es el tipo de audio más difícil de generar porque se compone de patrones locales y de largo alcance”, los enfoques con los que se ha abordado su creación a través de IA generativa han sido “incapaces de captar completamente los matices expresivos y los elementos estilísticos”.

En este sentido, la familia de modelos AudioCrafy es capaz de producir audio de alta calidad con consistencia a largo plazo y ofrece una interfaz “natural” con un diseño simplificado para mejorar la experiencia de usuario.

Esta herramienta de IA generativa de música y sonido de código abierto, que también ofrece la capacidad de compresión, permite que los usuarios trabajen sobre la misma base de código bien construir sobre lo que otros han hecho.

De ese modo, estos creadores pueden ampliar estos modelos y adaptarlos a sus casos de uso para la investigación, para lo que Meta ofrece “posibilidades casi ilimitadas”, según este documento.

CÓMO FUNCIONA

Meta ha reconocido que “generar audio a partir de señales sin procesar es un desafío”, debido a que requiere modelar secuencias “extremadamente largas”. Como respuesta a este desafío, la compañía emplea tokens de audio sin procesar utilizando EnCodec, que le brina un nuevo vocabulario para las muestras de música.

“Luego, podemos entrenar modelos de lenguaje autorregresivos sobre estos tokens de audio discretos para generar nuevos tokens y nuevos sonidos y música al convertirlos nuevamente al espacio de audio con el decodificador”, ha aclarado la compañía.

La compañía utiliza un solo modelo de lenguaje autorregresivo para modelar los tokens de audio y los entrelaza, modelando así “eficientemente las secuencias de audio, capturando simultáneamente las dependencias a largo plazo en el audio”, lo que le permite generar sonido de alta calidad.

AudioGen, por su parte, genera el sonido ambiental correspondiente a la descripción del texto, con aspecto realista, mientras que MusicGen se encarga de generar las pistas de música, que son más complejas que los sonidos ambientales que ofrece AudioGen.

Meta ha matizado finalmente que AudioCraft es una herramienta de código abierto que responde a su concepto de innovación responsable, que “no puede ocurrir de forma aislada” y debe garantizar que todos los investigadores tengan acceso a ella.

Relacionado

Tecnología

Snapchat+ estrenará “pronto” la capacidad de editar conversaciones

Published

9 horas ago

mayo 4, 2024

Gustavo Salas

Snapchat ha anunciado que los usuarios de la versión premium de la red social, Snapchat+, “pronto” podrán añadir ediciones de texto en sus conversaciones hasta 5 minutos después de haber enviado el mensaje que deseen modificar.

La plataforma está incorporando nuevas funcionalidades para aydar a los usuarios a “conectarse aún más rápido, expresarse de nuevas maneras y utilizar My AI para estar organizados”, según ha señalado en un comunicado.

También ha recordado que el año pasado anuncio nuevas funciones basadas en Inteligencia Artificial (IA), como la posibilidad de mejorar las publicaciones, generar pies de foto o crear y enviar imágenes impulsadas por esta tecnología.

Ahora, ha anunciado que estrena nuevas capacidades, como la de editar chats en caso de que se hayan cometido errores tipográficos, entre otros supuestos. Para ello, ofrece la oportunidad de editarlos hasta 5 minutos después de enviarlos y antes de que otros usuarios respondan.

Snapchat ha aclarado que se trata de una funcionalidad que llegará “pronto”, según este escrito, y que estará disponible primero para los suscriptores de la versión de pago de la plataforma, Snapchat+.

La plataforma también ha ampliado las opciones disponibles para reaccionar a las respuestas en un chat, que hasta ahora admitían tanto el emoticono de risa a carcajadas como el de fuego. De esta manera, se podrá responder con cualquier otro disponible en el apartado de Bitmojis.

Entre estas actualizaciones también se ha incorporado la capacidad de introducir recordatorios con My AI, de modo que “con un rápido mensaje” esta herramienta configurará una cuenta atras en la aplicación para, por ejemplo, recordarle al usuario de una fecha límite próxima.

Asimismo, la plataforma ha dicho que se han estrenado las reacciones en Snap Map, que permite a los usuarios compartir su ubicación con sus contactos de Snapchat y publicar comentarios sobre el mapa.

La última de las novedades señaladas en el comunicado tiene que ver con la capacidad de crear ‘looks’ Bitmoji personalizados con una breve descripción y la ayuda de la IA, con prendas de ropa con patrones únicos.

Relacionado

Tecnología

Google Fotos trabaja en la función ‘Mostrar menos’ para aplicarla a rostros concretos en el apartado Recuerdos

Published

9 horas ago

mayo 4, 2024

Gustavo Salas

Google Fotos trabaja en una novedad para el apartado Recuerdos, que contará con la característica ‘Mostrar menos’ para limitar la aparición de rostros concretos en las fotografías que recoge este espacio.

La aplicación es capaz de detectar imágenes de lugares, mascotas o caras y mostrarlas ordenadas en diferentes apartados, como el de Búsqueda de personas en este último caso. Esto facilita la búsqueda de fotografías en las que aparezca un determinado elemento.

Otro de los apartados que introduce Google Fotos es el de Recuerdos, en el que la compañía trabaja actualmente para ofrecer a los usuarios mayor control sobre lo que visualizan en la aplicación, según ha adelantado el colaborador de Android Authority Assemble Debug.

Esta nueva funcionalidad, advertida en la versión v6.81.0.628906483 de la aplicación de Google, se muestra con el botón ‘Mostrar menos’, lo que permite mantener imágenes de una determinada persona guardadas en el almacenamiento de la aplicación, pero con la particularidad de que esta dejará de mostrarla con frecuencia en Recuerdos.

Según ha señalado este medio, esta característica es algo más permisiva que la opción ‘Bloquear cara’, que “hace que las caras desaparezcan por completo de los Recuerdos y las fotos grupales”, tal y como se indica en la captura de pantalla compartida.

De esta manera, la sección ‘Personas y mascotas’ de Google Fotos contará con un botón que permita ‘Ocultar caras de los recuerdos’, con la opción comentada, de la que Google dice que no mostrará recuerdos con esas personas “aunque es posible que aún aparezcan en fotos grupales”.

Esta funcionalidad, que actualmente no está disponible en la aplicación, se podrá modificar desde el apartado de Configuración, accediendo al espacio de Preferencias y, a continuación, pulsando sobre Recuerdos

Relacionado

Tecnología

Samsung lleva a Google Play Store su app de personalización Good Lock

Published

2 días ago

mayo 2, 2024

Gustavo Salas

Samsung ha publicado en Google Play Store su aplicación Good Lock, que permite personalizar en los dispositivos Galaxy elementos como la pantalla bloqueada, los fondos de pantalla o los ajustes de audio.

Good Lock ha sido una aplicación exclusiva de la Galaxy Store hasta ahora, que Samsung ha decidido publicarla también en la tienda de Google, aunque sigue estando limitada a los usuarios de un dispositivo Galaxy.

Esta aplicación ofrece una interfaz de usuario personalizable mediante complementos o ‘plugins’ con los que se puede modificar la vista de la pantalla bloqueada o la pantalla siempre encendida y establecer nuevos estilos de reloj.

También permite reorganizar los botones de navegación y los gestos, así como la barra superior y el panel de accesos rápidos. Ofrece, además, más temas y fondos de pantalla , y permite configurar los ajustes de audio y la captura y la grabación de pantalla para que sean “más convenientes”.