Meta ha creado una herramienta de Inteligencia Artificial que está diseñada para generar audio y música a partir de entradas de texto.
Agencia Excélsior
Meta ha creado una herramienta de Inteligencia Artificial (IA) generativa llamada AudioCraft, que está diseñada para generar audio y música a partir de entradas de texto y que se entrena con señales de audio sin procesar.
AudioCraft engloba tres modelos de lenguaje: EnCodec, AudioGen y MusicGen, siendo esta última la que presentó el pasado mes de junio como un modelo simple de lenguaje desarrollado bajo un enfoque de una sola etapa de patrones de tokens eficientes entrelazados.
En este caso, Meta ha recordado que MusicGen es un modelo entrenado con música propiedad de la compañía y con licencia específica, que genera música a partir de entradas de usuario basadas en texto.
AudioGen, por su parte, se entrenó con efectos de sonido de uso público y genera audio a partir de entradas de usuario basadas en texto. Finalmente, el decodificador EnCodec, permite «generar música de mayor calidad con menos artificios». Todos estos modelos están disponibles para fines de investigación.
Meta ha reconocido que, si vien los modelos de lenguaje de IA generativa han generado expectación y demostrado «habilidades excepcionales», no se ha mostrado el mismo interés por la IA generativa de audio.
Esto podría deberse a «que la música es el tipo de audio más difícil de generar porque se compone de patrones locales y de largo alcance, desde un conjunto de notas hasta una estructura musical global con múltiples instrumentos», según ha comentado en el anuncio de AudioCraft.
Además de porque «la música es el tipo de audio más difícil de generar porque se compone de patrones locales y de largo alcance», los enfoques con los que se ha abordado su creación a través de IA generativa han sido «incapaces de captar completamente los matices expresivos y los elementos estilísticos».
En este sentido, la familia de modelos AudioCrafy es capaz de producir audio de alta calidad con consistencia a largo plazo y ofrece una interfaz «natural» con un diseño simplificado para mejorar la experiencia de usuario.
Esta herramienta de IA generativa de música y sonido de código abierto, que también ofrece la capacidad de compresión, permite que los usuarios trabajen sobre la misma base de código bien construir sobre lo que otros han hecho.
De ese modo, estos creadores pueden ampliar estos modelos y adaptarlos a sus casos de uso para la investigación, para lo que Meta ofrece «posibilidades casi ilimitadas», según este documento.