¿Reggae robótico? Meta lanza un generador de música artificial que crea composiciones genéricas a partir de mensajes de texto.



	
		¿Reggae robótico? Meta lanza un generador de música artificial que crea composiciones genéricas a partir de mensajes de texto.

Meta ha lanzado AudioCraft, un nuevo conjunto de herramientas de IA para generar lo que el gigante tecnológico afirma que es "audio y música realistas y de alta calidad a partir de texto"; por ejemplo, producir una secuencia musical basada en la cadena de texto "electronic Jamaican reggae DJ set".

"Imagina que un músico profesional pudiera explorar nuevas composiciones sin tener que tocar una sola nota en un instrumento", dice Meta en una entrada de su blog sobre AudioCraft. "O que el propietario de una pequeña empresa añadiera una banda sonora a su último anuncio de vídeo en Instagram con facilidad".

AudioCraft consta de tres modelos: MusicGen (para música), AudioGen (para efectos de sonido) y EnCodec (un descodificador generativo de IA). MusicGen se entrenó con unas 400.000 grabaciones junto con descripciones de texto y metadatos, lo que equivale a 20.000 horas de música propiedad de Meta o con licencia específica para este fin, según el gigante tecnológico. "Las pistas musicales son más complejas que los sonidos ambientales, y generar muestras coherentes sobre la estructura a largo plazo es especialmente importante a la hora de crear piezas musicales novedosas", afirma la empresa.

"Con aún más controles, creemos que MusicGen puede convertirse en un nuevo tipo de instrumento, como los sintetizadores cuando aparecieron por primera vez", afirma la empresa en la entrada del blog.

Meta compartió un clip de cómo suena la música generada por MusicGen. Además del riff de reggae, los ejemplos incluyen "escena de película en un desierto con percusión", "electrónica de los 80 con ritmos de batería", "instrumental de jazz, tempo medio, piano enérgico" y "hip-hop suave, scratching de vinilo, bajo profundo":

Por su parte, Meta afirma que AudioGen se ha formado en "efectos sonoros públicos" y puede generar sonidos ambientales y efectos sonoros como el ladrido de un perro, el claxon de los coches o pasos sobre un suelo de madera. La empresa también presentó lo que dijo ser una versión mejorada del descodificador EnCodec, "que permite generar música de mayor calidad con menos artefactos".

La empresa publica los modelos AudioCraft como código fuente abierto, explicando que el objetivo es dar "acceso a investigadores y profesionales para que puedan entrenar sus propios modelos con sus propios conjuntos de datos por primera vez, y ayudar a avanzar en el campo del audio y la música generados por IA".

Meta reconoció que los conjuntos de datos utilizados para entrenar los modelos de AudioCraft carecen de diversidad; en concreto, el conjunto de datos musicales utilizado "contiene una mayor proporción de música de estilo occidental" y se limita a pares de audio-texto con texto y metadatos escritos en inglés. "Al compartir el código de AudioCraft, esperamos que otros investigadores puedan probar más fácilmente nuevos enfoques para limitar o eliminar posibles sesgos y usos indebidos de los modelos generativos", señaló la empresa.

Categorías:

¿Te gusta? ¡Puntúalo!

6 votos

Noticias relacionadas