Cercetătorii susțin că modelul lor „depășește sistemele anterioare atât în ceea ce privește calitatea audio, cât și aderența la descrierea textului”.
Exemplele sunt fragmente de 30 de secunde din melodii și includ legendele de intrare ale acestora, cum ar fi:
„Coloana sonoră principală a unui joc arcade. Are un ritm rapid și este optimist, cu un riff de chitară electrică molipsitor. Muzica este repetitivă și ușor de reținut, dar cu sunete neașteptate, cum ar fi ciocniri de cratițe sau rulouri de tobe”.
„O fuziune de reggaeton și muzică electronică de dans, cu un sunet spațial, din altă lume. Induce experiența de a fi pierdut în spațiu, iar muzica ar fi concepută pentru a evoca un sentiment de mirare și uimire, fiind în același timp dansabilă”.
„Un sintetizator ascendent cântă un arpegiu cu multă reverberație. Acesta este susținut de pad-uri, linie de subbas și tobe moi. Acest cântec este plin de sunete de sintetizator care creează o atmosferă liniștitoare și aventuroasă. Poate fi cântat la un festival pe parcursul a două melodii pentru o acumulare”.
Folosirea inteligenței artificiale pentru a genera muzică nu este o noutate - dar un instrument care poate genera muzică acceptabilă pe baza unui simplu mesaj text nu a fost încă prezentat. Asta până acum, potrivit echipei din spatele MusicLM.
Cercetătorii explică în lucrarea lor diferitele provocări cu care se confruntă generarea de muzică cu ajutorul inteligenței artificiale. În primul rând, există o problemă legată de lipsa de date audio și text împerecheate - spre deosebire de învățarea automată text-imagine, unde, spun ei, seturi uriașe de date au "contribuit semnificativ" la progresele recente.
De exemplu, instrumentul DALL-E de la OpenAI și Stable Diffusion, ambele au provocat o creștere a interesului public în acest domeniu, precum și cazuri de utilizare imediată.
O provocare suplimentară în generarea de muzică prin inteligență artificială este faptul că muzica este structurată "de-a lungul unei dimensiuni temporale" - o piesă muzicală există de-a lungul unei perioade de timp. Prin urmare, este mult mai dificil să se capteze intenția unei piese muzicale cu o legendă de text de bază, spre deosebire de utilizarea unei legende pentru o imagine statică.
MusicLM este un pas înainte în depășirea acestor provocări
Acesta este un "model ierarhic de secvență la secvență pentru generarea de muzică" care utilizează învățarea automată pentru a genera secvențe pentru diferite niveluri ale melodiei, cum ar fi structura, melodia și sunetele individuale.
Pentru a învăța cum să facă acest lucru, modelul este antrenat pe un set mare de date de muzică neetichetată, împreună cu un set de date de subtitrări muzicale de peste 5.500 de exemple, care au fost pregătite de muzicieni. Acest set de date a fost făcut public pentru a sprijini cercetările viitoare.
Modelul permite, de asemenea, o intrare audio, sub forma unui fluierat sau a unui fredonat, de exemplu, pentru a ajuta la informarea melodiei cântecului, care va fi apoi "redată în stilul descris de textul de îndemn".