Contingut publicat al butlletí Switch número 9 al febrer de 2023.

El camí cap a la generació automàtica de productes audiovisuals es va escurçant

ChatGPT ha estat l’última revolució en l’àmbit de la generació automàtica de textos. Per aquest any s’anuncia GPT-4, que promet més precisió i qualitat. Google ja ha reaccionat i acaba de presentar Bard, la competència de ChatGPT, i aviat arribarà Sparrow.

Les últimes setmanes la xarxa també ha estat farcida de proves que combinen la generació de text, imatge, veu i música. Algunes ja apunten cap a la generació automàtica de productes audiovisuals.

Comencem pel guió

Dramatron és una eina de DeepMind, el laboratori de IA de Google, entrenada per cocrear històries i guions amb humans. A partir d’una línia de registre, Dramatron genera de manera interactiva descripcions de personatges, punts de la trama, descripcions d’ubicacions i diàlegs. Si no teniu ganes d’escriure i ho voleu delegar tot en la màquina podeu veure com s’ho ha fet aquest analista a partir de les instruccions de Damatron. ChatGPT li va escriure tot el guió.


Hiperrealisme generatiu: Saoirse Ronan ja té la seva rèplica

Les noves versions dels generadors de text a imatge van depurant prestacions i qualitats. La versió 2.1 de Stable Diffusion permet la rèplica de persones amb un grau notable de fidelitat al model real. En aquest fil, el dissenyador Roope Rainistro explica com ha generat les imatges de l’actriu Saoirse Ronan.


El pas següent seria fer-la parlar. Tampoc és tan difícil

L’animació d’avatars generats automàticament és una de les possibilitats que permeten les darreres versions dels sistemes de IA. Jesús Serrano, de Microsoft, explica com ha generat el vídeo parlant d’un avatar. El text, la veu, els moviments i la música han estat creats per intel·ligència artificial. Ho provem amb la Saoirse?

Generar vídeo a partir de vídeo

Runway, l’empresa que ha desenvolupat Stable Diffusion acaba de presentar Gen-1, una eina que permet modificar un vídeo preexistent amb les tècniques d’intel·ligència artificial generativa. Google també ha anunciat un producte similar, Dreamix.

Efectes 3D a l’abast de tothom

Les aplicacions basades en la tecnologia NeRF per a la creació de gràfics en 3D es van popularitzant. LumaAI les facilita per a tota mena de dispositius.

Efectes sonors amb quatre paraules

I per generar efectes sonors, AudioLDM, un nou generador d’àudio a partir de text.