L'hiperrealisme es pot generar - Clúster Audiovisual

Contingut publicat al butlletí Switch número 10 al març de 2023.

L’hiperrealisme es pot generar

La imatge que encapçala aquest bloc s’ha generat amb Midjourney V5. S’ha acabat l’etapa en què només es podien generar imatges fantàstiques o recreacions més o menys afortunades de l’estil d’autors coneguts. L’hiperrealisme sintètic generat amb frases de text ja és aquí. La versió 5 de Midjourney fa un salt espectacular. Rostres detallats, il·luminació i transparències de nivell fotogràfic i mans ben resoltes, un dels reptes pendents de la IA generativa.

Eines, eines i més eines

Seguir les novetats de la IA generativa és una bogeria. No paren de sortir eines noves o versions evolucionades de les anteriors.

ControlNet, imatges IA sota control. L’empresa responsable de Stable Diffusion acaba de treure ControlNet, una aplicació que possibilita l’edició i el control de les imatges generades per IA. I també la possibilitat de crear imatges detallades a partir de gargots o esbossos.
Gen-2, ara vídeo. No fa ni dos mesos que Runway Research llançava Gen-1, un model amb el qual qualsevol vídeo realista es pot convertir en una animació o a l’inrevés. La versió Gen-2 genera vídeos (curts) a partir de text.
Unreal Engine anuncia el llançament de MetaHuman Animator per capturar moviments i expressions i animar personatges virtuals en temps real. Vídeo.

Els presentadors virtuals personalitzables es posen de moda

S’obren pas les empreses que ofereixen personatges virtuals personalitzables que poden parlar en qualsevol idioma. Llegeixen un text amb veus de qualitat i una entonació correcta i ofereixen la possibilitat de triar el fons i insertar-hi text, gràfics, imatges i vídeos. En molt poca estona es poden editar presentacions curtes bastant decents. Val la pena donar un cop d’ull a Colossyan, D-ID i Synthesia.

A Synthesia l’envolta la polèmica després que diversos dels seus avatars els ha utilitzat una suposada cadena de notícies (Wolf News) per difondre informacions falses.

GPT4, arriba la multimodalitat

Una de les principals novetats del nou GPT4, el generador de textos més recent i potent llançat per la factoria OpenAI, és la multimodalitat.

Què és. El text (prompts) ja no és l’única font que accepta la IA generativa. GPT4 permet utilitzar una imatge com a input a partir de la qual escriu un text o genera codi informàtic.
Multimodalitat 2.0. L’evolució de la multimodalitat permetrà que qualsevol imatge o text pugui generar també qualsevol format, fins i tot vídeo. Algunes propostes que sorgeixen de les integracions entre programes ja ho permeten però encara amb limitacions.

Els actors de doblatge temen la IA. Comencen les substitucions

Actors de doblatge llatinoamericans alerten que comencen a ser substituïts per veus generades per IA. Empreses especialitzades en doblatge automàtic multiidioma com la israeliana Deepdub, la britànica Papercub o l’ucraïnesa Respeecher hi estan entrant amb força.