AI

AI Image Matting che capisce le scene

  • Redazione
  • 24/04/2022
  • Tempo di lettura: 7 minuti

Nel documentario extra che accompagna l’uscita in DVD di Alien3 (1992) nel 2003, la leggenda degli effetti visivi Richard Edlund ha ricordato con orrore il “sumo wrestling” dell’estrazione opaca fotochimica che ha dominato il lavoro degli effetti visivi tra la fine degli anni 30 e la fine degli anni 80. Edlund ha descritto la natura hit-and-miss del processo come ‘sumo wrestling’, in confronto alle tecniche digitali blue/green-screen che hanno preso il sopravvento nei primi anni ‘90 (e da allora è tornato sulla metafora).

L’estrazione di un elemento in primo piano (come una persona o un modello di astronave) da uno sfondo, in modo che l’immagine ritagliata possa essere composta in una lastra di sfondo, era originariamente ottenuta filmando l’oggetto in primo piano contro uno sfondo blu o verde uniforme.

Nel filmato risultante, il colore dello sfondo veniva successivamente isolato chimicamente e usato come modello per ristampare l’oggetto in primo piano (o la persona) in una stampante ottica come un oggetto ‘galleggiante’ in una cella di pellicola altrimenti trasparente.

Il processo era conosciuto come color separation overlay (CSO) - anche se questo termine sarebbe poi diventato più associato ai rozzi effetti video ‘Chromakey’ nelle produzioni televisive a basso budget degli anni ‘70 e ‘80, che erano ottenuti con mezzi analogici piuttosto che chimici o digitali.

In ogni caso, che si tratti di elementi filmici o video, in seguito il filmato estratto poteva essere inserito in qualsiasi altro filmato.

Anche se il processo proprietario Disney, notevolmente più costoso, a vapori di sodio (che si basava sul giallo, in particolare, e fu usato anche per l’horror The Birds di Alfred Hitchcock del 1963) dava una migliore definizione e opacità più nitide, l’estrazione fotochimica rimaneva scrupolosa e inaffidabile.

Oltre l’opacizzazione digitale

Negli anni ‘90, la rivoluzione digitale ha fatto a meno dei prodotti chimici, ma non della necessità del green screen. Era ora possibile rimuovere lo sfondo verde (o di qualsiasi altro colore) semplicemente cercando i pixel all’interno di un intervallo di tolleranza di quel colore, in software di pixel-editing come Photoshop, e una nuova generazione di suite di video-compositing che potevano automaticamente escludere gli sfondi colorati. Quasi da un giorno all’altro, sessant’anni di industria della stampa ottica furono consegnati alla storia.

Gli ultimi dieci anni di ricerca sulla visione artificiale accelerata dalle GPU stanno facendo entrare l’estrazione degli opachi in una terza era, incaricando i ricercatori di sviluppare sistemi in grado di estrarre opachi di alta qualità senza bisogno di green screen.

Metterci nell’immagine

Questo luogo di interesse accademico e industriale nell’estrazione dell’IA ha già avuto un impatto sullo spazio dei consumatori: implementazioni rozze ma funzionanti sono familiari a tutti noi sotto forma di filtri Zoom e Skype che possono sostituire i nostri sfondi da salotto con isole tropicali, ecc, nelle videochiamate.

Tuttavia, i migliori opachi richiedono ancora uno schermo verde, come Zoom ha notato mercoledì scorso.

Un ulteriore post dalla piattaforma di supporto di Zoom avverte che l’estrazione senza schermo verde richiede anche una maggiore potenza di calcolo nel dispositivo di cattura.

La necessità di tagliarla

I miglioramenti nella qualità, nella portabilità e nell’economia delle risorse per i sistemi di estrazione matte ‘in the wild’ (cioè l’isolamento delle persone senza la necessità di schermi verdi) sono rilevanti per molti altri settori e attività oltre ai soli filtri di videoconferenza.

Per lo sviluppo di dataset, il miglioramento del riconoscimento facciale, della testa e del corpo intero offre la possibilità di assicurare che elementi di sfondo estranei non vengano addestrati in modelli di visione al computer di soggetti umani; un isolamento più accurato migliorerebbe notevolmente le tecniche di segmentazione semantica progettate per distinguere e assimilare i domini (es.Un isolamento più accurato migliorerebbe notevolmente le tecniche di segmentazione semantica progettate per distinguere e assimilare i domini (cioè “gatto”, “persona”, “barca”), e migliorerebbe i sistemi di sintesi delle immagini basati su VAE e trasformatori come il nuovo DALL-E 2 di OpenAI; e migliori algoritmi di estrazione ridurrebbero la necessità di costosi rotoscopi manuali nelle costose pipeline dei VFX.

Infatti, l’ascesa delle metodologie multimodali (di solito testo/immagine), dove un dominio come “gatto” è codificato sia come immagine che con riferimenti testuali associati, sta già facendo breccia nell’elaborazione delle immagini. Un esempio recente è l’architettura Text2Live, che utilizza la formazione multimodale (testo/immagine) per creare video di, tra una miriade di altre possibilità, cigni di cristallo e giraffe di vetro.

IA opaca consapevole della scena

Una buona parte della ricerca sull’opacizzazione automatica basata sull’AI si è concentrata sul riconoscimento dei confini e sulla valutazione dei raggruppamenti basati sui pixel all’interno di un’immagine o di un fotogramma video. Tuttavia, una nuova ricerca dalla Cina offre una pipeline di estrazione che migliora la delineazione e la qualità dell’opacizzazione sfruttando le descrizioni basate sul testo di una scena (un approccio multimodale che ha guadagnato trazione nel settore della ricerca sulla visione artificiale negli ultimi 3-4 anni), sostenendo di aver migliorato i metodi precedenti in diversi modi.

La sfida posta al sottosettore della ricerca sull’estrazione è quella di produrre flussi di lavoro che richiedano un minimo di annotazione manuale e di intervento umano - idealmente, nessuno. Oltre alle implicazioni di costo, i ricercatori del nuovo documento osservano che le annotazioni e le segmentazioni manuali intraprese da crowdworkers in outsourcing in varie culture possono causare che le immagini siano etichettate o persino segmentate in modi diversi, portando ad algoritmi incoerenti e insoddisfacenti

Un esempio di questo è l’interpretazione soggettiva di ciò che definisce un “oggetto in primo piano”:

Per affrontare questo problema, i ricercatori hanno sviluppato una pipeline a due stadi intitolata Situational Perception Guided Image Matting (SPG-IM). L’architettura del codificatore/decodificatore a due stadi comprende la Distillazione della Percezione Situazionale (SPD) e il Matting guidato dalla Percezione Situazionale (SPGM).

In primo luogo, SPD preallena le trasformazioni delle caratteristiche da visive a testuali, generando didascalie adatte alle loro immagini associate. Dopo questo, la predizione della maschera di primo piano è abilitata collegando la pipeline a una nuova tecnica di predizione della salienza.

Poi SPGM produce una stima della matrice alfa basata sull’input dell’immagine RGB grezza e la maschera generata ottenuta nel primo modulo.

L’obiettivo è una guida alla percezione situazionale, in cui il sistema ha una comprensione contestuale di ciò che l’immagine consiste, permettendogli di inquadrare - per esempio - la sfida di estrarre capelli complessi da uno sfondo rispetto alle caratteristiche note di tale compito specifico.

Il nuovo documento è intitolato Situational Perception Guided Image Matting, e proviene dai ricercatori dell’OPPO Research Institute, PicUp.ai e Xmotors.

Opacizzazione automatica intelligente

SPG-IM propone anche una rete di raffinamento Adaptive Focal Transformation (AFT) in grado di elaborare separatamente i dettagli locali e il contesto globale, facilitando gli ‘opachi intelligenti’.

Il documento afferma che:

‘Crediamo che le rappresentazioni visive dal compito visivo-testuale, ad esempio la didascalia dell’immagine, si concentrino su segnali semanticamente più completi tra a)oggetto a oggetto e b)oggetto all’ambiente circostante per generare descrizioni che possano coprire sia le informazioni globali che i dettagli locali. Inoltre, rispetto alla costosa annotazione dei pixel dell’opacizzazione delle immagini, le etichette testuali possono essere raccolte in modo massiccio a un costo molto basso".

Il ramo SPD dell’architettura è addestrato congiuntamente con il decodificatore testuale basato sul trasformatore VirTex dell’Università del Michigan, che impara rappresentazioni visive da didascalie semanticamente dense.

Tra gli altri test e studi di ablazione, i ricercatori hanno testato SPG-IM contro i metodi basati su trimap all’avanguardia Deep Image Matting (DIM), IndexNet, Context-Aware Image Matting (CAM), Guided Contextual Attention (GCA) , FBA, e Semantic Image Mapping (SIM).

Altre strutture precedenti testate includevano approcci trimap-free LFM, HAttMatting e MODNet. Per un confronto equo, i metodi di test sono stati adattati in base alle diverse metodologie; dove il codice non era disponibile, le tecniche della carta sono state riprodotte dall’architettura descritta.

Il nuovo documento afferma:

‘Il nostro SPG-IM supera tutti i metodi trimap-free concorrenti ([LFM], [HAttMatting], e [MODNet]) con un ampio margine. Nel frattempo, il nostro modello mostra anche una notevole superiorità rispetto allo stato dell’arte (SOTA) basato su trimap e metodi guidati da maschere in termini di tutte e quattro le metriche attraverso i set di dati pubblici (cioè Composition-1K, Distinction-646, e Human-2K), e il nostro benchmark Multi-Object-1K.

E continua:

‘Si può ovviamente osservare che il nostro metodo preserva i dettagli fini (ad esempio i siti delle punte dei capelli, le texture trasparenti e i confini) senza la guida del trimap. Inoltre, rispetto ad altri modelli concorrenti senza trimap, il nostro SPG-IM può mantenere una migliore completezza semantica globale".

Pubblicato per la prima volta il 24 aprile 2022.

Ciao, sono Michele!

Sono molto felice di saperti qui.
Ogni giorno ti raccontiamo qualcosa di nuovo sull'AI e sulle nuove tecnologie. Seguici sui social o iscriviti alla newsletter!

Iscriviti alla newsletter!

Iscrivendoti accetti la nostra Privacy Policy

Ti va di rimanere aggiornatə?

Niente spam, niente pubblicità. Ogni tanto una mail. Tutto qui.
(Ah, ovviamente i tuoi dati non verranno mai ceduti)

Iscrivendoti accetti la nostra Privacy Policy