AI e cultura visuale
Tra riconoscimento e generazione

© Marco Cadioli, Interview with the Robot, 2003-2006 Video, digital prints

Il tema dell’Intelligenza Artificiale è entrato nel dibattito pubblico attorno alla fine del 2022, trasformandosi rapidamente da argomento per specialisti a questione che tocca molti aspetti della società contemporanea, e secondo tutte le previsioni, è in grado di portare profonde trasformazioni invadendo campi di applicazione sempre più ampi.
Sam Altman, CEO di OpenAI, la società che ha sviluppato ChatGPT, in un post di giugno 2025 sul suo blog sostiene che siamo entrati in una nuova era caratterizzata dalle AI: «We are past the event horizon; the takeoff has started. Humanity is close to building digital superintelligence, and at least so far it’s much less weird than it seems like it should be.» (Altman, 2025).
Tra la fine del Novecento e i primi venti anni del nuovo secolo abbiamo già assistito a profonde trasformazioni legate alla diffusione delle tecnologie digitali. Nel campo dell’immagine questi passaggi hanno determinato cambiamenti profondi: la digitalizzazione è stato il primo passaggio che ha trasformato le immagini in dati numerici che possono essere elaborati da un computer, la rete ha rivoluzionato le modalità di distribuzione e fruizione delle immagini, ha fatto esplodere la produzione amatoriale democratizzando gli strumenti creativi e con i social abbiamo iniziato ad accumulare immense quantità di immagini. Si sono poste così le basi tecnologiche che hanno permesso gli attuali sviluppi delle AI.
Eppure il tema delle AI appare immediatamente di portata maggiore, qualitativa oltre che quantitativa. Ci sentiamo investiti da una tecnologia che invade campi che abbiamo sempre ritenuto caratterizzanti l’essere umano nel suo rapporto privilegiato con la conoscenza e la creatività: vedere e riconoscere, creare immagini e testi, comprendere ed esprimersi attraverso il linguaggio naturale, interpretare segnali audio, tradurre tra diverse lingue, proporre soluzioni complesse, prevedere comportamenti futuri.
La pervasività di queste trasformazioni mantiene al momento una velocità maggiore della nostra capacità collettiva di metabolizzare il cambiamento, trovare nuovi paradigmi interpretativi, immaginare scenari futuri sostenibili. Ci troviamo in una fase di transizione in cui gli strumenti evolvono più rapidamente della nostra comprensione delle loro implicazioni sociali, culturali ed etiche. Eppure sono già ampiamente utilizzati, per scrivere, programmare, creare immagini, a un livello che già su molti compiti supera le capacità umane.
Parliamo di Intelligenze Artificiali (AI) al plurale, perché al momento ci troviamo ancora di fronte a diverse forme specializzate su compiti specifici: sistemi linguistici, di riconoscimento di immagini, di generazione di contenuti, di selezione e raccomandazione, solo per citare quelli che utilizziamo quotidianamente spesso senza rendercene conto.
Nel contesto della cultura visuale contemporanea, questa rivoluzione tecnologica assume connotazioni particolarmente significative. Possiamo tentare di approfondire alcuni meccanismi fondamentali, limitando il nostro focus al mondo delle immagini digitali, per comprendere come questa trasformazione stia ridefinendo le modalità di produzione, elaborazione e interpretazione delle immagini. Dall’addestramento di algoritmi di Machine Learning su database di milioni di immagini ai sistemi di Machine Vision capaci di “vedere” e interpretare contenuti visuali, fino ai generatori di immagini che sfidano le nostre concezioni tradizionali di creatività e autorialità, siamo di fronte a un cambiamento paradigmatico che richiederà nuovi strumenti critici e interpretativi.
Un passaggio fondamentale nello sviluppo delle intelligenze artificiali è l’adozione di sistemi di Machine Learning per l’addestramento delle macchine.
Questi sistemi, basati su ampie reti neurali artificiali, hanno conosciuto una rapida evoluzione a partire dal 2010, trovando inizialmente applicazione nel campo del Machine Vision per riconoscere oggetti, espressioni facciali e gesti, classificare immagini e analizzare contenuti visuali complessi.
Nel machine learning, un “modello” è un algoritmo che è stato addestrato a riconoscere schemi o a prendere decisioni basandosi sui dati di input, con un processo di training che rende il modello in grado di fare previsioni o classificazioni su nuovi dati mai visti prima. Per esempio, se si addestra un modello a riconoscere emozioni in base alle espressioni facciali, fornendo immagini di visi etichettate con emozioni, il modello potrà successivamente riconoscere le emozioni in immagini di visi mai viste prima.
Questa trasformazione rappresenta un salto qualitativo rispetto agli approcci tradizionali dell’intelligenza artificiale, spostando il paradigma dalla programmazione esplicita di regole all’apprendimento implicito di rappresentazioni complesse attraverso l’esperienza con i dati.
Non si impara più, per esempio, a riconoscere un cane partendo dalla descrizione di un cane, ma dall’analizzare migliaia di immagini di cani, in tutte le posizioni, con sfondi diversi, di razze diverse, su immagini parziali, sino a estrarre le caratteristiche principali che permettono il riconoscimento di un cane in un’immagine.
Alla base di questo processo ci sono dunque i database, grandi raccolte di immagini con associate etichette con informazioni sul contenuto delle immagini stesse.
I primi database contenevano un ristretto numero di immagini e categorie, come The CIFAR-10 dataset, costruito nel 2008, che conteneva solo 10 categorie (airplanes, cars, birds, cats, deer, dogs, frogs, horses, ships, trucks) ciascuna con 6.000 immagini di dimensione 32×32 pixel.
Un database di riferimento con dimensioni decisamente maggiori è stato ImageNet, lanciato nel 2010 con 10.000 immagini divise in venti categorie, cresciuto fino a contenere 14 milioni di immagini divise in oltre 20.000 categorie nel 2022. Le immagini sono raccolte in rete, spesso senza nessun esplicito consenso da parte degli autori, poi controllate e annotate manualmente, e queste modalità di costruzione dei database continuano ad alimentare dibattiti sul copyright e lo sfruttamento del lavoro umano.
È possibile perdersi seguendo la tassonomia delle categorie e sottocategorie con cui sono stati organizzati i materiali. Come evidenziato da Crawford e Paglen in Excavating AI (2019): «Navigating ImageNet’s labyrinthine structure is like taking a stroll through Borges’s infinite library.» (Crawford & Paglen, 2019).
Possiamo trovare le voci più strane: abandoned ships, pirate ships, white shark, man-eating shark, horn, cowboy boot, espresso maker, obelisk, reflex camera, wall clock, volcano, nella raccolta che vuole coprire “tutte le cose del mondo”.
La grande disponibilità di dati in rete ha portato nell’arco di pochi anni a un progressivo ingigantirsi del numero di immagini contenute nei dataset, da migliaia a milioni, sino ad arrivare ai 5,8 miliardi di coppie testo-immagine contenute nel database pubblico LAION-5B nel 2022, raccolte negli archivi, nei diversi social media, in Pinterest, nei siti web, sostanzialmente scansionando tutta la rete.

Molti artisti hanno lavorato attorno a questi temi e sperimentato questi processi di produzione almeno a partire dal 2018, selezionando i materiali per predisporre set per l’addestramento personalizzati, o indagando le dinamiche economiche e politiche implicate nella selezione e preparazione dei dati.

Myriad (Tulips), 2018. Installation detail.  © Anna Ridler

Un esempio molto chiaro per riassumere quanto fin qui esposto è quello del progetto dell’artista olandese Anna Ridler che ha creato un dataset fotografando 1.000 tulipani e addestrando un’AI alla generazione di immagini di tulipani. Ogni nuova generazione crea l’immagine di un tulipano possibile, fotorealistico, diverso da tutti quelli presenti nel dataset di partenza. Anna Ridler inoltre, e qui sta lo scarto dell’artista, ha aggiunto un ulteriore layer al progetto, legando la colorazione dei tulipani a un parametro, cioè all’andamento del mercato delle criptovalute utilizzando gli indici per determinare le striature e le sfumature di colore.

Anche nell’opera Unsupervised realizzata da Refik Anadol per il MoMA nel 2022, troviamo tutti gli elementi fin qui esposti tecnicamente. Anadol utilizza gli archivi digitali del museo che coprono 200 anni di storia dell’arte, dalla pittura alla fotografia, dal design al videogame, come uno straordinario dataset sul quale addestrare un algoritmo di Machine Learning che poi genera autonomamente un flusso continuo di nuove forme astratte che interpretano la collezione.

Refik Anadol. Unsupervised – Machine Hallucinations, MoMA, 2022.
Installation view, “Refik Anadol: Unsupervised”. The Museum of Modern Art, New York, November 19, 2022–April 15, 2023. ©️ 2023 The Museum of Modern Art. Documentation by Refik Anadol.

Sempre Refik Anadol, con un meccanismo analogo, ha realizzato Living Architecture: Gehry, installazione in corso al Guggenheim di Bilbao fino a ottobre 2025. Si tratta di un progetto che reinterpreta le architetture di Frank Gehry attraverso un modello di AI a cui è stato dato il nome di Large Architecture Model (LAM), che è stato addestrato su un archivio di immagini, schizzi e progetti di Gehry. Anche in questo caso l’output non è una reinvenzione fotorealistica di architetture, ma trasforma i materiali in forme e colori in un movimento dinamico in continua evoluzione.

Guggenheim Museum Bilbao, In sintu Refik Anadol

I processi di addestramento delle AI si possono dividere in Supervised e Unsupervised. Nell’apprendimento supervisionato il sistema apprende da dati etichettati direttamente dall’uomo, per esempio per le immagini viene data una descrizione che identifica i soggetti e la scena. L’apprendimento non supervisionato è invece un processo completamente automatizzato in cui la macchina è in grado di catalogare e descrivere le immagini in modo autonomo.
I lavoratori coinvolti nei processi definiti “supervised” sono lavoratori online, reclutati attraverso piattaforme come Mechanical Turk di Amazon, spesso originari di paesi a basso reddito, precari e sottopagati, che hanno organizzato, etichettato e ripulito i dataset per l’addestramento.
Come sottolineato da Kate Crawford dietro all’addestramento delle macchine e i dataset delle intelligenze artificiali spesso si nascondono storie di sfruttamento del lavoro dell’uomo e disuguaglianza (Crawford, 2021).
L’artista italiana Elisa Giardina Papa nel 2019 è entrata in questo processo lavorando online per poter documentare direttamente una realtà spesso sommersa. Nella sua opera Cleaning Emotional Data ha affrontato le nuove forme di lavoro che emergono da una AI economy, concentrandosi in particolare sui lavoratori che preparano i dati per addestrare algoritmi di riconoscimento delle emozioni. Tra i compiti che ha svolto c’erano la classificazione delle emozioni, l’annotazione delle espressioni facciali e la registrazione della propria immagine per animare personaggi tridimensionali, lavorando per pochi centesimi di dollaro per ogni task completato. I materiali di questa esperienza sono stati poi elaborati nell’installazione dell’opera, stimolando una riflessione critica.

Cleaning Emotional Data, 2020, © Elisa Giardina Papa

Le prime operazioni sui dataset sono state finalizzate al riconoscimento di oggetti, scene, luoghi, portando le macchine verso quella capacità che ci fa dire che le macchine iniziano a “vedere”. I sistemi di Machine Vision rappresentano un sottoinsieme dell’intelligenza artificiale in grado di raccogliere dati dal mondo reale, per poi utilizzarli in operazioni di analisi e riconoscimento dell’immagine: identificazione dei contorni, riconoscimento degli oggetti, riconoscimento facciale, emotion detection, ma anche sistemi militari di puntamento e sistemi di controllo.
Questa capacità delle macchine di “vedere” ha implicazioni che vanno ben oltre l’aspetto puramente tecnico. Come ha evidenziato il filmmaker tedesco Harun Farocki nei suoi lavori “Serious Games” (2009-10), siamo di fronte a quelle che lui chiamava “operational images” – immagini tecniche create per scopi militari e di sorveglianza che non erano necessariamente destinate al consumo pubblico.

Eye/Machine I, still dal video, 2001, © Harun Farocki

«These are images that do not represent an object, but rather are part of an operation» (Farocki, 2004) scriveva Farocki, sottolineando come queste immagini non servano più principalmente alla rappresentazione, ma diventino strumenti di azione diretta sul mondo.
Le operational images presentano una caratteristica distintiva: una serie di segni sovrapposti all’immagine – box attorno agli oggetti, puntatori, codici, crosshair – funzionali all’interpretazione della macchina, ma resi visibili per permettere agli operatori umani di capire quali informazioni si stiano analizzando. In queste immagini si crea quindi una sovrapposizione tra ciò che percepisce il nostro occhio e ciò che rileva la macchina, generando un linguaggio visivo che manifesta l’ibridazione crescente tra visione umana e artificiale.
Questo layer informativo, estratto dal contesto operativo del Machine Vision, diventa particolarmente interessante dal punto di vista artistico come manifestazione visibile dell’interpretazione algoritmica del mondo. Non si tratta più di immagini che rappresentano la realtà, ma di immagini che agiscono sulla realtà, che sono parte integrante di processi decisionali automatizzati che vanno dalla guida autonoma ai sistemi di sorveglianza urbana.

CLOUD #865 Hough Circle Transform, 2019, dye sublimation print, 60” × 48” (152.4 cm × 121.9 cm), © Trevor Paglen

L’artista americano Trevor Paglen ha lavorato estensivamente sullo svelamento di questi sistemi di computer vision e intelligenza artificiale, rendendo visibili le infrastrutture normalmente invisibili della visione automatizzata. Citando espressamente il lavoro di Alfred Stieglitz sulle nuvole, nel progetto fotografico The Shape of Clouds (2020) Paglen guarda alle nuvole attraverso diversi sistemi di Computer Vision, lasciando in sovrimpressione le linee e i segni che manifestano cosa stanno “guardando” gli algoritmi. In particolare, utilizza algoritmi per la guida automatica di missili e droni, sistemi di sorveglianza e di riconoscimento facciale, rivelando come anche elementi apparentemente neutri del paesaggio naturale vengano continuamente processati e interpretati da sistemi di visione artificiale.
Il lavoro di Paglen è particolarmente significativo perché rende evidente come la Machine Vision non sia neutrale: ogni algoritmo porta con sé i bias dei dati su cui è stato addestrato e le finalità per cui è stato progettato. Un sistema addestrato per scopi militari “vede” il mondo in modo diverso da uno progettato per l’arte o per la sicurezza civile, e questa differenza ha conseguenze concrete sui modi in cui questi sistemi interpretano e categorizzano la realtà.
La pervasività di questi sistemi nella vita quotidiana è ormai evidente negli apparati fotografici dei nostri cellulari, che sono in grado di isolare automaticamente un volto rispetto allo sfondo, riconoscere una scena di mare o sulla neve, un fiore o un paesaggio, per determinare i parametri da applicare allo scatto. E le operazioni sottostanti questi processi sono diventate del tutto trasparenti all’utente, non destano più attenzione e sono percepite come parte integrata nell’apparato.
Le applicazioni di AI integrate nei dispositivi fotografici su cellulare semplificano e rendono quasi istantanee elaborazioni che richiedevano una certa conoscenza di software specialistici. Si pensi alla sostituzione di un’espressione facciale in una foto prendendola da altri scatti simili, alla rimozione automatica di elementi considerati un disturbo, alla modifica della direzione della luce sul volto in un ritratto, alla simulazione della profondità di campo. Queste e altre operazioni che avvengono in fase di scatto, o immediatamente dopo, portano a dire, nelle parole di Joanna Zylinska: «The distinction between image capture and image creation is now increasingly blurred» (Zylinska, 2017).
Questa osservazione di Zylinska tocca un punto cruciale: stiamo assistendo alla dissoluzione del confine tradizionale tra la registrazione del reale e la sua costruzione artificiale.

Il passaggio dalla Machine Vision alle AI generative rappresenta un salto paradigmatico fondamentale nell’evoluzione dell’intelligenza artificiale applicata alle immagini. Mentre i sistemi di riconoscimento si limitavano ad analizzare e interpretare immagini esistenti, le AI generative introducono la capacità di creare contenuti visuali completamente nuovi, ridefinendo radicalmente il nostro rapporto con la produzione di immagini.
Il processo che ha reso possibile questa transizione è strettamente legato all’accumulo di enormi quantità di dati visuali e al perfezionamento di architetture neurali sempre più sofisticate, come abbiamo cercato di ricostruire. I database che inizialmente servivano per insegnare alle macchine a riconoscere oggetti e scene, sono diventati la base per insegnare loro a generare nuove immagini combinando e ricombinando gli elementi appresi durante la fase di addestramento.
Le AI generative operano attraverso un processo di apprendimento delle distribuzioni statistiche presenti nei dati di addestramento. Non memorizzano le singole immagini, ma apprendono i pattern, le relazioni, le strutture ricorrenti che caratterizzano enormi collezioni di immagini. È questo apprendimento statistico che permette loro di generare contenuti inediti ma coerenti con i pattern appresi, creando quelli che potremmo definire “possibili probabili” piuttosto che copie di esistenti.
I primi sistemi di generazione di immagine sono stati rilasciati al pubblico verso la fine del 2022, usciti dai laboratori di ricerca e dalle esperienze sperimentali degli artisti hanno avuto un immediato successo e adozione di massa su piattaforme di text-to-image come DALL·E, Midjourney, Stable Diffusion.
Le immagini così generate sono entrate prepotentemente nella produzione di contenuti nei social, diventate virali come fake, si pensi al Papa con il piumino Moncler circolata nel 2023, utilizzate nel marketing e nella comunicazione, come nella campagna elettorale americana del 2024 con le infinite trasformazioni di Trump, Musk e Kamala Harris, e sono vendute dalle stesse banche immagini.

Campagna elettorale americana, screenshot di un post di Elon Musk su X

Questo salto qualitativo non è solo tecnico, ma concettuale: si passa da macchine che “vedono” e categorizzano il mondo a macchine che “immaginano” e creano mondi possibili. Se la Machine Vision estendeva e potenziava la capacità umana di osservazione e riconoscimento, le AI generative sembrano toccare quella dimensione che abbiamo sempre considerato più specificamente umana: la creazione.
Una così immediata adozione di una tecnologia, storicamente, è segno di qualcosa che rimane e si stabilizza, entra nei processi quotidiani e tende a scomparire nel sistema come dato di fatto. Al di là dell’aspetto qualitativo del fenomeno, anche solo l’aspetto quantitativo e la velocità di diffusione di un apparato non umano che genera immagini automaticamente con una modalità di produzione completamente nuova, potrebbe costituire un punto di svolta nella teoria dei media e richiedere un nuovo paradigma di interpretazione.
Il rapporto di questi processi con la fotografia, seppur spesso conflittuale, è evidente, perché gran parte delle immagini contenute nei database di addestramento è costituita da fotografie, e perché gli output privilegiati sono di tipo fotorealistico. Gli annunci delle piattaforme rispetto ai nuovi modelli generativi fanno sempre riferimento a quanto si incrementi il livello di fotorealismo dei risultati, considerato il principale parametro di qualità e meta da raggiungere.
In effetti le immagini generate hanno già raggiunto un livello di realismo tale da renderle indistinguibili da fotografie, e se ci sono ancora delle incertezze ed errori sappiamo che nelle prossime versioni dei modelli saranno corrette.Ci troviamo quindi con oggetti visivi generati da modelli addestrati su enormi quantità di fotografie, che assomigliano a fotografie fino a essere indistinguibili ai nostri occhi, che vengono usati come fotografie, che seguono circuiti di distribuzione e utilizzo sovrapposti a quelli delle fotografie. Eppure non sono fotografie.
L’osservazione di Joanna Zylinska secondo cui «The distinction between image capture and image creation is now increasingly blurred» assume qui il suo significato più profondo. Non si tratta più solo della sovrapposizione tra cattura e manipolazione nel momento dello scatto fotografico, ma della perdita del legame indicale tra immagine e referente che ha caratterizzato la fotografia per oltre un secolo e mezzo.
In questa trasformazione l’immagine mantiene l’aspetto della fotografia senza conservarne la credibilità e la funzione documentale. Il paradigma tradizionale che legava l’immagine fotografica a un momento specifico del tempo e dello spazio viene sostituito da un nuovo paradigma in cui l’immagine fotografica diventa un linguaggio, una modalità espressiva che può essere utilizzata indipendentemente da qualsiasi referente reale.
Il punto di partenza per la generazione è la scrittura di un prompt, cioè una descrizione verbale dell’immagine. E anche qui troviamo come il linguaggio della fotografia abbia informato questi sistemi. Nella raccolta dei metadati associati alle immagini e nelle analisi fatte in fase di addestramento, sono stati appresi termini, estetiche e linguaggi propri della fotografia.
Se analizziamo i prompt condivisi dagli utenti, troviamo, accanto alle descrizioni del soggetto e della scena, specifiche riguardo al modello di fotocamera, al tipo di focale utilizzata, alla marca dell’obiettivo, il formato e il tipo di pellicola per simulare l’analogico, il tipo di illuminazione con espressioni tecniche da studio, indicazioni su profondità di campo, controluce, e la lista potrebbe continuare. E, in uno dei punti più dibattuti e discutibili, riferimenti espliciti ad autori per ottenere lo stile voluto. Ci si sta muovendo verso l’adozione del linguaggio naturale per rapportarsi alle macchine, e in questo caso si adotta la terminologia finora utilizzata nel mondo della fotografia.
È impossibile definire una tendenza estetica univoca tra i milioni di immagini prodotte quotidianamente dalle AI generative. E sempre di più le immagini generate si mescolano nella loro circolazione alle fotografie scattate, rendendo inefficace ogni tentativo di distinzione basato puramente su criteri visivi.
Si distinguono tra le immagini generate, quelle che abbandonano il terreno del fotorealismo, o utilizzano il fotorealismo come linguaggio applicato a soggetti surreali. Questa può essere identificata come una tendenza che ha caratterizzato i primi anni della generazione di immagini, con esiti alterni e il rischio di saturazione, trasformando lo strano e il surreale nella normalità delle immagini generate.
Uno dei primi progetti ad attrarre l’attenzione sulle possibilità di generazione è stato This Person Does Not Exist del 2019. Si tratta di un sito web che presenta una serie di immagini di individui che non sono mai esistiti, assicurando che ogni viso sia completamente unico e sorprendentemente realistico.
Il progetto è diventato immediatamente virale, scatenando discussioni in un clima di incredulità e sorpresa in cui sembrava ancora impossibile che un algoritmo potesse generare volti in grado di ingannare l’occhio umano. Oggi, nel 2025, non ci sarebbe alcuna reazione.
La possibilità di ottenere rappresentazioni fotorealistiche di ambienti inesistenti, ha ispirato diversi artisti alla creazione di veri e propri mondi e narrazioni, con fotografie e video generati.
Gregory Chatonsky nel trittico La ville qui n’existait pas (2023 – in corso) utilizza un’intelligenza artificiale basata sugli archivi fotografici della città di Le Havre, per creare immagini di una città che stranamente somiglia a Le Havre. Presenta luoghi, personaggi e edifici, ma in versioni alternative che raccontano la storia di un mondo leggermente diverso, come se l’intera realtà avesse subìto una deviazione e avesse preso una strada diversa da quella che conosciamo.

Gregory Chatonsky, La ville qui n’existait pas 2: Haven 1971-1973 – Bande Annonce VF (2024)

Ciò che emerge chiaramente è che stiamo attraversando una fase in cui la distinzione tradizionale tra “naturale” e “artificiale”, tra “catturato” e “creato”, tra “autentico” e “sintetico” si sta indebolendo. Le etichette che indicano che l’immagine è generata con AI spariranno presto, e in campo artistico la specifica di “immagine generata con AI” non aggiunge più alcun valore all’opera, se non accompagnata da un concept più forte.
Già si intravede come le immagini generate diventeranno uno standard di produzione rapida, che a un livello base sostituirà la ricerca di immagini nel web, sarà funzionale alla produttività, e rischierà di confermare una visione stereotipata della realtà basata sui bias presenti nei dataset di addestramento. Le immagini generate assumeranno sempre più il valore di illustrazioni e grafica funzionale, mentre una fotografia sarà letta non più in base a ciò che rappresenta e come ci appare, ma in base al contesto, alla fonte, all’autorialità dello scatto.

Questo scenario pone questioni fondamentali per il futuro della cultura visuale. Da un lato, assistiamo a una democratizzazione senza precedenti degli strumenti di produzione di immagini, che potenzialmente libera la creatività dai vincoli tecnici ed economici tradizionali. Dall’altro, ci confrontiamo con il rischio di un impoverimento dell’immaginario collettivo, sempre più omologato sui pattern dominanti nei dataset commerciali.
In questo contesto, la formazione di una nuova alfabetizzazione visuale diventa urgente. Abbiamo bisogno di sviluppare strumenti critici per navigare in un paesaggio mediale in cui la distinzione tra “cattura” e “generazione” si basa sempre meno sull’apparenza e sempre più sulla comprensione dei processi di produzione e distribuzione delle immagini.
Solo attraverso questa consapevolezza critica potremo trasformare quella che rischia di essere una rivoluzione subìta in un’evoluzione consapevole e sostenibile della nostra relazione con le immagini.

RIFERIMENTI BIBLIOGRAFICI

Altman, S. (2025). Blog post, giugno 2025. Disponibile su: [blog di Sam Altman].
Crawford, K. (2021). Atlas of AI: Power, Politics, and the Planetary Costs of Artificial Intelligence. Yale University Press.
Crawford, K. & Paglen, T. (2019). Excavating AI: The Politics of Images in Machine Learning Training Sets. Disponibile su Excavating.ai 
Farocki, H. (2004). “Phantom Images”. Public, 29, 12-22.
Zylinska, J. (2017). Nonhuman Photography. MIT Press.

PROGETTI ARTISTICI CITATI

Anadol, R. (2022). Unsupervised, MoMA, New York.
Anadol, R. (2025). Living Architecture: Gehry, Guggenheim Bilbao (fino a ottobre 2025).
Chatonsky, G. (2023-in corso). La ville qui n’existait pas, trittico.
Farocki, H. (2009-10). Serious Games, serie di quattro film.
Giardina Papa, E. (2019). Cleaning Emotional Data. Sito
Paglen, T. (2020). The Shape of Clouds, progetto fotografico.
Ridler, A. (2018). Miriade (Tulipani). Sito 
Wang, P. (2019). This Person Does Not Exist. Disponibile qui

DATASET E TECNOLOGIE

CIFAR-10 (2008). Dataset con 10 categorie e 60.000 immagini 32×32 pixel.
ImageNet (2010-2022). Da 10.000 immagini in 20 categorie a 14 milioni di immagini in oltre 20.000 categorie.
LAION-5B (2022). 5,8 miliardi di coppie testo-immagine.
StyleGAN (Nvidia, 2019). Architettura di rete neurale per la generazione di immagini.

 

Il sito di Marco Cadioli