La photographie à l’heure des intelligences artificielles génératives

Tout commença lorsque trois enfants hyperactifs en pyjamas rayés firent leur apparition sur l’écran de télévision. Cagoules en tête, voilà que les mioches se mirent à “voler les couleurs” de malheureuses victimes qu’ils prenaient en photo grâce à leur pellicule Kodak Gold¹. Cet été 1995, j’en fis de même (mais sans pyjama ou bonnet étrange). Equipé d’un appareil photo jetable, je jouais au paparazzi en prenant pour sujets les membres de ma famille. Des années plus tard, devenu adulte, je fis l’expérience d’une nostalgie fulgurante en tombant sur ces photographies oubliées. Je reconnus ma famille et soudainement cet été se rappela à moi grâce aux couleurs que j’avais “volées”. Cette capacité propre à la photographie de nous faire ressentir l’expérience d’un passé révolu et immuable créa en moi non seulement une passion pour ce média, mais également une interrogation quant à son avenir, au vu de l’arrivée des intelligences artificielles génératives.

Authentifier le réel passé

Le photographe n’est pas la seule à pouvoir “voler” les couleurs. L’artiste peintre en fait de même. Mais si les deux médias ont une capacité à représenter une scène, la photographie le fait évidemment avec un degré de fidélité bien plus important. Grâce à cela, elle est le premier média à être perçu comme retranscrivant la réalité sans aucun intermédiaire. Les photographies ne seraient ainsi pas le résultat de l’interprétation, potentiellement compromise, d’un artiste, mais l’aboutissement d’un processus chimique sur lequel le photographe n’aurait qu’une influence modique (le choix du temps et du lieu de la prise de vue). Ainsi, ce qui est capturé a ainsi nécessairement eu lieu au moment de la prise de vue. A son pouvoir de représentation, la photographie possède donc en plus une aptitude à ratifier les évènements passés qui la rend tout-à-fait unique.

Dans La chambre claire², Roland Barthes écrit que la caractéristique essentielle de la photographie est de dire, sans équivoque : “ça a été”. En effet, parce que la photographie est le résultat d’un processus physique entre la lumière réfléchie d’une scène et un matériel photosensible, un cliché est nécessairement une émanation du réel passé. Le spectator (désigne la personne contemplant une photographie chez Barthes) ne peut nier qu’à l’instant de la prise de vue par l’operator (le photographe), le spectrum (le sujet) était bel est bien devant l’appareil. Telle est la force si distinctive de la photographie: au-delà de représenter le réel, elle authentifie le réel passé et immuable. Telle est la source de la capacité de la photographie à émouvoir son audience : elle nous représente les spectres (d’où l’utilisation du latin spectrum pour définir le sujet) d’un passé révolu auquel nous ne pouvons plus rien changé.

L’essence de la photographie est de ratifier ce qu’elle représente.
Roland Barthes, La chambre claire (I-36), Gallimard, 1980

Il n’est ainsi pas surprenant que rapidement après sa création, la photographie soit devenue documentaire. Au tournant du XXème siècle, le journaliste américain Jacob Riis publia How the Other Half Lives³ (Comment vit l’autre moitié) documentant, grâce à de nombreux clichés, les conditions de vies insalubres des immigrants fraîchement arrivés à New York. En dévoilant ce qui était caché aux yeux du public, Riis réussit à réunir suffisamment de pathos et d’influence pour changer les codes de constructions et d’habitation. Ce qu’il décrivait dans les colonnes de son journal n’a pu avoir l’impact escompté que lorsque ses photographies authentifiant la réalité des taudis où s’entassaient les immigrants furent publiées. Les photographies du sociologue Lewis Hine, quant à elles, eurent un impact important dans la promulgation d’une loi interdisant le travail des enfants. Ses clichés documentant le travail de mineurs à travers les Etats-Unis ont permis de rendre réelles leurs conditions de travail difficiles auprès de l’opinion publique.

Photographie de Jacob Riis, publiée dans How the Other Half Lives, 1890 — Street Arabs, Jacob Riis, 1888-1898

De par leur processus de création physique apparemment infalsifiable et leur capacité à représenter la réalité avec un degré accru de fidélité, les photographies ont un capital confiance important auprès de leur public. Elles jouiraient ainsi d’une certaine “présomption d’innocence” auprès de leur audience… Mais comment ignorer l’omniprésence des clichés retouchés aujourd’hui? Que reste-t-il de ce capital confiance quand il est si facile de modifier une scène après l’avoir capturée?

Elle est photoshopée, non ?

Si la photographie est effectivement en mesure de certifier qu’une scène photographiée a effectivement eu lieu, elle ne dit rien du contexte particulier de ladite scène. En effet, nous savons aujourd’hui que le Baiser de l’hôtel de ville de Robert Doisneau n’est pas un cliché spontané mais une mise en scène de deux étudiants en théâtre payés pour l’occasion⁴. De même, Jacob Riis, cité plus tôt, faisait poser les enfants des quartiers miséreux de New York afin de mieux étayer son propos⁵. A travers ces exemples, on comprend que les photographies sont également construites par la main du photographe. Ce dernier opère nécessairement un choix dans l’espace et dans le temps lors de sa prise de vue. Or ce choix peut s’avérer plus ou moins orienté en fonction des intentions du photographe. Que reste-t-il de la force d’authentification de la photographie dans le cas de ces mises en scène? On ne peut reprocher à la photographie de ne pas capturer le hors-champ qui a été délibérément laissé de côté. Les clichés n’ont jamais fait qu’attester qu’à un moment donné, les sujets étaient bel et bien présents lorsque la scène fut capturée ; mais il est important de se souvenir qu’ils ne disent rien des intentions du photographe, ou des raisons pour lesquelles la scène a lieu.

La photographie s’avère ainsi ne pas être aussi désintermédiée que cela. Si intrinsèquement la capacité de la photographie à dire “ça a été” n’est pas remise en question par les mises en scène, elles représentent toutefois une première cassure qui érode la “présomption d’innocence” (c’est-à-dire de vérité) qui fait la force du média photographique.

Apparues très tôt, les différentes techniques de retouches, s’appliquant après la prise de vue, ne font qu’empirer cette érosion. Si éditer une photographie artistique ou de paysage afin d’en améliorer le caractère esthétique (la fameuse technique du dodge and burn d’Ansel Adams par exemple) peut se comprendre, l’apparition de manipulations en bonne et due forme est plus problématique. Autour de 1860, le portraitiste Thomas Hicks manipule ainsi une photographie de l’homme politique John C. Calhoun afin d’y remplacer sa tête par celle d’Abraham Lincoln⁶. Quatre ans plus tard, une composition de trois photographies différentes permet de représenter le général Ulysse Grant sur le front de la Guerre de Sécession⁷. On le comprend, c’est parce que la photographie a un capital confiance important auprès de son audience qu’elle est d’autant plus intéressante à détourner pour des fins de propagandes politiques. Mao Zedong, Staline, Mussolini étaient ainsi tous connus pour manipuler les clichés les représentant.

Composition de trois photographies différentes par Levin Corbin Handy afin de représenter le général Ulysse Grant sur le front de la Guerre de Sécession

Si ce type de manipulations restaient rares de par les compétences techniques nécessaires pour les réaliser, l’invention de la pellicule, et l’arrivée plus tardive du numérique, facilitera grandement les retouches et la composition d’images. La fréquence d’utilisation de ses techniques grandira de manière exponentielle à la fin des années 1980 avec l’invention de Photoshop. La démocratisation des images retouchées ne se fera pas sans une perte importante d’un certain capital confiance au profit d’un scepticisme généralisé. Si désormais il est rarissime de voir des clichés non retouchés dans le domaine publicitaire, certains bastions tels que le photojournalisme résistent encore. Ainsi, en 1982, le National Geographic dut présenter ses excuses pour avoir altéré le ratio d’une photographie représentant les pyramides de Gizeh pour sa couverture⁸. Plus grave, en 2003, le photographe Brian Walski retoucha une photographie prise durant la guerre en Irak afin de la rendre plus dramatique en composant des clichés pris à quelques minutes d’intervalle⁹. Le résultat final représentait un soldat pointant son arme sur un homme tenant un enfant dans les bras.

Abreuvé par l’omniprésence d’images retouchées, le public s’éduque et comprend que le cliché qu’on lui présente ne correspond pas nécessairement à ce qui a été capturé. Les photographies perdent petit à petit leur capacité unique à ratifier le passé révolu, et deviennent de plus en plus source d’interrogations… C’est l’histoire même qui est parfois remise en question: l’Homme a-t-il vraiment marché sur la Lune? Un renversement s’opère alors. La photographie passe d’une certaine “présomption d’innocence” à un régime de culpabilité présumée. Les clichés ne se suffisent plus à eux-mêmes pour dire la vérité de ce qui a été.

DALL-E, dessine-moi un mouton

Les progrès récents des intelligences artificielles dites génératives nous laissent, par ailleurs, entrevoir un monde où les photographies ne seraient même plus nécessairement capturées par des photographes munis d’appareils, mais créées par des narrateurs proposant des commandes à un programme informatique. DALL-E, Midjourney, Stable Diffusion sont quelques exemples d’outils permettant d’ores et déjà de générer des images photo réalistes à partir de prompts. Ces intelligences artificielles permettent ainsi de créer des photographies de synthèse (à plus d’un titre), créées à partir de l’étude de millions de photographies plus ou moins authentiques.

Comment ne pas penser à l’allégorie de la caverne de Platon ? N’ayant pas accès à la réalité même, les intelligences artificielles génératives s’abreuvent de millions d’ombres projetées et choisies par leur créateur afin de générer elles-mêmes des images synthétisant ces ombres. Le contenu généré ne correspond ainsi à aucune réalité en tant que telle. Il se rapproche ainsi beaucoup plus de l’illustration, comme la peinture ou le dessin, que de la photographie pure. Par ailleurs, l’instantanéité de ces outils peut laisser à penser qu’ils sont entièrement désintermédiés. En effet, lorsque quelques secondes suffisent à créer une image automatiquement à partir d’une commande, il est aisé de penser que ces outils ne laissent aucune place à la manipulation. Or c’est précisément l’inverse : les images de synthèse ne sont qu’une reprise de représentations choisies par un intermédiaire distant et souvent inconnu. Lorsqu’un journaliste de Bloomberg proposa la commande “PDG” à Stable Diffusion, la majorité des visages générés avaient une peau blanche tandis que les peaux étaient beaucoup plus diverses lorsque le journaliste utilisa des commandes faisant référence à des emplois modestes¹⁰. Comparés à des données réelles, les biais de l’IA se sont révélés pires que la réalité de la société américaine.

Freddie Mercury at the San Fransisco Gay Pride 2023, created with Midjourney

Réalisées automatiquement, à moindre coût et sans appareil, nul doute que ces “photographies” deviendront pourtant aussi omniprésentes que la retouche de clichés aujourd’hui. Nina Schick, auteure et experte sur le sujet des intelligences artificielles génératives, prévoit déjà que 90% du contenu en ligne sera créé de cette manière d’ici 2025¹¹. L’abondance de contenu synthétique mais indiscernable de clichés authentiques fera sans doute perdre au public le peu de capital confiance qu’il accordait encore à la photographie, au risque de la reléguer définitivement au rang de simple illustration. Les intelligences artificielles finiront ainsi probablement le travail d’érosion de la crédibilité de la photographie que la retouche avait commencée à la fin du XIXème siècle.

Sauver la photographie par une authentification tierce?

Est-ce la fin de la photographie pour autant? Probablement pas. Le désir de capturer une scène sera toujours présent, et nos smartphones constituent tout autant d’appareils prêts à être dégainés en un instant… Mais ces photographies authentiques (pour peu qu’il n’y ait pas de filtres altérant significativement la scène) ne jouiront sans doute plus jamais de la même crédibilité auprès de leur audience que les clichés du tournant du XXème siècle de Jacob Riis ou Lewis Hines.

La photographie en tant que capture authentique du passé mérite toutefois d’être sauvée et distinguée des images fortement éditées ou générées par l’intelligence artificielle. Il nous faut être capable de distinguer les clichés capturés sur la Lune en 1969 d’images de synthèse créée afin de créer le doute quant à la véracité de l’alunissage¹².

Photographie de synthèse générée grâce à Midjourney représentant le prétendu lieu de tournage de l’alunissage

Certaines initiatives vont déjà dans ce sens. Face aux mises en scène et aux tentations de la retouche photographique, la National Press Photographers Association propose ainsi un code de déontologie¹³ mentionnant que la retouche numérique ne doit pas altérer l’intégrité du contenu et du contexte du cliché. Aucune manipulation ajoutant, supprimant ou modifiant des éléments pouvant tromper l’audience ne peut ainsi avoir lieu. Par ailleurs, en France, il est obligatoire d’ajouter la mention “photographie retouchée” sur les clichés à usage commercial depuis octobre 2017¹⁴. Si cette loi avait avant tout pour objectif de préserver la santé publique, elle semble montrer une voie possible pour clairement étiqueter les photographies du type deep fake.

Cependant l’expérience montre déjà que même lorsque certaines images de synthèse sont accompagnées d’une description mentionnant leur provenance, l’audience finit tout de même par être trompée… De partage en partage, la mention “générée par une intelligence artificielle” disparaît au point que l’image soit potentiellement considérée comme réelle. Ainsi, le journaliste britannique Eliott Higgins généra une série de photographies de synthèse représentant Donald Trump tentant d’échapper à des agents de police sur le parvis du tribunal de New York¹⁵. Si l’intention du journaliste était clairement mentionnée, de partage en partage, le contexte disparaît et la photographie de synthèse finit par tromper une partie de son audience qui la prend pour authentique.

Comment dès lors s’assurer que les contenus authentiques publiés sur Internet soient ratifiés comme tel? Le défi est difficile mais la Coalition for Content Provenance and Authenticity¹⁶ (Coalition pour la provenance et l’authenticité du contenu) propose déjà un concept intéressant permettant la mise sous scellé des informations de provenance et d’édition d’une photographie donnée. Dès la prise de vue, les informations de capture (le lieu, la date, l’auteur) seraient encodées au sein même du fichier de l’image. Toute tentative de falsification de ces informations résulterait en la perte du certificat d’authenticité. Il serait toutefois toujours possible d’éditer les photographies grâce à un logiciel de retouche compatible. Les informations d’éditions sont alors ajoutées au manifeste. En bout de chaîne, l’audience serait en mesure de consulter l’ensemble des informations relatives à cette photographie depuis sa création.

Vers un salut technique?

Une solution technique à un problème exacerbé par la technique? Oui, sans doute. Adoptée en masse, cette certification pourrait devenir similaire à la déclaration nutritionnelle des aliments que nous achetons en supermarché. Mais comme pour les produits dans nos rayons, somme toute, il sera impossible de forcer l’audience à vraiment lire le manifeste… De même, elle ne permettra pas d’empêcher d’éventuelles mises en scène à des fins de manipulation de l’audience.

Toutefois, ce certificat sera bénéfique par la transparence de sa traçabilité… Connaître le lieu de prise de vue, l’heure et la date, l’auteur mais également (et surtout) l’historique complet des retouches qu’une photographie a subi permettra à l’audience de consulter et partager un cliché en pleine âme et conscience. Comme dirait Spinoza, nous ne sommes jamais aussi libres que lorsque nous connaissons les causes de ce qui nous affecte.

Remerciements : Loève Saint-Ourens, Christophe Marques

Les voleurs de couleurs, Kodak, 1989 ↩︎
La Chambre claire : Note sur la photographie, Roland Barthes Gallimard/Seuil/Cahiers du cinéma, Paris, 1980 ↩︎
How the Other Half Lives, Jacob Riis, Library of Congress,1890 ↩︎
L’histoire derrière la légendaire photo du “Baiser de l’hôtel de ville” de Doisneau, Sirine Azouaoui, Kombini ↩︎
Son gadget a changé l’histoire des États-Unis, Le Monde (sur YouTube) Karim El hadj ↩︎
Bien avant Photoshop, Lincoln faisait retoucher ses photos pour paraître beau gosse, Axel Savoye, Kombini ↩︎
La photo du général Grant qui a été « photoshopée »… en 1902, Cyril Bonnet, L’Obs ↩︎
How We Spot Altered Pictures, Susan Goldberg, National Geographic ↩︎
US war photographer sacked for altering image of British soldier, Duncan Campbell, The Guardian ↩︎
Humans are Biaised. Generative AI is Even Worse, Leonardo Nicoletti et Dina Bass, Bloomberg ↩︎
CES: Could 90 Percent of Content Be AI-Driven by 2025? , Carolyn Giardina, The Hollywood Reporter ↩︎
Can We No Longer Believe Anything We See? , Tiffany Hsu et Steven Lee Myers, The New York Times ↩︎
Code of Ethics, National Press Photographers Association ↩︎
Décret n° 2017-738 du 4 mai 2017 relatif aux photographies à usage commercial de mannequins dont l’apparence corporelle a été modifiée ↩︎
Midjourney bannit le journaliste à l’origine des fausses images de l’arrestation de Donald Trump, Julie Ragot, BFM TV ↩︎
C2PA ↩︎