Umělou inteligencí vygenerované obrázky pro aplikaci serveru iROZHLAS.cz | Zdroj: Koláž iROZHLAS.cz / Midjourney

Umělá inteligence či fotograf?
Generované obrázky matou už dnes, ukazují data serveru iROZHLAS.cz

Praha | Tomáš Pika a Petr Kočí |

Čtěte celý článek

Poznáte rozdíl mezi fotografií pořízenou fotoreportérem a produktem umělé inteligence? Tak zněla otázka u kvízu, který připravil server iROZHLAS.cz. Jak vyplývá z výsledků, které redakce po týdnu vyhodnotila, poznat rozdíly mezi jedenácti fotografiemi a deseti generovanými obrázky je čím dál náročnější. Na co se při ověřování zaměřit? A je nástup umělé inteligence v případě obrazových materiálů revoluční?

Aplikaci si podle dat serveru iROZHLAS.cz vyzkoušeli lidé zhruba 55tisíckrát, všech 21 fotek si proklikalo asi 40 tisíc uživatelů. Jejich reálný počet bude patrně o něco nižší, protože aplikace umožňovala po vyhodnocení celou hru zopakovat. Může se tak mírně lišit i konečná úspěšnost.

Úkolem bylo poznat, kolik z 21 obrázků je produktem umělé inteligence a kolik skutečnými fotografiemi. A výsledek? Zcela bez chyby absolvovali aplikaci lidé jen ve 289 případech. Průměrná úspěšnost pak dosáhla hodnoty 63,85 %. Výrazně více se chybovalo u obrázků generovaných umělou inteligencí, které lidé správně zařadili jen v 53,23 % případů. Úspěšnost u určování fotografií pak dosáhla hodnoty 73,5 %.

Je to reálná fotka, nebo dílo umělé inteligence? Vyzkoušejte si, jestli poznáte rozdíl

Číst článek

Podle Jakuba Sedláčka, který působí na Studiích nových médií Univerzity Karlovy a vede semináře zaměřené na umělou inteligenci, je takový výsledek důkazem, jak výrazně se tato technologie zlepšuje a její produkty se stávají uvěřitelné. Obzvláště pak, když čtenáři věděli, že mají obrázky umělé inteligence očekávat.

„Věnuji se generování obrázků rok a půl a tehdy si vygenerovat něco, co se jen podobá fotce, bylo prakticky nemožné. Nevíme, jestli to tempo bude ještě akcelerovat, ale už v tuto chvíli vidíme, že jsou některé ty obrázky přesvědčivé,“ komentuje Sedláček výsledky.

Nejlepší úspěšnost měli čtenáři u umělou inteligencí vygenerovaného obrázku jachty. Ten dokázalo správně určit 86,4 % uživatelů. Ostatně jachta i moře okolo opravdu vypadá velmi plasticky a redakce ji do aplikace připojila jako jeden z obrázků, který by mělo jít poznat poměrně snadno.

„Vypadá to jako normální obraz, jakoby si někdo sednul s tabletem a toto si namaloval. Dalo by se to zaměnit za velmi tvrdě editovanou fotografii, ale jde jasně poznat, že jde o obraz a ne reportážní fotku,“ komentuje Sedláček s poukazem třeba na světlo či nesmyslnou pozici některých oken lodi.

Umělou inteligencí vygenerovaný obrázek jachty | Zdroj: Midjourney
Umělou inteligencí vygenerovaný obrázek jachty | Zdroj: Midjourney

Stejně tak dokázali čtenáři většinově správně určit fotografii Miloše Zemana na přehlídce před Pražským hradem, fotografii mluvčí prezidenta Markéty Řehákové či umělou inteligencí vygenerovaný obrázek setkání amerického prezidenta Joa Bidena a severokorejského diktátora Kim Čong-una v demilitarizované zóně.

Právě na něm jsou podle odborníka patrné znaky, které opět napovídají, že o reálnou fotografii nejde. „Když se podíváte třeba na texturu zdi, vidíte, že je to podezřelé. V pozadí je pak zeleň, která vypadá, jako by ji spíše někdo namaloval,“ popisuje Sedláček znaky, na které se zaměřit, pokud chcete odhalit jako tvůrce umělou inteligenci. Navíc upozorňuje, že jednomu z vojáků se úplně nepovedl obličej.

Nahoře dvě reálné fotografie fotoreportéra Reného Volfíka. Dole pak umělou inteligencí vygenerovaný obrázek setkání severokorejského diktátora Kim Čong-una s americkým prezidentem Joe Bidenem | Zdroj: Koláž iROZHLAS.cz / Midjourney
Nahoře dvě reálné fotografie fotoreportéra Reného Volfíka. Dole pak umělou inteligencí vygenerovaný obrázek setkání severokorejského diktátora Kim Čong-una s americkým prezidentem Joe Bidenem | Zdroj: Koláž iROZHLAS.cz / Midjourney

U fotografií očividně ale mátl jejich kontext. Téměř 30 % čtenářů špatně určilo například fotografii papeže, podepisujícího se na Lamborghini, což je skutečná fotografie papeže z roku 2017 (z akce bylo pořízeno i video). Či ženu, která ukazuje na fotografa serveru iROZHLAS.cz Reného Volfíka neslušné gesto během listopadové protivládní demonstrace.

Jako skutečné

Naopak nejvíce lidé chybovali v případě vygenerovaného obrázku ruských generálů na Rudém náměstí, jejichž součástí měl být podle zadání i Vladimír Putin. Tento obrázek lidé úspěšně určili jen ve zhruba 31 % případů. „Vypadá naprosto reálně. Kdybych toto viděl jako ilustrační fotku v novinách, tak by mě vůbec nenapadlo na tom hledat nějaké nedostatky,“ komentuje obrázek Sedláček.

Kdyby měl přesto hledat nějaké nedostatky, měli by se lidé podle něj zaměřit například na texturu látky oblečení, detaily medailí či skutečnost, že většina generálů na obrázku se navzájem velmi podobá.

„To se stává ve chvíli, kdy tomu dáme nějakou osobnost, kterou tam chceme dostat. Potom ti lidé mají zpravidla něco z této osobnosti. Kompozičnost u těchto modelů zatím není tak dobrá, aby lidi uměla oddělovat. Ještě se stává, že když zadáte výrobu obrázku se dvěma celebritami, tak se sobě docela podobají. Rysy jedné se přelévají do druhé,“ říká s tím, že jestli byl součástí zadání i Putin, jeho rysy každý z generálů jistě obsahuje.

Umělou inteligencí vygenerovaný obrázek ruských generálů | Zdroj: Midjourney
Umělou inteligencí vygenerovaný obrázek ruských generálů | Zdroj: Midjourney

Umělá inteligence má ale podle Sedláčka i další mezery, podle kterých je možné poznat, že nejde o reálnou fotografii. Prozrazují to detaily oblečení, zipů, knoflíků (které se často od sebe liší), textury na zdech, silnicích, dlažbách, oknech či detaily rukou. Ačkoliv se i ty zlepšují, prsty umělá inteligence často deformuje a jen málokdy se podaří, aby konkrétní osoba v rukou něco uvěřitelně držela.

„Někdy se stává, že tam chybí nebo přebývá nějaký prst. Často za to mohou datasety, protože fotografie se v procesu trénování špatně oříznou. Popisek pak obsahuje i věci, které na oříznutém obrázku reálně nejsou. Může jít třeba o fotografii s popisem ‚Miloš Zeman‘, ale ve skutečnosti vstupují do datasetu jen vyřízlé nohy Miloše Zemana,“ vysvětluje.

Čeští politici či známé osobnosti jsou pak další věcí, které umělá inteligence ještě věrohodně generovat neumí. Neznamená to ale, že by se o to nepokoušela. Zahraniční média totiž často disponují například fotkami českých prezidentů, umělá inteligence proto zvládne zpracovat alespoň jejich základní rysy.

„Jako třeba v případě vašeho obrázku Václava Klause. Vypadá to, že už ho to (aplikace Midjourney 5, pozn. red.) asi vidělo, jeho podoba ovšem zdaleka není dokonalá. My jsme zase zkoušeli generovat prezidenta Miloše Zemana a generovalo nám to spíše Gorbačova,“ podotýká Sedláček s úsměvem.

Umělou inteligencí vygenerovaný obrázek Václav Klaus | Zdroj: Midjourney
Umělou inteligencí vygenerovaný obrázek Václav Klaus | Zdroj: Midjourney

Na trénování umělé inteligence přitom není podle odborníka třeba stovka fotek. Stačí jich zhruba dvacet v dobré kvalitě na to, aby generované obrázky byly uvěřitelné. Jak ostatně potvrzuje vlastními výtvory, které se studenty generuje s pomocí neuronové sítě, kterou si sami na fotografiích českých politiků trénují.

Poznáme ještě rozdíl?

A právě vylepšování těchto neuronových sítí podle Sedláčka povede k tomu, že se uměle generované obrázky budou postupem času zlepšovat a v budoucnu už budou od skutečných fotografií jen těžko poznatelné.

Aplikace

Server iROZHLAS.cz vytvořil aplikaci, ve které si mohli lidé vyzkoušet, zda poznají rozdíl mezi skutečnou fotografií a obrázkem, který generovala umělá inteligence. Ke generování obrázků redakce využila službu Midjourney 5, která tvoří obrázky na základě textového zadání s využitím chatovací platformy Discord. Za službou Midjourney stojí stejnojmenná americká firma spoluzakladatele firmy Leap Motion Davida Holze. K veřejnému testování byla spuštěna v červenci loňského roku. Díky strojovému učení a rostoucímu množství zadání se její výstupy neustále zlepšují.

„Prostor generativní umělé inteligence sleduji od roku 2015. To vznikaly první služby, které uměly vygenerovat malé šedivé obličeje 200 x 200 pixelů, ze kterých jsme všichni byli nadšení. Teď vidíme, jak to tempo výrazně akceleruje. To, že jste na exponenciále, poznáte až ve chvíli, kdy dojdete do bodu zlomu, kde to najednou prudce vystřelí nahoru. Teď jsme právě v tomto bodě,“ říká.

Jedním dechem ale dodává, že současné rady na rozpoznávání umělé inteligence od reálných fotek vzhledem k vývoji technologie už nemusejí za několik měsíců platit. „Hledat nějaké detaily už nebude dávat smysl. Nemyslím si tedy, že možnost nějakého poznávání bude možná u obrazu, textu a v budoucnu ani hlasu,“ předvídá pesimisticky.

S tím souhlasí i Sandra Lábová z Institutu komunikačních studií Univerzity Karlovy. „V detailech, jako jsou oči a nos, zatím umělá inteligence příliš dokonalá není. To ale neznamená, že se nebude zlepšovat. Před třemi roky jsme o generování podobně přesných obrázků nemohli hovořit, dnes je to rozšířený fenomén,“ konstatuje.

Manipulace? Žádná novinka

Na rozdíl od Sedláčka ale předpokládá, že oklamat lidi generovanými obrázky nemusí být ani v budoucnu příliš snadné. S vylepšováním technologie totiž bude podle Lábové mezi lidmi růst i větší obezřetnost.

„Podobně to bylo i s fotografií, když byla v 19. století vynalezena. Brala se jako věrohodné médium, které nahrazuje malbu a zachycuje realitu takovou, jaká je. Až později, když se lidé začali s fotografií seznamovat, zjišťovali, že i ta může být manipulovaná. Díky tomu začali být více obezřetní. Dnes už jen málokdo nezná spojení, že je něco ‚vyphotoshopované‘,“ vysvětluje s tím, že dnes už se fotografie nechápe jako přesný záznam reality, protože ta může být postprodukčně upravována.

To ostatně není nic nového. Jak akademička doplňuje, stejně dlouho, jako existuje fotografie, existuje i manipulace s ní. „Zasahovalo se třeba i do negativu fotografie. Vymazávaly se věci, které nebyly žádoucí, dělaly se různé koláže, které se prezentovaly jako realistická fotografie. Zkrátka, celé dvacáté století je plné příkladů manipulované fotografie,“ podotýká.

Fotografie, ze které byl vymazán sovětský politik Nikolaj Ježov | Zdroj: Koláž iROZHLAS.cz / Profimedia
Fotografie, ze které byl vymazán sovětský politik Nikolaj Ježov | Zdroj: Koláž iROZHLAS.cz / Profimedia

Tuto techniku mistrně ovládaly zejména diktátorské režimy – Sovětský svaz a nacistické Německo. Lábová poukazuje třeba na ikonickou fotografii Stalina s Nikolajem Ježovem. „Postupem času se stal nepohodlným, zmizel z politbyra, až byl nakonec vymazán i z fotografie,“ popisuje Lábová.

Podobný případ pak následoval i v Československu, kdy z fotografie na balkónu vedle Klementa Gottwalda zmizel po procesech v 50. letech popravený ministr zahraničí Vladimír Clementis. „Milan Kundera o této fotografii mluví tak, že z Clementise zbyl pouze klobouk, protože došlo k posunutí mikrofonu, který zakryl jeho obličej,“ popisuje Lábová.

Vlevo původní, vpravo pak upravená fotografie Klementa Gottwalda řečnícího na balkóně. Na druhé fotografii došlo k posunutí mikrofonu tak, aby zakryl obličej někdejšího ministra zahraničí Vladimíra Klementise, který byl popraven po procesech v 50. letech | Zdroj: Koláž iROZHLAS.cz / Profimedia
Vlevo původní, vpravo pak upravená fotografie Klementa Gottwalda řečnícího na balkóně. Na druhé fotografii došlo k posunutí mikrofonu tak, aby zakryl obličej někdejšího ministra zahraničí Vladimíra Klementise, který byl popraven po procesech v 50. letech | Zdroj: Koláž iROZHLAS.cz / Profimedia

V minulosti se nemanipulovalo s fotografií ale jen kvůli politickým důvodům, ale třeba i ryze praktickým. V roce 1982 například renomovaný časopis National Geographic otiskl upravenou fotografii pyramid v Gize, z nichž dvě byly počítačově přesunuty.

Časopis to později vysvětloval tím, že k podobnému kroku přistoupil kvůli formátu titulní strany. „Hájili to tím, že kdyby fotograf věděl, že formát novin je jiný, tak by se postavil z jiného úhlu a pyramidy by v podobném stylu zachytil,“ vysvětluje Lábová.

A k podobným postprodukčním úpravám fotografií může docházet i dnes, a to třeba bez záměrné snahy mást. I proto je podle Lábové důležité chápat, že fotografie, stejně jako obrázky generované umělou inteligencí, zachycovat realitu nutně nemusejí. K oběma je proto třeba přistupovat obezřetně jako ke každému jinému druhu informace. Přemýšlet nad kontextem a když si nejsme pravostí jistí, pokusit se obrázek ověřit.

„Ověřování informací je základ všeho. Obzvláště pak v záplavě informací a obrazového materiálu, kterému čelíme. Měl by to být základní nástroj, zamýšlet se, jestli náhodou to, co vidíme, není třeba výsledek nějaké stylizace,“ vysvětluje.

S tím souhlasí i Sedláček, podle kterého je základem v budoucnu právě kritické myšlení – schopnost usoudit, zda na obrázku či fotografii zachycená situace vůbec mohla nastat. A pak možnost opřít se o ověřené zdroje informací – zaběhlé mediální organizace, jejichž role bude v budoucnu při práci s informacemi klíčová.

Tomáš Pika a Petr Kočí

Související témata: obrázek, umělá inteligence, Jakub Sedláček, Miloš Zeman, Vladimir Putin, technologie, realita, Vladimír Clementis, Univerzita Karlova, Joe Biden, věda a technika, technologie a inženýrství, Sandra Lábová, Datová žurnalistika