Cuki képeket generál a Google – és miért nem játszhatunk vele?

Tele a net a mosómedvés, napszemüveges kutyás, pandás képekkel, amiket mind a Google mesterséges intelligenciája alkotott.

A Google Brain képalkotó mesterséges intelligenciája, az Imagen, az eddigi legmagasabb pontszámot érte el a számítógép által generált képek technikai „DrawBench” minősítésén. Az Imagen

társaihoz hasonlóan úgy működik, hogy szavakat diktálnak neki, melyek alapján neurális hálózatával „megálmodja” a képeket, festményeket.

Az alábbi kép arra az utasításra készült, hogy készítsen egy nagy rozsdás hajót, amelyik egy befagyott tóban rekedt. Havas hegyek és gyönyörű naplemente legyen a háttérben.

We are thrilled to announce Imagen, a text-to-image model with unprecedented photorealism and deep language understanding. Explore https://t.co/mSplg4FlsM and Imagen!

A large rusted ship stuck in a frozen lake. Snowy mountains and beautiful sunset in the background. #imagen pic.twitter.com/96Vfo2kXJz
— Chitwan Saharia (@Chitwan_Saharia) May 24, 2022

Az Imagen sok képe lenyűgözően jó. Némelyiknek a háttere olyan tökéletes, hogy akár a National Geographic oldaláról is vehették volna, ráadásul a felbontásuk még óriásplakátra is tökéletes lehetne.

De ahogyan az OpenAI tette a DALL-E-2-vel, a Google is leginkább a cukiságra hajt. Mindkét cég antropomorf állatokat ábrázoló képekkel népszerűsíti eszközeit, amelyek imádni való dolgokat művelnek: egy pandaszakács tésztát készít, a plüssmackó 400 méteres pillangóúszásban úszik az olimpián – és így tovább.

New @GoogleAI work:

Input: "Two meerkats sitting next to each other on top of a mountain and looking at the beautiful landscape. There is a mountain, a river lake, and fields of yellow flowers. There are hot air balloons in the sky."#imagen https://t.co/JEgyNrcJjl

Output: https://t.co/uj4urjnZPF pic.twitter.com/I1zx8ZARBl
— Jeff Dean (@🏡) (@JeffDean) May 24, 2022

"A photo of a dog with zebra stripes"

Created with #imagen, a text-to-image diffusion model from #googlebrain pic.twitter.com/DbjGN5biZI
— Daniel Smith (@motionphi) July 9, 2022

Hogyan jönnek létre ezek a képek? Miért pont ilyen cukik kerülnek nyilvánosságra? Mindennek technikai és PR okai is egyaránt vannak.

Az olyan fogalmak együttes használata egy leírásban, mint a „borzos panda”, meg a "tésztakészítés" arra kényszeríti a neurális hálózatot, hogy megtanulja, miként csűrje-csavarja, manipulálja ezeket úgy, hogy az eredmény mégis „értelmes” legyen.

A képek válogatása azonban közvetett módon éppen az MI-eszközöknek a sötétebb oldalára figyelmeztet az MIT Technology Review szerint.

Ugyanis az OpenAI és a Google a képeket alapos válogatás után hozza nyilvánosságra. Korántsem véletlen, hogy csakis aranyosakat látunk, hogy nincsenek gyűlöletes sztereotípiákat, rasszizmust, nőgyűlöletet tartalmazó, vagy erőszakos, szexista képek. Egyáltalán nincs pornó.

Nem titok, azért kell válogatni, mert az olyan hatalmas modellek, mint a DALL-E 2 és az Imagen, közvetlenül az internetről tanulnak, magukba szívják annak legjobb és legrosszabb tartalmait és – okos tükörként azt adják vissza. Így aztán amit az internetről elsajátítanak, az olyan üzeneteket (is) hordoz, amelyeket az OpenAI és a Google cenzúrázni kénytelen.

Mikor az OpenAI 2019-ben előlépett, azonnal kiderült, hogy az interneten képzett modellek vállalhatatlan elfogultságokkal rendelkeznek. És létrehozóik ugyan tudják, hogy mesterséges intelligenciájuk képes szörnyű tartalmak előállítására, de fogalmuk sincs, hogyan lehetne ezt a problémát orvosolni.

Egyelőre az a megoldásuk, hogy ketrecben tartják őket: a DALL-E 2-t az OpenAI csak egy maroknyi megbízható felhasználó számára teszi elérhetővé, a Google pedig nem tervezi az Imagen nyilvános kiadását.

Úgyhogy egyelőre csak nézegessünk mackókat. Vagy rozsdás hajókat.

Borítóképünk az Imagen alkotása