Nagyon úgy néz ki, hogy csak a képzeletünk szab határokat a mesterséges intelligencia képességeinek, ma már nem csak szövegeket, verseket, esszéket írnak az AI-ok, hanem szöveges utasításra meglepően jó minőségű képeket hoznak létre. Jelenleg több mint egy tucat képgeneráló modell érhető el, amelyek közül mi most a három legnépszerűbbet, a Dall-E 2-őt, a Midjourney-t és a Stable Diffusiont mutatjuk be.

Diffúziós képgeneráló modellek

A cikkben szereplő mindhárom képgeneráló diffúziós modellen alapul, amelyek úgy működnek, hogy „zajt” keltenek a betanításukra használt adatokban, majd úgy tanulnak, hogy megpróbálják helyreállítani ezeket az adatokat a zajkeltési folyamat megfordításával. Más szóval a modellek zajból generálnak koherens képeket. A modell tehát megpróbálja eltüntetni a zajt, és fokozatosan javítja a kép minőségét, amíg az a lehető legjobban megfelel a bevitt szöveg tartalmának. A modell ezt követően a megtanult a zajmentesítési folyamatot alkalmazza a véletlenszerű beviteli adatokra, hogy azokból valósághű képet hozzon létre.

Dall-E 2

A legnépszerűbb és a legjobb minőségű illusztrációkat készítő szöveg-kép generátor a Dall-E 2, amelyet a ChatGPT-t is megalkotó OpenAI fejleszt. A Dall-E-t tavaly szeptemberben nyitotta meg a nyilvánosság előtt a kutatólabor, és ezzel együtt minden felhasználónak 50 kreditet, azaz 50 ingyenes képkészítési lehetőséget adott. A regisztrált felhasználók, ha elhasználják az 50 kreditet, minden hónapban 15 újat kaphatnak.

A Dall-E leginkább annak köszönheti a sikerét, hogy a generált képek valóban jó minőségűek, pontosan és jól adják vissza a szöveges parancsok tartalmát. Más képgenerátorok gyakran készítenek bizarr vagy sötét tónusú képeket, amihez képest a Dall-E ábrázolásai viszonylag realisztikusak.

A Dall-e lehetővé teszi a felhasználóknak, hogy szabadon változtathassák a kép stílusát, akár az objektív típusának vagy a rekesznyílás méretének megváltoztatásával. A Dall-E emellett a szövegek értelmezésében is kiemelkedően teljesít, hiszen ugyanazt a GPT-3 nyelvi modellt használja, amit a ChatGPT is. A leginnovatívabb funkció valószínűleg a szerkesztési opció, amellyel a feltöltött képekhez adhatunk hozzá elemeket, törölhetünk belőle részeket, élesíthetjük a fókuszt, de olyan specifikus parancsokat is megért, amelyekkel például tükröződést adhatunk hozzá a képekhez.

Megkértük a Dall-E 2-őt, hogy generáljon egy képet, amin egy törpe ül a számítógép előtt, és festeget. Annak ellenére, hogy a Dall-2 készíti általában a legjobb minőségű képeteket, ezúttal sokat torzított. Ennek vélhetően az lehet az oka, hogy a modellt inkább fotórealisztikusnak szánt képek készítésére tanították be, egy kizárólag fantázielemekből álló utasítást kevésbé tud kezelni. Az viszont látszik, hogy a szöveges utasítást, miszerint a törpe nem csak ül a számítógép előtt, hanem fest is, a Dall-E értette meg a legjobban.

Törpe ül a számítógép előtt, és festeget. Forrás: Dall-E 2/Portfolio

Midjourney

A Midjourney szintén kiváló minőségű képeket készít, viszont a Dall-E illusztrációival ellentétben, a végeredmény néha kicsit hátborzongató tud lenni. A fejlesztési koncepció része volt, hogy a Midjourney mindig egyedi, „művészi” stílust alkalmazzon, így kevésbé alkalmas fotórealasztikus képek készítésére. A Midjourney a Dall-E-val ellentétben azt is megengedi, hogy a felhasználók ismert személyekkel hozzanak létre új illusztrációkat.

A Midjourney egyik hátránya, hogy Discord szerverről működik, aminek a használata a tapasztalatlan felhasználók számára okozhat nehézséget, ráadásul könnyen előfordulhat, hogy a képeink elvesznek a csatornán megjelenő más felhasználók által lekért képek között. A képgenerátor használatához először be kell lépni a Discord egyik csatornájára, ahol meg kell adni az "/imagine" botparancsot. A megjelenő "prompt:" szöveg után be kell írni, hogy mit szeretnénk látni, majd a küldés ikonra kattintva hamarosan fel fog tűnni a képünk az üzenetfolyamban.

A Midjourney-n az első 25 kép ingyenes, az alapcsomag pedig havi 10 dollár, amely 200 képgenerálási lehetőséget tartalmaz. Létezik egy tagsági díj is, amely havi 30 dollárért korlátlan használati lehetőséget biztosít.

A legjobb törpés képet talán a Midjourney készített el. A fent említett művészi koncepció érzékelhető, habár "a festeget" utasítást kevésbé értette meg, még akkor is, ha itt-ott azért feltűnik törpéink kezében vagy mellett egy-egy ecsetnek látszó tárgy.

Törpe ül a számítógép előtt, és festeget. Forrás: Midjourney/Portfolio

Stable Diffusion

A Stable Diffusion abban különleges, hogy viszonylag transzparenssé tették a szoftver működését, vagyis nyilvános a forráskódja. Emiatt a képgenerátort a körülötte szerveződő fejlesztői közösség teszi igazán különlegessé. Egy felhasználó például létrehozott egy Photoshop bővítményt a Stable Diffusionhöz, de a Krita nevű digitális képszerkesztőhöz is készült egy változat. A Stable Diffusiont több oldalról is el lehet érni: ilyenek a Dream By Wombo, a Hugging Face és a Night Cafe.

A modell teljes betanítási költsége körülbelül 600 ezer dollár, a Google szoftvermérnökei azonban közzétettek egy tanulmányt arról, hogyan lehet a modellt a Dreambooth nevű mély tanulásos szoftver segítségével finomhangolni.

A Stable Diffusion stabilan, jó minőségben gyártotta le a számítógépező törpéket, de a "festegetés" utasítást csak egy alkalommal értette meg:

Törpe ül a számítógép előtt, és festeget. Forrás: Stable Diffusion/Portfolio

Egyre jobbak, egyre több helyen vetik be őket

Ezek a rendszerek, bár nem tökéletesek, egyre jobb minőségben állítják elő a képeket. Emiatt a generatív modellek egyre nagyobb teret nyernek majd a reklámiparban, a terméktervezésben, és a díszlettervezésben. Nem csoda, hiszen a modellek egyre precízebben dolgoznak, és egyre több hír röppen fel arról, hogy "alkotásaikkal" embereket tévesztenek meg.

Tavaly egy mesterséges intelligencia által készített kép nyert egy képzőművészeti versenyt Colorádóban, de nemrég először történt meg az is, hogy egy képgeneráló modell a zsűrit megtévesztve nyert meg egy fotópályázatot. Mostanában történt, hogy 30 000 követőig jutott az az Instagram-oldal, amelynek szerkesztője bevallotta, hogy a felhasználók tízezreit ámulatba ejtő képeket valójában nem ő, hanem a Midjourney generatív mesterséges intelligenciája készítette. A két eset komoly figyelmeztetés az iparág számára: egyre nehezebb lesz megkülönböztetni, hogy melyik képet készítette emberi fotós, és melyiket a több millió képen betanított mesterséges intelligencia.

