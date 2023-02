Az OpenAI verseket és egyetemi esszéket író chatbotja, a ChatGPT nagyon gyorsan az internet egyik legnépszerűbb alkalmazásává vált. Nem csoda, hiszen az alapjául szolgáló nyelvi modell másodpercek alatt képes meglepően szofisztikált szövegeket létrehozni. A chatbotok mellett azonban más népszerű alkalmazások is léteznek, amelyek szöveges parancs alapján hoznak létre különböző vizuális és audiális tartalmakat. Cikkünkben összegyűjtöttük a legismertebb generatív mesterséges intelligencia modelleket, és néhány lehetséges alkalmazási esetet is megemlítünk.

Mi az a generatív mesterséges intelligencia?

A generatív mesterséges intelligencia a gépi tanulás azon részterülete, ahol modellek algoritmusok segítségével állítanak elő új tartalmakat, például képeket, szövegeket vagy hangokat. Jelenleg két fő területe létezik: A GAN-ok (Generative Adversarial Networks), illetve a transzformátor-alapú modellek.

A GAN-ok segítségével vizuális és multimédiás tartalmak hozhatók létre képekből és szövegekből. A Google a blogján úgy írja le a GAN-t, mint olyan párban álló, antagonisztikus mesterséges intelligencia-rendszereket, amelyeket arra tanítanak, hogy egy egyedül dolgozó rendszernél gyorsabban végezzenek el feladatokat. Az egyik rendszer létrehozza a tartalmat, míg a másik értékeli az első próbálkozásait, és ezt több millió alkalommal megismételve tökéletesítik a végeredményt.

A transzformátor-alapú modelleket óriási méretű szöveges adatbázisokon tanítják be, majd felhasználói utasításra ezekből hoznak létre szintén szöveg formátumú új adatokat. Ilyen nyelvi modell a ChatGPT-t működtető GPT (General Pre-trained) modell is.

Ahhoz, érthetővé váljon, mi is pontosan a generatív mesterséges intelligencia, a gépi tanulás fogalmát is érdemes tisztázni. A gépi tanulás a mesterséges intelligencia egyik fajtája, amely segítségével olyan modelleket hoznak létre, amelyek emberi irányítás vagy útmutatás nélkül is képesek "tanulni" az adatokból. A rendelkezésre álló adat mennyisége folyamatosan nő, amely a gépi tanulási algoritmusok újabb alkalmazási lehetőségeinek nyit utat.

A Gartner szerint 2025-re a generatív mesterséges intelligencia várhatóan az összes adat 10%-át (ez jelenleg kevesebb, mint 1%) és a fogyasztói alkalmazások tesztadatainak 20%-át hozza majd létre. Az előrejelzések szerint 2025-re a gyógyszerkutatási és -fejlesztési projektek 50%-ában alkalmazni fogják. 2027-re pedig már a gyártók 30%-a fogja használni a termékfejlesztési folyamatok javítására a generatív modelleket.

Logisztika

A generatív mesterséges intelligencia képes a műholdképeket automatikusan térképpé alakítani, amely különösen akkor lehet hasznos, ha egy logisztikai cég ismeretlen helyszíneken akar eligazítást adni a fuvarozói számára. Az ügyféladatok, a szállítási pontok, a szállítási idők és a szállítási gyakoriság elemzése révén a generatív AI képes azonosítani a legjobb és leghatékonyabb szállítási útvonalakat, valamint előre jelezni a szállítási ütemtervben bekövetkező esetleges fennakadásokat vagy késéseket. Ezzel racionalizálható a szállítási folyamatot, és biztosítható, hogy a megrendelések időben megérkezzenek.

A ChatGPT nyelvi modelljére épülő Bloxassistant segítségével a felhasználók automatizálják a logisztikai műveletek irányításával kapcsolatos feladatokat, úgy, hogy közvetlen utasításokat adnak a az asszisztensnek. A Bloxassistant ezen kívül automatikusan lefordítja a logisztikai partnerek leveleit, és automatikus válaszüzenetet is generál, amely megkönnyíti a kommunikációt a felek között.

Egészségügy

A generatív mesterséges intelligencia képes a röntgen- és CT-felvételeket valósághű képekké alakítani, amely óriási előnyökkel járhat a diagnosztikában. A fentebb említett GAN-modellek segítségével a felvételekből tisztább és részletesebb modellek hozhatók létre a beteg testéről. Ez különösen az olyan veszélyes betegségek, mint a rák korai felismerésében lehet hasznos.

A generatív modelleket a genetikai kutatásban is lehet alkalmazni. A genetikusok folyamatosan kutatják a génkifejeződéseket - vagyis azt, mikor kapcsolnak be és ki bizonyos gének és génkombinációk; valamint, hogy mi történik velük, amikor aktívak. A mesterséges intelligencia segítségével a kutatók meg tudják mondani, hogyan változik a génkifejeződés a génekben bekövetkező konkrét változások hatására. Mindez óriási előrelépést jelenthet a génterápiában, és segítségével a kutatók meg tudják jósolni, hogy egy adott genetikájú személy, hogyan reagálna bizonyos gyógyszerekre.

Képek szintetizálása

Az OpenAI által fejlesztett Dall-E 2 és más alkalmazások (például a Midjourney, a Deep Dream Generator, a Big Sleep és a Stable Diffusion) szöveges leírások alapján készítenek képeket. Ha például egy gördeszkázó medvét akarunk látni reneszánsz stílusban megfestve, akkor a modell másodpercek alatt elkészíti nekünk. Ezek a rendszerek, bár nem tökéletesek, egyre jobb minőségben állítják elő a képeket. Emiatt a generatív modellek egyre nagyobb tere nyernek majd a reklámiparban, a terméktervezésben, és a díszlettervezésben.

Gördeszkázó medve reneszánsz stílusban. Forrás: Portfolio/Stable Diffusion

Tavaly egy mesterséges intelligencia által készített kép nyert egy képzőművészeti versenyt Colorádóban, de nemrég először történt meg az is, hogy egy képgeneráló modell a zsűrit is megtévesztve nyert meg egy fotópályázatot. Az eset komoly figyelmeztetés az iparág számára: egyre nehezebb lesz megkülönböztetni, hogy melyik képet készítette emberi fotós, és melyiket a több millió képen betanított mesterséges intelligencia.

Zenekészítés

Már több olyan generatív modell is létezik, amelyik szöveges utasításra készít zenét, illetve hanghatásokat. A Google legújabb fejlesztése, a MusiLM állítólag úgy képes zenét létrehozni, hogy az több percig konzisztenst marad, és mind a hangminőség, mind az utasításokhoz való ragaszkodás tekintetében jobban teljesít a már létező rendszereknél. A MusicLM nem csak szöveges utasítások, de más dallamok, például füttyszó és dúdolás alapján is képes zenét generálni.

A modellnek rövid utasításokat is lehet adni, ám bonyolult és egészen specifikus leírások alapján is képes dallamokat komponálni. Az egyik, a kutatók által megadott példa így szólt: "A reggaeton és az elektronikus tánczene fúziója, űrbéli, túlvilági hangzással”. Egy másik kísérlet során arra kérték a mesterséges intelligenciát, hogy egy híres festmény, Edvard Munch A sikoly című műve alapján komponáljon zenét. A MusicLM által generált dallam a kutatási anyag szerint jól adta vissza a festmény hátborzongató hangulatát. A zenei modellt a Google a Bard nevű chatbotjával együtt jelentette be, és azt ígérik, tavasszal lesz elérhető a nyilvánosság számára.

Videókészítés

A mesterséges intelligencia nem csak képet, hanem videót is létre tud hozni. A Runway nevű cég olyan generatív eszközt fejlesztett, amely szinte bármilyen vizuális elemmel képes felruházni létező felvételeket bevitt szöveges parancs vagy kép alapján. A Runway oldalára feltöltött bemutatóvideóban látszik, hogy az utcán sétáló emberek agyagbábokká, az asztalra helyezett könyvek pedig éjszakai városképpé változnak. A felvételek jobb minőségűnek tűnnek, mint amit eddig bármelyik más szöveg-videó modell képes volt előállítani, és vélhetően hosszabb felvételeket is képes kezelni.

A videógeneráló eszközöket elsősorban TikTokosok, YouTuberek, valamint film- és tévéstúdiók használhatják. A The Late Show with Stephen Colbert készítői a Runway szoftverével szerkesztettek grafikus elemeket a műsorhoz; a Minden, Mindenhol, Mindenkor című sikerfilm vizuális effektekért felelős csapata pedig szintén segítségül hívta a cég technológiáját bizonyos jelenetekhez.

