Portfolio signature

Elveket tápláltak a mesterséges intelligenciába, ennek viszont csúnya vége is lehet

Portfolio
Hiába adnak pillanatok alatt szinte kész választ a generatív mesterséges intelligenciák, a fejlesztőknek régóta gondot okoz kiszűrni a chatbotok által generált szövegekből a rasszista, szexista vagy egyenesen bűnelkövetésre ösztönző tartalmakat. Egy új mesterséges intelligencia modellt azonban úgy fejlesztettek ki, hogy állítólag ellenőrizni tudja saját magát, és egy előre megadott elvgyűjtemény szerint korrigálja a válaszait. Bár a megoldás még a kutatók szerint sem tökéletes, már most látszik, hogy könnyen vissza lehet majd élni vele.

Alkotmányt a mesterséges intelligenciának

Az új mesterséges intelligencia-képzési módszert az ex-OpenAI alkalmazottak által alapított Anthropic kutatólabor alkotta meg. Az eljárás lényege, hogy a chatbotokat explicit értékekkel ruháznák fel, vagyis „alkotmányt” adnának nekik. 

A mesterséges intelligencia ehhez nyúlna vissza minden alkalommal, amikor a válaszadáskor érzékeny területre téved, ahelyett, hogy a jelenleg széles körben alkalmazott emberi visszajelzésre építő eljárással a fejlesztők utólag finomítanák a válaszait.

A Google által támogatott Anthropic a Claude nevű chatbotjának írt először ilyen alkotmányt, amellyel az a célja, hogy az AI-rendszerek átláthatóságával, biztonságával és döntéshozatalával kapcsolatos aggályokat kezelje. Mindezt anélkül, hogy közben emberek százaira lenne szüksége a modellek finomhangolásához. A nagy nyelvi modellek optimalizálásához ugyanis egy emberi visszajelzéseken alapuló megerősítő tanulási módszert, vagyis az RLHF-et (reinforcement learning from human feedback) alkalmazzák. Az eljárás első lépéseként a mesterséges intelligencia „oktatói” párbeszédeket folytatnak egymással, amelyben mindkét oldalt – a mesterséges intelligenciát is – eljátszák, majd ezeket a dialógusokat betáplálják a chatbotba. Később a képzési adatot a mesterséges intelligencia és igazi emberek között zajló párbeszédekkel egészítik ki.

Signature Pro-val ezt a cikket is el tudnád olvasni!

Ez a cikk folytatódik, de csak Portfolio Signature előfizetéssel olvasható tovább. A Signature PRO szolgáltatás havi díja 2 990 forint. A hozzáférés egy évre is megvásárolható, amelynek díja 29 845 forint, az éves előfizetés keretében tehát 10 havi díjért cserébe 12 havi szolgáltatást kapnak olvasóink. További információ és csatlakozás az alábbi gombra kattintva! További információ és csatlakozás az alábbi gombra kattintva!

Signature előfizetés