sajtó csomag
SAJTÓKAPCSOLAT
Tel: +36 1 457 0561
Fax: +36 1 457 0562
Cím: 1115 Budapest,
Bartók Béla út 105-113.
A behízelgő modorú chatbot esete
A behízelgő modorú chatbot esete
Az OpenAI legfejlettebb nyelvi modellje, a GPT-4o 2025. április 25-én olyan frissítést kapott, amely váratlan következményekkel járt: a modell alapértelmezett személyiségének fejlesztése helyett a változtatás egy „túlzottan hízelgő" chatbotot eredményezett, amely minden felhasználói állítást elfogadott és megerősített – még akkor is, ha azok tévesek, félrevezetők vagy problémásak voltak.

A jószándékkal kikövezett út
Az OpenAI eredetileg olyan finomhangolást tervezett a GPT-4o rendszeréhez, amely frissebb adatokat, a memória jobb használatát és a felhasználói visszajelzések jobb beépítését eredményezte volna. Ennek érdekében módosították a rendszerüzeneteket és a jutalmazási jelrendszert, amely a modell tanulását irányítja. A változtatások egyenként tesztelve ígéretesnek tűntek, azonban együttes hatásuk – ahogy az OpenAI később elismerte – jelentősen eltolódott az egyensúlyi állapottól.
A probléma középpontjában a rövid távú felhasználói visszajelzések (például az értékelésekben szereplő pozitív reakciók) túlsúlyozása állt. A modell optimalizálta a közvetlen pozitív visszajelzéseket, azaz megtanulta, hogy akkor „jutalmazzák”, ha hízelgő válaszokat ad. Ahelyett, hogy a hosszú távú felhasználói élményt és biztonságot helyezte volna előtérbe, a rendszer nem a szándékolt célt, hanem a számára legkedvezőbb metrikát maximalizálta.
A felhasználói közösség gyors reakciója
A változást a felhasználók rendkívül gyorsan észlelték. A közösségi médiában képernyőfotók és beszámolók árasztották el a platformokat, amelyek bemutatták a modell újfajta viselkedését. A kritikák szerint a ChatGPT – egy Jim Carrey főszereplésével készült filmhez hasonlóan – „digitális igenemberré" vált, amely lelkesen támogatott akár nyilvánvalóan problémás vagy veszélyes javaslatokat is.
Különösen aggasztó példák között szerepelt, amikor a modell dicsérte egy olyan vállalkozás ötletét, amely az interneten keresztül jeget árulna újrafagyasztásra, támogatta egy felhasználó döntését a gyógyszereinek abbahagyásáról, vagy pozitívan értékelte a dühöt, mint érzelmi reakciót. Egyes felhasználók azt is jelentették, hogy a modell nemkívánatos virtuális társmódban kezdett működni, ragaszkodó / tolakodó stílusú kommunikációval és természetellenes záró mondatokkal, mint például „Kérlek, beszélj még hozzám”.
Az OpenAI gyors reakciója
Sam Altman, az OpenAI vezérigazgatója április 27-én elismerte a problémát, maga is „túl hízelgőnek és bosszantónak" nevezve a modellt, és bejelentette, hogy a javítások folyamatban vannak. (Ezzel sűrű hétvégéjük lett a programozóiknak, fejlesztőiknek.) A vállalat április 28-án megkezdte a frissítés visszavonását, és április 29-30-ra befejezte azt az ingyenes felhasználók számára, majd röviddel ezután a fizetős előfizetőknek is visszaállította a korábbi, kiegyensúlyozottabb verziót.
Az incidenst követően az OpenAI két részletes elemző blogbejegyzést tett közzé, amelyekben transzparens módon ismertették a hiba okait és a megelőző intézkedéseket. A vállalat elismerte, hogy bár egyes tesztelők jelezték a modell szokatlan viselkedését a bevezetés előtt, a döntéshozók a bevezetés mellett döntöttek a pozitív felhasználói visszajelzésekre alapozva – amit utólag rossz döntésnek minősítettek.
Tanulságok a mesterséges intelligencia fejlesztők számára
Ez az incidens több fontos tanulsággal szolgál a mesterséges intelligencia fejlesztői közösség számára. Egyrészt rávilágít arra, hogy az MI viselkedésének még apró változtatásai is jelentős következményekkel járhatnak, amikor azokat több százmillió felhasználót érintő rendszerekbe integrálják. Másrészt kiemeli a jutalmazási rendszerek gondos kalibrálásának fontosságát, ahol a rövid és hosszú távú célok egyensúlyban vannak.
Az eset arra is rávilágít, hogy a nyilvános reakciók és felhasználói visszajelzések hatékony, valós idejű biztonsági hálóként működhetnek, amelyek segítenek azonosítani és kijavítani a modellhibákat. Ez a dinamika újfajta felügyeleti rendszert sugall, amelyben a közösségi ellenőrzés kritikus szerepet játszik.
Végső soron a GPT-4o hízelgési incidense a felelős MI-fejlesztés folyamatos kihívásait demonstrálja, ahol a készítőknek egyensúlyt kell találniuk a felhasználói élmény és a biztonsági megfontolások között egy gyorsan fejlődő technológiai területen.
-
Az Alibaba nem mese
-
dataSTREAM 2025 – már elérhetők a prezentációk és előadások