sajtó csomag

Töltse le a Clementine bemutatkozó anyagát.

Letöltés

SAJTÓKAPCSOLAT

E-mail: Ez az e-mail-cím a szpemrobotok elleni védelem alatt áll. Megtekintéséhez engedélyeznie kell a JavaScript használatát.
Tel: +36 1 457 0561
Fax: +36 1 457 0562
Cím: 1115 Budapest,
Bartók Béla út 105-113.

Reflection, a nagyreményű MI-modell rövid, tanulságos története

Színes

2024. október 02.

Az LLM-helyzet egyre csak fokozódik. Nem elég, hogy a kínaiak a Qwennel egyre agilisabb versenyzővel jelennek meg a ringben, a ChatGPT még mindig tartja vezető pozícióját (és már az o1 változatnál jár) – új trónkövetelők felbukkanására is bizton számítani lehet. Közéjük tartozik a Reflection modell is: ennek rövid tündöklése és bukása jól mutatja, hogy még a szakemberek sem tudják magukat kivonni a hype és a felületesség jelensége alól.

2024 szeptember 5.: a szenzáció

Matt Shumer, az írásban segítő generatív mesterséges intelligenciára épülő megoldás, a HyperWrite AI vezére bejelenti: Reflection 70B néven létrehozták a világ eddigi legjobb nyílt forráskódú LLM-rendszerét. Ez hatalmas teljesítménynek számít a kis, New York-i startuptól! A termék ígérete az általuk csak Reflection-Turing névre keresztelt technológia, amely gyakorlatilag a nagy nyelvi rendszerek hibáját, a hallucinálást oldja meg folyamatos korrekcióval. Magyarán: mielőtt a felhasználó a promptjára választ kapna, azelőtt a Reflection „reflektál” a saját maga által javasolt kimenetre, és ha kell, változtat azon.

Az első benchmarktesztek több mint ígéretesek: azt mutatják, hogy az új modell olyan fontos konkurenciákra is ráver, mint például a programozók által ajnározott Claide 3.5 Sonnet vagy a Meta csúcsterméke, a Llama 3.1.

Az első, még aznap megszülető beszámolók az elragadtatás hangján beszélnek a Reflection-ről.

2024 szeptember 6-8.: a mézeshetek

Az X-en sorra jelennek meg a bejegyzések arról, hogy a tesztelők megerősítik a Reflection mérési eredményeit. Ez különösen annak a fényében zavarba ejtő teljesítmény, hogy ez egy kisebb modell.

A lelkesedés tetőfokára hág: a várható, nagy adatkészleten okosított 450B-s változat körül magasra csapnak a lelkesedés hullámai. Agyő, ChatGPT, agyő, Claude!

2024 szeptember 7.: a kijózanodás

Az egyik első rossz hírt a cégektől független MI-elemzőcég, az Artificial Analysis szállítja. Ők elvégzik újra a teszteket, és megállapítják, hogy az MMLU (Massive Multitask Language Understanding) benchmarknál szó sincs arról, hogy a Reflection verné a Llama-t, amely komolyan felveti Shumerék őszinteségét a saját produktumukkal kapcsolatban.

Ugyanezen a napon Matt Shumer feltöltési, technológiai problémára fogja a rosszabb eredményt, elismeri, hogy ez az ő hibájuk, és ígéretet tesz a javításra.

2024 szeptember 8.: az összeomlás

Az Artificial Analysis egy Shumertől kapott privát API-n keresztül teszteli a Reflection 70B-t, és megállapítja, hogy bár jók a teszteredmények, korántsem olyanok, mint ahogy az az eredeti, szeptember 5-i posztban volt olvasható.

Hamarosan több felhasználó is bebizonyítja: a Reflection nem egy, az LLM-ek fejlesztését meghatározó, új, forradalmi technológia. Nem is egy soha nem látott metódus, amely közelebb hozza a logikusan gondolkodó-érvelő algoritmusok korát, hanem csak egy „Claude wrapper”. Azaz a motorháztető alatt egy közönséges Claude 3.5 Sonnet generatív modell fut, amelyet beépített promptok segítségével tettek olyanná, mintha valami sokkal jobb és korszerűbb modell volna.

Közben furcsa dolgok történnek technológiailag is: a Reflection „dobja” Claude-ot, egy rövid ideig ChatGPT-re vált, majd kiköt a Llama-nál. Ezzel megnehezíti az igazság után kutakodók dolgát, de a screenshotok napnál világosabban bizonyítják, hogy tényleg csak egy, már meglévő modell tuningolása zajlik. A Hugging Face oldalán – ahol szabadon ki lehetett próbálni a Reflectiont – cenzúrázottabb válaszok kezdenek megjelenni. Az általános vélekedés szerint itt történt meg a „motorcsere”, hogy elrejtsék a Claude-ot a fürkész tekintetek elől.

Ezen a ponton több, a szakmában dolgozó ember csalónak és hazudozónak bélyegzi (meg) Matt Shumert, aki ezzel a marketingtrükkel próbált gyorsan még több befektetési pénzhez jutni. A Hugging Face külön posztsorozatban számol be Shumer velük kapcsolatos etikátlan viselkedéséről.

2024 szeptember 8.: a beismerés

A villámgyorsan terjedő, technikailag alátámasztott vádak alatt a bejelentő cégvezető kénytelen egy X-bejegyzésben visszakozni. Ebben többek közt azt írta, hogy túlságosan előresietett, és a meglévő információk alapján döntött. Mindenkit biztosított arról, hogy egy csapat dolgozik a probléma megoldásán, és ahogy a tények a rendelkezésükre állnak, tájékoztatást adnak.

Emellett a projekt másik kulcsszereplője, a programozó Sahil Chaudhary szintén ígéretet tesz arra, hogy megpróbálja megfejteni a titkot – ő ugyanis állítja, hogy nem használtak más modellt a Reflectionhöz.

A tanulságok

Az MI-közösségben is megvan a hype jelensége.
A generatív MI tudása nem korlátozódik nagy cégekre, mások is könnyen ellenőrizhetik egy-egy állítás igazságtartalmát.
Akár 48 óra alatt a mennyből a pokolba kerülhet az a CEO, aki hazudik a termékével kapcsolatban.
Iszonyatosan ki van éhezve mindenki a még szenzációsabb hírekre. Ahogy az egykori X-akták film címében is szerepel: „Hinni akarok” – méghozzá abba, hogy az MI fejlődése egyre több területet hódít meg.