sajtó csomag
SAJTÓKAPCSOLAT
Tel: +36 1 457 0561
Fax: +36 1 457 0562
Cím: 1115 Budapest,
Bartók Béla út 105-113.
Vajon elfogynak-e a tanítóadatok a nagy nyelvi rendszerekhez?
Vajon elfogynak-e a tanítóadatok a nagy nyelvi rendszerekhez?
Ezúttal egy izgalmas szakmai írást szemlézünk, a cikk végén megadva az eredeti, teljes szöveg elérhetőségét is. A téma a szakemberek körében ismert: eszerint minél nagyobb korpuszon tanítanak egy LLM-et, annál valószínűbbek lesznek a generált válaszai. A problémát viszont nemcsak az egyre emelkedő költségek jelentik, hanem legfőképpen az exponenciálisan növekvő adatigény. A fiatal, de már Google-nak eladott startuppal is büszkélkedő Mark Cummins leírja, hogy miért.
Soknak tűnik, pedig nem az
Cummins alapvetően jól definiált becslésekkel dolgozik, amikor megpróbálja kitalálni a számokat, vagyis, hogy mennyi tanítóadat áll rendelkezésre. Meglepő, de sokkal nagyobb számokra gondolhatunk, ha például az egyes közösségi csatornákon fellelhető (de nem feltétlenül felhasználható) szavakat nézzük. Ebből a szempontból érdekes, hogy a kínai Weibo „csak” 29 trillió szóval rendelkezik, míg a Facebooknál ez az érték 105 trillió. Ez önmagában vaskos számnak tűnhet, de már a nyílt Llama 3-at is 11 trillió szón trenírozták, tehát sehol sincs az olyannyira vágyott exponenciális többlet.
ChatGPT-6, mi lesz veled?
Minden újabb LLM-generáció tízszer annyi adaton tanult, mint a megelőző. Nem véletlen, hogy a világ már lassan két éve hiába várja a ChatGPT-5 bejelentését, de az OpenAI eddig csupán verziófrissítésekkel (és egy remek képességekkel rendelkező ChatGPT 4 omnival) rukkolt elő. Éppen emiatt a szerző úgy véli, hogy a 6-os sorozathoz szintetikus adatokra vagy új ötletekre (!) lesz a cégnek szüksége.
Hol a határ?
A nem angol nyelvű adatok behúzásával Cummins 200 trillióra becsüli a felső limitet. A kutatók, fejlesztők utolsó mentsvárának például a Gmailben is meglévő magánadatok tűnnek, de ezek az információk az emberek profilozásának legvégső eszközei is lehetnek. Kérdés: akarjuk-e ennyire kiadni magunkat csak azért, hogy egy fizetős modell azután verset írhasson nekünk?
A cikk itt eredetiben elolvasható: https://www.educatingsilicon.com/2024/05/09/how-much-llm-training-data-is-there-in-the-limit/
-
Lecsap a Llama: a nyílt forráskódú MI-modellek térhódítása
-
Nagy nyelvi rangadó