Skip to main content

Vélemény

sajtó csomag

Töltse le a Clementine bemutatkozó anyagát.

SAJTÓKAPCSOLAT

E-mail: Ez az e-mail-cím a szpemrobotok elleni védelem alatt áll. Megtekintéséhez engedélyeznie kell a JavaScript használatát.
Tel: +36 1 457 0561
Fax: +36 1 457 0562
Cím: 1115 Budapest,
Bartók Béla út 105-113.

Vajon elfogynak-e a tanítóadatok a nagy nyelvi rendszerekhez?

Vajon elfogynak-e a tanítóadatok a nagy nyelvi rendszerekhez?

2024. június 13.

Ezúttal egy izgalmas szakmai írást szemlézünk, a cikk végén megadva az eredeti, teljes szöveg elérhetőségét is. A téma a szakemberek körében ismert: eszerint minél nagyobb korpuszon tanítanak egy LLM-et, annál valószínűbbek lesznek a generált válaszai. A problémát viszont nemcsak az egyre emelkedő költségek jelentik, hanem legfőképpen az exponenciálisan növekvő adatigény. A fiatal, de már Google-nak eladott startuppal is büszkélkedő Mark Cummins leírja, hogy miért.

Soknak tűnik, pedig nem az

Cummins alapvetően jól definiált becslésekkel dolgozik, amikor megpróbálja kitalálni a számokat, vagyis, hogy mennyi tanítóadat áll rendelkezésre. Meglepő, de sokkal nagyobb számokra gondolhatunk, ha például az egyes közösségi csatornákon fellelhető (de nem feltétlenül felhasználható) szavakat nézzük. Ebből a szempontból érdekes, hogy a kínai Weibo „csak” 29 trillió szóval rendelkezik, míg a Facebooknál ez az érték 105 trillió. Ez önmagában vaskos számnak tűnhet, de már a nyílt Llama 3-at is 11 trillió szón trenírozták, tehát sehol sincs az olyannyira vágyott exponenciális többlet.

ChatGPT-6, mi lesz veled?

 Minden újabb LLM-generáció tízszer annyi adaton tanult, mint a megelőző. Nem véletlen, hogy a világ már lassan két éve hiába várja a ChatGPT-5 bejelentését, de az OpenAI eddig csupán verziófrissítésekkel (és egy remek képességekkel rendelkező ChatGPT 4 omnival) rukkolt elő. Éppen emiatt a szerző úgy véli, hogy a 6-os sorozathoz szintetikus adatokra vagy új ötletekre (!) lesz a cégnek szüksége.

Hol a határ?

A nem angol nyelvű adatok behúzásával Cummins 200 trillióra becsüli a felső limitet. A kutatók, fejlesztők utolsó mentsvárának például a Gmailben is meglévő magánadatok tűnnek, de ezek az információk az emberek profilozásának legvégső eszközei is lehetnek. Kérdés: akarjuk-e ennyire kiadni magunkat csak azért, hogy egy fizetős modell azután verset írhasson nekünk?

A cikk itt eredetiben elolvasható: https://www.educatingsilicon.com/2024/05/09/how-much-llm-training-data-is-there-in-the-limit/