Vizualizacija velikih jezičkih modela (Large Language Models - LLMs)

Vizualizacija velikih jezičkih modela (Large Language Models – LLMs)

Jezički modeli (Language models) su matematički, statistički modeli koji mogu da izračunaju verovatnoću javljanja jedne reči ili niza reči, na osnovu informacija iz korpusa teksta na kom su obučeni.

Korpusom teksta nazivamo skup tekstova koji su prikupljeni na osnovu nekog kriterijuma. Korpuse tekstova, uglavnom, skupljaju akademske ustanove i istraživački centri za potrebe proučavanja jezika. U skorije vreme su se pojavili i komercijali korpusi teksta za koje se plaća članarina da biste im pristupili. Korpuse delimo u više kategorija prema njihovim osobinama. Recimo, neke od osobina mogu biti:

po veličini (manji ili veći)
po tematici (opšti ili specijalizovani)
po broju jezika (komparativni/jednojezični i paralelni/višejezični

Korpusna lingivistika je oblast jezika koja postoji već stotinama godina ali je procvat doživela 90-ih godina sa dostpunošću kompjutera koji su značajno olakšali i ubrzali pretraživanje ovih skupina tekstova.

Godine 1980. predložen je prvi značajniji statistički jezički model. Posle toga, tokom ’80-ih, IBM je u velikoj meri unapredio arhitekturu jezičkih modela. Razvoj jezičkih modela je, u početku, bio vezan za akademske i istraživačke ustanove, ali su polako, sve više i više, velike privatne kompanije počele da uviđaju primenljivost ovih koncepata i da ulažu sve više novca u iznalaženje načina kako da unaprede svoje poslovanje na ovaj način. Zbog toga ne iznenađuje da IT giganti poput firmi: Google, IBM, Microsoft, Adobe, itd. već decenijama ulažu u razvoj mašinskog učenja i veštačke intelignecije.

Baš zahvaljujući tome što ove firme imaju gotovo neograničene računarske resurse, poslednjih godina je došlo do značajnih pomaka u ovom polju. Većina zaposlenih u firmi OpenAI koja je napravila ChatGPT su prethodno radili baš u već pomenutim IT firmama.

Veliki jezički modeli (Large Language Models) su jezički modeli koji su obučeni na velikim korpusima teksta. Neki od njih su obučeni na korpusima reda veličine više milijardi stranica A4 formata ispunjenih tekstom. Pored toga, zasnovani su na feedforward neuronskim mrežama i arhitekturi transformatora. O ovim terminima će biti reči u nekom kasnijem tekstu.

Jezički modeli su korisni u raznim oblastima kompjuterske lingvistike. Našli su veliku primenu u:

prepoznavanju govora (transkripciji)
mašinskom prevođenju
optičkom prepoznavanju teksta (Optical Character Recognition – OCR)
obradi i generisanju prirodnog jezika (Natural Language Processing)
prepoznavanju rukopisa i grafologiji

Za kraj ovog uvoda, evo vizualizacije kako “ispod haube” izgledaju jezički modeli:

https://bbycroft.net/llm

OpenAI ChatGPT, Large language models, transformer architecture, attention is all you need, machine learning. Veliki jezički modeli, transformator arhitektura, pažnja je sve što vam treba, mašinsko učenje, deep learning, hyperparameter model

About Branko Jovanović

Pasionirani ljubitelj multimedije i veštačke inteligencije. Grafički i web dizajner, frontend i AS3 programer. Najviše, ipak, volim da obrazovnu delatnost i držanje obuka iz ovih oblasti. Do sada sam obučio više od 3000 polaznika i održao preko 25000 školskih časova. Ipak, pošto firma Adobe polako ukida program sertifikovanih instruktora i trening centara, tome je morao doći kraj. Za više informacija pogledajte stranicu O nama

View all posts by Branko Jovanović →

Vizualizacija velikih jezičkih modela (Large Language Models – LLMs)

About Branko Jovanović

Оставите одговор Одустани од одговора

Kategorije