Îți recomandăm să încerci și aplicația Euronews România!

O incursiune în „creierul” ChatGPT. Cum funcționează modelele lingvistice din spatele chatboturilor

Inteligența Artificială care alimentează ChatGPT, chatbotul Bing al Microsoft și chatbotul Bard al Google poate purta conversații asemănătoare cu cele umane și pot îndeplini o serie de sarcini complexe, de la compuneri pe tot felul de subiecte, până la scrierea de coduri pentru diferite sisteme de operare. Dar cum funcționează mai exact toate acestea? Pentru a putea răspunde la această întrebare trebuie să aruncăm o privire la așa numitele „modele lingvistice mari” (large language models sau LLM).

LLM-urile sunt relativ noi. Primele au apărut în urmă cu doar cinci ani și la momentul respectiv nu erau foarte bune. Cotidianul New York Times arată ce se află în spatele chatboturilor, construind de la zero un LLM care să răspundă la mailuri – „MailBot”.

Pasul 1: Stabiliți un obiectiv

Fiecare sistem de Inteligență Artificială are nevoie de un obiectiv. Cercetătorii numesc acest lucru o „funcție obiectiv”. Aceasta poate fi simplă - de exemplu, „câștigă cât mai multe partide de șah” - sau mai complicată.

Majoritatea modelelor lingvistice au o funcție obiectiv de bază: Dată fiind o secvență de text, ghicește ce urmează.

Pasul 2: Colectați o mulțime de date

În continuare, trebuie să asamblăm datele de instruire. În mod ideal, vom aduna un depozit colosal de mare de date, ceea ce înseamnă, de obicei, miliarde de pagini extrase de pe internet - cum ar fi postări pe bloguri, tweet-uri, articole de pe Wikipedia și știri.

Pentru început, vom folosi câteva biblioteci de date gratuite, disponibile public. Dar vom dori, de asemenea, să adăugăm propriul nostru ingredient secret, sub forma unor date specializate sau brevetate. Poate că vom licenția unele texte în limbi străine, astfel încât „MailBot” să învețe să redacteze e-mailuri în alte limbi. În general, cu cât avem mai multe date și cu cât sursele sunt mai diverse, cu atât modelul nostru va fi mai bun.

Înainte de a putea introduce datele în modelul nostru, trebuie să le împărțim în unități numite token-uri, care pot fi cuvinte, fraze sau chiar caractere individuale. Transformarea textului în bucăți de dimensiuni reduse ajută modelul să îl analizeze mai ușor.

Pasul 3: Construiți rețeaua neuronală

Odată rezolvat pasul anterior, trebuie să asamblăm „creierul” Inteligenței Artificiale - un tip de sistem cunoscut sub numele de rețea neuronală. Aceasta este o rețea complexă de noduri interconectate (sau „neuroni”) care procesează și stochează informații.

Pentru „MailBot”, vom dori să folosim un tip relativ nou de rețea neuronală, cunoscut sub numele de model de transformare. Acestea pot analiza mai multe bucăți de text în același timp, ceea ce le face mai rapide și mai eficiente. (Modelele transformatoare sunt cheia unor sisteme precum ChatGPT - al cărui acronim complet înseamnă „Generative Pretrained Transformer”).

Pasul 4: Antrenați-vă rețeaua neuronală

În continuare, modelul va analiza datele, semn cu semn, identificând tipare și relații. Ar putea observa că „Dragă” este adesea urmat de un nume sau că „Cu drag” vine de obicei înaintea numelui tău. Identificând aceste tipare, Inteligența Artificială învață cum să construiască mesaje care să aibă sens.

De asemenea, sistemul dezvoltă un simț al contextului. De exemplu, ar putea învăța că „bancă” are mai multe înțelesuri.

Pe măsură ce învață aceste tipare, modelul de transformare schițează o hartă: o reprezentare matematică extrem de complexă a limbajului uman. Acesta ține evidența relațiilor folosind valori numerice cunoscute sub numele de parametri. Cele mai bune LLM-uri din prezent au în spate sute de miliarde de parametri.

În acest pas, „MailBot” va fi aproape gata să înceapă să vă scrie e-mailurile. În mod ciudat, ar putea dezvolta și alte abilități. Pe măsură ce LLM-urile învață să prezică următorul cuvânt dintr-o secvență, iar și iar și iar, pot dobândi alte abilități neașteptate, cum ar fi capacitatea de a scrie coduri pentru sisteme de operare. Cercetătorii în domeniul Inteligenței Artificiale numesc aceste abilități „comportamente emergente” și multe dintre acestea nu pot fi încă explicate în totalitate.

Pasul 5: Rafinați modelul

Odată ce un LLM este antrenat, acesta trebuie calibrat pentru o anumită sarcină. De exemplu, un chatbot utilizat de un spital ar putea avea nevoie să înțeleagă termeni medicali. De pildă, ChatGPT folosește feedbackul uman pentru a învăța să dea răspunsuri mai bune în viitor.

ARTICOLE DIN ACEEAȘI CATEGORIE