Connect nala

Sirdoonka Artificial

Fahamka Qaabka Luqadda Weyn ee Halbeegyada iyo Shuruudaha Xusuusta: Quus qoto dheer

mm

Published

 on

Xisaabinta Halbeegyada LLM-yada Transformer-ku salaysan

Qaababka Luuqadaha Waaweyn (LLMs) waxay arkeen horumarro cajiib ah sannadihii la soo dhaafay. Moodooyinka sida GPT-4, Google's Gemini, iyo Claude 3 ayaa dejinaya heerar cusub oo awoodaha iyo codsiyada ah. Moodooyinkani kaliya ma wanaajiyaan jiilka qoraalka iyo tarjumaada laakiin sidoo kale waxay jebinayaan dhul cusub oo habaynta hababka kala duwan, isku darka qoraalka, sawirka, maqalka, iyo agabka muuqaalka si loo bixiyo xalal AI oo dhamaystiran.

Tusaale ahaan, OpenAI's GPT-4 waxay muujisay horumar la taaban karo oo xagga fahamka iyo soo saarista qoraalka aadanaha oo kale ah, halka Google-ka Gemini uu aad ugu wanaagsan yahay maaraynta noocyada xogta, oo ay ku jiraan qoraalka, sawirrada, iyo maqalka, taasoo awood u siinaysa is-dhexgal aan kala go 'lahayn iyo macnaha guud. Sidoo kale, moodooyinka Anthropic's Claude 3 waxaa lagu xusay awoodahooda luuqadaha badan iyo kor u qaadista waxqabadka ee hawlaha AI.

Marka horumarka LLMs uu sii wado dardargelinta, fahamka qallafsanaanta moodooyinkan, gaar ahaan halbeegyadooda iyo shuruudaha xusuusta, ayaa noqda muhiim. Hagahan waxa uu ujeedadiisu tahay in uu hoos u dhigo dhinacyadan, isaga oo bixinaya sharraxaad faahfaahsan oo si fudud loo fahmi karo.

Aasaaska Hababka Luuqadaha Waaweyn

Waa maxay Noocyada Luuqadaha Waaweyn?

Moodooyinka Luuqadaha waaweyn waa shabakado neural ah oo lagu tababaray xog-ururin si ay u fahmaan oo ay u dhaliyaan luqadda aadanaha. Waxay ku tiirsan yihiin qaab-dhismeedka sida Transformers, kuwaas oo adeegsada hababka sida is-fiirsashada si loo farsameeyo oo loo soo saaro qoraalka.

Muhiimadda Halbeegyada LLMs

Halbeegyada ayaa ah qaybaha asaasiga ah ee moodooyinkan. Waxay ka mid yihiin miisaanka iyo eexda, kaas oo moodelku hagaajiyo inta lagu jiro tababarka si loo yareeyo khaladaadka saadaasha. Tirada halbeegyada inta badan waxay la xidhiidhaa awoodda iyo wax-qabadka moodeelka laakiin sidoo kale waxay saameeyaan shuruudaha xisaabinta iyo xusuusta.

Fahamka Dhismaha Transformer

Transformers-Architecture

Transformers Architecture

Guudmarka

Qaab-dhismeedka Transformer, oo lagu soo bandhigay warqadda "Fiiro gaar ah ayaa kuu ah dhammaan waxaad u baahan tahay" Vaswani et al. (2017), wuxuu noqday aasaaska LLMs badan. Waxay ka kooban tahay cod-bixiye iyo cod-dejiyayaal, mid walbana wuxuu ka kooban yahay dhowr lakab oo isku mid ah.

Qaybaha codeeyaha iyo furaha

  • Encoder: Wuxuu farsameeyaa isku xigxiga gelinta wuxuuna abuuraa matalaad xog-ogaal ah.
  • Dejiye: Wuxuu abuuraa isku xigxiga soo-saarka isagoo isticmaalaya matalaad codeeyaha iyo calaamadihii hore loo soo saaray.

Dhismayaasha Muhiimka ah

  1. Feejignaan Madax-badan: Waxay u sahlaysa moodeelka inuu diiradda saaro qaybaha kala duwan ee isku xigxiga isku mar.
  2. Shabakadaha Neural-ka ee Quudinta-Hormarinta: Waxay ku daraysaa aan toos ahayn iyo kakanaanta qaabka.
  3. Caadiyan lakabka: Dejiya oo deddejisa tababarka iyadoo caadi ka dhigaysa wax soo saarka dhexe.

Xisaabinta Tirada Halbeegyada

Tababarka Transformer

Moodooyinka Horay Loo Tababaray ee Tababbarka Transformer ee Waxtarka leh

Xisaabinta Halbeegyada LLM-yada Transformer-ku salaysan

Aynu kala jebino xisaabinta halbeegyada qayb kasta oo ka mid ah LLM Transformer-ku salaysan. Waxaan isticmaali doonaa qoraalka warqadda asalka ah, halka d_model waxay ka dhigan tahay cabbirka dawladaha qarsoon ee moodeelka.

  1. Lakabka ku dhejinta:
    • Halbeegyada = vocab_size * d_model
  2. Feejignaan Madax-badan:
    • Waayo, h madax, leh d_k = d_v = d_model / h:
    • Qiyaasta = 4 * d_model^2 (Q, K, V, iyo saadaalinta wax soo saarka)
  3. Shabakadda Feed-Forward:
    • Qiyaasta = 2 * d_model * d_ff + d_model + d_ff
    • Halkee d_ff sida caadiga ah waa 4* d_model
  4. Caadiyan lakabka:
    • Qiyaasta = 2 * d_model (Miisaanka iyo eexda)

Wadarta cabbirada hal lakab oo Transformer:

  • Parameters_layer = Parameters_attention + Parameters_ffn + 2 * Parameters_layernorm

Waayo, model leh N lakab:

  • Wadarta cabbirrada = N * Parameters_layer + Parameters_embedding + Parameters_output

Tusaale Xisaabinta

Aynu tixgelinno nooc leh tilmaamahan soo socda:

  • d_model = 768
  • h (tirada madaxyada dareenka) = 12
  • N (tirada lakabyada) = 12
  • vocab_size = 50,000
  1. Lakabka ku dhejinta:
    • 50,000 * 768 = 38,400,000
  2. Feejignaan Madax-badan:
    • 4 * 768^2 = 2,359,296
  3. Shabakadda Feed-Forward:
    • 2 * 768 * (4 * 768) + 768 + (4 * 768) = 4,719,616
  4. Caadiyan lakabka:
    • 2 * 768 = 1,536

Wadarta cabbirrada lakabkiiba:

  • 2,359,296 + 4,719,616 + (2 * 1,536) = 7,081,984

Wadarta cabbirada 12 lakab:

  • 12 * 7,081,984 = 84,983,808

Wadarta cabbirada moodeelka:

  • 84,983,808 + 38,400,000 = 123,383,808

Qaabkani waxa uu lahaan lahaa ku dhawaad ​​123 milyan oo cabbir.

Noocyada Isticmaalka Xusuusta

Markaad la shaqeyneyso LLMs, waxaan u baahanahay inaan tixgelinno laba nooc oo muhiim ah isticmaalka xusuusta:

  1. Xusuusta TusaalahaXusuusta loo baahan yahay si loo kaydiyo cabbirada moodeelka.
  2. Xusuusta Shaqeynta: Xusuusta loo baahan yahay inta lagu guda jiro ka-fiirsashada ama tababarka si loo kaydiyo hawlgelinta dhexe, gradients, iyo hagaajinta dawladaha.

Xisaabinta Xusuusta Model

Xusuusta moodelku waxay si toos ah ula xiriirtaa tirada cabbirrada. Halbeeg kasta waxa sida caadiga ah loo kaydiyaa sidii lambar sabaynaysa 32-bit, in kasta oo moodooyinka qaar ay isticmaalaan tababar sax ah oo isku dhafan oo leh 16-bit sabeyn ah.

Xusuusta Model (bytes) = Tirada halbeegyada * Bytes permeter

Tusaalahayaga tusaalaha leh 123 milyan oo cabbir:

  • Xusuusta Model (32-bit) = 123,383,808 * 4 bytes = 493,535,232 bytes ≈ 494 MB
  • Xusuusta Model (16-bit) = 123,383,808 * 2 bytes = 246,767,616 bytes ≈ 247 MB

Qiyaasta Xusuusta Shaqada

Shuruudaha xusuusta shaqadu aad bay u kala duwanaan karaan iyadoo lagu saleynayo hawsha gaarka ah, cabbirka dufcadda, iyo dhererka isku xigxiga. Qiyaasta qallafsan ee xusuusta shaqaynaysa inta lagu guda jiro fikraddu waa:

Xusuusta shaqaynaysa ≈ 2 * Xusuusta Model

Tani waxay xisaabinaysaa kaydinta halbeegyada moodeelka iyo hawlgelinta dhexe labadaba. Inta lagu jiro tababarka, shuruudaha xusuusta ayaa noqon kara xitaa sare sababtoo ah baahida loo qabo kaydinta gradients iyo hagaajinta gobolada:

Xusuusta Tababarka ≈ 4 * Xusuusta Model

Tusaalahayaga tusaalaha:

  • Inference Xusuusta Shaqaynta ≈ 2 * 494 MB = 988 MB ≈ 1 GB
  • Xusuusta Tababarka ≈ 4 * 494 MB = 1,976 MB ≈ 2 GB

Isticmaalka Xusuusta-State State iyo Isticmaalka Xusuusta ugu Sarreysa

Marka la tababarayo qaababka luqadaha waaweyn ee ku salaysan qaab dhismeedka Transformer, fahamka isticmaalka xusuusta ayaa muhiim u ah qoondaynta kheyraadka hufan. Aynu u kala qaadno shuruudaha xusuusta laba qaybood oo waaweyn: Isticmaalka xusuusta joogtada ah iyo isticmaalka xusuusta ugu sarreysa.

Isticmaalka Xasuusta-State State

Isticmaalka xusuusta-joogta ah waxay ka kooban tahay qaybaha soo socda:

  1. Miisaanka Model: Nuqullada FP32 ee cabbiraadaha moodeelka, oo u baahan 4N bytes, halkaas oo N ay tahay tirada cabbirrada.
  2. Dawladaha Hagaajinta: Wixii Adam optimizer ah, tani waxay u baahan tahay 8N bytes (2 gobol halkii cabbir).
  3. Qalinjabiyeyaasha: koobiyada FP32 ee gradients, u baahan 4N bytes.
  4. Xogta GelitaankaHaddii loo qaato int64 wax-soo-gelinta, tani waxay u baahan tahay 8BD bytes, halkaasoo B ay tahay cabbirka dufcadda D ay tahay cabbirka wax-gelinta.

Wadarta isticmaalka xusuusta-joogta ah waxaa lagu qiyaasi karaa:

  • M_steady = 16N + 8BD bytes

Isticmaalka xusuusta ugu sarreysa

Isticmaalka xusuusta ugu sarreysa waxay dhacdaa inta lagu jiro gudbinta gadaal marka hawlgelinta loo kaydiyo xisaabinta gradient. Waxyaalaha ugu muhiimsan ee ka qaybqaata xusuusta ugu sarreysa waa:

  1. Caadiyan lakabka: Waxay u baahan tahay 4E bytes halkii lakabka caadiga ah, halkaasoo E = BSH (B: cabbirka dufanka, S: dhererka isku xigxiga, H: cabbirka qarsoon).
  2. Digriiga Block:
    • Xisaabinta QKV: 2E bytes
    • Matrix feejignaan: 4BSS bytes (S: dhererka isku xigxiga)
    • Soosaarka feejignaanta: 2E bytes
  3. Quudinta-hormarinta Block:
    • Lakabka tooska ah ee koowaad: 2E bytes
    • Dhaqdhaqaaqa GELU: 8E bytes
    • Lakabka labaad ee toosan: 2E bytes
  4. Luminta-Entropy:
    • Logits: 6BSV bytes (V: cabbirka erayada)

Wadarta xusuusta firfircoonida waxaa lagu qiyaasi karaa sida:

  • M_act = L * (14E + 4BSS) + 6BSV bytes

Halka L ay tahay tirada lakabyada beddelka.

Wadarta Isticmaalka xusuusta ugu sarreysa

Isticmaalka xusuusta ugu sarreysa inta lagu jiro tababarka waxaa lagu qiyaasi karaa marka la isku daro xusuusta xasilloonida iyo xusuusta firfircoonida:

  • M_peak = M_steady + M_act + 4BSV bytes

Erayga dheeraadka ah ee 4BSV wuxuu ku xisaabtamayaa qoondaynta dheeraadka ah ee bilawga kaadhka dambe.

Fahamka qaybahan, waxaan wanaajin karnaa isticmaalka xusuusta inta lagu jiro tababarka iyo fikradda, hubinta qoondaynta kheyraadka hufan iyo hagaajinta waxqabadka qaababka luqadaha waaweyn.

Qaanuuninta Shuruucda iyo Tixgelinta Waxtarka

 Shuruucda Cabbiraadda ee LLMs

Cilmi-baaristu waxay muujisay in waxqabadka LLM-yadu u janjeeraan inay raacaan sharciyada miisaannada qaarkood marka tirada cabbiradu ay korodho. Kaplan iyo al. (2020) waxay arkeen in waxqabadka moodeelku uu u hagaagayo sidii sharciga awoodda tirada cabbirrada, xisaabinta miisaaniyadda, iyo cabbirka xogta.

Xidhiidhka ka dhexeeya waxqabadka moodeelka iyo tirada cabbirrada waxa lagu qiyaasi karaa:

Waxqabadka ∝ N^α

Halka N ay tahay tirada halbeegyada iyo α waa jibbaar miisaan leh oo caadi ahaan ku dhow 0.07 ee hawlaha qaabaynta luqadda.

Tani waxay ka dhigan tahay in si loo gaaro 10% horumarinta waxqabadka, waxaan u baahannahay inaan kordhinno tirada qiyaasaha iyada oo loo eegayo 10 ^ (1/α) ≈ 3.7.

Farsamooyinka Waxtarka

Sida LLMs ay sii wadaan inay koraan, cilmi-baarayaasha iyo xirfadlayaasha ayaa soo saaray farsamooyin kala duwan si loo hagaajiyo waxtarka:

a) Tababarka saxda ah ee isku dhafanIsticmaalka 16-bit ama xitaa 8-bit nambarada sabaynta-dhibcaha ee hawlgallada qaarkood si loo yareeyo isticmaalka xusuusta iyo shuruudaha xisaabinta.

b) Isbarbardhigga ModelU qaybinta moodalka GPU-yo badan ama TPU-yada si ay u qabtaan moodooyinka waaweyn ee aan ku habboonayn hal qalab.

c) Isbaarada hooseXisaabinta xisaabinta xusuusta adiga oo dib u xisaabinaya hawlqabadyada qaarkood inta lagu jiro kaarka dambe halkii aad kaydin lahayd.

d) Goynta iyo qiyaasidda: Ka saarida miisaan yar oo muhiim ah ama yaraynta saxda ah ee tababarka ka dib si ay u abuuraan moodooyin yar yar, waxtar badan.

e) Faafin: Tababarka moodooyinka yaryar si ay ugu ekaadaan hab-dhaqanka kuwa waaweyn, iyaga oo ilaalin kara inta badan waxqabadka iyada oo leh xaddidaadyo yar.

Tusaalaha Waxtarka iyo Xisaabinta

GPT-3, oo ka mid ah moodooyinka luqadda ugu weyn, ayaa leh 175 bilyan oo cabbir. Waxa ay isticmaashaa qaybta decoder-ka ee qaab-dhismeedka Transformer. Si aan u fahanno miisaankeeda, aynu ku kala jebino tirinta halbeegyada anagoo adeegsanayna qiimayaal mala awaal ah:

  • d_model = 12288
  • d_ff = 4 * 12288 = 49152
  • Tirada lakabyada = 96

Hal lakab oo koodheeyaha:

Wadarta cabbirrada = 8 * 12288^2 + 8 * 12288 * 49152 + 2 * 12288 ≈ 1.1 bilyan

Wadarta 96 lakab:

1.1 bilyan * 96 = 105.6 bilyan

Halbeegyada soo haray waxay ka imaanayaan gelinta iyo qaybaha kale.

Ugu Dambeyn

Fahamka xuduudaha iyo shuruudaha xusuusta ee moodooyinka luqadda waaweyn ayaa muhiim u ah si wax ku ool ah u qaabeynta, tababarka, iyo geynta qalabkan xoogga badan. Anagoo jebinayna qaybaha qaab dhismeedka Transformer iyo baadhista tusaalayaal wax ku ool ah sida GPT, waxaan helnaa aragti qoto dheer oo ku saabsan kakanaanta iyo miisaanka moodooyinkan.

Si aad u sii fahamto horumarradii ugu dambeeyay ee qaababka luqadaha waaweyn iyo codsiyadooda, fiiri hagayaashan dhameystiran:

Waxaan ku qaatay shantii sano ee la soo dhaafay aniga oo ku milmay adduunka xiisaha leh ee Barashada Mashiinka iyo Barashada qoto dheer. Dareenkayga iyo khibradayda ayaa ii horseeday inaan wax ku biiriyo in ka badan 50 mashruuc oo injineernimo oo software ah, oo si gaar ah diiradda u saaray AI / ML. Xiisaha joogtada ah ayaa sidoo kale ii soo jiidatay Habraaca Luqadda Dabiiciga ah, oo ah goob aan aad u xiiseeyo in aan wax badan sahamiyo.