Sirdoonka Artificial
Fahamka Qaabka Luqadda Weyn ee Halbeegyada iyo Shuruudaha Xusuusta: Quus qoto dheer
Published
Maalmood ka hor 5on
Tusmada
Qaababka Luuqadaha Waaweyn (LLMs) waxay arkeen horumarro cajiib ah sannadihii la soo dhaafay. Moodooyinka sida GPT-4, Google's Gemini, iyo Claude 3 ayaa dejinaya heerar cusub oo awoodaha iyo codsiyada ah. Moodooyinkani kaliya ma wanaajiyaan jiilka qoraalka iyo tarjumaada laakiin sidoo kale waxay jebinayaan dhul cusub oo habaynta hababka kala duwan, isku darka qoraalka, sawirka, maqalka, iyo agabka muuqaalka si loo bixiyo xalal AI oo dhamaystiran.
Tusaale ahaan, OpenAI's GPT-4 waxay muujisay horumar la taaban karo oo xagga fahamka iyo soo saarista qoraalka aadanaha oo kale ah, halka Google-ka Gemini uu aad ugu wanaagsan yahay maaraynta noocyada xogta, oo ay ku jiraan qoraalka, sawirrada, iyo maqalka, taasoo awood u siinaysa is-dhexgal aan kala go 'lahayn iyo macnaha guud. Sidoo kale, moodooyinka Anthropic's Claude 3 waxaa lagu xusay awoodahooda luuqadaha badan iyo kor u qaadista waxqabadka ee hawlaha AI.
Marka horumarka LLMs uu sii wado dardargelinta, fahamka qallafsanaanta moodooyinkan, gaar ahaan halbeegyadooda iyo shuruudaha xusuusta, ayaa noqda muhiim. Hagahan waxa uu ujeedadiisu tahay in uu hoos u dhigo dhinacyadan, isaga oo bixinaya sharraxaad faahfaahsan oo si fudud loo fahmi karo.
Aasaaska Hababka Luuqadaha Waaweyn
Waa maxay Noocyada Luuqadaha Waaweyn?
Moodooyinka Luuqadaha waaweyn waa shabakado neural ah oo lagu tababaray xog-ururin si ay u fahmaan oo ay u dhaliyaan luqadda aadanaha. Waxay ku tiirsan yihiin qaab-dhismeedka sida Transformers, kuwaas oo adeegsada hababka sida is-fiirsashada si loo farsameeyo oo loo soo saaro qoraalka.
Muhiimadda Halbeegyada LLMs
Halbeegyada ayaa ah qaybaha asaasiga ah ee moodooyinkan. Waxay ka mid yihiin miisaanka iyo eexda, kaas oo moodelku hagaajiyo inta lagu jiro tababarka si loo yareeyo khaladaadka saadaasha. Tirada halbeegyada inta badan waxay la xidhiidhaa awoodda iyo wax-qabadka moodeelka laakiin sidoo kale waxay saameeyaan shuruudaha xisaabinta iyo xusuusta.
Fahamka Dhismaha Transformer
Guudmarka
Qaab-dhismeedka Transformer, oo lagu soo bandhigay warqadda "Fiiro gaar ah ayaa kuu ah dhammaan waxaad u baahan tahay" Vaswani et al. (2017), wuxuu noqday aasaaska LLMs badan. Waxay ka kooban tahay cod-bixiye iyo cod-dejiyayaal, mid walbana wuxuu ka kooban yahay dhowr lakab oo isku mid ah.
Qaybaha codeeyaha iyo furaha
- Encoder: Wuxuu farsameeyaa isku xigxiga gelinta wuxuuna abuuraa matalaad xog-ogaal ah.
- Dejiye: Wuxuu abuuraa isku xigxiga soo-saarka isagoo isticmaalaya matalaad codeeyaha iyo calaamadihii hore loo soo saaray.
Dhismayaasha Muhiimka ah
- Feejignaan Madax-badan: Waxay u sahlaysa moodeelka inuu diiradda saaro qaybaha kala duwan ee isku xigxiga isku mar.
- Shabakadaha Neural-ka ee Quudinta-Hormarinta: Waxay ku daraysaa aan toos ahayn iyo kakanaanta qaabka.
- Caadiyan lakabka: Dejiya oo deddejisa tababarka iyadoo caadi ka dhigaysa wax soo saarka dhexe.
Xisaabinta Tirada Halbeegyada
Xisaabinta Halbeegyada LLM-yada Transformer-ku salaysan
Aynu kala jebino xisaabinta halbeegyada qayb kasta oo ka mid ah LLM Transformer-ku salaysan. Waxaan isticmaali doonaa qoraalka warqadda asalka ah, halka d_model
waxay ka dhigan tahay cabbirka dawladaha qarsoon ee moodeelka.
- Lakabka ku dhejinta:
- Halbeegyada =
vocab_size
*d_model
- Halbeegyada =
- Feejignaan Madax-badan:
- Waayo,
h
madax, lehd_k = d_v = d_model / h
: - Qiyaasta = 4 *
d_model
^2 (Q, K, V, iyo saadaalinta wax soo saarka)
- Waayo,
- Shabakadda Feed-Forward:
- Qiyaasta = 2 *
d_model
*d_ff
+d_model
+d_ff
- Halkee
d_ff
sida caadiga ah waa 4*d_model
- Qiyaasta = 2 *
- Caadiyan lakabka:
- Qiyaasta = 2 *
d_model
(Miisaanka iyo eexda)
- Qiyaasta = 2 *
Wadarta cabbirada hal lakab oo Transformer:
Parameters_layer
=Parameters_attention
+Parameters_ffn
+ 2 *Parameters_layernorm
Waayo, model leh N
lakab:
- Wadarta cabbirrada =
N
*Parameters_layer
+Parameters_embedding
+Parameters_output
Tusaale Xisaabinta
Aynu tixgelinno nooc leh tilmaamahan soo socda:
d_model
= 768h
(tirada madaxyada dareenka) = 12N
(tirada lakabyada) = 12vocab_size
= 50,000
- Lakabka ku dhejinta:
- 50,000 * 768 = 38,400,000
- Feejignaan Madax-badan:
- 4 * 768^2 = 2,359,296
- Shabakadda Feed-Forward:
- 2 * 768 * (4 * 768) + 768 + (4 * 768) = 4,719,616
- Caadiyan lakabka:
- 2 * 768 = 1,536
Wadarta cabbirrada lakabkiiba:
- 2,359,296 + 4,719,616 + (2 * 1,536) = 7,081,984
Wadarta cabbirada 12 lakab:
- 12 * 7,081,984 = 84,983,808
Wadarta cabbirada moodeelka:
- 84,983,808 + 38,400,000 = 123,383,808
Qaabkani waxa uu lahaan lahaa ku dhawaad 123 milyan oo cabbir.
Noocyada Isticmaalka Xusuusta
Markaad la shaqeyneyso LLMs, waxaan u baahanahay inaan tixgelinno laba nooc oo muhiim ah isticmaalka xusuusta:
- Xusuusta TusaalahaXusuusta loo baahan yahay si loo kaydiyo cabbirada moodeelka.
- Xusuusta Shaqeynta: Xusuusta loo baahan yahay inta lagu guda jiro ka-fiirsashada ama tababarka si loo kaydiyo hawlgelinta dhexe, gradients, iyo hagaajinta dawladaha.
Xisaabinta Xusuusta Model
Xusuusta moodelku waxay si toos ah ula xiriirtaa tirada cabbirrada. Halbeeg kasta waxa sida caadiga ah loo kaydiyaa sidii lambar sabaynaysa 32-bit, in kasta oo moodooyinka qaar ay isticmaalaan tababar sax ah oo isku dhafan oo leh 16-bit sabeyn ah.
Xusuusta Model (bytes) = Tirada halbeegyada * Bytes permeter
Tusaalahayaga tusaalaha leh 123 milyan oo cabbir:
- Xusuusta Model (32-bit) = 123,383,808 * 4 bytes = 493,535,232 bytes ≈ 494 MB
- Xusuusta Model (16-bit) = 123,383,808 * 2 bytes = 246,767,616 bytes ≈ 247 MB
Qiyaasta Xusuusta Shaqada
Shuruudaha xusuusta shaqadu aad bay u kala duwanaan karaan iyadoo lagu saleynayo hawsha gaarka ah, cabbirka dufcadda, iyo dhererka isku xigxiga. Qiyaasta qallafsan ee xusuusta shaqaynaysa inta lagu guda jiro fikraddu waa:
Xusuusta shaqaynaysa ≈ 2 * Xusuusta Model
Tani waxay xisaabinaysaa kaydinta halbeegyada moodeelka iyo hawlgelinta dhexe labadaba. Inta lagu jiro tababarka, shuruudaha xusuusta ayaa noqon kara xitaa sare sababtoo ah baahida loo qabo kaydinta gradients iyo hagaajinta gobolada:
Xusuusta Tababarka ≈ 4 * Xusuusta Model
Tusaalahayaga tusaalaha:
- Inference Xusuusta Shaqaynta ≈ 2 * 494 MB = 988 MB ≈ 1 GB
- Xusuusta Tababarka ≈ 4 * 494 MB = 1,976 MB ≈ 2 GB
Isticmaalka Xusuusta-State State iyo Isticmaalka Xusuusta ugu Sarreysa
Marka la tababarayo qaababka luqadaha waaweyn ee ku salaysan qaab dhismeedka Transformer, fahamka isticmaalka xusuusta ayaa muhiim u ah qoondaynta kheyraadka hufan. Aynu u kala qaadno shuruudaha xusuusta laba qaybood oo waaweyn: Isticmaalka xusuusta joogtada ah iyo isticmaalka xusuusta ugu sarreysa.
Isticmaalka Xasuusta-State State
Isticmaalka xusuusta-joogta ah waxay ka kooban tahay qaybaha soo socda:
- Miisaanka Model: Nuqullada FP32 ee cabbiraadaha moodeelka, oo u baahan 4N bytes, halkaas oo N ay tahay tirada cabbirrada.
- Dawladaha Hagaajinta: Wixii Adam optimizer ah, tani waxay u baahan tahay 8N bytes (2 gobol halkii cabbir).
- Qalinjabiyeyaasha: koobiyada FP32 ee gradients, u baahan 4N bytes.
- Xogta GelitaankaHaddii loo qaato int64 wax-soo-gelinta, tani waxay u baahan tahay 8BD bytes, halkaasoo B ay tahay cabbirka dufcadda D ay tahay cabbirka wax-gelinta.
Wadarta isticmaalka xusuusta-joogta ah waxaa lagu qiyaasi karaa:
- M_steady = 16N + 8BD bytes
Isticmaalka xusuusta ugu sarreysa
Isticmaalka xusuusta ugu sarreysa waxay dhacdaa inta lagu jiro gudbinta gadaal marka hawlgelinta loo kaydiyo xisaabinta gradient. Waxyaalaha ugu muhiimsan ee ka qaybqaata xusuusta ugu sarreysa waa:
- Caadiyan lakabka: Waxay u baahan tahay 4E bytes halkii lakabka caadiga ah, halkaasoo E = BSH (B: cabbirka dufanka, S: dhererka isku xigxiga, H: cabbirka qarsoon).
- Digriiga Block:
- Xisaabinta QKV: 2E bytes
- Matrix feejignaan: 4BSS bytes (S: dhererka isku xigxiga)
- Soosaarka feejignaanta: 2E bytes
- Quudinta-hormarinta Block:
- Lakabka tooska ah ee koowaad: 2E bytes
- Dhaqdhaqaaqa GELU: 8E bytes
- Lakabka labaad ee toosan: 2E bytes
- Luminta-Entropy:
- Logits: 6BSV bytes (V: cabbirka erayada)
Wadarta xusuusta firfircoonida waxaa lagu qiyaasi karaa sida:
- M_act = L * (14E + 4BSS) + 6BSV bytes
Halka L ay tahay tirada lakabyada beddelka.
Wadarta Isticmaalka xusuusta ugu sarreysa
Isticmaalka xusuusta ugu sarreysa inta lagu jiro tababarka waxaa lagu qiyaasi karaa marka la isku daro xusuusta xasilloonida iyo xusuusta firfircoonida:
- M_peak = M_steady + M_act + 4BSV bytes
Erayga dheeraadka ah ee 4BSV wuxuu ku xisaabtamayaa qoondaynta dheeraadka ah ee bilawga kaadhka dambe.
Fahamka qaybahan, waxaan wanaajin karnaa isticmaalka xusuusta inta lagu jiro tababarka iyo fikradda, hubinta qoondaynta kheyraadka hufan iyo hagaajinta waxqabadka qaababka luqadaha waaweyn.
Qaanuuninta Shuruucda iyo Tixgelinta Waxtarka
Shuruucda Cabbiraadda ee LLMs
Cilmi-baaristu waxay muujisay in waxqabadka LLM-yadu u janjeeraan inay raacaan sharciyada miisaannada qaarkood marka tirada cabbiradu ay korodho. Kaplan iyo al. (2020) waxay arkeen in waxqabadka moodeelku uu u hagaagayo sidii sharciga awoodda tirada cabbirrada, xisaabinta miisaaniyadda, iyo cabbirka xogta.
Xidhiidhka ka dhexeeya waxqabadka moodeelka iyo tirada cabbirrada waxa lagu qiyaasi karaa:
Waxqabadka ∝ N^α
Halka N ay tahay tirada halbeegyada iyo α waa jibbaar miisaan leh oo caadi ahaan ku dhow 0.07 ee hawlaha qaabaynta luqadda.
Tani waxay ka dhigan tahay in si loo gaaro 10% horumarinta waxqabadka, waxaan u baahannahay inaan kordhinno tirada qiyaasaha iyada oo loo eegayo 10 ^ (1/α) ≈ 3.7.
Farsamooyinka Waxtarka
Sida LLMs ay sii wadaan inay koraan, cilmi-baarayaasha iyo xirfadlayaasha ayaa soo saaray farsamooyin kala duwan si loo hagaajiyo waxtarka:
a) Tababarka saxda ah ee isku dhafanIsticmaalka 16-bit ama xitaa 8-bit nambarada sabaynta-dhibcaha ee hawlgallada qaarkood si loo yareeyo isticmaalka xusuusta iyo shuruudaha xisaabinta.
b) Isbarbardhigga ModelU qaybinta moodalka GPU-yo badan ama TPU-yada si ay u qabtaan moodooyinka waaweyn ee aan ku habboonayn hal qalab.
c) Isbaarada hooseXisaabinta xisaabinta xusuusta adiga oo dib u xisaabinaya hawlqabadyada qaarkood inta lagu jiro kaarka dambe halkii aad kaydin lahayd.
d) Goynta iyo qiyaasidda: Ka saarida miisaan yar oo muhiim ah ama yaraynta saxda ah ee tababarka ka dib si ay u abuuraan moodooyin yar yar, waxtar badan.
e) Faafin: Tababarka moodooyinka yaryar si ay ugu ekaadaan hab-dhaqanka kuwa waaweyn, iyaga oo ilaalin kara inta badan waxqabadka iyada oo leh xaddidaadyo yar.
Tusaalaha Waxtarka iyo Xisaabinta
GPT-3, oo ka mid ah moodooyinka luqadda ugu weyn, ayaa leh 175 bilyan oo cabbir. Waxa ay isticmaashaa qaybta decoder-ka ee qaab-dhismeedka Transformer. Si aan u fahanno miisaankeeda, aynu ku kala jebino tirinta halbeegyada anagoo adeegsanayna qiimayaal mala awaal ah:
d_model = 12288
d_ff = 4 * 12288 = 49152
- Tirada lakabyada = 96
Hal lakab oo koodheeyaha:
Wadarta cabbirrada = 8 * 12288^2 + 8 * 12288 * 49152 + 2 * 12288 ≈ 1.1 bilyan
Wadarta 96 lakab:
1.1 bilyan * 96 = 105.6 bilyan
Halbeegyada soo haray waxay ka imaanayaan gelinta iyo qaybaha kale.
Ugu Dambeyn
Fahamka xuduudaha iyo shuruudaha xusuusta ee moodooyinka luqadda waaweyn ayaa muhiim u ah si wax ku ool ah u qaabeynta, tababarka, iyo geynta qalabkan xoogga badan. Anagoo jebinayna qaybaha qaab dhismeedka Transformer iyo baadhista tusaalayaal wax ku ool ah sida GPT, waxaan helnaa aragti qoto dheer oo ku saabsan kakanaanta iyo miisaanka moodooyinkan.
Si aad u sii fahamto horumarradii ugu dambeeyay ee qaababka luqadaha waaweyn iyo codsiyadooda, fiiri hagayaashan dhameystiran:
- Ka baadh hagaha dhammaystiran ee Gemma 2Google's Modelka Luqada Weyn ee Cusub ee Furan si loo ogaado waxqabadkeeda la xoojiyey iyo sifooyinka cusub.
- Wax ka baro Dhismaha Wakiilada LLM ee RAG ka xoq iyo wixii ka dambeeya: Hage Dhamaystiran kaas oo ka hadlaya caqabadaha iyo xalalka jiilka la kordhiyay.
- Soo ogow qallafsanaanta Dejinta Tababarka, Habaynta Wanaagsan, iyo Qiimaynta LLM-yada ee NVIDIA GPUs iyo CUDA si loo hagaajiyo nidaamyada AI.
Waxaan ku qaatay shantii sano ee la soo dhaafay aniga oo ku milmay adduunka xiisaha leh ee Barashada Mashiinka iyo Barashada qoto dheer. Dareenkayga iyo khibradayda ayaa ii horseeday inaan wax ku biiriyo in ka badan 50 mashruuc oo injineernimo oo software ah, oo si gaar ah diiradda u saaray AI / ML. Xiisaha joogtada ah ayaa sidoo kale ii soo jiidatay Habraaca Luqadda Dabiiciga ah, oo ah goob aan aad u xiiseeyo in aan wax badan sahamiyo.
Waad jeclaan kartaa
MARKLLM: Qalabka Isha Furan ee LLM Watermarking
Dajinta Hababka Luuqadaha Waaweyn ee Kubernetes: Hage Dhamaystiran
Fahamka Autoencoders Sparse, GPT-4 & Claude 3: Sahaminta Farsamo Qoto dheer
Qwen2 – Qaabka Luuqadaha badan ee Alibaba ee ugu dambeeyay ayaa caqabad ku ah SOTA sida Llama 3
LLaVA-UHD: LMM Aragtida Saami Kasta Dhinac kasta iyo Sawirada Xallin Sare
Hababka Luqadaha Waaweyn ee Dalacsiinta ah ee leh Saadaasha calaamado badan
Recent Posts
- Cohere Waxa Uu Helay $500 Milyan Oo Kordhin, In Ka Badan Labanlaab Qiimo Gaara $5.5 Bilyan
- GPT-4o Mini Oo La Daah-Furay: Kharash waxtar leh, Waxqabad Sare oo Beddelka Claude Haiku, Gemini Flash iyo GPT 3.5 Turbo
- Sam Oliver, Aasaasaha Taxanaha Wareysiga OpenFi
- Barashada Farshaxanka AI Dalabyada: 5 Farsamo ee Isticmaalayaasha Sare
- Mashiinka Riyada Luma AI - Kacaanka Abuurista Fiidiyowga AI