Faisnéise Saorga
Paraiméadair Mhúnla Móra Teanga a Thuiscint agus Riachtanais Chuimhne: Léim dhomhain
foilsithe
Lá ó shin 6on
Clár ábhair
Múnlaí Móra Teanga (LLManna) dul chun cinn suntasach le blianta beaga anuas. Tá samhlacha cosúil le GPT-4, Google's Gemini, agus Claude 3 ag leagan síos caighdeáin nua maidir le cumais agus feidhmchláir. Ní hamháin go bhfuil na samhlacha seo ag cur le giniúint téacs agus aistriúcháin ach tá siad ag briseadh talamh nua freisin i bpróiseáil ilmhódach, ag comhcheangal ionchuir téacs, íomhá, fuaime agus físe chun réitigh AI níos cuimsithí a sholáthar.
Mar shampla, léirigh GPT-4 OpenAI feabhsuithe suntasacha i dtuiscint agus i nginiúint téacs cosúil le daoine, agus tá sármhaitheas ag samhlacha Gemini Google maidir le cineálacha éagsúla sonraí a láimhseáil, lena n-áirítear téacs, íomhánna agus fuaime, rud a chumasaíonn idirghníomhaíochtaí níos uaim agus atá ábhartha ó thaobh an chomhthéacs. Mar an gcéanna, tugtar suntas do shamhlacha Anthropic Claude 3 as a gcumas ilteangach agus a bhfeidhmíocht fheabhsaithe i dtascanna AI.
De réir mar a leanann forbairt LLManna ag luasghéarú, tá sé ríthábhachtach tuiscint a fháil ar chasta na múnlaí sin, go háirithe a bparaiméadar agus a riachtanais chuimhne. Tá sé mar aidhm ag an treoir seo na gnéithe seo a shoiléiriú, ag tairiscint míniú mionsonraithe atá éasca le tuiscint.
Bunús na Samhlacha Móra Teanga
Cad is Múnlaí Móra Teanga ann?
Is líonraí néarúla iad Múnlaí Móra Teanga atá oilte ar thacair shonraí ollmhóra chun teanga dhaonna a thuiscint agus a ghiniúint. Braitheann siad ar ailtireachtaí cosúil le Claochladáin, a úsáideann meicníochtaí cosúil le féinaird chun téacs a phróiseáil agus a tháirgeadh.
Tábhacht Paraiméadair i LLManna
Is iad paraiméadair croí-chomhpháirteanna na samhlacha seo. Áirítear leo meáchain agus laofachtaí, a choigeartaíonn an tsamhail le linn na hoiliúna chun earráidí sa tuar a íoslaghdú. Is minic go mbíonn comhghaol idir líon na bparaiméadar agus cumas agus feidhmíocht an mhúnla ach bíonn tionchar aige freisin ar a riachtanais ríomhaireachtúla agus chuimhne.
Ailtireacht Trasfhoirmeora a Thuiscint
Forbhreathnú
An ailtireacht Trasfhoirmeoir, a tugadh isteach sa pháipéar “Attention Is All You Need” le Vaswani et al. (2017), anois mar bhunús do go leor LLManna. Tá sé comhdhéanta d'ionchódóir agus díchódóir, gach ceann déanta suas de roinnt sraitheanna comhionanna.
Comhpháirteanna Ionchódóra agus Díchódóra
- Ionchódóra: Próiseálann sé an seicheamh ionchuir agus cruthaíonn sé léiriú atá feasach ar an gcomhthéacs.
- Decoder: Gineann an seicheamh aschuir ag baint úsáide as ionadaíocht an ionchódóra agus na comharthaí a gineadh roimhe seo.
Eochracha Tógála
- Aire Il-Cheann: Cuireann sé ar chumas an mhúnla díriú ar chodanna éagsúla den seicheamh ionchuir ag an am céanna.
- Líonraí Néaracha Feed-Forward: Cuireann sé neamhlíneacht agus castacht leis an tsamhail.
- Normalú Ciseal: Déanann sé oiliúint a chobhsú agus a luathú trí aschuir idirmheánacha a normalú.
Líon na bParaiméadar á ríomh
Paraiméadair a Ríomh i LLManna Trasfhoirmeoir-bhunaithe
Déanaimis ríomh na bparaiméadar do gach comhpháirt de LLM Trasfhoirmeoir-bhunaithe a mhiondealú. Bainfimid úsáid as an nodaireacht ón bpáipéar bunaidh, áit d_model
is ionann é agus gné stáit cheilte an tsamhail.
- Ciseal Leabú:
- Paraiméadair =
vocab_size
*d_model
- Paraiméadair =
- Aire Il-Cheann:
- Do
h
cinn, led_k = d_v = d_model / h
: - Paraiméadair = 4 *
d_model
^2 (le haghaidh Q, K, V, agus réamh-mheastacháin aschuir)
- Do
- Líonra Feed-Ar Aghaidh:
- Paraiméadair = 2 *
d_model
*d_ff
+d_model
+d_ff
- Sa chás go
d_ff
go hiondúil 4*d_model
- Paraiméadair = 2 *
- Normalú Ciseal:
- Paraiméadair = 2 *
d_model
(le haghaidh scála agus laofachta)
- Paraiméadair = 2 *
Paraiméadair iomlána do chiseal Trasfhoirmeora amháin:
Parameters_layer
=Parameters_attention
+Parameters_ffn
+ 2 *Parameters_layernorm
Le haghaidh múnla le N
sraitheanna:
- Paraiméadair Iomlána =
N
*Parameters_layer
+Parameters_embedding
+Parameters_output
Ríomh Samplach
Déanaimis machnamh ar mhúnla leis na sonraíochtaí seo a leanas:
d_model
= 768h
(líon na gceannairí aird) = 12N
(líon sraitheanna) = 12vocab_size
= 50,000
- Ciseal Leabú:
- 50,000 * 768 = 38,400,000
- Aire Il-Cheann:
- 4 * 768^2 = 2,359,296
- Líonra Feed-Ar Aghaidh:
- 2 * 768 * (4 * 768) + 768 + (4 * 768) = 4,719,616
- Normalú Ciseal:
- 2 * 768 = 1,536
Paraiméadair iomlána in aghaidh na sraithe:
- 2,359,296 + 4,719,616 + (2 * 1,536) = 7,081,984
Paraiméadair iomlána le haghaidh 12 sraithe:
- 12 * 7,081,984 = 84,983,808
Paraiméadair mhúnla iomlán:
- + = 84,983,808 38,400,000 123,383,808
Bheadh thart ar 123 milliún paraiméadair ag an múnla seo.
Cineálacha Úsáid Cuimhne
Agus muid ag obair le LLManna, caithfimid dhá phríomhchineál úsáide cuimhne a mheas:
- Cuimhne Mhúnla: An chuimhne atá ag teastáil chun na paraiméadair mhúnla a stóráil.
- Cuimhne Oibre: An chuimhne a theastaíonn le linn tátail nó oiliúna chun gníomhachtaí idirmheánacha, grádáin, agus stáit optamaithe a stóráil.
Cuimhne Mhúnla á Ríomh
Tá baint dhíreach ag cuimhne an mhúnla le líon na bparaiméadar. Stóráiltear gach paraiméadar go hiondúil mar uimhir snámhphointe 32-giotán, cé go n-úsáideann samhlacha áirithe oiliúint bheachtais mheasctha le snámháin 16-giotán.
Cuimhne Mhúnla (bearta) = Líon na bparaiméadar * Bearta in aghaidh an pharaiméadar
Maidir lenár múnla samplach le 123 milliún paraiméadair:
- Cuimhne Samhail (32-giotán) = 123,383,808 * 4 beart = 493,535,232 beart ≈ 494 MB
- Cuimhne Samhail (16-giotán) = 123,383,808 * 2 beart = 246,767,616 beart ≈ 247 MB
Cuimhne Oibre a Mheas
Féadfaidh riachtanais chuimhne oibre athrú go suntasach bunaithe ar an tasc sonrach, méid an bhaisc, agus fad an tseichimh. Is meastachán garbh do chuimhne oibre le linn tátail:
Cuimhne Oibre ≈ 2 * Cuimhne Samhail
Is éard atá i gceist leis seo ná na paraiméadair mhúnla agus na gníomhachtaí idirmheánacha a stóráil. Le linn na hoiliúna, is féidir leis na riachtanais chuimhne a bheith níos airde fós mar gheall ar an ngá atá le grádáin agus stáit optamaithe a stóráil:
Cuimhne Oiliúna ≈ 4 * Cuimhne Samhail
Le haghaidh ár samhail sampla:
- Cuimhne Oibre Tátail ≈ 2 * 494 MB = 988 MB ≈ 1 GB
- Cuimhne Oiliúna ≈ 4 * 494 MB = 1,976 MB ≈ 2 GB
Úsáid Cuimhne Seasta-Stáit agus Buaic-Úsáid Cuimhne
Agus múnlaí móra teanga á n-oiliúint bunaithe ar ailtireacht an Trasfhoirmeora, tá sé ríthábhachtach úsáid chuimhne a thuiscint chun acmhainní a leithdháileadh go héifeachtach. Déanaimis na riachtanais chuimhne a bhriseadh síos ina dhá phríomhchatagóir: úsáid cuimhne seasta agus buaicúsáid cuimhne.
Úsáid Cuimhne Seasta-Stáit
Tá na comhpháirteanna seo a leanas san úsáid cuimhne seasta:
- Meáchain Múnla: FP32 cóipeanna de na paraiméadair mhúnla, a éilíonn 4N bytes, áit a bhfuil N líon na paraiméadair.
- Stáit Optimizer: Maidir leis an Adam optimizer, éilíonn sé seo 8N bytes (2 stát in aghaidh an pharaiméadar).
- Grádáin: FP32 cóipeanna de na grádáin, a éilíonn 4N beart.
- Sonraí Ionchuir: Ag glacadh leis ionchuir int64, teastaíonn 8BD beart, áit arb é B méid an bhaisc agus gurb é D an toise ionchuir.
Is féidir úsáid iomlán na cuimhne seasta-staid a neasú trí:
- M_steady = 16N + 8BD beart
Buaic-Úsáid Cuimhne
Tarlaíonn buaicúsáid chuimhne le linn an phas ar gcúl nuair a stóráiltear gníomhachtaí chun grádáin a ríomh. Is iad na príomh-ranníocóirí a chuireann le buaicchuimhne:
- Normalú Ciseal: Éilíonn 4E bytes in aghaidh an norm ciseal, áit a bhfuil E = BSH (B: méid bhaisc, S: fad seicheamh, H: méid i bhfolach).
- Bloc Aird:
- Ríomh QKV: 2E bytes
- Maitrís aird: 4BSS bytes (S: fad seicheamh)
- Aschur aird: 2E bytes
- Bloc Feed-Ar Aghaidh:
- An chéad chiseal líneach: 2E bytes
- Gníomhachtú GELU: 8E bytes
- An dara sraith líneach: 2E bytes
- Caillteanas Tras-Eantrópachta:
- Logits: 6BSV bytes (V: méid an fhoclóra)
Is féidir an chuimhne gníomhachtaithe iomlán a mheas mar:
- M_act = L * (14E + 4BSS) + 6BSV bytes
Áit a bhfuil L líon na sraitheanna claochladáin.
Úsáid Iomlán Buaic Chuimhne
Is féidir buaicúsáid na cuimhne le linn na hoiliúna a chomhfhogasú tríd an gcuimhne seasta agus an chuimhne gníomhachtaithe a chomhcheangal:
- M_peak = M_steady + M_act + 4BSV beart
Is ionann an téarma breise 4BSV agus leithdháileadh breise ag tús an phas ar gcúl.
Trí na comhpháirteanna seo a thuiscint, is féidir linn úsáid chuimhne a bharrfheabhsú le linn oiliúna agus tátail, ag cinntiú leithdháileadh éifeachtach acmhainní agus feidhmíocht fheabhsaithe na múnlaí móra teanga.
Dlíthe Scálú agus Breithnithe Éifeachtúlachta
Dlíthe Scálú le haghaidh LLM
Tá sé léirithe ag taighde go leanann feidhmíocht LLManna dlíthe áirithe scálaithe de réir mar a mhéadaíonn líon na bparaiméadar. Tá Kaplan et al. (2020) go bhfeabhsaítear feidhmíocht na samhla mar dhlí cumhachta maidir le líon na bparaiméadar, an buiséad a ríomh, agus méid na dtacar sonraí.
Is féidir an gaol idir feidhmíocht an mhúnla agus líon na bparaiméadar a chomhfhogasú trí:
Feidhmíocht ∝ N^α
Áit arb é N líon na bparaiméadar agus gur easpórtálaí scálaithe é α go hiondúil timpeall 0.07 do thascanna samhaltaithe teanga.
Ciallaíonn sé seo go gcaithfimid líon na bparaiméadar a mhéadú faoi fhachtóir 10^(10/α) ≈ 1 chun feabhas 3.7% a bhaint amach ar fheidhmíocht.
Teicnící Éifeachtúlachta
De réir mar a leanann LLManna ag fás, tá teicnící éagsúla forbartha ag taighdeoirí agus cleachtóirí chun éifeachtúlacht a fheabhsú:
a) Oiliúint Bheachtais Mheasctha: Úsáid a bhaint as uimhreacha snámhphointe 16-giotán nó fiú 8-giotán le haghaidh oibríochtaí áirithe chun úsáid cuimhne agus riachtanais ríomhaireachtúla a laghdú.
b) Comhthreomhaireacht Múnla: An tsamhail a dháileadh thar il GPUanna nó TPUnna chun samhlacha níos mó a láimhseáil ná mar is féidir a fheileann ar ghléas amháin.
c) Seicphointe Grádáin: Ríomh a thrádáil le haghaidh cuimhne trí ghníomhaíochtaí áirithe a athríomh le linn an phas ar gcúl seachas iad a stóráil.
d) Bearradh agus Cainníochtú: Meáchan níos lú tábhacht a bhaint nó a n-iar-oiliúint bheachtais a laghdú chun samhlacha níos lú, níos éifeachtaí a chruthú.
e) Driogadh: Múnlaí níos lú a oiliúint chun aithris a dhéanamh ar iompar na cinn níos mó, rud a d'fhéadfadh cuid mhór den fheidhmíocht a chaomhnú le níos lú paraiméadair.
Sampla Praiticiúil agus Ríomhaireachtaí
Tá 3 billiún paraiméadair ag GPT-175, ceann de na samhlacha teanga is mó. Úsáideann sé an chuid díchódóra den ailtireacht Trasfhoirmeoir. Chun a scála a thuiscint, déanaimis an t-áireamh paraiméadar a bhriseadh síos le luachanna hipitéiseacha:
d_model = 12288
d_ff = 4 * 12288 = 49152
- Líon na sraitheanna = 96
Le haghaidh ciseal díchódóra amháin:
Paraiméadair Iomlán = 8 * 12288^ 2 + 8 * 12288 * 49152 + 2 * 12288 ≈ 1.1 billiún
Iomlán do 96 sraith:
1.1 billiún * 96 = 105.6 billiún
Tagann na paraiméadair atá fágtha ó leabú agus comhpháirteanna eile.
Conclúid
Tá sé ríthábhachtach paraiméadair agus riachtanais chuimhne na múnlaí móra teanga a thuiscint chun na huirlisí cumhachtacha seo a dhearadh, a oiliúint agus a úsáid go héifeachtach. Trí ghnéithe ailtireachta Trasfhoirmeora a bhriseadh síos agus samplaí praiticiúla cosúil le GPT a scrúdú, gheobhaimid léargas níos doimhne ar chastacht agus ar scála na múnlaí sin.
Chun na dul chun cinn is déanaí i múnlaí móra teanga agus a bhfeidhmeanna a thuiscint, féach ar na treoracha cuimsitheacha seo:
- Íoslódáil an treoir iomlán ar Gemma 2: Samhail Mhórtheanga Oscailte Nua Google chun léargas a fháil ar a fheidhmíocht fheabhsaithe agus ar ghnéithe nuálaíocha.
- Foghlaim faoi Ghníomhairí Foirgníochta LLM do RAG ó Scratch and Beyond: Treoir Chuimsitheach ina bpléitear na dúshláin agus na réitigh i nginiúint mhéadaithe na haisghabhála.
- Faigh amach an intricacies de Oiliúint, Mionchoigeartú, agus Tionchar LLManna a Bhunú le GPUanna NVIDIA agus CUDA le haghaidh córais AI a bharrfheabhsú.
Tá cúig bliana anuas caite agam ag tumadh mé féin i ndomhan iontach na Foghlama Meaisín agus an Fhoghlaim Dhomhain. Chuir mo phaisean agus mo shaineolas orm cur le breis agus 50 tionscadal innealtóireachta bogearraí éagsúla, le fócas ar leith ar AI/ML. Tá mo fiosracht leanúnach tar éis mé a tharraingt i dtreo Próiseáil Teanga Nádúrtha, réimse a bhfuil fonn orm tuilleadh a chíoradh.
B'fhéidir gur mhaith leat
MARKLLM: Foireann Uirlisí Foinse Oscailte le haghaidh Uiscemharcála LLM
Samhlacha Móra Teanga a Imscaradh ar Kubernetes: Treoir Chuimsitheach
Uath-ionchódóirí Ganna, GPT-4 & Claude 3 a Thuiscint : Iniúchadh Teicniúil Gain
Qwen2 – Tugann an tSamhail Teanga Ilteangach is Déanaí de chuid Alibaba Dúshlán do SOTA cosúil le Llama 3
LLaVA-UHD: LMM a Fhaire ar Aon Chóimheas Gné agus Íomhánna Ardtaifigh
Samhlacha Móra Teanga a Sármhuirearú le Tuar Ilchomharthaí
Poist is déanaí
- Lama 3.1: An tSamhail AI Foinse Oscailte is Airde ag Meta – Gach rud is gá duit a bheith ar eolas
- Eispéireas do Ghléis a Réabhlóidiú: An chaoi a bhfuil AI Apple ag Ath-shainmhíniú na Teicneolaíochta
- An Eochair do Réitigh AI Rathúla? Sonraí Iompraíochta
- Ról na GAN i bhFeabhsú na Cibearshlándála
- 10 Aip Stíl Gruaige AI is Fearr (Iúil 2024)