Paraiméadair agus Riachtanais Chuimhne na Múnla Móra Teanga a Thuiscint: Léim dhomhain

Múnlaí Móra Teanga (LLManna) dul chun cinn suntasach le blianta beaga anuas. Tá samhlacha cosúil le GPT-4, Google's Gemini, agus Claude 3 ag leagan síos caighdeáin nua maidir le cumais agus feidhmchláir. Ní hamháin go bhfuil na samhlacha seo ag cur le giniúint téacs agus aistriúcháin ach tá siad ag briseadh talamh nua freisin i bpróiseáil ilmhódach, ag comhcheangal ionchuir téacs, íomhá, fuaime agus físe chun réitigh AI níos cuimsithí a sholáthar.

Mar shampla, léirigh GPT-4 OpenAI feabhsuithe suntasacha i dtuiscint agus i nginiúint téacs cosúil le daoine, agus tá sármhaitheas ag samhlacha Gemini Google maidir le cineálacha éagsúla sonraí a láimhseáil, lena n-áirítear téacs, íomhánna agus fuaime, rud a chumasaíonn idirghníomhaíochtaí níos uaim agus atá ábhartha ó thaobh an chomhthéacs. Mar an gcéanna, tugtar suntas do shamhlacha Anthropic Claude 3 as a gcumas ilteangach agus a bhfeidhmíocht fheabhsaithe i dtascanna AI.

De réir mar a leanann forbairt LLManna ag luasghéarú, tá sé ríthábhachtach tuiscint a fháil ar chasta na múnlaí sin, go háirithe a bparaiméadar agus a riachtanais chuimhne. Tá sé mar aidhm ag an treoir seo na gnéithe seo a shoiléiriú, ag tairiscint míniú mionsonraithe atá éasca le tuiscint.

Bunús na Samhlacha Móra Teanga

Cad is Múnlaí Móra Teanga ann?

Is líonraí néarúla iad Múnlaí Móra Teanga atá oilte ar thacair shonraí ollmhóra chun teanga dhaonna a thuiscint agus a ghiniúint. Braitheann siad ar ailtireachtaí cosúil le Claochladáin, a úsáideann meicníochtaí cosúil le féinaird chun téacs a phróiseáil agus a tháirgeadh.

Tábhacht Paraiméadair i LLManna

Is iad paraiméadair croí-chomhpháirteanna na samhlacha seo. Áirítear leo meáchain agus laofachtaí, a choigeartaíonn an tsamhail le linn na hoiliúna chun earráidí sa tuar a íoslaghdú. Is minic go mbíonn comhghaol idir líon na bparaiméadar agus cumas agus feidhmíocht an mhúnla ach bíonn tionchar aige freisin ar a riachtanais ríomhaireachtúla agus chuimhne.

Ailtireacht Trasfhoirmeora a Thuiscint

Ailtireacht Claochladáin

Forbhreathnú

An ailtireacht Trasfhoirmeoir, a tugadh isteach sa pháipéar “Attention Is All You Need” le Vaswani et al. (2017), anois mar bhunús do go leor LLManna. Tá sé comhdhéanta d'ionchódóir agus díchódóir, gach ceann déanta suas de roinnt sraitheanna comhionanna.

Comhpháirteanna Ionchódóra agus Díchódóra

Ionchódóra: Próiseálann sé an seicheamh ionchuir agus cruthaíonn sé léiriú atá feasach ar an gcomhthéacs.
Decoder: Gineann an seicheamh aschuir ag baint úsáide as ionadaíocht an ionchódóra agus na comharthaí a gineadh roimhe seo.

Eochracha Tógála

Aire Il-Cheann: Cuireann sé ar chumas an mhúnla díriú ar chodanna éagsúla den seicheamh ionchuir ag an am céanna.
Líonraí Néaracha Feed-Forward: Cuireann sé neamhlíneacht agus castacht leis an tsamhail.
Normalú Ciseal: Déanann sé oiliúint a chobhsú agus a luathú trí aschuir idirmheánacha a normalú.

Líon na bParaiméadar á ríomh

Samhlacha Réamhthraenáilte Le haghaidh Oiliúint Éifeachtach Trasfhoirmeora

Paraiméadair a Ríomh i LLManna Trasfhoirmeoir-bhunaithe

Déanaimis ríomh na bparaiméadar do gach comhpháirt de LLM Trasfhoirmeoir-bhunaithe a mhiondealú. Bainfimid úsáid as an nodaireacht ón bpáipéar bunaidh, áit d_model is ionann é agus gné stáit cheilte an tsamhail.

Ciseal Leabú:
- Paraiméadair = vocab_size * d_model
Aire Il-Cheann:
- Do h cinn, le d_k = d_v = d_model / h:
- Paraiméadair = 4 * d_model^2 (le haghaidh Q, K, V, agus réamh-mheastacháin aschuir)
Líonra Feed-Ar Aghaidh:
- Paraiméadair = 2 * d_model * d_ff + d_model + d_ff
- Sa chás go d_ff go hiondúil 4* d_model
Normalú Ciseal:
- Paraiméadair = 2 * d_model (le haghaidh scála agus laofachta)

Paraiméadair iomlána do chiseal Trasfhoirmeora amháin:

Parameters_layer = Parameters_attention + Parameters_ffn + 2 * Parameters_layernorm

Le haghaidh múnla le N sraitheanna:

Paraiméadair Iomlána = N * Parameters_layer + Parameters_embedding + Parameters_output

Ríomh Samplach

Déanaimis machnamh ar mhúnla leis na sonraíochtaí seo a leanas:

d_model = 768
h (líon na gceannairí aird) = 12
N (líon sraitheanna) = 12
vocab_size = 50,000

Ciseal Leabú:
- 50,000 * 768 = 38,400,000
Aire Il-Cheann:
- 4 * 768^2 = 2,359,296
Líonra Feed-Ar Aghaidh:
- 2 * 768 * (4 * 768) + 768 + (4 * 768) = 4,719,616
Normalú Ciseal:
- 2 * 768 = 1,536

Paraiméadair iomlána in aghaidh na sraithe:

2,359,296 + 4,719,616 + (2 * 1,536) = 7,081,984

Paraiméadair iomlána le haghaidh 12 sraithe:

12 * 7,081,984 = 84,983,808

Paraiméadair mhúnla iomlán:

+ = 84,983,808 38,400,000 123,383,808

Bheadh thart ar 123 milliún paraiméadair ag an múnla seo.

Cineálacha Úsáid Cuimhne

Agus muid ag obair le LLManna, caithfimid dhá phríomhchineál úsáide cuimhne a mheas:

Cuimhne Mhúnla: An chuimhne atá ag teastáil chun na paraiméadair mhúnla a stóráil.
Cuimhne Oibre: An chuimhne a theastaíonn le linn tátail nó oiliúna chun gníomhachtaí idirmheánacha, grádáin, agus stáit optamaithe a stóráil.

Cuimhne Mhúnla á Ríomh

Tá baint dhíreach ag cuimhne an mhúnla le líon na bparaiméadar. Stóráiltear gach paraiméadar go hiondúil mar uimhir snámhphointe 32-giotán, cé go n-úsáideann samhlacha áirithe oiliúint bheachtais mheasctha le snámháin 16-giotán.

Cuimhne Mhúnla (bearta) = Líon na bparaiméadar * Bearta in aghaidh an pharaiméadar

Maidir lenár múnla samplach le 123 milliún paraiméadair:

Cuimhne Samhail (32-giotán) = 123,383,808 * 4 beart = 493,535,232 beart ≈ 494 MB
Cuimhne Samhail (16-giotán) = 123,383,808 * 2 beart = 246,767,616 beart ≈ 247 MB

Cuimhne Oibre a Mheas

Féadfaidh riachtanais chuimhne oibre athrú go suntasach bunaithe ar an tasc sonrach, méid an bhaisc, agus fad an tseichimh. Is meastachán garbh do chuimhne oibre le linn tátail:

Cuimhne Oibre ≈ 2 * Cuimhne Samhail

Is éard atá i gceist leis seo ná na paraiméadair mhúnla agus na gníomhachtaí idirmheánacha a stóráil. Le linn na hoiliúna, is féidir leis na riachtanais chuimhne a bheith níos airde fós mar gheall ar an ngá atá le grádáin agus stáit optamaithe a stóráil:

Cuimhne Oiliúna ≈ 4 * Cuimhne Samhail

Le haghaidh ár samhail sampla:

Cuimhne Oibre Tátail ≈ 2 * 494 MB = 988 MB ≈ 1 GB
Cuimhne Oiliúna ≈ 4 * 494 MB = 1,976 MB ≈ 2 GB

Úsáid Cuimhne Seasta-Stáit agus Buaic-Úsáid Cuimhne

Agus múnlaí móra teanga á n-oiliúint bunaithe ar ailtireacht an Trasfhoirmeora, tá sé ríthábhachtach úsáid chuimhne a thuiscint chun acmhainní a leithdháileadh go héifeachtach. Déanaimis na riachtanais chuimhne a bhriseadh síos ina dhá phríomhchatagóir: úsáid cuimhne seasta agus buaicúsáid cuimhne.

Úsáid Cuimhne Seasta-Stáit

Tá na comhpháirteanna seo a leanas san úsáid cuimhne seasta:

Meáchain Múnla: FP32 cóipeanna de na paraiméadair mhúnla, a éilíonn 4N bytes, áit a bhfuil N líon na paraiméadair.
Stáit Optimizer: Maidir leis an Adam optimizer, éilíonn sé seo 8N bytes (2 stát in aghaidh an pharaiméadar).
Grádáin: FP32 cóipeanna de na grádáin, a éilíonn 4N beart.
Sonraí Ionchuir: Ag glacadh leis ionchuir int64, teastaíonn 8BD beart, áit arb é B méid an bhaisc agus gurb é D an toise ionchuir.

Is féidir úsáid iomlán na cuimhne seasta-staid a neasú trí:

M_steady = 16N + 8BD beart

Buaic-Úsáid Cuimhne

Tarlaíonn buaicúsáid chuimhne le linn an phas ar gcúl nuair a stóráiltear gníomhachtaí chun grádáin a ríomh. Is iad na príomh-ranníocóirí a chuireann le buaicchuimhne:

Normalú Ciseal: Éilíonn 4E bytes in aghaidh an norm ciseal, áit a bhfuil E = BSH (B: méid bhaisc, S: fad seicheamh, H: méid i bhfolach).
Bloc Aird:
- Ríomh QKV: 2E bytes
- Maitrís aird: 4BSS bytes (S: fad seicheamh)
- Aschur aird: 2E bytes
Bloc Feed-Ar Aghaidh:
- An chéad chiseal líneach: 2E bytes
- Gníomhachtú GELU: 8E bytes
- An dara sraith líneach: 2E bytes
Caillteanas Tras-Eantrópachta:
- Logits: 6BSV bytes (V: méid an fhoclóra)

Is féidir an chuimhne gníomhachtaithe iomlán a mheas mar:

M_act = L * (14E + 4BSS) + 6BSV bytes

Áit a bhfuil L líon na sraitheanna claochladáin.

Úsáid Iomlán Buaic Chuimhne

Is féidir buaicúsáid na cuimhne le linn na hoiliúna a chomhfhogasú tríd an gcuimhne seasta agus an chuimhne gníomhachtaithe a chomhcheangal:

M_peak = M_steady + M_act + 4BSV beart

Is ionann an téarma breise 4BSV agus leithdháileadh breise ag tús an phas ar gcúl.

Trí na comhpháirteanna seo a thuiscint, is féidir linn úsáid chuimhne a bharrfheabhsú le linn oiliúna agus tátail, ag cinntiú leithdháileadh éifeachtach acmhainní agus feidhmíocht fheabhsaithe na múnlaí móra teanga.

Dlíthe Scálú agus Breithnithe Éifeachtúlachta

Dlíthe Scálú le haghaidh LLM

Tá sé léirithe ag taighde go leanann feidhmíocht LLManna dlíthe áirithe scálaithe de réir mar a mhéadaíonn líon na bparaiméadar. Tá Kaplan et al. (2020) go bhfeabhsaítear feidhmíocht na samhla mar dhlí cumhachta maidir le líon na bparaiméadar, an buiséad a ríomh, agus méid na dtacar sonraí.

Is féidir an gaol idir feidhmíocht an mhúnla agus líon na bparaiméadar a chomhfhogasú trí:

Feidhmíocht ∝ N^α

Áit arb é N líon na bparaiméadar agus gur easpórtálaí scálaithe é α go hiondúil timpeall 0.07 do thascanna samhaltaithe teanga.

Ciallaíonn sé seo go gcaithfimid líon na bparaiméadar a mhéadú faoi fhachtóir 10^(10/α) ≈ 1 chun feabhas 3.7% a bhaint amach ar fheidhmíocht.

Teicnící Éifeachtúlachta

De réir mar a leanann LLManna ag fás, tá teicnící éagsúla forbartha ag taighdeoirí agus cleachtóirí chun éifeachtúlacht a fheabhsú:

a) Oiliúint Bheachtais Mheasctha: Úsáid a bhaint as uimhreacha snámhphointe 16-giotán nó fiú 8-giotán le haghaidh oibríochtaí áirithe chun úsáid cuimhne agus riachtanais ríomhaireachtúla a laghdú.

b) Comhthreomhaireacht Múnla: An tsamhail a dháileadh thar il GPUanna nó TPUnna chun samhlacha níos mó a láimhseáil ná mar is féidir a fheileann ar ghléas amháin.

c) Seicphointe Grádáin: Ríomh a thrádáil le haghaidh cuimhne trí ghníomhaíochtaí áirithe a athríomh le linn an phas ar gcúl seachas iad a stóráil.

d) Bearradh agus Cainníochtú: Meáchan níos lú tábhacht a bhaint nó a n-iar-oiliúint bheachtais a laghdú chun samhlacha níos lú, níos éifeachtaí a chruthú.

e) Driogadh: Múnlaí níos lú a oiliúint chun aithris a dhéanamh ar iompar na cinn níos mó, rud a d'fhéadfadh cuid mhór den fheidhmíocht a chaomhnú le níos lú paraiméadair.

Sampla Praiticiúil agus Ríomhaireachtaí

Tá 3 billiún paraiméadair ag GPT-175, ceann de na samhlacha teanga is mó. Úsáideann sé an chuid díchódóra den ailtireacht Trasfhoirmeoir. Chun a scála a thuiscint, déanaimis an t-áireamh paraiméadar a bhriseadh síos le luachanna hipitéiseacha:

d_model = 12288
d_ff = 4 * 12288 = 49152
Líon na sraitheanna = 96

Le haghaidh ciseal díchódóra amháin:

Paraiméadair Iomlán = 8 * 12288^ 2 + 8 * 12288 * 49152 + 2 * 12288 ≈ 1.1 billiún

Iomlán do 96 sraith:

1.1 billiún * 96 = 105.6 billiún

Tagann na paraiméadair atá fágtha ó leabú agus comhpháirteanna eile.

Conclúid

Tá sé ríthábhachtach paraiméadair agus riachtanais chuimhne na múnlaí móra teanga a thuiscint chun na huirlisí cumhachtacha seo a dhearadh, a oiliúint agus a úsáid go héifeachtach. Trí ghnéithe ailtireachta Trasfhoirmeora a bhriseadh síos agus samplaí praiticiúla cosúil le GPT a scrúdú, gheobhaimid léargas níos doimhne ar chastacht agus ar scála na múnlaí sin.

Chun na dul chun cinn is déanaí i múnlaí móra teanga agus a bhfeidhmeanna a thuiscint, féach ar na treoracha cuimsitheacha seo:

Íoslódáil an treoir iomlán ar Gemma 2 : Samhail Mhórtheanga Oscailte Nua Google chun léargas a fháil ar a fheidhmíocht fheabhsaithe agus ar ghnéithe nuálaíocha.
Foghlaim faoi Ghníomhairí Foirgníochta LLM do RAG ó Scratch and Beyond : Treoir Chuimsitheach ina bpléitear na dúshláin agus na réitigh i nginiúint mhéadaithe na haisghabhála.
Faigh amach an intricacies de Oiliúint, Mionchoigeartú, agus Tionchar LLManna a Bhunú le GPUanna NVIDIA agus CUDA le haghaidh córais AI a bharrfheabhsú.

Aonaigh.AI

Paraiméadair Mhúnla Móra Teanga a Thuiscint agus Riachtanais Chuimhne: Léim dhomhain

Faisnéise Saorga

Paraiméadair Mhúnla Móra Teanga a Thuiscint agus Riachtanais Chuimhne: Léim dhomhain

Clár ábhair

Bunús na Samhlacha Móra Teanga

Cad is Múnlaí Móra Teanga ann?

Tábhacht Paraiméadair i LLManna

Ailtireacht Trasfhoirmeora a Thuiscint

Forbhreathnú

Comhpháirteanna Ionchódóra agus Díchódóra

Eochracha Tógála

Líon na bParaiméadar á ríomh

Paraiméadair a Ríomh i LLManna Trasfhoirmeoir-bhunaithe

Ríomh Samplach

Cineálacha Úsáid Cuimhne

Cuimhne Mhúnla á Ríomh

Cuimhne Oibre a Mheas

Úsáid Cuimhne Seasta-Stáit agus Buaic-Úsáid Cuimhne

Úsáid Cuimhne Seasta-Stáit

Buaic-Úsáid Cuimhne

Úsáid Iomlán Buaic Chuimhne

Dlíthe Scálú agus Breithnithe Éifeachtúlachta

Dlíthe Scálú le haghaidh LLM

Teicnící Éifeachtúlachta

Sampla Praiticiúil agus Ríomhaireachtaí

Conclúid

Poist is déanaí

Aonaigh.AI

Paraiméadair Mhúnla Móra Teanga a Thuiscint agus Riachtanais Chuimhne: Léim dhomhain

Clár ábhair

Bunús na Samhlacha Móra Teanga

Cad is Múnlaí Móra Teanga ann?

Tábhacht Paraiméadair i LLManna

Ailtireacht Trasfhoirmeora a Thuiscint

Forbhreathnú

Comhpháirteanna Ionchódóra agus Díchódóra

Eochracha Tógála

Líon na bParaiméadar á ríomh

Paraiméadair a Ríomh i LLManna Trasfhoirmeoir-bhunaithe

Ríomh Samplach

Cineálacha Úsáid Cuimhne

Cuimhne Mhúnla á Ríomh

Cuimhne Oibre a Mheas

Úsáid Cuimhne Seasta-Stáit agus Buaic-Úsáid Cuimhne

Úsáid Cuimhne Seasta-Stáit

Buaic-Úsáid Cuimhne

Úsáid Iomlán Buaic Chuimhne

Dlíthe Scálú agus Breithnithe Éifeachtúlachta

Dlíthe Scálú le haghaidh LLM

Teicnící Éifeachtúlachta

Sampla Praiticiúil agus Ríomhaireachtaí

Conclúid

B'fhéidir gur mhaith leat

Poist is déanaí