Ceangail le linn

Faisnéise Saorga

Paraiméadair Mhúnla Móra Teanga a Thuiscint agus Riachtanais Chuimhne: Léim dhomhain

mm

foilsithe

 on

Paraiméadair a Ríomh i LLManna Trasfhoirmeoir-bhunaithe

Múnlaí Móra Teanga (LLManna) dul chun cinn suntasach le blianta beaga anuas. Tá samhlacha cosúil le GPT-4, Google's Gemini, agus Claude 3 ag leagan síos caighdeáin nua maidir le cumais agus feidhmchláir. Ní hamháin go bhfuil na samhlacha seo ag cur le giniúint téacs agus aistriúcháin ach tá siad ag briseadh talamh nua freisin i bpróiseáil ilmhódach, ag comhcheangal ionchuir téacs, íomhá, fuaime agus físe chun réitigh AI níos cuimsithí a sholáthar.

Mar shampla, léirigh GPT-4 OpenAI feabhsuithe suntasacha i dtuiscint agus i nginiúint téacs cosúil le daoine, agus tá sármhaitheas ag samhlacha Gemini Google maidir le cineálacha éagsúla sonraí a láimhseáil, lena n-áirítear téacs, íomhánna agus fuaime, rud a chumasaíonn idirghníomhaíochtaí níos uaim agus atá ábhartha ó thaobh an chomhthéacs. Mar an gcéanna, tugtar suntas do shamhlacha Anthropic Claude 3 as a gcumas ilteangach agus a bhfeidhmíocht fheabhsaithe i dtascanna AI.

De réir mar a leanann forbairt LLManna ag luasghéarú, tá sé ríthábhachtach tuiscint a fháil ar chasta na múnlaí sin, go háirithe a bparaiméadar agus a riachtanais chuimhne. Tá sé mar aidhm ag an treoir seo na gnéithe seo a shoiléiriú, ag tairiscint míniú mionsonraithe atá éasca le tuiscint.

Bunús na Samhlacha Móra Teanga

Cad is Múnlaí Móra Teanga ann?

Is líonraí néarúla iad Múnlaí Móra Teanga atá oilte ar thacair shonraí ollmhóra chun teanga dhaonna a thuiscint agus a ghiniúint. Braitheann siad ar ailtireachtaí cosúil le Claochladáin, a úsáideann meicníochtaí cosúil le féinaird chun téacs a phróiseáil agus a tháirgeadh.

Tábhacht Paraiméadair i LLManna

Is iad paraiméadair croí-chomhpháirteanna na samhlacha seo. Áirítear leo meáchain agus laofachtaí, a choigeartaíonn an tsamhail le linn na hoiliúna chun earráidí sa tuar a íoslaghdú. Is minic go mbíonn comhghaol idir líon na bparaiméadar agus cumas agus feidhmíocht an mhúnla ach bíonn tionchar aige freisin ar a riachtanais ríomhaireachtúla agus chuimhne.

Ailtireacht Trasfhoirmeora a Thuiscint

Claochladáin-ailtireacht

Ailtireacht Claochladáin

Forbhreathnú

An ailtireacht Trasfhoirmeoir, a tugadh isteach sa pháipéar “Attention Is All You Need” le Vaswani et al. (2017), anois mar bhunús do go leor LLManna. Tá sé comhdhéanta d'ionchódóir agus díchódóir, gach ceann déanta suas de roinnt sraitheanna comhionanna.

Comhpháirteanna Ionchódóra agus Díchódóra

  • Ionchódóra: Próiseálann sé an seicheamh ionchuir agus cruthaíonn sé léiriú atá feasach ar an gcomhthéacs.
  • Decoder: Gineann an seicheamh aschuir ag baint úsáide as ionadaíocht an ionchódóra agus na comharthaí a gineadh roimhe seo.

Eochracha Tógála

  1. Aire Il-Cheann: Cuireann sé ar chumas an mhúnla díriú ar chodanna éagsúla den seicheamh ionchuir ag an am céanna.
  2. Líonraí Néaracha Feed-Forward: Cuireann sé neamhlíneacht agus castacht leis an tsamhail.
  3. Normalú Ciseal: Déanann sé oiliúint a chobhsú agus a luathú trí aschuir idirmheánacha a normalú.

Líon na bParaiméadar á ríomh

Oiliúint Trasfhoirmeoir

Samhlacha Réamhthraenáilte Le haghaidh Oiliúint Éifeachtach Trasfhoirmeora

Paraiméadair a Ríomh i LLManna Trasfhoirmeoir-bhunaithe

Déanaimis ríomh na bparaiméadar do gach comhpháirt de LLM Trasfhoirmeoir-bhunaithe a mhiondealú. Bainfimid úsáid as an nodaireacht ón bpáipéar bunaidh, áit d_model is ionann é agus gné stáit cheilte an tsamhail.

  1. Ciseal Leabú:
    • Paraiméadair = vocab_size * d_model
  2. Aire Il-Cheann:
    • Do h cinn, le d_k = d_v = d_model / h:
    • Paraiméadair = 4 * d_model^2 (le haghaidh Q, K, V, agus réamh-mheastacháin aschuir)
  3. Líonra Feed-Ar Aghaidh:
    • Paraiméadair = 2 * d_model * d_ff + d_model + d_ff
    • Sa chás go d_ff go hiondúil 4* d_model
  4. Normalú Ciseal:
    • Paraiméadair = 2 * d_model (le haghaidh scála agus laofachta)

Paraiméadair iomlána do chiseal Trasfhoirmeora amháin:

  • Parameters_layer = Parameters_attention + Parameters_ffn + 2 * Parameters_layernorm

Le haghaidh múnla le N sraitheanna:

  • Paraiméadair Iomlána = N * Parameters_layer + Parameters_embedding + Parameters_output

Ríomh Samplach

Déanaimis machnamh ar mhúnla leis na sonraíochtaí seo a leanas:

  • d_model = 768
  • h (líon na gceannairí aird) = 12
  • N (líon sraitheanna) = 12
  • vocab_size = 50,000
  1. Ciseal Leabú:
    • 50,000 * 768 = 38,400,000
  2. Aire Il-Cheann:
    • 4 * 768^2 = 2,359,296
  3. Líonra Feed-Ar Aghaidh:
    • 2 * 768 * (4 * 768) + 768 + (4 * 768) = 4,719,616
  4. Normalú Ciseal:
    • 2 * 768 = 1,536

Paraiméadair iomlána in aghaidh na sraithe:

  • 2,359,296 + 4,719,616 + (2 * 1,536) = 7,081,984

Paraiméadair iomlána le haghaidh 12 sraithe:

  • 12 * 7,081,984 = 84,983,808

Paraiméadair mhúnla iomlán:

  • + = 84,983,808 38,400,000 123,383,808

Bheadh ​​thart ar 123 milliún paraiméadair ag an múnla seo.

Cineálacha Úsáid Cuimhne

Agus muid ag obair le LLManna, caithfimid dhá phríomhchineál úsáide cuimhne a mheas:

  1. Cuimhne Mhúnla: An chuimhne atá ag teastáil chun na paraiméadair mhúnla a stóráil.
  2. Cuimhne Oibre: An chuimhne a theastaíonn le linn tátail nó oiliúna chun gníomhachtaí idirmheánacha, grádáin, agus stáit optamaithe a stóráil.

Cuimhne Mhúnla á Ríomh

Tá baint dhíreach ag cuimhne an mhúnla le líon na bparaiméadar. Stóráiltear gach paraiméadar go hiondúil mar uimhir snámhphointe 32-giotán, cé go n-úsáideann samhlacha áirithe oiliúint bheachtais mheasctha le snámháin 16-giotán.

Cuimhne Mhúnla (bearta) = Líon na bparaiméadar * Bearta in aghaidh an pharaiméadar

Maidir lenár múnla samplach le 123 milliún paraiméadair:

  • Cuimhne Samhail (32-giotán) = 123,383,808 * 4 beart = 493,535,232 beart ≈ ​​494 MB
  • Cuimhne Samhail (16-giotán) = 123,383,808 * 2 beart = 246,767,616 beart ≈ ​​247 MB

Cuimhne Oibre a Mheas

Féadfaidh riachtanais chuimhne oibre athrú go suntasach bunaithe ar an tasc sonrach, méid an bhaisc, agus fad an tseichimh. Is meastachán garbh do chuimhne oibre le linn tátail:

Cuimhne Oibre ≈ 2 * Cuimhne Samhail

Is éard atá i gceist leis seo ná na paraiméadair mhúnla agus na gníomhachtaí idirmheánacha a stóráil. Le linn na hoiliúna, is féidir leis na riachtanais chuimhne a bheith níos airde fós mar gheall ar an ngá atá le grádáin agus stáit optamaithe a stóráil:

Cuimhne Oiliúna ≈ 4 * Cuimhne Samhail

Le haghaidh ár samhail sampla:

  • Cuimhne Oibre Tátail ≈ 2 * 494 MB = 988 MB ≈ 1 GB
  • Cuimhne Oiliúna ≈ 4 * 494 MB = 1,976 MB ≈ 2 GB

Úsáid Cuimhne Seasta-Stáit agus Buaic-Úsáid Cuimhne

Agus múnlaí móra teanga á n-oiliúint bunaithe ar ailtireacht an Trasfhoirmeora, tá sé ríthábhachtach úsáid chuimhne a thuiscint chun acmhainní a leithdháileadh go héifeachtach. Déanaimis na riachtanais chuimhne a bhriseadh síos ina dhá phríomhchatagóir: úsáid cuimhne seasta agus buaicúsáid cuimhne.

Úsáid Cuimhne Seasta-Stáit

Tá na comhpháirteanna seo a leanas san úsáid cuimhne seasta:

  1. Meáchain Múnla: FP32 cóipeanna de na paraiméadair mhúnla, a éilíonn 4N bytes, áit a bhfuil N líon na paraiméadair.
  2. Stáit Optimizer: Maidir leis an Adam optimizer, éilíonn sé seo 8N bytes (2 stát in aghaidh an pharaiméadar).
  3. Grádáin: FP32 cóipeanna de na grádáin, a éilíonn 4N beart.
  4. Sonraí Ionchuir: Ag glacadh leis ionchuir int64, teastaíonn 8BD beart, áit arb é B méid an bhaisc agus gurb é D an toise ionchuir.

Is féidir úsáid iomlán na cuimhne seasta-staid a neasú trí:

  • M_steady = 16N + 8BD beart

Buaic-Úsáid Cuimhne

Tarlaíonn buaicúsáid chuimhne le linn an phas ar gcúl nuair a stóráiltear gníomhachtaí chun grádáin a ríomh. Is iad na príomh-ranníocóirí a chuireann le buaicchuimhne:

  1. Normalú Ciseal: Éilíonn 4E bytes in aghaidh an norm ciseal, áit a bhfuil E = BSH (B: méid bhaisc, S: fad seicheamh, H: méid i bhfolach).
  2. Bloc Aird:
    • Ríomh QKV: 2E bytes
    • Maitrís aird: 4BSS bytes (S: fad seicheamh)
    • Aschur aird: 2E bytes
  3. Bloc Feed-Ar Aghaidh:
    • An chéad chiseal líneach: 2E bytes
    • Gníomhachtú GELU: 8E bytes
    • An dara sraith líneach: 2E bytes
  4. Caillteanas Tras-Eantrópachta:
    • Logits: 6BSV bytes (V: méid an fhoclóra)

Is féidir an chuimhne gníomhachtaithe iomlán a mheas mar:

  • M_act = L * (14E + 4BSS) + 6BSV bytes

Áit a bhfuil L líon na sraitheanna claochladáin.

Úsáid Iomlán Buaic Chuimhne

Is féidir buaicúsáid na cuimhne le linn na hoiliúna a chomhfhogasú tríd an gcuimhne seasta agus an chuimhne gníomhachtaithe a chomhcheangal:

  • M_peak = M_steady + M_act + 4BSV beart

Is ionann an téarma breise 4BSV agus leithdháileadh breise ag tús an phas ar gcúl.

Trí na comhpháirteanna seo a thuiscint, is féidir linn úsáid chuimhne a bharrfheabhsú le linn oiliúna agus tátail, ag cinntiú leithdháileadh éifeachtach acmhainní agus feidhmíocht fheabhsaithe na múnlaí móra teanga.

Dlíthe Scálú agus Breithnithe Éifeachtúlachta

 Dlíthe Scálú le haghaidh LLM

Tá sé léirithe ag taighde go leanann feidhmíocht LLManna dlíthe áirithe scálaithe de réir mar a mhéadaíonn líon na bparaiméadar. Tá Kaplan et al. (2020) go bhfeabhsaítear feidhmíocht na samhla mar dhlí cumhachta maidir le líon na bparaiméadar, an buiséad a ríomh, agus méid na dtacar sonraí.

Is féidir an gaol idir feidhmíocht an mhúnla agus líon na bparaiméadar a chomhfhogasú trí:

Feidhmíocht ∝ N^α

Áit arb é N líon na bparaiméadar agus gur easpórtálaí scálaithe é α go hiondúil timpeall 0.07 do thascanna samhaltaithe teanga.

Ciallaíonn sé seo go gcaithfimid líon na bparaiméadar a mhéadú faoi fhachtóir 10^(10/α) ≈ 1 chun feabhas 3.7% a bhaint amach ar fheidhmíocht.

Teicnící Éifeachtúlachta

De réir mar a leanann LLManna ag fás, tá teicnící éagsúla forbartha ag taighdeoirí agus cleachtóirí chun éifeachtúlacht a fheabhsú:

a) Oiliúint Bheachtais Mheasctha: Úsáid a bhaint as uimhreacha snámhphointe 16-giotán nó fiú 8-giotán le haghaidh oibríochtaí áirithe chun úsáid cuimhne agus riachtanais ríomhaireachtúla a laghdú.

b) Comhthreomhaireacht Múnla: An tsamhail a dháileadh thar il GPUanna nó TPUnna chun samhlacha níos mó a láimhseáil ná mar is féidir a fheileann ar ghléas amháin.

c) Seicphointe Grádáin: Ríomh a thrádáil le haghaidh cuimhne trí ghníomhaíochtaí áirithe a athríomh le linn an phas ar gcúl seachas iad a stóráil.

d) Bearradh agus Cainníochtú: Meáchan níos lú tábhacht a bhaint nó a n-iar-oiliúint bheachtais a laghdú chun samhlacha níos lú, níos éifeachtaí a chruthú.

e) Driogadh: Múnlaí níos lú a oiliúint chun aithris a dhéanamh ar iompar na cinn níos mó, rud a d'fhéadfadh cuid mhór den fheidhmíocht a chaomhnú le níos lú paraiméadair.

Sampla Praiticiúil agus Ríomhaireachtaí

Tá 3 billiún paraiméadair ag GPT-175, ceann de na samhlacha teanga is mó. Úsáideann sé an chuid díchódóra den ailtireacht Trasfhoirmeoir. Chun a scála a thuiscint, déanaimis an t-áireamh paraiméadar a bhriseadh síos le luachanna hipitéiseacha:

  • d_model = 12288
  • d_ff = 4 * 12288 = 49152
  • Líon na sraitheanna = 96

Le haghaidh ciseal díchódóra amháin:

Paraiméadair Iomlán = 8 * 12288^ 2 + 8 * 12288 * 49152 + 2 * 12288 ≈ 1.1 billiún

Iomlán do 96 sraith:

1.1 billiún * 96 = 105.6 billiún

Tagann na paraiméadair atá fágtha ó leabú agus comhpháirteanna eile.

Conclúid

Tá sé ríthábhachtach paraiméadair agus riachtanais chuimhne na múnlaí móra teanga a thuiscint chun na huirlisí cumhachtacha seo a dhearadh, a oiliúint agus a úsáid go héifeachtach. Trí ghnéithe ailtireachta Trasfhoirmeora a bhriseadh síos agus samplaí praiticiúla cosúil le GPT a scrúdú, gheobhaimid léargas níos doimhne ar chastacht agus ar scála na múnlaí sin.

Chun na dul chun cinn is déanaí i múnlaí móra teanga agus a bhfeidhmeanna a thuiscint, féach ar na treoracha cuimsitheacha seo:

Tá cúig bliana anuas caite agam ag tumadh mé féin i ndomhan iontach na Foghlama Meaisín agus an Fhoghlaim Dhomhain. Chuir mo phaisean agus mo shaineolas orm cur le breis agus 50 tionscadal innealtóireachta bogearraí éagsúla, le fócas ar leith ar AI/ML. Tá mo fiosracht leanúnach tar éis mé a tharraingt i dtreo Próiseáil Teanga Nádúrtha, réimse a bhfuil fonn orm tuilleadh a chíoradh.