Girêdana bi me

Îstîxbaratê ya sûnî

Fêmkirina Parametreyên Modela Zimanên Mezin û Pêdiviyên Bîrê: Kevirek Kûr

mm

Published

 on

Hesabkirina Parametreyên di LLM-yên-based Transformer de

Modelên Zimanên Mezin (LLM) di salên dawî de pêşkeftinên berbiçav dîtiye. Modelên wekî GPT-4, Google's Gemini, û Claude 3 di kapasîteyên û sepanan de standardên nû destnîşan dikin. Van modelan ne tenê hilberîna nivîsê û wergerandinê zêde dikin, lê di heman demê de di pêvajoyek multimodal de jî zemînek nû vedikin, têketinên nivîs, wêne, deng û vîdyoyê li hev dikin da ku çareseriyên AI-ê yên berfireh peyda bikin.

Mînakî, GPT-4-a OpenAI-yê di têgihiştin û hilberîna metnek mîna mirov de pêşkeftinên girîng nîşan da, dema ku modelên Gemini yên Google-ê di karanîna cûrbecûr cûrbecûr daneyan de, di nav de nivîs, wêne, û deng de, pêşkeftinên girîng nîşan didin, û danûstendinên bêkêmasî û têkildar ên têkildar pêk tînin. Bi heman rengî, modelên Anthropic's Claude 3 ji ber kapasîteyên xwe yên pirzimanî û performansa pêşkeftî di karên AI-yê de têne destnîşan kirin.

Her ku pêşkeftina LLM-an bileztir dibe, têgihîştina tevliheviyên van modelan, nemaze pîvan û pêdiviyên bîranîna wan, girîng dibe. Armanca vê rênîşanderê ew e ku van aliyan demîse bike, ravekirinek berfireh û hêsan-fêmkirî pêşkêşî dike.

Bingehên Modelên Zimanên Mezin

Modelên Zimanên Mezin Çi ne?

Modelên Zimanên Mezin toreyên neuralî ne ku li ser danûstendinên girseyî hatine perwerde kirin da ku zimanê mirovan fam bikin û çêbikin. Ew xwe dispêrin mîmariyên mîna Transformers, ku mekanîzmayên wekî xwe-baldariyê bikar tînin da ku nivîsê hilînin û hilberînin.

Girîngiya Parametreyên di LLM de

Parametre hêmanên bingehîn ên van modelan in. Ew di nav wan de giranî û biasiyan hene, ku model di dema perwerdehiyê de rast dike da ku xeletiyên di pêşbîniyan de kêm bike. Hejmara parametreyan bi gelemperî bi kapasîteya û performansa modelê re têkildar e lê di heman demê de bandorê li pêdiviyên wê yên hesabkerî û bîranînê jî dike.

Fêmkirina Mîmariya Transformer

Transformers-architecture

Transformers Architecture

Têgihiştinî

Mîmariya Transformer, ku di kaxeza "Tiştê ku hûn hewce ne baldar in" de ji hêla Vaswani et al. (2017), ji bo gelek LLM-an bûye bingeh. Ew ji encoder û dekoderek pêk tê, ku her yek ji çend qatên wekhev pêk tê.

Encoder û Decoder Components

  • Encoder: Rêzeya têketinê pêvajo dike û nûnertiyek-agahdar a kontekstê diafirîne.
  • Deşîfreker: Bi karanîna nûneriya şîfreker û nîşaneyên ku berê hatine çêkirin rêzika deranê çêdike.

Blokên Avakirina Key

  1. Baldariya Pir-Serê: Dihêle ku model bi hevdemî li ser beşên cihêreng ên rêzika têketinê bisekine.
  2. Torên Neuralî yên Feed-Pêş: Ne-xêzikî û tevliheviyê li modelê zêde dike.
  3. Normalîzasyona Layer: Bi normalîzekirina derketinên navîn perwerdehiyê stabîl dike û bileztir dike.

Hesabkirina Hejmara Parametreyan

Training Transformer

Modelên Pêş-perwerdekirî Ji bo Perwerdehiya Transformer a Bibandor

Hesabkirina Parametreyên di LLM-yên-based Transformer de

Werin em ji bo her pêkhateyek LLM-ya-based Transformer hesaba parametreyê bişkînin. Em ê nîşana ji kaxeza orîjînal bikar bînin, li ku derê d_model pîvana rewşên veşartî yên modelê temsîl dike.

  1. Layera Embedding:
    • Parametre = vocab_size * d_model
  2. Baldariya Pir-Serê:
    • Bo h serî, bi d_k = d_v = d_model / h:
    • Parametre = 4 * d_model^2 (ji bo Q, K, V, û pêşniyarên derketinê)
  3. Tora Feed-Pêş:
    • Parametre = 2 * d_model * d_ff + d_model + d_ff
    • Ko d_ff bi gelemperî 4 * ye d_model
  4. Normalîzasyona Layer:
    • Parametre = 2 * d_model (ji bo pîvan û beralîbûnê)

Tevahiya parametreyên ji bo yek qatek Transformer:

  • Parameters_layer = Parameters_attention + Parameters_ffn + 2 * Parameters_layernorm

Ji bo modela bi N tebeqe:

  • Tevahiya Parametreyên = N * Parameters_layer + Parameters_embedding + Parameters_output

Mînak Hesabkirin

Ka em modelek bi taybetmendiyên jêrîn bifikirin:

  • d_model = 768
  • h (hejmara serê balê) = 12
  • N (hejmara qatan) = 12
  • vocab_size = 50,000
  1. Layera Embedding:
    • 50,000*768=38,400,000
  2. Baldariya Pir-Serê:
    • 4 * 768 ^ 2 = 2,359,296
  3. Tora Feed-Pêş:
    • 2 * 768 * (4 * 768) + 768 + (4 * 768) = 4,719,616
  4. Normalîzasyona Layer:
    • 2*768=1,536

Tevahiya Parametreyên her qatê:

  • 2,359,296 + 4,719,616 + (2 * 1,536) = 7,081,984

Tevahiya parametreyên ji bo 12 qatan:

  • 12*7,081,984=84,983,808

Tevahiya parametreyên modelê:

  • 84,983,808 + 38,400,000 = 123,383,808

Ev model dê bi qasî 123 mîlyon parametreyan hebe.

Cureyên Bikaranîna Bîrê

Dema ku bi LLM-an re dixebitin, divê em du celebên sereke yên karanîna bîranînê bifikirin:

  1. Bîra Model: Bîra pêwîst ji bo hilanîna parametreyên model.
  2. Bîra xebatê: Bîra ku di dema encamdan an perwerdehiyê de hewce dike ji bo hilanîna çalakkirinên navîn, gradient, û rewşên xweşbînker.

Hesabkirina Bîra Modelê

Bîra modelê rasterast bi hejmara pîvanan ve girêdayî ye. Her parametre bi gelemperî wekî jimareyek 32-bit-xala hêlînê tê hilanîn, her çend hin model bi 16-bit float perwerdehiya tevlihev-rast-hev bikar tînin.

Bîra Model (bytes) = Hejmara Parametreyan * Per Parametre Bîtan

Ji bo modela me ya nimûne bi 123 mîlyon parametre:

  • Bîra Model (32-bit) = 123,383,808 * 4 bytes = 493,535,232 bytes ≈ 494 MB
  • Bîra Model (16-bit) = 123,383,808 * 2 bytes = 246,767,616 bytes ≈ 247 MB

Texmînkirina Bîra Xebatê

Pêdiviyên bîranîna xebatê dikare li ser bingeha peywira taybetî, mezinahiya komê, û dirêjahiya rêzikê bi girîngî cûda bibe. Texmînek berbiçav ji bo bîranîna xebatê di dema encamdanê de ev e:

Bîra Xebatê ≈ 2 * Bîra Modelê

Ev hem pîvanên modelê û hem jî çalakkirinên navîn hilîne. Di dema perwerdehiyê de, hewcedariyên bîranînê ji ber hewcedariya hilanîna gradient û rewşên optimîzatorê dikarin hîn zêdetir bibin:

Bîra Perwerdehiyê ≈ 4 * Bîra Modelê

Ji bo modela nimûneya me:

  • Bîra Xebatê ya Enferansê ≈ 2 * 494 MB = 988 MB ≈ 1 GB
  • Bîra Perwerdehiyê ≈ 4 * 494 MB = 1,976 MB ≈ 2 GB

Bikaranîna Bîra Rewşa Birêkûpêk û Bikaranîna Bîra Peak

Dema ku modelên zimanên mezin ên li ser bingeha mîmariya Transformer têne perwerde kirin, têgihîştina karanîna bîranînê ji bo veqetandina çavkaniyek bikêr girîng e. Werin em hewcedariyên bîranînê li du kategoriyên sereke dabeş bikin: karanîna bîranînê ya domdar û karanîna bîranîna lûtkeyê.

Bikaranîna Bîra domdar-State

Bikaranîna bîranîna domdar ji hêmanên jêrîn pêk tê:

  1. Weights Model: FP32 kopiyên pîvanên modelê, 4N byte hewce dike, ku N hejmara pîvanan e.
  2. Dewletên Optimizer: Ji bo optimîzatorê Adam, ev pêdivî bi 8N byte (2 dewlet li ser parameterê) heye.
  3. Gradients: Kopiyên FP32 yên gradientan, ku 4N byte hewce dike.
  4. Daneyên Input: Bi texmîna têketinên int64, ev pêdivî bi 8BD byte heye, ku B mezinahiya heviyê ye û D pîvana têketinê ye.

Tevahiya karanîna bîranîna rewşa domdar dikare ji hêla jêrîn ve were texmîn kirin:

  • M_steady = 16N + 8BD bytes

Bikaranîna Bîra Peak

Dema ku aktîvkirin ji bo hesabkirina gradientê têne hilanîn, karanîna bîranîna pez di dema derbasbûna paşverû de pêk tê. Beşdarên sereke yên bîranîna pez ev in:

  1. Normalîzasyona Layer: Ji bo norma qatê 4E byte hewce dike, ku E = BSH (B: mezinahiya hevîrê, S: dirêjahiya rêzê, H: mezinahiya veşartî).
  2. Balkêş Block:
    • Hesabkirina QKV: 2E bytes
    • Matrixa baldarî: 4 BSS byte (S: dirêjahiya rêzê)
    • Hilberîna baldarî: 2E bytes
  3. Block Feed-Forward:
    • Qata rêza yekem: 2E byte
    • Çalakkirina GELU: 8E bytes
    • Qata rêza duyemîn: 2E bytes
  4. Xaça-Entropiya Loss:
    • Têketin: 6 BSV bytes (V: mezinahiya peyvan)

Bi tevahî bîranîna aktîvkirinê dikare wekî were texmîn kirin:

  • M_act = L * (14E + 4BSS) + 6BSV bytes

Ku L hejmara qatên transformatorê ye.

Tevahiya Peak Memory Bikaranîna

Bikaranîna lûtkeya bîranînê di dema perwerdehiyê de dikare bi berhevkirina bîranîna rewşa domdar û bîranîna aktîfkirinê were nêzîk kirin:

  • M_peak = M_steady + M_act + 4BSV bytes

Demjimêra 4BSV ya zêde di destpêka derbasbûna paşverû de veqetandinek zêde hesab dike.

Bi têgihiştina van hêmanan, em dikarin karanîna bîranînê di dema perwerde û encamnameyê de xweşbîn bikin, veqetandina çavkaniyê ya bikêr û performansa çêtir a modelên zimanên mezin peyda bikin.

Zagonên Scaling û Nêrînên Efficiency

 Qanûnên Scaling ji bo LLMs

Lêkolînê destnîşan kir ku performansa LLM-ê meyldar e ku hin qanûnên pîvandinê bişopîne her ku hejmara parametreyan zêde dibe. Kaplan et al. (2020) dît ku performansa modelê wekî zagonek hêzê ya hejmara parameteran, budceya hesabkirin, û mezinahiya danezanê çêtir dibe.

Têkiliya di navbera performansa modelê û hejmara parameteran de dikare ji hêla:

Performansa ∝ N^α

Li ku derê N hejmara parametreyan e û α ji bo karên modelkirina zimanî bi gelemperî li dora 0.07-ê nîşanek pîvanê ye.

Ev tê vê wateyê ku ji bo ku em di performansê de% 10 başbûnek bi dest bixin, pêdivî ye ku em hejmara parametreyan bi faktorek 10^(1/α) ≈ 3.7 zêde bikin.

Teknîkên Efficiency

Her ku LLM mezin dibin, lêkolîner û bijîjkan teknîkên cihêreng pêş xistine ku karbidestiyê baştir bikin:

a) Perwerdehiya Precision Mixed: Ji bo hin operasyonan ji bo kêmkirina karanîna bîranînê û hewcedariyên hesabkirinê, jimareyên xala hêlînê 16-bit an jî 8-bit bikar tînin.

b) Model Parallelism: Dabeşkirina modelê li ser gelek GPU an TPU-yan da ku modelên mezintir ji yên ku dikarin li ser yek amûrek bi cîh bibin bi rê ve bibin.

c) Gradient Checkpointing: Hesabkirina ji bo bîranînê ji nû ve hesabkirina hin çalakîyan di dema derbasbûna paşverû de li şûna hilanîna wan.

d) Pruning and Quantization: Rakirina giraniyên kêmtir girîng an kêmkirina rastdariya wan a piştî perwerdehiyê da ku modelên piçûktir, bikêrtir biafirînin.

e) Distîlasyon: Perwerdekirina modelên piçûktir da ku reftarên yên mezintir teqlîd bikin, bi potansiyel pir performansê bi kêmtir parametreyan biparêzin.

Mînaka Pratîk û Hesab

GPT-3, ku yek ji mezintirîn modelên zimên e, 175 milyar parametre. Ew beşa dekoderê ya mîmariya Transformer bikar tîne. Ji bo têgihîştina pîvana wê, em jimareya parametreyê bi nirxên hîpotetîk veqetînin:

  • d_model = 12288
  • d_ff = 4 * 12288 = 49152
  • Hejmara qatan = 96

Ji bo yek qatek dekoder:

Tevahiya Parametreyan = 8 * 12288^2 + 8 * 12288 * 49152 + 2 * 12288 ≈ 1.1 milyar

Bi tevahî ji bo 96 qatan:

1.1 milyar * 96 = 105.6 milyar

Parametreyên mayî ji embedding û hêmanên din têne.

Xelasî

Fêmkirina parametre û hewcedariyên bîranînê yên modelên zimanên mezin ji bo sêwirandin, perwerdekirin û bibandorkirina van amûrên bi hêz girîng e. Bi şikandina pêkhateyên mîmariya Transformer û vekolîna mînakên pratîkî yên mîna GPT, em di nav tevlihevî û pîvana van modelan de têgihîştinek kûr bi dest dixin.

Ji bo ku hûn pêşkeftinên herî dawî yên di modelên zimanên mezin û sepanên wan de bêtir fam bikin, van rêberên berfireh binihêrin:

Min pênc salên paşîn derbas kir ku xwe di cîhana balkêş a Fêrbûna Makîne û Fêrbûna Kûr de derbas kir. Hezbûn û pisporiya min hişt ku ez beşdarî zêdetirî 50 projeyên endezyariya nermalava cihêreng, bi taybetî li ser AI / ML-ê bikim. Meraqa min a domdar di heman demê de ez ber bi Pêvajoya Zimanê Xwezayî ve jî kişandim, qadek ku ez dixwazim bêtir lê vekolim.