Îstîxbaratê ya sûnî
Fêmkirina Parametreyên Modela Zimanên Mezin û Pêdiviyên Bîrê: Kevirek Kûr
Published
rojan 6 agoon
Table Of Contents
Modelên Zimanên Mezin (LLM) di salên dawî de pêşkeftinên berbiçav dîtiye. Modelên wekî GPT-4, Google's Gemini, û Claude 3 di kapasîteyên û sepanan de standardên nû destnîşan dikin. Van modelan ne tenê hilberîna nivîsê û wergerandinê zêde dikin, lê di heman demê de di pêvajoyek multimodal de jî zemînek nû vedikin, têketinên nivîs, wêne, deng û vîdyoyê li hev dikin da ku çareseriyên AI-ê yên berfireh peyda bikin.
Mînakî, GPT-4-a OpenAI-yê di têgihiştin û hilberîna metnek mîna mirov de pêşkeftinên girîng nîşan da, dema ku modelên Gemini yên Google-ê di karanîna cûrbecûr cûrbecûr daneyan de, di nav de nivîs, wêne, û deng de, pêşkeftinên girîng nîşan didin, û danûstendinên bêkêmasî û têkildar ên têkildar pêk tînin. Bi heman rengî, modelên Anthropic's Claude 3 ji ber kapasîteyên xwe yên pirzimanî û performansa pêşkeftî di karên AI-yê de têne destnîşan kirin.
Her ku pêşkeftina LLM-an bileztir dibe, têgihîştina tevliheviyên van modelan, nemaze pîvan û pêdiviyên bîranîna wan, girîng dibe. Armanca vê rênîşanderê ew e ku van aliyan demîse bike, ravekirinek berfireh û hêsan-fêmkirî pêşkêşî dike.
Bingehên Modelên Zimanên Mezin
Modelên Zimanên Mezin Çi ne?
Modelên Zimanên Mezin toreyên neuralî ne ku li ser danûstendinên girseyî hatine perwerde kirin da ku zimanê mirovan fam bikin û çêbikin. Ew xwe dispêrin mîmariyên mîna Transformers, ku mekanîzmayên wekî xwe-baldariyê bikar tînin da ku nivîsê hilînin û hilberînin.
Girîngiya Parametreyên di LLM de
Parametre hêmanên bingehîn ên van modelan in. Ew di nav wan de giranî û biasiyan hene, ku model di dema perwerdehiyê de rast dike da ku xeletiyên di pêşbîniyan de kêm bike. Hejmara parametreyan bi gelemperî bi kapasîteya û performansa modelê re têkildar e lê di heman demê de bandorê li pêdiviyên wê yên hesabkerî û bîranînê jî dike.
Fêmkirina Mîmariya Transformer
Têgihiştinî
Mîmariya Transformer, ku di kaxeza "Tiştê ku hûn hewce ne baldar in" de ji hêla Vaswani et al. (2017), ji bo gelek LLM-an bûye bingeh. Ew ji encoder û dekoderek pêk tê, ku her yek ji çend qatên wekhev pêk tê.
Encoder û Decoder Components
- Encoder: Rêzeya têketinê pêvajo dike û nûnertiyek-agahdar a kontekstê diafirîne.
- Deşîfreker: Bi karanîna nûneriya şîfreker û nîşaneyên ku berê hatine çêkirin rêzika deranê çêdike.
Blokên Avakirina Key
- Baldariya Pir-Serê: Dihêle ku model bi hevdemî li ser beşên cihêreng ên rêzika têketinê bisekine.
- Torên Neuralî yên Feed-Pêş: Ne-xêzikî û tevliheviyê li modelê zêde dike.
- Normalîzasyona Layer: Bi normalîzekirina derketinên navîn perwerdehiyê stabîl dike û bileztir dike.
Hesabkirina Hejmara Parametreyan
Hesabkirina Parametreyên di LLM-yên-based Transformer de
Werin em ji bo her pêkhateyek LLM-ya-based Transformer hesaba parametreyê bişkînin. Em ê nîşana ji kaxeza orîjînal bikar bînin, li ku derê d_model
pîvana rewşên veşartî yên modelê temsîl dike.
- Layera Embedding:
- Parametre =
vocab_size
*d_model
- Parametre =
- Baldariya Pir-Serê:
- Bo
h
serî, bid_k = d_v = d_model / h
: - Parametre = 4 *
d_model
^2 (ji bo Q, K, V, û pêşniyarên derketinê)
- Bo
- Tora Feed-Pêş:
- Parametre = 2 *
d_model
*d_ff
+d_model
+d_ff
- Ko
d_ff
bi gelemperî 4 * yed_model
- Parametre = 2 *
- Normalîzasyona Layer:
- Parametre = 2 *
d_model
(ji bo pîvan û beralîbûnê)
- Parametre = 2 *
Tevahiya parametreyên ji bo yek qatek Transformer:
Parameters_layer
=Parameters_attention
+Parameters_ffn
+ 2 *Parameters_layernorm
Ji bo modela bi N
tebeqe:
- Tevahiya Parametreyên =
N
*Parameters_layer
+Parameters_embedding
+Parameters_output
Mînak Hesabkirin
Ka em modelek bi taybetmendiyên jêrîn bifikirin:
d_model
= 768h
(hejmara serê balê) = 12N
(hejmara qatan) = 12vocab_size
= 50,000
- Layera Embedding:
- 50,000*768=38,400,000
- Baldariya Pir-Serê:
- 4 * 768 ^ 2 = 2,359,296
- Tora Feed-Pêş:
- 2 * 768 * (4 * 768) + 768 + (4 * 768) = 4,719,616
- Normalîzasyona Layer:
- 2*768=1,536
Tevahiya Parametreyên her qatê:
- 2,359,296 + 4,719,616 + (2 * 1,536) = 7,081,984
Tevahiya parametreyên ji bo 12 qatan:
- 12*7,081,984=84,983,808
Tevahiya parametreyên modelê:
- 84,983,808 + 38,400,000 = 123,383,808
Ev model dê bi qasî 123 mîlyon parametreyan hebe.
Cureyên Bikaranîna Bîrê
Dema ku bi LLM-an re dixebitin, divê em du celebên sereke yên karanîna bîranînê bifikirin:
- Bîra Model: Bîra pêwîst ji bo hilanîna parametreyên model.
- Bîra xebatê: Bîra ku di dema encamdan an perwerdehiyê de hewce dike ji bo hilanîna çalakkirinên navîn, gradient, û rewşên xweşbînker.
Hesabkirina Bîra Modelê
Bîra modelê rasterast bi hejmara pîvanan ve girêdayî ye. Her parametre bi gelemperî wekî jimareyek 32-bit-xala hêlînê tê hilanîn, her çend hin model bi 16-bit float perwerdehiya tevlihev-rast-hev bikar tînin.
Bîra Model (bytes) = Hejmara Parametreyan * Per Parametre Bîtan
Ji bo modela me ya nimûne bi 123 mîlyon parametre:
- Bîra Model (32-bit) = 123,383,808 * 4 bytes = 493,535,232 bytes ≈ 494 MB
- Bîra Model (16-bit) = 123,383,808 * 2 bytes = 246,767,616 bytes ≈ 247 MB
Texmînkirina Bîra Xebatê
Pêdiviyên bîranîna xebatê dikare li ser bingeha peywira taybetî, mezinahiya komê, û dirêjahiya rêzikê bi girîngî cûda bibe. Texmînek berbiçav ji bo bîranîna xebatê di dema encamdanê de ev e:
Bîra Xebatê ≈ 2 * Bîra Modelê
Ev hem pîvanên modelê û hem jî çalakkirinên navîn hilîne. Di dema perwerdehiyê de, hewcedariyên bîranînê ji ber hewcedariya hilanîna gradient û rewşên optimîzatorê dikarin hîn zêdetir bibin:
Bîra Perwerdehiyê ≈ 4 * Bîra Modelê
Ji bo modela nimûneya me:
- Bîra Xebatê ya Enferansê ≈ 2 * 494 MB = 988 MB ≈ 1 GB
- Bîra Perwerdehiyê ≈ 4 * 494 MB = 1,976 MB ≈ 2 GB
Bikaranîna Bîra Rewşa Birêkûpêk û Bikaranîna Bîra Peak
Dema ku modelên zimanên mezin ên li ser bingeha mîmariya Transformer têne perwerde kirin, têgihîştina karanîna bîranînê ji bo veqetandina çavkaniyek bikêr girîng e. Werin em hewcedariyên bîranînê li du kategoriyên sereke dabeş bikin: karanîna bîranînê ya domdar û karanîna bîranîna lûtkeyê.
Bikaranîna Bîra domdar-State
Bikaranîna bîranîna domdar ji hêmanên jêrîn pêk tê:
- Weights Model: FP32 kopiyên pîvanên modelê, 4N byte hewce dike, ku N hejmara pîvanan e.
- Dewletên Optimizer: Ji bo optimîzatorê Adam, ev pêdivî bi 8N byte (2 dewlet li ser parameterê) heye.
- Gradients: Kopiyên FP32 yên gradientan, ku 4N byte hewce dike.
- Daneyên Input: Bi texmîna têketinên int64, ev pêdivî bi 8BD byte heye, ku B mezinahiya heviyê ye û D pîvana têketinê ye.
Tevahiya karanîna bîranîna rewşa domdar dikare ji hêla jêrîn ve were texmîn kirin:
- M_steady = 16N + 8BD bytes
Bikaranîna Bîra Peak
Dema ku aktîvkirin ji bo hesabkirina gradientê têne hilanîn, karanîna bîranîna pez di dema derbasbûna paşverû de pêk tê. Beşdarên sereke yên bîranîna pez ev in:
- Normalîzasyona Layer: Ji bo norma qatê 4E byte hewce dike, ku E = BSH (B: mezinahiya hevîrê, S: dirêjahiya rêzê, H: mezinahiya veşartî).
- Balkêş Block:
- Hesabkirina QKV: 2E bytes
- Matrixa baldarî: 4 BSS byte (S: dirêjahiya rêzê)
- Hilberîna baldarî: 2E bytes
- Block Feed-Forward:
- Qata rêza yekem: 2E byte
- Çalakkirina GELU: 8E bytes
- Qata rêza duyemîn: 2E bytes
- Xaça-Entropiya Loss:
- Têketin: 6 BSV bytes (V: mezinahiya peyvan)
Bi tevahî bîranîna aktîvkirinê dikare wekî were texmîn kirin:
- M_act = L * (14E + 4BSS) + 6BSV bytes
Ku L hejmara qatên transformatorê ye.
Tevahiya Peak Memory Bikaranîna
Bikaranîna lûtkeya bîranînê di dema perwerdehiyê de dikare bi berhevkirina bîranîna rewşa domdar û bîranîna aktîfkirinê were nêzîk kirin:
- M_peak = M_steady + M_act + 4BSV bytes
Demjimêra 4BSV ya zêde di destpêka derbasbûna paşverû de veqetandinek zêde hesab dike.
Bi têgihiştina van hêmanan, em dikarin karanîna bîranînê di dema perwerde û encamnameyê de xweşbîn bikin, veqetandina çavkaniyê ya bikêr û performansa çêtir a modelên zimanên mezin peyda bikin.
Zagonên Scaling û Nêrînên Efficiency
Qanûnên Scaling ji bo LLMs
Lêkolînê destnîşan kir ku performansa LLM-ê meyldar e ku hin qanûnên pîvandinê bişopîne her ku hejmara parametreyan zêde dibe. Kaplan et al. (2020) dît ku performansa modelê wekî zagonek hêzê ya hejmara parameteran, budceya hesabkirin, û mezinahiya danezanê çêtir dibe.
Têkiliya di navbera performansa modelê û hejmara parameteran de dikare ji hêla:
Performansa ∝ N^α
Li ku derê N hejmara parametreyan e û α ji bo karên modelkirina zimanî bi gelemperî li dora 0.07-ê nîşanek pîvanê ye.
Ev tê vê wateyê ku ji bo ku em di performansê de% 10 başbûnek bi dest bixin, pêdivî ye ku em hejmara parametreyan bi faktorek 10^(1/α) ≈ 3.7 zêde bikin.
Teknîkên Efficiency
Her ku LLM mezin dibin, lêkolîner û bijîjkan teknîkên cihêreng pêş xistine ku karbidestiyê baştir bikin:
a) Perwerdehiya Precision Mixed: Ji bo hin operasyonan ji bo kêmkirina karanîna bîranînê û hewcedariyên hesabkirinê, jimareyên xala hêlînê 16-bit an jî 8-bit bikar tînin.
b) Model Parallelism: Dabeşkirina modelê li ser gelek GPU an TPU-yan da ku modelên mezintir ji yên ku dikarin li ser yek amûrek bi cîh bibin bi rê ve bibin.
c) Gradient Checkpointing: Hesabkirina ji bo bîranînê ji nû ve hesabkirina hin çalakîyan di dema derbasbûna paşverû de li şûna hilanîna wan.
d) Pruning and Quantization: Rakirina giraniyên kêmtir girîng an kêmkirina rastdariya wan a piştî perwerdehiyê da ku modelên piçûktir, bikêrtir biafirînin.
e) Distîlasyon: Perwerdekirina modelên piçûktir da ku reftarên yên mezintir teqlîd bikin, bi potansiyel pir performansê bi kêmtir parametreyan biparêzin.
Mînaka Pratîk û Hesab
GPT-3, ku yek ji mezintirîn modelên zimên e, 175 milyar parametre. Ew beşa dekoderê ya mîmariya Transformer bikar tîne. Ji bo têgihîştina pîvana wê, em jimareya parametreyê bi nirxên hîpotetîk veqetînin:
d_model = 12288
d_ff = 4 * 12288 = 49152
- Hejmara qatan = 96
Ji bo yek qatek dekoder:
Tevahiya Parametreyan = 8 * 12288^2 + 8 * 12288 * 49152 + 2 * 12288 ≈ 1.1 milyar
Bi tevahî ji bo 96 qatan:
1.1 milyar * 96 = 105.6 milyar
Parametreyên mayî ji embedding û hêmanên din têne.
Xelasî
Fêmkirina parametre û hewcedariyên bîranînê yên modelên zimanên mezin ji bo sêwirandin, perwerdekirin û bibandorkirina van amûrên bi hêz girîng e. Bi şikandina pêkhateyên mîmariya Transformer û vekolîna mînakên pratîkî yên mîna GPT, em di nav tevlihevî û pîvana van modelan de têgihîştinek kûr bi dest dixin.
Ji bo ku hûn pêşkeftinên herî dawî yên di modelên zimanên mezin û sepanên wan de bêtir fam bikin, van rêberên berfireh binihêrin:
- Rêbernameya Bêkêmasî ya li ser Gemma 2 keşif bikin: Modela Nû ya Zimanê Mezin a Vekirî ya Google ji bo têgihiştina performansa wê ya pêşkeftî û taybetmendiyên nûjen.
- Li ser Building LLM Agents for RAG from Scratch and Beyond fêr bibin: Rêberek Berfireh ku kêşe û çareseriyên di nifşa vegerandin-zêdebûyî de nîqaş dike.
- Zehfiyên xwe kifş bikin Bi GPU-yên NVIDIA û CUDA re Perwerdehiyek, Rêzkirin, û Têgihîştina LLM-an saz kirin ji bo xweşbînkirina pergalên AI-ê.
Min pênc salên paşîn derbas kir ku xwe di cîhana balkêş a Fêrbûna Makîne û Fêrbûna Kûr de derbas kir. Hezbûn û pisporiya min hişt ku ez beşdarî zêdetirî 50 projeyên endezyariya nermalava cihêreng, bi taybetî li ser AI / ML-ê bikim. Meraqa min a domdar di heman demê de ez ber bi Pêvajoya Zimanê Xwezayî ve jî kişandim, qadek ku ez dixwazim bêtir lê vekolim.
Hûn dikarin bixwazin
MARKLLM: Ji bo LLM Watermarking Amûrek Çavkaniya Vekirî
Bicihkirina Modelên Zimanên Mezin li Kubernetes: Rêbernameyek Berfireh
Fêmkirina Otoenkoderên Sparse, GPT-4 & Claude 3: Lêgerînek Teknîkî ya Kûrahî
Qwen2 - Modela Zimanên Pirzimanî ya Dawîn a Alibaba SOTA mîna Llama 3 Pirsgirêkan dike
LLaVA-UHD: LMM-yek ku her Rêjeya Aspektê û Wêneyên Çareseriya Bilind Dihese
Modelên Zimanên Mezin ên Bi Pêşbîniya Pir-یşandî Zêdebar Dikin
Recent Posts
- Llama 3.1: Modela AI-ya çavkaniya vekirî ya herî pêşkeftî ya Meta - Her tiştê ku hûn hewce ne ku zanibin
- Şoreşa Ezmûna Amûra We: Çawa AI-ya Apple Teknolojiyê ji nû ve pênase dike
- Mifteya Çareseriyên AI-ê yên Serkeftî? Daneyên Behavioral
- Rola GANan di Başkirina Ewlehiya Sîberê de
- 10 Serlêdanên Hairstyle AI-ê çêtirîn (Tîrmeh 2024)