Artificial Intelligence

बड़े भाषा मॉडल पैरामीटर और मेमोरी आवश्यकताओं को समझना: एक गहन विश्लेषण

प्रकाशित

6 दिन पहले

जुलाई 18, 2024

ट्रांसफॉर्मर-आधारित एलएलएम में मापदंडों की गणना

बड़े भाषा मॉडल (LLM) ने हाल के वर्षों में उल्लेखनीय प्रगति देखी है। GPT-4, Google के Gemini और Claude 3 जैसे मॉडल क्षमताओं और अनुप्रयोगों में नए मानक स्थापित कर रहे हैं। ये मॉडल न केवल टेक्स्ट जनरेशन और ट्रांसलेशन को बेहतर बना रहे हैं, बल्कि मल्टीमॉडल प्रोसेसिंग में भी नई जमीन बना रहे हैं, टेक्स्ट, इमेज, ऑडियो और वीडियो इनपुट को मिलाकर अधिक व्यापक AI समाधान प्रदान कर रहे हैं।

उदाहरण के लिए, ओपनएआई के जीपीटी-4 ने मानव जैसा टेक्स्ट समझने और बनाने में महत्वपूर्ण सुधार दिखाए हैं, जबकि गूगल के जेमिनी मॉडल टेक्स्ट, इमेज और ऑडियो सहित विविध डेटा प्रकारों को संभालने में उत्कृष्ट हैं, जिससे अधिक सहज और प्रासंगिक रूप से प्रासंगिक इंटरैक्शन संभव हो सके। इसी तरह, एंथ्रोपिक के क्लाउड 3 मॉडल अपनी बहुभाषी क्षमताओं और एआई कार्यों में बेहतर प्रदर्शन के लिए जाने जाते हैं।

जैसे-जैसे एलएलएम का विकास तेजी से आगे बढ़ रहा है, इन मॉडलों की पेचीदगियों को समझना, खास तौर पर उनके मापदंडों और मेमोरी आवश्यकताओं को समझना महत्वपूर्ण हो गया है। इस गाइड का उद्देश्य इन पहलुओं को स्पष्ट करना है, विस्तृत और समझने में आसान व्याख्या प्रदान करना है।

बड़े भाषा मॉडल की मूल बातें

बड़े भाषा मॉडल क्या हैं?

बड़े भाषा मॉडल मानव भाषा को समझने और उत्पन्न करने के लिए विशाल डेटासेट पर प्रशिक्षित तंत्रिका नेटवर्क हैं। वे ट्रांसफॉर्मर जैसे आर्किटेक्चर पर निर्भर करते हैं, जो टेक्स्ट को प्रोसेस करने और बनाने के लिए सेल्फ-अटेंशन जैसे तंत्र का उपयोग करते हैं।

एलएलएम में मापदंडों का महत्व

पैरामीटर इन मॉडलों के मुख्य घटक हैं। इनमें भार और पूर्वाग्रह शामिल हैं, जिन्हें मॉडल प्रशिक्षण के दौरान समायोजित करता है ताकि पूर्वानुमानों में त्रुटियों को कम किया जा सके। मापदंडों की संख्या अक्सर मॉडल की क्षमता और प्रदर्शन से संबंधित होती है, लेकिन इसकी कम्प्यूटेशनल और मेमोरी आवश्यकताओं को भी प्रभावित करती है।

ट्रांसफार्मर आर्किटेक्चर को समझना

ट्रांसफार्मर वास्तुकला

अवलोकन

वासवानी एट अल. (2017) द्वारा “अटेंशन इज़ ऑल यू नीड” पेपर में प्रस्तुत ट्रांसफॉर्मर आर्किटेक्चर, कई एलएलएम के लिए आधार बन गया है। इसमें एक एनकोडर और एक डिकोडर होता है, जो प्रत्येक कई समान परतों से बना होता है।

एनकोडर और डिकोडर घटक

एनकोडर: इनपुट अनुक्रम को संसाधित करता है और संदर्भ-जागरूक प्रतिनिधित्व बनाता है।
विकोडक: एनकोडर के प्रतिनिधित्व और पहले से उत्पन्न टोकन का उपयोग करके आउटपुट अनुक्रम उत्पन्न करता है।

प्रमुख निर्माण खंड

बहु-प्रमुख ध्यान: मॉडल को इनपुट अनुक्रम के विभिन्न भागों पर एक साथ ध्यान केंद्रित करने में सक्षम बनाता है।
फीड-फॉरवर्ड न्यूरल नेटवर्क: मॉडल में गैर-रैखिकता और जटिलता जोड़ता है।
परत सामान्यीकरणमध्यवर्ती आउटपुट को सामान्यीकृत करके प्रशिक्षण को स्थिर और त्वरित करता है।

मापदंडों की संख्या की गणना

कुशल ट्रांसफार्मर प्रशिक्षण के लिए पूर्व प्रशिक्षित मॉडल

ट्रांसफॉर्मर-आधारित एलएलएम में मापदंडों की गणना

आइए ट्रांसफॉर्मर-आधारित LLM के प्रत्येक घटक के लिए पैरामीटर गणना को विभाजित करें। हम मूल पेपर से संकेतन का उपयोग करेंगे, जहाँ d_model मॉडल की छिपी हुई अवस्थाओं के आयाम का प्रतिनिधित्व करता है।

एम्बेडिंग परत:
- पैरामीटर = vocab_size * d_model
बहु-प्रमुख ध्यान:
- के लिए h सिर, के साथ d_k = d_v = d_model / h:
- पैरामीटर = 4 * d_model^2 (Q, K, V, और आउटपुट प्रक्षेपण के लिए)
फीड-फॉरवर्ड नेटवर्क:
- पैरामीटर = 2 * d_model * d_ff + d_model + d_ff
- कहा पे d_ff आम तौर पर 4 * है d_model
परत सामान्यीकरण:
- पैरामीटर = 2 * d_model (पैमाने और पूर्वाग्रह के लिए)

एक ट्रांसफॉर्मर परत के लिए कुल पैरामीटर:

Parameters_layer = Parameters_attention + Parameters_ffn +2 * Parameters_layernorm

एक मॉडल के लिए N परतें:

कुल पैरामीटर = N * Parameters_layer + Parameters_embedding + Parameters_output

उदाहरण गणना

आइये निम्नलिखित विनिर्देशों वाले एक मॉडल पर विचार करें:

d_model = 768
h (ध्यान देने वाले शीर्षों की संख्या) = 12
N (परतों की संख्या) = 12
vocab_size = 50,000

एम्बेडिंग परत:
- 50,000 * 768 = 38,400,000
बहु-प्रमुख ध्यान:
- 4*768^2 = 2,359,296
फीड-फॉरवर्ड नेटवर्क:
- 2 * 768 * (4 * 768) + 768 + (4 * 768) = 4,719,616
परत सामान्यीकरण:
- 2 * 768 = 1,536

प्रति परत कुल पैरामीटर:

2,359,296 + 4,719,616 + (2 * 1,536) = 7,081,984

12 परतों के लिए कुल पैरामीटर:

12 * 7,081,984 = 84,983,808

कुल मॉडल पैरामीटर:

84,983,808 + 38,400,000 = 123,383,808

इस मॉडल में लगभग 123 मिलियन पैरामीटर होंगे।

मेमोरी उपयोग के प्रकार

एलएलएम के साथ काम करते समय, हमें मेमोरी उपयोग के दो मुख्य प्रकारों पर विचार करना होगा:

मॉडल मेमोरीमॉडल पैरामीटर्स को संग्रहीत करने के लिए आवश्यक मेमोरी.
मेमोरी कार्य करना: मध्यवर्ती सक्रियण, ग्रेडिएंट और अनुकूलक अवस्थाओं को संग्रहीत करने के लिए अनुमान या प्रशिक्षण के दौरान आवश्यक मेमोरी।

मॉडल मेमोरी की गणना

मॉडल मेमोरी सीधे पैरामीटर की संख्या से संबंधित होती है। प्रत्येक पैरामीटर को आम तौर पर 32-बिट फ़्लोटिंग-पॉइंट नंबर के रूप में संग्रहीत किया जाता है, हालांकि कुछ मॉडल 16-बिट फ़्लोट के साथ मिश्रित-परिशुद्धता प्रशिक्षण का उपयोग करते हैं।

मॉडल मेमोरी (बाइट्स) = पैरामीटरों की संख्या * प्रति पैरामीटर बाइट्स

123 मिलियन पैरामीटर वाले हमारे उदाहरण मॉडल के लिए:

मॉडल मेमोरी (32-बिट) = 123,383,808 * 4 बाइट्स = 493,535,232 बाइट्स ≈ 494 एमबी
मॉडल मेमोरी (16-बिट) = 123,383,808 * 2 बाइट्स = 246,767,616 बाइट्स ≈ 247 एमबी

कार्यशील स्मृति का अनुमान लगाना

विशिष्ट कार्य, बैच आकार और अनुक्रम लंबाई के आधार पर कार्यशील मेमोरी की आवश्यकताएँ काफी भिन्न हो सकती हैं। अनुमान के दौरान कार्यशील मेमोरी के लिए एक मोटा अनुमान है:

कार्यशील मेमोरी ≈ 2 * मॉडल मेमोरी

यह मॉडल पैरामीटर और मध्यवर्ती सक्रियण दोनों को संग्रहीत करने के लिए जिम्मेदार है। प्रशिक्षण के दौरान, ग्रेडिएंट और ऑप्टिमाइज़र स्थितियों को संग्रहीत करने की आवश्यकता के कारण मेमोरी की आवश्यकता और भी अधिक हो सकती है:

प्रशिक्षण मेमोरी ≈ 4 * मॉडल मेमोरी

हमारे उदाहरण मॉडल के लिए:

अनुमान कार्यशील मेमोरी ≈ 2 * 494 एमबी = 988 एमबी ≈ 1 जीबी
प्रशिक्षण मेमोरी ≈ 4 * 494 एमबी = 1,976 एमबी ≈ 2 जीबी

स्थिर-अवस्था मेमोरी उपयोग और अधिकतम मेमोरी उपयोग

ट्रांसफॉर्मर आर्किटेक्चर पर आधारित बड़े भाषा मॉडल को प्रशिक्षित करते समय, कुशल संसाधन आवंटन के लिए मेमोरी उपयोग को समझना महत्वपूर्ण है। आइए मेमोरी आवश्यकताओं को दो मुख्य श्रेणियों में विभाजित करें: स्थिर-अवस्था मेमोरी उपयोग और अधिकतम मेमोरी उपयोग।

स्थिर-अवस्था मेमोरी उपयोग

स्थिर-अवस्था मेमोरी उपयोग में निम्नलिखित घटक शामिल हैं:

मॉडल वजनमॉडल पैरामीटर्स की FP32 प्रतियां, जिसके लिए 4N बाइट्स की आवश्यकता होती है, जहां N पैरामीटर्स की संख्या है।
अनुकूलक स्थितियाँएडम ऑप्टिमाइज़र के लिए, इसके लिए 8N बाइट्स (प्रति पैरामीटर 2 स्टेट्स) की आवश्यकता होती है।
ढ़ाल: ग्रेडिएंट की FP32 प्रतियां, जिसके लिए 4N बाइट्स की आवश्यकता होती है।
इनपुट डेटाint64 इनपुट मानते हुए, इसके लिए 8BD बाइट्स की आवश्यकता होती है, जहाँ B बैच आकार है और D इनपुट आयाम है।

कुल स्थिर-अवस्था मेमोरी उपयोग का अनुमान इस प्रकार लगाया जा सकता है:

M_steady = 16N + 8BD बाइट्स

पीक मेमोरी उपयोग

पीक मेमोरी उपयोग बैकवर्ड पास के दौरान होता है जब ग्रेडिएंट कंप्यूटेशन के लिए एक्टिवेशन को स्टोर किया जाता है। पीक मेमोरी में मुख्य योगदानकर्ता हैं:

परत सामान्यीकरण: प्रति परत मानक 4E बाइट्स की आवश्यकता होती है, जहां E = BSH (B: बैच आकार, S: अनुक्रम लंबाई, H: छिपा आकार)।
ध्यान ब्लॉक:
- QKV गणना: 2E बाइट्स
- ध्यान मैट्रिक्स: 4BSS बाइट्स (S: अनुक्रम लंबाई)
- ध्यान आउटपुट: 2E बाइट्स
फीड-फॉरवर्ड ब्लॉक:
- प्रथम रेखीय परत: 2E बाइट्स
- GELU सक्रियण: 8E बाइट्स
- दूसरी रैखिक परत: 2E बाइट्स
क्रॉस-एंट्रॉपी हानि:
- लॉगिट: 6BSV बाइट्स (V: शब्दावली आकार)

कुल सक्रियण स्मृति का अनुमान इस प्रकार लगाया जा सकता है:

M_act = L * (14E + 4BSS) + 6BSV बाइट्स

जहाँ L ट्रांसफार्मर परतों की संख्या है।

कुल अधिकतम मेमोरी उपयोग

प्रशिक्षण के दौरान अधिकतम मेमोरी उपयोग को स्थिर-अवस्था मेमोरी और सक्रियण मेमोरी को मिलाकर अनुमानित किया जा सकता है:

M_peak = M_steady + M_act + 4BSV बाइट्स

अतिरिक्त 4बीएसवी अवधि, बैकवर्ड पास के प्रारंभ में अतिरिक्त आवंटन के लिए जिम्मेदार है।

इन घटकों को समझकर, हम प्रशिक्षण और अनुमान के दौरान मेमोरी उपयोग को अनुकूलित कर सकते हैं, जिससे कुशल संसाधन आवंटन और बड़े भाषा मॉडल के बेहतर प्रदर्शन को सुनिश्चित किया जा सकता है।

स्केलिंग कानून और दक्षता संबंधी विचार

एलएलएम के लिए स्केलिंग कानून

शोध से पता चला है कि एलएलएम का प्रदर्शन मापदंडों की संख्या बढ़ने पर कुछ स्केलिंग कानूनों का पालन करता है। कपलान एट अल. (2020) ने देखा कि मॉडल का प्रदर्शन मापदंडों की संख्या, कंप्यूट बजट और डेटासेट आकार के पावर लॉ के रूप में बेहतर होता है।

मॉडल प्रदर्शन और मापदंडों की संख्या के बीच संबंध का अनुमान इस प्रकार लगाया जा सकता है:

प्रदर्शन ∝ N^α

जहाँ N पैरामीटरों की संख्या है और α एक स्केलिंग घातांक है जो आमतौर पर भाषा मॉडलिंग कार्यों के लिए 0.07 के आसपास होता है।

इसका तात्पर्य यह है कि प्रदर्शन में 10% सुधार प्राप्त करने के लिए, हमें मापदंडों की संख्या को 10^(1/α) ≈ 3.7 के कारक से बढ़ाने की आवश्यकता है।

दक्षता तकनीक

जैसे-जैसे एलएलएम का विकास जारी है, शोधकर्ताओं और चिकित्सकों ने दक्षता में सुधार के लिए विभिन्न तकनीकों का विकास किया है:

a) मिश्रित प्रेसिजन प्रशिक्षणमेमोरी उपयोग और कम्प्यूटेशनल आवश्यकताओं को कम करने के लिए कुछ कार्यों के लिए 16-बिट या यहां तक कि 8-बिट फ्लोटिंग-पॉइंट संख्याओं का उपयोग करना।

b) मॉडल समानता: एकल डिवाइस पर फिट होने वाले बड़े मॉडलों को संभालने के लिए मॉडल को कई GPU या TPU में वितरित करना।

c) ग्रेडिएंट चेकपॉइंटिंग: बैकवर्ड पास के दौरान कुछ सक्रियणों को संग्रहीत करने के बजाय उनकी पुनः गणना करके मेमोरी के लिए संगणना का व्यापार करना।

d) छंटाई और परिमाणीकरणछोटे, अधिक कुशल मॉडल बनाने के लिए प्रशिक्षण के बाद कम महत्वपूर्ण भार को हटाना या उनकी सटीकता को कम करना।

e) आसवनछोटे मॉडलों को बड़े मॉडलों के व्यवहार की नकल करने के लिए प्रशिक्षित करना, जिससे कम पैरामीटर के साथ प्रदर्शन को अधिकाधिक संरक्षित किया जा सके।

व्यावहारिक उदाहरण और गणना

GPT-3, सबसे बड़े भाषा मॉडल में से एक है, जिसमें 175 बिलियन पैरामीटर हैं। यह ट्रांसफॉर्मर आर्किटेक्चर के डिकोडर भाग का उपयोग करता है। इसके पैमाने को समझने के लिए, आइए पैरामीटर की संख्या को काल्पनिक मानों के साथ विभाजित करें:

d_model = 12288
d_ff = 4 * 12288 = 49152
परतों की संख्या = 96

एक डिकोडर परत के लिए:

कुल पैरामीटर = 8 * 12288^2 + 8 * 12288 * 49152 + 2 * 12288 ≈ 1.1 बिलियन

कुल 96 परतें:

1.1 बिलियन * 96 = 105.6 बिलियन

शेष पैरामीटर एम्बेडिंग और अन्य घटकों से आते हैं।

निष्कर्ष

इन शक्तिशाली उपकरणों को प्रभावी ढंग से डिजाइन करने, प्रशिक्षण देने और तैनात करने के लिए बड़े भाषा मॉडल के मापदंडों और मेमोरी आवश्यकताओं को समझना महत्वपूर्ण है। ट्रांसफॉर्मर आर्किटेक्चर के घटकों को तोड़कर और GPT जैसे व्यावहारिक उदाहरणों की जांच करके, हम इन मॉडलों की जटिलता और पैमाने के बारे में गहरी जानकारी प्राप्त करते हैं।

बड़े भाषा मॉडल और उनके अनुप्रयोगों में नवीनतम प्रगति को और अधिक समझने के लिए, इन व्यापक मार्गदर्शिकाओं को देखें:

जेम्मा 2 पर संपूर्ण गाइड का अन्वेषण करें : गूगल का नया ओपन लार्ज लैंग्वेज मॉडल इसके उन्नत प्रदर्शन और नवीन सुविधाओं के बारे में जानकारी के लिए।
स्क्रैच और बियॉन्ड से RAG के लिए बिल्डिंग एलएलएम एजेंट के बारे में जानें : एक व्यापक गाइड जिसमें पुनर्प्राप्ति-संवर्धित पीढ़ी में चुनौतियों और समाधानों पर चर्चा की गई है।
की पेचीदगियों का पता लगाएं NVIDIA GPU और CUDA के साथ LLM का प्रशिक्षण, फाइन-ट्यूनिंग और इनफ़रेंसिंग सेट अप करना एआई प्रणालियों के अनुकूलन के लिए।

अगला

एआई प्रोसेसिंग यूनिट्स के युग में क्रॉस-प्लेटफॉर्म परिनियोजन बाधाओं पर काबू पाना

मिस न करें

फ्लैश अटेंशन: ट्रांसफॉर्मर दक्षता में क्रांतिकारी बदलाव

आयुष मित्तल

मैंने पिछले पांच साल मशीन लर्निंग और डीप लर्निंग की आकर्षक दुनिया में डूबने में बिताए हैं। मेरे जुनून और विशेषज्ञता ने मुझे एआई/एमएल पर विशेष ध्यान देने के साथ 50 से अधिक विविध सॉफ्टवेयर इंजीनियरिंग परियोजनाओं में योगदान करने के लिए प्रेरित किया है। मेरी निरंतर जिज्ञासा ने मुझे प्राकृतिक भाषा प्रसंस्करण की ओर भी आकर्षित किया है, एक ऐसा क्षेत्र जिसे मैं और अधिक जानने के लिए उत्सुक हूं।