नौसिखिया निवेशक के लिए एक गाइड

क्या एडम स्टोकेस्टिक ग्रेडिएंट डिसेंट है

क्या एडम स्टोकेस्टिक ग्रेडिएंट डिसेंट है
टी वह एल-बीएफजीएस एल्गोरिदम बड़े पैमाने क्या एडम स्टोकेस्टिक ग्रेडिएंट डिसेंट है की समस्याओं को हल करने के लिए एक बहुत ही कुशल एल्गोरिदम है। एल-बीएफजीएस-बी हेसियन और लाइन सर्च एल्गोरिदम के एल-बीएफजीएस अपडेट को बनाए रखते हुए ट्रस्ट क्षेत्र के तरीकों से विचारों को उधार लेता है। पूरी तरह से ट्रस्ट क्षेत्र तकनीकों पर आधारित तरीके मौजूद हैं और स्वतंत्र रूप से उपलब्ध हैं।

लागत कार्य

एडम ऑप्टिमाइज़र के साथ प्रशिक्षण हानि बनाम पुनरावृत्तियों में स्पाइक्स की व्याख्या

मैं i) SGD और ii) एडम ऑप्टिमाइज़र का उपयोग करके एक तंत्रिका नेटवर्क को प्रशिक्षित कर रहा हूं। सामान्य SGD का उपयोग करते समय, मुझे एक चिकनी प्रशिक्षण हानि बनाम पुनरावृत्ति वक्र मिलता है जैसा कि नीचे देखा गया है (लाल एक)। हालांकि, जब मैंने एडम ऑप्टिमाइज़र का उपयोग किया, तो प्रशिक्षण हानि वक्र में कुछ स्पाइक्स हैं। इन स्पाइक्स की व्याख्या क्या है?

14 इनपुट नोड्स -> 2 छिपी हुई परतें (100 -> 40 इकाइयां) -> 4 आउटपुट इकाइयां

मैं एडम के लिए डिफ़ॉल्ट पैरामीटर का उपयोग कर रहा beta_1 = 0.9 , beta_2 = 0.999 , epsilon = 1e-8 और एक batch_size = 32 ।

i) आदम के साथ SGD ii)

एडम ( batch_size=32 ) में स्पाइक्स मिनी बैच ग्रैडिएंट डिसेंट का एक अपरिहार्य परिणाम है । कुछ मिनी-बैचों के पास 'मौके से' अनुकूलन के लिए अशुभ डेटा है, उन स्पाइक्स को प्रेरित करना जो आप एडम का उपयोग करके अपने लागत फ़ंक्शन में देखते हैं। यदि आप स्टोकेस्टिक ग्रेडिएंट डिसेंट (उसी का क्या एडम स्टोकेस्टिक ग्रेडिएंट डिसेंट है उपयोग करके batch_size=1 ) का प्रयास करते हैं, तो आप देखेंगे कि लागत फ़ंक्शन में और भी अधिक स्पाइक्स हैं। वही (पूर्ण) बैच क्या एडम स्टोकेस्टिक ग्रेडिएंट डिसेंट है जीडी में नहीं होता है क्योंकि यह सभी प्रशिक्षण डेटा (यानी बैच आकार आपके प्रशिक्षण सेट की कार्डिनैलिटी के बराबर है) का उपयोग करता है। जैसा कि आपके पहले ग्राफिक में लागत नीरस रूप से सुचारू रूप से घट रही है ऐसा लगता है कि शीर्षक ( i) विद डब्ल्यूडब्ल्यूडी गलत है और आप (पूर्ण) बैच ग्रैडिएंट डिसेंट का उपयोग कर रहे हैं।

क्या बीएफजीएस ग्रेडिएंट आधारित है?

सबसे लोकप्रिय में से एक बीएफजीएस है। बीएफजीएस हेसियन सन्निकटन या तो ग्रेडिएंट के पूर्ण इतिहास पर आधारित हो सकता है, जिस स्थिति में इसे बीएफजीएस क्या एडम स्टोकेस्टिक ग्रेडिएंट डिसेंट है कहा जाता है, या यह केवल सबसे हाल के एम ग्रेडिएंट पर आधारित हो सकता है, इस मामले में इसे सीमित मेमोरी बीएफजीएस के रूप में जाना जाता है, संक्षिप्त एल-बीएफजीएस के रूप में।

परिवर्णी शब्द परिभाषा
बीएफजीएस ब्रॉयडन-फ्लेचर-गोल्डफार्ब-शन्नो (एल्गोरिदम)
बीएफजीएस स्नातक अध्ययन के लिए बोर्ड
बीएफजीएस बेस्टफ्रेंड्स जनरल स्टोर (लवेन, एजेड)

मशीन लर्निंग में BFGS क्या है?

BFGS एक दूसरे क्रम का अनुकूलन एल्गोरिथम है। यह एक संक्षिप्त नाम है, जिसे एल्गोरिथम के चार सह-खोजों के लिए नामित किया गया है: ब्रोयडेन, फ्लेचर, गोल्डफार्ब और शन्नो। यह एक स्थानीय खोज एल्गोरिथम है, जिसका उद्देश्य एकल ऑप्टिमा के साथ उत्तल अनुकूलन समस्याओं के लिए है।

यह नाओकी ओकाज़ाकी (चोकन) की अर्ध-न्यूटन अनुकूलन रूटीन (सीमित मेमोरी बीएफजीएस और ओडब्लूएल-क्यूएन) की liblbfgs लाइब्रेरी के आसपास एक पायथन रैपर है। इस पैकेज का उद्देश्य LBFGS एल्गोरिथम को एक क्लीनर इंटरफ़ेस प्रदान करना है जो वर्तमान में SciPy में उपलब्ध है, और पायथन उपयोगकर्ताओं को OWL-QN एल्गोरिथम प्रदान करना है।

एडम ऑप्टिमाइज़र क्या है?

एडम गहन शिक्षण मॉडल के प्रशिक्षण के लिए स्टोकेस्टिक ग्रेडिएंट डिसेंट के लिए एक प्रतिस्थापन अनुकूलन एल्गोरिथ्म है। एडम एक अनुकूलन एल्गोरिथ्म प्रदान करने के लिए एडग्रैड और आरएमएसप्रॉप एल्गोरिदम के सर्वोत्तम गुणों को जोड़ता है जो शोर की समस्याओं पर विरल ग्रेडिएंट को संभाल सकता है।

बीएमजी का अर्थ है "बी माई गेस्ट।" वाक्यांश "बी माई गेस्ट" एक मुहावरा है जिसका अर्थ "कृपया करें," "आगे बढ़ो," या बस "हाँ" के साथ प्रयोग किया जाता है। किसी अनुरोध को अनुमति देने के सीधे तरीके के रूप में BMG का उपयोग किया जा सकता है।

क्या बीएफजीएस एक अर्ध-न्यूटन विधि है?

सबसे लोकप्रिय अर्ध-न्यूटन एल्गोरिथ्म बीएफजीएस विधि है, जिसका नाम इसके खोजकर्ताओं ब्रॉयडेन, फ्लेचर, गोल्डफार्ब और शन्नो के नाम पर रखा गया है। बीएफजीएस जैसी अर्ध-न्यूटन विधियां उलटा हेसियन का अनुमान लगाती हैं, जिसका उपयोग तब स्थानांतरित करने की दिशा निर्धारित करने के लिए किया जा सकता है, लेकिन हमारे पास अब कदम का आकार नहीं है।

इष्टतम वजन क्षय बैच पास/वेट अपडेट की कुल संख्या का एक फ़ंक्शन (अन्य बातों के अलावा) है। एडम के हमारे अनुभवजन्य विश्लेषण से पता चलता है कि जितने लंबे समय तक बैच का रनटाइम/संख्या पास किया जाएगा, उतना ही कम वजन कम होगा।

रेटिंग: 4.60
अधिकतम अंक: 5
न्यूनतम अंक: 1
मतदाताओं की संख्या: 370
उत्तर छोड़ दें

आपका ईमेल पता प्रकाशित नहीं किया जाएगा| अपेक्षित स्थानों को रेखांकित कर दिया गया है *