کیا چھپی ہوئی پرتوں میں بے ترتیب شور کو شامل کرنا باقاعدہ سمجھا جاتا ہے؟ ایسا کرنے اور ڈراپ آؤٹ اور بیچ کو معمول پر لانے میں کیا فرق ہے؟


جواب 1:

ہاں ، چھپی ہوئی تہوں میں بے ترتیب شور کو شامل کرنا بالکل اسی طرح باقاعدگی ہے جس طرح ڈراپ آؤٹ ہوتا ہے۔ یہاں کی کلیدی انتباہی بات یہ ہے کہ اگر ہر پرت میں اعصابی ردعمل شور مچاتا ہے تو پھر تربیت کے ل the وزن کو الگ الگ زمرے میں ایڈجسٹ کرنا ہوتا ہے جو کلیئرنس کے ساتھ شور سے بڑا ہو۔ اس طرح ٹیسٹ کے وقت ، جب شور غائب ہوتا ہے تو ، درجہ بندی زیادہ مستحکم ہونی چاہئے۔ یہ اس سے بہت ملتا جلتا ہے کہ کس طرح زیادہ سے زیادہ مارجن کی درجہ بندی کام کرتی ہے ، اور ہم سب جانتے ہیں کہ زیادہ سے زیادہ مارجن کی کامیاب تکنیک کتنی کامیاب رہی (جیسے ، سپورٹ ویکٹر مشینیں)۔ آپ کو یہ یقینی بنانے کے لئے محتاط رہنا ہوگا کہ اگرچہ شور سگنل پر غالب نہ آئے۔

ڈراپ آؤٹ کو باقاعدہ طریقہ سمجھا جاتا ہے کیونکہ یہ اوسطا ماڈل انجام دیتا ہے۔ یعنی ، تربیت کے دوران ، وقت کے وقت کسی خاص مقام پر ماڈل دراصل اعصابی نیٹ ورک کے ماڈلز کی ایک کلاس میں ایک امکان کی تقسیم ہوتا ہے جس میں وزن طے ہوتا ہے لیکن ماڈل میں نیورون میں سے کوئی بھی غائب ہوسکتا ہے۔ ہر نیورل نیٹ ورک کی مجموعی امکان کا تعین کسی خاص نیوران کے موجود ہونے یا غائب ہونے کے انفرادی امکان سے ہوتا ہے۔ یہ باقاعدہ ہے کیونکہ اس کی اوسط قیمت ہر کام کو بہتر بناتی ہے۔

چھپی ہوئی پرت میں بے ترتیب شور کو شامل کرنا اسی طرح چلتا ہے ، لیکن ممکنہ تقسیم کی مختلف تقسیم کے ساتھ۔ مقررہ وزن رکھنے کے بجائے ، آپ کے پاس ایک مقررہ ٹوپولاجی ہے ، اور احتمال کی تقسیم آپ کی ہارڈ ڈرائیو پر جس وزن کا ذخیرہ کررہی ہے ، اس میں "گداز" والے وزن کے مرکز میں واقع گوسی تقسیم کے مطابق بے ترتیب وزن کا انتخاب کرتے ہیں۔ ایک بار پھر ، یہ اوسطا اوسطا ماڈل ہے ، اور اس پر باقاعدگی سے اثر و رسوخ ہونا چاہئے ، اس انتباہ کے ساتھ کہ شور (فرق) سگنل پر حاوی نہ ہو۔ لہذا ، مثال کے طور پر ، اگر آپ پہلے بیچنورم لگاتے ہیں تو ، آپ کے پاس تقریبا standard معیاری نارمل آؤٹ پٹ پروفائل ہوگا (جس کا موازنہ صفر پر مبنی اکائیوں میں ہوتا ہے) ، اور آپ پھر ، 0.1 ، کے فرق کے ساتھ شور لاگو کرسکتے ہیں۔ آپ کیا دیکھتے ہیں اس سے مختلف حالتوں میں کھیل سکتے ہیں۔

ترمیم کریں: چونکہ سوال نے بیچنورم کا ذکر کیا ہے ، لہذا میں یہ نشاندہی کرنا چاہتا تھا کہ بیچنورام واقعی میں باقاعدگی کے لئے استعمال نہیں ہوا ہے۔ یعنی ، بیچنورم لاگت کو ہموار نہیں کرتا ہے۔ اس کے بجائے ، بیک اسپروج کی کارکردگی کو بہتر بنانے کے لئے بیچنورم کو شامل کیا گیا ہے۔ خلاصہ یہ ، اس کو بازیافت اور ریسینٹرنگ کرکے کمر کو بہت بڑا یا چھوٹا ہونے سے پیچھے کی تشہیر کرنے والا میلان رکھتا ہے۔ ایک تکنیک کی حیثیت سے ، اس کے سیکنڈ آرڈر کی اصلاح کے طریقوں سے گہرے رابطے ہیں جو لاگت کی سطح کے گھماؤ کو ماڈل بنانے کی کوشش کرتے ہیں۔ جیسا کہ میں نے اوپر ذکر کیا ہے ، بیچنورم اس بات کی گارنٹی کے لئے بھی استعمال کیا جاسکتا ہے کہ اگر آپ عصبی سرگرمیوں میں بے ترتیب شور کو شامل کرنے جارہے ہیں تو متعلقہ اسکیلنگ درست ہے۔


جواب 2:

میں اس کو باقاعدگی سے زیادہ ایک اصلاحی چال سمجوں گا۔

ایس جی ڈی میں اثر stochasticity کے برابر ہونا چاہئے۔

ایس جی ڈی ، اور اس کے پریرتا مونٹی کارلو طریق کار ، کھڑی نزول کی سمت پر سختی سے عمل کرنے کی بجائے ہر ایک بار ایک بے ترتیب قدم اٹھا کر غریب مقامی منیما میں پھنس جانے سے بچ جاتے ہیں۔ یا ان کے مختلف اوتار میں مساوی کچھ کرنا جیسے وقتا فوقتا بے ترتیب اقدام اٹھانے کی بجائے ہر قدم میں ایک بے ترتیب جز کو شامل کرنا۔

وزن میں کمزور بے ترتیب شور کو شامل کرنا خاص طور پر ایک ہی ہوگا۔ [اشارہ: تدریجی نزول ہر تکرار میں وزن میں بھی کچھ اضافہ کرتا ہے!]


جواب 3:

ترمیم:

ہر پرت کے ان پٹ ڈیٹا میں گاؤس سے تقسیم ، بے ترتیب شور کو شامل کرنا آپ کے ماڈل کو اعداد و شمار میں چھوٹی چھوٹی تبدیلیوں کے لئے زیادہ مضبوط بنائے گا تاکہ آپ کے نیٹ ورک کو سگنل سے شور کو بہتر سے بہتر بنانے کے قابل بنائے۔ جیسا کہ ذیشان ضیا نے کہا ، یہ بنیادی طور پر اسٹاکسٹک میلان مہذب ہوگا۔ میں اب بھی اس باقاعدگی پر غور نہیں کروں گا۔ یہ آپ کے ماڈل کو سگنل سے شور کو الگ کرنے کے نمونوں کو سیکھنے میں مدد کرنے کی ایک زیادہ تکنیک ہے۔

ڈراپ آؤٹ ہر پاس پر چھپی ہوئی پرت میں نوڈس کا ایک خاص تناسب تصادفی طور پر غیر فعال کردیتا ہے۔ اس سے نیٹ ورک میں بہتری آتی ہے کیونکہ وہ اسے ایک ہی طریقوں کو متعدد طریقوں سے پہچاننے کا طریقہ سیکھنے پر مجبور کرتا ہے ، جس سے بہتر ماڈل کی طرف جاتا ہے۔

بیچ کو معمول بنانا ہے جہاں آپ ان پٹ کو کسی پرت میں لے جاتے ہیں اور اس بات کو یقینی بناتے ہیں کہ وہ سب 0 اور 1 کے درمیان نارمل ہوجاتے ہیں۔ اس سے نیٹ ورک کو بہتر طریقے سے سیکھنے میں مدد ملتی ہے کیونکہ اس سے تدریجی مہذب زیادہ مستقل اور ہموار رہتا ہے۔ اس طرح ، آپ منیما کے ارد گرد کودنے سے گریز کرتے ہیں کیونکہ آپ کا میلان بہت بڑا ہے۔