User:Ai402112117/الکس نت

Comparison of the LeNet and AlexNet convolution, pooling, and dense layers
(AlexNet image size should be 227×227×3, instead of 224×224×3, so the math will come out right. The original paper said different numbers, but Andrej Karpathy, the former head of computer vision at Tesla, said it should be 227×227×3 (he said Alex didn't describe why he put 224×224×3). The next convolution should be 11×11 with stride 4: 55×55×96 (instead of 54×54×96). It would be calculated, for example, as: [(input width 227 - kernel width 11) / stride 4] + 1 = [(227 - 11) / 4] + 1 = 55. Since the kernel output is the same length as width, its area is 55×55.)

"این مقاله در حال ترجمه از ویکی انگلیسی است

لطفا حذف نشود."

AlexNet نام یک معماری شبکه عصبی کانولوشن (CNN) است که توسط Alex Krizhevsky با همکاری ایلیا Sutskever و Geoffrey Hinton ، که استاد دکترای کریژفسکی در دانشگاه تورنتو بود، طراحی شد. [1] [2]

AlexNet در چالش تشخیص بصری در مقیاس بزرگ ImageNet در 30 سپتامبر 2012 رقابت کرد. [3] این شبکه با خطای 15.3 درصدی جزو 5 خطای برتر شد و بیشتر از 10.8 درصد، کمتر از رتبه دوم بود. نتیجه اصلی مقاله این بود که عمق مدل برای عملکرد بالای آن ضروری بود و هزینه محاسباتی بالایی ایجاد می کرد، اما با استفاده از واحدهای پردازش گرافیکی (GPU) در زمان آموزش قابل انجام شد.[2]

کار های پیشین

edit

با توجه به مقاله AlexNet، [2] شبکه قبلی Cireșan "تا حدودی مشابه است." هر دو در ابتدا با CUDA نوشته شده بودند تا با پشتیبانی از GPU اجرا شوند. در واقع، هر دو در واقع فقط انواعی از طرح‌های CNN هستند که توسط Yann LeCun و همکاران معرفی شده‌اند. (1989) [4] [5] که الگوریتم پس انتشار را به گونه‌ای از معماری اصلی CNN کونیهیکو فوکوشیما به نام " نئوگنیترون " اعمال کرد. [6] [7] معماری بعدها با روش J. Weng به نام max-pooling اصلاح شد. [8] [9]

طراحی شبکه

edit

AlexNet شامل هشت لایه است: پنج لایه اول لایه های کانولوشن هستند، برخی از آنها لایه های max-pooling و سه لایه آخر لایه های کاملاً متصل هستند. شبکه، به جز آخرین لایه، به دو نسخه تقسیم می شود که هر کدام روی یک GPU اجرا می شوند. [2] کل ساختار را می توان به صورت زیر نوشت: 

  • CNN = لایه کانولوشن (با فعال سازی ReLU)
  • RN = عادی سازی پاسخ محلی
  • MP = maxpooling
  • FC = لایه کاملا متصل (با فعال سازی ReLU)
  • خطی = لایه کاملا متصل (بدون فعال سازی)
  • DO = ترک تحصیل

از تابع فعال‌سازی غیراشباع ReLU استفاده کرد که عملکرد تمرینی بهتری را نسبت به tanh و sigmoid نشان داد. [2]

نفوذ

edit

AlexNet به عنوان یکی از تأثیرگذارترین مقالات منتشر شده در بینایی کامپیوتر در نظر گرفته می شود، که باعث شده است مقالات بیشتری با استفاده از CNN و GPU برای تسریع یادگیری عمیق منتشر شوند. [10] طبق گفته Google Scholar تا اوایل سال 2023، مقاله AlexNet بیش از 120000 بار مورد استناد قرار گرفته است. [11]

منابع

edit
  1. ^ Gershgorn, Dave (26 July 2017). "The data that transformed AI research—and possibly the world". Quartz.
  2. ^ a b c d e Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffrey E. (2017-05-24). "ImageNet classification with deep convolutional neural networks" (PDF). Communications of the ACM. 60 (6): 84–90. doi:10.1145/3065386. ISSN 0001-0782.
  3. ^ "ImageNet Large Scale Visual Recognition Competition 2012 (ILSVRC2012)". image-net.org.
  4. ^ LeCun, Y.; Boser, B.; Denker, J. S.; Henderson, D.; Howard, R. E.; Hubbard, W.; Jackel, L. D. (1989). "Backpropagation Applied to Handwritten Zip Code Recognition" (PDF). Neural Computation. 1 (4). MIT Press - Journals: 541–551. doi:10.1162/neco.1989.1.4.541. ISSN 0899-7667. OCLC 364746139.
  5. ^ LeCun, Yann; Léon Bottou; Yoshua Bengio; Patrick Haffner (1998). "Gradient-based learning applied to document recognition" (PDF). Proceedings of the IEEE. 86 (11): 2278–2324. CiteSeerX 10.1.1.32.9552. doi:10.1109/5.726791. Retrieved October 7, 2016.
  6. ^ Fukushima, K. (2007). "Neocognitron". Scholarpedia. 2 (1): 1717. Bibcode:2007SchpJ...2.1717F. doi:10.4249/scholarpedia.1717.
  7. ^ Fukushima, Kunihiko (1980). "Neocognitron: A Self-organizing Neural Network Model for a Mechanism of Pattern Recognition Unaffected by Shift in Position" (PDF). Biological Cybernetics. 36 (4): 193–202. doi:10.1007/BF00344251. PMID 7370364. Retrieved 16 November 2013.
  8. ^ Weng, J; Ahuja, N; Huang, TS (1993). "Learning recognition and segmentation of 3-D objects from 2-D images". Proc. 4th International Conf. Computer Vision: 121–128.
  9. ^ Schmidhuber, Jürgen (2015). "Deep Learning". Scholarpedia. 10 (11): 1527–54. CiteSeerX 10.1.1.76.1541. doi:10.1162/neco.2006.18.7.1527. PMID 16764513.
  10. ^ Deshpande, Adit. "The 9 Deep Learning Papers You Need To Know About (Understanding CNNs Part 3)". adeshpande3.github.io. Retrieved 2018-12-04.
  11. ^ AlexNet paper on Google Scholar

[[Category:معماری شبکه‌های عصبی]] [[Category:نرم‌افزارهای یادگیری عمیق]]