"این مقاله در حال ترجمه از ویکی انگلیسی است
لطفا حذف نشود."
AlexNet نام یک معماری شبکه عصبی کانولوشن (CNN) است که توسط Alex Krizhevsky با همکاری ایلیا Sutskever و Geoffrey Hinton ، که استاد دکترای کریژفسکی در دانشگاه تورنتو بود، طراحی شد. [1] [2]
AlexNet در چالش تشخیص بصری در مقیاس بزرگ ImageNet در 30 سپتامبر 2012 رقابت کرد. [3] این شبکه با خطای 15.3 درصدی جزو 5 خطای برتر شد و بیشتر از 10.8 درصد، کمتر از رتبه دوم بود. نتیجه اصلی مقاله این بود که عمق مدل برای عملکرد بالای آن ضروری بود و هزینه محاسباتی بالایی ایجاد می کرد، اما با استفاده از واحدهای پردازش گرافیکی (GPU) در زمان آموزش قابل انجام شد.[2]
کار های پیشین
editبا توجه به مقاله AlexNet، [2] شبکه قبلی Cireșan "تا حدودی مشابه است." هر دو در ابتدا با CUDA نوشته شده بودند تا با پشتیبانی از GPU اجرا شوند. در واقع، هر دو در واقع فقط انواعی از طرحهای CNN هستند که توسط Yann LeCun و همکاران معرفی شدهاند. (1989) [4] [5] که الگوریتم پس انتشار را به گونهای از معماری اصلی CNN کونیهیکو فوکوشیما به نام " نئوگنیترون " اعمال کرد. [6] [7] معماری بعدها با روش J. Weng به نام max-pooling اصلاح شد. [8] [9]
طراحی شبکه
editAlexNet شامل هشت لایه است: پنج لایه اول لایه های کانولوشن هستند، برخی از آنها لایه های max-pooling و سه لایه آخر لایه های کاملاً متصل هستند. شبکه، به جز آخرین لایه، به دو نسخه تقسیم می شود که هر کدام روی یک GPU اجرا می شوند. [2] کل ساختار را می توان به صورت زیر نوشت:
- CNN = لایه کانولوشن (با فعال سازی ReLU)
- RN = عادی سازی پاسخ محلی
- MP = maxpooling
- FC = لایه کاملا متصل (با فعال سازی ReLU)
- خطی = لایه کاملا متصل (بدون فعال سازی)
- DO = ترک تحصیل
از تابع فعالسازی غیراشباع ReLU استفاده کرد که عملکرد تمرینی بهتری را نسبت به tanh و sigmoid نشان داد. [2]
نفوذ
editAlexNet به عنوان یکی از تأثیرگذارترین مقالات منتشر شده در بینایی کامپیوتر در نظر گرفته می شود، که باعث شده است مقالات بیشتری با استفاده از CNN و GPU برای تسریع یادگیری عمیق منتشر شوند. [10] طبق گفته Google Scholar تا اوایل سال 2023، مقاله AlexNet بیش از 120000 بار مورد استناد قرار گرفته است. [11]
منابع
edit- ^ Gershgorn, Dave (26 July 2017). "The data that transformed AI research—and possibly the world". Quartz.
- ^ a b c d e Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffrey E. (2017-05-24). "ImageNet classification with deep convolutional neural networks" (PDF). Communications of the ACM. 60 (6): 84–90. doi:10.1145/3065386. ISSN 0001-0782.
- ^ "ImageNet Large Scale Visual Recognition Competition 2012 (ILSVRC2012)". image-net.org.
- ^ LeCun, Y.; Boser, B.; Denker, J. S.; Henderson, D.; Howard, R. E.; Hubbard, W.; Jackel, L. D. (1989). "Backpropagation Applied to Handwritten Zip Code Recognition" (PDF). Neural Computation. 1 (4). MIT Press - Journals: 541–551. doi:10.1162/neco.1989.1.4.541. ISSN 0899-7667. OCLC 364746139.
- ^ LeCun, Yann; Léon Bottou; Yoshua Bengio; Patrick Haffner (1998). "Gradient-based learning applied to document recognition" (PDF). Proceedings of the IEEE. 86 (11): 2278–2324. CiteSeerX 10.1.1.32.9552. doi:10.1109/5.726791. Retrieved October 7, 2016.
- ^ Fukushima, K. (2007). "Neocognitron". Scholarpedia. 2 (1): 1717. Bibcode:2007SchpJ...2.1717F. doi:10.4249/scholarpedia.1717.
- ^ Fukushima, Kunihiko (1980). "Neocognitron: A Self-organizing Neural Network Model for a Mechanism of Pattern Recognition Unaffected by Shift in Position" (PDF). Biological Cybernetics. 36 (4): 193–202. doi:10.1007/BF00344251. PMID 7370364. Retrieved 16 November 2013.
- ^ Weng, J; Ahuja, N; Huang, TS (1993). "Learning recognition and segmentation of 3-D objects from 2-D images". Proc. 4th International Conf. Computer Vision: 121–128.
- ^ Schmidhuber, Jürgen (2015). "Deep Learning". Scholarpedia. 10 (11): 1527–54. CiteSeerX 10.1.1.76.1541. doi:10.1162/neco.2006.18.7.1527. PMID 16764513.
- ^ Deshpande, Adit. "The 9 Deep Learning Papers You Need To Know About (Understanding CNNs Part 3)". adeshpande3.github.io. Retrieved 2018-12-04.
- ^ AlexNet paper on Google Scholar
[[Category:معماری شبکههای عصبی]] [[Category:نرمافزارهای یادگیری عمیق]]