مفاهیم و تعاریف پایه
مفاهیم و تعاریف پایه

مفاهیم و تعاریف پایه

اصول اساسی یادگیری عمیق

 ۱. مقدمه

این وبلاگ به جزئیات دقیق معماری ترانسفورمر میپردازد. هر بخش از این مجموعه شامل بینش نظری و همچنین بینشی از نقطه نظر کدگذاری در هر واحد/مفهومی است که معماری ترانسفورماتور را در بر میگیرد، همانطور که در زیر نشان داده شده است. هر بخش مربوطه به جزئیات موارد زیر خواهد رفت:

·         نشانهگذاری جمله و تعبیه ورودی

·         رمزگذاری موقعیتی

·         نرمالسازی لایهها

·         Self-Attention

·         Multi-Head Attention

·         و غیره

با این حال، قبل از غوطهوری در مواد تشکیل دهنده فوق، من احساس کردم که مستند کردن موارد زیر ضروری است:

o        اولا - اصول اساسی یادگیری عمیق

o        ثانیا - تکامل مدلهای زبان

با بررسی مجدد 2 مبحث فوق با جزئیات (مقداری) مطالب مربوط به ترانسفورماتور بهتر درک میشود. از این رو، من احساس کردم که قطعاً مفید است که قبل از فرو رفتن در کار ترانسفورمرز، زمان و تلاش خود را برای موضوعات فوق صرف کنم. این مقاله به جزئیات اصول اساسی یادگیری عمیق می‌پردازد و جنبه‌های زیر را پوشش می‌دهد:

·         بخش 2 تعاریف هوش مصنوعی، یادگیری ماشینی و یادگیری عمیق را بازبینی میکند.

·         بخش 3 اثربخشی/اهمیت یادگیری عمیق را تشریح میکند

·         بخش 4 مفهوم پرسپترون را که به تصویر شبکه عصبی منتهی میشود بازبینی میکند.

·         بخش 5 در مورد مفهوم پرسپترون، شبکههای عصبی صحبت میکند

·         بخش 6 به آموزش شبکه عصبی، تابع هزینه/تابع هدف/ضرر تجربی و بهینهسازی ضرر میپردازد.

·         بخش 7  پسانتشار را نشان میدهد که تکنیکی برای محاسبه گرادیان با استفاده از قانون زنجیرهای تفاضلی است.

·         منظمسازی در بخش 8 مورد بحث قرار گرفته است.

نیازی به ذکر نیست، تمام محتوای مورد بحث در زیر مجموعه‌ای از یادداشت‌های من از دوره‌های مختلفی است که تاکنون گذرانده‌ام، ویدیوهای YouTube که تماشا کرده‌ام و پست‌های وبلاگ دیگران که به‌عنوان منبع باز موجود است. این برای مرجع آینده مستند شده است، با این حال، اگر خواندن این محتوا برای کسی مفید باشد، واضح است که خوشحال خوشحال خواهم بود.

 

2. هوش مصنوعی، یادگیری ماشینی و یادگیری عمیق

هوش مصنوعی:

صحبت از هوش، یعنی پردازش اطلاعات به گونهای که بتوانیم از آن برای استنباط برخی تصمیمات و اقدامات آینده استفاده کنیم. حوزه هوش مصنوعی شامل ساخت الگوریتم‌های رایانه‌ای است که دقیقاً همان کار را انجام می‌دهند: پردازش اطلاعات برای استنتاج برخی تصمیمات آینده.

یادگیری ماشینی:

یادگیری ماشینی زیرمجموعه‌ای از هوش مصنوعی است که به‌ویژه بر یادگیری ماشین‌ها بر اساس برخی تجربیات انسانی/واقعی تمرکز دارد. تکنیکهای آماری برای توانمند ساختن ماشینها برای بهبود با تجربه استفاده میشود.

یادگیری عمیق:

یادگیری عمیق زیرمجموعه‌ای از یادگیری ماشینی است که از شبکه‌های عصبی چندلایه برای استخراج الگوهای موجود در داده‌ها استفاده می‌کند تا شبکه یاد بگیرد وظایفی را که در غیر این صورت به هوش انسانی نیاز دارد، انجام دهد.

این مقاله به جنبه‌های اساسی یادگیری عمیق می‌پردازد که بر روی یادگیری مستقیم وظایف مختلف رایانه از داده‌های خام تمرکز دارد.

شکل: تصویری از هوش مصنوعی، یادگیری ماشینی و یادگیری عمیق

 

3. یادگیری عمیق چه چیزی برای ارائه دارد؟

الگوریتم‌های یادگیری ماشین سنتی معمولاً ویژگی‌ها (الگوها) را در داده‌ها تعریف می‌کنند و معمولاً یک انسان با دانش تخصصی این ویژگی‌ها را کشف می‌کند ایده کلیدی یادگیری عمیق این است که به جای اینکه انسان این ویژگی‌ها را تعریف کند، ماشین الگوهایی را در داده‌ها استخراج می‌کند. که میتواند از آنها برای تصمیمگیری استفاده کند.

به عنوان مثال، برای یک الگوریتم تشخیص چهره، یک شبکه عصبی عمیق یاد می‌گیرد که برای تشخیص چهره، ابتدا خط، لبه‌هایی را شناسایی می‌کند که می‌توان آنها را با هم ترکیب کرد تا ویژگی‌های سطح متوسط ​​مانند گوشه‌ها و منحنی‌ها را به دست آورد که به نوبه خود می‌توان آنها را با هم ترکیب کرد. در لایه‌های عمیق‌تر شبکه عصبی، ویژگی‌های سطح بالایی مانند چشم، گوش، گره و غیره را تشکیل می‌دهند و سپس همه اینها با هم قادر به تشخیص چهره خواهند بود.

همانطور که در شکل زیر نشان داده شده است، تمام یادگیریها به صورت سلسله مراتبی از لایههای پایین شبکه شروع میشود.

شکل: یادگیری سلسله مراتبی ویژگیها در شبکههای عصبی عمیق

 

4. بلوک ساختمانی یادگیری عمیق: پرسپترون

اجازه دهید اکنون با بلوک ساختمانی اساسی هر شبکه عصبی که ممکن است ایجاد شود - که یک نورون واحد است، شروع کنیم. در زبان یادگیری عمیق، یک نورون منفرد پرسپترون نامیده میشود. پرسپترون یک نورون منفرد است و حالت داخلی آن با مجموعه‌ای از ورودی‌های x1 تا xn نشان داده می‌شود که در وزن‌های مربوطه ضرب می‌شوند و با هم جمع می‌شوند - همچنین یک عبارت بایاس که به عنوان w0 نشان داده شده است، همانطور که در شکل زیر نشان داده شده است اضافه می‌کنیم.

حالت داخلی یک نورون منفرد (پرسپترون)

 

سپس، عدد واحد را پس از جمع میگیریم و آن را از یک تابع فعالسازی غیر خطی عبور میدهیم و خروجی نهایی پرسپترون را تولید میکنیم که ممکن است مطابق شکل زیر y_bar نامیده شود.

خروجی نهایی پرسپترون

 

این فرآیند به صورت ریاضی با معادله زیر نشان داده می شود:

نمایش ریاضی فرآیند فوق

هدف از عملکرد فعالسازی:

هدف تابع فعال‌سازی غیرخطی، معرفی غیرخطی‌ها به داده‌ها است/ تقریباً تمام داده‌های دنیای واقعی ماهیت خطی دارند، بنابراین، اگر بخواهیم با آن مجموعه‌های داده سروکار داشته باشیم، به مدل‌هایی نیاز داریم که غیرخطی نیز باشند تا مدل‌ها می‌توانند انواع الگوها را در داده‌ها ثبت کنند. برای درک بهتر این موضوع، اجازه دهید بگوییم که یک مجموعه داده داریم که در شکل زیر نشان داده شده است:

مجموعه داده غیر خطی

فرض کنید با توجه به این مجموعه داده، باید یک مرز تصمیم بسازیم، یعنی مرزی که نقاط قرمز و سبز را در شکل بالا جدا میکند. حال، اگر از یک خط مستقیم برای جدا کردن نقاط سبز و قرمز استفاده کنیم، بهترین کاری که می‌توانیم انجام دهیم این است که مانند شکل زیر از هم جدا کنیم:

خط مستقیم (رویکرد خطی) برای ساختن مرز تصمیم.

بنابراین، مسئله را نمیتوان به طور موثر با استفاده از یک رویکرد خطی حل کرد و ما باید به غیرخطی بودن متوسل شویم که به مقابله با چنین مسائلی کمک میکند. توابع فعال‌سازی غیرخطی به ما امکان می‌دهند با داده‌های غیرخطی مقابله کنیم که شبکه‌های عصبی را بسیار قدرتمند می‌کند.

مرز تصمیمگیری پس از استفاده از توابع فعالسازی خطی

علاوه بر این، ممکن است تاکید شود که از آنجایی که ما فقط ورودی‌ها را با وزن‌های مربوطه ضرب می‌کنیم و آنها را با هم جمع می‌کنیم، تا زمانی که با استفاده از توابع فعال‌سازی غیرخطی، غیرخطی‌ها را معرفی نکنیم، مسئله به صورت یک مسئله خطی باقی می‌ماند.

انواع توابع فعالسازی غیر خطی:

برخی از انواع توابع فعال سازی عبارتند از

·         تابع فعالسازی سیگموئید

·         تابع فعالسازی  Tan hyperbolic/ Hyperbolic Tangent

·         تابع فعالسازی ReLu

این موارد در شکل زیر نشان داده شده است:

توابع فعالسازی

5. پرسپترون به شبکه عصبی

در ادامه بحث بالا: حالا، بیایید پرسپترون (تک) را بگیریم و چیزی قابل توجهتر بسازیم!

حال فرض کنید 2 خروجی از تابع میخواهیم. ما به سادگی یک پرسپترون دیگر اضافه میکنیم - این پرسپترون اضافه شده / دوم مجموعه وزنهای خاص خود را خواهد داشت. هر پرسپترون خروجی قطعه مرتبط خود را کنترل میکند.

شبکه عصبی تک لایه با 2 پرسپترون

 علاوه بر این، چنین پرسپترون‌هایی را می‌توان برای تشکیل یک شبکه عصبی تک لایه مانند زیر روی هم قرار داد:

شبکه عصبی تک لایه

یک شبکه عصبی عمیق را میتوان با انباشتن لایههای متوالی بیشتر همانطور که در شکلهای زیر نشان داده شده است، ساخت:

شبکه عصبی عمیق با 3 لایه پنهان

با این تصویر، می‌توانیم تصور/تفسیر[1] کنیم که ورودی‌های داده‌شده (در ابتدا) به یک فضای بعدی جدید با مقادیر نزدیک‌تر به آنچه می‌خواهیم (یعنی نزدیک‌تر به خروجی مورد نظر ما) تبدیل می‌شوند و این تبدیل باید آموخته شود. و این در بخش بعدی که مربوط به تابع ضرر (یا تابع هدف[2]) است، توضیح داده شده است.

 

6. آموزش شبکه عصبی

تابع ضرر:

پس از ساختن شبکه عصبی (تک/چند لایه) و اگر تازه شروع به استفاده از شبکه - با مقادیر تصادفی وزن - برای پیشبینی خروجی کنیم، شبکه به درستی پیشبینی نمیکند زیرا هنوز آموزش ندیده است. این شبکه اطلاعات در مورد مسئله را ندارد!

برای آموزش شبکه، باید تابع ضرر را بسازیم که به ما میگوید خروجی پیشبینی شده چقدر از خروجی واقعی فاصله دارد. از دست دادن شبکه هزینههای ناشی از پیشبینی نادرست را اندازهگیری میکند. تابع ضرر به عنوان تابع هدف یا تابع هزینه یا ضرر تجربی[3] نیز نامیده میشود و معیاری از ضرر کل در کل مجموعه داده است. از نظر ریاضی، تابع ضرر به صورت زیر بیان میشود:

تابع هدف / ضرر

 

همانطور که ممکن است از معادله بالا متوجه شود، تابع ضرر تابعی از ورودیها و وزنها است - یعنی خروجی پیشبینی شده و خروجی واقعی.

 

به حداقل رساندن ضرر:

آموزش شبکه عصبی نه تنها مستلزم تعیین فاصله خروجی پیش‌بینی‌شده از خروجی واقعی است، بلکه کاهش تلفات را نیز شامل می‌شود. بنابراین، از نظر ریاضی می‌خواهیم وزن‌های شبکه را پیدا کنیم که منجر به کمترین ضرر ممکن در کل مجموعه داده شود. معادله ریاضی به صورت زیر نمایش داده می شود:

تصویر ریاضی به حداقل رساندن ضرر

 

ضرر آنتروپی متقاطع

برای یک مسئله دسته‌بندی دودویی، تابع ضرر به کار رفته ضرر آنتروپی متقاطع است که به صورت زیر نشان داده می‌شود:

تصویر ریاضی ضرر آنتروپی متقاطع

 

میانگین ضرر مربعات خطا:

ضرر میانگین مربعات خطا می‌تواند برای مدل‌های رگرسیونی استفاده شود که می‌توانند اعداد حقیقی پیوسته را که به صورت زیر نشان داده شده‌اند، تولید کنند:

تصویر ریاضی میانگین ضرر مربعات خطا

 

بهینهسازی ضرر: چگونه ضرر را به حداقل برسانیم؟

تابع ضرر تابع وزنها خواهد بود - برای یک مسئله دو بعدی، این تابع ضرر را میتوان به صورت زیر تجسم کرد:

تغییر تابع ضرر برای مقادیر مختلف وزن

در منظر فوق میخواهیم کمترین ضرر را پیدا کنیم که با کمترین نقطه مطابقت دارد.

این کار به صورت ریاضی از طریق مراحل زیر انجام میشود:

۱. ابتدا از یک فضای تصادفی شروع میکنیم و ضرر را در مکان خاص محاسبه میکنیم.

۲. سپس محاسبه میکنیم که ضرر چگونه تغییر میکند - به عنوان مثال، گرادیان ضرر را محاسبه میکنیم. فرآیند محاسبه گرادیان به عنوان "پسانتشار[4]" شناخته میشود.

۳. گرادیان به ما میگوید که چگونه ضرر به عنوان تابعی از وزنها تغییر میکند.

۴.  وزنها را در جهت مخالف شیب به روز میکنیم.

۵.  روند بالا را ادامه میدهیم تا به پایینترین نقطه برسیم.

الگوریتم فوق به طور رسمی به عنوان نزول گرادیان نامیده میشود. به طور رسمی، مراحل در الگوریتم Gradient Descent ممکن است به صورت زیر برجسته شوند:

·         وزن های شبکه را به صورت تصادفی مقداردهی کنید.

·         حلقه بزنید تا موارد زیر همگرا شوند:

1) گرادیان را محاسبه کنید

2) وزن ها را در جهت مخالف شیب به روز کنید

نمایش ریاضی شیب و به روز رسانی وزن

 

وزنها در جهت مخالف شیب به روز میشوند. پارامتر η گام کوچکی است که در جهت مخالف شیب برمی‌داریم و معمولاً به آن «نرخ یادگیری[5]» می‌گویند.

3) وزنهها را برگردانید.

 

7. پس انتشار:

فرآیند محاسبه گرادیان به عنوان پس انتشار نامیده میشود. از نظر ریاضی، برای یک شبکه عصبی تک لایه با دو نورون همانطور که در زیر نشان داده شده است، گرادیان با استفاده از قانون زنجیره تفاضلی - به عقب از تابع ضرر در سراسر خروجی - به شرح زیر محاسبه میشود:

بازنمایی حرکت به سمت عقب از تابع ضرر به محاسبه گرادیان با استفاده از قانون زنجیره تفاضلی (پسانتشار)

ریاضیات محاسبات گرادیان

 

الگوریتم پس انتشار ده ها سال قدمت دارد و مقاله (1986) را می توانید در اینجا پیدا کنید:

https://www.iro.umontreal.ca/~vincentp/ift3395/lectures/backprop_old.pdf

باید تاکید کرد که چشمانداز تابع هزینه درگیر در یک شبکه عصبی عمیق بسیار پیچیده از آنچه در بالا نشان داده شده است!

تابع ضرر در یک شبکه عصبی عمیق

 

تنظیم میزان یادگیری: η

تنظیم نرخ یادگیری میتواند عواقب بسیار بزرگی در هنگام ساخت شبکه عصبی داشته باشد، داشتن نرخ یادگیری بسیار کم باعث میشود که سفر به پایینترین نقطه در چشمانداز بسیار کند شود (همگرایی کند است[6]) در حالی که اگر نرخ یادگیری بالا باشد، محاسبه ممکن است دور بزند. نقطه حداقل سراسری همانطور که به طور مستقیم در زیر نشان داده شده است.

نرخ یادگیری بیش از حد

در عمل یک فرآیند تطبیقی ​​دنبال میشود که در آن "نرخ یادگیری" با چشم انداز "تطبیق" مییابد. وقتی میگوییم "تطبیق"، به این معنی است که میزان یادگیری را میتوان کوچکتر یا بزرگتر کرد بسته به موارد زیر:

·         شیب چقدر بزرگ است

·         یادگیری چقدر سریع اتفاق میافتد.

·         اندازه وزنهها

·         و غیره

جزئیات بیشتر را می توانید در اینجا پیدا کنید: https://www.ruder.io/optimizing-gradient-descent/

 

8. منظمسازی[7]:

در مورد شبکههای عصبی، منظمسازی معمولاً با استفاده از “Dropouts” انجام می شود. در Dropouts، در حین آموزش، اساساً به طور تصادفی تعدادی زیرمجموعه از نورون‌ها را در شبکه عصبی انتخاب می‌کنیم و با احتمال کمی این نورون‌ها را هرس می‌کنیم. ما به طور تصادفی این نورونها را در تکرارهای مختلف در طول تمرین روشن و خاموش میکنیم.

این اساساً شبکه عصبی را مجبور می‌کند تا مجموعه‌ای از مدل‌های مختلف را بیاموزد. این یک تکنیک بسیار قدرتمند است و به تعمیم بهتر کمک میکند.

 

Dropouts - هرس نورون‌ها در طول تکرار تمرین

 

نظرات 0 + ارسال نظر
برای نمایش آواتار خود در این وبلاگ در سایت Gravatar.com ثبت نام کنید. (راهنما)
ایمیل شما بعد از ثبت نمایش داده نخواهد شد