ش | ی | د | س | چ | پ | ج |
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 |
یادگیری تقویتی گونهای از روشهای یادگیری ماشین است که یک عامل یا چندعامل را قادر به یادگیری در محیطی تعاملی با استفاده از آزمونوخطاها و بازخوردهای اعمال و تجربیات خود را میسازند.
در یادگیری تقویتی، وقتی عامل در یک حالت خاص عملی را انجام میدهد، در مقابل پاداش یا جایزه دریافت مینماید. در این نوع یادگیری ماشین، تمامی تلاش و هدف عامل این خواهد بود که تا پاداش دریافتی را در درازمدت به حداکثر برساند. اگرچه هم یادگیری نظارتشده و هم یادگیری تقویتی از نگاشت بین ورودی و خروجی استفاده میکنند، اما در یادگیری تقویتی برخلاف یادگیری نظارتشده از پاداشها و تنبیهها بهعنوان سیگنالهایی برای بهبود عملکرد نهایی سیستم استفاده میشود.
تفاوت اصلی میان یادگیری تقویتی با روشهای دیگر یادگیری ماشین، در این است که در یادگیری تقویتی، هیچگاه به عامل گفته نمیشود که کار درست در هر وضعیت کدام است و فقط بهوسیله معیاری، به عامل فهمانده میشود که یک عمل به چه میزان خوب و یا به چه میزان بد میباشد. این وظیفه عامل یادگیرنده میباشد که با در دست داشتن این اطلاعات، یاد بگیرد که بهترین عمل در هر وضعیت کدام است. این موضوع، بخشی از نقاط قوت خاص یادگیری تقویتی است.
از این طریق، مسائل پیچیدهٔ تصمیمگیری در اغلب اوقات میتوانند با فراهم کردن کمترین میزان اطلاعات مورد نیاز برای حل مسأله، حل شوند. در بسیاری از حیوانات، یادگیری تقویتی، تنها شیوهٔ یادگیری مورد استفاده است. همچنین یادگیری تقویتی، بخشی اساسی از رفتار انسانها را تشکیل میدهد. هنگامی که دست ما در مواجهه با حرارت میسوزد، ما به سرعت یاد میگیریم که این کار را بار دیگر تکرار نکنیم. لذت و درد مثالهای خوبی از پاداشها هستند که الگوهای رفتاری ما و بسیاری از حیوانات را تشکیل میدهند. در یادگیری تقویتی، هدف اصلی از یادگیری، انجام دادن کاری و یا رسیدن به هدفی است، بدون آنکه عامل یادگیرنده، با اطلاعات مستقیم بیرونی تغذیه شود.
در یادگیری تقویتی هدف پیدا کردن مدل داده مناسبی است که پاداش انبارهای کل جایزه را برای عامل بیشینه میکند. تصویر زیر ایده اساسی و عناصر درگیر در یک مدل یادگیری تقویتی را نشان میدهد.
۱- سیاست
سیاست نحوه برخورد با هر عمل و نحوه تصمیم گیری در هر یک از شرایط مختلف را تعیین مینماید. در واقع سیاست تعیین کننده شیوه رفتار عامل در زمان داده بوده و عامل هوشمند را به حالتهای بهتر رهنمون میسازد.
۲- تابع پاداش
در تابع پاداش هدف را تعیین میکنند. این تابع هدفش این است که به ازای هر عمل عامل یک پاداش بدهد پس به هدف که نزدیک میشود پاداش بیشتر میشود. در صورتی که تابع پاداش بد تعریف شود عامل دیر یاد میگیرد. جایزه کوتاه مدت و ارزش بلند مدت است یعنی ممکن است یک خانه پاداش نداشته باشد ولی ما را به هدف نزدیکتر کند پس ارزش بالاتری دارد.
۳- تابع ارزش گذاری
نگاه بلند مدت دارد. برای هر حالت یک مقدار تعیین میکند که هر چه بیشتر باشد یعنی به هدف نزدیکتر شدهایم. مانند اینکه در یک بازی اجازه دهید حریف مهره شما را بزند در این حالت پاداش نمیگیرید ولی به حالت دیگری میروید که بهتر است این یعنی نگاه بلند مدت.
۴- مدل
مسئله یادگیری تقویتی، احتمالاتی و تصادفی است وحالت ها یا حالات آن non-deterministic میباشد. یعنی به ازای یک عمل میتواند به همه حالات برود ولی با یک احتمال. هر عمل یک احتمال است و رفتن از یک حالت به حالت دیگر هم احتمال است. هدف یادگیرنده ماکزیمم کردن پاداش بلند مدت میباشد. در یک مسئله یادگیری تقویتی با عاملی روبرو هستیم که از طریق سعی و خطا با محیط تعامل کرده و یاد میگیرد تا عملی بهینه را برای رسیدن به هدف انتخاب نماید. یادگیری تقویتی از این رو مورد توجه است که راهی برای آموزش عاملها برای انجام یک عمل از طریق پاداش و تنبیه است بدون اینکه لازم باشد نحوه انجام عمل را برای عامل مشخص نماید.
پر استفادهترین الگوریتمهای یادگیری تقویتی:
یادگیری تقویتی و حالت عمل جایزه حالت عمل دو الگوریتم محبوب و مستقل از مدل برای یادگیری تقویتی هستند. تمایز این الگوریتمها با یکدیگر در استراتژیهای جستوجوی آنها محسوب میشود، در حالیکه استراتژیهای استخراج آنها مشابه است. در حالیکه یادگیری تقویتی یک روش مستقل از سیاست است که در آن عامل ارزشها را براساس عمل a* که از سیاست دیگری مشتق شده میآموزد، SARSA یک روش مبتنی بر سیاست محسوب میشود که در آن ارزشها را براساس عمل کنونی a که از سیاست کنونی آن مشتق شده میآموزد. پیادهسازی این دو روش آسان است اما فاقد تعمیمپذیری هستند زیرا دارای توانایی تخمین ارزشها برای حالتهای مشاهده نشده نیستند.
با استفاده از الگوریتمهای پیشرفتهتری مانند Deep Q-Networks که از شبکههای عصبی برای تخمین Q-ارزشها استفاده میکنند میتوان بر این چالشها غلبه کرد. اما، DQN ها تنها میتوانند فضای حالت گسسته و ابعاد کم را مدیریت کنند. DDPG (سرنام Deep Deterministic سیاست یک الگوریتم مستقل از مدل، مستقل از سیاست و عامل-نقاد به شمار میآید که روش مواجهه آن با مساله، یادگیری سیاستهایی در فضای عمل ابعاد بالا و پیوسته است.
کاربردهای عملی یادگیری تقویتی:
از آنجا که یادگیری تقویتی نیازمند حجم زیادی از دادهها است، بنابراین بیشتر در دامنههایی مانند گیمپلی و رباتیک کاربرد دارد که در آنها دادههای شبیهسازی شده به صورت آماده موجود هستند.
یادگیری تقویتی به طور گسترده در ساخت هوش مصنوعی برای انجام بازیهای کامپیوتری مورد استفاده قرار میگیرد. آلفاگو زیرو اولین برنامه کامپیوتری است که قهرمان جهان در بازی چین باستانی گو را شکست داد. از دیگر بازیهایی که این هوش مصنوعی در آنها پیروز شده میتوان به بازیهای آتاری و تخته نرد اشاره کرد.
در رباتیک و خودکارسازی صنعتی، یادگیری تقویتی برای قادرسازی رباتها به ساخت سیستمهای تطبیقی مؤثر برای خودشان که از تجربیات و رفتارهای خود میآموزند مورد استفاده قرار میگیرد. پژوهشهای دیپ مایند در زمینه یادگیری عمیق تقویتی برای کنترل رباتیکی با استفاده از بازوهای مکانیکی با سیاست نامتقارن مثال خوبی از این مورد است.
از دیگر کاربردهای یادگیری تقویتی میتوان به موتورهای خلاصهسازی متن، عاملهای گفتوگو (متن، گفتار) که توانایی یادگیری از تعاملهای انسانی و بهبود در طول زمان را دارند، یادگیری سیاستهای درمان بهینه در بهداشت و درمان و عاملهای مبتنی بر یادگیری تقویتی برای معاملات آنلاین سهام اشاره کرد.
مطلب خوب و جالبی بود