IRE: Inductive Rule Extraction

استخراج قانون استقرائی

IRE: Inductive Rule Extraction

استخراج قانون استقرائی

یادگیری تقویتی

یادگیری تقویتی گونه‌ای از روش‌های یادگیری ماشین است که یک عامل یا چندعامل را قادر به یادگیری در محیطی تعاملی با استفاده از آزمون‌وخطاها و بازخوردهای اعمال و تجربیات خود را می‌سازند.

در یادگیری تقویتی، وقتی عامل در یک حالت خاص عملی را انجام می‌دهد، در مقابل پاداش یا جایزه دریافت می‌نماید. در این نوع یادگیری ماشین، تمامی تلاش و هدف عامل این خواهد بود که تا پاداش دریافتی را در درازمدت به حداکثر برساند. اگرچه هم یادگیری نظارت‌شده و هم یادگیری تقویتی از نگاشت بین ورودی و خروجی استفاده می‌کنند، اما در یادگیری تقویتی برخلاف یادگیری نظارت‌شده از پاداش‌ها و تنبیه‌ها به‌عنوان سیگنال‌هایی برای بهبود عملکرد نهایی سیستم استفاده می‌شود.

تفاوت اصلی میان یادگیری تقویتی با روش‌های دیگر یادگیری ماشین، در این است که در یادگیری تقویتی، هیچ‌گاه به عامل گفته نمی‌شود که کار درست در هر وضعیت کدام است و فقط به‌وسیله معیاری، به عامل فهمانده می‌شود که یک عمل به چه میزان خوب و یا به چه میزان بد می‌باشد. این وظیفه عامل یادگیرنده می‌باشد که با در دست داشتن این اطلاعات، یاد بگیرد که بهترین عمل در هر وضعیت کدام است. این موضوع، بخشی از نقاط قوت خاص یادگیری تقویتی است.

از این طریق، مسائل پیچیدهٔ تصمیم‌گیری در اغلب اوقات می‌توانند با فراهم کردن کمترین میزان اطلاعات مورد نیاز برای حل مسأله، حل شوند. در بسیاری از حیوانات، یادگیری تقویتی، تنها شیوهٔ یادگیری مورد استفاده است. همچنین یادگیری تقویتی، بخشی اساسی از رفتار انسان‌ها را تشکیل می‌دهد. هنگامی که دست ما در مواجهه با حرارت می‌سوزد، ما به سرعت یاد می‌گیریم که این کار را بار دیگر تکرار نکنیم. لذت و درد مثالهای خوبی از پاداش‌ها هستند که الگوهای رفتاری ما و بسیاری از حیوانات را تشکیل می‌دهند. در یادگیری تقویتی، هدف اصلی از یادگیری، انجام دادن کاری و یا رسیدن به هدفی است، بدون آنکه عامل یادگیرنده، با اطلاعات مستقیم بیرونی تغذیه شود.

در یادگیری تقویتی هدف پیدا کردن مدل داده مناسبی است که پاداش انباره‌ای کل جایزه را برای عامل بیشینه می‌کند. تصویر زیر ایده اساسی و عناصر درگیر در یک مدل یادگیری تقویتی را نشان می‌دهد.

۱- سیاست

سیاست نحوه برخورد با هر عمل و نحوه تصمیم گیری در هر یک از شرایط مختلف را تعیین می‌نماید. در واقع سیاست تعیین کننده شیوه رفتار عامل در زمان داده بوده و عامل هوشمند را به حالت‌های بهتر رهنمون می‌سازد.

۲- تابع پاداش

در تابع پاداش هدف را تعیین می‌کنند. این تابع هدفش این است که به ازای هر عمل عامل یک پاداش بدهد پس به هدف که نزدیک می‌شود پاداش بیشتر می‌شود. در صورتی که تابع پاداش بد تعریف شود عامل دیر یاد می‌گیرد. جایزه کوتاه مدت و ارزش بلند مدت است یعنی ممکن است یک خانه پاداش نداشته باشد ولی ما را به هدف نزدیک‌تر کند پس ارزش بالاتری دارد.

۳- تابع ارزش گذاری

نگاه بلند مدت دارد. برای هر حالت یک مقدار تعیین می‌کند که هر چه بیشتر باشد یعنی به هدف نزدیک‌تر شده‌ایم. مانند اینکه در یک بازی اجازه دهید حریف مهره شما را بزند در این حالت پاداش نمی‌گیرید ولی به حالت دیگری می‌روید که بهتر است این یعنی نگاه بلند مدت.

۴- مدل

مسئله یادگیری تقویتی، احتمالاتی و تصادفی است وحالت ها یا حالات آن non-deterministic می‌باشد. یعنی به ازای یک عمل می‌تواند به همه حالات برود ولی با یک احتمال. هر عمل یک احتمال است و رفتن از یک حالت به حالت دیگر هم احتمال است. هدف یادگیرنده ماکزیمم کردن پاداش بلند مدت می‌باشد. در یک مسئله یادگیری تقویتی با عاملی روبرو هستیم که از طریق سعی و خطا با محیط تعامل کرده و یاد می‌گیرد تا عملی بهینه را برای رسیدن به هدف انتخاب نماید. یادگیری تقویتی از این رو مورد توجه است که راهی برای آموزش عامل‌ها برای انجام یک عمل از طریق پاداش و تنبیه است بدون اینکه لازم باشد نحوه انجام عمل را برای عامل مشخص نماید.

پر استفاده‌ترین الگوریتم‌های یادگیری تقویتی:

یادگیری تقویتی و حالت عمل جایزه حالت عمل دو الگوریتم محبوب و مستقل از مدل برای یادگیری تقویتی هستند. تمایز این الگوریتم‌ها با یکدیگر در استراتژی‌های جست‌وجوی آن‌ها محسوب می‌شود، در حالیکه استراتژی‌های استخراج آن‌ها مشابه است. در حالیکه یادگیری تقویتی یک روش مستقل از سیاست است که در آن عامل ارزش‌ها را براساس عمل a* که از سیاست دیگری مشتق شده می‌آموزد، SARSA یک روش مبتنی بر سیاست محسوب می‌شود که در آن ارزش‌ها را براساس عمل کنونی a که از سیاست کنونی آن مشتق شده می‌آموزد. پیاده‌سازی این دو روش آسان است اما فاقد تعمیم‌پذیری هستند زیرا دارای توانایی تخمین ارزش‌ها برای حالت‌های مشاهده نشده نیستند.

با استفاده از الگوریتم‌های پیشرفته‌تری مانند Deep Q-Networks که از شبکه‌های عصبی برای تخمین Q-ارزش‌ها استفاده می‌کنند می‌توان بر این چالش‌ها غلبه کرد. اما، DQN ها تنها می‌توانند فضای حالت گسسته و ابعاد کم را مدیریت کنند. DDPG (سرنام Deep Deterministic سیاست یک الگوریتم مستقل از مدل، مستقل از سیاست و عامل-نقاد به شمار می‌آید که روش مواجهه آن با مساله، یادگیری سیاست‌هایی در فضای عمل ابعاد بالا و پیوسته است.

کاربردهای عملی یادگیری تقویتی:

از آنجا که یادگیری تقویتی نیازمند حجم زیادی از داده‌ها است، بنابراین بیشتر در دامنه‌هایی مانند گیم‌پلی و رباتیک کاربرد دارد که در آن‌ها داده‌های شبیه‌سازی شده به صورت آماده موجود هستند.

یادگیری تقویتی به طور گسترده در ساخت هوش مصنوعی برای انجام بازی‌های کامپیوتری مورد استفاده قرار می‌گیرد. آلفاگو زیرو اولین برنامه کامپیوتری است که قهرمان جهان در بازی چین باستانی گو را شکست داد. از دیگر بازی‌هایی که این هوش مصنوعی در آن‌ها پیروز شده می‌توان به بازی‌های آتاری و تخته نرد اشاره کرد.

در رباتیک و خودکارسازی صنعتی، یادگیری تقویتی برای قادرسازی ربات‌ها به ساخت سیستم‌های تطبیقی مؤثر برای خودشان که از تجربیات و رفتارهای خود می‌آموزند مورد استفاده قرار می‌گیرد. پژوهش‌های دیپ مایند در زمینه یادگیری عمیق تقویتی برای کنترل رباتیکی با استفاده از بازوهای مکانیکی با سیاست نامتقارن مثال خوبی از این مورد است.

از دیگر کاربردهای یادگیری تقویتی می‌توان به موتورهای خلاصه‌سازی متن، عامل‌های گفت‌وگو (متن، گفتار) که توانایی یادگیری از تعامل‌های انسانی و بهبود در طول زمان را دارند، یادگیری سیاست‌های درمان بهینه در بهداشت و درمان و عامل‌های مبتنی بر یادگیری تقویتی برای معاملات آنلاین سهام اشاره کرد.

محمدرضا دهقانی محمودآبادی جمعه 24 مرداد‌ماه سال 1399 ساعت 05:37 ب.ظ