IRE: Inductive Rule Extraction

استخراج قانون استقرائی

IRE: Inductive Rule Extraction

استخراج قانون استقرائی

سیستم دسته‌بندی پیش‌بینی با معیار متوسط پاداش در چند مرحله گسسته شده

سیستم‌های دسته‌بندی پیش‌بینی برای رسیدگی به مشکل‌ها تصمیم‌گیری تک و چندمرحله‌ای طراحی‌شده‌اند. هدف به حداکثر رساندن کل جوایز تخفیف یافته بود که معمولاً بر اساس الگوریتم‌های یادگیری تقویتی انجام می‌شد. مطالعات در مورد سایر سیستم‌های دسته‌بندی یادگیری بسیاری از مشکل‌ها تصمیم‌گیری متوالی در دنیای واقعی را نشان داد که در آن هدف ترجیحی حداکثر رساندن میانگین پاداش‌های متوالی است.

در این مقاله اصلاحات مربوط به مؤلفه یادگیری پیشنهادشده است و به ما اجازه می‌دهد تا چنین مشکل‌های را برطرف کنیم. سیستم اصلاح‌شده AACS2 (میانگین ACS2) نام دارد و روی سه مشکل چندمرحله‌ای آزمایش می‌شود.

آزمایش‌های انجام‌شده نشان داد که سیستم‌های دسته‌بندی پیش‌بینی‌شده با معیار پاداش میانگین سن می‌توانند در محیط‌های چندمرحله‌ای استفاده شوند. سیستم جدید AACS2 فقط به روشی محاسبه می‌شود که متغیر پاداش دسته‌بندی محاسبه شود. تفاوت آشکار بین معیار تخفیف در مناظر بازده تولیدشده از محیط‌های آزمایش قابل‌مشاهده است. AACS2 می‌تواند یک منظره بازپرداخت متمایز با سطح بازدهی یکسان داشته باشد که بسیار شبیه به الگوریتم یادگیری R است.

با نگاهی دقیق‌تر همه الگوریتم‌ها نمودارهای منظره بازپرداخت مرحله‌ای مانند را ایجاد می‌کنند اما هر یک از جفت‌های خاص دولت و عمل در هنگام استفاده از ملاک پاداش بیشتر قابل‌تشخیص هستند. توضیح اینکه چرا عامل اصلاً به سمت هدف حرکت می‌کند را می‌توان در این مورد یافت. با استفاده از بهترین تناسب‌اندام دسته‌بندی کنندگان از مجموعه مسابقات بعدی می‌تواند بهترین عملکرد بعدی را پیدا کند. علاوه بر این نرخ همگرا شدن مقدار تخمین متوسط ρ برای متفاوت است. این امر ناشی از این واقعیت است که هنگام به‌روزرسانی مقادیر حداکثر تناسب‌اندام هر دو ست مطابقت در نظر گرفته می‌شود. به‌روزرسانی باید در ابتدای هر آزمایش اکتشاف انجام شود. علاوه بر این واقعیت که مقدار مطلوب ρ مقدار بهینه نبوده است ممکن است ناشی از آن باشد استراتژی اکتشاف اتخاذشده است. خط‌مشی انتخاب‌شده حریص الکترونیکی بود. ازآنجاکه متوسط پاداش برآورد شده فقط هنگام اجرای عمل حریص به‌روز می‌شود تعداد اقدامات حریصانه ای که باید در طول آزمایش اکتشاف انجام شود نامشخص است. بعلاوه توزیع احتمال در صورت مشاهده حالت پاداش توسط نماینده ممکن است خیلی کم باشد تا بتواند میانگین پاداش برآورد شده را به مقدار مطلوب برساند. این در طول آزمایش مشاهده شد مقدار ρ بسیار به پارامتر e مورداستفاده وابسته بود. برای نتیجه‌گیری توجه بیشتر به تحقیقات زیر می‌تواند مفید باشد:

• عملکرد در محیط‌های طولانی‌تر و پیچیده‌تر

• تأثیر سیاست‌های مختلف انتخاب اقدام یا ویژگی‌های اولیه خوش‌بینانه

• تنظیم دقیق پارامتر و پارامتر برای برآورد بهینه متوسط پاداش

• تفاوت بین دو نسخه AACS2 ازنظر استفاده از تناسب‌اندام از مجموعه مسابقات

برآورد در هر دو مورد به‌خصوص در مرحله اولیه یادگیری متفاوت محاسبه می‌شود.

فایلpdf مقاله را از اینجا دانلود نمایید.