سیستمهای دستهبندی پیشبینی برای رسیدگی به مشکلها تصمیمگیری تک و چندمرحلهای طراحیشدهاند. هدف به حداکثر رساندن کل جوایز تخفیف یافته بود که معمولاً بر اساس الگوریتمهای یادگیری تقویتی انجام میشد. مطالعات در مورد سایر سیستمهای دستهبندی یادگیری بسیاری از مشکلها تصمیمگیری متوالی در دنیای واقعی را نشان داد که در آن هدف ترجیحی حداکثر رساندن میانگین پاداشهای متوالی است.
در این مقاله اصلاحات مربوط به مؤلفه یادگیری پیشنهادشده است و به ما اجازه میدهد تا چنین مشکلهای را برطرف کنیم. سیستم اصلاحشده AACS2 (میانگین ACS2) نام دارد و روی سه مشکل چندمرحلهای آزمایش میشود.
آزمایشهای انجامشده نشان داد که سیستمهای دستهبندی پیشبینیشده با معیار پاداش میانگین سن میتوانند در محیطهای چندمرحلهای استفاده شوند. سیستم جدید AACS2 فقط به روشی محاسبه میشود که متغیر پاداش دستهبندی محاسبه شود. تفاوت آشکار بین معیار تخفیف در مناظر بازده تولیدشده از محیطهای آزمایش قابلمشاهده است. AACS2 میتواند یک منظره بازپرداخت متمایز با سطح بازدهی یکسان داشته باشد که بسیار شبیه به الگوریتم یادگیری R است.
با نگاهی دقیقتر همه الگوریتمها نمودارهای منظره بازپرداخت مرحلهای مانند را ایجاد میکنند اما هر یک از جفتهای خاص دولت و عمل در هنگام استفاده از ملاک پاداش بیشتر قابلتشخیص هستند. توضیح اینکه چرا عامل اصلاً به سمت هدف حرکت میکند را میتوان در این مورد یافت. با استفاده از بهترین تناسباندام دستهبندی کنندگان از مجموعه مسابقات بعدی میتواند بهترین عملکرد بعدی را پیدا کند. علاوه بر این نرخ همگرا شدن مقدار تخمین متوسط ρ برای متفاوت است. این امر ناشی از این واقعیت است که هنگام بهروزرسانی مقادیر حداکثر تناسباندام هر دو ست مطابقت در نظر گرفته میشود. بهروزرسانی باید در ابتدای هر آزمایش اکتشاف انجام شود. علاوه بر این واقعیت که مقدار مطلوب ρ مقدار بهینه نبوده است ممکن است ناشی از آن باشد استراتژی اکتشاف اتخاذشده است. خطمشی انتخابشده حریص الکترونیکی بود. ازآنجاکه متوسط پاداش برآورد شده فقط هنگام اجرای عمل حریص بهروز میشود تعداد اقدامات حریصانه ای که باید در طول آزمایش اکتشاف انجام شود نامشخص است. بعلاوه توزیع احتمال در صورت مشاهده حالت پاداش توسط نماینده ممکن است خیلی کم باشد تا بتواند میانگین پاداش برآورد شده را به مقدار مطلوب برساند. این در طول آزمایش مشاهده شد مقدار ρ بسیار به پارامتر e مورداستفاده وابسته بود. برای نتیجهگیری توجه بیشتر به تحقیقات زیر میتواند مفید باشد:
• عملکرد در محیطهای طولانیتر و پیچیدهتر
• تأثیر سیاستهای مختلف انتخاب اقدام یا ویژگیهای اولیه خوشبینانه
• تنظیم دقیق پارامتر و پارامتر برای برآورد بهینه متوسط پاداش
• تفاوت بین دو نسخه AACS2 ازنظر استفاده از تناسباندام از مجموعه مسابقات
برآورد در هر دو مورد بهخصوص در مرحله اولیه یادگیری متفاوت محاسبه میشود.
فایلpdf مقاله را از اینجا دانلود نمایید.