IRE: Inductive Rule Extraction

استخراج قانون استقرائی

IRE: Inductive Rule Extraction

استخراج قانون استقرائی

بایاس و واریانس

بایاس (Bias) به فاصله بین مقدار پیش‌بینی شده با مقدار واقعی اشاره دارد. در حالتی که بایاس زیاد است، به‌ احتمال زیاد، پیش‌بینی‌ها در یک مسیر دور از مقادیر واقعی، تغییر جهت داده است. واریانس (Variance) توصیف می‌کند که مقادیر پیش‌بینی شده چه میزان پراکنده هستند. تفاوت بایاس و واریانس با تحلیل تصویر زیر بهتر درک خواهند شد.

هدف‌های تیراندازی، آن‌طور که در شکل بالا، دیده می‌شود، نمودارهای بصری مورداستفاده در یادگیری ماشین نیستند، ولی به بررسی تفاوت بایاس و واریانس کمک می‌کنند. تصور کنید که مرکز هدف یا خال وسط، مقدار واقعی مدل را به بهترین شکل پیش‌بینی می‌کند. نقاط دیگر نشان‌دهنده پیش‌بینی‌های دیگر مدل بر اساس داده‌های آموزشی است. در برخی حالت‌های خاص که نقاط به شکل متراکمی نزدیک به وسط هدف هستند، اطمینان می‌دهد که پیش‌بینی‌های مدل به داده‌های واقعی نزدیک هستند. هرچقدر که نقاط از مرکز، فاصله بیشتری می‌گیرند، بایاس بیشتر شده و توانایی کلی مدل در پیش‌بینی ضعیف‌تر می‌شود.

شکل اول (سمت چپ ردیف اول)، تفاوت بایاس و واریانس را با مثالی از بایاس کم و واریانس کم نشان می دهد. بایاس کم است به‌این‌علت که نقاط برخورد کرده در نزدیکی مرکز هستند و واریانس کم است به‌این‌علت که نقاط به‌صورت متراکم در یک محل قرار گرفته‌اند.

شکل دوم (سمت راست ردیف اول)، یک حالت از بایاس کم و واریانس بالا را نشان می‌دهد. نقاط به مرکز نزدیک هستند (به‌اندازه مثال قبلی به مرکز هدف نزدیک نیستند) و در نتیجه بایاس به طور نسبی کم است. بااین‌حال، این بار واریانس بالا است. چون نقاط برخورد کرده نسبت به یکدیگر پراکنده هستند.

شکل سوم (سمت چپ ردیف دوم)، تفاوت بایاس و واریانس را با بایاس بالا و واریانس پایین می توان دید.

تفاوت بایاس و واریانس در شکل چهارم (سمت راست ردیف دوم)، با بایاس بالا و واریانس بالا مشخص شده است.

در حالت ایده‌آل، واریانس کم و بایاس کم شرایط مناسبی است. ولی در واقعیت معمولاً یک حد وسطی بین بایاس بهینه و واریانس وجود دارد. درست است که بایاس و واریانس هر دو باعث خطا می‌شوند ولی هدف اصلی کمینه کردن خطای پیش‌بینی‌ها است – نه کمینه‌سازی خطای بایاس و واریانس.

شکل بالا، پیچیدگی (Complexity) مدل بر اساس خطای پیش‌بینی را نشان می‌دهد. در این شکل، دو خط از چپ به راست کشیده شده‌اند. خط بالایی نشان‌دهنده‌ی داده آزمایشی و خط پایینی نشان‌دهندی داده آموزشی است. از سمت چپ، هر دو خط، به علت واریانس کم و بایاس بالا از یک مقدار با خطای پیش‌بینی بالا شروع می‌کنند. همین‌طور که از چپ به راست حرکت می‌کنند، شرایط برعکس می‌شود: واریانس بالا و بایاس کم. این شرایط باعث خطای پیش‌بینی کم برای داده‌های آموزشی و خطای پیش‌بینی بالا برای داده آزمایشی می‌شود. در وسط نمودار، تعادلی بهینه برای خطای پیش‌بینی، بین داده‌های آموزشی و آزمایشی وجود دارد. این یک حالت معمول از مصالحه (Trade-Off) بین بایاس و واریانس است.