IRE: Inductive Rule Extraction

استخراج قانون استقرائی

IRE: Inductive Rule Extraction

استخراج قانون استقرائی

انتخاب ویژگی

زمانی که در یک سازمان، موسسه یا هر شرکت دیگر، داده‌های کلان وارد بانک اطلاعاتی مجموعه می‌شوند؛ نرم‌افزارهای داده‌کاوی وارد عمل شده و با استفاده از الگوهای مشخصی که از قبل تعریف گردیده است؛

داده‌های اولیه را بر اساس ویژگی‌های مطلوب شناسایی کرده، داده‌های پرت و مزاحم را حذف می‌نمایند و الگو یا رابطه بین داده‌های باقی‌مانده را کشف می‌کنند. به‌این‌ترتیب با تحلیل، تفسیر و به نمایش گذاشتن یافته‌ها، دانش لازم برای تصمیم‌گیری‌ها، تراکنش‌ها و هر عملیات دیگر موردنیاز آن سیستم یا مجموعه فراهم می‌شود. می‌توان گفت که اصلی‌ترین مرحله، انتخاب ویژگی در داده کاوی است. در زیر مراحل داده‌کاوی آورده شده است.

هدف از انتخاب ویژگی در داده کاوی چیست؟

فرآیند انتخاب ویژگی، همان فرآیند کاهش تعداد داده‌های ورودی با هدف توسعه یک مدل پیش‌بینی است. روش‌های انتخاب ویژگی در داده کاوی، شامل ارزیابی رابطه بین هر متغیر ورودی و متغیر هدف با روش آمارگیری و انتخاب گروهی از داده‌ها که قوی‌ترین رابطه را با متغیر هدف دارند؛ می‌باشد. لازم به ذکر است که انتخاب معیارهای آماری به نوع داده متغیرهای ورودی و خروجی بستگی دارد. احتمالاً بپرسید که کاهش تعداد متغیرها چه مزیتی دارد؟ در پاسخ به این سؤال باید بگویم که هدف اصلی کاهش تعداد متغیرهای ورودی، کاهش هزینه محاسباتی مدل‌سازی و در برخی موارد بهبود عملکرد مدل مطلوب است.

تکنیک‌های انتخاب ویژگی

روش‌های انتخاب ویژگی در داده کاوی به دو دسته نظارتی و بدون نظارت تفکیک می‌شوند. تکنیک‌های نظارتی به‌عنوان پیش‌بینی کننده‌ها عمل کرده و تکنیک‌های بدون نظارت توصیف‌کننده هستند و شامل روش‌های خوشه‌بندی، اگوهای مکرر و غیرهمی‌شوند.

هرگاه نتایج احتمالی، در طول حذف عوامل پیش‌بینی مدل نادیده گرفته شد؛ بدانید که از تکنیک بدون نظارت برای داده کاوی استفاده‌شده است. بدون نظارت‌ها متغیرهای اضافی را با استفاده از همبستگی حذف می‌کنند اما نظارتی‌ها به سه زیرمجموعه بسته‌بندی یاWrapper، فیلتر و ذاتی یا Intrinsic تقسیم می‌شوند.

تکنیک نظارتی مبتنی بر فیلتر

روش‌های انتخاب ویژگی مبتنی بر فیلتر، ازمعیارهای آماری برای امتیاز دادن به همبستگی یا وابستگی بین متغیرهای ورودی و تعیین رابطه بین آن‌ها، استفاده می‌کنند تا آن‌ها را برای انتخاب مرتبط‌ترین ویژگی‌ها فیلتر نمایند. این معیارهای آماری باید بر اساس نوع داده متغیر ورودی و متغیر خروجی یا پاسخ با دقت انتخاب شوند؛ زیرا که انتخاب غلط معیارهای آماری می‌تواند ما را از رسیدن به دانش مطلوب تصمیم‌گیری، گمراه کند.

مشکل اصلی روش‌های نظارتی مبتنی بر فیلتر این است که گاهی دارای تعداد زیادی متغیر هستند. این متغیرها توسعه و آموزش مدل تصمیم‌گیری را کند کرده؛ به مقدار زیادی حافظه نیاز دارند و کیفیت عملکرد سیستم را پایین می‌آورند. بسیاری از مدل‌های پیش‌بینی کننده، مخصوصاً مدل‌هایی که مبتنی بر شیب‌های رگرسیون و بریدگی هستند؛ پارامترها را برای هر عبارت در مدل تخمین می‌زنند. به همین دلیل عدم قطعیت را به پیش‌بینی‌ها اضافه‌شده و اثربخشی کلی مدل را کاهش می‌دهد.

تکنیک نظارتی مبتنی بر بسته‌بندی یا Wrapper

در این روش یک جعبه سیاه به‌عنوان الگوریتم یادگیری و برای پیش‌بینی انتخاب می‌شود که داده‌های مؤثر را ارزیابی و دسته‌بندی نموده سپس به مدل معرفی می‌کند. روش‌های بسته‌بند کارایی بهتری نسبت به روش‌های فیلتر دارند زیرا مجموعه داده‌های خروجی این روش کمتر بوده و نیاز به حافظه کمتری دارد. بنابراین این روش نسبت به روش فیلترسازی داده‌ها کم‌هزینه خواهد بود.‌RFEها مثال بارزی از این روش‌ها هستند.

تکنیک نظارتی ذاتی یا Intrinsic

در این روش الگوریتم‌های یادگیری ماشین از قبل طراحی‌شده در طی فرایند آموزش وظیفه انتخاب ویژگی را به‌طور خودکار و به‌عنوان بخشی از یادگیری مدل انجام می‌دهند. الگوریتم‌هایی مانند مدل‌های رگرسیون لجستیک جریمه‌شده با Lasso و درخت تصمیم مثل جنگل تصادفی مثال‌هایی از الگوریتم‌هایی هستند که انتخاب خودکار ویژگی‌ها را در طول آموزش انجام می‌دهند. به‌این‌ترتیب که داده‌های ورودی پروژه را در یک فضای ویژگی با ابعاد پایین‌تر وارد کرده و عمل کاهش ابعاد را انجام می‌دهند. بنابراین روش‌های نظارتی ذاتی، در مقایسه با بسته‌بندها توانایی ثبت ارتباط بین متغیرها با هزینه‌های محاسباتی پایین‌تری خواهند داشت.

ترفندهای انتخاب ویژگی

برای انتخاب ویژگی در داده کاوی، ترفندهای متنوعی اعم از انواع الگوریتم‌های از پیش طراحی‌شده تا حتی همین داده‌های آماری وجود دارد که ویژگی‌های مؤثر را انتخاب کرده و سیستم یا مجموعه را به مدل مناسب وصل کند پس انواع ترفندها بررسی می‌شوند و ترفند مناسب انتخاب می‌گردد.

معیارهای آماری

استفاده از معیارهای آماری در روش‌های انتخاب ویژگی مؤثر می‌تواند نوع همبستگی بین متغیرهای ورودی و خروجی را به‌عنوان مبنایی برای انتخاب ویژگی فیلتر رایج استخراج کند. به‌این‌ترتیب انتخاب معیارهای آماری به‌شدت به انواع داده‌های متغیر بستگی دارد. متغیرهای ورودی رایج به شرح زیر در ادامه لیست شده است.

هرچه اطلاعات بیشتری در مورد نوع داده یک متغیر بدست آید؛ انتخاب یک معیار آماری مناسب برای روش انتخاب ویژگی مبتنی بر فیلتر آسان‌تر خواهد بود. برای درک بهتر آنچه گفته‌شده؛ دو دسته کلی عددی و طبقه‌بندی‌شده را در گروه‌های داده‌ای ورودی و خروجی بررسی می‌شود.

متغیرهای ورودی: متغیرهای ورودی به آن دسته از داده‌ها گفته می‌شود که به‌عنوان ورودی مدل ارائه‌شده و در مرحله انتخاب ویژگی باید اندازه آن‌ها کاهش یابد.

متغیرهای خروجی: متغیرهای خروجی یا متغیر پاسخ به آن دسته از داده‌ها گفته می‌شود که یک مدل برای پیش‌بینی آن‌ها در نظر گرفته‌ است. نوع متغیر پاسخ، نشان‌دهنده نوع چالش مدل پیش‌بینی کننده است. به‌عنوان‌مثال، یک متغیر خروجی طبقه‌بندی، مدل پیش‌بینی طبقه‌بندی را نشان داده و یک متغیر خروجی عددی، یک مدل پیش‌بینی کننده رگرسیون را انعکاس می‌دهد.