IRE: Inductive Rule Extraction

استخراج قانون استقرائی

IRE: Inductive Rule Extraction

استخراج قانون استقرائی

ویژگی و انتخاب ویژگی

طی چند سال اخیر مجموعه داده‌های متعددی با ابعاد بالا در اینترنت در دسترس قرار گرفتند. زیرا برای الگوریتم‌های یادگیری ماشین سر و کار داشتن با حجم زیادی از ویژگی‌های ورودی کاری دشوار است. در حال حاضر ابعاد مجموعه داده‌های بنچ‌مارک که از مخازن داده گوناگون در دسترس هستند به میلیون‌ها عدد یا حتی بیشتر افزایش یافته است. در حقیقت تحلیل‌هایی که توسط پژوهشگران انجام شده حاکی از آن است که ۷ تا از ۱۱ مجموعه داده‌ای که در سال ۲۰۰۷ منتشر شده‌اند دارای ابعادی بالغ بر میلیون‌ها ویژگی بوده‌اند. برای مواجهه با مساله تعداد بالای ویژگی‌ها روش‌های کاهش ابعاد الزامی است و می‌توانند به بهبود کارایی یادگیری کمک کنند.

اصطلاح ابعاد کلان برای اشاره به مشکل مذکور استفاده می‌شود و در قیاس با واژه کلان داده که با حجم نمونه‌های بالا سر و کار دارد ساخته شده است. روش‌های کاهش ابعاد اغلب در دو دسته انتخاب ویژگی و استخراج ویژگی قرار دارند و هر یک از آن‌ها دارای خصوصیات ویژه خود هستند. از یک سو روش‌های استخراج ویژگی با ترکیب ویژگی‌های اصلی به کاهش ابعاد دست می‌یابند. از این رو قادر به ساخت مجموعه‌ای از ویژگی‌های جدید هستند که معمولاً فشرده‌تر و دارای خاصیت متمایزکنندگی بیشتری هستند. این روش‌ها در کاربردهایی مانند تحلیل تصویر، پردازش تصویر و بازیابی اطلاعات ترجیح داده می‌شوند زیرا در این موارد صحت مدل از تفسیرپذیری آن بیشتر حائز اهمیت است.

از سوی دیگر انتخاب ویژگی با حذف ویژگی‌های غیر مرتبط و تکراری به کاهش ابعاد منجر می‌شود. انتخاب ویژگی به طور گسترده در کاربردهای گوناگون داده‌کاوی مانند متن‌کاوی، تحلیل ژنتیک و پردازش داده‌های حسگرها مورد استفاده قرار می‌گیرد. انتخاب ویژگی برای کاربردهایی که در آن‌ها ویژگی‌های اصلی برای تفسیر مدل و استخراج دانش مهم هستند بسیار کاربردپذیر است زیرا طی این فرآیند ویژگی‌های اصلی مجموعه داده حفظ می‌شوند. در ادامه مبانی انتخاب ویژگی شرح داده خواهد شد.

انتخاب ویژگی

انتخاب ویژگی را می‌توان به عنوان فرآیند شناسایی ویژگی‌های مرتبط و حذف ویژگی‌های غیر مرتبط و تکراری با هدف مشاهده زیرمجموعه‌ای از ویژگی‌ها که مساله را به خوبی و با حداقل کاهش درجه کارایی تشریح می‌کنند تعریف کرد. این کار مزایای گوناگونی دارد که برخی از آن‌ها در ادامه بیان شده‌اند.

بهبود کارایی الگوریتم‌های یادگیری ماشین

درک داده، کسب دانش درباره فرآیند و کمک به بصری‌سازی آن

کاهش داده کلی

محدود کردن نیازمندی‌های ذخیره‌سازی

کاهش هزینه‌ها

کاهش مجموعه ویژگی‌ها

ذخیره‌سازی منابع در دور بعدی گردآوری داده یا در طول بهره‌برداری

سادگی و قابلیت استفاده از مدل‌های ساده‌تر و کسب سرعت

با توجه به دلایل فوق در سناریوهای «تحلیل کلان داده» انتخاب ویژگی نقشی اساسی ایفا می‌کند.

ویژگی مرتبط

برای تشخیص یک ویژگی مرتبط با مساله از این تعریف استفاده می‌شود: یک ویژگی مرتبط است اگر شامل اطلاعاتی پیرامون هدف باشد. به بیان رسمی‌تر جان و کوهاوی ویژگی‌ها را به سه دسته جدا از هم تقسیم کرده‌اند که عبارتند از:

به شدت مرتبط

به طور ضعیف مرتبط

ویژگی غیرمرتبط

در رویکرد این پژوهشگران ارتباط ویژگی X به صورت یک دسته‌بندی بیزی ایده‌آل تعریف می‌شود. ویژگی X هنگامی که حذف آن منجر به آسیب دیدن صحت پیش‌بینی دسته‌بندی بیزیی ایده‌آل شود، به شدت مرتبط محسوب می‌شود. این ویژگی به طور ضعیف مرتبط نامیده می‌شود اگر به شدت مرتبط نباشد و یک زیرمجموعه از ویژگی‌های S وجود داشته باشد به طوری که کارایی دسته‌بندی ایده‌آل بیزی روی Sبدتر از کارایی S∪X باشد. یک ویژگی نامرتبط تعریف می‌شود اگر به شدت و به طور ضعیف مرتبط نباشد.

افزودن ویژگی

یک ویژگی معمولاً در صورت وجود همبستگی بین ویژگی‌ها دارای افزونگی محسوب می‌شود. این مفهوم که دو ویژگی نسبت به هم دارای افزونگی هستند اگر مقادیر آن‌ها کاملاً همبسته باشد توسط پژوهشگران زیادی پذیرفته شده اما در عین حال امکان دارد تشخیص افزونگی ویژگی‌ها هنگامی که یک ویژگی با یک مجموعه از ویژگی‌ها مرتبط است کار ساده‌ای نباشد.

مطابق با تعریف ارائه شده توسط جان و کوهاوی یک ویژگی در صورتی دارای افزونگی است و در نتیجه باید حذف شود که به طور ضعیف مرتبط و دارای پوشش مارکوف درون مجموعه ویژگی‌های کنونی باشد. از آنجا که ویژگی‌های غیرمرتبط باید به هر سو حذف شوند، پاک‌سازی آن‌ها بر اساس این تعریف انجام می‌شود. کل مجموعه ویژگی می‌تواند به طور مفهومی به پنج بخش مجزا تقسیم شود که عبارتند از:

ویژگی‌های نامرتبط

ویژگی‌های به طور ضعیف مرتبط

ویژگی‌های دارای افزونگی

ویژگی‌های به طور ضعیف مرتبط ولی فاقد افزونگی

ویژگی‌های به شدت قدرتمند

لازم به ذکر است که مجموعه بهینه حاوی همه ویژگی‌های موجود در دو بخش‌های انتهایی می‌شود.

روش‌های انتخاب ویژگی

روش‌های انتخاب ویژگی به دو دسته کلی ارزیابی فردی و ارزیابی زیرمجموعه‌ها تقسیم می‌شوند. ارزیابی تکی با عنوان رتبه‌بندی ویژگی‌ها شناخته شده و ویژگی‌های فردی را با تخصیص دادن وزن به آن‌ها مطابق درجه ارتباطشان ارزیابی می‌کند. از سوی دیگر ارزیابی زیرمجموعه‌ها یک زیرمجموعه از ویژگی‌های کاندید را براساس یک استراتژی جست‌وجوی خاص فراهم می‌کند.

هر زیرمجموعه کاندید با استفاده از یک سنجه مشخص ارزیابی و با بهترین‌های پیشین با توجه به این سنجه مقایسه می‌شود. در حالیکه ارزیابی فردی از حذف ویژگی‌های دارای افزونگی به دلیل آنکه احتمال دارد ویژگی‌های دارای افزونگی رتبه‌بندی مشابهی داشته باشند ناتوان است رویکرد ارزیابی زیرمجموعه‌ها می‌تواند افزونگی ویژگی‌ها را با ارتباط ویژگی‌ها مدیریت کند.

اگرچه روش‌های ارائه شده در این چارچوب دارای مشکلات اجتناب‌ناپذیری هستند که به دلیل جست‌وجو در سراسر زیر مجموعه‌های ویژگی مورد نیاز در مرحله ساخت زیرمجموعه به وقوع می‌پیوندد و بنابراین هر دو روش انتخاب ویژگی بیان شده نیازمند مطالعات بیشتری هستند. در کنار این دسته‌بندی سه رویکرد کلی انتخاب ویژگی با توجه به ارتباط بین الگوریتم‌های انتخاب ویژگی و روش یادگیری استقرایی برای استنتاج یک مدل مورد استفاده قرار می‌گیرند. که این سه موارد در بصورت ذیل بیان شدهاند:

فیلترها

بر ویژگی‌های کلی مجموعه داده آموزش تکیه دارند و فرآیند انتخاب ویژگی را به عنوان یک گام پیش پردازش با استقلال از الگوریتم استقرایی انجام می‌دهند. مزیت این مدل‌ها هزینه محاسباتی پایین و توانایی تعمیم خوب آن‌ها محسوب می‌شود.

بسته‌بندها

شامل یک الگوریتم یادگیری به عنوان جعبه سیاه هستند و از کارایی پیش‌بینی آن برای ارزیابی مفید بودن زیرمجموعه‌ای از متغیرها استفاده می‌کنند. به عبارت دیگر الگوریتم انتخاب ویژگی از روش یادگیری به عنوان یک زیرمجموعه با بار محاسباتی استفاده می‌کند که از فراخوانی الگوریتم برای ارزیابی هر زیرمجموعه از ویژگی‌ها نشات می‌گیرد. با این حال این تعامل با دسته‌بند منجر به نتایج کارایی بهتری نسبت به فیلترها می‌شود.

روش‌های توکار

انتخاب ویژگی را در فرآیند آموزش انجام می‌دهند و معمولاً برای ماشین‌های یادگیری خاصی مورد استفاده قرار می‌گیرند. در این روش‌ها جست‌وجو برای یک زیرمجموعه بهینه از ویژگی‌ها در مرحله ساخت دسته‌بند انجام می‌شود و می‌توان آن را به عنوان جست‌وجویی در فضای ترکیبی از زیر مجموعه‌ها و فرضیه‌ها دید. این روش‌ها قادر به ثبت وابستگی‌ها با هزینه‌های محاسباتی پایین‌تر نسبت به بسته‌بندها هستند.

بسیاری از پژوهشگران توافق دارند که بهترین روش به صورت مطلق برای انتخاب ویژگی وجود ندارد و از این رو تلاش‌های آن‌ها بر انتخاب روشی متمرکز شده که برای یک مساله مشخص بهتر عمل می‌کند. روش‌های گوناگونی برای مواجهه با مجموعه داده‌های کلان مقیاس وجود دارد که اهمیت انتخاب ویژگی در آن‌ها واقعیتی غیر قابل انکار است زیرا منجر به کمینه کردن زمان آموزش و حافظه تخصیص داده شده با حفظ صحت نتایج می‌شود. با این حال به یاد داشتن این امر حائز اهمیت است که بیشتر روش‌های انتخاب ویژگی از کارایی مدل یاد گرفته شده به عنوان بخشی از فرآیند انتخاب استفاده می‌کنند.

در حقیقت از سه دسته بیان شده در بالا تنها فیلترها مستقل از الگوریتم هستند. این خصوصیت موجب می‌شود که فیلترها به لحاظ محاسباتی ساده، سریع و همچنین قادر به مدیریت مجموعه داده‌های کلان مقیاس باشند. اغلب فیلترها تک متغیره هستند یعنی هر ویژگی را مستقل از سایر ویژگی‌ها در نظر می‌گیرند و این امر می‌تواند منجر به غلبه بر روش‌های چند متغیره‌ شود که نیازمند منابع محاسباتی بیشتر هستند.

خلق ویژگی

عملیات عبارت است از خلق ویژگی‌های جدیدی که بتوانند در کنار سایر ویژگی‌های پیشین اطلاعات مهم موجود در یک مجموعه داده را مؤثرتر و کامل‌تر از ویژگیهای اولیه نمایش دهند. به طور کلی سه روش مختلف برای خلق ویژگی‌ها وجود دارند که عبارتند از:

استخراج ویژگی

در این روش ویژگی‌هایی از داده اولیه که معمولاً یک داده با ماهیت مالتی مدیایی است، استخراج می‌شوند. این استخراج با توجه به طبیعت مسأله مورد پردازش صورت می‌پذیرد. معمولاً کاربرد استخراج ویژگی در مواردی است که قصد جمع آوری اطلاعات از یک ورودی چندرسانه‌ای از جمله تصویر، صدا و فیلم را داریم. به عنوان مثال از یک تصویر اعدادی که بیانگر معانی خاصی هستند، واکشی خواهند شد. یک مثال دقیق‌تر می‌تواند تشخیص هویت از روی تصویر چهره افراد باشد. در این مثال فاصله بین چشم‌ها می‌تواند یک ویژگی مهم باشد که می‌بایست از تصویر هر شخص از هر رکورد استخراج شود.

ساخت ویژگی

در این روش با ترکیب کردن ویژگی‌ها، ویژگی‌های جدیدی ایجاد می‌شوند که بار اطلاعاتی بیشتری دارند. به عنوان مثال در رکوردهای بیماران دیابتی یک بیمارستان، می‌توانیم یک ویژگی جدید بسازیم که نرخ فراوانی بیماران دیابتی در استان محل زندگی بیمار را نشان بدهد. این ویژگی از تقسیم تعداد بیماران دیابتی استان محل زندگی بیمار به کل بیماران دیابتی کشور محاسبه می‌شود. ممکن است این ویژگی جدید بتواند نظم حاکم بر بیماران دیابتی را به نحو بهتری نشان داده و دقت نهایی دسته بندی را برای این بیماران افزایش دهد. خلق ویژگی از این طریق نسبت به روش استخراج ویژگی ساده‌تر است. چرا که در این روش نیازی به داشتن دانش از مسأله مورد کاوش نداریم. ولی روش ساخت ویژگی به دلیل افزایش همبستگی مجموعه ویژگیهای مسأله نسبت به روش استخراج ویژگی ضعیف‌تر می‌باشد.

تبدیل داده

در صورتی که از عملیات تبدیل داده استفاده نماییم و ویژگی تبدیل یافته را به عنوان یک ویژگی جدید به مجموعه ویژگی‌های قبلی اضافه کنیم (ویژگی تبدیل شده را حذف ننماییم) در این صورت یک ویژگی جدید خلق کرده‌ایم. به هر حال باید توجه کنیم که خلق ویژگی از این طریق منجر به تولید ویژگی می‌شود که همبستگی بسیار بالایی را با ویژگی‌های قبلی خواهد داشت. این روش خلق ویژگی حتی از روش ساخت ویژگی نیز ضعیف‌تر است. زیرا میزان همبستگی ویژگی خلق شده با ویژگی تبدیل یافته بسیار بالاتر از ویژگی است که در روش ساخت ویژگی تولید می‌شود. دلیل آن هم کاملاً روشن است چرا که در روش ساخت ویژگی از مقادیر، چندین رکورد در ساخت ویژگی جدید مورد استفاده قرار می‌گیرند. در حالی که در روش تبدیل ویژگی تنها از مقادیر ویژگی‌های یک رکورد که مربوط به یک شیء مشخص است بهره برداری می‌شود. بدیهی است که همبستگی میان ویژگی‌های یک رکورد بسیار بیشتر از همبستگی میان یک رکورد بسیار بیشتر از همبستگی میان ویژگی‌های چندین رکورد است.

[1]. Kononenko, I., Estimating attributes: Analysis and extension of RELIEF. In: Proceedings of European Conference on Machine Learning, 171–182, 1994.

[2]. Segen, J., Feature selection and constructive inference. In: Proceedings of Seventh International Conference on Pattern Recognition, 1344–1346, 1984.

[3]. Xu, L., Yan, P. and Chang, T., Best first strategy for feature selection. In: Proceedings of Ninth International Conference on Pattern Recognition, 706–708, 1988.

[4]. Kira, K. and Rendell, L.A., The feature selection problem: Traditional methods and a new algorithm. In: Proceedings of Ninth National Conference on Artificial Intelligence, 129–134, 1992.