طی چند سال اخیر مجموعه دادههای متعددی با ابعاد بالا در اینترنت در دسترس قرار گرفتند. زیرا برای الگوریتمهای یادگیری ماشین سر و کار داشتن با حجم زیادی از ویژگیهای ورودی کاری دشوار است. در حال حاضر ابعاد مجموعه دادههای بنچمارک که از مخازن داده گوناگون در دسترس هستند به میلیونها عدد یا حتی بیشتر افزایش یافته است. در حقیقت تحلیلهایی که توسط پژوهشگران انجام شده حاکی از آن است که ۷ تا از ۱۱ مجموعه دادهای که در سال ۲۰۰۷ منتشر شدهاند دارای ابعادی بالغ بر میلیونها ویژگی بودهاند. برای مواجهه با مساله تعداد بالای ویژگیها روشهای کاهش ابعاد الزامی است و میتوانند به بهبود کارایی یادگیری کمک کنند.
اصطلاح ابعاد کلان برای اشاره به مشکل مذکور استفاده میشود و در قیاس با واژه کلان داده که با حجم نمونههای بالا سر و کار دارد ساخته شده است. روشهای کاهش ابعاد اغلب در دو دسته انتخاب ویژگی و استخراج ویژگی قرار دارند و هر یک از آنها دارای خصوصیات ویژه خود هستند. از یک سو روشهای استخراج ویژگی با ترکیب ویژگیهای اصلی به کاهش ابعاد دست مییابند. از این رو قادر به ساخت مجموعهای از ویژگیهای جدید هستند که معمولاً فشردهتر و دارای خاصیت متمایزکنندگی بیشتری هستند. این روشها در کاربردهایی مانند تحلیل تصویر، پردازش تصویر و بازیابی اطلاعات ترجیح داده میشوند زیرا در این موارد صحت مدل از تفسیرپذیری آن بیشتر حائز اهمیت است.
از سوی دیگر انتخاب ویژگی با حذف ویژگیهای غیر مرتبط و تکراری به کاهش ابعاد منجر میشود. انتخاب ویژگی به طور گسترده در کاربردهای گوناگون دادهکاوی مانند متنکاوی، تحلیل ژنتیک و پردازش دادههای حسگرها مورد استفاده قرار میگیرد. انتخاب ویژگی برای کاربردهایی که در آنها ویژگیهای اصلی برای تفسیر مدل و استخراج دانش مهم هستند بسیار کاربردپذیر است زیرا طی این فرآیند ویژگیهای اصلی مجموعه داده حفظ میشوند. در ادامه مبانی انتخاب ویژگی شرح داده خواهد شد.
انتخاب ویژگی را میتوان به عنوان فرآیند شناسایی ویژگیهای مرتبط و حذف ویژگیهای غیر مرتبط و تکراری با هدف مشاهده زیرمجموعهای از ویژگیها که مساله را به خوبی و با حداقل کاهش درجه کارایی تشریح میکنند تعریف کرد. این کار مزایای گوناگونی دارد که برخی از آنها در ادامه بیان شدهاند.
بهبود کارایی الگوریتمهای یادگیری ماشین
درک داده، کسب دانش درباره فرآیند و کمک به بصریسازی آن
کاهش داده کلی
محدود کردن نیازمندیهای ذخیرهسازی
کاهش هزینهها
کاهش مجموعه ویژگیها
ذخیرهسازی منابع در دور بعدی گردآوری داده یا در طول بهرهبرداری
سادگی و قابلیت استفاده از مدلهای سادهتر و کسب سرعت
با توجه به دلایل فوق در سناریوهای «تحلیل کلان داده» انتخاب ویژگی نقشی اساسی ایفا میکند.
برای تشخیص یک ویژگی مرتبط با مساله از این تعریف استفاده میشود: یک ویژگی مرتبط است اگر شامل اطلاعاتی پیرامون هدف باشد. به بیان رسمیتر جان و کوهاوی ویژگیها را به سه دسته جدا از هم تقسیم کردهاند که عبارتند از:
به شدت مرتبط
به طور ضعیف مرتبط
ویژگی غیرمرتبط
در رویکرد این پژوهشگران ارتباط ویژگی X به صورت یک دستهبندی بیزی ایدهآل تعریف میشود. ویژگی X هنگامی که حذف آن منجر به آسیب دیدن صحت پیشبینی دستهبندی بیزیی ایدهآل شود، به شدت مرتبط محسوب میشود. این ویژگی به طور ضعیف مرتبط نامیده میشود اگر به شدت مرتبط نباشد و یک زیرمجموعه از ویژگیهای S وجود داشته باشد به طوری که کارایی دستهبندی ایدهآل بیزی روی Sبدتر از کارایی S∪X باشد. یک ویژگی نامرتبط تعریف میشود اگر به شدت و به طور ضعیف مرتبط نباشد.
یک ویژگی معمولاً در صورت وجود همبستگی بین ویژگیها دارای افزونگی محسوب میشود. این مفهوم که دو ویژگی نسبت به هم دارای افزونگی هستند اگر مقادیر آنها کاملاً همبسته باشد توسط پژوهشگران زیادی پذیرفته شده اما در عین حال امکان دارد تشخیص افزونگی ویژگیها هنگامی که یک ویژگی با یک مجموعه از ویژگیها مرتبط است کار سادهای نباشد.
مطابق با تعریف ارائه شده توسط جان و کوهاوی یک ویژگی در صورتی دارای افزونگی است و در نتیجه باید حذف شود که به طور ضعیف مرتبط و دارای پوشش مارکوف درون مجموعه ویژگیهای کنونی باشد. از آنجا که ویژگیهای غیرمرتبط باید به هر سو حذف شوند، پاکسازی آنها بر اساس این تعریف انجام میشود. کل مجموعه ویژگی میتواند به طور مفهومی به پنج بخش مجزا تقسیم شود که عبارتند از:
ویژگیهای نامرتبط
ویژگیهای به طور ضعیف مرتبط
ویژگیهای دارای افزونگی
ویژگیهای به طور ضعیف مرتبط ولی فاقد افزونگی
ویژگیهای به شدت قدرتمند
لازم به ذکر است که مجموعه بهینه حاوی همه ویژگیهای موجود در دو بخشهای انتهایی میشود.
روشهای انتخاب ویژگی به دو دسته کلی ارزیابی فردی و ارزیابی زیرمجموعهها تقسیم میشوند. ارزیابی تکی با عنوان رتبهبندی ویژگیها شناخته شده و ویژگیهای فردی را با تخصیص دادن وزن به آنها مطابق درجه ارتباطشان ارزیابی میکند. از سوی دیگر ارزیابی زیرمجموعهها یک زیرمجموعه از ویژگیهای کاندید را براساس یک استراتژی جستوجوی خاص فراهم میکند.
هر زیرمجموعه کاندید با استفاده از یک سنجه مشخص ارزیابی و با بهترینهای پیشین با توجه به این سنجه مقایسه میشود. در حالیکه ارزیابی فردی از حذف ویژگیهای دارای افزونگی به دلیل آنکه احتمال دارد ویژگیهای دارای افزونگی رتبهبندی مشابهی داشته باشند ناتوان است رویکرد ارزیابی زیرمجموعهها میتواند افزونگی ویژگیها را با ارتباط ویژگیها مدیریت کند.
اگرچه روشهای ارائه شده در این چارچوب دارای مشکلات اجتنابناپذیری هستند که به دلیل جستوجو در سراسر زیر مجموعههای ویژگی مورد نیاز در مرحله ساخت زیرمجموعه به وقوع میپیوندد و بنابراین هر دو روش انتخاب ویژگی بیان شده نیازمند مطالعات بیشتری هستند. در کنار این دستهبندی سه رویکرد کلی انتخاب ویژگی با توجه به ارتباط بین الگوریتمهای انتخاب ویژگی و روش یادگیری استقرایی برای استنتاج یک مدل مورد استفاده قرار میگیرند. که این سه موارد در بصورت ذیل بیان شدهاند:
بر ویژگیهای کلی مجموعه داده آموزش تکیه دارند و فرآیند انتخاب ویژگی را به عنوان یک گام پیش پردازش با استقلال از الگوریتم استقرایی انجام میدهند. مزیت این مدلها هزینه محاسباتی پایین و توانایی تعمیم خوب آنها محسوب میشود.
شامل یک الگوریتم یادگیری به عنوان جعبه سیاه هستند و از کارایی پیشبینی آن برای ارزیابی مفید بودن زیرمجموعهای از متغیرها استفاده میکنند. به عبارت دیگر الگوریتم انتخاب ویژگی از روش یادگیری به عنوان یک زیرمجموعه با بار محاسباتی استفاده میکند که از فراخوانی الگوریتم برای ارزیابی هر زیرمجموعه از ویژگیها نشات میگیرد. با این حال این تعامل با دستهبند منجر به نتایج کارایی بهتری نسبت به فیلترها میشود.
انتخاب ویژگی را در فرآیند آموزش انجام میدهند و معمولاً برای ماشینهای یادگیری خاصی مورد استفاده قرار میگیرند. در این روشها جستوجو برای یک زیرمجموعه بهینه از ویژگیها در مرحله ساخت دستهبند انجام میشود و میتوان آن را به عنوان جستوجویی در فضای ترکیبی از زیر مجموعهها و فرضیهها دید. این روشها قادر به ثبت وابستگیها با هزینههای محاسباتی پایینتر نسبت به بستهبندها هستند.
بسیاری از پژوهشگران توافق دارند که بهترین روش به صورت مطلق برای انتخاب ویژگی وجود ندارد و از این رو تلاشهای آنها بر انتخاب روشی متمرکز شده که برای یک مساله مشخص بهتر عمل میکند. روشهای گوناگونی برای مواجهه با مجموعه دادههای کلان مقیاس وجود دارد که اهمیت انتخاب ویژگی در آنها واقعیتی غیر قابل انکار است زیرا منجر به کمینه کردن زمان آموزش و حافظه تخصیص داده شده با حفظ صحت نتایج میشود. با این حال به یاد داشتن این امر حائز اهمیت است که بیشتر روشهای انتخاب ویژگی از کارایی مدل یاد گرفته شده به عنوان بخشی از فرآیند انتخاب استفاده میکنند.
در حقیقت از سه دسته بیان شده در بالا تنها فیلترها مستقل از الگوریتم هستند. این خصوصیت موجب میشود که فیلترها به لحاظ محاسباتی ساده، سریع و همچنین قادر به مدیریت مجموعه دادههای کلان مقیاس باشند. اغلب فیلترها تک متغیره هستند یعنی هر ویژگی را مستقل از سایر ویژگیها در نظر میگیرند و این امر میتواند منجر به غلبه بر روشهای چند متغیره شود که نیازمند منابع محاسباتی بیشتر هستند.
عملیات عبارت است از خلق ویژگیهای جدیدی که بتوانند در کنار سایر ویژگیهای پیشین اطلاعات مهم موجود در یک مجموعه داده را مؤثرتر و کاملتر از ویژگیهای اولیه نمایش دهند. به طور کلی سه روش مختلف برای خلق ویژگیها وجود دارند که عبارتند از:
در این روش ویژگیهایی از داده اولیه که معمولاً یک داده با ماهیت مالتی مدیایی است، استخراج میشوند. این استخراج با توجه به طبیعت مسأله مورد پردازش صورت میپذیرد. معمولاً کاربرد استخراج ویژگی در مواردی است که قصد جمع آوری اطلاعات از یک ورودی چندرسانهای از جمله تصویر، صدا و فیلم را داریم. به عنوان مثال از یک تصویر اعدادی که بیانگر معانی خاصی هستند، واکشی خواهند شد. یک مثال دقیقتر میتواند تشخیص هویت از روی تصویر چهره افراد باشد. در این مثال فاصله بین چشمها میتواند یک ویژگی مهم باشد که میبایست از تصویر هر شخص از هر رکورد استخراج شود.
در این روش با ترکیب کردن ویژگیها، ویژگیهای جدیدی ایجاد میشوند که بار اطلاعاتی بیشتری دارند. به عنوان مثال در رکوردهای بیماران دیابتی یک بیمارستان، میتوانیم یک ویژگی جدید بسازیم که نرخ فراوانی بیماران دیابتی در استان محل زندگی بیمار را نشان بدهد. این ویژگی از تقسیم تعداد بیماران دیابتی استان محل زندگی بیمار به کل بیماران دیابتی کشور محاسبه میشود. ممکن است این ویژگی جدید بتواند نظم حاکم بر بیماران دیابتی را به نحو بهتری نشان داده و دقت نهایی دسته بندی را برای این بیماران افزایش دهد. خلق ویژگی از این طریق نسبت به روش استخراج ویژگی سادهتر است. چرا که در این روش نیازی به داشتن دانش از مسأله مورد کاوش نداریم. ولی روش ساخت ویژگی به دلیل افزایش همبستگی مجموعه ویژگیهای مسأله نسبت به روش استخراج ویژگی ضعیفتر میباشد.
در صورتی که از عملیات تبدیل داده استفاده نماییم و ویژگی تبدیل یافته را به عنوان یک ویژگی جدید به مجموعه ویژگیهای قبلی اضافه کنیم (ویژگی تبدیل شده را حذف ننماییم) در این صورت یک ویژگی جدید خلق کردهایم. به هر حال باید توجه کنیم که خلق ویژگی از این طریق منجر به تولید ویژگی میشود که همبستگی بسیار بالایی را با ویژگیهای قبلی خواهد داشت. این روش خلق ویژگی حتی از روش ساخت ویژگی نیز ضعیفتر است. زیرا میزان همبستگی ویژگی خلق شده با ویژگی تبدیل یافته بسیار بالاتر از ویژگی است که در روش ساخت ویژگی تولید میشود. دلیل آن هم کاملاً روشن است چرا که در روش ساخت ویژگی از مقادیر، چندین رکورد در ساخت ویژگی جدید مورد استفاده قرار میگیرند. در حالی که در روش تبدیل ویژگی تنها از مقادیر ویژگیهای یک رکورد که مربوط به یک شیء مشخص است بهره برداری میشود. بدیهی است که همبستگی میان ویژگیهای یک رکورد بسیار بیشتر از همبستگی میان یک رکورد بسیار بیشتر از همبستگی میان ویژگیهای چندین رکورد است.
[1]. Kononenko, I., Estimating attributes: Analysis and extension of RELIEF. In: Proceedings of European Conference on Machine Learning, 171–182, 1994.
[2]. Segen, J., Feature selection and constructive inference. In: Proceedings of Seventh International Conference on Pattern Recognition, 1344–1346, 1984.
[3]. Xu, L., Yan, P. and Chang, T., Best first strategy for feature selection. In: Proceedings of Ninth International Conference on Pattern Recognition, 706–708, 1988.
[4]. Kira, K. and Rendell, L.A., The feature selection problem: Traditional methods and a new algorithm. In: Proceedings of Ninth National Conference on Artificial Intelligence, 129–134, 1992.