زمانی که در یک سازمان، موسسه یا هر شرکت دیگر، دادههای کلان وارد بانک اطلاعاتی مجموعه میشوند؛ نرمافزارهای دادهکاوی وارد عمل شده و با استفاده از الگوهای مشخصی که از قبل تعریف گردیده است؛
هدف از انتخاب ویژگی در داده کاوی چیست؟
فرآیند انتخاب ویژگی، همان فرآیند کاهش تعداد دادههای ورودی با هدف توسعه یک مدل پیشبینی است. روشهای انتخاب ویژگی در داده کاوی، شامل ارزیابی رابطه بین هر متغیر ورودی و متغیر هدف با روش آمارگیری و انتخاب گروهی از دادهها که قویترین رابطه را با متغیر هدف دارند؛ میباشد. لازم به ذکر است که انتخاب معیارهای آماری به نوع داده متغیرهای ورودی و خروجی بستگی دارد. احتمالاً بپرسید که کاهش تعداد متغیرها چه مزیتی دارد؟ در پاسخ به این سؤال باید بگویم که هدف اصلی کاهش تعداد متغیرهای ورودی، کاهش هزینه محاسباتی مدلسازی و در برخی موارد بهبود عملکرد مدل مطلوب است.
تکنیکهای انتخاب ویژگی
روشهای انتخاب ویژگی در داده کاوی به دو دسته نظارتی و بدون نظارت تفکیک میشوند. تکنیکهای نظارتی بهعنوان پیشبینی کنندهها عمل کرده و تکنیکهای بدون نظارت توصیفکننده هستند و شامل روشهای خوشهبندی، اگوهای مکرر و غیرهمیشوند.
هرگاه نتایج احتمالی، در طول حذف عوامل پیشبینی مدل نادیده گرفته شد؛ بدانید که از تکنیک بدون نظارت برای داده کاوی استفادهشده است. بدون نظارتها متغیرهای اضافی را با استفاده از همبستگی حذف میکنند اما نظارتیها به سه زیرمجموعه بستهبندی یاWrapper، فیلتر و ذاتی یا Intrinsic تقسیم میشوند.
تکنیک نظارتی مبتنی بر فیلتر
روشهای انتخاب ویژگی مبتنی بر فیلتر، ازمعیارهای آماری برای امتیاز دادن به همبستگی یا وابستگی بین متغیرهای ورودی و تعیین رابطه بین آنها، استفاده میکنند تا آنها را برای انتخاب مرتبطترین ویژگیها فیلتر نمایند. این معیارهای آماری باید بر اساس نوع داده متغیر ورودی و متغیر خروجی یا پاسخ با دقت انتخاب شوند؛ زیرا که انتخاب غلط معیارهای آماری میتواند ما را از رسیدن به دانش مطلوب تصمیمگیری، گمراه کند.
مشکل اصلی روشهای نظارتی مبتنی بر فیلتر این است که گاهی دارای تعداد زیادی متغیر هستند. این متغیرها توسعه و آموزش مدل تصمیمگیری را کند کرده؛ به مقدار زیادی حافظه نیاز دارند و کیفیت عملکرد سیستم را پایین میآورند. بسیاری از مدلهای پیشبینی کننده، مخصوصاً مدلهایی که مبتنی بر شیبهای رگرسیون و بریدگی هستند؛ پارامترها را برای هر عبارت در مدل تخمین میزنند. به همین دلیل عدم قطعیت را به پیشبینیها اضافهشده و اثربخشی کلی مدل را کاهش میدهد.
تکنیک نظارتی مبتنی بر بستهبندی یا Wrapper
در این روش یک جعبه سیاه بهعنوان الگوریتم یادگیری و برای پیشبینی انتخاب میشود که دادههای مؤثر را ارزیابی و دستهبندی نموده سپس به مدل معرفی میکند. روشهای بستهبند کارایی بهتری نسبت به روشهای فیلتر دارند زیرا مجموعه دادههای خروجی این روش کمتر بوده و نیاز به حافظه کمتری دارد. بنابراین این روش نسبت به روش فیلترسازی دادهها کمهزینه خواهد بود.RFEها مثال بارزی از این روشها هستند.
تکنیک نظارتی ذاتی یا Intrinsic
در این روش الگوریتمهای یادگیری ماشین از قبل طراحیشده در طی فرایند آموزش وظیفه انتخاب ویژگی را بهطور خودکار و بهعنوان بخشی از یادگیری مدل انجام میدهند. الگوریتمهایی مانند مدلهای رگرسیون لجستیک جریمهشده با Lasso و درخت تصمیم مثل جنگل تصادفی مثالهایی از الگوریتمهایی هستند که انتخاب خودکار ویژگیها را در طول آموزش انجام میدهند. بهاینترتیب که دادههای ورودی پروژه را در یک فضای ویژگی با ابعاد پایینتر وارد کرده و عمل کاهش ابعاد را انجام میدهند. بنابراین روشهای نظارتی ذاتی، در مقایسه با بستهبندها توانایی ثبت ارتباط بین متغیرها با هزینههای محاسباتی پایینتری خواهند داشت.
ترفندهای انتخاب ویژگی
برای انتخاب ویژگی در داده کاوی، ترفندهای متنوعی اعم از انواع الگوریتمهای از پیش طراحیشده تا حتی همین دادههای آماری وجود دارد که ویژگیهای مؤثر را انتخاب کرده و سیستم یا مجموعه را به مدل مناسب وصل کند پس انواع ترفندها بررسی میشوند و ترفند مناسب انتخاب میگردد.
معیارهای آماری
استفاده از معیارهای آماری در روشهای انتخاب ویژگی مؤثر میتواند نوع همبستگی بین متغیرهای ورودی و خروجی را بهعنوان مبنایی برای انتخاب ویژگی فیلتر رایج استخراج کند. بهاینترتیب انتخاب معیارهای آماری بهشدت به انواع دادههای متغیر بستگی دارد. متغیرهای ورودی رایج به شرح زیر در ادامه لیست شده است.
هرچه اطلاعات بیشتری در مورد نوع داده یک متغیر بدست آید؛ انتخاب یک معیار آماری مناسب برای روش انتخاب ویژگی مبتنی بر فیلتر آسانتر خواهد بود. برای درک بهتر آنچه گفتهشده؛ دو دسته کلی عددی و طبقهبندیشده را در گروههای دادهای ورودی و خروجی بررسی میشود.
متغیرهای ورودی: متغیرهای ورودی به آن دسته از دادهها گفته میشود که بهعنوان ورودی مدل ارائهشده و در مرحله انتخاب ویژگی باید اندازه آنها کاهش یابد.
متغیرهای خروجی: متغیرهای خروجی یا متغیر پاسخ به آن دسته از دادهها گفته میشود که یک مدل برای پیشبینی آنها در نظر گرفته است. نوع متغیر پاسخ، نشاندهنده نوع چالش مدل پیشبینی کننده است. بهعنوانمثال، یک متغیر خروجی طبقهبندی، مدل پیشبینی طبقهبندی را نشان داده و یک متغیر خروجی عددی، یک مدل پیشبینی کننده رگرسیون را انعکاس میدهد.
خلاصه فرآیند عملیات، تکنیک، کاربرد