الگوریتمهای دسته بندی در مقابل الگوریتمهای خوشهبندی
در خوشهبندی، ایده پیشبینی کلاس هدف مانند طبقهبندی نیست، بلکه بیش از هر زمان دیگری تلاش میشود تا با درنظرگرفتن رضایتبخشترین شرایط، چیزهای مشابه را گروهبندی کنیم، همه عناصر یک گروه باید مشابه هم باشند و هیچ دو عنصر گروه نباید تفاوتی باهم داشته باشند.
نمونه موارد گروه
• گروهبندی اسناد با یک زبان مشابه (اسناد هر زبان مثلاً انگلیسی یا فرانسه هرکدام یک گروه را تشکیل میدهند.)
• دستهبندی مقالات خبری (مقالاتی از همان دسته خبری (ورزشی) یک گروه تشکیل میدهند.)
بیایید این مفهوم را با مثال گروهبندی جنسیتی بر اساس مثال طول مو بفهمیم. برای تعیین جنسیت میتوان از معیارهای مختلف تشابه برای دستهبندی جنسیتهای مرد و زن استفاده کرد. این امر را میتوان با یافتن شباهت بین دو طول مو و نگهداشتن آنها در یک گروه در صورت کم بودن شباهت (تفاوت طول مو کمتر) انجام داد. همین روند میتواند ادامه یابد تا زمانی که تمام طول موهای موجود بهدرستی به دودسته تقسیم شود
اصطلاحات پایه در الگوریتم های دسته بندی داده کاوی
الگوریتم دستهبند (Classifier): الگوریتمی که دادههای ورودی را به یک دسته خاص نگاشت میکند.
مدل طبقهبندی (Classification Model): یک مدل طبقهبندی سعی میکند از مقادیر ورودی ارائه شده بیاموزد و در نهایت طبق آموختههایش نتیجهگیری کند. همچنین برچسبها و ردههای کلاس را برای دادههای جدید پیشبینی میکند.
مشخصه (Feature): یک ویژگی فردی
طبقهبندی باینری (Binary Classification): طبقهبندی تنها دو نتیجه ممکن. بهعنوانمثال: طبقهبندی بر اساس جنسیت (مرد / زن)
طبقهبندی چندتایی (Multi-class Classification): طبقهبندی با بیش از دو کلاس. در طبقهبندی چند کلاسه، هر نمونه به یک و تنها یک برچسب هدف اختصاص مییابد. مثال: یک حیوان میتواند گربه یا سگ باشد اما نمیتواند هر دوتا در یکزمان باشد.
طبقهبندی چند برچسبی (Multi-label Classification): وظیفه طبقهبندی که در آن هر نمونه با مجموعهای از برچسبهای هدف (چند کلاس) همراه است. بهعنوانمثال: یک مقاله خبری میتواند در مورد ورزش، شخص و مکان باشد.
کاربردهای الگوریتمهای دسته بندی
• طبقهبندی هرزنامهها از طریق ایمیل
· پیشبینی میزان تمایل مشتریان بانک به بازپرداخت وام
• شناسایی تومورهای سرطانی.
• تحلیل احساسات فردی
• طبقهبندی داروها
• تشخیص نقاط کلیدی صورت
• تشخیص چهره افراد در ماشین در حال حرکت.
انواع الگوریتمهای دستهبندی
الگوریتمهای دستهبندی را میتوان بهطورکلی به صورتهای زیر دستهبندی کرد:
طبقهبندیکنندههای خطی
رگرسیون لجستیک
طبقهبندیکننده سادهلوح بیز
تشخیص خطی فیشر
الگوریتم پشتیبان ماشینهای برداری
الگوریتم حداقل مربعات (که از ماشینهای برداری پشتیبانی میکند.)
طبقهبندی درجه دوم چهارگانه (Quadratic)
تخمین کرنل
الگوریتم k- نزدیکترین همسایه
درخت تصمیم
جنگل های تصادفی
شبکههای عصبی
کوانتیزاسیون برداری یادگیری
نکته مهم: برخی از الگوریتمهای فوق در دستهبندیهای دیگر الگوریتمهای دادهکاوی نیز قرار میگیرند. مانند شبکههای عصبی که خود یک الگوریتم مستقل به شمار میآید.