ش | ی | د | س | چ | پ | ج |
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 |
خوشهبندی یک تکنیک یادگیری است که شامل گروه بندی نقاط داده میشود. با توجه به مجموعه ای از نقاط داده میتوان از یک الگوریتم خوشهبندی برای طبقهبندی هر نقطه داده به یک گروه خاص استفاده کرد.
در علم داده با دیدن اینکه دادههای ما در چه گروههایی هنگام استفاده از الگوریتم خوشهبندی قرار میگیرند میتوانیم اطلاعات ارزشمندی بدست آوریم. الگوریتم خوشهبندی محبوب مورد بررسی قرار داده میشود که متخصصین علم داده باید بدانند.
الگوریتم K-Means
K-Means شاید شناخته شدهترین الگوریتم خوشهبندی باشد. در بسیاری از کلاسهای علوم داده مقدماتی و کلاسهای یادگیری ماشین تدریس میشود. درک و اجرای کد آسان است.
برای شروع ابتدا تعداد خوشه (گروه) را برای استفاده انتخاب میکنیم و به طور تصادفی نقاط مربوطه آنها را در فضا قرار میدهیم. سپس هر نقطه داده در گروهی قرار میگیرد که به نقاط تصادفی نزدیکتر است بر اساس این خوشهبندی ما مرکز هر خوشه را به عنوان نقطه جدید انتخاب میکنیم و مرحله قبل را برای خوشهبندی جدید انجام میدهیم.
این مراحل را برای تعداد مشخصی یا تا زمانی که مراکز گروه بین تکرار تغییر چندانی نکنند. تکرار کنید. همچنین میتوانید چند مرتبه مراکز گروه را به طور تصادفی مقداردهی کنید.
K-Means این مزیت را دارد که بسیار سریع است زیرا تنها محاسبه ما فاصله بین نقاط و مراکز گروه است. بنابراین پیچیدگی خطی O(n) دارد.
از طرف دیگر K-Means دو عیب دارد. اول اینکه باید تعداد خوشهها را انتخاب کنید. بعضی اوقات نیاز داریم الگوریتم این کار را برای ما انجام دهد زیرا میخواهیم دیدی از دادهها بدست آوریم. دوم اینکه K-mean با انتخاب تصادفی مراکز خوشه شروع میشود و بنابراین ممکن است نتایج خوشهبندی متفاوتی را در اجرایهای مختلف الگوریتم بدست آورد.