IRE: Inductive Rule Extraction

IRE: Inductive Rule Extraction

استخراج قانون استقرائی
IRE: Inductive Rule Extraction

IRE: Inductive Rule Extraction

استخراج قانون استقرائی

روش‌ها و تکنیک‌ها متن کاوی

تاکنون روش‌ها و فن‌های متفاوتی برای متن‌کاوی توسعه داده‌شده است. در این بخش سعی شده است تا تعریف مفید و مختصری از برخی روش‌های ساده و پیشرفته در حوزه متن‌کاوی ارائه شود.  

روش‌های ساده متن‌کاوی

در ادامه، برخی از روش‌های ساده برای تحلیل داده‌های متنی آورده شده است.

روش‌های مبتنی بر تناوب کلمات [1]

از روش‌های مبتنی بر تناوب کلمه برای شناسایی متناوب‌ترین لغات یا مفاهیم موجود در مجموعه‌ای از داده‌های متنی استفاده می‌شود. در کاربردهایی نظیر تحلیل نظرات مشتریان گفتگوهای میان کاربران در شبکه‌های اجتماعی یا بازخورد مشتریان نسبت به یک محصول یا سرویس خاص، پیدا کردن کلماتی که پیش از همه در داده‌های متنی غیر ساخت‌یافته ظاهرشده‌اند نقش مهمی در تولید اطلاعات بامعنی و استخراج دانش از این داده‌ها خواهند داشت. به‌عنوان نمونه درصورتی‌که لغاتی نظیر گران‌قیمت بیش‌ازحد و مبالغه در مورد امکانات، به‌طور متناوب در نظرات مشتریان ظاهر شود بهتر است که شرکت‌های تجاری ارائه‌دهنده این محصول یا خدمات قیمت‌ها و یا بازار هدف این محصول یا سرویس راکمی تغییر دهند.

روش‌های مبتنی بر با هم‌گذاری یا هم اتفاقی کلمات [2]

اصطلاح باهم گذاری یا هم اتفاقی کلمات، به دنباله‌ای از کلمات یا مفاهیم اطلاق می‌شود که معمولاً در یک داده متنی در کنار همدیگر همسایگی یکدیگر ظاهر می‌شوند. شایع‌ترین نوع کلمات یا مفاهیم با هم‌گذاری هم اتفاقی، دوکلمه‌ای‌ها[3] و سه‌کلمه‌ای‌ها[4] هستند. دوکلمه‌ای عباراتی دوکلمه‌ای هستند که معمولاً در کنار یکدیگر اتفاق می‌افتند. به‌عنوان نمونه در زبان انگلیسی عباراتی نظیر Started Get،Save Time و Making Decision نمونه‌ای از عبارات دوکلمه‌ای هستند. به‌طور مشابه سه‌کلمه‌ای‌ها عباراتی سه‌کلمه‌ای هستند که معمولاً در بیشتر زمینه‌های موضوعی کنار یکدیگر اتفاق می‌افتند. به‌عنوان نمونه در زبان انگلیسی عباراتی نظیرDistance Walking Within و Touch In Keep سه‌کلمه‌ای هستند.

شناسایی عبارات با هم‌گذاری یا هم اتفاق و در نظر گرفتن آن‌ها به‌عنوان یک کلمه نقش مهمی در بهبود فرآیند شناسایی واحدهای سازنده یک داده متنی غیر ساخت‌یافته خواهد داشت. چنین کاری به مدل متن‌کاوی اجازه می‌دهد تا درک بهتری از ساختار معنایی موجود در داده‌های متنی پیدا کند و به‌تبع آن نتایج دقیق‌تری از تحلیل‌های متن‌کاوی حاصل شود.

روش‌های مبتنی بر راهنمای لغات[5]

اصطلاح راهنمای لغات به فهرستی از لغات یا مفاهیم موجود در یک سند به همراه مشخصه محل ظاهر شدن آن‌ها اطلاق می‌شود. از روش‌های مبتنی بر راهنمای لغات، برای بازشناسی یک زمینه محتوایی[6] خاص استفاده می‌شود که یک کلمه یا مجموعه‌ای از کلمات در آن ظاهرشده‌اند. باید توجه داشت که ویژگی ذاتی زبان‌های انسانی ابهام موجود در آن‌ها است. یکی از مشکل‌های موجود در پیاده‌سازی مدل‌های متن‌کاوی این است که یک کلمه می‌تواند در زمینه‌های محتوایی متفاوتی استفاده شود. تحلیل‌های مبتنی بر راهنمای لغات از یک کلمه به سیستم اجازه می‌دهد تا معنای دقیق یک کلمه درزمی نه محتوایی که در آن ظاهر می‌شود را درک کند.



[1] Word Frequency

[2] Word Collocation

[3] Bigrams

[4] Trigrams

[5] Concordance

[6] Context

نظرات 0 + ارسال نظر
برای نمایش آواتار خود در این وبلاگ در سایت Gravatar.com ثبت نام کنید. (راهنما)
ایمیل شما بعد از ثبت نمایش داده نخواهد شد