استخراج قانون استقرائی
تاکنون روشها و فنهای
متفاوتی برای متنکاوی توسعه دادهشده است. در این بخش سعی شده است تا تعریف مفید
و مختصری از برخی روشهای ساده و پیشرفته در حوزه متنکاوی ارائه شود.
در ادامه، برخی از روشهای
ساده برای تحلیل دادههای متنی آورده شده است.
از روشهای مبتنی بر تناوب
کلمه برای شناسایی متناوبترین لغات یا مفاهیم موجود در مجموعهای از دادههای
متنی استفاده میشود. در کاربردهایی نظیر تحلیل نظرات مشتریان گفتگوهای میان
کاربران در شبکههای اجتماعی یا بازخورد مشتریان نسبت به یک محصول یا سرویس خاص،
پیدا کردن کلماتی که پیش از همه در دادههای متنی غیر ساختیافته ظاهرشدهاند نقش
مهمی در تولید اطلاعات بامعنی و استخراج دانش از این دادهها خواهند داشت. بهعنوان
نمونه درصورتیکه لغاتی نظیر گرانقیمت بیشازحد و مبالغه در مورد امکانات، بهطور
متناوب در نظرات مشتریان ظاهر شود بهتر است که شرکتهای تجاری ارائهدهنده این
محصول یا خدمات قیمتها و یا بازار هدف این محصول یا سرویس راکمی تغییر دهند.
اصطلاح باهم گذاری یا هم
اتفاقی کلمات، به دنبالهای از کلمات یا مفاهیم اطلاق میشود که معمولاً در یک
داده متنی در کنار همدیگر همسایگی یکدیگر ظاهر میشوند. شایعترین نوع کلمات یا
مفاهیم با همگذاری
هم اتفاقی، دوکلمهایها[3]
و سهکلمهایها[4] هستند. دوکلمهای عباراتی دوکلمهای هستند که معمولاً در کنار
یکدیگر اتفاق میافتند. بهعنوان نمونه در زبان انگلیسی عباراتی نظیر
Started Get،Save Time و Making Decision نمونهای از عبارات دوکلمهای هستند. بهطور مشابه سهکلمهایها
عباراتی سهکلمهای هستند که معمولاً در بیشتر زمینههای موضوعی کنار یکدیگر اتفاق
میافتند. بهعنوان نمونه در زبان انگلیسی عباراتی نظیرDistance Walking
Within و Touch In Keep سهکلمهای هستند.
شناسایی عبارات با همگذاری
یا هم اتفاق و در نظر گرفتن آنها بهعنوان یک کلمه نقش مهمی در بهبود فرآیند
شناسایی واحدهای سازنده یک داده متنی غیر ساختیافته خواهد داشت. چنین کاری به مدل
متنکاوی اجازه میدهد تا درک بهتری از ساختار معنایی موجود در دادههای متنی پیدا
کند و بهتبع آن نتایج دقیقتری از تحلیلهای متنکاوی حاصل شود.
اصطلاح راهنمای لغات به
فهرستی از لغات یا مفاهیم موجود در یک سند به همراه مشخصه محل ظاهر شدن آنها اطلاق میشود. از روشهای مبتنی بر راهنمای لغات،
برای بازشناسی یک زمینه محتوایی[6]
خاص استفاده میشود که یک کلمه یا مجموعهای از کلمات در آن ظاهرشدهاند. باید
توجه داشت که ویژگی ذاتی زبانهای انسانی ابهام موجود در آنها است. یکی از مشکلهای
موجود در پیادهسازی مدلهای متنکاوی این است که یک کلمه میتواند در زمینههای
محتوایی متفاوتی استفاده شود. تحلیلهای مبتنی بر راهنمای لغات از یک کلمه به
سیستم اجازه میدهد تا معنای دقیق یک کلمه درزمی نه محتوایی که در آن ظاهر میشود
را درک کند.