متنکاوی به دادهکاوی بر روی متن اشاره دارد و بهعنوان آنالیز متن نیز شناخته میشود. منظور از متنکاوی فرآیند استخراج اطلاعات باکیفیت از متن است. اطلاعات باکیفیت بالا بهطورمعمول از فهم الگوها و گرایشها از طریق معانی و بهوسیله یادگیری الگوهای آماری حاصل میشود. در متنکاوی درگیر فرآیند ساختاردهی به ورودیهای متنی، تجزیه همراه با افزودن برخی ویژگیها تفاسیر زبانی، حذف موارد اضافی و درج موارد بعدی در پایگاه داده انجام میگیرد، استخراج الگوهای درون دادهای ساختاریافته، درنهایت ارزیابی و تفسیر خروجیها است.
پرکیفیت در متنکاوی معمولا به ترکیبی از مرتبط بودن، نوظهور بودن و جالب بودن اشاره دارد. وظایف متنکاوی معمول شامل دستهبندی متون، خوشهبندی متون، استخراج معنی و مفهوم، تولید ردهبندی دانهای، تجزیهوتحلیل احساسات، خلاصه کردن اسناد و مدلسازی ارتباط موجودیتها است.
آنالیز متن بازیابی اطلاعات، آنالیز لغوی برای مطالعه توزیع فرکانس، شناخت الگو، برچسبگذاری یا حاشیهنویسی، استخراج اطلاعات، فنهای دادهکاوی شامل آنالیز اتصال و ارتباط، بصریسازی و آنالیز پیشگویانه است. هدف نهایی اساساً تبدیل متن به داده برای آنالیز از طریق کاربرد پردازش زبانهای طبیعی و متدهای تحلیلی است.
کاربرد معمول جهت اسکن مجموعهای از اسناد نوشتهشده در یکزبان طبیعی و مدل کردن مجموعه اسناد برای اهداف کلاسبندی پیشگویانه جهت پر کردن یک پایگاه داده یا نمایه جستجو با اطلاعات استخراجشده است.
اصطلاح آنالیز متن یک مجموعه از فنهای زبانشناسی، آمار و یادگیری ماشینی را توضیح میدهد که محتوای اطلاعات منابع متنی را برای هوشمند سازی کسبوکار، آنالیز اکتشافی داده، تحقیقها یا سرمایهگذاری ساختار داده مدل میکند. این اصطلاح تقریباً مترادف متنکاوی است. اصطلاح آنالیز متن بیشتر در کسبوکار مورداستفاده قرار میگیرد درحالیکه متنکاوی حوزه کاربردهای قدیمیتر بهویژه تحقیقها علوم وابسته به زندگی و هوشمند سازی دولتها استفاده میشود.
اصطلاح آنالیز متن شرح میدهد که کاربرد آنالیز متن برای پاسخ به مشکلهای کسبوکار، وابسته یا مستقل از پرسوجو، آنالیزهای میدانی و دادههای عددی هست. واضح است که ۸0 درصد از اطلاعات وابسته به کسبوکار در شکلی بدون ساختار و متنی است. این فنها و فرآیندها دانشی حقایق، قواعد کسبوکار و ارتباطات را کشف و ارائه مینمایند که در غیر این صورت در ساختاری متنی غیرقابل نفوذ برای فرآیندهای خودکار باقی میمانند.
زیر وظایف معمولاً شامل:
· بازیابی اطلاعات یا شناسایی یک پیکره متنی گام مقدماتی است: جمعآوری یا شناختن یک مجموعه از موارد متنی بر روی وب یا نگهداشته شده روی فایلهای سیستمی، پایگاه داده یا محتوای سیستم پیکره متنی برای آنالیز.
· اگرچه برخی سیستمهای آنالیز متن منحصراً متدهای آماری پیشرفته را اجرا مینمایند بسیاری دیگر پردازش زبانهای طبیعی را بسیار گستردهتر اجرا مینمایند مثل برچسبزنی اجزای کلام، تجزیهکننده نحوی یا دیگر انواع آنالیز زبانی.
· Named entity recognition از فنهای آماری جهت شناختن نامها استفاده میکند: مردم، سازمانها، نام مکانها، اختصارهای خاص و غیره. ابهامزدایی با استفاده از راهنماهای متنی ممکن است نیاز شود.
· تشخیص الگوی تعیینشده موجودیت: ویژگیهایی مانند شماره تلفن، آدرس ایمیل، مقادیر همراه با واحد میتوانند از طریق regular expression یا دیگر الگوهای تطبیق داده شود.
· Coreference: شناسایی گروه اسمی و دیگر اصطلاحهایی که به شیئای یکسان ارجاع دارند.
· استخراج ارتباط، حقیقت و رخداد: تشخیص همبستگی بین موجودیتها و دیگر اطلاعات درونمتن.
· آنالیز نیت درگیر در فهم ذهنی نه حقیقی اجزاء و استخراج برگههای مختلف نگرشی اطلاعات مانند احساس، عقیده، حالت و هیجان است. فنهای آنالیز متن در آنالیز کردن نیت و مقصود موجودیتها، مفاهیم یا سطح موضوع و در تشخیص عقیده و نظر اجزاء کمککننده هستند.
آیا تابهحال به این موضوع اندیشیدهاید که موتورهای جستجوی چگونه معانی و مفاهیم موجود در حجم عظیمی از اطلاعات سطح وب را درک میکنند و بهراحتی قادر هستند اطلاعات مرتبط با پرس و جوی کاربران را بازیابی کنند؟ پاسخ به این سؤال متنکاوی است. متنکاوی، این توانایی را برای سیستمهای کامپیوتری ایجاد میکند تا بتوانند اطلاعات معنادار را از دادههای متنی غیر ساختیافته استخراج کنند.
تفاوت میان مفاهیم متنکاوی، تحلیل کمی و کیفی متن
مفاهیم متنکاوی و تحلیل کیفی متن معمولاً مترادف هستند. بااینحال مفهوم تحلیل کمی متن تا حدودی متفاوت از دو مفهوم دیگر است. بهاختصار مدلهای متنکاوی و مدلهای تحلیل کمی متن سعی دارند مسئلهای یکسان تحلیل خودکار دادههای متنی خام را بهوسیله فنهای متفاوت حل کنند. فنهای متنکاوی اطلاعات مرتبط درون یک متن را شناسایی میکنند و درنتیجه نتایج کیفی تولید میکنند. در نقطه مقابل هدف فنهای تحلیل کمی متن یافتن الگوهای موجود در مجموعههای بزرگ داده است. درنتیجه فنهای تحلیل کمی متن معمولاً نتایج کمی تولید میکنند. این فنها معمولاً برای تولید دادهنما، جدول و دیگر انواع گزارشهای بصری مورداستفاده قرار میگیرند.
متنکاوی، مفاهیم آمار، زبانشناسی و یادگیری ماشین را ترکیب میکند تا مدلهای هوشمندی برای یادگیری رفتار و مدل دادههای آموزشی تولید کند. مدل هوشمند یادگیری ماشین به سیستم اجازه میدهد تا بر اساس دادههای آموزشی، پیشبینیهای جدیدی در مورد دادههای ورودی جدید تولید و بهعنوان نمونه، دستهبندی موضوعی دادههای متنی غیر ساختیافته جدید را پیشبینی کند. در نقطه مقابل تحلیل کمی متن از نتایج حاصل از تحلیلهای انجامشده توسط مدلهای متنکاوی برای تولید دادهنما و انواع مختلفی از واسطهای بصری داده استفاده میکند.
انتخاب مدل متنکاوی یا روش تحلیل کمی متن مناسب که بتواند نیازهای اطلاعاتی سازمانها و یا شرکتهای تجاری را محقق کند بستگی زیادی به نوع اطلاعات در دسترس دارد. در غالب موارد مدلهای متنکاوی با روشهای تحلیل کمی متن ترکیب و دادههای حاوی محتوای متنی تحلیل میشوند. نتایج تحقیقات نشان داده است که چنین رویکردی سبب تولید جوابهای بهمراتب بهتری نسبت به روشهای دیگر تحلیل متن خواهد شد.