IRE: Inductive Rule Extraction

IRE: Inductive Rule Extraction

استخراج قانون استقرائی
IRE: Inductive Rule Extraction

IRE: Inductive Rule Extraction

استخراج قانون استقرائی

متن‌کاوی

متن‌کاوی به داده‌کاوی بر روی متن اشاره دارد و به‌عنوان آنالیز متن نیز شناخته می‌شود. منظور از متن‌کاوی فرآیند استخراج اطلاعات باکیفیت از متن است. اطلاعات باکیفیت بالا به‌طورمعمول از فهم الگوها و گرایش‌ها از طریق معانی و به‌وسیله یادگیری الگوهای آماری حاصل می‌شود. در متن‌کاوی درگیر فرآیند ساختاردهی به ورودی‌های متنی، تجزیه همراه با افزودن برخی ویژگی‌ها تفاسیر زبانی، حذف موارد اضافی و درج موارد بعدی در پایگاه داده انجام می‌گیرد، استخراج الگوهای درون داده‌ای ساختاریافته، درنهایت ارزیابی و تفسیر خروجی‌ها است.  

پرکیفیت در متن‌کاوی معمولا به ترکیبی از مرتبط بودن، نوظهور بودن و جالب بودن اشاره دارد. وظایف متن‌کاوی معمول شامل دسته‌بندی متون، خوشه‌بندی متون، استخراج معنی و مفهوم، تولید رده‌بندی دانه‌ای، تجزیه‌وتحلیل احساسات، خلاصه کردن اسناد و مدل‌سازی ارتباط موجودیت‌ها است.

آنالیز متن بازیابی اطلاعات، آنالیز لغوی برای مطالعه توزیع فرکانس، شناخت الگو، برچسب‌گذاری یا حاشیه‌نویسی، استخراج اطلاعات، فن‌های داده‌کاوی شامل آنالیز اتصال و ارتباط، بصری‌سازی و آنالیز پیش‌گویانه است. هدف نهایی اساساً تبدیل متن به داده برای آنالیز از طریق کاربرد پردازش زبان‌های طبیعی و متدهای تحلیلی است.

کاربرد معمول جهت اسکن مجموعه‌ای از اسناد نوشته‌شده در یک‌زبان طبیعی و مدل کردن مجموعه اسناد برای اهداف کلاس‌بندی پیش‌گویانه جهت پر کردن یک پایگاه داده یا نمایه جستجو با اطلاعات استخراج‌شده است.

متن‌کاوی در مقابل آنالیز متن

اصطلاح آنالیز متن یک مجموعه از فن‌های زبان‌شناسی، آمار و یادگیری ماشینی را توضیح می‌دهد که محتوای اطلاعات منابع متنی را برای هوشمند سازی کسب‌وکار، آنالیز اکتشافی داده، تحقیق‌ها یا سرمایه‌گذاری ساختار داده مدل می‌کند. این اصطلاح تقریباً مترادف متن‌کاوی است. اصطلاح آنالیز متن بیشتر در کسب‌وکار مورداستفاده قرار می‌گیرد درحالی‌که متن‌کاوی حوزه کاربردهای قدیمی‌تر به‌ویژه تحقیق‌ها علوم وابسته به زندگی و هوشمند سازی دولت‌ها استفاده می‌شود.

اصطلاح آنالیز متن شرح می‌دهد که کاربرد آنالیز متن برای پاسخ به مشکل‌های کسب‌وکار، وابسته یا مستقل از پرس‌وجو، آنالیزهای میدانی و داده‌های عددی هست. واضح است که ۸0 درصد از اطلاعات وابسته به کسب‌وکار در شکلی بدون ساختار و متنی است. این فن‌ها و فرآیندها دانشی حقایق، قواعد کسب‌وکار و ارتباطات را کشف و ارائه می‌نمایند که در غیر این صورت در ساختاری متنی غیرقابل نفوذ برای فرآیندهای خودکار باقی می‌مانند.

فرآیند متن‌کاوی

زیر وظایف معمولاً شامل:

·     بازیابی اطلاعات یا شناسایی یک پیکره متنی گام مقدماتی است: جمع‌آوری یا شناختن یک مجموعه از موارد متنی بر روی وب یا نگه‌داشته شده روی فایل‌های سیستمی، پایگاه داده یا محتوای سیستم پیکره متنی برای آنالیز.

·     اگرچه برخی سیستم‌های آنالیز متن منحصراً متدهای آماری پیشرفته را اجرا می‌نمایند بسیاری دیگر پردازش زبان‌های طبیعی را بسیار گسترده‌تر اجرا می‌نمایند مثل برچسب‌زنی اجزای کلام، تجزیه‌کننده نحوی یا دیگر انواع آنالیز زبانی.

·     Named entity recognition از فن‌های آماری جهت شناختن نام‌ها استفاده می‌کند: مردم، سازمان‌ها، نام مکان‌ها، اختصارهای خاص و غیره. ابهام‌زدایی با استفاده از راهنماهای متنی ممکن است نیاز شود.

·       تشخیص الگوی تعیین‌شده موجودیت: ویژگی‌هایی مانند شماره تلفن، آدرس ایمیل، مقادیر همراه با واحد می‌توانند از طریق regular expression یا دیگر الگوهای تطبیق داده شود.

·     Coreference: شناسایی گروه اسمی و دیگر اصطلاح‌هایی که به شیئ‌ای یکسان ارجاع دارند.

·     استخراج ارتباط، حقیقت و رخداد: تشخیص همبستگی بین موجودیت‌ها و دیگر اطلاعات درون‌متن.

·    آنالیز نیت درگیر در فهم ذهنی نه حقیقی اجزاء و استخراج برگه‌های مختلف نگرشی اطلاعات مانند احساس، عقیده، حالت و هیجان است. فن‌های آنالیز متن در آنالیز کردن نیت و مقصود موجودیت‌ها، مفاهیم یا سطح موضوع و در تشخیص عقیده و نظر اجزاء کمک‌کننده هستند.

 آیا تابه‌حال به این موضوع اندیشیده‌اید که موتورهای جستجوی چگونه معانی و مفاهیم موجود در حجم عظیمی از اطلاعات سطح وب را درک می‌کنند و به‌راحتی قادر هستند اطلاعات مرتبط با پرس و جوی کاربران را بازیابی کنند؟ پاسخ به این سؤال متن‌کاوی است. متن‌کاوی، این توانایی را برای سیستم‌های کامپیوتری ایجاد می‌کند تا بتوانند اطلاعات معنادار را از داده‌های متنی غیر ساخت‌یافته استخراج کنند.

تفاوت میان مفاهیم متن‌کاوی، تحلیل کمی و کیفی متن

مفاهیم متن‌کاوی و تحلیل کیفی متن معمولاً مترادف هستند. بااین‌حال مفهوم تحلیل کمی متن تا حدودی متفاوت از دو مفهوم دیگر است. به‌اختصار مدل‌های متن‌کاوی و مدل‌های تحلیل کمی متن سعی دارند مسئله‌ای یکسان تحلیل خودکار داده‌های متنی خام را به‌وسیله فن‌های متفاوت حل کنند. فن‌های متن‌کاوی اطلاعات مرتبط درون یک متن را شناسایی می‌کنند و درنتیجه نتایج کیفی تولید می‌کنند. در نقطه مقابل هدف فن‌های تحلیل کمی متن یافتن الگوهای موجود در مجموعه‌های بزرگ داده است. درنتیجه فن‌های تحلیل کمی متن معمولاً نتایج کمی تولید می‌کنند. این فن‌ها معمولاً برای تولید داده‌نما، جدول و دیگر انواع گزارش‌های بصری مورداستفاده قرار می‌گیرند.

متن‌کاوی، مفاهیم آمار، زبان‌شناسی و یادگیری ماشین را ترکیب می‌کند تا مدل‌های هوشمندی برای یادگیری رفتار و مدل داده‌های آموزشی تولید کند. مدل هوشمند یادگیری ماشین به سیستم اجازه می‌دهد تا بر اساس داده‌های آموزشی، پیش‌بینی‌های جدیدی در مورد داده‌های ورودی جدید تولید و به‌عنوان نمونه، دسته‌بندی موضوعی داده‌های متنی غیر ساخت‌یافته جدید را پیش‌بینی کند. در نقطه مقابل تحلیل کمی متن از نتایج حاصل از تحلیل‌های انجام‌شده توسط مدل‌های متن‌کاوی برای تولید داده‌نما و انواع مختلفی از واسط‌های بصری داده استفاده می‌کند.

انتخاب مدل متن‌کاوی یا روش تحلیل کمی متن مناسب که بتواند نیازهای اطلاعاتی سازمان‌ها و یا شرکت‌های تجاری را محقق کند بستگی زیادی به نوع اطلاعات در دسترس دارد. در غالب موارد مدل‌های متن‌کاوی با روش‌های تحلیل کمی متن ترکیب و داده‌های حاوی محتوای متنی تحلیل می‌شوند. نتایج تحقیقات نشان داده است که چنین رویکردی سبب تولید جواب‌های به‌مراتب بهتری نسبت به روش‌های دیگر تحلیل متن خواهد شد.

 

نظرات 0 + ارسال نظر
برای نمایش آواتار خود در این وبلاگ در سایت Gravatar.com ثبت نام کنید. (راهنما)
ایمیل شما بعد از ثبت نمایش داده نخواهد شد