استخراج قانون استقرائی
افراد و
شرکتها روزانه حجم عظیمی از دادهها را تولید میکنند. آمارها نشان میدهد که
چیزی در حدود ۸0 درصد از دادههای متنی غیر ساختیافتهاند؛ یعنی از طریق یک روش
از پیش تعیینشده سازمان نیافتهاند، قابل جستجو نیستند و مدیریت آنها تقریباً
غیرممکن است؛ بهعبارتدیگر در قالب غیر ساخته یافته این دسته دادهها حاوی
اطلاعات مفید نیستند. سازماندهی، طبقهبندی و استخراج اطلاعات مفید و بامعنا از
دادههای خام متنی یکی از چالشبرانگیزترین فعالیتها در سازمانها و شرکتهای
تجاری است.
در کاربردهای تجاری دادههای متنی غیر ساختیافته
میتوانند شامل مواردی نظیر ایمیلها، مطالب شبکههای اجتماعی، چتها، درخواستهای
پشتیبانی از کاربران و نظرسنجیها شوند. تحلیل و بررسی دستی این حجم از اطلاعات،
قطعاً به شکست منجر خواهد شد. چنین کاری نهتنها زمانبر و پرهزینه است بلکه
نادرست و غیرقابل مقیاسپذیر است. بااینحال مدلهای متنکاوی روشهای قابلاطمینان
و مقرونبهصرفهای برای تحلیل دقیق، سریع و مقیاسپذیر دادههای متنی هستند. ازجمله مهمترین مزایای مدلهای متنکاوی میتوان
به موارد زیر اشاره کرد:
از طریق مدلهای متنکاوی سیستم قادر به تحلیل
حجم عظیمی از دادهها تنها در چند ثانیه خواهد بود. با خودکار کردن برخی از فرآیندها
در سازمانها و شرکتهای تجاری از طریق بهکارگیری مدلهای متنکاوی آنها قادر
خواهند بود وقت باارزش خود را صرف دیگر کارها کنند و از این طریق سازوکارهای تجاری
سازندهای را توسعه دهند.
به کمک مدلهای متنکاوی، شرکتها قادر خواهند
بود تا شرایط اضطراری نظیر تشخیص اوضاع بحرانی محتمل، کشف معایب طراحی محصول و یا
نظرات منفی در مورد محصولات را بهصورت آنی شناسایی و اولویتبندی کنند. چرا چنین
ویژگی برای شرکتها مهم است؟ چون امکان اتخاذ تصمیمات سریع در هنگام مواجهه با
بحران را برای شرکتها به ارمغان میآورد.
مردم وقتیکه
باکارهای تکراری سروکار دارند احتمال اشتباه کردن آنها افزایش مییابد. بهعنوان
نمونه برچسبگذاری دادههای متنی را در نظر بگیرید. برای اکثر گروههای انسانی
شاغل در شرکتهای تجاری و سازمانها طبقهبندی دستی درخواستهای پشتیبانی مشتریان
کاری طاقتفرسا و زمانبر است و در اکثر موارد، منجر به تولید خطا و تناقضات در
سیستم خواهد شد. خودکار کردن چنین فعالیتهایی نهتنها باعث جلوگیری از هدر رفتن
زمان میشود بلکه نتایج بهتر و دقیقتری تولید میکند و سبب میشود که معیارهای
یکنواختی در پاسخگویی به درخواست مشتریان اعمال شوند.

استخراج متن ازنظر ماهیت شبیه همان دادهکاوی هست
اما این بار تمرکز بهجای اشکال ساختاریافته روی متن بدون ساختارِ بااینحال یکی
از اولین نکات مهم تو فرآیند متنکاوی، سازماندهی و ساختاربندی دادهها است. پس دیگر
میشود هم ازنظر کیفی و هم کمّی یا مقداری آنها رو موردبررسی قرارداد. این فرآیند
معمولاً با استفاده از فنّاوری NLP یا پردازش
زبان طبیعی انجام میشود و به این صورتی که اصول زبانشناسی محاسباتی رو برای
تجزیه و تفسیر دادهها اعمال میکند.
NLP فنّاوری
است که هدف اصلی آن رسیدن به یه درک بهتر از زبان طبیعی انسان با استفاده از
کامپیوترها است. این فنّاوری فنهای ساده و محکمی رو برای پردازش سریع متن به کار
میبرد و همچنین از فنهای آنالیز زبانشناسی هم استفاده میکند. نقش NLP در متنکاوی فراهم کردن یه سیستم در مرحله
استخراج اطلاعات با دادههای زبان است.
در متنکاوی برای ساختاردهی به دادههای بدون
ساختار اولازهمه شاخصهای عددی معناداری از متن استخراج میشود و بعد این دادهها
با استفاده از الگوریتمهای دادهکاوی پردازش میگردد. این کار شامل موارد ذیل
هست:
·
جمعبندی و
خلاصهسازی مستندها بر اساس مفاهیم کلیدی
·
خوشهبندی
مستندها بر اساس مفاهیم مشابه و موضوعهای مشترک
·
تعیین روابط
بین مستندها
·
استخراج
محتوای پنهان
درگذشته
الگوریتمهای NLP در درجه اول
به مدلهای آماری یا قوانینی مبتنی بودن که یه مسیری رو برای یافتن مجموعه دادهها
ایجادمی شد. بااینحال در اواسط سال 2010 مدلهای یادگیری عمیقی که با روشهایی که
کمتر تحت نظارت بودن کار و بهعنوان یه روش جایگزین برای تجزیهوتحلیل متن و سایر
برنامههای پیشرفته تحلیلی که شامل مجموعه دادههای بزرگ میشدند ظاهر گردیدند.
یادگیری عمیق از شبکههای عصبی برای تجزیهوتحلیل دادهها و روشی تکراری که انعطافپذیرتر
و شهودیتر از آن چیزی است که ماشین یادگیری معمولی پشتیبانی میکند استفاده میگردد.
درنتیجه در حال حاضر ابزارهای متنکاوی در کشف
شباهتهای پنهان و ارتباطاتی که در متن داده هست مجهزتر شدهاند. یه مدل بدون
نظارت میتواند دادهها رو از اسناد متنی یا ایمیلها به گروهی از موضوعها بدون
راهنمایی یه تحلیلگر سازماندهی کند.
تجزیهوتحلیل
احساسات یه برنامه کاربردی در استخراج متن است که میتواند احساسات مشتری درباره
یه شرکت رو دنبال کند این برنامه همچنین بهعنوان Mining Opinion هم
شناخته میشود که متن رو ازنظرهای آنالیز، شبکههای اجتماعی، ایمیل، تعامل با مرکز
تماس و سایر منابع داده استخراج میکند تا موضوعهای متداولی رو که به احساسات
منفی یا مثبت از طرف مشتریان اشاره دارد شناسایی کند. سایر
کاربردهای متداول متنکاوی شامل موارد زیر میشوند:
·
غربالگری
نامزدهای شغلی با توجه به عبارتهایی که تو رزومه شغلی آنها نوشتهشده است.
·
مسدود کردن
ایمیلهای اسپم
·
طبقهبندی
محتوای وبسایت
·
مشخصات بیمههایی
که ممکنه تقلبی باشند
·
تجزیهوتحلیل
توضیحهای عالم پزشکی برای کمک به تشخیص بهتر
·
بررسی اسناد
شرکتها بهعنوان یه بخشی از فرآیندهای کشف الکترونیکی
متنکاوی میتواند چالشبرانگیز باشد
چونکه دادهها معمولاً مبهم و متناقض هستند. تالش برای تجزیهوتحلیل متنهایی که
شامل ابهامهای ناشی از استفاده از زبان عامیانه، طعنه، گویشهای منطقهای و زبان
فنی مخصوص یه سری از صنایع است خیلی سخت و پیچیده میشود، درنتیجه الگوریتمهای Mining Text باید برای آنالیز اینطور ابهامات و
ناسازگاریها موقع دستهبندی، برچسب زدن و غیره آموزش را در نظر بگیرند.
علاوه بر این مدلهای یادگیری عمیق
که در خیلی از نرمافزارهای استخراج متن مورداستفاده هستند به مقدار زیادی دادههای
آموزشی و قدرت پردازش نیاز دارند که کار پرهزینهای است. جهتگیری در مجموعه دادهها مورد دیگ
ری هست که میتواند باعث به وجود آمدن نتایج ناقص یا اشتباه بشود و متخصص داده
باید حتماً این جهتگیری و تعصبها رو شناسایی کند.
همچنین نرمافزارهای متنکاوی زیادی
ازجمله SAS،SAP،IBM،Oracle،Tibco و R وجود دارد که متخصص این کار باید بهترین آن رو بر
اساس هدف و کاری که قرار است انجام بدهد انتخاب کند.
استفاده از روش متنکاوی و تجزیهوتحلیل برای درک
کردن بهتر احساسات مشتری میتواند به شرکتها کمک کنه تا مسائل مربوط به محصولات و
کسبوکار را تشخیص بدن و قبل از اینکه به مشکلهای بزرگ و دردسرسازی که فروش آنها
رو تحت تأثیر قرار میدهد، تبدیل و آنها رو شناسایی و حل کنند.
همچنین استخراج متن میتواند در رابطه با نظرها و
ارتباطهای مشتری، انتظارها و جنبههای جدیدی رو شناسایی کند که همین امر به قویتر
شدن محصولهای آنها کمک میکند.
متنکاوی همچنین میتواند به پیشبینی رویگردانی
مشتری[4]
کمک کند و به شرکت این قدرت رو بد هد که بهعنوان یه بخشی از برنامههای بازاریابی
و مدیریت ارتباط با مشتری اقدامهایی برای رفع مشکلهای احتمالی و سایر مشکلها با
رقیبان انجام بد هند.
تو مراقبتهای پزشکی میشود از این فنّاوری بر
اساس علائمی که گزارش میشود برای تشخیص بهتر یه بیماری استفاده کرد.