IRE: Inductive Rule Extraction

استخراج قانون استقرائی

IRE: Inductive Rule Extraction

استخراج قانون استقرائی

اهمیت مدل‌های متن‌کاوی

افراد و شرکت‌ها روزانه حجم عظیمی از داده‌ها را تولید می‌کنند. آمارها نشان می‌دهد که چیزی در حدود ۸0 درصد از داده‌های متنی غیر ساخت‌یافته‌اند؛ یعنی از طریق یک روش از پیش تعیین‌شده سازمان نیافته‌اند، قابل جستجو نیستند و مدیریت آن‌ها تقریباً غیرممکن است؛ به‌عبارت‌دیگر در قالب غیر ساخته یافته این دسته داده‌ها حاوی اطلاعات مفید نیستند. سازمان‌دهی، طبقه‌بندی و استخراج اطلاعات مفید و بامعنا از داده‌های خام متنی یکی از چالش‌برانگیزترین فعالیت‌ها در سازمان‌ها و شرکت‌های تجاری است.

در کاربردهای تجاری داده‌های متنی غیر ساخت‌یافته می‌توانند شامل مواردی نظیر ایمیل‌ها، مطالب شبکه‌های اجتماعی، چت‌ها، درخواست‌های پشتیبانی از کاربران و نظرسنجی‌ها شوند. تحلیل و بررسی دستی این حجم از اطلاعات، قطعاً به شکست منجر خواهد شد. چنین کاری نه‌تنها زمان‌بر و پرهزینه است بلکه نادرست و غیرقابل مقیاس‌پذیر است. بااین‌حال مدل‌های متن‌کاوی روش‌های قابل‌اطمینان و مقرون‌به‌صرفه‌ای برای تحلیل دقیق، سریع و مقیاس‌پذیر داده‌های متنی هستند. ازجمله مهم‌ترین مزایای مدل‌های متن‌کاوی می‌توان به موارد زیر اشاره کرد:

مقیاس‌پذیری [1]

از طریق مدل‌های متن‌کاوی سیستم قادر به تحلیل حجم عظیمی از داده‌ها تنها در چند ثانیه خواهد بود. با خودکار کردن برخی از فرآیندها در سازمان‌ها و شرکت‌های تجاری از طریق به‌کارگیری مدل‌های متن‌کاوی آن‌ها قادر خواهند بود وقت باارزش خود را صرف دیگر کارها کنند و از این طریق سازوکارهای تجاری سازندهای را توسعه دهند.

تحلیل بلادرنگ [2]

به کمک مدل‌های متن‌کاوی، شرکت‌ها قادر خواهند بود تا شرایط اضطراری نظیر تشخیص اوضاع بحرانی محتمل، کشف معایب طراحی محصول و یا نظرات منفی در مورد محصولات را به‌صورت آنی شناسایی و اولویت‌بندی کنند. چرا چنین ویژگی برای شرکت‌ها مهم است؟ چون امکان اتخاذ تصمیمات سریع در هنگام مواجهه با بحران را برای شرکت‌ها به ارمغان می‌آورد.

معیار ثابت‌قدمی [3] در انجام کارها

مردم وقتی‌که باکارهای تکراری سروکار دارند احتمال اشتباه کردن آن‌ها افزایش می‌یابد. به‌عنوان نمونه برچسب‌گذاری داده‌های متنی را در نظر بگیرید. برای اکثر گروه‌های انسانی شاغل در شرکت‌های تجاری و سازمان‌ها طبقه‌بندی دستی درخواست‌های پشتیبانی مشتریان کاری طاقت‌فرسا و زمان‌بر است و در اکثر موارد، منجر به تولید خطا و تناقضات در سیستم خواهد شد. خودکار کردن چنین فعالیت‌هایی نه‌تنها باعث جلوگیری از هدر رفتن زمان می‌شود بلکه نتایج بهتر و دقیق‌تری تولید می‌کند و سبب می‌شود که معیارهای یکنواختی در پاسخگویی به درخواست مشتریان اعمال شوند.

استخراج متن ازنظر ماهیت شبیه همان داده‌کاوی هست اما این بار تمرکز به‌جای اشکال ساختاریافته روی متن بدون ساختارِ بااین‌حال یکی از اولین نکات مهم تو فرآیند متن‌کاوی، سازمان‌دهی و ساختاربندی داده‌ها است. پس دیگر می‌شود هم ازنظر کیفی و هم کمّی یا مقداری آن‌ها رو موردبررسی قرارداد. این فرآیند معمولاً با استفاده از فنّاوری NLP یا پردازش زبان طبیعی انجام می‌شود و به این صورتی که اصول زبان‌شناسی محاسباتی رو برای تجزیه و تفسیر داده‌ها اعمال می‌کند.

NLP فنّاوری است که هدف اصلی آن رسیدن به یه درک بهتر از زبان طبیعی انسان با استفاده از کامپیوترها است. این فنّاوری فن‌های ساده و محکمی رو برای پردازش سریع متن به کار می‌برد و همچنین از فن‌های آنالیز زبان‌شناسی هم استفاده می‌کند. نقش NLP در متن‌کاوی فراهم کردن یه سیستم در مرحله استخراج اطلاعات با داده‌های زبان است.

در متن‌کاوی برای ساختاردهی به داده‌های بدون ساختار اول‌ازهمه شاخصه‌ای عددی معناداری از متن استخراج می‌شود و بعد این داده‌ها با استفاده از الگوریتم‌های داده‌کاوی پردازش می‌گردد. این کار شامل موارد ذیل هست:

· جمع‌بندی و خلاصه‌سازی مستندها بر اساس مفاهیم کلیدی

· خوشه‌بندی مستندها بر اساس مفاهیم مشابه و موضوع‌های مشترک

· تعیین روابط بین مستندها

· استخراج محتوای پنهان

· مراحل اصلی در متن‌کاوی

درگذشته الگوریتم‌های NLP در درجه اول به مدل‌های آماری یا قوانینی مبتنی بودن که یه مسیری رو برای یافتن مجموعه داده‌ها ایجادمی شد. بااین‌حال در اواسط سال 2010 مدل‌های یادگیری عمیقی که با روش‌هایی که کمتر تحت نظارت بودن کار و به‌عنوان یه روش جایگزین برای تجزیه‌وتحلیل متن و سایر برنامه‌های پیشرفته تحلیلی که شامل مجموعه داده‌های بزرگ می‌شدند ظاهر گردیدند. یادگیری عمیق از شبکه‌های عصبی برای تجزیه‌وتحلیل داده‌ها و روشی تکراری که انعطاف‌پذیرتر و شهودی‌تر از آن چیزی است که ماشین یادگیری معمولی پشتیبانی می‌کند استفاده می‌گردد.

درنتیجه در حال حاضر ابزارهای متن‌کاوی در کشف شباهت‌های پنهان و ارتباطاتی که در متن داده هست مجهزتر شده‌اند. یه مدل بدون نظارت می‌تواند داده‌ها رو از اسناد متنی یا ایمیل‌ها به گروهی از موضوع‌ها بدون راهنمایی یه تحلیلگر سازمان‌دهی کند.

برنامه‌های کاربردی استخراج متن

تجزیه‌وتحلیل احساسات یه برنامه کاربردی در استخراج متن است که می‌تواند احساسات مشتری درباره یه شرکت رو دنبال کند این برنامه همچنین به‌عنوان Mining Opinion هم شناخته می‌شود که متن رو ازنظرهای آنالیز، شبکه‌های اجتماعی، ایمیل، تعامل با مرکز تماس و سایر منابع داده استخراج می‌کند تا موضوع‌های متداولی رو که به احساسات منفی یا مثبت از طرف مشتریان اشاره دارد شناسایی کند. سایر کاربردهای متداول متن‌کاوی شامل موارد زیر می‌شوند:

· غربالگری نامزدهای شغلی با توجه به عبارت‌هایی که تو رزومه شغلی آن‌ها نوشته‌شده است.

· مسدود کردن ایمیل‌های اسپم

· طبقه‌بندی محتوای وب‌سایت

· مشخصات بیمه‌هایی که ممکنه تقلبی باشند

· تجزیه‌وتحلیل توضیح‌های عالم پزشکی برای کمک به تشخیص بهتر

· بررسی اسناد شرکت‌ها به‌عنوان یه بخشی از فرآیندهای کشف الکترونیکی

چالش‌ها و مسائل احتمالی

متن‌کاوی می‌تواند چالش‌برانگیز باشد چون‌که داده‌ها معمولاً مبهم و متناقض هستند. تالش برای تجزیه‌وتحلیل متن‌هایی که شامل ابهام‌های ناشی از استفاده از زبان عامیانه، طعنه، گویش‌های منطقه‌ای و زبان فنی مخصوص یه سری از صنایع است خیلی سخت و پیچیده می‌شود، درنتیجه الگوریتم‌های Mining Text باید برای آنالیز این‌طور ابهامات و ناسازگاری‌ها موقع دسته‌بندی، برچسب زدن و غیره آموزش را در نظر بگیرند.

علاوه بر این مدل‌های یادگیری عمیق که در خیلی از نرم‌افزارهای استخراج متن مورداستفاده هستند به مقدار زیادی داده‌های آموزشی و قدرت پردازش نیاز دارند که کار پرهزینه‌ای است. جهت‌گیری در مجموعه داده‌ها مورد دیگ ری هست که می‌تواند باعث به وجود آمدن نتایج ناقص یا اشتباه بشود و متخصص داده باید حتماً این جهت‌گیری و تعصب‌ها رو شناسایی کند.

همچنین نرم‌افزارهای متن‌کاوی زیادی ازجمله SAS،SAP،IBM،Oracle،Tibco و R وجود دارد که متخصص این کار باید بهترین آن رو بر اساس هدف و کاری که قرار است انجام بدهد انتخاب کند.

مزایا

استفاده از روش متن‌کاوی و تجزیه‌وتحلیل برای درک کردن بهتر احساسات مشتری می‌تواند به شرکت‌ها کمک کنه تا مسائل مربوط به محصولات و کسب‌وکار را تشخیص بدن و قبل از اینکه به مشکل‌های بزرگ و دردسرسازی که فروش آن‌ها رو تحت تأثیر قرار می‌دهد، تبدیل و آن‌ها رو شناسایی و حل کنند.

همچنین استخراج متن می‌تواند در رابطه با نظرها و ارتباط‌های مشتری، انتظارها و جنبه‌های جدیدی رو شناسایی کند که همین امر به قوی‌تر شدن محصول‌های آن‌ها کمک می‌کند.

متن‌کاوی همچنین می‌تواند به پیش‌بینی رویگردانی مشتری[4] کمک کند و به شرکت این قدرت رو بد هد که به‌عنوان یه بخشی از برنامه‌های بازاریابی و مدیریت ارتباط با مشتری اقدام‌هایی برای رفع مشکل‌های احتمالی و سایر مشکل‌ها با رقیبان انجام بد هند.

تو مراقبت‌های پزشکی می‌شود از این فنّاوری بر اساس علائمی که گزارش می‌شود برای تشخیص بهتر یه بیماری استفاده کرد.

[1] Scalability

[2] Real-Time Analysis

[3] Consistent Criteria

[4] Customer Chun

محمدرضا دهقانی محمودآبادی چهارشنبه 11 اسفند‌ماه سال 1400 ساعت 02:52 ب.ظ

نظرات 0 + ارسال نظر

برای نمایش آواتار خود در این وبلاگ در سایت Gravatar.com ثبت نام کنید. (راهنما)

نام

ایمیل

آدرس وبسایت

مشخصات مرا به خاطر بسپار

ایمیل شما بعد از ثبت نمایش داده نخواهد شد

ش	ی	د	س	چ	پ	ج
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30

محمدرضا دهقانی محمودآبادی

پیوندها

مجله های ISI

مجله های علمی و پژوهشی

دسته‌ها

جدیدترین یادداشت‌ها

نویسندگان

بایگانی

تقویم

جستجو

معیار ثابت‌قدمی[3] در انجام کارها