دستهبندی متن به فرآیند
برچسبگذاری یا اختصاص دادن یکچند دسته خاص به دادههای متنی غیر ساختیافته
اطلاق میشود. دستهبندی متون یکی از مؤلفههای اساسی در پردازش زبان طبیعی[2]
محسوب میشود و فرآیند سازماندهی و ساختاربندی دادههای متنی پیچیده را آسان میکند.
همچنین فرآیند دستهبندی متون نقش مهمی در شناسایی اطلاعات بامعنا و استخراج دانش
از دادههای متنی دارد. به کمک روشهای دستهبندی متن، شرکتهای تجاری و سازمانها
قادر خواهند بود انواع مختلفی از اطلاعات نظیر ایمیلها و نظرات مشتریان را تحلیل
کرده و از راههای سریع و مقرونبهصرفه اطلاعات و بینش مفیدی از دادههای متنی به
دست آورند.در
ادامه مهمترین کاربردهای دستهبندی متن نظیر تحلیل موضوعی[3]،
تحلیل احساسات[4]، تشخیصزبان[5]
و تشخیص نیت یا هدف[6]موردبررسی قرار میگیرند.
روشهای تحلیل موضوعی متن به
مدل متنکاوی کمک میکنند تا قالب محتوایی یا موضوع یک متن را درک کند. این دسته
از روشها ازجمله روشهای اساسی برای سازماندهی دادههای متنی محسوب میشود.
شامل روشهای تحلیل احساسات نهفته در یک داده
متنی است. فرض کنید که مدیر واحد پشتیبانی از مشتریان یک شرکت تجاری قصد دارد تا
نظرات مرتبط با نرمافزار همراه شرکت را موردبررسی قرار دهد. این شخص ممکن است
دریابد که اغلب نظرهای مشتریان در قالب موضوعی واسط کاربری یا سهولت استفاده دستهبندیشدهاند.
در چنین حالتی مدیر واحد پشتیبانی اطلاعات کافی را برای تصمیمگیری در مورد میزان
رضایت مشتریان از محصول شرکت نخواهد داشت. تحلیل احساسات موجود در متن به مدل متنکاوی
اجازه میدهد تا نظرات و احساسات نهفته در آن را درک و آنها در قالب مثبت، منفی
یا خنثی دستهبندی کند. تحلیل احساسات کاربردهای مفیدی در سازمانها و شرکتهای
تجاری دارد. بهعنوان نمونه در مورد پشتیبانی از مشتریان یک شرکت تجاری از طریق
تحلیل احساسات موجود در نظرات مشتریان قادر خواهد بود مش تریان عصبانی را بهسرعت
شناسایی و به درخواست آنها با اولویت بالاتری رسیدگی کند.
به مدل متنکاوی اجازه دستهبندی متن را بر اساس زبان میدهد.
یکی از مهمترین کاربردهای این دسته روشها، هدایت خودکار درخواستهای پشتیبانی
مشتریان در سراسر دنیا به نمایندگان شرکت در مناطق جغرافیایی مناسب است.بهعنوان نمونه درخواست کاربران ایرانی برای پشتیبانی توسط
کارمندان واحد پشتیبانی شرکتهای تجاری در ایران پاسخ داده خواهد شد. خودکار کردن
چنین فعالیتی بسیار ساده است و باعث بهرهوری بهینه از زمان در شرکتهای تجاری
خواهد شد.
از طریق روشهای دستهبندی
متن نیت یا هدف نهفته در یک متن بهطور خودکار شناسایی میشود. چنین قابلیتی در
هنگام تحلیل گفتگوهای مشتریان بسیار سودمند خواهد بود. برای مثال شرکتها میتوانند
حجم عظیمی از پیامهای دریافتی مشتریان را تحلیل کنند و از این طریق افرادی که
خواهان دریافت خدمات یا محصولات شرکت هستند را از کسانی که تمایل به لغو اشتراک
خدمات یا محصولات خوددارند شناسایی کنند.
استخراج متن یک فن تحلیل کیفی
متن است که ویژگیهای خاصی نظیر کلمات کلیدی[8]،
نام موجودیتهای متنی[9]،
آدرسها، ایمیلها و سایر موارد را از دادههای متنی استخراج میکند. این دسته از
فنها نقش مهمی در شناسایی اطلاعات کلیدی از دادههای متنی غیر ساختیافته دارند؛
اطلاعاتی که استخراج دستی آنها از متن بسیار زمانگیر خواهد بود. در اغلب مواقع
ترکیب کردن روشهای استخراج متن با روشهای دستهبندی متن برای تحلیل دادههای
متنی بسیار مفید است.در
ادامه مهمترین کاربردهای استخراج متن نظیر استخراج کلمات کلیدی[10]،
بازشناسی موجودیتهای نامگذاری شده[11]
و استخراج ویژگی[12]موردبررسی قرار میگیرد.
کلمات کلیدی مرتبطترین لغات موجود در یک داده
متنی محسوب میشوند و میتوانند برای خلاصهسازی محتویات آنها مورداستفاده قرار
بگیرند.استفاده
از روشهای استخراج کلمات کلیدی به مدل متنکاوی اجازه میدهند تا دادههایی که
قرار است جستجو شوند را شاخص محتویات متون را خالصسازی و متون را برچسبگذاری
کند.
چنین روشهایی مدل متنکاوی را قادر میسازند تا
ویژگیهای خاص یک سرویس یا محصول را از میان مجموعهای از دادههای متنی شناسایی
کنند. بهعنوان نمونه درصورتیکه هد ف تحلیل مشخصات یک محصول باشد از طریق این روشها
ویژگیهایی نظیر رنگ، مدل و نام تجاری[13]
قابلاستخراج خواهد بود.