افزایش کارائی دسته‌بندی متون بر اساس بهبود روش انتخاب خصیصه

نویسندگان

چکیده

در دسته بندی متون معمولا از کلمات به عنوان خصیصه استفاده می شود. از آنجا که در هر مجموعه متون، تعداد بسیار زیادی خصیصه وجود دارد، در این مقاله روش‌هائی به منظور کاهش تعداد خصیصه‌ها و انتخاب خصیصه‌های مرتبط، پیشنهاد شده‌است. به طور کلی روش‌های فیلتری انتخاب خصیصه از چهار همبستگی مثبت و منفی بین خصیصه‌های سندها و دسته‌ها در ضابطه انتخاب خصیصه استفاده می‌کنند. در روش‌های پیشنهادی این مقاله ابتدا کلیه همبستگی های مثبت و منفی را با اثر مثبت و سپس همبستگی های مثبت را با اثر مثبت و همبستگی های منفی را با اثر منفی در ضابطه انتخاب خصیصه‌ها در نظر گرفته‌ایم. نتایج آزمایشات نشان دهنده تاثیر بیشتر همبستگی های مثبت، نسبت به همبستگی های منفی می‌باشد. دیگر روش پیشنهادی، ترکیبی از یک روش فیلتری و یک روش روکشی است که ابتدا با استفاده از روش فیلتری Relief-F تعدادی از خصیصه‌ها با هزینه محاسباتی کمی انتخاب می‌شوند و سپس از خصیصه‌های انتخاب شده با استفاده از روش روکشی SFS یا SBS به صورت دقیقتری با کمک دسته‌بند متون، خصیصه‌های نامرتبط حذف می‌شوند. ارزیابی‌های انجام گرفته نشان دهنده کارائی بهتر روش ترکیبی نسبت به روش‌های فیلتری است.

کلیدواژه‌ها