ارتقای کیفیت دسته‌بندی متون با استفاده از کمیته‌ دسته‌بند دو سطحی

نویسندگان

چکیده

امروزه با توجه به رشد روز افزون دسترسی به اسناد الکترونیکی، دسته‌بندی خودکار اهمیت وی‍‍ژه‌ای یافته است. روش‌های معمول در این زمینه، روش‌های یادگیری ماشین هستند. روش‌های بر اساس کمیته کارایی بهتری نسبت به سایر روش‌ها از خود نشان داده‌اند. در این مقاله، دو ایده در زمینه کمیته‌های دسته‌بند ارائه شده است. ایده اول برمبنای کمیته‌ bagging که در آن هرکدام از اعضای کمیته روی زیرمجموعه‌ای از مجموعه سندهای آموزشی، ساخته می‌شوند، ارائه شده است. بر اساس این ایده، ابتدا مجموعه آموزش با یک روش خوشه‌بندی به چند خوشه، بر اساس مشابهت یا عدم مشابهت کلاس‌های اسناد آموزشی، تقسیم می‌شود و سپس از روی هر خوشه از اسناد، یک دسته‌بند ساخته شده و به عنوان عضو کمیته قرار داده می‌شود (روش یادگیری اعضای کمیته یکسان است). در ایده دوم ساخت کمیته‌ای دو سطحی مطرح شده است. در این ایده اعضای کمیته‌های سطح دوم خود کمیته‌هایی هستند که بر مبنای ایده اول ساخته می‌شوند. در ارزیابی ایده اول مشخص شد که افزایش کارایی بر مبنای معیار دقت و معیار بازخوانی در کمیته بیزین ساده نوع اول، بیشتر از سایر کمیته‌های نوع اول بوده و به ترتیب 12 درصد و 1/5 درصد می‌باشد. ارزیابی‌ها در کمیته نوع دوم (برمبنای ایده دوم)، افزایش کارایی را نسبت به کمیته نوع اول نشان می‌دهند که بیشترین آن نسبت به کمیته Rocchio نوع اول بوده، که معیار دقت را در حدود 8/3 درصد و معیار بازخوانی را در حدود 8/18 درصد افزایش داده است.

کلیدواژه‌ها