X
تبلیغات
پیکوفایل
رایتل


سه‌شنبه 26 شهریور 1387

داده و الگو یکی از شاخص های بسیار مهم در دنیای اطلاعات هستند. خوشه بندی(Clustering) یکی از بهترین روش هایی است که برای کار با داده ها ارائه شده. قابلیت آن در ورود به فضای داده و تشخیص ساختار آنها، خوشه بندی را یکی از ایده آل ترین مکانیزم ها برای کار با دنیای عظیم داده ها کرده است. اولین بار ایده ی آن در دهه ی 1935 ارائه شد و امروزه با پیشرفت ها و جهش های عظیمی که در آن پدید آمده، خوشه بندی در کاربردها و جنبه های مختلفی حضور یافته است.

شناخت و دسته پنجه نرم کردن با داده ها یکی از اهداف مهم در داده کاوی، آنالیز هوشمند داده ها ، سنسور هسته ای ، تشخیص تصاویر و مدل سازی سیستم ها با محیط منطقی است.

یک جستجوی ساده در وب یا حتی در پایگاه داده ی یک کتابخانه، کاربرد شگفت انگیز خوشه بندی را برای ما آشکار می سازد. خوشه بندی در علم پزشکی، بازاریابی، مهندسی، اقتصاد، علوم زیستی، شیمی، علائم نظامی، مهندسی تغذیه، سرمایه گذاری و تحصیلات خود را به طور شگفت انگیزی وارد کرده است . الگوریتم های خوشه بندی در زمینه های مختلفی کاربرد دارد. برای مثال:

+ بازاریابی: یافتن مشتری ها با خصوصیات یکسان با در دست داشتن پایگاه داده ای بزرگ از همه مشتری ها با به همراه مشخصات و رکوردی دیده های قبلی ها.

+ زیست شناسی: طبقه بندی گیاهان و جانوران با توجه به خصوصیاتشان

+ کتابخانه: سفارش کتاب

+ بیمه: تشخیص افراد متقلب، تشخیص افرادی که بیمه موتور دارند و بیشترین میزان درخواست از بیمه را نیز در سال مشخصی داشته اند.

+ شهرسازی: شناسائی خانه هایی که مدل و ارزش و منطقه جغرافیایی آنها مشابه هست.

+ علوم زلزله شناسی: دسته بندی مشاهدات از مراکز زلزله برای تشخیص مناطق زلزله خیز

+ www: طبقه بندی مستندات، دسته بندی داده های و بلاگ ها به این منظور که الگوهای مشابه دستیابی به آن و بلاگ را مشخص کنند.

خوشه بندی در واقع یافتن ساختار در مجوعه ای از داده هایی است که طبقه بندی نشده اند. به بیان دیگر می توان گفت که خوشه بندی قراردادن داده ها در گروه هایی است که اعضای هر گروه از زاویه خاصی شباهت دارند. در نتیجه اعضای یک خوشه به یکدیگر شباهت دارند و با اعضای خوشه های دیگر هیچ شباهتی ندارند. معیار شباهت در اینجا فاصله (distance) بوده یعنی اشیاء ای که به همین دیگر نزدیکترند در یک خوشه قرار می گیرند.

محاسبه فاصله بین دو داده ها در خوشه بندی بسیار مهم هست. فاصله که همان معرف عدم تجانس است به ما کمک می کند در فضای داده ای حرکت کنیم و خوشه ها را تشکیل دهیم. با محاسبه فاصله بین دو داده می توان فهمید که چقدر این دو داده به هم نزدیک هستند و بر این اساس آنها را در یک خوشه قرار بدهیم. توابع ریاضی مختلفی برای محاسبه فاصله وجود دارند. مانند فاصله افلیدسی , همینگ و ....

الگوریتم های خوشه بندی متفاوتی چون fuzzy c-means , k- means ، hierarchical clustering (خوشه بندی سلسه مراتبی) و mixture of Gaussians و ... وجود دارد. الگوریتم های خوشه بندی باید دارای خصوصیات زیر باشند:

1ـ مقیاس پذیری

2ـ امکان کار کردن با attribute های مختلف

3ـ یافتن خوشه ها با شکل های قراردادى

4ـ دارا بودن حداقل دانش محیط کامپیوتر برای تشخیص پارامترهای ورودی.

5ـ دسته پنجه نرم کردن با نویز و برون نهشت ها

6ـ ترتیب داده های ورودی بر روی آن تأثیری نداشته باشد.

7ـ دارای ابعاد مختلف و بالا

8ـ قابلیت تغییر و امکان استفاده ی آسان

در میان همه الگوریتم های خوشه بندی، الگوریتم فازی جایگاه به خصوصی دارد. آنچه الگوریتم فازی را از سایر الگوریتم های خوشه بندی مجزا می سازد این است که در این جا یک داده می تواند همزمان به دو یا بیشتر خوشه تعلق داشته باشد.

آنچه که میزان تعلق یک داده را به یک خوشه مشخص می کند. درجه عضویت آن داده به خوشه گویند.

این موضوع الگوریتم فازی را یکی از مهمترین موضوعات روز در دنیای داده ها کرده است.