پایان نامه مقطع کارشناسی ارشد رشته فناوری اطلاعات

وزارت علوم، تحقیقات و فناوری

دانشگاه علوم و فنون مازندران

پایان نامه مقطع کارشناسی ارشد

رشته فناوری اطلاعات/ مدیریت سیستم های اطلاعاتی

عنوان:

پیش پردازش داده های نا متوازن با بهره گیری از ماشین بردار پشتیبان

استاد راهنما:

جناب دکتر جواد وحیدی

استاد مشاور:

جناب دکتر بابک شیرازی

برای رعایت حریم خصوصی نام نگارنده درج نمی گردد

تکه هایی از متن به عنوان نمونه :

فهرست مطالب:

فصل اول مقدمه و کلیات پژوهش

1-1مقدمه…………………………………………………………………………………………………………. 2

1-2بیان مساله……………………………………………………………………………………………………. 2

1-3 اهداف پژوهش……………………………………………………………………………………………… 4

1-4 پرسش های اصلی پژوهش………………………………………………………………………………. 4

1-5فرضیه های پژوهش…………………………………………………………………………………………. 4

1-6 نوآوری پژوهش…………………………………………………………………………………………….. 5

1-7 تعریف واژگان کلیدی……………………………………………………………………………………. 5

1-8 ساختار پایان نامه………………………………………………………………………………………….. 9

فصل دوم ادبیات و پیشینه پژوهش

2-1 مقدمه………………………………………………………………………………………………………. 11

2-2 مفاهیم داده کاوی……………………………………………………………………………………….. 11

2-2-1 تعاریف داده کاوی………………………………………………………………………………… 11

2-2-2 فرایند کشف دانش………………………………………………………………………………. 12

2-2-3 حوزه ها و عملکردهای داده کاوی……………………………………………………………. 12

2-3 کاربردهای داده کاوی و کشف دانش……………………………………………………………… 14

2-4 چالش هایی برای KDD…………………………………………………………………………………

2-5 پیش پردازش و آماده سازی داده ها :………………………………………………………………. 16

2-5-1اجزای اصلی پیش پردازش داده ها……………………………………………………………. 17

2-5-1-1 پاکسازی داده ها…………………………………………………………………………… 18

2-5-1-2یکپارچه سازی داده ها…………………………………………………………………….. 20

2-5-1-3 تبدیل داده ها………………………………………………………………………………. 20

2-5-1-3-1هموار سازی………………………………………………………………………….. 20

2-5-1-3-2 تجمیع………………………………………………………………………………… 21

2-5-1-3-3 تعمیم………………………………………………………………………………….. 21

2-5-1-3-4 ساخت ویژگی………………………………………………………………………. 21

2-5-1-3-5 نرمال سازی………………………………………………………………………….. 21

2-5-1-4 کاهش داده ها……………………………………………………………………………… 21

2-5-1-4-1 تجمیع مکعبی داده…………………………………………………………………. 23

2-5-1-4-2 انتخاب زیر مجموعه مشخصه ها……………………………………………….. 23

2-5-1-4-3 کاهش تعدد نقاط…………………………………………………………………… 24

2-5-1-5 تصویر کردن برای کاهش بعد………………………………………………………….. 24

2-6 روش های ارزیابی دسته بندی……………………………………………………………………….. 25

2-6-1 ارزیابی صحت روشهای دسته بندی………………………………………………………….. 27

2-7 تکنیک حداقل مربعات……………………………………………………………………………….. 30

2-7-1 تقریب کمترین مربعات گسسته چند جمله ای……………………………………………. 31

2-8 ماشین بردار پشتیبان……………………………………………………………………………………. 33

2-8-1مقدمه……………………………………………………………………………………………….. 33

2-8-2دلایل بهره گیری از SVM…………………………………………………………………………….

2-8-3 کاربردهای SVM…………………………………………………………………………………..

2-8-4 مزایا و معایب SVM……………………………………………………………………………….

2-8-5 تعاریف کلی……………………………………………………………………………………….. 36

2-8-5-1تابع تصمیم مسائل دو کلاسی……………………………………………………………. 36

2-8-5-2 تعیین تابع تصمیم(ابر صفحه جداکننده)………………………………………………. 38

2-8-5-3 بعد VC……………………………………………………………………………………… 39

2-8-5-4حداقل سازی ریسک تجربی…………………………………………………………….. 40

2-8-5-5حداقل سازی ریسک ساختاری…………………………………………………………. 42

2-8-6 ماشین بردار پشتیبان طبقه بندی کننده خطی با داده های جدا شدنی به گونه خطی 44

2-8-7ماشین بردار پشتیبان طبقه بندی کننده خطی با داده های جدا نشدنی به گونه خطی ( 49

2-8-8 ماشین بردار پشتیبان غیر خطی……………………………………………………………… 52

2-8-9 انواع کرنل ها……………………………………………………………………………………… 55

2-8-9-1 کرنل چند جمله ای……………………………………………………………………….. 55

2-8-9-2 کرنل های شبکه عصبی………………………………………………………………….. 55

2-8-9-3 کرنل های گوسی…………………………………………………………………………. 56

2-9 تکنیک های پیش پردازش نامتوازن…………………………………………………………………. 58

2-9-1 ماشین بردار پشتیبان و مشکل عدم توازن کلاس…………………………………………. 58

2-9-1-1 عیب مشکل بهینه سازی با ناحیه مرزی نرم………………………………………… 59

2-9-1-2 نسبت بردار پشتیبان نامتوازن……………………………………………………………. 60

2-9-2 روشهای یادگیری عدم توازن خارجی برای SVM (روشهای پیش پردازش داده)         61

2-9-2-1 روشهای نمونه برداری دوباره………………………………………………………….. 61

2-9-2-1-1زیر نمونه برداری…………………………………………………………………….. 61

2-9-2-1-2بیش نمونه برداری…………………………………………………………………… 62

2-9-2-1-3 SCM……………………………………………………………………………………

2-9-2-1-4 نمونه برداری پیشرفته……………………………………………………………… 63

2-9-2-1-5 تکنیک بیش نمونه برداری اقلیت مصنوعی……………………………………. 64

2-9-2-1-6 نزدیک ترین همسایه فشرده(CNN)……………………………………………..

2-9-2-1-7 نزدیک ترین همسایه تغییر یافته(ENN)………………………………………….

2-9-2-1-8 Tomek-Link…………………………………………………………………………

2-9-2-2 روشهای یادگیری جمعی………………………………………………………………… 68

2-9-2-2-1الگوریتم آموزشی Bagging…………………………………………………………

2-9-2-2-2 الگوریتم آموزشی Boosting………………………………………………………

2-9-3 روشهای یادگیری عدم تعادل داخلی برای ماشین بردار پشتیبان………………..71

2-9-3-1 هزینه خطای متفاوت……………………………………………………………………… 71

2-9-3-2 یادگیری یک کلاس………………………………………………………………………. 73

2-9-3-3zSVM………………………………………………………………………………………….

2-9-3-4 روشهای اصلاح کرنل……………………………………………………………………. 74

2-9-3-5 یادگیری فعال………………………………………………………………………………. 75

2-9-3-6 روش های ترکیبی………………………………………………………………………… 75

فصل سوم:روش پژوهش

3-1مقدمه……………………………………………………………………………………………………….. 77

3-2 ماشین بردار پشتیبان فازی برای یادگیری عدم توازن کلاس…………………………………… 77

3-2-1 روش SVMFuzzy………………………………………………………………………………..

3-2-2متد FSVM-CIL…………………………………………………………………………………..

3-3 ماشین بردار پشتیبان حداقل مربعات (LS-SVM)…………………………………………………

3-4 الگوریتم پیشنهادی……………………………………………………………………………………… 87

فصل چهارم: محاسبات و یافته های پژوهش

4-1 مقدمه………………………………………………………………………………………………………. 90

4-2 مجموعه داده ها………………………………………………………………………………………… 90

شما می توانید تکه های دیگری از این مطلب را در شماره بندی انتهای صفحه بخوانید              

4-3 نتایج کارایی روش های مختلف بر روی مجموعه داده ها…………………………………….. 91

فصل پنجم:نتیجه گیری و پیشنهادات

5-1 جمع بندی و نتیجه گیری……………………………………………………………………………… 94

5-2 کارهای آتی………………………………………………………………………………………………. 96

منابع و مآخذ :………………………………………………………………………………………. 97

چکیده انگلیسی…………………………………………………………………………………………….102

چکیده:

برای دست یابی به نتایج مطلوب در داده کاوی نیاز به پیش پردازش داده ها داریم.پیش پردازش داده ها یکی از اجزای مهم در فرایند کشف دانش می باشد.روش های بسیاری برای پیش پردازش داده هست که می­توان از آنها بهره گیری نمود.اما این روش ها برای داده های نامتوازن مناسب نیستند. اصطلاح “مجموعه داده نامتوازن” عموما به مجموعه داده‌ای گفته می گردد که در آن تعداد نمونه‌هایی که نمایانگر یک کلاس هستند از نمونه‌های دیگر در کلاس‌های متفاوت کمتر می باشد مشکل عدم توازن کلاس در بسیاری از برنامه های کاربردی جهان واقعی به رسمیت شناخته شده می باشد و موضوع تحقیقات یادگیری مبتنی بر ماشین قرار گرفته می باشد از این رو اخيراً مشكل نامتوازن بودن كلاسها مورد توجه محققان در زمينه ي داده كاوي قرار گرفته می باشد.آنها به دنبال کشف روش هایی بودند که با اعمال بر روی داده های نامتوازن به نتایج مطلوبی دست یابند.

در این پروژه روش های گوناگون پیش پردازش داده های نامتوازن مورد بحث قرار گرفته و الگوریتم جدیدی برای بهبود نتایج طبقه بندی ارائه می­گردد، به گونه ای که کارایی و دقت آن مورد توجه باشد.

فصل اول: مقدمه و کلیات پژوهش

1-1- مقدمه

کشف دانش و داده کاوی یک حوزه جدید میان رشته ای و در حال رشد می باشد که حوزه های مختلفی همچون پایگاه داده، آمار، یادگیری ماشین و سایر زمینه های مرتبط را با هم تلفیق کرده تا اطلاعات و دانش ارزشمند نهفته در حجم بزرگی از داده ها را استخراج کند.هدف کشف دانش و داده کاوی یافتن الگوها در پایگاه داده می باشد که در میان حجم عظیمی از داده ها مخفی هستند]1[ .کشف دانش شامل مراحل متعددی می باشد که در این پژوهش به مرحله پیش پردازش توجه می­کنیم.

 

مرحله آماده سازی داده ها مهم ترین و زمانبرترین مرحله در پروژه های داده کاوی می باشد.از آنجا که داده ها در این پروژه ها ورودی پروژه هستند هر قدر این ورودی دقیق تر باشد، خروجی کار دقیق تر خواهد بود.یعنی ما از پدیده “ورودی نامناسب، خروجی نامناسب ” دور می­شویم]1[.داده هاي خام معمولا دچار مشکلاتی مانند نویز، داده پرت، تغییرات در نمونه برداري هستند و بهره گیری از آنها به همین صورت موجب تضعیف نتایج مورد انتظار میشود.پس بایستی از روشی برای بهبود نتایج بهره گیری نمود.پیش پردازش داده ها جهت بهبود کیفیت داده های واقعی برای داده کاوی لازم می باشد.پس پردازش اولیه ای مورد نیاز می باشد تا مقادیر مفقوده، انحرافات و مسائلی همانند این را در داده های اولیه بیابد. پیش پردازش داده ها شامل همه تبدیلاتی می باشد که بر روي داده هاي خام صورت می­گیرد وآنها را به صورتی در می­آورد که براي پردازشهاي بعدي نظیر بهره گیری در دسته بندي و خوشه بندی، ساده تر و موثرتر می­سازد.

در حال حاضر سازمانها نیاز دارند تا بتوانند داده ها را به صورت کاراتر دسته بندی کنند و از تحلیل نتایج آن برای بهبود طریقه پیشرفت کسب و کار بهره گیری نمایند.ممکن می باشد که داده های در دسترس ، داده هایی مبهم و مغشوش باشند و یا کلاس های داده نامتوازن باشند. پس نیاز به پیش پردازش دقیق داده ها رو به افزایش می باشد. برای پاسخ به این نیاز رو به افزایش ، افراد همواره کوشش در ارائه روش های جدید و موثرتری دارند.

1-2بیان مساله

هرچند که روشهای مختلفی برای پیش پردازش داده ها موجود می باشد اما عملکرد و دقت این روش ها متفاوت می باشد و کوشش در جهت ارائه روشی کارامد امری ضروری می باشد.با در نظر داشتن اهمیت داده ها در جهان کنونی و افزایش حجم داده ها مساله پیش پردازش مناسب داده ها، بخصوص داده های نامتوازن یک چالش به نظر می­رسد.اغلب روش های موجود در پیش پردازش داده های ناتوازن به سمت کلاس اکثریت تمایل دارند و این امر باعث می گردد که داده های کلاس اقلیت به صورت نویز در نظر گرفته گردد.

همانطور که پیش از این نیز گفته گردید برای دست یابی به نتایج مطلوب در داده کاوی نیاز به پیش پردازش داده ها داریم.میتوان ادعا نمود که اگر مرحله آماده سازی داده ها به خوبی صورت نپذیرد، نتایجی بدست می­آید که نمی­تواند مورد بهره گیری قرار گیرد و ممکن می باشد که هزینه و زمان به کار رفته برای دست یابی به نتیجه موثر هدر رود و نتایج حاصل به دلیل عدم پیش پردازش مناسب داده غیر قابل بهره گیری و نادرست باشد.

اخيراً مشكل نامتوازن بودن كلاسها مورد توجه محققان در زمينه ي داده كاوي قرار گرفته می باشد. در موارد متعددي كلاسي كه از نقطه نظر دامنه ي كاربردي اهميت زيادي دارد(كلاس اصلي) شامل تعداد حالات كمتري نسبت به كلاسي می باشد كه كلاس اكثريت مي­باشد. اين مجموعه ي داده ها نامتوازن ناميده مي­گردد. رويكرد سنتي داده كاوي توانايي خوبي براي پيش بيني نمونه هاي اقليت كه مورد توجه می باشد ندارند. متأسفانه در اكثر موارد داده هاي واقعي داراي اين خصوصيت هستند. به عنوان مثال در تشخيص بيماري­هاي نادر، حملات شبكه، متنكاوي و … معمولاً توزيع داده­ها نامتوازن مي باشد.

در واقع مساله این می باشد که چگونه میتوان داده های نامتوازن را به گونه ای پیش پردازش نمود که در خوشه های مناسب و درست طبقه بندی شوند.پس مساله این پژوهش ارائه روشی جهت پیش پردازش داده های نا متوازن می باشد به گونه ای که کارایی و دقت آن در مقایسه با روش های دیگر بیشتر باشد.

در روش ارائه شده در این پژوهش برای ارتقای روش ماشین بردار پشتیبان از تکنیک حداقل مربعات با متر اقلیدسی بهره گیری نمودیم.این روش بهبود یافته را M-SVM می­نامیم.پس مساله را بدین شکل طرح می نماییم، چگونه می­توان در روش پیش پردازش داده های نامتوازن به دقت بالاتری دست پیدا نمود و از پیش پردازش صحیح داده برای دست یابی به نتایج صحیح در حوزه کاربردی بهره گیری نمود.از انجا که داده های متفاوتی هست ما پیش پردازش بر روی مجموعه داده های نامتوازن را انتحاب کردیم.

3-1- اهداف پژوهش

هدف از این پژوهش ارائه راهکاری به مقصود افزایش دقت متعادل سازی داده و غلبه بر مشکل عدم توازن کلاس می باشد.کوشش کرده ایم تا متعادل سازی داده که در مرحله پیش پردازش داده صورت می­گیرد باعث بهبود نتایج طبقه بندی نمونه ها گردد.بدین مقصود اثربخشی و کارایی روش ارائه شده با سایر روش های موجود مورد مقایسه و ارزیابی قرار می­گیرد.امید می باشد که نتایج الگوریتم نهایی امیدوار کننده باشد و نشان دهنده پیشرفت الگوریتم باشد.این پژوهش بر اساس نیاز به دسته بندی دقیق داده ها و بهره گیری از تحلیل نتایج داده ها در بهبود شرایط مرجع مورد بهره گیری کننده داده ها شکل گرفته می باشد.

***ممکن می باشد هنگام انتقال از فایل اصلی به داخل سایت بعضی متون به هم بریزد یا بعضی نمادها و اشکال درج نشود اما در فایل دانلودی همه چیز مرتب و کامل و با فرمت ورد موجود می باشد***

متن کامل را می توانید دانلود نمائید

زیرا فقط تکه هایی از متن پایان نامه در این صفحه درج شده (به گونه نمونه)

اما در فایل دانلودی متن کامل پایان نامه

 با فرمت ورد word که قابل ویرایش و کپی کردن می باشند

موجود می باشد

تعداد صفحه : 115

شما می توانید مطالب مشابه این مطلب را با جستجو در همین سایت بخوانید                     

قیمت : چهارده هزار و هفتصد تومان