آموزش داده کاوی با استفاده از WEKA
داده کاوی مجموعه تکنیک هایی می باشد که پایگاه داده های بزرگ را به منظور دستیابی به دانش، تحلیل می کند. به منظور داده کاوی امروزه از روش های ماشینی و یا نیمه ماشینی استفاده می شود که دلیل آن هم تفاوت عمده در مقیاس، وسعت و گوناگونی زمینهها و کاربردها، و نیز ابعاد و اندازههای دادههایی می باشد که امروز مورد استفاده قرار می گیرد. داده کاوی یا Data Mining در اصل به معنای استخراج اطلاعات یا الگوهای عملکرد و روابط مشخص در میان داده ها و همینطور پایگاه های داده می باشد.
داده کاوی چیست؟
داده کاوی مجموعه تکنیک هایی می باشد که پایگاه داده های بزرگ را به منظور دستیابی به دانش، تحلیل می کند. به منظور داده کاوی امروزه از روش های ماشینی و یا نیمه ماشینی استفاده می شود که دلیل آن هم تفاوت عمده در مقیاس، وسعت و گوناگونی زمینهها و کاربردها، و نیز ابعاد و اندازههای دادههایی می باشد که امروز مورد استفاده قرار می گیرد. داده کاوی یا Data Mining در اصل به معنای استخراج اطلاعات یا الگوهای عملکرد و روابط مشخص در میان داده ها و همینطور پایگاه های داده می باشد.
داده کاوی، بهره گیری از ابزار های موجود جهت کسب دانش
داده کاوی بهرهگیری از ابزارهای تجزیه و تحلیل دادهها به منظور کشف الگوها و روابط معتبر گفته میشود که استفاده از این ابزارها منجر به یافتن سریع مدلهای آماری مورداستفاده درداده، مدلهای آماری و الگوریتمهای ریاضی میشود که این کار این به صورت خودکار و یا بر اساس تجربهای که از طریق شبکههای عصبی یا درختهای تصمیم گیری به دست میآورند، انجام می دهند. داده کاوی علاوه بر گردآوری و مدیریت داده های انبوه، تجزیه، تحلیل اطلاعات و پیش بینی را نیز انجام میدهد که پارامتر های گوناگونی را در نظر می گیرد:
- ۱) قواعد انجمنی یا Association که شامل الگو هایی می باشد که یک رویداد به رویدادی دیگر ارتباط پیدا می کند.
- ۲) ترتیب یا Sequence: ترتیب اجرای رویداد ها را پیگیری می کند.
- ۳) پیش بینی یا Prediction که پیش بینی یک متغیر پیوسته را انجام می دهد.
- ۴) طبقه بندی یا Classification که رده های موجود در داده ها را تعریف می کند و نسبت به یکریگر متمایز می کند با این هدف که بتوان از این مدل برای پیش بینی رده رکوردهایی که برچسب رده آنها ناشناخته میباشد، استفاده نمود.
- ۵) خوشه بندی یا Clustering که مجموعه ای از رکورد ها که شباهت بیشتری را نسبت به یکدیگر دارد را در یک گروه قرار می دهد.
- ۶) مصور سازی یا visualization که داده های به دست آمده را شبیه سازی می کند.
ابزار های داده کاوی
- ۱) کلمنتاین Clementine
- ۲) نرم افزار Rapid Miner
- ۳) نرم افزار WEKA
WEKA ابزاری متن باز برای داده کاوی در جاوا
WEKA را می توان یکی از قدرتمند ترین ابزار های موجود جهت داده کاوی دانست که یک کتابخانه متن باز می باشد که به کاربر این امکان را می دهد تا با استفاده از امکانات زبان جاوا، داده های خود را پردازش کند. WEKA توابع مختلف را برای داده کاوی در اختیار کاربر قرار میدهد. مزیت استفاده از این کتابخانه این می باشد که ابزار های متنوعی جهت پیاده سازی الگوریتم های داده کاوی را به صورت آماده دارد.
برای مشاهده جزئیات و تهیه آموزش داده کاوی با استفاده از WEKA به این لینک (+) مراجعه نمایید.
فهرست سرفصل ها و رئوس مطالب مطرح شده در این مجموعه آموزشی، در ادامه آمده است:
- مفاهیم داده کاوی
- اعمال فیلتر بر روی داده ها
- حذف ویژگی های غیرمفید
- گسسته سازی ویژگی های عددی
- ایجاد داده تصادفی
- انتخاب ویژگی
- خوشه بندی
- روش های انتخاب خوشه
- دسته بندی
- ارزابی مدل و تست
- آشنایی با ماتریس Confusion
- آشنایی با مشخصه عملکرد سیستم
- قوانین انجمن
- اعمال فیلتر بر روی داده ها
- آماده سازی محیط نرم افزاری برای شروع به کار با WEKA
- نصب جاوا
- نصب Eclipse
- اتصال WEKA با Eclipse
- درونریزی داده
- آشنایی با نوع داده ARFF
- تعریف ویژگی
- آشنایی با ساختار داده ها
- ایجاد مجموعه داده در زمان اجرا
- ذخیره داده در قالب ARFF
- اعمال فیلتر بر روی داده ها
- گسسته سازی ویژگی ها
- ابزار اعمال فیلتر دسته بندی FilteredClassifier
- انتخاب ویژگی در WEKA
- Information Gain و کاربرد آن در انتخاب ویژگی
- بررسی مولفه های اصلی
- AttributeSelectedClassifier و انتخاب خاص دسته بندی کننده
- ایجاد یک دسته بندی کننده و آموزش آن
- ایجاد دسته بندی کننده با درخت تصمیم گیری یا Decision Treesb.
- ایجاد دسته بندی کننده با استفاده از ماشین بردار پشتیبان یا SVM
- مدل های دیگر دسته بندی کننده
- ایجاد یک دسته بندی کننده اختصاصی
- نمایش نتیجه
- نمایش گرافیکی درخت به کاربر
- بررسی و ارزیابی مدل ها
- بررسی مجموعه داده ها و تست
- نمایش نتایج آماری
- جداسازی داده یادگیری
- اعتبارسنجی متقابل k-fold
- ماتریس Confusion
- منحنی ROC
- ذخیره مدل با استفاده از Serializable
- بازگردانی مدل با استفاده از deserializable
- رگرسیون
- کلاس Zero
- کلاس REPTree
- کلاس SMOreg
- کلاس MultilayerPerceptron
- قوانین ارتباطی
- الگوریتم Apriori و کشف قوانین ارتباطی
- خوشه بندی
- الگوریتم EM و نحوه خوشه بندی
- دسته بندی کننده خوشه ای
- خوشه بندی افزایشی
- بررسی خوشه بندی
برای مشاهده جزئیات و تهیه آموزش داده کاوی با استفاده از WEKA به این لینک (+) مراجعه نمایید.
مجموعه: داده کاوی, سته بندی مستقل برچسب ها: AttributeSelectedClassifier و انتخاب خاص دسته بندی کننده, Information Gain و کاربرد آن در انتخاب ویژگی, weka, آشنایی با ساختار داده ها, آشنایی با ماتریس Confusion, آشنایی با مشخصه عملکرد سیستم, آشنایی با نوع داده ARFF, آماده سازی محیط نرم افزاری برای شروع به کار با WEKA, آموزش اتصال جاوا و وکا, آموزش داده کاوی, آموزش کاربردی داده کاوی, ابزار اعمال فیلتر دسته بندی FilteredClassifier, اتصال WEKA با Eclipse, اتصال وکا به جاوا, ارزیابی مدل و تست, اعتبارسنجی متقابل k-fold, اعمال فیلتر بر روی داده ها, الگوریتم Apriori و کشف قوانین ارتباطی, الگوریتم EM و نحوه خوشه بندی, انتخاب ویژگی, انتخاب ویژگی در وکا, ایجاد داده تصادفی, ایجاد دسته بندی کننده با استفاده از ماشین بردار پشتیبان یا SVM, ایجاد دسته بندی کننده با درخت تصمیم گیری یا Decision Trees, ایجاد مجموعه داده در زمان اجرا, ایجاد یک دسته بندی کننده اختصاصی, ایجاد یک دسته بندی کننده و آموزش آن, بازگردانی مدل با استفاده از deserializable, بررسی خوشه بندی, بررسی مجموعه داده ها و تست, بررسی مولفه های اصلی, بررسی و ارزیابی مدل ها, تعریف ویژگی, جداسازی داده یادگیری, حذف ویژگی های غیرمفید, خوشه بندی, خوشه بندی افزایشی, داده کاوی با وکا, درونریزی داده, دسته بندی, دسته بندی کننده خوشه ای, ذخیره داده در قالب ARFF, ذخیره مدل با استفاده از Serializable, رگرسیون, روش های انتخاب خوشه, قوانین ارتباطی, قوانین انجمن, کاربرد داده کاوی, کلاس REPTree, کلاس SMOreg, کلاس ultilayerPerceptron, کلاس Zero, گسسته سازی ویژگی ها, گسسته سازی ویژگی های عددی, ماتریس Confusion, مدل های دیگر دسته بندی کننده, مفاهیم داده کاوی, منحنی ROC, نرم افزار وکا, نصب Eclipse, نصب جاوا, نمایش گرافیکی درخت به کاربر, نمایش نتایج آماری, نمایش نتیجه, وکا