آموزش تخمین خطای طبقه بندی یا Classifier Error Estimation
مقدمه – هدف و اهمیت تخمین خطا
تخمین خطای کلاسیفایر (Classifier Error Estimation) اگر مهم ترین بخش طراحی یک کلاسیفایر (Classifier – طبقه بندی کننده) نباشد، قطعا یکی از مهم ترین قسمت های این فرایند می باشد. یک طبقه بندی کننده بدون داشتن تخمین درست از خطای آن، همانند داشتن یک فرد با ادعای مهارت بالا در پزشکی است در حالی که صلاحیت او توسط هیچ منبع ارزش گذاری و ارزیابی علمی مورد تایید قرار نگرفته است. چنین فردی حتی اگر در واقع، پزشک حاذقی باشد، در عمل فردی نخواهد بود که افراد عادی، تصمیم در مورد سلامت خود را به تشخیص و عمل او بسپارند. در یک مثال دیگر، داشتن فرایند طبقه بندی بدون توجه به ظرافت های تخمین خطا، همانند به پیش بردن فرایند رانندگی یک اتوموبیل با چشمان بسته (و در شرایط بدتر با ذهن به هم ریخته) است. تشخیص تصادفی (یک طبقه بندی کننده طراحی نشده و صرفا تصادفی) «با احتمال زیاد» اشتباه خواهد بود. اما تشخیص اشتباه (یک طبقه بندی کننده طراحی شده برای داشتن خطای بالا) «قطعا» اشتباه خواهد بود.
تخمین خطای طبقه بندی کننده در تمام مراحل و مسائل مرتبط با طبقه بندی، نقش حیاتی بازی می کند. به عنوان مثال فرایند انتخاب ویژگی (Feature Selection) بدون داشتن یک تخمین گر خطا (Error Estimator) مناسب یک روند عبث خواهد بود.
مقدمه – هدف و اهمیت تخمین خطا
تخمین خطای کلاسیفایر (Classifier Error Estimation) اگر مهم ترین بخش طراحی یک کلاسیفایر (Classifier – طبقه بندی کننده) نباشد، قطعا یکی از مهم ترین قسمت های این فرایند می باشد. یک طبقه بندی کننده بدون داشتن تخمین درست از خطای آن، همانند داشتن یک فرد با ادعای مهارت بالا در پزشکی است در حالی که صلاحیت او توسط هیچ منبع ارزش گذاری و ارزیابی علمی مورد تایید قرار نگرفته است. چنین فردی حتی اگر در واقع، پزشک حاذقی باشد، در عمل فردی نخواهد بود که افراد عادی، تصمیم در مورد سلامت خود را به تشخیص و عمل او بسپارند. در یک مثال دیگر، داشتن فرایند طبقه بندی بدون توجه به ظرافت های تخمین خطا، همانند به پیش بردن فرایند رانندگی یک اتوموبیل با چشمان بسته (و در شرایط بدتر با ذهن به هم ریخته) است. تشخیص تصادفی (یک طبقه بندی کننده طراحی نشده و صرفا تصادفی) «با احتمال زیاد» اشتباه خواهد بود. اما تشخیص اشتباه (یک طبقه بندی کننده طراحی شده برای داشتن خطای بالا) «قطعا» اشتباه خواهد بود.
تخمین خطای طبقه بندی کننده در تمام مراحل و مسائل مرتبط با طبقه بندی، نقش حیاتی بازی می کند. به عنوان مثال فرایند انتخاب ویژگی (Feature Selection) بدون داشتن یک تخمین گر خطا (Error Estimator) مناسب یک روند عبث خواهد بود.
عدم پرداخت مناسب و شایسته به تخمین خطا در مقالات علمی
در عین چنین اهمیتی، متأسفانه در بسیاری از مقالات حوزه پزشکی و بیوانفورماتیک که دارای به ظاهر جذاب ترین الگوریتم ها و فلوچارت های مرتبط با یافتن ویژگی و رسیدن به بایومارکر (نشانگر زیستی – Biomarker) می باشند، معمولا از روی مهم ترین بخش مسیر کاری خود که همانا بلوک تخمین خطا است، بدون توجه کافی، عبور می شود. از این جهت است که در عین صرف میلیون ها دلار در تحقیقات مرتبط با سلامت، ما بهبود در مناسب در این مسیر را شاهد نبوده ایم و هنوز موفق ترین بایومارکرهای مرتبط با سلامت دارای Specificity پایین می باشند. این پایین بودن Specificity در ادامه باعث ایجاد میلیون ها دلار اتلاف هزینه در بخش سلامت می شود.
نداشتن تخمین درست از خطا تنها عامل در شکست فرایند های مختلف مرتبط با طبقه بندی نمی باشد، اما بی شک یکی از مهم ترین عوامل به شما می رود و به خاطر همین اهمیت بسیار بالا، در این فرادرس ما به موضوع تخمین خطای کلاسیفایر می پردازیم.
ساختار ارائه موضوع در این فرادرس
در این فرادرس، در ابتدای بحث، به خود موضوع تخمین خطا و اهمیت آن اشاره می شود. در ادامه می بینیم که بایاس و واریانس یک تخمینگر خطا چگونه نمایشی کمی و خلاصه شده از کیفیت آن را به ما می دهد و اینکه چگونه این دو فاکتور به صورت یکجا و واحد خود را در RMS مرتبط با یک تخمین گر نشان می دهند. در ادامه به مفهوم فاکتورهای تصادفی درونی (Internal Random Factors) و تفاوت تخمین گر Randomized و Non-Randomized اشاره خواهد شد و اینکه چگونه تخمین گرها در یکی از این دو دسته قرار می گیرند. پرداختن به تخمین گر Holdout و ویژگی های آن موضوع ادامه بحث می باشد.
همانطور که می دانیم تخمین گر Holdout در زمان هایی که داده کافی وجود داشته باشد، انتخاب مناسب و کارایی می باشد. اما مشکل این تخمین گر زمانی خود را نشان می دهد که ما با کمبود در داده مواجهیم. به عبارت دیگر مسئله طبقه بندی ما یک مسئله با تعداد داده کم (Small Sample Problem) است (موضوع بسیاری از مسائل حوزه سلامت). اینجا است که نیاز به روش هایی که استفاده بهینه تری از داده ها دارند، ایجاد و مطرح می شود و این نقطه شروع بحث روی روش های دیگر تخمین خطا همانند تخمین گر Resubstitution، تخمین گر Cross-Validation، تخمین گر Leave-One-Out، تخمین گر Bootstrap خواهد بود. در ادامه تک تک این روش های مورد بررسی قرار گرفته و نقاط ضعف و قوت هر یک بیان می شود. نتیجه گیری و خلاصه سازی بحث، آخرین قسمت از این فرادرس را تشکیل می دهد.
توجه: در این فرادرس به مباحث تئوری مرتبط با هر روش تخمین خطای کلاسیفایر پرداخته شده و به نحوه پیاده سازی و کدنویسی هر یک از آنها اشاره می شود. اما کدنویسی و پیاده سازی در قالب نوشتن کد هر یک از روش ها جزو اهداف آموزشی این فرادرس نمی باشد.
فهرست سرفصل ها و رئوس مطالب مطرح شده در این مجموعه آموزشی، در ادامه آمده است:
- مقدمه
- اهمیت مسئله تخمین خطا
- مفاهیم و تعاریف اولیه
- تعریف تخمین خطا
- واریانس و بایاس در تخمین
- RMS
- فاکتورهای تصادفی درونی
- تخمین گر Randomized و Non-Randomized
- تعادل میان بایاس، واریانس و پیچیدگی محاسباتی
- تخمین گر Holdout
- اشاره به مزایا و معایب
- تخمین گر Resubstitution
- تخمین گر Cross-Validation
- تخمین گر Leave-One-Out
- تخمین گر Bootstrap
- اصول Bootstrap Resampling
- تعریف تخمین خطای بوت استرپ
- معایب و مزایا
- خلاصه و نتیجه گیری
برای مشاهده جزئیات و تهیه آموزش تخمین خطای طبقه بندی یا Classifier Error Estimation به این لینک (+) مراجعه نمایید.
مجموعه: داده کاوی, متلب سایت, محصولات آموزشی برچسب ها: Bias, Biomarker, Bootstrap Error Estimator, Classifier, Cross-Validation Error Estimator, Error Estimation, Hold-out Error Estimator, Holdout Error Estimator, Leave-One-Out Error Estimator, Non-Randomized Error Estimator, Pattern Recognition, Randomized Error Estimator, Resubstitution Error Estimator, RMS, Root-Mean-Square, Small Sample Problem, supervised learning, Variance, اصول Bootstrap Resampling, بازشناسی الگو, بایاس، واریانس و پیچیدگی محاسباتی تخمین گر, بایومارکر, بیومارکر, تخمین خطا, تخمین گر Bootstrap, تخمین گر Cross-Validation, تخمین گر Holdout, تخمین گر Leave-One-Out, تخمین گر Non-Randomized, تخمین گر Randomized, تخمین گر Resubstitution, تعداد داده کم, تعریف تخمین خطا, تعریف تخمین خطای بوت استرپ, طبقه بندی, فاکتورهای تصادفی درونی, کلاس بند, کلاسبند, کلاسیفایر, کلسیفایر, نشانگر زیستی, وارایانس و بایاس در تخمین خطا, یادگیری با ناظر