مصاحبه استخدام برای یادگیری ماشین – نمونه پرسش
یکی از دغدغههای افرادی که قصد دارند در یک حوزه مشغول به کار شوند، مصاحبههای استخدامی و نمونه پرسشهای تخصصی و فنی است که طی جلسه مصاحبه از فرد جویای کار پرسیده میشود. در حوزه «یادگیری ماشین» (Machine Learning) نیز این موضوع صادق است. این در حالی است که با توجه به نو بودن مبحث یادگیری ماشین و اینکه کسب و کارها در چند سال اخیر بیشتر به سمت این حوزه رفتهاند، اطلاعات اغلب افرادی که تمایل دارند در این حوزه مشغول به کار شوند پیرامون جلسات مصاحبه ناچیز است. در این مطلب، برخی از متداولترین این پرسشها مورد بررسی قرار گرفتهاند.
تفاوت بین یادگیری ماشین نظارت شده (Supervised) و غیرنظارت شده (Unsupervised) چیست؟
در الگوریتمهای یادگیری ماشین نظارت شده، باید دادههای برچسبدار فراهم شوند. مثالی از این مورد، پیشبینی قیمت سهام است. در الگوریتمهای یادگیری ماشین نظارت نشده، نیازی به دادههای برچسبدار نیست. مثالی از این مورد خوشهبندی ایمیلها در دو دسته اسپم و غیراسپم است. برای مطالعه بیشتر در این رابطه، مطالب زیر پیشنهاد میشوند.
- مفاهیم یادگیری نظارت شده، نظارت نشده و نیمه نظارت شده
- یادگیری نظارت شده (Supervised Learning) با پایتون — راهنمای جامع
- یادگیری نظارت نشده (Unsupervised Learning) با پایتون — راهنمای جامع و کاربردی
تفاوت بین الگوریتم K نزدیکترین همسایگی و K میانگین چیست؟
K نزدیکترین همسایگی (K-Nearest Neighbors) یک الگوریتم یادگیری ماشین نظارت شده است که برای کار با آن باید مجموعه دادههای دارای برچسب فراهم شوند. در این الگوریتم، K تعداد همسایگیهایی است که اگر داده جدید به آنها نزدیکترین فاصله را داشته باشد، جزو آن دسته محسوب میشود. در این روش، فاصله بین نقاط داده محاسبه میشود. K توسط کاربر تعیین میشود.
K میانگین (K-Means) یک الگوریتم یادگیری ماشین غیرنظارت شده است و بنابراین، ضمن کار با آن از مجموعه داده بدون برچسب استفاده میشود. در این روش، خوشه یک داده جدید بر اساس میانگین فاصلهای تعیین میشود که از مراکز دستهها دارد. K تعداد مراکز دستهها را نشان میدهد. برای مطالعه بیشتر در این رابطه، مطالب زیر پیشنهاد میشوند.
- الگوریتم K-نزدیکترین همسایگی به همراه کد پایتون
- خوشهبندی K-Means در پایتون — راهنمای کاربردی
- خوشهبندی k میانگین (k-means Clustering) — به همراه کدهای R
- نقاط ضعف الگوریتم k-means — به زبان ساده
- فاصله اقلیدسی، منهتن و مینکوفسکی ــ معرفی و کاربردها در دادهکاوی
تفاوت بین دستهبندی و رگرسیون چیست؟
دستهبندی برای تولید تولید نتایج گسسته مورد استفاده قرار میگیرد. در واقع، ازدستهبندی برای قرار دادن دادهها در دستههای گوناگون استفاده میشود. به عنوان مثالی از این مورد میتوان به قراردادن ایمیلها در دستههای اسپم و غیر اسپم اشاره کرد. این در حالی است که از تحلیل رگرسیون برای کار با دادههای پیوسته استفاده میشود. برای مثال، پیشبینی قیمت سهام در یک موقعیت مشخص از زمان با استفاده از رگرسیون انجام میشود. برای مطالعه بیشتر در این رابطه، مطالب زیر پیشنهاد میشوند.
چطور میتوان اطمینان حاصل کرد که یک مدل بیشبرازش نشده است؟
برای پیشگیری از بیشبرازش باید طراحی مدل را ساده نگه داشت. با در نظر داشتن متغیرها و پارامترهای کمتر، میتوان نویز مدل را کاهش داد. روشهای اعتبارسنجی متقابل (Cross-Validation) مانند اعتبارسنجی متقابل K لایه (K-Fold Cross Validation) به کنترل کردن بیشبرازش کمک میکنند. روشهای با قاعدهسازی مانند LASSO نیز به اجتناب از بیشبرازش با جریمه کردن پارامترهای خاصی که منجر به بیشبرازش میشوند در جلوگیری از بیشبرازش کاربرد دارند. برای مطالعه بیشتر در این رابطه، مطالب زیر پیشنهاد میشوند.
- بیش برازش (Overfitting)، کم برازش (Underfitting) و برازش مناسب — مفهوم و شناسایی
- اعتبارسنجی متقابل (Cross Validation) — به زبان ساده
معنای مجموعه داده تست و آموزش چیست؟
برای آموزش دادن و ارزیابی مدل، دادهها را در دو بخش که به آنها «مجموعه آموزش» (Train Data) و «مجموعه تست» (Test Set) گفته میشود تقسیم میکنند. مجموعه آموزش بخشی از مجموعه داده است که برای آموزش دادن مدل مورد استفاده قرار میگیرد. مجموعه تست بخشی از مجموعه داده است که برای تست کردن مدل آموزش دیده مورد استفاده قرار میگیرد.
مزایای اصلی روش نایو بیز چیست؟
دستهبند نایو بیز (Naive Bayes Classifier) در مقایسه با دیگر روشها مانند رگرسیون لجستیک (Logistic Regression) به سرعت همگرا میشود. در نتیجه در دستهبندی نایو بیز به دادههای آموزشی کمتری نیاز هست. برای مطالعه بیشتر در این رابطه، مطالب زیر پیشنهاد میشوند.
- دستهبند بیز ساده (Naive Bayes Classifiers) — مفاهیم اولیه و کاربردها
- رگرسیون لجستیک (Logistic Regression) — مفاهیم، کاربردها و محاسبات در SPSS
یادگیری جمعی (Ensemble Learning) چیست؟
در یادگیری جمعی (Ensemble Learning) مدلهای مبنایی زیادی مانند دستهبندها (Classifiers) و رگرسورها (Regressors) تولید و با یکدیگر ترکیب میشوند تا نتایج بهتری را ارائه کنند. از این روش هنگامی استفاده میشود که دستهبندهای مولفهای ساخته شوند که صحیح و مستقل هستند. روشهای ترتیبی در کنار روشهای موازی وجود دارند.
کاهش ابعاد در یادگیری ماشین چیست؟
کاهش ابعاد (Dimensionality Reduction) فرایند کاهش اندازه ماتریس ویژگیها است. در طی کاهش ابعاد، تلاش میشد تا تعداد ستونها در مجموعه داده کاهش پیدا کند تا مجموعه ویژگیهای بهتری با ترکیب ستونها یا حذف متغیرهای اضافی حاصل شوند. برای مطالعه بیشتر در این رابطه، مطالب زیر پیشنهاد میشوند.
- انتخاب ویژگی (Feature Selection) در دادههای ابعاد بالا — خودآموز ساده
- الگوریتم کاهش ابعاد t-SNE با مثالهای پایتون — آموزش کاربردی
هنگامی که مدل دچار مشکل سوگیری کم و واریانس بالا است چه کار میتوان کرد؟
هنگامی که مقدار پیشبینی شده توسط مدل بسیار رنزدیک به شرایط واقعی است، به آن سوگیری کم (Low Bias) گفته میشود. در این شرایط، میتوان از الگوریتم بگینگ (Bagging Algorithm) مانند رگرسور جنگل تصادفی (Random Forest Regressor) استفاده کرد.
تشریح تفاوت بین جنگل تصادفی و الگوریتم گرادیان بوستینگ: الگوریتم جنگل تصادفی از روشهای بگینگ استفاده میکند، در حالی که GBM از روشهای شتابدهی استباه میکند. جنگل تصادفی اساسا تلاش میکند تا واریانس را کاهش دهد و GBM هم بایاس و هم واریانس مدل را کاهش میدهد. برای مطالعه بیشتر در این رابطه، مطالب زیر پیشنهاد میشوند.
- موازنه واریانس و بایاس | به زبان ساده
- الگوریتم جنگل تصادفی (Random Forest) — راهنمای جامع و کاربردی
- درخت تصمیم و جنگل تصادفی در R — راهنمای کاربردی
- جنگل تصادفی — پیشبینی قهرمان جام جهانی ۲۰۱۸ با استفاده از الگوریتمهای یادگیری ماشین
معرفی فیلم آموزش یادگیری ماشین و دادهکاوی فرادرس
مجموعه آموزشهای دادهکاوی و یادگیری ماشین فرادرس شامل آموزشهای متعدد و متنوع در حوزه علم داده و مباحث یادگیری ماشین است. در حال حاضر، بیش از ۱۴۸۱۱ دقیقه آموزش در این مجموعه وجود دارد. برخی از عناوین آموزشهای موجود در این مجموعه به همراه توضیحات اجمالی آنها، در ادامه مطلب مشاغل با درآمد بالا و فرصت های شغلی متعدد در سال ۱۴۰۰ بیان شدهاند.
- آموزش اصول و روش های داده کاوی (Data Mining) (زمان: ۲۵ ساعت و ۱ دقیقه، مدرس: دکتر امیرحسین کیهانیپور): این آموزش برای افرادی مناسب است که درصدد فراگیری مفاهیم پایهای و روشهای دادهکاوی هستند. برای مشاهده آموزش اصول و روش های داده کاوی (Data Mining) + کلیک کنید.
- آموزش داده کاوی یا Data Mining در متلب (زمان: ۲۴ ساعت و ۲ دقیقه، مدرس: دکتر سید مصطفی کلامی هریس): این آموزش برای افرادی مناسب است که قصد دارند دادهکاوی را به طور کامل و همراه با پیادهسازی و مثالهای متعدد، همراه با جزئیات تئوری، بیاموزند. پیادهسازیها در این آموزش با استفاده از زبان برنامهنویسی متلب انجام میشود و بنابراین، داشتن آشنایی با مبانی متلب بسیار مفید خواهد بود؛ هرچند که عدم آشنایی با متلب نیز مانع فراگیری مباحث دادهکاوی که در این آموزش به طور کامل و به خوبی بیان شدهاند نخواهد شد. برای مشاهده آموزش داده کاوی یا Data Mining در متلب + کلیک کنید.
- آموزش داده کاوی در RapidMiner (زمان: ۲ ساعت و ۱۰ دقیقه، مدرس: نفیسه سلطانی): برای افرادی مناسب است که با مبانی دادهکاوی آشنایی دارند و اکنون، قصد فراگیری دادهکاوی با نرمافزار RapidMiner را دارند. برای مشاهده آموزش داده کاوی در RapidMiner + کلیک کنید.
- آموزش خوشهبندی با استفاده از الگوریتمهای تکاملی و فراابتکاری (زمان: ۲ ساعت و ۴۶ دقیقه، مدرس: دکتر سید مصطفی کلامی هریس): برای افرادی مناسب است که با مبانی دادهکاوی آشنایی دارند و اکنون، قصد فراگیری روشهای خوشهبندی با بهرهگیری از الگوریتمهای تکاملی و فراابتکاری را دارند. برای مشاهده آموزش خوشهبندی با استفاده از الگوریتم های تکاملی و فراابتکاری + کلیک کنید.
- آموزش خوشهبندی تفکیکی با نرمافزار R (زمان: ۲ ساعت و ۳ دقیقه، مدرس: دکتر آرمان ریبد): برای افرادی مناسب است که با مبانی دادهکاوی آشنایی و اکنون قصد دارند که خوشهبندی تفکیکی و روش پیادهسازی آن در زبان R را بیاموزند . برای مشاهده آموزش خوشهبندی تفکیکی با نرمافزار R + کلیک کنید.
منبع [+]
مجموعه: داده کاوی, مشاغل, مهندسی کامپیوتر, هوش مصنوعی, یادگیری ماشینی برچسب ها: AI, Dimensionality Reduction, Ensemble Learning, Machine Learning, ML, Random Forest, supervised learning, Test Set, Train Set, Unsupervised Learning, آموزش یادگیری ماشین, اعتبار, اعتبارسنجی متقابل, جنگل تصادفی, دسته بندی, رگرسیون, کاهش ابعاد, مجموعه داده آموزش, مجموعه داده تست, مصاحبه استخدام, یادگیری جمعی, یادگیری نظارت شده, یادگیری نظارت نشده