مصاحبه استخدام برای یادگیری ماشین – نمونه پرسش

۱۸ فروردین ۱۴۰۰ توسط الهام حصارکی مجموعه: داده کاوی, مشاغل, مهندسی کامپیوتر, هوش مصنوعی, یادگیری ماشینی

یکی از دغدغه‌های افرادی که قصد دارند در یک حوزه مشغول به کار شوند، مصاحبه‌های استخدامی و نمونه پرسش‌های تخصصی و فنی است که طی جلسه مصاحبه از فرد جویای کار پرسیده می‌شود. در حوزه «یادگیری ماشین» (Machine Learning) نیز این موضوع صادق است. این در حالی است که با توجه به نو بودن مبحث یادگیری ماشین و اینکه کسب و کارها در چند سال اخیر بیش‌تر به سمت این حوزه رفته‌اند، اطلاعات اغلب افرادی که تمایل دارند در این حوزه مشغول به کار شوند پیرامون جلسات مصاحبه ناچیز است. در این مطلب، برخی از متداول‌ترین این پرسش‌ها مورد بررسی قرار گرفته‌اند.

تفاوت بین یادگیری ماشین نظارت شده (Supervised) و غیرنظارت شده (Unsupervised) چیست؟

در الگوریتم‌های یادگیری ماشین نظارت شده، باید داده‌های برچسب‌دار فراهم شوند. مثالی از این مورد، پیش‌بینی قیمت سهام است. در الگوریتم‌های یادگیری ماشین نظارت نشده، نیازی به داده‌های برچسب‌دار نیست. مثالی از این مورد خوشه‌بندی ایمیل‌ها در دو دسته اسپم و غیراسپم است. برای مطالعه بیشتر در این رابطه، مطالب زیر پیشنهاد می‌شوند.

تفاوت بین الگوریتم K نزدیک‌ترین همسایگی و K میانگین چیست؟

K نزدیک‌ترین همسایگی (K-Nearest Neighbors) یک الگوریتم یادگیری ماشین نظارت شده است که برای کار با آن باید مجموعه داده‌های دارای برچسب فراهم شوند. در این الگوریتم، K تعداد همسایگی‌هایی است که اگر داده جدید به آن‌ها نزدیک‌ترین فاصله را داشته باشد، جزو آن دسته محسوب می‌شود. در این روش، فاصله بین نقاط داده محاسبه می‌شود. K توسط کاربر تعیین می‌شود.

K میانگین (K-Means) یک الگوریتم یادگیری ماشین غیرنظارت شده است و بنابراین، ضمن کار با آن از مجموعه داده بدون برچسب استفاده می‌شود. در این روش، خوشه یک داده جدید بر اساس میانگین فاصله‌ای تعیین می‌شود که از مراکز دسته‌ها دارد. K تعداد مراکز دسته‌ها را نشان می‌دهد. برای مطالعه بیشتر در این رابطه، مطالب زیر پیشنهاد می‌شوند.

تفاوت بین دسته‌بندی و رگرسیون چیست؟

دسته‌بندی برای تولید تولید نتایج گسسته مورد استفاده قرار می‌گیرد. در واقع، ازدسته‌بندی برای قرار دادن داده‌ها در دسته‌های گوناگون استفاده می‌شود. به عنوان مثالی از این مورد می‌توان به قراردادن ایمیل‌ها در دسته‌های اسپم و غیر اسپم اشاره کرد. این در حالی است که از تحلیل رگرسیون برای کار با داده‌های پیوسته استفاده می‌شود. برای مثال، پیش‌بینی قیمت سهام در یک موقعیت مشخص از زمان با استفاده از رگرسیون انجام می‌شود. برای مطالعه بیشتر در این رابطه، مطالب زیر پیشنهاد می‌شوند.

چطور می‌توان اطمینان حاصل کرد که یک مدل بیش‌برازش نشده است؟

برای پیش‌گیری از بیش‌برازش باید طراحی مدل را ساده نگه داشت. با در نظر داشتن متغیرها و پارامترهای کم‌تر، می‌توان نویز مدل را کاهش داد. روش‌های اعتبارسنجی متقابل (Cross-Validation) مانند اعتبارسنجی متقابل K لایه (K-Fold Cross Validation) به کنترل کردن بیش‌برازش کمک می‌کنند. روش‌های با قاعده‌سازی مانند LASSO نیز به اجتناب از بیش‌برازش با جریمه کردن پارامترهای خاصی که منجر به بیش‌برازش می‌شوند در جلوگیری از بیش‌برازش کاربرد دارند. برای مطالعه بیشتر در این رابطه، مطالب زیر پیشنهاد می‌شوند.

معنای مجموعه داده تست و آموزش چیست؟

برای آموزش دادن و ارزیابی مدل، داده‌ها را در دو بخش که به آن‌ها «مجموعه آموزش» (Train Data) و «مجموعه تست» (Test Set) گفته می‌شود تقسیم می‌کنند. مجموعه آموزش بخشی از مجموعه داده است که برای آموزش دادن مدل مورد استفاده قرار می‌گیرد. مجموعه تست بخشی از مجموعه داده است که برای تست کردن مدل آموزش دیده مورد استفاده قرار می‌گیرد.

مزایای اصلی روش نایو بیز چیست؟

دسته‌بند نایو بیز (Naive Bayes Classifier) در مقایسه با دیگر روش‌ها مانند رگرسیون لجستیک (Logistic Regression) به سرعت همگرا می‌شود. در نتیجه در دسته‌بندی نایو بیز به داده‌های آموزشی کم‌تری نیاز هست. برای مطالعه بیشتر در این رابطه، مطالب زیر پیشنهاد می‌شوند.

یادگیری جمعی (Ensemble Learning) چیست؟

در یادگیری جمعی (Ensemble Learning) مدل‌های مبنایی زیادی مانند دسته‌بندها (Classifiers) و رگرسورها (Regressors) تولید و با یکدیگر ترکیب می‌شوند تا نتایج بهتری را ارائه کنند. از این روش هنگامی استفاده می‌شود که دسته‌بندهای مولفه‌ای ساخته شوند که صحیح و مستقل هستند. روش‌های ترتیبی در کنار روش‌های موازی وجود دارند.

کاهش ابعاد در یادگیری ماشین چیست؟

کاهش ابعاد (Dimensionality Reduction) فرایند کاهش اندازه ماتریس ویژگی‌ها است. در طی کاهش ابعاد، تلاش می‌شد تا تعداد ستون‌ها در مجموعه داده کاهش پیدا کند تا مجموعه ویژگی‌های بهتری با ترکیب ستون‌ها یا حذف متغیرهای اضافی حاصل شوند. برای مطالعه بیشتر در این رابطه، مطالب زیر پیشنهاد می‌شوند.

هنگامی که مدل دچار مشکل سوگیری کم و واریانس بالا است چه کار می‌توان کرد؟

هنگامی که مقدار پیش‌بینی شده توسط مدل بسیار رنزدیک به شرایط واقعی است، به آن سوگیری کم (Low Bias) گفته می‌شود. در این شرایط، می‌توان از الگوریتم بگینگ (Bagging Algorithm) مانند رگرسور جنگل تصادفی (Random Forest Regressor) استفاده کرد.

تشریح تفاوت بین جنگل تصادفی و الگوریتم گرادیان بوستینگ: الگوریتم جنگل تصادفی از روش‌های بگینگ استفاده می‌کند، در حالی که GBM از روش‌های شتاب‌دهی استباه می‌کند. جنگل تصادفی اساسا تلاش می‌کند تا واریانس را کاهش دهد و GBM هم بایاس و هم واریانس مدل را کاهش می‌دهد. برای مطالعه بیشتر در این رابطه، مطالب زیر پیشنهاد می‌شوند.

معرفی فیلم آموزش یادگیری ماشین و داده‌کاوی فرادرس

مجموعه آموزش‌های داده‌کاوی و یادگیری ماشین فرادرس شامل آموزش‌های متعدد و متنوع در حوزه علم داده و مباحث یادگیری ماشین است. در حال حاضر، بیش از ۱۴۸۱۱ دقیقه آموزش در این مجموعه وجود دارد. برخی از عناوین آموزش‌های موجود در این مجموعه به همراه توضیحات اجمالی آن‌ها، در ادامه مطلب مشاغل با درآمد بالا و فرصت های شغلی متعدد در سال ۱۴۰۰ بیان شده‌اند.

آموزش اصول و روش های داده کاوی (Data Mining) (زمان: ۲۵ ساعت و ۱ دقیقه، مدرس: دکتر امیرحسین کیهانی‌پور): این آموزش برای افرادی مناسب است که درصدد فراگیری مفاهیم پایه‌ای و روش‌های داده‌کاوی هستند. برای مشاهده آموزش اصول و روش های داده کاوی (Data Mining) + کلیک کنید.
آموزش داده کاوی یا Data Mining در متلب (زمان: ۲۴ ساعت و ۲ دقیقه، مدرس: دکتر سید مصطفی کلامی هریس): این آموزش برای افرادی مناسب است که قصد دارند داده‌کاوی را به طور کامل و همراه با پیاده‌سازی و مثال‌های متعدد، همراه با جزئیات تئوری، بیاموزند. پیاده‌سازی‌ها در این آموزش با استفاده از زبان برنامه‌نویسی متلب انجام می‌شود و بنابراین، داشتن آشنایی با مبانی متلب بسیار مفید خواهد بود؛ هرچند که عدم آشنایی با متلب نیز مانع فراگیری مباحث داده‌کاوی که در این آموزش به طور کامل و به خوبی بیان شده‌اند نخواهد شد. برای مشاهده آموزش داده کاوی یا Data Mining در متلب + کلیک کنید.
آموزش داده کاوی در RapidMiner (زمان: ۲ ساعت و ۱۰ دقیقه، مدرس: نفیسه سلطانی): برای افرادی مناسب است که با مبانی داده‌کاوی آشنایی دارند و اکنون، قصد فراگیری داده‌کاوی با نرم‌افزار RapidMiner را دارند. برای مشاهده آموزش داده کاوی در RapidMiner + کلیک کنید.
آموزش خوشه‌بندی با استفاده از الگوریتم‌های تکاملی و فراابتکاری (زمان: ۲ ساعت و ۴۶ دقیقه، مدرس: دکتر سید مصطفی کلامی هریس): برای افرادی مناسب است که با مبانی داده‌کاوی آشنایی دارند و اکنون، قصد فراگیری روش‌های خوشه‌بندی با بهره‌گیری از الگوریتم‌های تکاملی و فراابتکاری را دارند. برای مشاهده آموزش خوشه‌بندی با استفاده از الگوریتم های تکاملی و فراابتکاری + کلیک کنید.
آموزش خوشه‌بندی تفکیکی با نرم‌افزار R (زمان: ۲ ساعت و ۳ دقیقه، مدرس: دکتر آرمان ری‌بد): برای افرادی مناسب است که با مبانی داده‌کاوی آشنایی و اکنون قصد دارند که خوشه‌بندی تفکیکی و روش پیاده‌سازی آن در زبان R را بیاموزند . برای مشاهده آموزش خوشه‌بندی تفکیکی با نرم‌افزار R + کلیک کنید.

منبع [+]