مقایسه دانشمند داده و مهندس یادگیری ماشین — راهنمای کاربردی

۱۲ دی ۱۳۹۷ توسط الهام حصارکی مجموعه: داده کاوی, هوش مصنوعی, یادگیری ماشینی

آیا هنگامی که به «علم داده» (Data Science) یا «یادگیری ماشین» (Machine Learning) فکر می‌کنید، این دو اصطلاح در کنار هم در ذهن شما نقش می‌بندند؟ آیا از تفاوت «دانشمند داده» (Data Scientist) با کارشناس یادگیری ماشین آگاه نیستید و در انتخاب زمینه شغلی خود دچار گمراهی شده‌اید؟ در صورتی که پاسخ شما به این پرسش‌ها مثبت است، مطالعه ادامه این مطلب به شما توصیه می‌شود. در این نوشتار، برخی از تمایزهای مهم بین علم داده و یادگیری ماشین که اغلب نادیده گرفته می‌شوند و به ویزه تفاوت‌های شغلی این دو بیان خواهند شد.

یادگیری ماشین در مقایسه با علم داده

یادگیری ماشین در متون نویسندگانی که اطلاعات کافی پیرامون لغات و اصطلاحات این حوزه ندارند معمولا دچار کژتابی‌هایی می‌شود. در حالت کلی، این مباحث برای فعالان این حوزه‌ها دارای گستره وسیعی از مفاهیم است. یادگیری ماشین به شکل خاصی از بهینه‌سازی ریاضیاتی اشاره دارد؛ این نوع از بهینه‌سازی عبارت است از وا داشتن یک کامپیوتر به داشتن عملکرد بهتر در برخی وظایف، از طریق آموزش دادن با داده‌ها یا تجربه‌های گذشته، بدون برنامه‌نویسی صریح و اعلان خط به خط دستورات.

این تعریف معمولا به ساخت مدل بر مبنای شرایط گذشته (داده‌های گذشته) با خروجی‌های شناخته شده (برچسب‌ها) و اعمال مدل برای انجام پیش‌بینی موارد آینده اشاره دارد، که در آن هدف یافتن راه‌هایی برای کمینه کردن تابع «خطا» (Error) یا «هزینه» (Cost) است. این دو تابع نشانگر میزان عدم تطابق پیش‌بینی‌ها با مقادیر واقعی هستند. توجه به این نکته لازم است که برخی از فعالیت‌های مهم کسب‌و‌کارها جایگاهی در این تعریف یادگیری ماشین ندارند، برخی از این موارد در ادامه آورده شده‌اند.

ارزیابی اینکه آیا داده‌ها برای یک هدف مناسب هستند.
فرموله کردن یک هدف مناسب
پیاده‌سازی سیستم‌ها و پردازش‌ها
تعامل با ذینفعان متفاوت

نیاز به این توابع منجر به شناسایی علم داده به عنوان یک زمینه نو شده است. بر اساس مطلب منتشر شده در «هاروارد بیزنس رویو» (Harvard Business Review)، مهارت‌های کلیدی مورد نیاز دانشمندان داده، توانایی ساختن و استفاده از زیرساخت‌های یادگیری عمیق نیست؛ بلکه، توانایی یادگیری سریع و پاسخگویی به سوالات کسب‌و‌کار و تشریح نتایج پیچیده برای ذینفعان غیر فنی است. دیگر نویسندگان نیز توافق دارند که: «ما احساس می‌کنیم تعریف ویژگی‌های دانشمندان داده با توجه به وسعت توانایی‌های آن‌ها وسیع و امکان‌پذیر است.

از جمله این توانایی‌ها می‌توان به تولید پیش نمونه از کلیه مراحل مورد نیاز برای کسب بینش یا ساخت محصولات داده‌محور (به صورت تک نفری توسط دانشمند داده) اشاره کرد. در مقاله دیگری که در HBR منتشر شده، نویسنده تاکید می‌کند که «دریافت ارزش از یادگیری ماشین به الگوریتم‌های خیالی مربوط نیست، بلکه، ساده ساختن استفاده از آن‌ها است… مساله اغلب شرکت‌ها این نیست که یادگیری ماشین به کار آن‌ها نمی‌آید، بلکه شرکت‌ها (در حال حاضر) در کشاکش استفاده از آن هستند».

یادگیری ماشین یک مهارت مهم برای «دانشمند داده» (Data Scientist) به شمار می‌آید، اما تنها یکی از متعدد مهارت‌های مورد نیاز دانشمندان داده است. فکر کردن به یادگیری ماشین به عنوان یک کل از علم داده، مانند فکر کردن به حسابداری به عنوان یک کل برای سودآوری شرکت است. علاوه بر این، شکاف مهارتی در علم داده به طور گسترده در حوزه‌های مکمل یادگیری ماشین شامل «حساسیت کسب‌و‌کار» (business sensibility)، آمار، چارچوب‌بندی مشکلات و ارتباطات وجود دارد.

افرادی که قصد دارند دانشمند داده بشوند، باید آموزش‌های میان رشته‌ای ببینند. بالا بودن تقاضا برای دانشمندان داده دیگر برای کسی پوشیده نیست. علارغم این موضوع، اغلب برنامه‌های آموزشی علم داده روی کلاس‌های آموزشی و دوره‌های یادگیری ماشین متمرکز شده‌اند. این یک مساله مهم و قابل توجه است. بسیاری از دانش‌آموزان شدیدا روی آموزش یادگیری ماشین در طول یک برنامه آموزشی متعادل متمرکز می‌شوند. چنین برنامه‌های متاسفانه منجر به تولید افراد غیر آماده و زود کارشناس شده می‌شوند که در تلاش برای کسب جایگاه‌های شغلی در حوزه علم داده هستند.

بسیاری از نویسندگان حوزه یادگیری ماشین و مدیران علم داده که ضمن تدوین این مطلب با آن‌ها گفت‌و‌گو شده، با کاندیداهای استخدام زیادی که دانش خود از یادگیری ماشین را تبلیغ می‌کردند و به عبارت دیگر، به نمایش می‌گذاشتند مصاحبه کرده‌اند. کارفرمایان در رابطه با چنین مصاحبه‌هایی می‌گویند که متاسفانه این افراد دانش بسیار کمی در حوزه آمار، موضوعاتی مانند «بایاس و واریانس» (Bias and Variance) و کیفیت داده دارند. تعداد کمی از مدعیان کارشناسی در این حوزه پروپوزال یک پروژه منسجم را برای کسب اهداف کسب‌و‌کار ارائه می‌کنند.

با توجه به تجربیات نویسنده این مطلب، مهندسان نرم‌افزار به طور ویژه‌ای به فراخوان‌های جذب افراد با تحصیلات بسیار بالا در حوزه یادگیری ماشین توجه دارند. بر اساس حدس و گمان، می‌توان گفت این امر بدان دلیل است که یادگیری ماشین از همان جنس تفکری استفاده می‌کند که در حال حاضر توسعه‌دهندگان نرم‌افزار از آن بهره می‌برند، و در واقع تفکر الگوریتمی است که هم برای مهندسان نرم‌افزار و هم برای دانشمندان داده و کارشناسان یادگیری ماشین مورد نیاز است.

آموزش‌های یادگیری ماشین فوق‌العاده تخصصی شده، گرایشی کاذب برای انجام پروژه‌های جالب و مهیج بدون داشتن هرگونه ادراک اساسی از این پروژه‌ها را ایجاد می‌کند. متاسفانه، بازار شغلی به ندرت به این هدف دست می‌یابد و بسیاری از افرادی که این مسیر را دنبال کرده‌اند متوجه می‌شوند که نمی‌توانند از مهندس نرم‌افزار به دانشمند داده تغییر مسیر بدهند.

علم داده نیازمند یادگیری شیوه تفکر متفاوتی است. روش تفکری که شامل تفکر خلاق و متنوع، نگرش فنی و نگرش با توجه به فضای درونی و بیرونی دامنه مورد پژوهش (دانش دامنه) می‌شود. دانشمندان داده اساسا «عمومی» (generalist) هستند و از مزایای آموزش گسترده پیرامون یک مبحث عمیق بهره می‌برند. برای دانشمندان داده، داشتن مطالعات میان رشته‌ای بسیار بهتر از تمرکز زیاد روی یک موضوع به مشخص و محدود است.

مشاغل مقیاس‌پذیر در مقایسه با مشاغل غیر مقیاس‌پذیر

اغلب سازمان‌ها معمولا با استخدام دانشمندان داده عمومی ارزش بیشتری را نسبت به استخدام متخصصان یادگیری ماشین به دست می‌آورند. برای درک چرایی این امر، دانستن تفاوت‌های مشاغل غیر مقیاس‌پذیر و مقیاس‌پذیر حائز اهمیت محسوب می‌شود. این موارد در ادامه تشریح شده‌اند.

ساخت یک الگوریتم یادگیری ماشین همه منظوره یک شغل مقیاس‌پذیر است، زیرا هنگامی که شخصی یک الگوریتم را طراحی و پیاده‌سازی کرد، همه می‌توانند از آن بدون هرگونه هزینه مازادی استفاده کنند. البته که همه علاقمند به استفاده از بهترین الگوریتم‌ها که توسط بهترین دانشمندان ساخته شده هستند. بیشتر سازمان‌ها امکان استخدام طراحان الگوریتم عالی رتبه را که حقوق‌های آنچنانی دریافت می‌کنند ندارند.

خوشبختانه، بخش عمده‌ای از کارهای این طراحان الگوریتم عالی رتبه در مقالات پژوهشی، کتابخانه‌های متن‌باز و cloud API‌ها در دسترس عموم است. بنابراین، نتایج و دستاوردهای حاصل از تلاش‌های بهترین طراحان الگوریتم‌های یادگیری ماشین، دارای تاثیرات عمومی است و کارهای این طراحان الگوریتم دانشمندان داده عمومی را قادر می‌سازد تا با بهره‌گیری از این الگوریتم‌ها تاثیرات قابل توجهی ایجاد کنند.

بالعکس، علم داده فعالیتی با قابلیت مقیاس‌پذیری کمتر است. در این رشته نیاز به درک مباحث خاص کسب‌و‌کار، نیازها و دارایی‌های یک شرکت خاص است. اغلب شرکت‌های دارای یک اندازه خاص (برای مثال، کوچک، متوسط، بزرگ و دیگر موارد)، نیاز به دانشمند داده خاص خود دارند. حتی اگر دانشمندان داده دیگر شرکت‌ها رویکردهای خود را همراه با جزئیات منتشر کرده باشند، عملا مشخص است که برخی از جنبه‌ها و شرایط مساله از سازمانی به سازمان دیگر متفاوت است و یک رویکرد واحد را نمی‌توان برای موارد مختلف کپی کرد.

البته، مسیرهای بسیار ارزشمند و جالب دیگری نیز برای علاقمندان به علم داده وجود دارد. افرادی به مشاغل تخصصی‌تر یادگیری ماشین فکر می‌کنند، باید از این راز پنهان صنایع آگاه باشند که مهندس‌های یادگیری ماشین در شرکت‌های بزرگ کار یادگیری ماشین کمی انجام می‌دهند. در عوض، بیشتر زمان خود را صرف ساخت مسیرهای پردازش داده و زیرساخت‌های استقرار مدل می‌کنند. به افرادی که به داشتن چنین مشاغلی علاقمند هستند (که اغلب از مشاغل خیلی عالی به شمار می‌آیند)، توصیه می‌شود که تمرکز کمتری روی آموزش الگوریتم‌های یادگیری ماشین بگذارند و در عوض بیشتر زمان خود را به فراگیری مهندسی عمومی، فعالیت‌های DevOps و زیرساخت‌های فرآیند داده اختصاص دهند.

در حالیکه بهترین دانشمند یادگیری ماشین جهان ممکن است مشارکت بسیاری در ساخت دانش عظیم انسانی داشته باشد، یک دانشمند داده دارای مهارت می‌تواند تاثیرات بیشتری در طیف گسترده‌تری از موقعیت‌ها بر جای بگذارد. بازار کار موجود گواهی بر این موضوع است. افرادی که به دنبال یافتن شغل هستند، باید توجه داشته باشند که فراگیری یادگیری ماشین تنها باید بخشی از رژیم آموزشی آن‌ها باشد و در نظر بگیرند که نیاز به یادگیری مواردی مانند دانش کسب‌و‌کار، مهارت‌های ارتباطی و ارائه مطلب و مهارت برنامه‌نویسی دارند.

کارفرمایانی که تمایل دارند شرکت خود را داده‌محورتر کنند نیز باید در نظر داشته باشند که استخدام یک دانشمند داده عمومی اغلب برای آن‌ها مفیدتر از استخدام یک طراح الگوریتم عالی رتبه و یا کارشناس یادگیری ماشین است. در مجموع باید گفت فراگیری مباحث اساسی یادگیری ماشین بدون آموزش‌های مکمل، معمولا موجب کاهش درآمد و محدودیت انتخاب‌ها در بازار کار می‌شود.

اگر نوشته بالا برای شما مفید بوده، آموزش‌های زیر نیز به شما پیشنهاد می‌شود:

منبع (+)

مجموعه: داده کاوی, هوش مصنوعی, یادگیری ماشینی برچسب ها: Data Mining, data scientist, Machine Learning, داده‌کاوی, دانشمند داده, کارشناس یادگیری ماشین, مهندس داده

یادگیری ماشین در مقایسه با علم داده

مشاغل مقیاس‌پذیر در مقایسه با مشاغل غیر مقیاس‌پذیر

پاسخی بگذارید لغو پاسخ