مقایسه دانشمند داده و مهندس یادگیری ماشین — راهنمای کاربردی
آیا هنگامی که به «علم داده» (Data Science) یا «یادگیری ماشین» (Machine Learning) فکر میکنید، این دو اصطلاح در کنار هم در ذهن شما نقش میبندند؟ آیا از تفاوت «دانشمند داده» (Data Scientist) با کارشناس یادگیری ماشین آگاه نیستید و در انتخاب زمینه شغلی خود دچار گمراهی شدهاید؟ در صورتی که پاسخ شما به این پرسشها مثبت است، مطالعه ادامه این مطلب به شما توصیه میشود. در این نوشتار، برخی از تمایزهای مهم بین علم داده و یادگیری ماشین که اغلب نادیده گرفته میشوند و به ویزه تفاوتهای شغلی این دو بیان خواهند شد.
یادگیری ماشین در مقایسه با علم داده
یادگیری ماشین در متون نویسندگانی که اطلاعات کافی پیرامون لغات و اصطلاحات این حوزه ندارند معمولا دچار کژتابیهایی میشود. در حالت کلی، این مباحث برای فعالان این حوزهها دارای گستره وسیعی از مفاهیم است. یادگیری ماشین به شکل خاصی از بهینهسازی ریاضیاتی اشاره دارد؛ این نوع از بهینهسازی عبارت است از وا داشتن یک کامپیوتر به داشتن عملکرد بهتر در برخی وظایف، از طریق آموزش دادن با دادهها یا تجربههای گذشته، بدون برنامهنویسی صریح و اعلان خط به خط دستورات.
این تعریف معمولا به ساخت مدل بر مبنای شرایط گذشته (دادههای گذشته) با خروجیهای شناخته شده (برچسبها) و اعمال مدل برای انجام پیشبینی موارد آینده اشاره دارد، که در آن هدف یافتن راههایی برای کمینه کردن تابع «خطا» (Error) یا «هزینه» (Cost) است. این دو تابع نشانگر میزان عدم تطابق پیشبینیها با مقادیر واقعی هستند. توجه به این نکته لازم است که برخی از فعالیتهای مهم کسبوکارها جایگاهی در این تعریف یادگیری ماشین ندارند، برخی از این موارد در ادامه آورده شدهاند.
- ارزیابی اینکه آیا دادهها برای یک هدف مناسب هستند.
- فرموله کردن یک هدف مناسب
- پیادهسازی سیستمها و پردازشها
- تعامل با ذینفعان متفاوت
نیاز به این توابع منجر به شناسایی علم داده به عنوان یک زمینه نو شده است. بر اساس مطلب منتشر شده در «هاروارد بیزنس رویو» (Harvard Business Review)، مهارتهای کلیدی مورد نیاز دانشمندان داده، توانایی ساختن و استفاده از زیرساختهای یادگیری عمیق نیست؛ بلکه، توانایی یادگیری سریع و پاسخگویی به سوالات کسبوکار و تشریح نتایج پیچیده برای ذینفعان غیر فنی است. دیگر نویسندگان نیز توافق دارند که: «ما احساس میکنیم تعریف ویژگیهای دانشمندان داده با توجه به وسعت تواناییهای آنها وسیع و امکانپذیر است.
از جمله این تواناییها میتوان به تولید پیش نمونه از کلیه مراحل مورد نیاز برای کسب بینش یا ساخت محصولات دادهمحور (به صورت تک نفری توسط دانشمند داده) اشاره کرد. در مقاله دیگری که در HBR منتشر شده، نویسنده تاکید میکند که «دریافت ارزش از یادگیری ماشین به الگوریتمهای خیالی مربوط نیست، بلکه، ساده ساختن استفاده از آنها است… مساله اغلب شرکتها این نیست که یادگیری ماشین به کار آنها نمیآید، بلکه شرکتها (در حال حاضر) در کشاکش استفاده از آن هستند».
یادگیری ماشین یک مهارت مهم برای «دانشمند داده» (Data Scientist) به شمار میآید، اما تنها یکی از متعدد مهارتهای مورد نیاز دانشمندان داده است. فکر کردن به یادگیری ماشین به عنوان یک کل از علم داده، مانند فکر کردن به حسابداری به عنوان یک کل برای سودآوری شرکت است. علاوه بر این، شکاف مهارتی در علم داده به طور گسترده در حوزههای مکمل یادگیری ماشین شامل «حساسیت کسبوکار» (business sensibility)، آمار، چارچوببندی مشکلات و ارتباطات وجود دارد.
افرادی که قصد دارند دانشمند داده بشوند، باید آموزشهای میان رشتهای ببینند. بالا بودن تقاضا برای دانشمندان داده دیگر برای کسی پوشیده نیست. علارغم این موضوع، اغلب برنامههای آموزشی علم داده روی کلاسهای آموزشی و دورههای یادگیری ماشین متمرکز شدهاند. این یک مساله مهم و قابل توجه است. بسیاری از دانشآموزان شدیدا روی آموزش یادگیری ماشین در طول یک برنامه آموزشی متعادل متمرکز میشوند. چنین برنامههای متاسفانه منجر به تولید افراد غیر آماده و زود کارشناس شده میشوند که در تلاش برای کسب جایگاههای شغلی در حوزه علم داده هستند.
بسیاری از نویسندگان حوزه یادگیری ماشین و مدیران علم داده که ضمن تدوین این مطلب با آنها گفتوگو شده، با کاندیداهای استخدام زیادی که دانش خود از یادگیری ماشین را تبلیغ میکردند و به عبارت دیگر، به نمایش میگذاشتند مصاحبه کردهاند. کارفرمایان در رابطه با چنین مصاحبههایی میگویند که متاسفانه این افراد دانش بسیار کمی در حوزه آمار، موضوعاتی مانند «بایاس و واریانس» (Bias and Variance) و کیفیت داده دارند. تعداد کمی از مدعیان کارشناسی در این حوزه پروپوزال یک پروژه منسجم را برای کسب اهداف کسبوکار ارائه میکنند.
با توجه به تجربیات نویسنده این مطلب، مهندسان نرمافزار به طور ویژهای به فراخوانهای جذب افراد با تحصیلات بسیار بالا در حوزه یادگیری ماشین توجه دارند. بر اساس حدس و گمان، میتوان گفت این امر بدان دلیل است که یادگیری ماشین از همان جنس تفکری استفاده میکند که در حال حاضر توسعهدهندگان نرمافزار از آن بهره میبرند، و در واقع تفکر الگوریتمی است که هم برای مهندسان نرمافزار و هم برای دانشمندان داده و کارشناسان یادگیری ماشین مورد نیاز است.
آموزشهای یادگیری ماشین فوقالعاده تخصصی شده، گرایشی کاذب برای انجام پروژههای جالب و مهیج بدون داشتن هرگونه ادراک اساسی از این پروژهها را ایجاد میکند. متاسفانه، بازار شغلی به ندرت به این هدف دست مییابد و بسیاری از افرادی که این مسیر را دنبال کردهاند متوجه میشوند که نمیتوانند از مهندس نرمافزار به دانشمند داده تغییر مسیر بدهند.
علم داده نیازمند یادگیری شیوه تفکر متفاوتی است. روش تفکری که شامل تفکر خلاق و متنوع، نگرش فنی و نگرش با توجه به فضای درونی و بیرونی دامنه مورد پژوهش (دانش دامنه) میشود. دانشمندان داده اساسا «عمومی» (generalist) هستند و از مزایای آموزش گسترده پیرامون یک مبحث عمیق بهره میبرند. برای دانشمندان داده، داشتن مطالعات میان رشتهای بسیار بهتر از تمرکز زیاد روی یک موضوع به مشخص و محدود است.
مشاغل مقیاسپذیر در مقایسه با مشاغل غیر مقیاسپذیر
اغلب سازمانها معمولا با استخدام دانشمندان داده عمومی ارزش بیشتری را نسبت به استخدام متخصصان یادگیری ماشین به دست میآورند. برای درک چرایی این امر، دانستن تفاوتهای مشاغل غیر مقیاسپذیر و مقیاسپذیر حائز اهمیت محسوب میشود. این موارد در ادامه تشریح شدهاند.
ساخت یک الگوریتم یادگیری ماشین همه منظوره یک شغل مقیاسپذیر است، زیرا هنگامی که شخصی یک الگوریتم را طراحی و پیادهسازی کرد، همه میتوانند از آن بدون هرگونه هزینه مازادی استفاده کنند. البته که همه علاقمند به استفاده از بهترین الگوریتمها که توسط بهترین دانشمندان ساخته شده هستند. بیشتر سازمانها امکان استخدام طراحان الگوریتم عالی رتبه را که حقوقهای آنچنانی دریافت میکنند ندارند.
خوشبختانه، بخش عمدهای از کارهای این طراحان الگوریتم عالی رتبه در مقالات پژوهشی، کتابخانههای متنباز و cloud APIها در دسترس عموم است. بنابراین، نتایج و دستاوردهای حاصل از تلاشهای بهترین طراحان الگوریتمهای یادگیری ماشین، دارای تاثیرات عمومی است و کارهای این طراحان الگوریتم دانشمندان داده عمومی را قادر میسازد تا با بهرهگیری از این الگوریتمها تاثیرات قابل توجهی ایجاد کنند.
بالعکس، علم داده فعالیتی با قابلیت مقیاسپذیری کمتر است. در این رشته نیاز به درک مباحث خاص کسبوکار، نیازها و داراییهای یک شرکت خاص است. اغلب شرکتهای دارای یک اندازه خاص (برای مثال، کوچک، متوسط، بزرگ و دیگر موارد)، نیاز به دانشمند داده خاص خود دارند. حتی اگر دانشمندان داده دیگر شرکتها رویکردهای خود را همراه با جزئیات منتشر کرده باشند، عملا مشخص است که برخی از جنبهها و شرایط مساله از سازمانی به سازمان دیگر متفاوت است و یک رویکرد واحد را نمیتوان برای موارد مختلف کپی کرد.
البته، مسیرهای بسیار ارزشمند و جالب دیگری نیز برای علاقمندان به علم داده وجود دارد. افرادی به مشاغل تخصصیتر یادگیری ماشین فکر میکنند، باید از این راز پنهان صنایع آگاه باشند که مهندسهای یادگیری ماشین در شرکتهای بزرگ کار یادگیری ماشین کمی انجام میدهند. در عوض، بیشتر زمان خود را صرف ساخت مسیرهای پردازش داده و زیرساختهای استقرار مدل میکنند. به افرادی که به داشتن چنین مشاغلی علاقمند هستند (که اغلب از مشاغل خیلی عالی به شمار میآیند)، توصیه میشود که تمرکز کمتری روی آموزش الگوریتمهای یادگیری ماشین بگذارند و در عوض بیشتر زمان خود را به فراگیری مهندسی عمومی، فعالیتهای DevOps و زیرساختهای فرآیند داده اختصاص دهند.
در حالیکه بهترین دانشمند یادگیری ماشین جهان ممکن است مشارکت بسیاری در ساخت دانش عظیم انسانی داشته باشد، یک دانشمند داده دارای مهارت میتواند تاثیرات بیشتری در طیف گستردهتری از موقعیتها بر جای بگذارد. بازار کار موجود گواهی بر این موضوع است. افرادی که به دنبال یافتن شغل هستند، باید توجه داشته باشند که فراگیری یادگیری ماشین تنها باید بخشی از رژیم آموزشی آنها باشد و در نظر بگیرند که نیاز به یادگیری مواردی مانند دانش کسبوکار، مهارتهای ارتباطی و ارائه مطلب و مهارت برنامهنویسی دارند.
کارفرمایانی که تمایل دارند شرکت خود را دادهمحورتر کنند نیز باید در نظر داشته باشند که استخدام یک دانشمند داده عمومی اغلب برای آنها مفیدتر از استخدام یک طراح الگوریتم عالی رتبه و یا کارشناس یادگیری ماشین است. در مجموع باید گفت فراگیری مباحث اساسی یادگیری ماشین بدون آموزشهای مکمل، معمولا موجب کاهش درآمد و محدودیت انتخابها در بازار کار میشود.
اگر نوشته بالا برای شما مفید بوده، آموزشهای زیر نیز به شما پیشنهاد میشود:
- دانشمند داده شدن؛ آری یا خیر؟ — راهنمای کاربردی
- مجموعه آموزشهای آمار، احتمالات و دادهکاوی
- مجموعه آموزشهای یادگیری ماشین و بازشناسی الگو
- مجموعه آموزشهای شبکههای عصبی مصنوعی
- مجموعه آموزشهای هوش محاسباتی
- مجموعه آموزشهای برنامه نویسی پایتون (Python)
- آموزش برنامهنویسی R و نرمافزار R Studio
- مجموعه آموزشهای برنامه نویسی متلب (MATLAB)
مجموعه: داده کاوی, هوش مصنوعی, یادگیری ماشینی برچسب ها: Data Mining, data scientist, Machine Learning, دادهکاوی, دانشمند داده, کارشناس یادگیری ماشین, مهندس داده