۹ مهارتی که شما نیاز دارید تا به یک دانشمند علم داده تبدیل شوید

درو کانوی(Drew Conway) از متخصصین صاحب نام در حوزه علوم داده و موسس و مدیر ارشد استارتاپ Alluvium،اعتقاد دارد برای این که یک متخصص علم داده بتواند در بازار کار فعالیت کند باید مهارت‌های برنامه‌نویسی داشته باشد ولی این لزوما به معنای تحصیلات در مهندسی کامپیوتر نیست.

قابلیت دستکاری داده‌ها از طریق دستورهای برنامه‌نویسی، درک دستوراتی که به صورت برداری نوشته می‌شود و تفکر الگوریتمی از مهارت‌هایی هستند که برای برنامه‌نویسی الزام است.

بعد از اینکه داده‌ها پالایش شدند نیاز است که روشهای ریاضی و آماری روی آنها اجرا شود که نیازمند آشنایی با این تکنیک هاست. البته این به این معنا نیست که برای متخصص علم داده شدن حتما باید دکترای آمار داشته باشید ولی برای مثال باید بتوانید روش رگرسیون با کمترین مربعات خطا را اجرا کنید و آن را تفسیر کنید.

قسمت سوم مربوط به مهارت‌های تحقیق علمی است. یک متخصص علم داده باید روحیه جستجو داشته باشد و بتواند فرضیه‌هایی تدوین کند و آن‌ها را با استفاده از داده‎ها آزمایش کند.

در سال های اخیر، تعداد علاقه‌مندان علم داده افزایش یافته است. به همین خاطر ما لیستی از مهارت ها فنی و غیر فنی برای موفقیت در علم داده برای شما قرار دادهایم.هر شرکت ارزیابی خودش را در زمینه استخدام داده‌کاو دارد و نمی توان گفت این یک لیست جامع است اما اگر شما می‌خواهید در این زمینه حرف اول را نسبت به رقیبان خود بزنید این لیست به شما کمک خواهد کرد.

مهارتهای فنی: آنالیز

  1. تحصیلات: دانشمندان داده سطح تحصیلات بالایی دارند، ۸۸ درصد حداقل مدرک کارشناسی ارشد و ۴۶ درصد مدرک دکتری دارند. رایج ترین رشته ها در این زمینه مطالعات ریاضیات و آمار (۳۲ درصد ) و پس از آن علوم کامپیوتر (۱۹درصد ) و مهندسی (۱۶درصد) است.

۲ )SAS و R:

یکی از ابزارهای تحلیلی برای علم داده R است و این نرم افزار نسبت به بقیه ارجحیت دارد.

مهارتهای فنی: علوم کامپیوتر

۳) برنامه نویسی پایتون بلد باشد: پایتون یکی از رایجترین زبان برنامه نویسی در علم‌داده است و می‌توان به زبان‌های جاوا، پرل و یا C++,C
هم اشاره نمود.

۴) پیشنهاد می‌شود که با بستر هادوب آشنایی داشته باشید.

۵) آشنایی با دیتابیس SQL و کدنویسی آن.

۶) داده‌های بدون ساختار:
این مهم است که یک دانشمند علم داده قادر به کار کردن با دادههای بدون ساختار باشد.

مهارتهای غیر فنی

۷) دارای حس کنجکاوی باشد.

۸) تیزهوشی تجاری:
یک دانشمند داده باید قادر به حل مشکلات و ارائه راه‌حل برای بیزینس های حیاتی باشد.

۹) دارای مهارت‌های ارتباطی باشد

گردآورنده: سرور مطیع
برگرفته از نشریه مهندسی صنایع سامانه‌نو شماره علوم داده

هوش‌مصنوعی

حتما برایتان پیش آمده‌است که در طول یک روز یا یک هفته، چندین بار به سایت گوگل سربزنید و موضوعی را که به دنبال آن هستید جستجو کنید. زمانی که در گوگل شروع به تایپ کردن می‌کنید، گوگل برای شما گزینه‌هایی را نشان می‌دهد که ممکن است به دنبال آن‌ها باشید! یا در زمانی که در اینستاگرام خود جستجو می‌کنید، به مواردی برمی‌خورید که اینستاگرام احتمال می‌دهد به آنها علاقه‌مند باشید. پس باید گفت شما در زندگی روزمره‌ی خود، کم و بیش با هوش مصنوعی سر و کار دارید.

هوش مصنوعی در جهان اطراف ما، به طور نامحسوسی درحال فراگیر شدن است اما اگر بخواهیم دقیق‌تر به آن نظاره کنیم، باید ابتدا این پرسش را مطرح کنیم که منظورمان از هوش چیست؟!

دانشمندان معتقدند هوش مصنوعی، هنر ایجاد ماشین‌هایی است که وظایفی را انجام میدهند درحالی‌که اگر انسانی بخواهد آن وظایف را انجام
دهد، نیاز به هوش دارد. به زبان سادهتر، ما در اینجا از ماشین انتظار داریم خصوصیات زیر را داشته باشد:

۱ -زمانی که به موقعیت‌های از قبل تعریف نشده برمیخورد، بتواند عکس العمل نشان دهد و از این واقعه تجربه بیاموزد؛ به‌طوری‌ که هر لحظه در حال یادگیری باشد و خود را کامل‌‌تر کند. برای مثال، ربات‌های دارای هوش مصنوعی، با آزمون و خطا می‌توانند حرکاتی را یاد بگیرند که از قبل برای آنها تعریف نشده‌است!

۲ -شباهت‌ها و تفاوت‌ها را درک کند. در نتیجه بتواند پیش بینی کند و حتی خطاها را اصالح کند. درست مشابه گوگل که اگر لغتی را در آن اشتباه تایپ کنید، خطای شما را به شما گوشزد می‌کند.

۳ -اطلاعات را تجزیه و تحلیل کند و از آنها نتیجه‌گیری کند. برای مثال اینستاگرام با تشخیص هویت شما و مطابقت دادن آن با اکانت فیسبوک شما، دوستانی را که در فیسبوک داشته‌اید در اینستاگرام به شما معرفی می‌کند!


ماشین‌های دارای هوش مصنوعی، به دلیل ویژگی یادگیری و استفاده از تجربه‌هایشان، کمتر از انسان‌ها دست به خطا می‌زنند؛ زیرا آن‌ها یک اشتباه را دوبار تکرار نمی‌کنند و لحظه به لحظه کامل‌تر می‌شوند. همچنین به دلیل اینکه می‌توانند حالت‌های بسیار زیادی را در قبال انجام اقداماتشان بررسی کنند، احتمال شکست خوردنشان کم می‌شود. نمونه‌ی آن را می‌توانید در ماشین‌های شطرنج باز مشاهده کنید.

انسان‌ها در یک بازی شطرنج، در مقابل یک ربات شطرنج باز شکست می‌خورند. حال این مسئله را به دنیای واقعی تعمیم دهید. این ماشین‌ها قادرند تمامی کتاب‌ها و دانش موجود از ابتدای بشریت تا کنون را مطالعه کنند. پس طبیعی‌ست که باتوجه به ویژگی یادگیریشان، بسیار بهتر از انسان‌ها تصمیمگیری کنند و به نوعی شکست‌ناپذیر شوند.

فرض کنید شما یک ربات قهوه‌ساز آماده می‌کنید. هدف شما در ابتدا کامال بی‌خطر است! اما این ربات با خود استدلال می‌کند که چه چیزی باعث می‌شود من نتوانم قهوه درست کنم؟ اینکه یک انسان من را خاموش کند. پس من در راستای انجام ماموریتم کلید خاموش کردن خودم را غیرفعال می‌کنم! و اینگونه می‌شود که ربات اقداماتی را انجام می‌دهد که خواسته‌ی ما نیست و اینجا دقیقا همان جاییست که مسیر ما کمی تغییر خواهد کرد.

برای جلوگیری از چنین اتفاقاتی که ناشی از عدم وجود شعور در ماشین‌هاست، برنامه‌نویسان باید با استفاده از رویکرد عدم قطعیت، برای رباتها برنامه‌ریزی کنند.

مطالب مرتبط:
داده‌کاوی در مهندسی صنایع

چگونه بفهمیم یک ماشین به اندازه‌ی کافی باهوش است یا خیر؟!

روشی برای سنجش میزان هوشمندی ماشین‌ها مطرح می‌شود که به آزمون تورینگ شهرت دارد. در این آزمون، فرد A به عنوان قاضی، با بازیکن B که در اصل یک انسان است و بازیکن C که یک ماشین است، از طریق یک صفحه کلید و نمایشگر رایانه ارتباط می‌گیرد. او باید سعی کند تا بفهمد کدام بازیکن انسان است و کدام ماشین است! اگر یک ماشین بتواند قاضی را به‌گونه‌ای فریب دهد و هویت ماشینی خود را از او مخفی کند، لقب ماشین هوشمند را کسب میکند و برنده‌ی این آزمون می‌شود.

طبیعتا برای این‎کار، ماشین از روش‌های مختلفی استفاده می‌کند؛ مثال اشتباهات تایپی می‌کند و محاسبات خود در مدت زمان بیشتری انجام می‌دهد تا قاضی را بفریبد. حتی گاهی به سواالت پاسخ اشتباه می‌دهد تا وانمود کند که انسان است.

نتیجه‌گیری

هر روزی که می‌گذرد، ماشین‌های هوشمند یک قدم به جلومی‌روند و به ما نشان می‌دهند که چه ظرفیت بزرگی برای استفاده از آن‌ها وجود دارد. کشورها و شرکت‌های پیشرفته‌ی دنیا، روز به روز به دنبال استفاده‌ی بیشتر و مفیدتر از هوش مصنوعی در شاخه‌های پزشکی، نظامی، اقتصادی، کامپیوتری، تکنولوژیکی و حتی بعضا سیاسی و اجتماعی هستند تا بتوانند به وسیله‌ی آن‌ها، خطاهای خود را به حداقل برسانند و قدم به قدم به دنیای هوشمند نزدیک‌تر شوند. شاید بهتر باشد تا ما هم این پرسش را مطرح کنیم که جای خالی هوش مصنوعی در کسب‌وکارمان دقیقا کجاست؟

نویسنده: امیرمحمد جهانی
برگرفته از نشریه سامانه‌نو “علوم داده”
اطلاعات بیشتر در مورد شماره “علوم داده”

کاربرد داده کاوی در مهندسی صنایع

انبار داده برای شرکت مثل یک حافظه عمل می کند ولی حافظه بدون هوش و آگاهی فایده چندانی ندارد. آگاهی به ما اجازه می دهد در حافظه قبلی خود جستجو کنیم، به الگو های خاصی توجه نماییم، قوانینی را ایجاد کنیم، به ایده های جدیدی برسیم، سوال های درستی بپرسیم و پیش بینی هایی در مورد آینده انجام دهیم.

داده کاوی به بررسی و تجزیه و تحلیل مقادیر عظیمی از داده ها به منظور این کشف الگو ها و قوانین پنهان معنی دار درون داده ها اطلاق می شود. ابزار با پردازش و استخراج دانش با ارزش از داده ها فرایند تصمیم گیری و برنامه ریزی را تسهیل می نمایند؛ بدین ترتیب سازمان ها می توانند به منظور بهره برداری و استخراج اطلاعات از انبوه داده های ذخیره شده از آن استفاده نمایند.

برای کاربرد این دانش نمی توان مرز و محدودیتی متصور شد و تمامی زمینه های برخوردار از پایگاه های داده می‌توانند زمینه های کاری آن باشند. حال این سوال مطرح می شود که داده کاوی در کدام حوزه از مهندسی صنایع می تواند مورد استفاده قرار گیرد؟

کاربرد داده کاوی در مهندسی صنایع

همانطور که گفته شد به دلیل آنکه داده کاوی با تجزیه و تحلیل میان انبوهی از داده ها؛ همبستگی ها، الگو ها، قواعد و وابستگی را کشف می کند، می تواند در بسیاری از حوزه ها کاربرد داشته باشد.

مهندسی صنایع شاخه اي از علم است که طراحي، بهبود، و کاربست سیستم هاي یکپارچه متشکل از انسان، مواد، تجهیزات، انرژي، و اطلاعات را در برمي گیرد. مهندسین صنایع به منظور انتخاب و تصمیم گیری در به کار بستن فاکتور های اولیه تولید مانند؛ ماشین آلات، مواد مصرفی، نیروی انسانی، فرایند تولید، و اطلاعات و انرژی لازم برای تولید محصولات و خدمات، باید کارآمدترین روش را برگزینند. همچنین مهندسین صنایع وظایفی چون؛ برنامه ریزی، طراحی، اجرا و مدیریت یکپارچه محصولات و سیستم، زمان بندی و کنترل هزینه و… را برعهده دارند.

مقالات بسیاری در زمینه کاربرد این ابزار در حوزه مهندسی صنایع نوشته شده است. از کاربردهای این ابزار می توان به زمینه های کنترل کیفیت ،زمانبندی ،بهینه سازی فرایند ، مدیریت زنجیره تامین یا SCM ، کنترل فرایند ، طراحی مهندسی تحلیل نتایج به دست آمده از سیستم های تولیدی ، توسعه ی محصول ، سیستم های تصمیم یار یا پشتیبان تصمیم ، طراحی چیدمان و بازآرایی واحدهای صنعتی، تعمیرات و نگهداری و قابلیت اطمینان در سیستم ها ، مدیریت ارتباط با مشتری یا CRM و هوش تجاری یا BI اشاره نمود؛ که در ادامه به تشریح چند مورد از آن ها پرداخته شده‌است.

کنترل کیفیت

داده کاوی در کنترل کیفیت آماری جزء جدایی ناپذیری از ابزارهای تصمیم گیری می باشد که در آنالیز نمودار فرایند-رفتار به کار برده می شود. علاوه بر این تکنیک های داده کاوی برای تحلیل و شناسایی خرابی های احتمالی به کار گرفته می شود. از این ابزار برای پیش بینی نیز می توان بهره برد. مدل های پیش بینی با استفاده از ایجاد قواعد بر مبنای داده های فرایند به پیش بینی پرداخته از انحراف توسعه جلوگیری می کنند.

مدیریت زنجیره تامین

روش های مختلف طبقه بندی (نظارت شده) و خوشه بندی (غیر نظارت شده) برای گروه بندی مشتریان، خدمات دهندگان و کالاها (یا خدمات) مورد استفاده واقع شده اند، و هدف اصلی آن ها، ایجاد یک تصویر برای بیان خلاصه تر از زنجیره تامین بوده است.

زمان بندی

یکی از حوزه های مهمی که می توان از تکنیک های داده کاوی استفاده نمود؛ برنامه ریزی است. به ویژه در مواردی که ماشین ها با قابلیت های مختلف و ظایف با نیازمندی های متفاوت وجود دارند (مانند مسأله زمان بندی منعطف ) با استفاده از رویکردهای داده کاوی وجود خواهد داشت. این موضوع نیز، می تواند با استفاده از رویکردهای طبقه بندی یا خوشه بندی انجام شود. همچنین به منظور برنامه ریزی تست کیفیت نیز می توان از داده کاوی استفاده نمود. به طور عمومی تخصیص تعداد اپراتورها و ایستگاه های کاری مورد نیاز برای یک کار معین را می توان با استفاده از قوانین و مدل های استخراج شده از داده های گذشته مانند توان بازدهی و کارایی عملیات بهبود بخشید.

طراحی مهندسی

شامل مجموعه وسیعی از مسائل بهینه سازی و مهندسی است، که بنابر شرایط محیط صنعتی و بازار هدف، غالبا به صورت یک مسأله با دینامیک بالا و اغلب به صورت توأم با عدم قطعیت طرح می‌شود. داشتن یک سری قواعد سر انگشتی برای تصمیم گیری سریع، با استفاده از روش های داده کاوی (به ویژه روش های رگرسیون) قابل انجام خواهدبود.

سیستم های تولیدی

به منظور بهینه سازی روند تولید و یا اشکال زدایی از آن، یکی دیگر از مهم ترین زمینه های کاربردی داده کاوی در این حوزه محسوب می شود. برای موضوع تشخیص و طبقه بندی خطا در سیستم های تولید، و ایجاد هشدارهای مهم برای ناظران، روش های طبقه بندی می توانند کاربرد داشته باشند. در خصوص بهینه سازی روند تولید و اتوماسیون خطوط تولید، استفاده از روش های مبتنی بر قواعد(Rule-based Systems ) مدیریت و کنترل کیفیت نیز، یکی دیگر از زمینه های بسیار مهم و کاربردی داده کاوی در زمینه سیستم های تولید است.

ایمنی

از نقطه نظر ایمنی، مطالعات داده کاوی در حوزه حوادث جاده ای منجر به ایجاد مدل های دسته بندی و شناسایی عوامل موثر بر حوادث شدید شده است.

سیستم های تصمیم یار یا پشتیبان

تصمیم سیستم های تصمیم یار به عنوان یک موضوع بسیار کلی تر، که تقریبا در همه زمینه های تخصصی و فنی کاربرد دارد، می تواند در حوزه مهندسی صنایع و زمینه های مرتبط کاربرد داشته باشد. یکی از رویکردهای طراحی چنین سیستم هایی، که به مدیران و مهندسین ناظر بر فرایندها امکان تصمیم گیری سریع، اصولی و درست را می دهد، استفاده از رویکردهای مبتنی بر کشف
دانش (Discovery Knowledge ) و داده کاوی است.

کاهش هزینه

داده کاوی در کاهش هزینه ها نیز کاربرد دارد. یک مثال خوب کاربرد این تکنیک در کاهش هزینه های محصولات سفارشی است که با آنالیز فروش، گزینه های محصولات با تقاضاهای بالاتر را شناسایی می کند. محصولات با بالاترین شباهت می توانند با هم تولید شوند تا هزینه تولید و انبارداری کاهش یابد.

طراحی چیدمان و بازآرایی واحدهای صنعتی

طراحی چیدمان و بازآرایی واحدهای صنعتی تاکنون در چندین کار پژوهشی مورد مطالعه واقع شده است و نتایج جالبی از آن به دست آمده اند. به عنوان مثال از روش کاوش قواعد وابستگی برای حل مسائلی نظیر سیستم های تولید سلولی و تشکیل سلول ها، استفاده شده است. در این حوزه، بیشتر روش های مبتنی بر سیستم های خبره و همین طور سیستم های چند عاملی تاکنون کاربرد داشته اند و طبعا جای کار برای استفاده از روش های دیگر در این حوزه وجود دارد.

تعمیرات و نگهداری و قابلیت اطمینان در سیستم ها

تعمیرات و نگهداری و قابلیت اطمینان در سیستم ها مجموعه ای از مسائل هستند که می توان از روش های داده کاوی برای حل آن ها استفاده نمود. فرمول هایی که برای تخمین قابلیت اطمینان در سیستم ها استفاده می شوند، بعضا دارای هزینه محاسباتی بالایی هستند و گاهی قابلیت اطمینان یک سیستم، چندان فرمول پذیر و محاسبه پذیر نیست. با استفاده از رویکردهای رگرسیون و مدل سازی، می توان مدلی سریع و محاسباتی برای تخمین مقدار قابلیت اطمینان، احتمال خرابی، پیش بینی زمان خرابی آتی، پیش بینی نرخ و میزان خرابی و مواردی از این قبیل استفاده نمود. در مورد مباحث تعمیرات و نگهداری، و اعمال سیاست های بهینه در این خصوص برای مدیریت هزینه ها و همین طور افزایش کارایی و کیفیت سیستم ها، امکان استفاده از روش های داده کاوی وجود دارد. برای تصمیم گیری مناسب، می توان از روش های طبقه بندی، خوشه بندی و یا مبتنی بر قواعد استفاده نمود و برای انجام تخمین در خصوص کمیت های پیوسته موجود در سیستم، امکان استفاده از رویکردهای مبتنی بر رگرسیون غیرخطی، وجود دارد.

مدیریت ارتباط با مشتریان

به دفعات از روش های داده کاوی برای حل مسائل مربوط به این حوزه ها، استفاده شده اند. البته این موارد و کاربردهای مشابه آن، در زیر مجموعه ی هوش تجاری نیز مورد مطالعه قرار می گیرند، که زمینه بسیار مهمی در کاربردهای داده کاوی است.

نویسنده : بهار امیر معینی

برگرفته از نشریه سامانه‌ نو شمارهٔ “علوم داده”

شماره «علوم داده» نشریه مهندسی صنایع سامانه نو