
علم داده به استخراج دانش از داده هایی گفته می شود که با استفاده از روش های مختلف جمع آوری شده است. به عنوان یک دانشمند داده، یک مشکل تجاری پیچیده را در نظر می گیرید، در مورد آن تحقیق می کنید، آن را به داده تبدیل می کنید و سپس از آن داده ها برای حل مشکل استفاده می کنید. این برای شما چه معنایی دارد و چگونه و از کجا شروع می کنید؟
تنها چیزی که نیاز دارید درک واضح و عمیق از دامنه کسب و کار و خلاقیت بالا است که بدون شک از آن برخوردار هستید. بسیاری از جذابیت های علم داده مربوط به کلاهبرداری، به ویژه کلاهبرداری اینترنتی است. در چنین مواردی، دانشمندان داده الگوریتم هایی را برای شناسایی و جلوگیری از تقلب با استفاده از مهارت های خود ایجاد می کنند. (منبع جانبی مقاله)
در این مقاله آموزشی علم داده، همه چیز را از زمینه های شغلی برای دانشمندان داده، کاربردهای دنیای واقعی علم داده و نحوه شروع کار در این زمینه یاد خواهید گرفت. بنابراین ما با مسئولیت های یک دانشمند داده شروع می کنیم.
علاوه بر این مقاله، قطعا به: آموزش هوش تجاری از صفر تا صد با 30 درس نیاز خواهید داشت
یک دانشمند داده چه می کند؟
دانشمندان داده در زمینه های مختلفی فعالیت می کنند که هر یک برای یافتن راه حل برای مشکلات بسیار مهم است و دانش خاصی را می طلبد. این حوزه ها شامل جمع آوری داده ها، آماده سازی، استخراج و مدل سازی و نگهداری مدل می باشد. دانشمندان داده با استفاده از الگوریتمهای یادگیری ماشین، دادههای خام را به معدن ارزشمندی از اطلاعات تبدیل میکنند که به سؤالات کسبوکارهایی که به دنبال راهحل برای سؤالات خود هستند، پاسخ میدهد. هر یک از فیلدها عبارتند از:
- جمع آوری داده ها: دانشمندان داده؛ آنها داده ها را از همه منابع خام مانند پایگاه داده ها و فایل های مسطح می گیرند. سپس آنها را یکی یکی قالب بندی می کنند و به جایی که به “انبار داده” معروف است تحویل می دهند. انبار داده سیستمی است که با استفاده از آن می توان به راحتی اطلاعات را از داده ها استخراج کرد. این مرحله که به عنوان ETL نیز شناخته می شود را می توان با ابزارهایی مانند Talend Studio، DataStage و Informatica انجام داد.
- آماده سازی داده ها: این مهم ترین مرحله است و 60 درصد از زمان دانشمند داده را می گیرد زیرا بیشتر داده ها «خام» یا غیرقابل استفاده هستند و باید مقیاس پذیر، سازنده و معنادار باشند. در واقع، این آماده سازی دارای پنج مرحله فرعی است:
1- حذف داده ها: این مرحله مهم است زیرا داده های بد می تواند منجر به مدل های بد شود. در طی فرآیند پاکسازی، مقادیر از دست رفته و مقادیر تهی یا نامعتبر بررسی می شوند که می تواند منجر به خراب شدن مدل شود. این مرحله در نهایت تاثیر مثبتی بر تصمیمات تجاری و بهره وری دارد.
2- تبدیل داده ها: داده های خام را می گیرد و از طریق عادی سازی به نتایج دلخواه تبدیل می کند. برای مثال، این مرحله می تواند از نرمال سازی حداقل حداکثر یا نرمال سازی z-score استفاده کند.
3- کنترل داده های مربوطه: این مرحله زمانی اتفاق می افتد که برخی از داده ها خارج از محدوده سایر داده ها باشند. با استفاده از تجزیه و تحلیل اکتشافی، دانشمند داده به سرعت از نمودارها و نقشهها استفاده میکند تا تعیین کند که با نقاط پرت چه کاری انجام دهد و ببیند چرا آنها آنجا هستند. معمولاً برای تشخیص تقلب استفاده می شود.
4- یکپارچه سازی داده ها: در این مرحله، دانشمند داده اطمینان حاصل می کند که داده ها دقیق و قابل استفاده هستند.
5- کاهش داده هادر این مرحله، چندین منبع داده در یک منبع واحد جمعآوری میشوند که باعث افزایش قابلیتهای ذخیرهسازی، کاهش هزینهها و حذف دادههای تکراری و اضافی میشود.
6– تحلیل داده ها: در این مرحله، دانشمندان داده الگوهای داده و روابط را برای اتخاذ تصمیمات تجاری بهتر کشف می کنند. داده کاوی یک فرآیند اکتشافی برای رسیدن به درک پنهان و مفید است که به عنوان تجزیه و تحلیل داده های اکتشافی شناخته می شود. داده کاوی برای پیش بینی روندهای آینده، شناخت الگوهای مشتری، حمایت از تصمیم گیری، تشخیص سریع تقلب و انتخاب الگوریتم های مناسب مفید است. نرم افزار Tableau برای داده کاوی مناسب است.
7– مدلسازی: این مرحله فراتر از داده کاوی ساده است و نیاز به ساخت یک مدل یادگیری ماشینی دارد. این مدل با انتخاب یک الگوریتم یادگیری ماشین که برای داده ها، بیان مسئله و منابع موجود مناسب است ساخته می شود.
همچنین بخوانید: آشنایی با اجزای اساسی و مهم Spss برای تسلط بهتر در سطح مقدماتی
الگوریتم های یادگیری ماشینی که توسط دانشمندان داده استفاده می شود
دو نوع الگوریتم یادگیری ماشین وجود دارد: نظارت شده و بدون نظارت.
1- نظارت: الگوریتم یادگیری نظارت شده زمانی استفاده می شود که داده ها دارای برچسب هستند و دارای دو نوع هستند:
- پسرفت: زمانی که نیاز به پیشبینی مقادیر پیوسته دارید و متغیرها به صورت خطی وابسته هستند، الگوریتمهای مورد استفاده رگرسیون خطی و چندگانه، درخت تصمیم و جنگل تصادفی خواهند بود.
- طبقه بندی: زمانی که نیاز به پیشبینی مقادیر مطلق دارید، میتوانید از برخی از الگوریتمهای طبقهبندی رایج مانند KNN، رگرسیون لجستیک، SVM و Naive-Bayes استفاده کنید.
- بدون نظارت: الگوریتمهای یادگیری بدون نظارت زمانی استفاده میشوند که دادهها بدون برچسب هستند و هیچ داده برچسبگذاریشدهای برای یادگیری وجود ندارد، که دو نوع هستند:
- گروه بندی: این الگوریتم روشی برای جداسازی اجسام مشابه و غیرمشابه است. معمولاً از الگوریتم های خوشه بندی K-Means و PCA استفاده می شود.
- تجزیه و تحلیل قواعد وابستگی: الگوریتم Apriori و مدل پنهان مارکوف را می توان برای کشف روابط جالب بین متغیرها استفاده کرد.
- پشتیبانی مدل: پس از جمع آوری داده ها و انجام مرحله استخراج و ساخت مدل، دانشمندان داده نیاز به بهبود دقت مدل دارند. برای این منظور مراحل زیر را انجام می دهند:
1-ارزیابی: گاه به گاه، نمونه ای بر اساس داده ها ساخته می شود تا اطمینان حاصل شود که مدل دقیق باقی می ماند.
2- بازآموزی: اگر نتایج ارزیابی مجدد صحیح نباشد، دانشمند داده باید الگوریتم را مجدداً آموزش دهد تا دوباره نتایج صحیح به دست آید.
3- بازسازی: اگر مرحله بازآموزی ناموفق باشد، باید بازسازی انجام شود.
همانطور که می بینید، علم داده یک فرآیند پیچیده و چند مرحله ای است که از پتانسیل کامل خود برای دستیابی به نتایج ثابت و عالی استفاده می کند.
دانلود 8 آموزش عملی تحلیل داده ها با نرم افزار آماری SAS
اکنون که متوجه شدید یک دانشمند داده چه می کند، بیایید در بخش بعدی آموزش علم داده به چند نمونه از علم داده در عمل نگاه کنیم.
دو نمونه از علم داده در عمل
علم داده از داده های خام برای کمک به حل مشکلات استفاده می کند. در هر یک از این دو مثال، داده ها به حل سوالی کمک کردند که مردم با آن مشکل داشتند. در مورد اول، بانک باید بفهمد که چرا مشتریانش بانک را ترک می کنند، این مثال بر روی داده کاوی با استفاده از Tableau تمرکز دارد. مثال دوم کنجکاوی این بود که کدام کشورها بالاترین سطح شادی را دارند. این مثال بر ساخت یک مدل تمرکز دارد. بدون علم داده، پاسخ به این دو سوال غیرممکن خواهد بود.
مثال اول: نرخ برداشت مشتری از بانک
در این مثال، یک بانک داده ها را با استفاده از پایتون پاک می کند. کلاینت یک فایل CSV را بارگیری می کند و مقادیر گم شده را در برخی از زیر مجموعه ها مانند فیلد جغرافیا پیدا می کند. در این حالت، دانشمند داده باید جاهای خالی را با چیزی پر کند تا مجموعه داده ها برابر شود، بنابراین با نوشتن کد برای انجام این کار، داده ها با نتیجه “متوسط” پر می شوند. در غیر این صورت، آمار بی فایده است.
با این حال، زمانی که دادهها در دسترس نیستند، یک دانشمند داده میتواند اقدامات دیگری انجام دهد. به عنوان مثال، کل ردیف را می توان حذف کرد، اما این بیش از حد است و ممکن است نتایج مطالعه را مخدوش کند.
اگر همه ستون ها خالی باشند، می توان آنها را حذف کرد. همچنین، هنگامی که 10 تا 20 ردیف وجود دارد و پنج تا هفت ردیف خالی است، می توان پنج تا هفت ردیف را بدون نگرانی در مورد تغییر شدید نتایج حذف کرد.
پس از پاکسازی داده ها، دانشمند داده آماده استفاده از داده ها برای داده کاوی است.
این دانشمند داده اکنون از Tableau برای بررسی نرخ ریزش مشتریان بانک بر اساس جنسیت، موجودی کارت اعتباری و جغرافیا استفاده می کند تا ببیند آیا آنها بر نرخ تأثیر می گذارند یا خیر.
بسیار مفید در علم داده: الگوریتم K-means چیست؟ 4 روش و 2 روش محاسبه موجود است
Tableau از یک سیستم کشیدن و رها کردن برای تجزیه و تحلیل داده ها استفاده می کند، بنابراین برای تجزیه و تحلیل جنسیت، یک دانشمند داده باید “Exit” را در بخش “Dimensions” Tableau و “Gender” را در “Measures” وارد کند.
این دو ستون، یکی برای مردان و دیگری برای زنان، و دو مقدار ایجاد می کند، 0 برای کسانی که انصراف نداده اند و 1 برای کسانی که انصراف نداده اند.
سپس یک نمودار میله ای مقادیر درصد را نشان می دهد. داده ها تفاوت بین زن و مرد را نشان می دهد.
انجام همین کار برای کارت های اعتباری هیچ تاثیری را نشان نمی دهد، اما جغرافیا تاثیری دارد!
در نتیجه، این مطالعه نشان می دهد که یک بانک باید جنسیت و مکان مشتریان خود را در هنگام تجزیه و تحلیل چگونگی حفظ بهتر آنها در نظر بگیرد. بنابراین، به لطف علم داده، بانک اطلاعات مهمی در مورد رفتار مشتری میآموزد.
مثال دوم: پیش بینی میزان شادی در جهان
پیش بینی خوشبختی جهان یک هدف غیرممکن به نظر می رسد، اینطور نیست؟ اما به لطف علم داده، اینطور نیست! با استفاده از مدل رگرسیون خطی چندگانه می توان تخمین زد.
برای این کار ابتدا باید به یک سری مقادیر نگاه کنید. در این مورد، این ابعاد عبارتند از: رتبه بندی شادی، ارزش شادی، کشور، منطقه، اقتصاد، خانواده، سلامت، آزادی، اعتماد و سخاوت. شما به همه آنها نیاز ندارید، اما برخی باید الگوهایی برای ساختن و آموزش باشند.
در اینجا می توانید هر زبان برنامه نویسی را به صورت رایگان یاد بگیرید
با استفاده از پایتون، دانشمند داده کتابخانههایی مانند پانداها، Numpy و sklern را وارد میکند. دادهها بهعنوان فایلهای CSV از سالهای 2015، 2016 و 2017 وارد میشوند. سپس دانشمند میتواند این سه داده را به هم متصل کند یا یک مدل برای هر CSV بسازد. در نهایت، head() اولین کشورهایی را با بالاترین امتیاز شادی نشان می دهد.
نمودارها و نقشه ها در پایتون ایجاد می شوند تا نشان دهند کدام کشورها شادترین و کدام کشورها کمتر هستند. نمودار پراکندگی رابطه بین رتبه شادی و رتبه شادی را نشان می دهد که معکوس است.
زبان اسمبلی چیست؟ مزایا و معایب و چرا باید مطالعه کنیم؟
هنگامی که پردازش داده ها کامل شد، می توان نام کشورها را حذف کرد و مهم ترین عوامل تعیین کننده شادی در جهان را ترسیم کرد. همانطور که می توانید تصور کنید، بالاترین امتیاز، امتیاز شادی است. بر اساس تحلیل ها، دومین عنصر مهم اقتصاد و پس از آن خانواده و سلامت است. به لطف نمایش بسیار دقیق مدل رگرسیون خطی چندگانه پایتون، اکنون می توانیم سطح شادی را در جهان پیش بینی کنیم!