مهندسی و علم داده
4K subscribers
380 photos
174 videos
169 files
114 links
در مورد ادمین کانال :
- محمد عالیشاهی
- دکترای هوش مصنوعی دانشگاه تهران
-رئیس هیات مدیره شرکت فناوران هوش مصنوعی
- مدیر ارشد پروژه های هوش مصنوعی و علم داده
Download Telegram
✳️☑️علم داده چیست ؟


علم داده (Data Science)، دانشی میان‌رشته‌ای پیرامون استخراج دانش و آگاهی از مجموعه‌ای داده و اطلاعات است.علم داده از ترکیب مباحث مختلفی به وجود آمده و بر مبانی و روش‌های موجود در حوزه‌های مختلف علمی بنا شده‌است. تعدادی از این حوزه‌ها عبارتند از: ریاضیات، آمار، مهندسی داده، بازشناخت الگو و… هدف این علم، استخراج مفهوم از داده و تولید محصولات داده‌محور است.
آقایان توماس دونپورت و دی جی پاتیل در سال ۲۰۱۲ در مقاله «علم داده: جذاب‌ترین شغل قرن بیست و یکم» متخصصین علم داده را این‌طور تعریف می‌کنند: کسانی که می‌دانند چگونه می‌توان از انبوه اطلاعات بدون ساختار پاسخ سوالهای کسب‌وکار را پیدا کرد. استنتون در سال ۲۰۱۳ علم داده را این‌طور تعریف می‌کند: علم داده رشته در حال ظهوری است که به جمع‌آوری، آماده‌سازی، تحلیل، بصری‌سازی، مدیریت و نگهداشت اطلاعات در حجم بالا می‌پردازد. دریسکول در سال ۲۰۱۴ علم داده را این‌طور تعریف می‌کند: علم داده مهندسی عمران داده‌هاست. متخصص علم داده دانشی کاربردی از داده‌ها و ابزارها دارد به علاوه درک تئوریکی دارد که مشخص می‌کند چه چیزی از نظر علمی ممکن است.

✔️ متخصص علم داده کیست؟

به شاغلین در حوزهٔ علم داده، متخصص علم داده (data scientist) می‌گویند. این اصطلاح توسط دی جی پاتیل و جف همربارکر ابداع شده‌است در صورتی که سال‌ها قبل از آن که آن‌ها استفاده از اصطلاح فوق را به‌طور عمومی مطرح کنند، از آن استفاده شده‌است.چن فو جف وو در سال ۱۹۹۸ برای اولین بار در یک سخنرانی از واژهٔ متخصص علم داده استفاده کرد. متخصصین علم داده با عمیق شدن در چندین رشتهٔ علمی، مسائل پیچیدهٔ مطرح شده در حوزهٔ داده را حل می‌کنند. به‌طور کلی انتظار می‌رود که متخصصین علم داده قادر باشند در بخش‌هایی از علوم ریاضیات و آمار و علوم کامپیوتر کار کنند.یک متخصص علم داده می‌بایست در یک یا دو رشته تخصص داشته باشد و در دیگر حوزه‌ها دارای مهارت کافی باشد. نتایج نظرسنجی‌ها حاکی از این موضوع است که برای متخصص علم داده شدن ۵ تا ۸ سال زمان لازم است.

✔️✔️متخصصین علم داده بایدچه مهارتهایی را داشته باشد؟
متخصصین علم داده می‌توانند مهارت‌هایشان را برای دست یابی به طیف وسیعی از نتایج نهایی به کار گیرند. تعدادی از این مهارتها به شرح زیرند:

توانایی استخراج و تفسیر منابع داده
مدیریت حجم زیاد اطلاعات با سخت‌افزار
محدودیت‌های نرم‌افزاری و پهنای باند
ادغام منابع داده با یک دیگر
تضمین پایداری مجموعه‌های داده
مصورسازی داده برای فهم آن
ساخت مدل‌های ریاضی با استفاده از داده، مانند مدلهای ریگرسیون و طبقه بندی
مقایسه آماری مدلهای ریاضی گوناگون و انتخاب مدل برتر، فی المثل توسط آزمون آ/ب
به اشتراک گذاری یافته‌ها و دیدگاه‌ها در حوزه داده با متخصصان دیگر یا مخاطب عام
@BIMining
🎖🎖برای پذیرش دانشگاه ها و مشاغل معتبر داخلی و خارجی با علم روز جهان ، علم داده و داده کاوی ، این ربات را ببینید. لطفا به دوستان خود دیدن این ربات را توصیه نمائید.

🥇 @Datamining_Marketing_bot

اطلاع از اخبار روز علم داده و داده کاوی
موقعیت های شغلی بین المللی
◀️آشنایی با علم داده و دوره های آموزشی @BIMining
✳️☑️یک باشگاه فوتبال در بریتانیا برای اولین‌بار در جهان از هوش مصنوعی به‌عنوان یک مربی برای چیدن ترکیب تیم استفاده می‌کند.
💢 مربی هوش مصنوعی از یک موتور استدلال برای تعیین بهترین شکل و سبک بازی دربرابر تیم‌های مختلف استفاده می‌کند. پس از هر بازی، هوش مصنوعی اطلاعات را ذخیره می‌کند و ترکیب‌های بهتری را با توجه به بازی‌های پیشین و ترکیب تیم مقابل ارائه می‌دهد.

@BIMining
📊 مزایا و معایب پایتون در یک نگاه !

@BIMining
✳️☑️الگوی طراحی جداول ابعاد slowly changing dimension

@BIMining
بیشتر اوقات مقادیر موجود در جداول ابعاد (Dimensions) ثابت هستند و تغییری در آنها رخ نمی‌دهد. به عنوان مثال تغییر در نام ماه های سال تقریبا غیر ممکن است. اما برخی از اطلاعات قابل تغییر هستند، مانند نام یا نام خانوادگی و آدرس افراد. جهت شرح چنین شرایطی از اصطلاح SCD یا slowly changing dimension استفاده میشود. SCD الگوی طراحی جداول ابعاد است.

در برخی از گزارشات، زمانی که چنین تغییری در داده رخ دهد، می بایست تغییرات را به صورتی اعمال کرد که تاریخچه تغییرات آن مشخص باشد. به طور مثال در نظر بگیرید که در گزارشی میزان فروش شخصی ثبت شده باشد، این شخص پس از مدتی نام خود را تغییر می‌دهد، اگر نام شخص را بروزرسانی کنیم تمامی اطلاعات قدیمی با نام جدید نمایش داده میشود که در این صورت امکان رسیدن به نام قدیم از بین می‌رود.SCD یک مفهوم جدید نیست بلکه نوع دیگری از طراحی می‌باشد که برای کمک به حل چنین مشکلاتی مفید واقع می‌شود.


سه از مهمترين نوع طراحی برای SCD وجود دارد.

نوع اول: در این نوع از طراحی SCD نیازی به رهگیری تغییرات نمی‌باشد. استفاده از حالت نرمال بروز‌رسانی جداول ابعاد بدون اضافه کردن سطر یا ستون خاصی به جدول جهت رهگیری وضعیت تغییرات در داده ها. گزارش با نام جدید نمایش داده می‌شود و نام قدیمی نادرست در نظر گرفته خواهد شد. همچنین در نوع اول تاریخچه تغییرات ثبت و رهگیری نمی‌شود.

نوع دوم: SCD نوع دوم کاملا متفاوت و برعکس نوع اول است. در این نوع تمامی تغییرات بدون اعمال تغییر روی داده‌ها ثبت و رهگیری می‌شود. برای انجام این کار سطر و ستون هایی به جدول مورد نظر اضافه می‌کنیم.
تاریخ شروع و تاریخ پایان به همراه یک کلید اصلی جدید جهت ثبت تاریخچه تغییرات به جدول اضافه می‌کنیم.


نوع سوم: در این حالت پردازش جهت رهگیری تغییرات تا حدودی ساده شده به طوری که فقط نام فعلی و نام قدیمی به همراه تاریخ تغییر را در جدول ذخیره می‌کنیم. نام جدید با نام قدیمی جایگزین می‌شود و نام قدیمی در فیلد دیگری به همراه تاریخ تغییرات ثبت می‌شود. در نوع سوم SCD سطری اضافه نمی‌شود و فقط ستون‌هایی برای درج تاریخ تغییرات و مقدار قبلی افزوده می‌شود. در صورتی که نیاز به ثبت تاریخچه تمامی تغییرات باشیم، باید ستون های دیگری به جدول اضافه کنیم. از این نوع زمانی استفاده می‌شود که فقط نیاز به اطلاع از داده قبلی باشد. @BIMining
🖌 داستان های واقعی متخصصان علم داده (بخش اول) @BIMining
🖌 داستان های واقعی متخصصان علم داده (بخش دوم) @BIMining
✳️شرکت پردازشگران سامان وابسته به بانک سامان، به‌منظور تکمیل نیروی انسانی خود، در عناوین شغلی زیر استخدام می‌کند.


1️⃣ کارشناس ETL

• ترجیحا آقا با حداقل ۳ سال سابقه در این حوزه
• مسلط به pl-SQL
• آشنا به SSIS
• آشنا به ODI
• آشنا به مفاهیم هوش تجاری


2️⃣ کارشناس Report و داشبورد

• حداقل ۲ سال سابقه کار در حوزه BI
• مسلط به ابزار SSRS
• آشنا به ابزارهای Power Bi، QlicKview و Tableau


3️⃣ کارشناس کیوب

• حداقل ۳ سال سابقه کار در حوزه BI
• مسلط به ابزار SSAS
• آشنا به مفاهیم BI


4️⃣ کارشناس Big Data

• آشنا به مفاهیم Big data و تکنولوژی‌های Big data
• برنامه‌نویس جاوا و Scala
• آشنایی به مفاهیم یادگیری ماشین
• آشنایی به فریم ورک Spark


5️⃣ کارشناس DBA

• حداقل ۵ سال سابقه کار در حوزه DBA
• مسلط به ابزار Oracle
• آشنا به حوزه Oracle RAC

لطفا رزومه خود را به آدرس jobs@samanpr.net ارسال نمایید.


@BIMining
#استخدام
شرکت تجارت الکترونیک پارسیان در نظر دارد برای تکمیل کادر فنی خود در حوزه هوش تجاری اقدام به استخدام نیرو با تخصص های ذیل نماید:
• مسئولیت پذیر، دارای روحیه کار تیمی و توانایی بالا در تحلیل کسب و کار
• مسلط به طراحی و پیاده سازی Data Warehouse
• مسلط به پایگاه داده SQL Server و زبان T-SQL
• مسلط به ابزار SSIS ، ایجاد، به روزرسانی و بهینه سازی فرآیندهای ETL
• مسلط به ابزار SSAS و مدلسازی Multidimentional و Tabular
• مسلط به ابزار Power BI و زبانهای DAX و MDX
• حداقل دو سال سابقه کار در حوزه مرتبط
آشنایی با مفاهیم پرداخت الکترونیک، مفاهیم داده کاوی و یادگیری ماشین مزیت محسوب میشود.
علاقه مندان لطفا رزومه خود را به ایمیل زیر ارسال فرمایند.
Ayobshokrolahi@pec.ir
✳️☑️ قرار گرفتن پلتفرم اوراکل به عنوان رهبر پیشرو در انبار داده های تحلیلی و افت محسوس SAP و اضافه شدن Google به عنوان یکی از رهبران در این حوزه!!!
به تازگی نسخه Quadrant magic 2019 ، راه حل های Data Management For Analytics را منتشر کرده است كه اين محصولات مدیریت داده تحت پوشش گارتنر شامل پایگاه داده هاي رابطه اي (انبار داده) که داده ها را در یک یا چند فایل پشتیبانی می کند و این پایگاه داده ها اغلب بمنظور پشتیبانی از پردازش های تحلیلی و استفاده از زبانهای داده کاوی و یادگیری ماشین مانند R و پایتون مورد استفاده قرار می گیرد.
اوراکل بتازگی انبار داده خودکار (Autonomous Data Warehouse) منتشر کرده است و همچنین در طول سال گذشته بطور فزاینده ای مدیریت داده های ابر را در اختیار دارد.
همچنین پلتفرم SAP شاهد رکود در موقیعت خود در میان رهبران بازاربوده است.که ناشی از تجدید تمرکز شرکت SAP بر روی ابزار مدیریت داده های عمومی می باشد.


@BIMining
📒 ۱۰ روش که افراد شاغل در یادگیری عمیق بایستی بلد باشند

افرادی که در حوزه یادگیری عمیق کار میکنند(یا علاقه به کار دارند) میبایستی که این ۱۰روش که پایه ای جهت عملیات یادگیری عمیق می باشند را به خوبی یادبگیرند:

۱. پس انتشار خطا - Back Propagation
۲. کاهش گرادیان تصادفی - Stochastic Gradient Descent
۳. زوال نرخ یادگیری - Learning Rate Decay
۴. حذف تصادفی - Dropout
۵. جمع آوری بیشینه - Max Pooling
۶. نرمال سازی گروهی - Batch Normalization
۷. حافظه کوتاه-بلند - Long Short-Term Memmory
۸. روش Skip-Gram
۹. کوله کلمات مداوم - Continiuous Bag Of Words
۱۰. یادگیری انتقالی - Transfer Learning

هر کدام از این روش ها میتواند در برخی از مسائل حل شده توسط یادگیری عمیق استفاده شود. میتوانید با جستجو در اینترنت منابع زیادی جهت یادگیری هر کدام از این روش ها را پیدا کنید.
منبع:
https://goo.gl/7G4XS9



@BIMining
سال نو بر همه شما مبارک🌸🌼

بهترین آرزوها رو براتون دارم🌹

@BIMining
Akshay_Kulkarni,_Adarsha_Shivananda.pdf
3.8 MB
Natural Language
Processing Recipes
Unlocking Text Data with
Machine Learning and Deep
Learning using Python

✳️پردازش زبان طبیعی
یادگیری ماشین و یادگیری عمیق با پایتون

☑️انتشار 2019


@BIMining
✳️پیاده سازی تکنیک متن کاوی( Text Mining) با روش Sentiment Analysis در پلتفرم Oracle BI 12c :

تحلیل احساسات فرایندی به صورت سیستماتیک و با برنامه استخراج اطلاعات متنی، مانند توئیت ها، وضعیت‌ها، نظرات و پست‌ها از وب است. نکته‌ی اساسی در اینجا در تجزیه و تحلیل این مجموعه داده بزرگ قرار دارد تا آنها را در قالب نظرات و احساسات مشتریان کشف کند.این اطلاعات به مدیران تجاری کمک می‌کند تا چگونگی احساس مشتریان خود را در مورد برندها و محصولات مختلف ارزیابی کنند. این تحلیل‌ها را می‌توان بر روی یک بخش خاص از مشتریان و یا در کل مجموعه مشتریان انجام داد.
شرکت اوراکل از سال 2016 با انتشار نسخه OBIEE 12.2.1.2 قابلیت تحلیل احساسات (Sentiment Analysis)در پلتفرم 1.5.1 ORE اضافه کرده است . در حال حاضر این قابلیت بسیار ارزشمند در پلتفرم اوراکل پیاده سازی شده است و با اضافه کردن کتابخانه های مرتبط به R و ORE این فیچر در OBIEE 12C ادغام می شود. بنابراین از این پس فیلدهای متنی و کلیه متون به اشکال مختلف در Oracle BI در قالب Sentiment Analysis قابل تحلیل و پیاده سازی است و نتیجه آن بصورت یک داشبورد تحلیلی نمایش داده می شود.
در روزهای آتی نمونه خروجی های پیاده سازی شده با مثال در کانال @BIMining ارائه خواهد شد. در ضمن گامهای انجام اینکار تشریح خواهد شد.
در سال جدید منتظر اخبار جدید و شگفتانه از ما در حوزه Data Science باشید...
@BIMining
مراحل_نصب_و_پیکربندی_Sentiment_Analysis.pdf
450 KB
تشریح مراحل نصب،پیکربندی و پیاده سازی متن کاوی در محیط R وOracle BI 12C @BIMining
کدام کتاب را بخوانم و کدام منبع برای
یادگیری من بهترین است؟

خیلی از مواقع برای یادگیری یک موضوع خاص در دنیای IT از کتاب های الکترونیک یا Ebookها استفاده میکنیم، اما معمولاً در مورد یک موضوع خاص چندین نسخه مختلف از این Ebookها در سطح اینترنت و یا گروه ها و کانال های تلگرامی به اشتراک گذاشته شده اند و در عنوان آنها عبارتی مانند: Essentials و Fundamentals و for Neibies و Deep Dive و Cookbook و... را مشاهده می کنید و شاید این سوال مطرح شود که: "کدام کتاب برای شروع کار و یادگیری من بهترین است؟". در پاسخ به این سوال شاید مهمترین موضوع این باشد که "دانش" شما نسبت به آن موضوع در "چه سطحی" قرار دارد، یعنی به عنوان مثال شما هیچ دانشی و backgroundی از موضوع مورد نظر ندارید، کمی با موضوع آشنایی دارید ولی Conceptها را نمی دانید، Conceptها را می دانید ولی Config و پیاده سازی را بلد نیستید، هم Concept و هم Config را می دانید اما به دنبال تسلط بیشتر و انجام سناریوهای عملی و کاربردی هستید و... . پس از پاسخ به سوال مطرح شده مسلماً می توانید بهترین منبع را برای یادگیری Self-Study و Self-Learning خود در هر سطحی که هستید انتخاب نمایید.
متأسفانه بنده هیچ منبع خوبی برای مقایسه این واژگان در عنوان کتاب ها پیدا نکردم اما تصمیم گرفتم با توجه به تجربیات شخصی خود از مطالعه کتاب های مختلف مطلبی در این زمینه بنویسم.


📌 Essentials
که نشون میده این کتاب از base و پایه به موضوع مورد نظر می پردازه ولی تمامی مطالب به صورت "سطحی" نه "عمقی" مطرح می شوند، سناریو-محور نیستند و مثال های کاربردی کمی دارند. Conceptها کلی مطرح شده و به جزئیات توجه نمی شود و Configها نیز جامع نیستند. خواندن این کتاب ها وقت زیادی را از شما نمیگیرد و معمولاً این کتاب ها بسته به موضوع چیزی حدود 110 تا 300 صفحه دارند.

📌 Fundamentals
این کتاب ها معمولاً به "اصول پایه ای" یک موضوع یا مبحث خاص میپردازند، متدها را بررسی کرده و روش های مختلف اجرا (اما معمولاً بدون پیاده سازی) را مطرح می کنند.

📌 for Newbies
یعنی اینکه کتاب برای تازه کارها نوشته شده و اگر شخصی که داره کتاب رو میخونه قبلاً هم هیچ دانشی نداره مشکلی نیست و این کتاب در مورد موضوع مورد نظر پایین ترین سح ممکن رو در بین کتاب ها داره

📌 Deep Dive
یعنی (شیرچه عمیق) که توی یک مبحث خاص یا یک موضوع مشخص تا عمق زیاد وارد میشه و مطالبش سطحی نیستند و با جزئیات زیاد در مورد همه چیز گفته میشه در کتاب. وقتی میگن یه کتاب by details مطالب رو توضیح میده یعنی همین.

📌 Cookbook
این کتاب ها معمولاً شامل Concept + Config و مثال ها و سناریوها هستند، روش های troubleshootها رو میگن، راهکارهای مانیتورینگ رو، روش های backup گیری رو، روش های integrate کردن رو، پیشنیازها رو و... در مورد اون موضوع خاص، تقریباً میشه گفت کتاب های Cookbook از همه جهات به اون موضوع کتاب میپردازن

📌 Practical
اینها کتاب های عملیاتی هستند، دیگه نمیاد در مورد موضوع کتاب Concept رو معمولاً از base شروع کنه به گفتن و بعد بره سر Config و...، از همون اول شروع میکنه با سناریو و مثال های عملی و کاربردی مطالب رو دونه دونه جلو میره

📌 Playbook
یکسری راهکارها رو که بیشتر کاربرد دارند توی اون موضوع خاص سعی میکنه بگه بطوریکه درصد Concept به Config توی این کتاب ها 30 به 70 هست تقریباً

📌 Mastering
این کتاب ها تقریباً مثل کتاب های Cookbook هست ساختارشون که از همه جهت میان در مورد موضوع کتاب بحث میکنن و Concept و Config و... رو دارن ولی کمی مطالب رو دست بالاتر توضیح میدن نسبت به کتاب های Cookbook

📌 Advanced
این کتاب هم که شامل یکسری از مباحث پیشرفته در مورد موضوع خاصی هستند که توی کتاب های Cookbook و Mastering نمی بینمیشون معمولاً یا شاید توی اونها فقط اشاره ای بهشون شده ولی در کتاب های Avanced اون مبحث فوق تخصصی رو کاملاً باز میکنه و توضیح های کامل تر و جامع تری در موردش میاره

📌 Workbook
این کتاب ها هم کتاب های تمرینی هستند و برای افرادی خوبن که یک موضوع یا دوره رو خوندن و یاد گرفتند و حالا قصد دارند یکسری تمرینات رو انجام بدن بصورت عملی و بیشتر روی مباحث تسلط پیدا کنن و یا برای آزمون های بین المللی که به صورت "تست+LAB" هستند، برای بخش LAB آماده بشن

📌 Official
این کتاب ها معمولاً کتاب های "رسمی" یک vendor هستند و برای یادگیری در مورد یک دوره خاص مطرح می باشند و بیشترین سوالات نیز در آزمون بین المللی آن دوره خاص معمولاً از مطالبی که در همین کتاب ها آورده شده است، مطرح می شوند و بهترین و استانداردترین منبع برای مورد تأیید آن Vendor برای یادگیری موضوع مورد نظر هستند.

@BIMining
✳️ الگوريتم هاي برتر داده كاوي و يادگيري ماشين كدامند؟


کدام تکنیک_داده_کاوی و علم_داده کارآمدتر است؟




@BIMining
This media is not supported in your browser
VIEW IN TELEGRAM
چگونه در پايتون نمودار متحرك رسم كنيم؟

​​​​​​​​​​🔹​​‍ برای ساختن نمودارها بصورت GIF در پایتون از کتابخانه‌ی "imageio" برای خواندن و نوشتن داده های تصویریتون استفاده کنید.
(بهمراه لینک برای مشاهده کامل کد)

>>> from imageio import imread, mimsave
>>> images = []
>>> for f in filenames:
images.append(imread(f))
>>> mimsave('movie.gif', images)


Link: goo.gl/2bWR3U


@BIMining
✳️داده‌های باز دیجی‌کالا
شاید این خبر رو شنیده باشید اما این حرکت بنظرم اونقدر ارزش داشت که بخواهيم یه پست به آن اختصاص بدهيم.دیجی‌کالا در یک حرکت انقلابی بخشی از داده‌های کاربرانش رو برای تحلیل در اختیار عموم قرار داده است. این داده‌ها از حدود ۲ میلیون مشتری و صد هزار کالا جمع‌آوری شدند و برای کاربردهای هوش تجاري از قبیل پردازش زبان طبیعی بسیار ارزشمند هستند. همچنین در صورتی که نتیجه تحقیقات شما قابلیت تبدیل به محصول شدن داشته باشد، از طرف دیجی‌کالا مورد حمایت قرار می‌گیرید. برای دریافت اطلاعات بیشتر از نحوه دریافت داده‌ها و جزئیات این دیتابیس‌ها می‌توانید از لینک زیر استفاده کنید.

لینک: 👇
https://bit.ly/2uRiJ6O

@BIMining
This media is not supported in your browser
VIEW IN TELEGRAM
روند افزايشي رتبه و محبوبیت زبان‌ برنامه‌نویسی پایتون از سال 2008 تا 2018 @BIMining