مهندسی و علم داده
4K subscribers
380 photos
174 videos
169 files
114 links
در مورد ادمین کانال :
- محمد عالیشاهی
- دکترای هوش مصنوعی دانشگاه تهران
-رئیس هیات مدیره شرکت فناوران هوش مصنوعی
- مدیر ارشد پروژه های هوش مصنوعی و علم داده
Download Telegram
✳️☑️مشخصات زبان R


🔶زبان R برای اولین بار به عنوان یک پروژه تحقیقاتی توسط راس ایهاکا (Ross Ihaka) و رابرت جنتلمن (Robert Gentleman) نوشته شد، و در حال حاضر توسط گروهی از متخصصان علم آمار به نام "تیم هسته زبان R " با صفحه ای در آدرس www.r-project.org در حال توسعه ی فعال می باشد.

زبان R به گونه‌ای طراحی شده، که بی شباهت به زبان نرم افزار S که توسط جان چمبرز (John Chambers) و دیگر افراد در آزمایشگاه‌های بل توسعه یافته بود نباشد. نسخه تجاری نرم افزار S با قابلیتهای بیشتر، توسط موسسه ی علوم آماری به عنوان نرم افزار SPlus توسعه یافته و به بازار عرضه شده؛ بعدها این نسخه نرم افزار SPlus، توسط شرکت Insightful خریداری شده و اکنون نیز متعلق به TIBCO Spotfire می باشد.زبان R و نرم افزار SPlus را می توان به عنوان دو پیاده‌ سازی زبان نرم افزار S در نظر گرفت.
زبان R بصورت رایگان در دسترس بوده و تحت پروانه ی عمومی همگانی، گنو (GNU) از بنیاد نرم افزارهای آزاد (FreeSoftware Foundation) توزیع می گردد. شما می توانید این برنامه را از شبکه جامع آرشیو نرم افزار R در (CRAN) دانلود نمایید. باینری های آماده اجرای زبان R برای سیستم عامل های ویندوز (Windows)، مک او اس ایکس (Mac OS X) و لینوکس (Linux) در دسترس می باشد.
کد منبع (source code) نیز قابل دانلود بوده و می تواند برای سیستم عامل های دیگر کامپایل شود.
حاوی محدوده گسترده‌ای از تکنیک‌های آماری (از جمله: مدل‌سازی خطی و غیرخطی، آزمون‌های کلاسیک آماری، تحلیل سری‌های زمانی، رده‌بندی، خوشه‌بندی و ...) و قابلیت‌های گرافیکی است. در محیط R، کدهای سی، سی++ و فورترن قابلیت اتصال و فراخوانی هنگام اجرای برنامه را دارند و کاربران خبره می‌توانند توسط کدهای سی، مستقیماً اشیا R را تغییر دهند.گرچه نرم‌افزار R اغلب به منظور انجام محاسبات آماری به کار می‌رود، این نرم‌افزار قابل به کارگیری در محاسبات ماتریسی است و در این زمینه، همپای نرم‌افزارهایی چون اُکتاو و نسخه تجاری آن متلب (MATLAB) است. R، همچنین زبانی قدرتمندی برای ایجاد اشکال گرافیکی و نمودارهاست.
به سرعت در حال تبدیل شدن به مهم ترین زبان برنامه نویسی برای هر دو، زیست شناسان تجربی و محاسباتی است .به خوبی طراحی شده است، بسیار کارآمد و به طور گسترده ای مورد استفاده قرار می گیرد و دارای یک پایگاه بسیار زیادی از همکاران و کاربرانی است که که قابلیت های جدید برای تمام جنبه های مدرن از تجزیه و تحلیل داده ها و تجسم را به آن اضافه میکنند. علاوه بر آن رایگان و منبع باز است.
شما می توانید از R برای تقریبا تمام موضوعات بیوانفورماتیک، پروتئومیکس، تجزیه و تحلیل آماری استفاده کنید بطور مثال
(Flow Cytometry, text and data mining, Seqeunce ,NGS,manipulation)
رابرت مونچن امار دانی که این زبان را تدریس میکند ،این زبان به عنوان محبوب ترین زبان برنامه نویسی در زمینه عملیات پژوهشی در سال 2015 اعلام کرده است نا گفته نماند ایشان به عنوان مسئول براورد محبوبیت نرم افزارهای پژوهشی نیز هستند.
و در اخر خاص بودن R را در
1-مجموعه قوی از عملگرهای محاسباتی
2-کتابخانه های خاص چند منظوره
3-بسته های نرم افزاری قدرتمند برای تجزیه و تحلیل
4-دارای مستندات فرمت بندی شده
5-قابلیت شبیه سازی های گوناگون
می توان دانست

@BIMining
استخدام برنامه نويس با شرايط عالي در شركت دانش بنيان ژرف پويان- محل کار تهران @BIMining
Python Algorithms

الگوریتم های مهم با زبان پایتون 👇


@BIMining
4_6035273175162421314.pdf
4.4 MB
Python Algorithms

الگوریتم های مهم با زبان پایتون


@BIMining
✳️☑️برگزاری دوره کاربردی علم داده - Data Science
👨‍🏫مدرس : محمد عالیشاهی

🗓شروع قطعی دوره:11 بهمن 97

روزهای پنجشنبه و جمعه 8:30 الی 14:30

ظرفیت باقیمانده :4 نفر

👨‍🎓با ارائه مدرك معتبر در پايان دوره

📎محل برگزاري: تهران- تقاطع مطهري و سنائي - موسسه آموزشي رايان كالج

✍️برای ثبت نام آنلاین به لینک زیر بروید: http://BIMining.ir
سرفصل_های_مهم_انبار_داده_و_ETL_با.pdf
931.2 KB
✳️☑️سرفصلهای دوره کاربردی علم داده - Data Science
👨‍🏫مدرس : محمد عالیشاهی

🗓شروع قطعی دوره:11 بهمن 97

روزهای پنجشنبه و جمعه 8:30 الی 14:30

ظرفیت باقیمانده :4 نفر

👨‍🎓با ارائه مدرك معتبر در پايان دوره

📎محل برگزاري: تهران- تقاطع مطهري و سنائي - موسسه آموزشي رايان كالج

✍️برای ثبت نام آنلاین به لینک زیر بروید: http://BIMining.ir
📊 گارتنر می گوید بیش از ۴۰ درصد از وظایف مربوط به علم داده تا سال ۲۰۲۰ اتوماتیک خواهد شد

گارتنر با توجه به افزایش بهره وری و استفاده گسترده تر از داده ها و تجزیه و تحلیل آن توسط Citizen data scientist ، می گوید بیش از ۴۰ درصد از وظایف مربوط به علم داده تا سال ۲۰۲۰ به صورت خودکار خواهد شد.

گارتنر یک citizen data scientist را فردی تعریف می کند که مدل هایی را که در تجزیه و تحلیل پیشرفته ی شناختی و یا قابلیت های پیش بینی و تجویز شده ، استفاده شده اند را ایجاد و تولید می کند، اما وظایف اولیه کاریه او خارج از حوزه آمار و تجزیه و تحلیل است.

به گزارش گارتنر، citizen data scientists می توانند فاصله بین تجزیه و تحلیل self-service جریان اصلی را توسط کاربران کسب و کار و همچنین تجزیه و تحلیل پیشرفته ی تکنیک های علم داده ها پر کنند.آنها در حال حاضر قادر به انجام تجزیه و تحلیلی پیچیده که قبلا مستلزم تخصص بیشتری بود،هستند و قادر خواهند بود تحلیل های پیشرفته ای بدون داشتن مهارت تشخیص دانشمندان داده را ارائه دهند.

با ادامه ظهور علم داده به عنوان یک differentiator قدرتمند در صنایع ، تقریبا همه ی داده ها و فروشنده ی پلت فرم نرم افزارهای تحلیلی در حال حاضر تمرکزشان بر روی ساده سازی هدفی مهم از طریق وظایف مختلف خودکار، از جمله یکپارچه سازی داده ها و مدل سازی متمرکز می باشد.

معاون تحقیقات گارتنر، Alexander Linden می گوید: “ساخت محصولات علم داده برای citizen data scientists به منظور افزایش دسترسی فروشندگان در سراسر شرکت، آسان تر می شود. افزایش در اتوماسیون، بهره وری قابل توجهی را برای دانشمندان داده به همراه دارد و به تعداد کمتری از دانشمندان داده برای انجام همان مقدار کار نیاز خواهد بود. اما هنوز هم برای هر پروژه پیشرفته علمی داده ها ، به حداقل یک و یا دو دانشمند داده نیاز خواهد بود.”

گارتنر پیش بینی کرده است که citizen data scientists از دانشمندان داده در مقدار تجزیه و تحلیل پیشرفته تولید شده تا سال ۲۰۱۹ پیشی خواهند گرفت. مقدار گسترده ای از تجزیه و تحلیل تولید شده توسط citizen data scientists از کسب و کار تاثیر می پذیرند و یک محیط تحلیلی فراگیر تری را ایجاد می کنند، در حالی که در همان زمان از دانشمندان داده ای که می توانند تمرکز خود را بر روی تجزیه و تحلیل های پیچیده تری تغییر دهند، حمایت می کند.

مدیر تحقیقات گارتنر، Joao Tapadinhas می گوید: “اکثر سازمانها به اندازه کافی دانشمند داده ندارند که به طور مداوم در طول کسب و کار در دسترس باشند، اما آنها باید تعداد زیادی تحلیلگر ماهر اطلاعاتی داشته باشند که توانایی تبدیل به citizen data scientists را دارند و با مجهز شدن به ابزار مناسب، آنها می توانند تجزیه و تحلیل و تشخیص های پیچیده تری انجام دهند.”

به گزارش گارتنر، این نتیجه به منابع داده بیشتری از جمله : داده های پیچیده تر، طیف وسیع تر و پیچیده تری از قابلیت های تحلیلی و توانمند سازی تحلیلگران بسیاری در سراسر سازمان با یک فرم ساده از علم داده ، دسترسی خواهد داشت.

تاپادینهاس می گوید : “دسترسی به علم داده در حال حاضر ناشدنیست، با توجه به کمبود منابع و پیچیدگی ، تمام سازمان ها قادر نخواهند بود به آن دسترسی پیدا کنند. برای برخی از سازمان ها،citizen data science یک راه حل ساده تر،سریع تر و بهتر برای تحلیلات پیشرفته خواهد بود.”

@BIMining
✳️☑️نحوه پياده سازي نمودار میله ای در پايتون !!!
Bar Plot in Matplotlib

import matplotlib.pyplot as plt

x= [1,2,3]
y= [20,40,60]

plt.bar(x,y)

plt.title('Bar Graph 1 of Customer Data')

plt.xlabel('Amount of People')

plt.ylabel('Money Spent')

plt.show()
@BIMining
✳️☑️نحوه پياده سازي Pie Chart با استفاده از زبان پايتون !!!


import matplotlib.pyplot as plt

labels= ['Mortgage', 'Utilities', 'Food', 'Gas']

colors=['blue', 'yellow', 'green', 'orange']

sizes= [1500, 600, 500, 300]

plt.pie(sizes,labels=labels, colors=colors, startangle=90, autopct='%1.1f%%')

plt.axis('equal')

plt.show()

@BIMining
#آموزش نمودار میله ای در پایتون
import matplotlib.pyplot as plt

x= [1,2,3]
y= [20,40,60]

x2=[4,5,6]

plt.bar(x,y, label="Morning Group")

plt.bar(x2,y, label="Evening Group")

plt.title('Bar Graph 1 of Customer Data')

plt.xlabel('Amount of People')

plt.ylabel('Money Spent')

plt.legend()

plt.show()
@BIMining
#آموزش Create a Stack Plot در پایتون!

import matplotlib.pyplot as plt

months= [x for x in range(1,13)]

mortgage= [700, 700, 700,
800, 800, 800,
850, 850, 850,
850, 850, 850]

utilities= [500, 300, 380,
200, 600, 550,
310, 620, 290,
320, 440, 400]

repairs= [100, 120, 100,
150, 850, 80,
120, 220, 240,
50, 60, 150]

plt.plot([],[], color='blue', label='mortgage')
plt.plot([],[], color='orange', label='utilities')
plt.plot([],[], color='brown', label='repairs')


plt.stackplot(months, mortgage, utilities, repairs, colors=['blue', 'orange', 'brown'])

plt.legend()

plt.title('Household Expenses')
plt.xlabel('Months of the year')
plt.ylabel('Cost')

plt.show()

@BIMining
✳️☑️برگزاری دوره کاربردی علم داده - Data Science
👨‍🏫مدرس : محمد عالیشاهی

🗓شروع قطعی دوره:11 بهمن 97

روزهای پنجشنبه و جمعه 8:30 الی 14:30

ظرفیت باقیمانده : 1نفر

👨‍🎓با ارائه مدرك معتبر در پايان دوره

📎محل برگزاري: تهران- تقاطع مطهري و سنائي - موسسه آموزشي رايان كالج

✍️برای ثبت نام آنلاین به لینک زیر بروید: http://BIMining.ir
✳️☑️علم داده چیست ؟


علم داده (Data Science)، دانشی میان‌رشته‌ای پیرامون استخراج دانش و آگاهی از مجموعه‌ای داده و اطلاعات است.علم داده از ترکیب مباحث مختلفی به وجود آمده و بر مبانی و روش‌های موجود در حوزه‌های مختلف علمی بنا شده‌است. تعدادی از این حوزه‌ها عبارتند از: ریاضیات، آمار، مهندسی داده، بازشناخت الگو و… هدف این علم، استخراج مفهوم از داده و تولید محصولات داده‌محور است.
آقایان توماس دونپورت و دی جی پاتیل در سال ۲۰۱۲ در مقاله «علم داده: جذاب‌ترین شغل قرن بیست و یکم» متخصصین علم داده را این‌طور تعریف می‌کنند: کسانی که می‌دانند چگونه می‌توان از انبوه اطلاعات بدون ساختار پاسخ سوالهای کسب‌وکار را پیدا کرد. استنتون در سال ۲۰۱۳ علم داده را این‌طور تعریف می‌کند: علم داده رشته در حال ظهوری است که به جمع‌آوری، آماده‌سازی، تحلیل، بصری‌سازی، مدیریت و نگهداشت اطلاعات در حجم بالا می‌پردازد. دریسکول در سال ۲۰۱۴ علم داده را این‌طور تعریف می‌کند: علم داده مهندسی عمران داده‌هاست. متخصص علم داده دانشی کاربردی از داده‌ها و ابزارها دارد به علاوه درک تئوریکی دارد که مشخص می‌کند چه چیزی از نظر علمی ممکن است.

✔️ متخصص علم داده کیست؟

به شاغلین در حوزهٔ علم داده، متخصص علم داده (data scientist) می‌گویند. این اصطلاح توسط دی جی پاتیل و جف همربارکر ابداع شده‌است در صورتی که سال‌ها قبل از آن که آن‌ها استفاده از اصطلاح فوق را به‌طور عمومی مطرح کنند، از آن استفاده شده‌است.چن فو جف وو در سال ۱۹۹۸ برای اولین بار در یک سخنرانی از واژهٔ متخصص علم داده استفاده کرد. متخصصین علم داده با عمیق شدن در چندین رشتهٔ علمی، مسائل پیچیدهٔ مطرح شده در حوزهٔ داده را حل می‌کنند. به‌طور کلی انتظار می‌رود که متخصصین علم داده قادر باشند در بخش‌هایی از علوم ریاضیات و آمار و علوم کامپیوتر کار کنند.یک متخصص علم داده می‌بایست در یک یا دو رشته تخصص داشته باشد و در دیگر حوزه‌ها دارای مهارت کافی باشد. نتایج نظرسنجی‌ها حاکی از این موضوع است که برای متخصص علم داده شدن ۵ تا ۸ سال زمان لازم است.

✔️✔️متخصصین علم داده بایدچه مهارتهایی را داشته باشد؟
متخصصین علم داده می‌توانند مهارت‌هایشان را برای دست یابی به طیف وسیعی از نتایج نهایی به کار گیرند. تعدادی از این مهارتها به شرح زیرند:

توانایی استخراج و تفسیر منابع داده
مدیریت حجم زیاد اطلاعات با سخت‌افزار
محدودیت‌های نرم‌افزاری و پهنای باند
ادغام منابع داده با یک دیگر
تضمین پایداری مجموعه‌های داده
مصورسازی داده برای فهم آن
ساخت مدل‌های ریاضی با استفاده از داده، مانند مدلهای ریگرسیون و طبقه بندی
مقایسه آماری مدلهای ریاضی گوناگون و انتخاب مدل برتر، فی المثل توسط آزمون آ/ب
به اشتراک گذاری یافته‌ها و دیدگاه‌ها در حوزه داده با متخصصان دیگر یا مخاطب عام
@BIMining
🎖🎖برای پذیرش دانشگاه ها و مشاغل معتبر داخلی و خارجی با علم روز جهان ، علم داده و داده کاوی ، این ربات را ببینید. لطفا به دوستان خود دیدن این ربات را توصیه نمائید.

🥇 @Datamining_Marketing_bot

اطلاع از اخبار روز علم داده و داده کاوی
موقعیت های شغلی بین المللی
◀️آشنایی با علم داده و دوره های آموزشی @BIMining
✳️☑️یک باشگاه فوتبال در بریتانیا برای اولین‌بار در جهان از هوش مصنوعی به‌عنوان یک مربی برای چیدن ترکیب تیم استفاده می‌کند.
💢 مربی هوش مصنوعی از یک موتور استدلال برای تعیین بهترین شکل و سبک بازی دربرابر تیم‌های مختلف استفاده می‌کند. پس از هر بازی، هوش مصنوعی اطلاعات را ذخیره می‌کند و ترکیب‌های بهتری را با توجه به بازی‌های پیشین و ترکیب تیم مقابل ارائه می‌دهد.

@BIMining
📊 مزایا و معایب پایتون در یک نگاه !

@BIMining
✳️☑️الگوی طراحی جداول ابعاد slowly changing dimension

@BIMining
بیشتر اوقات مقادیر موجود در جداول ابعاد (Dimensions) ثابت هستند و تغییری در آنها رخ نمی‌دهد. به عنوان مثال تغییر در نام ماه های سال تقریبا غیر ممکن است. اما برخی از اطلاعات قابل تغییر هستند، مانند نام یا نام خانوادگی و آدرس افراد. جهت شرح چنین شرایطی از اصطلاح SCD یا slowly changing dimension استفاده میشود. SCD الگوی طراحی جداول ابعاد است.

در برخی از گزارشات، زمانی که چنین تغییری در داده رخ دهد، می بایست تغییرات را به صورتی اعمال کرد که تاریخچه تغییرات آن مشخص باشد. به طور مثال در نظر بگیرید که در گزارشی میزان فروش شخصی ثبت شده باشد، این شخص پس از مدتی نام خود را تغییر می‌دهد، اگر نام شخص را بروزرسانی کنیم تمامی اطلاعات قدیمی با نام جدید نمایش داده میشود که در این صورت امکان رسیدن به نام قدیم از بین می‌رود.SCD یک مفهوم جدید نیست بلکه نوع دیگری از طراحی می‌باشد که برای کمک به حل چنین مشکلاتی مفید واقع می‌شود.


سه از مهمترين نوع طراحی برای SCD وجود دارد.

نوع اول: در این نوع از طراحی SCD نیازی به رهگیری تغییرات نمی‌باشد. استفاده از حالت نرمال بروز‌رسانی جداول ابعاد بدون اضافه کردن سطر یا ستون خاصی به جدول جهت رهگیری وضعیت تغییرات در داده ها. گزارش با نام جدید نمایش داده می‌شود و نام قدیمی نادرست در نظر گرفته خواهد شد. همچنین در نوع اول تاریخچه تغییرات ثبت و رهگیری نمی‌شود.

نوع دوم: SCD نوع دوم کاملا متفاوت و برعکس نوع اول است. در این نوع تمامی تغییرات بدون اعمال تغییر روی داده‌ها ثبت و رهگیری می‌شود. برای انجام این کار سطر و ستون هایی به جدول مورد نظر اضافه می‌کنیم.
تاریخ شروع و تاریخ پایان به همراه یک کلید اصلی جدید جهت ثبت تاریخچه تغییرات به جدول اضافه می‌کنیم.


نوع سوم: در این حالت پردازش جهت رهگیری تغییرات تا حدودی ساده شده به طوری که فقط نام فعلی و نام قدیمی به همراه تاریخ تغییر را در جدول ذخیره می‌کنیم. نام جدید با نام قدیمی جایگزین می‌شود و نام قدیمی در فیلد دیگری به همراه تاریخ تغییرات ثبت می‌شود. در نوع سوم SCD سطری اضافه نمی‌شود و فقط ستون‌هایی برای درج تاریخ تغییرات و مقدار قبلی افزوده می‌شود. در صورتی که نیاز به ثبت تاریخچه تمامی تغییرات باشیم، باید ستون های دیگری به جدول اضافه کنیم. از این نوع زمانی استفاده می‌شود که فقط نیاز به اطلاع از داده قبلی باشد. @BIMining
🖌 داستان های واقعی متخصصان علم داده (بخش اول) @BIMining