✳️☑️مشخصات زبان R
🔶زبان R برای اولین بار به عنوان یک پروژه تحقیقاتی توسط راس ایهاکا (Ross Ihaka) و رابرت جنتلمن (Robert Gentleman) نوشته شد، و در حال حاضر توسط گروهی از متخصصان علم آمار به نام "تیم هسته زبان R " با صفحه ای در آدرس www.r-project.org در حال توسعه ی فعال می باشد.
زبان R به گونهای طراحی شده، که بی شباهت به زبان نرم افزار S که توسط جان چمبرز (John Chambers) و دیگر افراد در آزمایشگاههای بل توسعه یافته بود نباشد. نسخه تجاری نرم افزار S با قابلیتهای بیشتر، توسط موسسه ی علوم آماری به عنوان نرم افزار SPlus توسعه یافته و به بازار عرضه شده؛ بعدها این نسخه نرم افزار SPlus، توسط شرکت Insightful خریداری شده و اکنون نیز متعلق به TIBCO Spotfire می باشد.زبان R و نرم افزار SPlus را می توان به عنوان دو پیاده سازی زبان نرم افزار S در نظر گرفت.
زبان R بصورت رایگان در دسترس بوده و تحت پروانه ی عمومی همگانی، گنو (GNU) از بنیاد نرم افزارهای آزاد (FreeSoftware Foundation) توزیع می گردد. شما می توانید این برنامه را از شبکه جامع آرشیو نرم افزار R در (CRAN) دانلود نمایید. باینری های آماده اجرای زبان R برای سیستم عامل های ویندوز (Windows)، مک او اس ایکس (Mac OS X) و لینوکس (Linux) در دسترس می باشد.
کد منبع (source code) نیز قابل دانلود بوده و می تواند برای سیستم عامل های دیگر کامپایل شود.
حاوی محدوده گستردهای از تکنیکهای آماری (از جمله: مدلسازی خطی و غیرخطی، آزمونهای کلاسیک آماری، تحلیل سریهای زمانی، ردهبندی، خوشهبندی و ...) و قابلیتهای گرافیکی است. در محیط R، کدهای سی، سی++ و فورترن قابلیت اتصال و فراخوانی هنگام اجرای برنامه را دارند و کاربران خبره میتوانند توسط کدهای سی، مستقیماً اشیا R را تغییر دهند.گرچه نرمافزار R اغلب به منظور انجام محاسبات آماری به کار میرود، این نرمافزار قابل به کارگیری در محاسبات ماتریسی است و در این زمینه، همپای نرمافزارهایی چون اُکتاو و نسخه تجاری آن متلب (MATLAB) است. R، همچنین زبانی قدرتمندی برای ایجاد اشکال گرافیکی و نمودارهاست.
به سرعت در حال تبدیل شدن به مهم ترین زبان برنامه نویسی برای هر دو، زیست شناسان تجربی و محاسباتی است .به خوبی طراحی شده است، بسیار کارآمد و به طور گسترده ای مورد استفاده قرار می گیرد و دارای یک پایگاه بسیار زیادی از همکاران و کاربرانی است که که قابلیت های جدید برای تمام جنبه های مدرن از تجزیه و تحلیل داده ها و تجسم را به آن اضافه میکنند. علاوه بر آن رایگان و منبع باز است.
شما می توانید از R برای تقریبا تمام موضوعات بیوانفورماتیک، پروتئومیکس، تجزیه و تحلیل آماری استفاده کنید بطور مثال
(Flow Cytometry, text and data mining, Seqeunce ,NGS,manipulation)
رابرت مونچن امار دانی که این زبان را تدریس میکند ،این زبان به عنوان محبوب ترین زبان برنامه نویسی در زمینه عملیات پژوهشی در سال 2015 اعلام کرده است نا گفته نماند ایشان به عنوان مسئول براورد محبوبیت نرم افزارهای پژوهشی نیز هستند.
و در اخر خاص بودن R را در
1-مجموعه قوی از عملگرهای محاسباتی
2-کتابخانه های خاص چند منظوره
3-بسته های نرم افزاری قدرتمند برای تجزیه و تحلیل
4-دارای مستندات فرمت بندی شده
5-قابلیت شبیه سازی های گوناگون
می توان دانست
@BIMining
🔶زبان R برای اولین بار به عنوان یک پروژه تحقیقاتی توسط راس ایهاکا (Ross Ihaka) و رابرت جنتلمن (Robert Gentleman) نوشته شد، و در حال حاضر توسط گروهی از متخصصان علم آمار به نام "تیم هسته زبان R " با صفحه ای در آدرس www.r-project.org در حال توسعه ی فعال می باشد.
زبان R به گونهای طراحی شده، که بی شباهت به زبان نرم افزار S که توسط جان چمبرز (John Chambers) و دیگر افراد در آزمایشگاههای بل توسعه یافته بود نباشد. نسخه تجاری نرم افزار S با قابلیتهای بیشتر، توسط موسسه ی علوم آماری به عنوان نرم افزار SPlus توسعه یافته و به بازار عرضه شده؛ بعدها این نسخه نرم افزار SPlus، توسط شرکت Insightful خریداری شده و اکنون نیز متعلق به TIBCO Spotfire می باشد.زبان R و نرم افزار SPlus را می توان به عنوان دو پیاده سازی زبان نرم افزار S در نظر گرفت.
زبان R بصورت رایگان در دسترس بوده و تحت پروانه ی عمومی همگانی، گنو (GNU) از بنیاد نرم افزارهای آزاد (FreeSoftware Foundation) توزیع می گردد. شما می توانید این برنامه را از شبکه جامع آرشیو نرم افزار R در (CRAN) دانلود نمایید. باینری های آماده اجرای زبان R برای سیستم عامل های ویندوز (Windows)، مک او اس ایکس (Mac OS X) و لینوکس (Linux) در دسترس می باشد.
کد منبع (source code) نیز قابل دانلود بوده و می تواند برای سیستم عامل های دیگر کامپایل شود.
حاوی محدوده گستردهای از تکنیکهای آماری (از جمله: مدلسازی خطی و غیرخطی، آزمونهای کلاسیک آماری، تحلیل سریهای زمانی، ردهبندی، خوشهبندی و ...) و قابلیتهای گرافیکی است. در محیط R، کدهای سی، سی++ و فورترن قابلیت اتصال و فراخوانی هنگام اجرای برنامه را دارند و کاربران خبره میتوانند توسط کدهای سی، مستقیماً اشیا R را تغییر دهند.گرچه نرمافزار R اغلب به منظور انجام محاسبات آماری به کار میرود، این نرمافزار قابل به کارگیری در محاسبات ماتریسی است و در این زمینه، همپای نرمافزارهایی چون اُکتاو و نسخه تجاری آن متلب (MATLAB) است. R، همچنین زبانی قدرتمندی برای ایجاد اشکال گرافیکی و نمودارهاست.
به سرعت در حال تبدیل شدن به مهم ترین زبان برنامه نویسی برای هر دو، زیست شناسان تجربی و محاسباتی است .به خوبی طراحی شده است، بسیار کارآمد و به طور گسترده ای مورد استفاده قرار می گیرد و دارای یک پایگاه بسیار زیادی از همکاران و کاربرانی است که که قابلیت های جدید برای تمام جنبه های مدرن از تجزیه و تحلیل داده ها و تجسم را به آن اضافه میکنند. علاوه بر آن رایگان و منبع باز است.
شما می توانید از R برای تقریبا تمام موضوعات بیوانفورماتیک، پروتئومیکس، تجزیه و تحلیل آماری استفاده کنید بطور مثال
(Flow Cytometry, text and data mining, Seqeunce ,NGS,manipulation)
رابرت مونچن امار دانی که این زبان را تدریس میکند ،این زبان به عنوان محبوب ترین زبان برنامه نویسی در زمینه عملیات پژوهشی در سال 2015 اعلام کرده است نا گفته نماند ایشان به عنوان مسئول براورد محبوبیت نرم افزارهای پژوهشی نیز هستند.
و در اخر خاص بودن R را در
1-مجموعه قوی از عملگرهای محاسباتی
2-کتابخانه های خاص چند منظوره
3-بسته های نرم افزاری قدرتمند برای تجزیه و تحلیل
4-دارای مستندات فرمت بندی شده
5-قابلیت شبیه سازی های گوناگون
می توان دانست
@BIMining
استخدام برنامه نويس با شرايط عالي در شركت دانش بنيان ژرف پويان- محل کار تهران @BIMining
✳️☑️برگزاری دوره کاربردی علم داده - Data Science
👨🏫مدرس : محمد عالیشاهی
🗓شروع قطعی دوره:11 بهمن 97
⏰روزهای پنجشنبه و جمعه 8:30 الی 14:30
⏳ظرفیت باقیمانده :4 نفر
👨🎓با ارائه مدرك معتبر در پايان دوره
📎محل برگزاري: تهران- تقاطع مطهري و سنائي - موسسه آموزشي رايان كالج
✍️برای ثبت نام آنلاین به لینک زیر بروید: http://BIMining.ir
👨🏫مدرس : محمد عالیشاهی
🗓شروع قطعی دوره:11 بهمن 97
⏰روزهای پنجشنبه و جمعه 8:30 الی 14:30
⏳ظرفیت باقیمانده :4 نفر
👨🎓با ارائه مدرك معتبر در پايان دوره
📎محل برگزاري: تهران- تقاطع مطهري و سنائي - موسسه آموزشي رايان كالج
✍️برای ثبت نام آنلاین به لینک زیر بروید: http://BIMining.ir
سرفصل_های_مهم_انبار_داده_و_ETL_با.pdf
931.2 KB
✳️☑️سرفصلهای دوره کاربردی علم داده - Data Science
👨🏫مدرس : محمد عالیشاهی
🗓شروع قطعی دوره:11 بهمن 97
⏰روزهای پنجشنبه و جمعه 8:30 الی 14:30
⏳ظرفیت باقیمانده :4 نفر
👨🎓با ارائه مدرك معتبر در پايان دوره
📎محل برگزاري: تهران- تقاطع مطهري و سنائي - موسسه آموزشي رايان كالج
✍️برای ثبت نام آنلاین به لینک زیر بروید: http://BIMining.ir
👨🏫مدرس : محمد عالیشاهی
🗓شروع قطعی دوره:11 بهمن 97
⏰روزهای پنجشنبه و جمعه 8:30 الی 14:30
⏳ظرفیت باقیمانده :4 نفر
👨🎓با ارائه مدرك معتبر در پايان دوره
📎محل برگزاري: تهران- تقاطع مطهري و سنائي - موسسه آموزشي رايان كالج
✍️برای ثبت نام آنلاین به لینک زیر بروید: http://BIMining.ir
📊 گارتنر می گوید بیش از ۴۰ درصد از وظایف مربوط به علم داده تا سال ۲۰۲۰ اتوماتیک خواهد شد
گارتنر با توجه به افزایش بهره وری و استفاده گسترده تر از داده ها و تجزیه و تحلیل آن توسط Citizen data scientist ، می گوید بیش از ۴۰ درصد از وظایف مربوط به علم داده تا سال ۲۰۲۰ به صورت خودکار خواهد شد.
گارتنر یک citizen data scientist را فردی تعریف می کند که مدل هایی را که در تجزیه و تحلیل پیشرفته ی شناختی و یا قابلیت های پیش بینی و تجویز شده ، استفاده شده اند را ایجاد و تولید می کند، اما وظایف اولیه کاریه او خارج از حوزه آمار و تجزیه و تحلیل است.
به گزارش گارتنر، citizen data scientists می توانند فاصله بین تجزیه و تحلیل self-service جریان اصلی را توسط کاربران کسب و کار و همچنین تجزیه و تحلیل پیشرفته ی تکنیک های علم داده ها پر کنند.آنها در حال حاضر قادر به انجام تجزیه و تحلیلی پیچیده که قبلا مستلزم تخصص بیشتری بود،هستند و قادر خواهند بود تحلیل های پیشرفته ای بدون داشتن مهارت تشخیص دانشمندان داده را ارائه دهند.
با ادامه ظهور علم داده به عنوان یک differentiator قدرتمند در صنایع ، تقریبا همه ی داده ها و فروشنده ی پلت فرم نرم افزارهای تحلیلی در حال حاضر تمرکزشان بر روی ساده سازی هدفی مهم از طریق وظایف مختلف خودکار، از جمله یکپارچه سازی داده ها و مدل سازی متمرکز می باشد.
معاون تحقیقات گارتنر، Alexander Linden می گوید: “ساخت محصولات علم داده برای citizen data scientists به منظور افزایش دسترسی فروشندگان در سراسر شرکت، آسان تر می شود. افزایش در اتوماسیون، بهره وری قابل توجهی را برای دانشمندان داده به همراه دارد و به تعداد کمتری از دانشمندان داده برای انجام همان مقدار کار نیاز خواهد بود. اما هنوز هم برای هر پروژه پیشرفته علمی داده ها ، به حداقل یک و یا دو دانشمند داده نیاز خواهد بود.”
گارتنر پیش بینی کرده است که citizen data scientists از دانشمندان داده در مقدار تجزیه و تحلیل پیشرفته تولید شده تا سال ۲۰۱۹ پیشی خواهند گرفت. مقدار گسترده ای از تجزیه و تحلیل تولید شده توسط citizen data scientists از کسب و کار تاثیر می پذیرند و یک محیط تحلیلی فراگیر تری را ایجاد می کنند، در حالی که در همان زمان از دانشمندان داده ای که می توانند تمرکز خود را بر روی تجزیه و تحلیل های پیچیده تری تغییر دهند، حمایت می کند.
مدیر تحقیقات گارتنر، Joao Tapadinhas می گوید: “اکثر سازمانها به اندازه کافی دانشمند داده ندارند که به طور مداوم در طول کسب و کار در دسترس باشند، اما آنها باید تعداد زیادی تحلیلگر ماهر اطلاعاتی داشته باشند که توانایی تبدیل به citizen data scientists را دارند و با مجهز شدن به ابزار مناسب، آنها می توانند تجزیه و تحلیل و تشخیص های پیچیده تری انجام دهند.”
به گزارش گارتنر، این نتیجه به منابع داده بیشتری از جمله : داده های پیچیده تر، طیف وسیع تر و پیچیده تری از قابلیت های تحلیلی و توانمند سازی تحلیلگران بسیاری در سراسر سازمان با یک فرم ساده از علم داده ، دسترسی خواهد داشت.
تاپادینهاس می گوید : “دسترسی به علم داده در حال حاضر ناشدنیست، با توجه به کمبود منابع و پیچیدگی ، تمام سازمان ها قادر نخواهند بود به آن دسترسی پیدا کنند. برای برخی از سازمان ها،citizen data science یک راه حل ساده تر،سریع تر و بهتر برای تحلیلات پیشرفته خواهد بود.”
@BIMining
گارتنر با توجه به افزایش بهره وری و استفاده گسترده تر از داده ها و تجزیه و تحلیل آن توسط Citizen data scientist ، می گوید بیش از ۴۰ درصد از وظایف مربوط به علم داده تا سال ۲۰۲۰ به صورت خودکار خواهد شد.
گارتنر یک citizen data scientist را فردی تعریف می کند که مدل هایی را که در تجزیه و تحلیل پیشرفته ی شناختی و یا قابلیت های پیش بینی و تجویز شده ، استفاده شده اند را ایجاد و تولید می کند، اما وظایف اولیه کاریه او خارج از حوزه آمار و تجزیه و تحلیل است.
به گزارش گارتنر، citizen data scientists می توانند فاصله بین تجزیه و تحلیل self-service جریان اصلی را توسط کاربران کسب و کار و همچنین تجزیه و تحلیل پیشرفته ی تکنیک های علم داده ها پر کنند.آنها در حال حاضر قادر به انجام تجزیه و تحلیلی پیچیده که قبلا مستلزم تخصص بیشتری بود،هستند و قادر خواهند بود تحلیل های پیشرفته ای بدون داشتن مهارت تشخیص دانشمندان داده را ارائه دهند.
با ادامه ظهور علم داده به عنوان یک differentiator قدرتمند در صنایع ، تقریبا همه ی داده ها و فروشنده ی پلت فرم نرم افزارهای تحلیلی در حال حاضر تمرکزشان بر روی ساده سازی هدفی مهم از طریق وظایف مختلف خودکار، از جمله یکپارچه سازی داده ها و مدل سازی متمرکز می باشد.
معاون تحقیقات گارتنر، Alexander Linden می گوید: “ساخت محصولات علم داده برای citizen data scientists به منظور افزایش دسترسی فروشندگان در سراسر شرکت، آسان تر می شود. افزایش در اتوماسیون، بهره وری قابل توجهی را برای دانشمندان داده به همراه دارد و به تعداد کمتری از دانشمندان داده برای انجام همان مقدار کار نیاز خواهد بود. اما هنوز هم برای هر پروژه پیشرفته علمی داده ها ، به حداقل یک و یا دو دانشمند داده نیاز خواهد بود.”
گارتنر پیش بینی کرده است که citizen data scientists از دانشمندان داده در مقدار تجزیه و تحلیل پیشرفته تولید شده تا سال ۲۰۱۹ پیشی خواهند گرفت. مقدار گسترده ای از تجزیه و تحلیل تولید شده توسط citizen data scientists از کسب و کار تاثیر می پذیرند و یک محیط تحلیلی فراگیر تری را ایجاد می کنند، در حالی که در همان زمان از دانشمندان داده ای که می توانند تمرکز خود را بر روی تجزیه و تحلیل های پیچیده تری تغییر دهند، حمایت می کند.
مدیر تحقیقات گارتنر، Joao Tapadinhas می گوید: “اکثر سازمانها به اندازه کافی دانشمند داده ندارند که به طور مداوم در طول کسب و کار در دسترس باشند، اما آنها باید تعداد زیادی تحلیلگر ماهر اطلاعاتی داشته باشند که توانایی تبدیل به citizen data scientists را دارند و با مجهز شدن به ابزار مناسب، آنها می توانند تجزیه و تحلیل و تشخیص های پیچیده تری انجام دهند.”
به گزارش گارتنر، این نتیجه به منابع داده بیشتری از جمله : داده های پیچیده تر، طیف وسیع تر و پیچیده تری از قابلیت های تحلیلی و توانمند سازی تحلیلگران بسیاری در سراسر سازمان با یک فرم ساده از علم داده ، دسترسی خواهد داشت.
تاپادینهاس می گوید : “دسترسی به علم داده در حال حاضر ناشدنیست، با توجه به کمبود منابع و پیچیدگی ، تمام سازمان ها قادر نخواهند بود به آن دسترسی پیدا کنند. برای برخی از سازمان ها،citizen data science یک راه حل ساده تر،سریع تر و بهتر برای تحلیلات پیشرفته خواهد بود.”
@BIMining
✳️☑️نحوه پياده سازي Pie Chart با استفاده از زبان پايتون !!!
import matplotlib.pyplot as plt
labels= ['Mortgage', 'Utilities', 'Food', 'Gas']
colors=['blue', 'yellow', 'green', 'orange']
sizes= [1500, 600, 500, 300]
plt.pie(sizes,labels=labels, colors=colors, startangle=90, autopct='%1.1f%%')
plt.axis('equal')
plt.show()
@BIMining
import matplotlib.pyplot as plt
labels= ['Mortgage', 'Utilities', 'Food', 'Gas']
colors=['blue', 'yellow', 'green', 'orange']
sizes= [1500, 600, 500, 300]
plt.pie(sizes,labels=labels, colors=colors, startangle=90, autopct='%1.1f%%')
plt.axis('equal')
plt.show()
@BIMining
#آموزش Create a Stack Plot در پایتون!
@BIMining
import matplotlib.pyplot as plt
months= [x for x in range(1,13)]
mortgage= [700, 700, 700,
800, 800, 800,
850, 850, 850,
850, 850, 850]
utilities= [500, 300, 380,
200, 600, 550,
310, 620, 290,
320, 440, 400]
repairs= [100, 120, 100,
150, 850, 80,
120, 220, 240,
50, 60, 150]
plt.plot([],[], color='blue', label='mortgage')
plt.plot([],[], color='orange', label='utilities')
plt.plot([],[], color='brown', label='repairs')
plt.stackplot(months, mortgage, utilities, repairs, colors=['blue', 'orange', 'brown'])
plt.legend()
plt.title('Household Expenses')
plt.xlabel('Months of the year')
plt.ylabel('Cost')
plt.show()
@BIMining
✳️☑️برگزاری دوره کاربردی علم داده - Data Science
👨🏫مدرس : محمد عالیشاهی
🗓شروع قطعی دوره:11 بهمن 97
⏰روزهای پنجشنبه و جمعه 8:30 الی 14:30
⏳ظرفیت باقیمانده : 1نفر
👨🎓با ارائه مدرك معتبر در پايان دوره
📎محل برگزاري: تهران- تقاطع مطهري و سنائي - موسسه آموزشي رايان كالج
✍️برای ثبت نام آنلاین به لینک زیر بروید: http://BIMining.ir
👨🏫مدرس : محمد عالیشاهی
🗓شروع قطعی دوره:11 بهمن 97
⏰روزهای پنجشنبه و جمعه 8:30 الی 14:30
⏳ظرفیت باقیمانده : 1نفر
👨🎓با ارائه مدرك معتبر در پايان دوره
📎محل برگزاري: تهران- تقاطع مطهري و سنائي - موسسه آموزشي رايان كالج
✍️برای ثبت نام آنلاین به لینک زیر بروید: http://BIMining.ir
✳️☑️علم داده چیست ؟
علم داده (Data Science)، دانشی میانرشتهای پیرامون استخراج دانش و آگاهی از مجموعهای داده و اطلاعات است.علم داده از ترکیب مباحث مختلفی به وجود آمده و بر مبانی و روشهای موجود در حوزههای مختلف علمی بنا شدهاست. تعدادی از این حوزهها عبارتند از: ریاضیات، آمار، مهندسی داده، بازشناخت الگو و… هدف این علم، استخراج مفهوم از داده و تولید محصولات دادهمحور است.
آقایان توماس دونپورت و دی جی پاتیل در سال ۲۰۱۲ در مقاله «علم داده: جذابترین شغل قرن بیست و یکم» متخصصین علم داده را اینطور تعریف میکنند: کسانی که میدانند چگونه میتوان از انبوه اطلاعات بدون ساختار پاسخ سوالهای کسبوکار را پیدا کرد. استنتون در سال ۲۰۱۳ علم داده را اینطور تعریف میکند: علم داده رشته در حال ظهوری است که به جمعآوری، آمادهسازی، تحلیل، بصریسازی، مدیریت و نگهداشت اطلاعات در حجم بالا میپردازد. دریسکول در سال ۲۰۱۴ علم داده را اینطور تعریف میکند: علم داده مهندسی عمران دادههاست. متخصص علم داده دانشی کاربردی از دادهها و ابزارها دارد به علاوه درک تئوریکی دارد که مشخص میکند چه چیزی از نظر علمی ممکن است.
✔️ متخصص علم داده کیست؟
به شاغلین در حوزهٔ علم داده، متخصص علم داده (data scientist) میگویند. این اصطلاح توسط دی جی پاتیل و جف همربارکر ابداع شدهاست در صورتی که سالها قبل از آن که آنها استفاده از اصطلاح فوق را بهطور عمومی مطرح کنند، از آن استفاده شدهاست.چن فو جف وو در سال ۱۹۹۸ برای اولین بار در یک سخنرانی از واژهٔ متخصص علم داده استفاده کرد. متخصصین علم داده با عمیق شدن در چندین رشتهٔ علمی، مسائل پیچیدهٔ مطرح شده در حوزهٔ داده را حل میکنند. بهطور کلی انتظار میرود که متخصصین علم داده قادر باشند در بخشهایی از علوم ریاضیات و آمار و علوم کامپیوتر کار کنند.یک متخصص علم داده میبایست در یک یا دو رشته تخصص داشته باشد و در دیگر حوزهها دارای مهارت کافی باشد. نتایج نظرسنجیها حاکی از این موضوع است که برای متخصص علم داده شدن ۵ تا ۸ سال زمان لازم است.
✔️✔️متخصصین علم داده بایدچه مهارتهایی را داشته باشد؟
متخصصین علم داده میتوانند مهارتهایشان را برای دست یابی به طیف وسیعی از نتایج نهایی به کار گیرند. تعدادی از این مهارتها به شرح زیرند:
توانایی استخراج و تفسیر منابع داده
مدیریت حجم زیاد اطلاعات با سختافزار
محدودیتهای نرمافزاری و پهنای باند
ادغام منابع داده با یک دیگر
تضمین پایداری مجموعههای داده
مصورسازی داده برای فهم آن
ساخت مدلهای ریاضی با استفاده از داده، مانند مدلهای ریگرسیون و طبقه بندی
مقایسه آماری مدلهای ریاضی گوناگون و انتخاب مدل برتر، فی المثل توسط آزمون آ/ب
به اشتراک گذاری یافتهها و دیدگاهها در حوزه داده با متخصصان دیگر یا مخاطب عام
@BIMining
علم داده (Data Science)، دانشی میانرشتهای پیرامون استخراج دانش و آگاهی از مجموعهای داده و اطلاعات است.علم داده از ترکیب مباحث مختلفی به وجود آمده و بر مبانی و روشهای موجود در حوزههای مختلف علمی بنا شدهاست. تعدادی از این حوزهها عبارتند از: ریاضیات، آمار، مهندسی داده، بازشناخت الگو و… هدف این علم، استخراج مفهوم از داده و تولید محصولات دادهمحور است.
آقایان توماس دونپورت و دی جی پاتیل در سال ۲۰۱۲ در مقاله «علم داده: جذابترین شغل قرن بیست و یکم» متخصصین علم داده را اینطور تعریف میکنند: کسانی که میدانند چگونه میتوان از انبوه اطلاعات بدون ساختار پاسخ سوالهای کسبوکار را پیدا کرد. استنتون در سال ۲۰۱۳ علم داده را اینطور تعریف میکند: علم داده رشته در حال ظهوری است که به جمعآوری، آمادهسازی، تحلیل، بصریسازی، مدیریت و نگهداشت اطلاعات در حجم بالا میپردازد. دریسکول در سال ۲۰۱۴ علم داده را اینطور تعریف میکند: علم داده مهندسی عمران دادههاست. متخصص علم داده دانشی کاربردی از دادهها و ابزارها دارد به علاوه درک تئوریکی دارد که مشخص میکند چه چیزی از نظر علمی ممکن است.
✔️ متخصص علم داده کیست؟
به شاغلین در حوزهٔ علم داده، متخصص علم داده (data scientist) میگویند. این اصطلاح توسط دی جی پاتیل و جف همربارکر ابداع شدهاست در صورتی که سالها قبل از آن که آنها استفاده از اصطلاح فوق را بهطور عمومی مطرح کنند، از آن استفاده شدهاست.چن فو جف وو در سال ۱۹۹۸ برای اولین بار در یک سخنرانی از واژهٔ متخصص علم داده استفاده کرد. متخصصین علم داده با عمیق شدن در چندین رشتهٔ علمی، مسائل پیچیدهٔ مطرح شده در حوزهٔ داده را حل میکنند. بهطور کلی انتظار میرود که متخصصین علم داده قادر باشند در بخشهایی از علوم ریاضیات و آمار و علوم کامپیوتر کار کنند.یک متخصص علم داده میبایست در یک یا دو رشته تخصص داشته باشد و در دیگر حوزهها دارای مهارت کافی باشد. نتایج نظرسنجیها حاکی از این موضوع است که برای متخصص علم داده شدن ۵ تا ۸ سال زمان لازم است.
✔️✔️متخصصین علم داده بایدچه مهارتهایی را داشته باشد؟
متخصصین علم داده میتوانند مهارتهایشان را برای دست یابی به طیف وسیعی از نتایج نهایی به کار گیرند. تعدادی از این مهارتها به شرح زیرند:
توانایی استخراج و تفسیر منابع داده
مدیریت حجم زیاد اطلاعات با سختافزار
محدودیتهای نرمافزاری و پهنای باند
ادغام منابع داده با یک دیگر
تضمین پایداری مجموعههای داده
مصورسازی داده برای فهم آن
ساخت مدلهای ریاضی با استفاده از داده، مانند مدلهای ریگرسیون و طبقه بندی
مقایسه آماری مدلهای ریاضی گوناگون و انتخاب مدل برتر، فی المثل توسط آزمون آ/ب
به اشتراک گذاری یافتهها و دیدگاهها در حوزه داده با متخصصان دیگر یا مخاطب عام
@BIMining
🎖🎖برای پذیرش دانشگاه ها و مشاغل معتبر داخلی و خارجی با علم روز جهان ، علم داده و داده کاوی ، این ربات را ببینید. لطفا به دوستان خود دیدن این ربات را توصیه نمائید.
🥇 @Datamining_Marketing_bot
✅ اطلاع از اخبار روز علم داده و داده کاوی
✅موقعیت های شغلی بین المللی
◀️آشنایی با علم داده و دوره های آموزشی @BIMining
🥇 @Datamining_Marketing_bot
✅ اطلاع از اخبار روز علم داده و داده کاوی
✅موقعیت های شغلی بین المللی
◀️آشنایی با علم داده و دوره های آموزشی @BIMining
✳️☑️یک باشگاه فوتبال در بریتانیا برای اولینبار در جهان از هوش مصنوعی بهعنوان یک مربی برای چیدن ترکیب تیم استفاده میکند.
💢 مربی هوش مصنوعی از یک موتور استدلال برای تعیین بهترین شکل و سبک بازی دربرابر تیمهای مختلف استفاده میکند. پس از هر بازی، هوش مصنوعی اطلاعات را ذخیره میکند و ترکیبهای بهتری را با توجه به بازیهای پیشین و ترکیب تیم مقابل ارائه میدهد.
@BIMining
💢 مربی هوش مصنوعی از یک موتور استدلال برای تعیین بهترین شکل و سبک بازی دربرابر تیمهای مختلف استفاده میکند. پس از هر بازی، هوش مصنوعی اطلاعات را ذخیره میکند و ترکیبهای بهتری را با توجه به بازیهای پیشین و ترکیب تیم مقابل ارائه میدهد.
@BIMining
✳️☑️الگوی طراحی جداول ابعاد slowly changing dimension
@BIMining
بیشتر اوقات مقادیر موجود در جداول ابعاد (Dimensions) ثابت هستند و تغییری در آنها رخ نمیدهد. به عنوان مثال تغییر در نام ماه های سال تقریبا غیر ممکن است. اما برخی از اطلاعات قابل تغییر هستند، مانند نام یا نام خانوادگی و آدرس افراد. جهت شرح چنین شرایطی از اصطلاح SCD یا slowly changing dimension استفاده میشود. SCD الگوی طراحی جداول ابعاد است.
در برخی از گزارشات، زمانی که چنین تغییری در داده رخ دهد، می بایست تغییرات را به صورتی اعمال کرد که تاریخچه تغییرات آن مشخص باشد. به طور مثال در نظر بگیرید که در گزارشی میزان فروش شخصی ثبت شده باشد، این شخص پس از مدتی نام خود را تغییر میدهد، اگر نام شخص را بروزرسانی کنیم تمامی اطلاعات قدیمی با نام جدید نمایش داده میشود که در این صورت امکان رسیدن به نام قدیم از بین میرود.SCD یک مفهوم جدید نیست بلکه نوع دیگری از طراحی میباشد که برای کمک به حل چنین مشکلاتی مفید واقع میشود.
سه از مهمترين نوع طراحی برای SCD وجود دارد.
✅نوع اول: در این نوع از طراحی SCD نیازی به رهگیری تغییرات نمیباشد. استفاده از حالت نرمال بروزرسانی جداول ابعاد بدون اضافه کردن سطر یا ستون خاصی به جدول جهت رهگیری وضعیت تغییرات در داده ها. گزارش با نام جدید نمایش داده میشود و نام قدیمی نادرست در نظر گرفته خواهد شد. همچنین در نوع اول تاریخچه تغییرات ثبت و رهگیری نمیشود.
✅نوع دوم: SCD نوع دوم کاملا متفاوت و برعکس نوع اول است. در این نوع تمامی تغییرات بدون اعمال تغییر روی دادهها ثبت و رهگیری میشود. برای انجام این کار سطر و ستون هایی به جدول مورد نظر اضافه میکنیم.
تاریخ شروع و تاریخ پایان به همراه یک کلید اصلی جدید جهت ثبت تاریخچه تغییرات به جدول اضافه میکنیم.
✅نوع سوم: در این حالت پردازش جهت رهگیری تغییرات تا حدودی ساده شده به طوری که فقط نام فعلی و نام قدیمی به همراه تاریخ تغییر را در جدول ذخیره میکنیم. نام جدید با نام قدیمی جایگزین میشود و نام قدیمی در فیلد دیگری به همراه تاریخ تغییرات ثبت میشود. در نوع سوم SCD سطری اضافه نمیشود و فقط ستونهایی برای درج تاریخ تغییرات و مقدار قبلی افزوده میشود. در صورتی که نیاز به ثبت تاریخچه تمامی تغییرات باشیم، باید ستون های دیگری به جدول اضافه کنیم. از این نوع زمانی استفاده میشود که فقط نیاز به اطلاع از داده قبلی باشد. @BIMining
@BIMining
بیشتر اوقات مقادیر موجود در جداول ابعاد (Dimensions) ثابت هستند و تغییری در آنها رخ نمیدهد. به عنوان مثال تغییر در نام ماه های سال تقریبا غیر ممکن است. اما برخی از اطلاعات قابل تغییر هستند، مانند نام یا نام خانوادگی و آدرس افراد. جهت شرح چنین شرایطی از اصطلاح SCD یا slowly changing dimension استفاده میشود. SCD الگوی طراحی جداول ابعاد است.
در برخی از گزارشات، زمانی که چنین تغییری در داده رخ دهد، می بایست تغییرات را به صورتی اعمال کرد که تاریخچه تغییرات آن مشخص باشد. به طور مثال در نظر بگیرید که در گزارشی میزان فروش شخصی ثبت شده باشد، این شخص پس از مدتی نام خود را تغییر میدهد، اگر نام شخص را بروزرسانی کنیم تمامی اطلاعات قدیمی با نام جدید نمایش داده میشود که در این صورت امکان رسیدن به نام قدیم از بین میرود.SCD یک مفهوم جدید نیست بلکه نوع دیگری از طراحی میباشد که برای کمک به حل چنین مشکلاتی مفید واقع میشود.
سه از مهمترين نوع طراحی برای SCD وجود دارد.
✅نوع اول: در این نوع از طراحی SCD نیازی به رهگیری تغییرات نمیباشد. استفاده از حالت نرمال بروزرسانی جداول ابعاد بدون اضافه کردن سطر یا ستون خاصی به جدول جهت رهگیری وضعیت تغییرات در داده ها. گزارش با نام جدید نمایش داده میشود و نام قدیمی نادرست در نظر گرفته خواهد شد. همچنین در نوع اول تاریخچه تغییرات ثبت و رهگیری نمیشود.
✅نوع دوم: SCD نوع دوم کاملا متفاوت و برعکس نوع اول است. در این نوع تمامی تغییرات بدون اعمال تغییر روی دادهها ثبت و رهگیری میشود. برای انجام این کار سطر و ستون هایی به جدول مورد نظر اضافه میکنیم.
تاریخ شروع و تاریخ پایان به همراه یک کلید اصلی جدید جهت ثبت تاریخچه تغییرات به جدول اضافه میکنیم.
✅نوع سوم: در این حالت پردازش جهت رهگیری تغییرات تا حدودی ساده شده به طوری که فقط نام فعلی و نام قدیمی به همراه تاریخ تغییر را در جدول ذخیره میکنیم. نام جدید با نام قدیمی جایگزین میشود و نام قدیمی در فیلد دیگری به همراه تاریخ تغییرات ثبت میشود. در نوع سوم SCD سطری اضافه نمیشود و فقط ستونهایی برای درج تاریخ تغییرات و مقدار قبلی افزوده میشود. در صورتی که نیاز به ثبت تاریخچه تمامی تغییرات باشیم، باید ستون های دیگری به جدول اضافه کنیم. از این نوع زمانی استفاده میشود که فقط نیاز به اطلاع از داده قبلی باشد. @BIMining