BigData Team (BDT)
756 subscribers
413 photos
13 videos
298 links
BigData Team: the way you learn best

Практико-ориентированное обучение по Big Data, Machine Learning, промышленной разработке на Python.

https://bigdatateam.org/ru

Чтобы бустнуть: https://xn--r1a.website/boost/bigdatateam
Download Telegram
📊 Практический курс по Machine Learning, 25.03 — 09.06

Давненько... мы не проводили курсы по машинному обучению, не считая заказных курсов в формате tiger team. Я даже знаю тех, кто ждал этого запуска почти 2 года 💪

Чтобы не растекаться мысью по древу ("зачем оно вам"), приложу ссылкой описание курса и целей обучения. Чуть ниже - фидбек одного из выпускников:
Курс был интересным и плодотворным и мне очень понравилось. Круглосуточная поддержка со стороны преподавателей и ассистентов действительно помогла. Мне было очень приятно видеть, как работники и менеджеры(однокурсников) задают вопросы, которые направлены на применения полученных знаний к реальным задачам.


🚀 cтарт через 2 недели
🔥 осталось 6 мест
🗓 календарь обучения на 2024

Чтобы мы продолжили заниматься обучением, а не рекламой, буду премного благодарен поддержке и репостам.

 #work #study
🔥7
🔥 Big Data, совсем скоро

⚡️ эффективная обработка больших данных
🤘 практические задания на реальном кластере
👉 запись

Наборы 2024:
🗓 25 марта - еще 5 мест 4 места 🔥
🗓 старт 26.08 - 18 мест

Можно проходить по частям:
1️⃣ HDFS, Map Reduce, Hive
2️⃣ Spark: from zero to hero
3️⃣ RT, NoSQL, Data Layout

Пример отзыва с последнего запуска:
Спасибо за курс! Узнал много чего нового. До обучения термин Big Data для меня был чем-то призрачным и непонятным. После курса не только понял что это такое, но и как это готовится. Общее впечатление по всему курсу очень положительное. Успехов Вам в работе/обучении/популяризации биг даты!


Не уверены, подходит ли вам обучение? Пример видео из курса, чтобы познакомиться с форматом обучения, глубиной содержания и легкостью донесения информации:
▶️ Видео с курса Практический курс по Big Data (5 мин)

На всякий случай:
🗓 полный календарь обучений на 2024

Будем благодарны вашей поддержке: делитесь с друзьями и коллегами, записывайтесь на курс и ставьте лайки.

#work #study
🔥6
❤️‍🔥 Мое хобби - собирать крутые команды

Представляю вам звездный состав для проведения лучшего курса по ML. Если писать регалии каждого человека, то возможностей одного сообщения телеграм точно не хватит, поэтому коротко:

🇷🇺 Александр Климов, ML Engineer at eBay
🇰🇿 Алексей Драль, CEO at BigData Team
🇷🇺 Дмитрий Игнатов, Head of MMCP Science Lab at HSE
🇩🇪 Илья Бойцов, Deep Learning Lead at Wayfair
🇩🇪 Илья Сенаторов, PhD at University of Saarland
🇪🇸 Кирилл Власов, Team Lead at Catboost
🇬🇧 Эмели Драль, CTO at Evidently.AI

Кому как не Эмели рассказать про метрики качества и их связь с бизнесом. Кому как не Кириллу рассказать как лучше бустить стекинги и стекать бустинги. Кому как не Илье Б и Илье С погрузить в мир научного и практического NN? Кто как не Дима расскажет сложную математику без косяков и на понятных примерах? А ваш покорный слуга (Алексей) и Саша научат лучшим практикам (чего-угодно)-ops (включая MLOps) и проведут обзор по Big Data.

🫶 пошарить
👉 записаться до 25.03

#work #study
🔥8
😅 Шкала прожарки IT специалистов

А какой прожарки разработчики в вашей компании?

Заряжаемся настроением на выходные. Лайки 🔥 и комментарии, приветствуются.

👉 прошлые находки от руководителя инфраструктуры

#meme
😁5🔥31
🤔 Big Data или ML? Что выбрать?

Для слушателей курса Big Data / Machine Learning Engineer (BDMLE) месяц назад наметилась развилка: больше погружаться в Big Data (BD) или Machine Learning (ML)?

Посовещались и решили с вами тоже поделиться лакмусовой бумажкой и информацией по стеку технологий. Надеемся, это знание упростит ваш выбор в преддверии нового раунда Tech Orda.

📜 лакмусовая бумажка: если вы любите больше программировать, чем выводить формулы и считать интегралы, то вам больше подойдет Big Data. В противном случае - ML.

Стек

Big Data: HDFS, Hadoop, Hive, Spark, Kafka + Spark Structured Streaming, NoSQL (Cassandra), Data Layout (Parquet, ORC, compression), плюшки Hadoop 3+.

Machine Learning (основные): numpy, scipy, pandas, sklearn, pytorch, xgboost / lightgbm / catboost.

Вы бы что выбрали?
🐳 Big Data
⚡️ Machine Learning
❤️‍🔥 BD + ML, взболтать, но не смешивать

photo: Артем

#work #study
❤‍🔥72👍2🐳21
Математика для ML

Наши выпускники подготовили списки базовых терминов, которые следует изучить (или вспомнить), прежде чем погружаться в мир Machine Learning.

1️⃣ Базовые понятия

* Предел и производная
* Геометрический смысл производной
* Операции в векторных пространствах
* Матричные операции
* Системы линейных уравнений
* Градиент, применение градиента, градиентный спуск
* Теория вероятностей и статистика:
— Случайная величина и вероятность
— Математическое ожидание и дисперсия (дискретный и непрерывный случаи)
— Среднеквадратическое отклонение

2️⃣ Полезные понятия

* Производная сложной функции
* Нахождение экстремума
* Вторая производная и выпуклость
* Линейная независимость
* Ранг и определитель
* Доверительные интервалы

Идеально знать все, иначе ряд утверждений при выводе алгоритмов ML нужно будет принимать (как аксиомы) на веру.

Action items
1️⃣ Сохранить чек-лист для подготовки
2️⃣ Поставить нам лайк для мотивации подготовки списка литературы 📚

#work #study
14👏4
▶️ Кажется, что кого-то не хватает

Просьба помочь ;)

https://www.youtube.com/c/BigDataTeam

#work #study
8
❣️ про open source лицензии на понятном

Посвящается всем тем, кто не понимает разницу между open source лицензиями и не знает правила по их использованию в коммерческих продуктах.

Не благодарите... Хотя нет, поблагодарите лайками 😊

#work #meme
8😁7
🧑‍💻Production-ready customer feedback LLM

Мы уже рассказывали про нашу звездную команду практического курса по Machine Learning. Беспрецедентная акция: на этой неделе, одного инструктора можно будет послушать онлайн (на английском языке) совершенно бесплатно в рамках семинара по LLM.

Из первых уст:
У нас много Deep Learning моделей в продакшене, их тяжело поддерживать и развивать. Появилась идея построить консолидированную адаптированную под наш домен LLM систему, которая позволит заменить несколько моделей сразу (а заодно и улучшит качество). Фокус доклада будет на подходах к оценке качества системы.

🇩🇪 Илья Бойцов, Deep Learning Lead at Wayfair

План действий:
👉 зарегистрироваться по ссылке
🔂 поделиться с друзьями
🫶 подписать друзей на канал

Кто уже знаком с основами Machine Learning и хочет погрузиться непосредственно в работу с нейронными сетями, то еще можно записаться 2-ю часть курса, которая начнется на неделе 29-го апреля

#work #study
👍3🔥31
💝 Истории замечательных людей, Руслан

Я обещал делиться замечательными историями пару раз в год. В связи с рабочей нагрузкой, пока успеваю только один раз. Но следующее событие, я пропустить не мог (см. Leaderboard ниже).

22 июля 2022-го года в нашем сообществе появился Руслан. Чтобы стать членом сообщества, он, как и полагается, прошел курс по Big Data на отлично (мы называем таких "самородками").

Руслан, можно сказать, ворвался в мир Big Data: в том же месяце Руслан, прошел свою первую стажировку по направлению Data Engineer (DE) и получил оффер от VK 🔥
Из личного архива переписки:
Добрый день. Хочу еще раз сказать спасибо за курс! Благодаря ему смог пройти стажировку в ***... и получить оффер от ВК. Сегодня подписал документы. Еще раз спасибо!


Что мы имеем пару лет спустя:
⬇️ продолжение ⬇️

#life #work
5
⬆️ начало ⬆️

Что мы имеем пару лет спустя: Руслан второй год прокачивает скилы DE уже в индустрии (и уже не в VK ;)), решает олимпиадные задачи по программированию и помогает другим учиться писать качественный код для эффективной обработки больших массивов информации.

На этой неделе, он добрался до второй строчки нашего международного менторского Leaderboard (по метрике числа данных ответов слушателям или, как мы считаем, объему добавленного счастья на ученика):

🥇🇷🇺 Andrey Simkin 317
🥈🇷🇺 Ruslan Khalikov 230
🥉🇬🇪 Evgeny Adishchev 219
🇷🇺 Dmitriy Rychagov 155
🇬🇪 (hidden)
🇷🇸 (hidden)
🇬🇪 (hidden)
🇷🇺 Nikolay Popov 128
🇷🇺 Svetlana Skorikova 117
🇷🇺 (hidden)
🇺🇸 Thomas Hunt 98
🇷🇺 (hidden)
🇷🇺 (hidden)
🇵🇹 Rodrigo Santos 86
🇷🇺 (hidden)
🇷🇺 Oleg Ivchenko 68
🇷🇺 (hidden)
🇷🇺 (hidden)
🇷🇺 Bogdan Pechenkin 52
🇷🇺 (hidden)
🇷🇺 (hidden)
🇰🇿 (hidden)
🇷🇺 (hidden)
🇷🇺 (hidden)
🇾🇪 Guido Diepen 31
🇷🇺 (hidden)
🇷🇺 (hidden)
🇲🇰 Kirill Cvetkov, 21

Как вы можете видеть, география членов сообщества пополняется с каждым годом, а объем экспертизы просто улетаем в космос 🚀. Приведу пример: с участием членов нашего сообщества в прошлом году мы закрыли проект по разработке архитектуры для крупного телеком оператора. Если у вас есть запрос на экспертизу в Data-сфере (DS/DE), есть предложения для стажировок или проектной деятельности - смело пишите (точно кого-нибудь или что-нибудь порекомендуем).

P.S. Накидайте Руслану лайков ❤️

#life #work
9
❣️Введение в ML от Hastie и Tibshirani теперь на Python

Картинка для привлечения внимания
⬇️ пояснение ⬇️

#study
🔥51👍1
❣️Введение в ML от Hastie и Tibshirani теперь на Python

Когда меня спрашивают про лучший фундаментальный труд по машинному обучению, я рекомендую книгу:
📚 The Elements of Statistical Learning (ESL)
— by Jerome H. Friedman, Robert Tibshirani and Trevor Hastie
site + free downloads

Книжка не из простых, если не пролистать, а честно осознать всю математику и прорешать задачи по теории. Она того стоит: когда я работал в Amazon, в матрице компетенций на роль Senior+ DS эта книжка значилась в списке обязательных.

Лайфхак: прежде чем залезать в дебри математики (книга ESL), можно познакомиться с ML на экспериментах, на более простых, но в то же время практических задачах. Эти же пионеры ML (отгадайте по названию, кто придумал лассо Тибширани 🤔) подготовили книгу:
📚 An Introduction to Statistical Learning (ISL)

Раньше она была доступна только для языка программирования R. Да, это не опечатка, это развитие языка S и ваш покорный слуга, в 2011-м параллелил Generalized Boosted Regression Models (gbm) на R с помощью MapReduce поверх FreeBSD 🔥

Сегодня я увидел, что авторы, оказывается, выпустили в 2023 релиз книги
— with Applications in Python
site + free downloads

Если вам и этого покажется мало, то прежде чем погружаться в мир ESL, можно изучить стенфордский онлайн-курс, доступный бесплатно по регистрации (без смс) на платформе edX (тут и тут). Это что-то среднее между книгой ISL и ESL, поскольку сочетает и практические эксперименты и некоторые теоретические задачи.

Лайк, репост и free downloads 🫶
Налетай!

#study
🔥12👍21
🤖 AI Learns to Walk

Бесконечно можно смотреть на три вещи: как горит огонь, как течет вода и как обучаются модели машинного обучения.

▶️ наглядно (и смешно) про Deep Reinforcement Learning
🕐 8.5 минут

Какой ваш любимый момент или что вы узнали про реальность обучения моделей ML?

#study
11
😅 Узнали себя?

Заряжаемся настроением на неделю. Лайки 🔥 и комментарии, приветствуются.

👉 прошлая находка от руководителя инфраструктуры

#meme
😁94
🤖 Эксперименты с Gemini и GPT-4o

Попал в эксперимент OpenAI по работе с последней моделью GPT-4o. Решил провести тестирование и сравнить результаты написания кода ML с помощью Google Gemini Advanced и OpenAI GPT-4o.

Результаты напомнили о сакральной истине, о которой, однажды, поведал товарищ из Рамблера:
— я вот, когда стопочку коньяку вечером бахну, так сразу код начинаю писать быстрее. А если вторую или третью, то вообще - льется как из ручья. Но пока есть одна проблема
— какая? голова утром болит?
на утро, когда читаю, почти все удалять надо 😂

Вот также и с текущими версиями нейронных помогаторов. Код они пишут быстро, но по метрикам качества, полученные модули:
— для AdaBoost работают как константный классификатор
— для Gradient Boosting - сравни качеству одного обученного дерева

Текущий статус развития (как говорил в ШАД наш учитель по C++):
#define private public
# happy debugging

(c) Public Morozov

😉 Значит пока еще актуально:
курс по тестированию приложений
курс по ML

#work #study
6😢1
🔥 Тишина в канале —> жара на работе

Emoji голосование. Как вы думаете, Саша рассказывает про:
🔥 Machine Learning на курсе Промышленной разработки
👍 Промышленную разработку на курсе Big Data
❤️ Big Data на курсе Machine Learning
😄 Красивые картинки на внутреннем митапе
🤯 Все варианты неправильные, прокомментирую ниже

Кто отгадает, что представлено на слайде, - пришлем ссылку на картинку в высоком разрешении.

#work
9👍3🔥3😁2
🎉 Tech Orda, набор 2024, сабантуйчик в Алматы

Уже соскучились по грантам в размере 600,000 тенге на обучение в IT школах Казахстана?

Тогда не пропустите встречу в Алматы в эту субботу. Вас ждет:
- выставка IT-школ;
- демонстрация работы витрины Astana Hub для подачи заявок на обучение;
- рекомендации по выбору направлений в сфере IT.

🗓 15 июня, 13:00
📍 Алматы, Satpayev University
⚠️ Места ограничены! Участие только для тех, кто ранее не проходил обучение по программе Tech Orda.
❗️ Регистрация по ссылке. Если ваша заявка будет одобрена, вы получите приглашение по электронной почте.

Даты обучения и количество доступных грантов еще не анонсировали (мы тоже ждем). Приходите познакомиться с доступными направлениями и присмотреться к интересующим программам.

От BigData Team будет представлен курс ▶️ Big Data / Machine Learning Engineer (видео о школе и курсе, 11 минут). Рекомендуем оставить заявку на сайте, чтобы первыми получить уведомление о датах отоборочных этапов и старте курсов.

▶️ Big Data / Machine Learning Engineer
0:00 О грантах Tech Orda
0:43 Об основателе (для членов комиссии)
1:14 Об основателе (для потенциальных слушателей)
2:23 О школе
3:36 Преподаватели
4:32 Влияние Tech Orda и наш вклад
4:49 Истории выпускников
5:09 Учебные программы BigData Team
6:25 Учебная программа BDMLE
8:38 BigData Team: the way you learn best
8:44 Форма обучения
9:00 Целевая аудитория
9:19 Процесс отбора студентов
9:57 Планы по масштабированию
10:11 Методика обучения
10:21 Современность технологий обучения и их прикладное применение
10:31 Система оценки успеваемости

👉 Сохрани себе в календарь, перешли информацию друзьям и приходи на встречу.

BigData Team: the way you learn best
#work #study
4🔥4
🎓 Python, промышленная разработка, сообщества, лайфхаки

🔥 На следующей неделе мы запускаем авторский курс Алексея Драля по промышленной разработке на Python. Рекомендуем почитать про силу сообщества и лайфхаки (получения грантов Tech Orda) из первых уст: https://xn--r1a.website/alexdral/665

Если сомневаетесь в своих силах, то обратите внимание, что курс можно проходиться по частям:
1️⃣ лучшие практики написания и тестирования консольных приложений;
2️⃣ тестирование сложных зависимостей на примере автоматизации работы с Web;
3️⃣ Web-приложения и системы мониторинга.

Курс промышленной разработки на Python
, 9 недель
🗓 2 поток: 17.06.2024 — 18.08.2024
✍️ последние отзывы
▶️ демо-ролик с курса (9 min)
🌐 полное описание + запись

BigData Team: the way you learn best
#work #study
3🔥3❤‍🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
🥃 Разговоры о Python

А вы понимаете:
1. Что такое динамическая типизация?
2. В чем разница между большими и маленькими integer'ами?
3. Как оптимизировать потребление памяти и укладку данных в Python?

Если вдруг еще нет, то вас ждет интересная задача в первой части курса промышленной разработки на Python

#study #meme
🔥62