BigData Team (BDT)
756 subscribers
413 photos
13 videos
298 links
BigData Team: the way you learn best

Практико-ориентированное обучение по Big Data, Machine Learning, промышленной разработке на Python.

https://bigdatateam.org/ru

Чтобы бустнуть: https://xn--r1a.website/boost/bigdatateam
Download Telegram
🔬 Новости науки и техники, обзор LLM, arXiv

Large Language Models: A Survey
https://arxiv.org/pdf/2402.06196.pdf

by Shervin Minaee, Tomas Mikolov, Narjes Nikzad, Meysam Chenaghlu Richard Socher, Xavier Amatriain, Jianfeng Gao

Почему стоит обратить внимание на эту статью: Томас - один из авторов word2vec, подхода, который перевернул мир NLP в 2013-м (42k цитирований), а за свою научную карьеру собрал уже более 100k цитирований.

Сравним: Yann LeCun, лаурет премии Тьюринга за нашумевшие нейронки, имеет 3 статьи с количеством цитирований более 10k. Один из ведущих ученых по рекомендательным системам, Joe Konstan, - всего одну и до 100k публикаций еще не добрался.

Структура статьи:
* Large Language Models
* How LLMs are built
* How LLMs are used and augmented
* Popular datasets for LLMs
* Prominent LLMs’ performance on benchmarks
* Challenges and future directions

Налетай, торопись, покупай изучай живопись! (классика жанра)

Выделен еще один автор, why? 🤔

За лайк и репост в карму плюс 🤗

#study #work
4🔥2
🎂 Волшебному змию автоматизации интернета 33 годика

❗️Языку разработки Python стукнуло 33 года (см. Wikipedia). Чуть не пропустили, благо подсказал товарищ на LinkedIn.

Я обожаю Python. Поэтому только из тех репозитариев компании, которые у меня под рукой (рабочие проекты после обновления ноута), более 50k строк кода на Python:
workspace$ find . -name "*.py" | xargs wc -l | tail -1
52036 total


Давайте в комментариях каждый поделится своим уровнем питонячести и репозиторием Python, который он любит. У нас, как вы можете догадаться, довольно много NDA, поэтому я могу поделиться только учебным курсом по Python на GitHub: https://github.com/big-data-team/python-course

А по ссылке выше (LinkedIn) товарищ делится крутым репозиторием по LLM авторства Андрея Карпатого.

Лайки и репосты - как всегда приветствуются 😉

#study #work
5🔥4
📚 Классы и ООП, полезные материалы

Было несколько запросов в фидбеках на полезные материалы по классам и ООП. Мы проводим занятие по ООП в рамках подготовительного курса Python для анализа [больших] данных, Py4BDA
🗓
23.09.2024 - 16.12.2024, полное описание

Для тех, кто желает прокачаться прямо сейчас (не дожидаясь сентября), мы подготовили список ресурсов, с учетом специфики Python и разного уровня подготовки.

🟢 beginner level
- Классы в Python
- Про ООП от Real Python

🟡 intermediate level
- Спецификация @property
- Управление доступа к атрибутам с помощью @property
- Спецификация Python: Data model
- Python's Mutable vs Immutable Types: What's the Difference?

🔴 advanced level
- Python Descriptors: An Introduction
- Descriptor HowTo Guide

Лайфхаки:
- Перегрузка функций (подсказки типов данных в IDE)

Спасибо за вопросы и удачного погружения в тематику. Если полезно, то сохрани на память, поставь 🔥 и перешли коллегам.

BigData Team: the way you learn best
#work #study
🔥8👍3
🌈 Гало - почти как радуга, но круче

Как вы можете помнить, мы любим задавать интересные (и иногда каверзные) вопросы слушателям. На орг. встрече курса промышленной разработки на Python, мы решили обсудить природные явления. Одна из наиболее необычных находок - Гало.

Гало — оптическое явление в атмосфере, светящийся ореол вокруг источника света, возникающий вследствие преломления света в кристаллах льда при отрицательных температурах. Гало появляется вокруг Солнца, Луны и других источников света во время зимних морозов.


Идеальные условия для образования солнечных дуг - горы Антарктиды. Кто планирует экспедицию?

#life #красивое
6🔥1
📚 SDE Best Practices: поведение vs реализация

На курсе промышленной разработки на Python задают много крутых вопросов. Продолжаю делиться ответами на некоторые из них.

Вопрос: должен ли класс реализовывать метод __eq__?

Рекомендую взять в практику тезис:
следует тестировать поведение, а не реализацию


Рассмотрим реализацию класса Point с атрибутами x и y:
class Point:
def __init__(self, x, y):
self.x = x
self.y = y


Создадим объекты класса a и b:
a = Point(x=1, y=2)
b = Point(x=1, y=2)


Вопрос: как вы будете проверять, что объекты равны?

Логичный ответ:
a == b

// это была проверка поведения

Вы не будете проверять:
a.x == b.x and a.y == b.y

// это была бы проверка реализации

Тесты вашего приложения должны быть наполнены проверкой поведения, а не реализации. В этом случае код будет гораздо легче поддерживать и обновлять.

Вернемся к оригинальному вопросу: если не реализовать метод __eq__, то будут объекты a и b будут неравны. Почему? Какое поведение __eq__ по умолчанию?

#work #study
🔥43
😴 Плохие практики от руководителя инфраструктуры

Заряжаемся настроением на выходные. Лайки 🔥 и комментарии, приветствуются.

👉 прошлый выпуск

#meme
😁32🔥2❤‍🔥1
📊 Практический курс по Machine Learning, 25.03 — 09.06

Давненько... мы не проводили курсы по машинному обучению, не считая заказных курсов в формате tiger team. Я даже знаю тех, кто ждал этого запуска почти 2 года 💪

Чтобы не растекаться мысью по древу ("зачем оно вам"), приложу ссылкой описание курса и целей обучения. Чуть ниже - фидбек одного из выпускников:
Курс был интересным и плодотворным и мне очень понравилось. Круглосуточная поддержка со стороны преподавателей и ассистентов действительно помогла. Мне было очень приятно видеть, как работники и менеджеры(однокурсников) задают вопросы, которые направлены на применения полученных знаний к реальным задачам.


🚀 cтарт через 2 недели
🔥 осталось 6 мест
🗓 календарь обучения на 2024

Чтобы мы продолжили заниматься обучением, а не рекламой, буду премного благодарен поддержке и репостам.

 #work #study
🔥7
🔥 Big Data, совсем скоро

⚡️ эффективная обработка больших данных
🤘 практические задания на реальном кластере
👉 запись

Наборы 2024:
🗓 25 марта - еще 5 мест 4 места 🔥
🗓 старт 26.08 - 18 мест

Можно проходить по частям:
1️⃣ HDFS, Map Reduce, Hive
2️⃣ Spark: from zero to hero
3️⃣ RT, NoSQL, Data Layout

Пример отзыва с последнего запуска:
Спасибо за курс! Узнал много чего нового. До обучения термин Big Data для меня был чем-то призрачным и непонятным. После курса не только понял что это такое, но и как это готовится. Общее впечатление по всему курсу очень положительное. Успехов Вам в работе/обучении/популяризации биг даты!


Не уверены, подходит ли вам обучение? Пример видео из курса, чтобы познакомиться с форматом обучения, глубиной содержания и легкостью донесения информации:
▶️ Видео с курса Практический курс по Big Data (5 мин)

На всякий случай:
🗓 полный календарь обучений на 2024

Будем благодарны вашей поддержке: делитесь с друзьями и коллегами, записывайтесь на курс и ставьте лайки.

#work #study
🔥6
❤️‍🔥 Мое хобби - собирать крутые команды

Представляю вам звездный состав для проведения лучшего курса по ML. Если писать регалии каждого человека, то возможностей одного сообщения телеграм точно не хватит, поэтому коротко:

🇷🇺 Александр Климов, ML Engineer at eBay
🇰🇿 Алексей Драль, CEO at BigData Team
🇷🇺 Дмитрий Игнатов, Head of MMCP Science Lab at HSE
🇩🇪 Илья Бойцов, Deep Learning Lead at Wayfair
🇩🇪 Илья Сенаторов, PhD at University of Saarland
🇪🇸 Кирилл Власов, Team Lead at Catboost
🇬🇧 Эмели Драль, CTO at Evidently.AI

Кому как не Эмели рассказать про метрики качества и их связь с бизнесом. Кому как не Кириллу рассказать как лучше бустить стекинги и стекать бустинги. Кому как не Илье Б и Илье С погрузить в мир научного и практического NN? Кто как не Дима расскажет сложную математику без косяков и на понятных примерах? А ваш покорный слуга (Алексей) и Саша научат лучшим практикам (чего-угодно)-ops (включая MLOps) и проведут обзор по Big Data.

🫶 пошарить
👉 записаться до 25.03

#work #study
🔥8
😅 Шкала прожарки IT специалистов

А какой прожарки разработчики в вашей компании?

Заряжаемся настроением на выходные. Лайки 🔥 и комментарии, приветствуются.

👉 прошлые находки от руководителя инфраструктуры

#meme
😁5🔥31
🤔 Big Data или ML? Что выбрать?

Для слушателей курса Big Data / Machine Learning Engineer (BDMLE) месяц назад наметилась развилка: больше погружаться в Big Data (BD) или Machine Learning (ML)?

Посовещались и решили с вами тоже поделиться лакмусовой бумажкой и информацией по стеку технологий. Надеемся, это знание упростит ваш выбор в преддверии нового раунда Tech Orda.

📜 лакмусовая бумажка: если вы любите больше программировать, чем выводить формулы и считать интегралы, то вам больше подойдет Big Data. В противном случае - ML.

Стек

Big Data: HDFS, Hadoop, Hive, Spark, Kafka + Spark Structured Streaming, NoSQL (Cassandra), Data Layout (Parquet, ORC, compression), плюшки Hadoop 3+.

Machine Learning (основные): numpy, scipy, pandas, sklearn, pytorch, xgboost / lightgbm / catboost.

Вы бы что выбрали?
🐳 Big Data
⚡️ Machine Learning
❤️‍🔥 BD + ML, взболтать, но не смешивать

photo: Артем

#work #study
❤‍🔥72👍2🐳21
Математика для ML

Наши выпускники подготовили списки базовых терминов, которые следует изучить (или вспомнить), прежде чем погружаться в мир Machine Learning.

1️⃣ Базовые понятия

* Предел и производная
* Геометрический смысл производной
* Операции в векторных пространствах
* Матричные операции
* Системы линейных уравнений
* Градиент, применение градиента, градиентный спуск
* Теория вероятностей и статистика:
— Случайная величина и вероятность
— Математическое ожидание и дисперсия (дискретный и непрерывный случаи)
— Среднеквадратическое отклонение

2️⃣ Полезные понятия

* Производная сложной функции
* Нахождение экстремума
* Вторая производная и выпуклость
* Линейная независимость
* Ранг и определитель
* Доверительные интервалы

Идеально знать все, иначе ряд утверждений при выводе алгоритмов ML нужно будет принимать (как аксиомы) на веру.

Action items
1️⃣ Сохранить чек-лист для подготовки
2️⃣ Поставить нам лайк для мотивации подготовки списка литературы 📚

#work #study
14👏4
▶️ Кажется, что кого-то не хватает

Просьба помочь ;)

https://www.youtube.com/c/BigDataTeam

#work #study
8
❣️ про open source лицензии на понятном

Посвящается всем тем, кто не понимает разницу между open source лицензиями и не знает правила по их использованию в коммерческих продуктах.

Не благодарите... Хотя нет, поблагодарите лайками 😊

#work #meme
8😁7
🧑‍💻Production-ready customer feedback LLM

Мы уже рассказывали про нашу звездную команду практического курса по Machine Learning. Беспрецедентная акция: на этой неделе, одного инструктора можно будет послушать онлайн (на английском языке) совершенно бесплатно в рамках семинара по LLM.

Из первых уст:
У нас много Deep Learning моделей в продакшене, их тяжело поддерживать и развивать. Появилась идея построить консолидированную адаптированную под наш домен LLM систему, которая позволит заменить несколько моделей сразу (а заодно и улучшит качество). Фокус доклада будет на подходах к оценке качества системы.

🇩🇪 Илья Бойцов, Deep Learning Lead at Wayfair

План действий:
👉 зарегистрироваться по ссылке
🔂 поделиться с друзьями
🫶 подписать друзей на канал

Кто уже знаком с основами Machine Learning и хочет погрузиться непосредственно в работу с нейронными сетями, то еще можно записаться 2-ю часть курса, которая начнется на неделе 29-го апреля

#work #study
👍3🔥31
💝 Истории замечательных людей, Руслан

Я обещал делиться замечательными историями пару раз в год. В связи с рабочей нагрузкой, пока успеваю только один раз. Но следующее событие, я пропустить не мог (см. Leaderboard ниже).

22 июля 2022-го года в нашем сообществе появился Руслан. Чтобы стать членом сообщества, он, как и полагается, прошел курс по Big Data на отлично (мы называем таких "самородками").

Руслан, можно сказать, ворвался в мир Big Data: в том же месяце Руслан, прошел свою первую стажировку по направлению Data Engineer (DE) и получил оффер от VK 🔥
Из личного архива переписки:
Добрый день. Хочу еще раз сказать спасибо за курс! Благодаря ему смог пройти стажировку в ***... и получить оффер от ВК. Сегодня подписал документы. Еще раз спасибо!


Что мы имеем пару лет спустя:
⬇️ продолжение ⬇️

#life #work
5
⬆️ начало ⬆️

Что мы имеем пару лет спустя: Руслан второй год прокачивает скилы DE уже в индустрии (и уже не в VK ;)), решает олимпиадные задачи по программированию и помогает другим учиться писать качественный код для эффективной обработки больших массивов информации.

На этой неделе, он добрался до второй строчки нашего международного менторского Leaderboard (по метрике числа данных ответов слушателям или, как мы считаем, объему добавленного счастья на ученика):

🥇🇷🇺 Andrey Simkin 317
🥈🇷🇺 Ruslan Khalikov 230
🥉🇬🇪 Evgeny Adishchev 219
🇷🇺 Dmitriy Rychagov 155
🇬🇪 (hidden)
🇷🇸 (hidden)
🇬🇪 (hidden)
🇷🇺 Nikolay Popov 128
🇷🇺 Svetlana Skorikova 117
🇷🇺 (hidden)
🇺🇸 Thomas Hunt 98
🇷🇺 (hidden)
🇷🇺 (hidden)
🇵🇹 Rodrigo Santos 86
🇷🇺 (hidden)
🇷🇺 Oleg Ivchenko 68
🇷🇺 (hidden)
🇷🇺 (hidden)
🇷🇺 Bogdan Pechenkin 52
🇷🇺 (hidden)
🇷🇺 (hidden)
🇰🇿 (hidden)
🇷🇺 (hidden)
🇷🇺 (hidden)
🇾🇪 Guido Diepen 31
🇷🇺 (hidden)
🇷🇺 (hidden)
🇲🇰 Kirill Cvetkov, 21

Как вы можете видеть, география членов сообщества пополняется с каждым годом, а объем экспертизы просто улетаем в космос 🚀. Приведу пример: с участием членов нашего сообщества в прошлом году мы закрыли проект по разработке архитектуры для крупного телеком оператора. Если у вас есть запрос на экспертизу в Data-сфере (DS/DE), есть предложения для стажировок или проектной деятельности - смело пишите (точно кого-нибудь или что-нибудь порекомендуем).

P.S. Накидайте Руслану лайков ❤️

#life #work
9
❣️Введение в ML от Hastie и Tibshirani теперь на Python

Картинка для привлечения внимания
⬇️ пояснение ⬇️

#study
🔥51👍1
❣️Введение в ML от Hastie и Tibshirani теперь на Python

Когда меня спрашивают про лучший фундаментальный труд по машинному обучению, я рекомендую книгу:
📚 The Elements of Statistical Learning (ESL)
— by Jerome H. Friedman, Robert Tibshirani and Trevor Hastie
site + free downloads

Книжка не из простых, если не пролистать, а честно осознать всю математику и прорешать задачи по теории. Она того стоит: когда я работал в Amazon, в матрице компетенций на роль Senior+ DS эта книжка значилась в списке обязательных.

Лайфхак: прежде чем залезать в дебри математики (книга ESL), можно познакомиться с ML на экспериментах, на более простых, но в то же время практических задачах. Эти же пионеры ML (отгадайте по названию, кто придумал лассо Тибширани 🤔) подготовили книгу:
📚 An Introduction to Statistical Learning (ISL)

Раньше она была доступна только для языка программирования R. Да, это не опечатка, это развитие языка S и ваш покорный слуга, в 2011-м параллелил Generalized Boosted Regression Models (gbm) на R с помощью MapReduce поверх FreeBSD 🔥

Сегодня я увидел, что авторы, оказывается, выпустили в 2023 релиз книги
— with Applications in Python
site + free downloads

Если вам и этого покажется мало, то прежде чем погружаться в мир ESL, можно изучить стенфордский онлайн-курс, доступный бесплатно по регистрации (без смс) на платформе edX (тут и тут). Это что-то среднее между книгой ISL и ESL, поскольку сочетает и практические эксперименты и некоторые теоретические задачи.

Лайк, репост и free downloads 🫶
Налетай!

#study
🔥12👍21
🤖 AI Learns to Walk

Бесконечно можно смотреть на три вещи: как горит огонь, как течет вода и как обучаются модели машинного обучения.

▶️ наглядно (и смешно) про Deep Reinforcement Learning
🕐 8.5 минут

Какой ваш любимый момент или что вы узнали про реальность обучения моделей ML?

#study
11