Data Secrets
77.4K subscribers
6.04K photos
593 videos
20 files
2.43K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Что почитать на выходных: три книги с полок наших редакторов

Мы провели внутреннее расследование и путем анализа биг-даты выяснили, какие DS-книги стоят на полках наших редакторов. Вот три из них. Читали?

😻 #advice
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
36🤯6❤‍🔥4😨4👍3🔥21🐳1
😻 Превращаем комментарии в книжный клуб

Рассказывайте о технических книгах, которые читали: какая была самой полезной, какая самой интересной, а какая разочаровала? А может быть у вас есть любимая статья?
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21🔥53
Open AI закрывает сервис, выявляющий сгенерированные ИИ тексты, из-за большого количества ошибок, но есть альтернатива

Классификатор от Open AI правильно идентифицировал всего 26% написанного ИИ текста (true positive), в то время как текст, написанный человеком, неправильно помечал как написанный ИИ в 9% случаев (false positive). Для такого сервиса это очень большие проценты проколов, поэтому пока его закрывают.

Тем временем на сцену выходит более надежный инструмент – специальный интернет-протокол от Microsoft, Intel и Adobe. Он работает путем кодирования информации о происхождении с помощью набора хэшей, которые криптографически привязываются к каждому пикселю или символу. Подробнее можно прочитать о нем в статье от MIT.

😻 #news
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯156👍2🗿1
Готовый колаб для файнтюнинга LLaMA-2

На просторах GitHub нашли Google Colab ноутбук, в котором есть весь необходимый код для запуска и файнтюнинга LLaMA-2. Что в нем происходит с технической точки зрения:

– загружаем данные
– настраиваем BitsAndBytesConfig, чтобы VRAM не взорвалась
– загружаем саму Llama 2 на GPU с соответствующим токенизатором
– добавляем parameter-efficient fine-tuning с помощью конфигураций QLoRA (опять же, чтобы поберечь память)
– далее обучаем и вуаля, модель готова к использованию (пример промптинга также есть в коде)

Отличная отправная точка, если вы хотели поработать с LLaMA-2 в своем проекте. Рекомендуем!

😻 #python
Please open Telegram to view this post
VIEW IN TELEGRAM
👍40🔥101
На какой ты стороне?

😻 #memes
Please open Telegram to view this post
VIEW IN TELEGRAM
64👍25🌚7💅5😐3🤯1
Собрали весь самый полезный контент по DS с митапов X5 Tech за 2023 год:

PySpark Pipeline в помощь аналитикам больших данных для построения качественных ETL-процессов (+ презентация)

Propensity Score: как оценить эффект без стандартных A/B-тестов (+ презентация)

SLOVO: датасет русского жестового языка. Мотивация, проблемы и применения (+ презентация)

– X5 Customer Analytics Meetup про клиентскую аналитику (+ презентации спикеров)

X5 Data Science Meetup о том, чем занимаются математики в ритейле, про адаптацию ML-моделей под изменение поведения пользователя на примере умной колонки и многое другое (+ презентации спикеров)

Как адаптировать ML-модель под изменение поведения пользователя и повысить качество на примере умной колонки SberBoom (+ презентация)

Как мы освободили сотрудников от классификации обращений на 1000+ классов (+ презентация)

К сожалению, не реклама. X5 Tech, ждем...

😻 #advice
Please open Telegram to view this post
VIEW IN TELEGRAM
👍24🔥84🤯1🤨1
Мы рады представить вам бесплатный курс «Автоматическое машинное обучение с помощью LightAutoML».

LightAutoML — это передовой фреймворк для автоматического построения моделей машинного обучения, разработанный специалистами Sber AI Lab.

Серия коротких лекций и семинаров позволит вам познакомиться с функционалом библиотеки и сразу же начать практическое применение полученных знаний для создания высокоэффективных моделей.

Вы познакомитесь с различными модулями LightAutoML, включая автоматический выбор моделей, предварительную обработку данных, оптимизацию гиперпараметров и построение ансамблей моделей для решения широкого спектра задач машинного обучения.

Приглашаем вас присоединиться к курсу по LightAutoML и погрузиться в мир автоматизированного машинного обучения прямо сейчас!

🔹 Курс «Автоматическое машинное обучение с помощью LightAutoML»

🔹 LightAutoML на GitHub

Реклама. Публичное акционерное общество «Сбербанк России», ПАО Сбербанк ИНН 7707083893
👍17🤪6👏2
Традиционно разминаемся на задачках по теории вероятностей перед новой рабочей неделей

На этот раз задача про шары. Разбор завтра, а пока ждем специалистов по теорверу в комментариях

😻 #задачи
Please open Telegram to view this post
VIEW IN TELEGRAM
👍25🤯2
Media is too big
VIEW IN TELEGRAM
В Google Deepmind представили модель RT-2 для робототехники

Это модель Vision-Language-Action, обученная на огромном количестве картинок и текстов. Идея такой архитектуры состоит в том, что большие языковые модели можно перекалибровать так, чтобы они могли управлять действиями робота. Действительно, ведь трансформеры на выходе могут выдавать любые последовательности, и в том числе последовательности команд. Главное – разметка данных для обучения.

Оказалось, что такая модель хорошо генерализуется. Связано это, скорее всего, с тем, что кроме сухих движений робосуставами она хорошо «понимает» внешний мир, начитавшись текстов о нем во время обучения. В этом плюс использования в робототехнике LLM: они наделяют робота не только умением двигаться, но и умением «рассуждать», как это делать и понимать сущность действия.

📖 Статья | 👩‍💻 Демо | ⚙️Блогпост

😻 #news
Please open Telegram to view this post
VIEW IN TELEGRAM
👍254🤯3🔥1
Data Secrets
Традиционно разминаемся на задачках по теории вероятностей перед новой рабочей неделей На этот раз задача про шары. Разбор завтра, а пока ждем специалистов по теорверу в комментариях 😻 #задачи
Разбор задачи про зеленые и красные шары

Вчера мы опубликовали задачу по теории вероятностей. И снова в комментариях нашлись те, кто был близок к ответу! А сегодня мы показываем наше решение и объясняем его на пальцах. Ну, как вам задача?

😻 #задачи
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍45😨12🔥4🤯3🤔1
Непопулярный способ подготовки к собеседованиям: читлисты

Чаще всего перед DS-собеседованием нет смысла глубоко погружаться в теорию: нужно успеть быстро и концентрированно пробежаться по темам, в которых и так уже неплохо разбираешься, и порешать задачи. Для решения задач подойдут LeetCode (программирование), задачники (линал, cтатистика и прочая математика), SQLIsland и прочее. А вот как бегло повторить теорию, не закапываясь в подробности?

Учебники на такой случай не подойдут – слишком много деталей и нереальный объем. А вот читлисты из-за своей краткости и структуры станут лучшим решением. Например, открываем чит-лист по Git, пробегаемся глазами, если натыкаемся на что-то, что помним плохо – гуглим, читаем, разбираемся. И так далее. Это позволит ничего не пропустить, и закрыть пробелы именно там, где это необходимо, а не тыкать пальцем в небо.

Вам в помощь мы собрали суперсет необходимых чит-листов для подготовки к DS собеседованию: Jupyter Notebooks, R basics for data science, Python (for beginners), NumPy, Pandas, Matplotlib, Seaborn, Machine Learning Technical, Stats and ML compact, Classical ML algorithms, Scikit-learn, Keras, SQL basics, Git.

Не забудьте сохранить и удачи вам на собеседованиях!

😻 #advice
Please open Telegram to view this post
VIEW IN TELEGRAM
👍83🔥26🐳5