Data Secrets

Что почитать на выходных: три книги с полок наших редакторов

Мы провели внутреннее расследование и путем анализа биг-даты выяснили, какие DS-книги стоят на полках наших редакторов. Вот три из них. Читали?

😻

#advice

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤36🤯6❤‍🔥4😨4👍3🔥2⚡1🐳1

5.49K views11:08

Data Secrets

😻

Превращаем комментарии в книжный клуб

Рассказывайте о технических книгах, которые читали: какая была самой полезной, какая самой интересной, а какая разочаровала? А может быть у вас есть любимая статья?

Please open Telegram to view this post

VIEW IN TELEGRAM

👍21🔥5⚡3

4.98K views16:04

Data Secrets

Open AI закрывает сервис, выявляющий сгенерированные ИИ тексты, из-за большого количества ошибок, но есть альтернатива

Классификатор от Open AI правильно идентифицировал всего 26% написанного ИИ текста (true positive), в то время как текст, написанный человеком, неправильно помечал как написанный ИИ в 9% случаев (false positive). Для такого сервиса это очень большие проценты проколов, поэтому пока его закрывают.

Тем временем на сцену выходит более надежный инструмент – специальный интернет-протокол от Microsoft, Intel и Adobe. Он работает путем кодирования информации о происхождении с помощью набора хэшей, которые криптографически привязываются к каждому пикселю или символу. Подробнее можно прочитать о нем в статье от MIT.

😻

#news

Please open Telegram to view this post

VIEW IN TELEGRAM

🤯15❤6👍2🗿1

5.08K views08:21

Data Secrets

Готовый колаб для файнтюнинга LLaMA-2

На просторах GitHub нашли Google Colab ноутбук, в котором есть весь необходимый код для запуска и файнтюнинга LLaMA-2. Что в нем происходит с технической точки зрения:

– загружаем данные
– настраиваем BitsAndBytesConfig, чтобы VRAM не взорвалась
– загружаем саму Llama 2 на GPU с соответствующим токенизатором
– добавляем parameter-efficient fine-tuning с помощью конфигураций QLoRA (опять же, чтобы поберечь память)
– далее обучаем и вуаля, модель готова к использованию (пример промптинга также есть в коде)

Отличная отправная точка, если вы хотели поработать с LLaMA-2 в своем проекте. Рекомендуем!

😻

#python

Please open Telegram to view this post

VIEW IN TELEGRAM

👍40🔥10❤1

6.31K views15:39

Data Secrets

На какой ты стороне?

😻

#memes

Please open Telegram to view this post

VIEW IN TELEGRAM

❤64👍25🌚7💅5😐3🤯1

4.94K views07:46

Data Secrets

Собрали весь самый полезный контент по DS с митапов X5 Tech за 2023 год:

– PySpark Pipeline в помощь аналитикам больших данных для построения качественных ETL-процессов (+ презентация)

– Propensity Score: как оценить эффект без стандартных A/B-тестов (+ презентация)

– SLOVO: датасет русского жестового языка. Мотивация, проблемы и применения (+ презентация)

– X5 Customer Analytics Meetup про клиентскую аналитику (+ презентации спикеров)

– X5 Data Science Meetup о том, чем занимаются математики в ритейле, про адаптацию ML-моделей под изменение поведения пользователя на примере умной колонки и многое другое (+ презентации спикеров)

– Как адаптировать ML-модель под изменение поведения пользователя и повысить качество на примере умной колонки SberBoom (+ презентация)

– Как мы освободили сотрудников от классификации обращений на 1000+ классов (+ презентация)

К сожалению, не реклама. X5 Tech, ждем...

😻

#advice

Please open Telegram to view this post

VIEW IN TELEGRAM

👍24🔥8❤4🤯1🤨1

5.66K views11:12

Data Secrets

Мы рады представить вам бесплатный курс «Автоматическое машинное обучение с помощью LightAutoML».

LightAutoML — это передовой фреймворк для автоматического построения моделей машинного обучения, разработанный специалистами Sber AI Lab.

Серия коротких лекций и семинаров позволит вам познакомиться с функционалом библиотеки и сразу же начать практическое применение полученных знаний для создания высокоэффективных моделей.

Вы познакомитесь с различными модулями LightAutoML, включая автоматический выбор моделей, предварительную обработку данных, оптимизацию гиперпараметров и построение ансамблей моделей для решения широкого спектра задач машинного обучения.

Приглашаем вас присоединиться к курсу по LightAutoML и погрузиться в мир автоматизированного машинного обучения прямо сейчас!

🔹 Курс «Автоматическое машинное обучение с помощью LightAutoML»

🔹 LightAutoML на GitHub

Реклама. Публичное акционерное общество «Сбербанк России», ПАО Сбербанк ИНН 7707083893

👍17🤪6👏2

5.77K views16:09

Data Secrets

Традиционно разминаемся на задачках по теории вероятностей перед новой рабочей неделей

На этот раз задача про шары. Разбор завтра, а пока ждем специалистов по теорверу в комментариях⏬

😻

#задачи

Please open Telegram to view this post

VIEW IN TELEGRAM

👍25🤯2

4.83K views17:19

В Google Deepmind представили модель RT-2 для робототехники

Это модель Vision-Language-Action, обученная на огромном количестве картинок и текстов. Идея такой архитектуры состоит в том, что большие языковые модели можно перекалибровать так, чтобы они могли управлять действиями робота. Действительно, ведь трансформеры на выходе могут выдавать любые последовательности, и в том числе последовательности команд. Главное – разметка данных для обучения.

Оказалось, что такая модель хорошо генерализуется. Связано это, скорее всего, с тем, что кроме сухих движений робосуставами она хорошо «понимает» внешний мир, начитавшись текстов о нем во время обучения. В этом плюс использования в робототехнике LLM: они наделяют робота не только умением двигаться, но и умением «рассуждать», как это делать и понимать сущность действия.

📖

Статья | 👩‍💻 Демо | ⚙️Блогпост

😻

#news

Please open Telegram to view this post

VIEW IN TELEGRAM

👍25❤4🤯3🔥1

5.15K views08:57

Data Secrets

Традиционно разминаемся на задачках по теории вероятностей перед новой рабочей неделей На этот раз задача про шары. Разбор завтра, а пока ждем специалистов по теорверу в комментариях⏬ 😻 #задачи

Разбор задачи про зеленые и красные шары

Вчера мы опубликовали задачу по теории вероятностей. И снова в комментариях нашлись те, кто был близок к ответу! А сегодня мы показываем наше решение и объясняем его на пальцах. Ну, как вам задача?

😻

#задачи

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍45😨12🔥4🤯3🤔1

5.11K views12:03

Data Secrets

Непопулярный способ подготовки к собеседованиям: читлисты

Чаще всего перед DS-собеседованием нет смысла глубоко погружаться в теорию: нужно успеть быстро и концентрированно пробежаться по темам, в которых и так уже неплохо разбираешься, и порешать задачи. Для решения задач подойдут LeetCode (программирование), задачники (линал, cтатистика и прочая математика), SQLIsland и прочее. А вот как бегло повторить теорию, не закапываясь в подробности?

Учебники на такой случай не подойдут – слишком много деталей и нереальный объем. А вот читлисты из-за своей краткости и структуры станут лучшим решением. Например, открываем чит-лист по Git, пробегаемся глазами, если натыкаемся на что-то, что помним плохо – гуглим, читаем, разбираемся. И так далее. Это позволит ничего не пропустить, и закрыть пробелы именно там, где это необходимо, а не тыкать пальцем в небо.

Вам в помощь мы собрали суперсет необходимых чит-листов для подготовки к DS собеседованию: Jupyter Notebooks, R basics for data science, Python (for beginners), NumPy, Pandas, Matplotlib, Seaborn, Machine Learning Technical, Stats and ML compact, Classical ML algorithms, Scikit-learn, Keras, SQL basics, Git.

Не забудьте сохранить и удачи вам на собеседованиях!

😻

#advice

Please open Telegram to view this post

VIEW IN TELEGRAM

👍83🔥26🐳5

8.49K views15:37

About

Blog

Apps

Platform