Data Secrets
77.4K subscribers
6.05K photos
593 videos
20 files
2.43K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Open AI закрывает сервис, выявляющий сгенерированные ИИ тексты, из-за большого количества ошибок, но есть альтернатива

Классификатор от Open AI правильно идентифицировал всего 26% написанного ИИ текста (true positive), в то время как текст, написанный человеком, неправильно помечал как написанный ИИ в 9% случаев (false positive). Для такого сервиса это очень большие проценты проколов, поэтому пока его закрывают.

Тем временем на сцену выходит более надежный инструмент – специальный интернет-протокол от Microsoft, Intel и Adobe. Он работает путем кодирования информации о происхождении с помощью набора хэшей, которые криптографически привязываются к каждому пикселю или символу. Подробнее можно прочитать о нем в статье от MIT.

😻 #news
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯156👍2🗿1
Готовый колаб для файнтюнинга LLaMA-2

На просторах GitHub нашли Google Colab ноутбук, в котором есть весь необходимый код для запуска и файнтюнинга LLaMA-2. Что в нем происходит с технической точки зрения:

– загружаем данные
– настраиваем BitsAndBytesConfig, чтобы VRAM не взорвалась
– загружаем саму Llama 2 на GPU с соответствующим токенизатором
– добавляем parameter-efficient fine-tuning с помощью конфигураций QLoRA (опять же, чтобы поберечь память)
– далее обучаем и вуаля, модель готова к использованию (пример промптинга также есть в коде)

Отличная отправная точка, если вы хотели поработать с LLaMA-2 в своем проекте. Рекомендуем!

😻 #python
Please open Telegram to view this post
VIEW IN TELEGRAM
👍40🔥101
На какой ты стороне?

😻 #memes
Please open Telegram to view this post
VIEW IN TELEGRAM
64👍25🌚7💅5😐3🤯1
Собрали весь самый полезный контент по DS с митапов X5 Tech за 2023 год:

PySpark Pipeline в помощь аналитикам больших данных для построения качественных ETL-процессов (+ презентация)

Propensity Score: как оценить эффект без стандартных A/B-тестов (+ презентация)

SLOVO: датасет русского жестового языка. Мотивация, проблемы и применения (+ презентация)

– X5 Customer Analytics Meetup про клиентскую аналитику (+ презентации спикеров)

X5 Data Science Meetup о том, чем занимаются математики в ритейле, про адаптацию ML-моделей под изменение поведения пользователя на примере умной колонки и многое другое (+ презентации спикеров)

Как адаптировать ML-модель под изменение поведения пользователя и повысить качество на примере умной колонки SberBoom (+ презентация)

Как мы освободили сотрудников от классификации обращений на 1000+ классов (+ презентация)

К сожалению, не реклама. X5 Tech, ждем...

😻 #advice
Please open Telegram to view this post
VIEW IN TELEGRAM
👍24🔥84🤯1🤨1
Мы рады представить вам бесплатный курс «Автоматическое машинное обучение с помощью LightAutoML».

LightAutoML — это передовой фреймворк для автоматического построения моделей машинного обучения, разработанный специалистами Sber AI Lab.

Серия коротких лекций и семинаров позволит вам познакомиться с функционалом библиотеки и сразу же начать практическое применение полученных знаний для создания высокоэффективных моделей.

Вы познакомитесь с различными модулями LightAutoML, включая автоматический выбор моделей, предварительную обработку данных, оптимизацию гиперпараметров и построение ансамблей моделей для решения широкого спектра задач машинного обучения.

Приглашаем вас присоединиться к курсу по LightAutoML и погрузиться в мир автоматизированного машинного обучения прямо сейчас!

🔹 Курс «Автоматическое машинное обучение с помощью LightAutoML»

🔹 LightAutoML на GitHub

Реклама. Публичное акционерное общество «Сбербанк России», ПАО Сбербанк ИНН 7707083893
👍17🤪6👏2
Традиционно разминаемся на задачках по теории вероятностей перед новой рабочей неделей

На этот раз задача про шары. Разбор завтра, а пока ждем специалистов по теорверу в комментариях

😻 #задачи
Please open Telegram to view this post
VIEW IN TELEGRAM
👍25🤯2
Media is too big
VIEW IN TELEGRAM
В Google Deepmind представили модель RT-2 для робототехники

Это модель Vision-Language-Action, обученная на огромном количестве картинок и текстов. Идея такой архитектуры состоит в том, что большие языковые модели можно перекалибровать так, чтобы они могли управлять действиями робота. Действительно, ведь трансформеры на выходе могут выдавать любые последовательности, и в том числе последовательности команд. Главное – разметка данных для обучения.

Оказалось, что такая модель хорошо генерализуется. Связано это, скорее всего, с тем, что кроме сухих движений робосуставами она хорошо «понимает» внешний мир, начитавшись текстов о нем во время обучения. В этом плюс использования в робототехнике LLM: они наделяют робота не только умением двигаться, но и умением «рассуждать», как это делать и понимать сущность действия.

📖 Статья | 👩‍💻 Демо | ⚙️Блогпост

😻 #news
Please open Telegram to view this post
VIEW IN TELEGRAM
👍254🤯3🔥1
Data Secrets
Традиционно разминаемся на задачках по теории вероятностей перед новой рабочей неделей На этот раз задача про шары. Разбор завтра, а пока ждем специалистов по теорверу в комментариях 😻 #задачи
Разбор задачи про зеленые и красные шары

Вчера мы опубликовали задачу по теории вероятностей. И снова в комментариях нашлись те, кто был близок к ответу! А сегодня мы показываем наше решение и объясняем его на пальцах. Ну, как вам задача?

😻 #задачи
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍45😨12🔥4🤯3🤔1
Непопулярный способ подготовки к собеседованиям: читлисты

Чаще всего перед DS-собеседованием нет смысла глубоко погружаться в теорию: нужно успеть быстро и концентрированно пробежаться по темам, в которых и так уже неплохо разбираешься, и порешать задачи. Для решения задач подойдут LeetCode (программирование), задачники (линал, cтатистика и прочая математика), SQLIsland и прочее. А вот как бегло повторить теорию, не закапываясь в подробности?

Учебники на такой случай не подойдут – слишком много деталей и нереальный объем. А вот читлисты из-за своей краткости и структуры станут лучшим решением. Например, открываем чит-лист по Git, пробегаемся глазами, если натыкаемся на что-то, что помним плохо – гуглим, читаем, разбираемся. И так далее. Это позволит ничего не пропустить, и закрыть пробелы именно там, где это необходимо, а не тыкать пальцем в небо.

Вам в помощь мы собрали суперсет необходимых чит-листов для подготовки к DS собеседованию: Jupyter Notebooks, R basics for data science, Python (for beginners), NumPy, Pandas, Matplotlib, Seaborn, Machine Learning Technical, Stats and ML compact, Classical ML algorithms, Scikit-learn, Keras, SQL basics, Git.

Не забудьте сохранить и удачи вам на собеседованиях!

😻 #advice
Please open Telegram to view this post
VIEW IN TELEGRAM
👍83🔥26🐳5
Stability AI выпустили новую Stable Diffusion XL 1.0

Разрабочики обещают, что по сравнению с SDXL 0.9 версия 0.1 требует меньших вычислительных ресурсов и обеспечивает более высокое качество изображений. Обещают также, что в 1.0 улучшено качество генераций текста.

При этом, по сравнению с 0.9 версией, архитектура модели не поменялась, изменились лишь данные для обучения. Кстати, они все еще включают работы художников, протестовавших против использования их работ.

Код и веса | ClipDrop, чтобы поиграться

😻 #news
Please open Telegram to view this post
VIEW IN TELEGRAM
🤩13👍4
​​Почему датасаентисты тоже разработчики

Ещё в 2018 году работодатели требовали от DS-специалистов основы математики, теорию ML/DL, git и базовые знания python. Теперь даже для джунов к этому списку прибавляются Docker, FastAPI, k8s/ansible, CI/CD и прочие термины из Dev и Ops.

Чтобы соответствовать рынку, необходимо постоянно учиться и изучать смежные области. Но надо с чего-то начать. Можно начать с приведения в порядок репозиториев с экспериментами. Ребята с канала DeepSchool проводят бесплатную лекцию, где расскажут об этом подробнее.

На онлайн-лекции обсудят:
🔹почему датасаентисты тоже разработчики
🔹требования к DL-инженеру на рынке в 2023 году и почему они растут
🔹что изменить в экспериментах, чтобы приблизиться к соответствию этим требованиям
🔹какие шаги нужно предпринять и какие инструменты использовать, чтобы сделать эксперименты воспроизводимыми, прозрачными и доступными для команды
🔹и представят курс CV Rocket, а также подарят скидки на обучение и список полезных библиотек для CV инженера

Лекцию будут вести:
- Тимур Фатыхов — один из основателей школы DeepSchool, ex Lead CV Engineer KoronaPay
- Андрей Шадриков — Head of R&D в компании Verigram, команда которого занимает топовые позиции в независимых тестах биометрических систем

🗓 Лекция пройдет в четверг 3 августа в 18:00 Мск

🎁 При регистрации по ссылке в боте вы получите доступ к одной из лекций курса CV Rocket с разбором сверточных архитектур от VGG до Effnet. Лекция освежит в памяти основные открытия в сверточных архитектурах, поможет подготовиться к собеседованиям или улучшить свои модели!

Регистрируйтесь на лекцию в боте, чтобы повышать свои навыки в CV!
👍13🤯9🤨43
Зачем нам энтропия и как считать information gain

Сегодня речь пойдет о деревьях решений. Этот алгоритм строится на базе двух понятий – энтропии и прироста информации. Разберемся, что это такое, и на примере рассмотрим, как благодаря этим сущностям из данных строятся деревья решений.

😻 #train
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍39🔥7😐1