Что почитать на выходных: три книги с полок наших редакторов
Мы провели внутреннее расследование и путем анализа биг-даты выяснили, какие DS-книги стоят на полках наших редакторов. Вот три из них. Читали?
😻 #advice
Мы провели внутреннее расследование и путем анализа биг-даты выяснили, какие DS-книги стоят на полках наших редакторов. Вот три из них. Читали?
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤36🤯6❤🔥4😨4👍3🔥2⚡1🐳1
Рассказывайте о технических книгах, которые читали: какая была самой полезной, какая самой интересной, а какая разочаровала? А может быть у вас есть любимая статья?
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21🔥5⚡3
Open AI закрывает сервис, выявляющий сгенерированные ИИ тексты, из-за большого количества ошибок, но есть альтернатива
Классификатор от Open AI правильно идентифицировал всего 26% написанного ИИ текста (true positive), в то время как текст, написанный человеком, неправильно помечал как написанный ИИ в 9% случаев (false positive). Для такого сервиса это очень большие проценты проколов, поэтому пока его закрывают.
Тем временем на сцену выходит более надежный инструмент – специальный интернет-протокол от Microsoft, Intel и Adobe. Он работает путем кодирования информации о происхождении с помощью набора хэшей, которые криптографически привязываются к каждому пикселю или символу. Подробнее можно прочитать о нем в статье от MIT.
😻 #news
Классификатор от Open AI правильно идентифицировал всего 26% написанного ИИ текста (true positive), в то время как текст, написанный человеком, неправильно помечал как написанный ИИ в 9% случаев (false positive). Для такого сервиса это очень большие проценты проколов, поэтому пока его закрывают.
Тем временем на сцену выходит более надежный инструмент – специальный интернет-протокол от Microsoft, Intel и Adobe. Он работает путем кодирования информации о происхождении с помощью набора хэшей, которые криптографически привязываются к каждому пикселю или символу. Подробнее можно прочитать о нем в статье от MIT.
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯15❤6👍2🗿1
Готовый колаб для файнтюнинга LLaMA-2
На просторах GitHub нашли Google Colab ноутбук, в котором есть весь необходимый код для запуска и файнтюнинга LLaMA-2. Что в нем происходит с технической точки зрения:
– загружаем данные
– настраиваем BitsAndBytesConfig, чтобы VRAM не взорвалась
– загружаем саму Llama 2 на GPU с соответствующим токенизатором
– добавляем parameter-efficient fine-tuning с помощью конфигураций QLoRA (опять же, чтобы поберечь память)
– далее обучаем и вуаля, модель готова к использованию (пример промптинга также есть в коде)
Отличная отправная точка, если вы хотели поработать с LLaMA-2 в своем проекте. Рекомендуем!
😻 #python
На просторах GitHub нашли Google Colab ноутбук, в котором есть весь необходимый код для запуска и файнтюнинга LLaMA-2. Что в нем происходит с технической точки зрения:
– загружаем данные
– настраиваем BitsAndBytesConfig, чтобы VRAM не взорвалась
– загружаем саму Llama 2 на GPU с соответствующим токенизатором
– добавляем parameter-efficient fine-tuning с помощью конфигураций QLoRA (опять же, чтобы поберечь память)
– далее обучаем и вуаля, модель готова к использованию (пример промптинга также есть в коде)
Отличная отправная точка, если вы хотели поработать с LLaMA-2 в своем проекте. Рекомендуем!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍40🔥10❤1
Собрали весь самый полезный контент по DS с митапов X5 Tech за 2023 год:
– PySpark Pipeline в помощь аналитикам больших данных для построения качественных ETL-процессов (+ презентация)
– Propensity Score: как оценить эффект без стандартных A/B-тестов (+ презентация)
– SLOVO: датасет русского жестового языка. Мотивация, проблемы и применения (+ презентация)
– X5 Customer Analytics Meetup про клиентскую аналитику (+ презентации спикеров)
– X5 Data Science Meetup о том, чем занимаются математики в ритейле, про адаптацию ML-моделей под изменение поведения пользователя на примере умной колонки и многое другое (+ презентации спикеров)
– Как адаптировать ML-модель под изменение поведения пользователя и повысить качество на примере умной колонки SberBoom (+ презентация)
– Как мы освободили сотрудников от классификации обращений на 1000+ классов (+ презентация)
К сожалению, не реклама. X5 Tech, ждем...
😻 #advice
– PySpark Pipeline в помощь аналитикам больших данных для построения качественных ETL-процессов (+ презентация)
– Propensity Score: как оценить эффект без стандартных A/B-тестов (+ презентация)
– SLOVO: датасет русского жестового языка. Мотивация, проблемы и применения (+ презентация)
– X5 Customer Analytics Meetup про клиентскую аналитику (+ презентации спикеров)
– X5 Data Science Meetup о том, чем занимаются математики в ритейле, про адаптацию ML-моделей под изменение поведения пользователя на примере умной колонки и многое другое (+ презентации спикеров)
– Как адаптировать ML-модель под изменение поведения пользователя и повысить качество на примере умной колонки SberBoom (+ презентация)
– Как мы освободили сотрудников от классификации обращений на 1000+ классов (+ презентация)
К сожалению, не реклама. X5 Tech, ждем...
Please open Telegram to view this post
VIEW IN TELEGRAM
👍24🔥8❤4🤯1🤨1
Мы рады представить вам бесплатный курс «Автоматическое машинное обучение с помощью LightAutoML».
LightAutoML — это передовой фреймворк для автоматического построения моделей машинного обучения, разработанный специалистами Sber AI Lab.
Серия коротких лекций и семинаров позволит вам познакомиться с функционалом библиотеки и сразу же начать практическое применение полученных знаний для создания высокоэффективных моделей.
Вы познакомитесь с различными модулями LightAutoML, включая автоматический выбор моделей, предварительную обработку данных, оптимизацию гиперпараметров и построение ансамблей моделей для решения широкого спектра задач машинного обучения.
Приглашаем вас присоединиться к курсу по LightAutoML и погрузиться в мир автоматизированного машинного обучения прямо сейчас!
🔹 Курс «Автоматическое машинное обучение с помощью LightAutoML»
🔹 LightAutoML на GitHub
Реклама. Публичное акционерное общество «Сбербанк России», ПАО Сбербанк ИНН 7707083893
LightAutoML — это передовой фреймворк для автоматического построения моделей машинного обучения, разработанный специалистами Sber AI Lab.
Серия коротких лекций и семинаров позволит вам познакомиться с функционалом библиотеки и сразу же начать практическое применение полученных знаний для создания высокоэффективных моделей.
Вы познакомитесь с различными модулями LightAutoML, включая автоматический выбор моделей, предварительную обработку данных, оптимизацию гиперпараметров и построение ансамблей моделей для решения широкого спектра задач машинного обучения.
Приглашаем вас присоединиться к курсу по LightAutoML и погрузиться в мир автоматизированного машинного обучения прямо сейчас!
🔹 Курс «Автоматическое машинное обучение с помощью LightAutoML»
🔹 LightAutoML на GitHub
Реклама. Публичное акционерное общество «Сбербанк России», ПАО Сбербанк ИНН 7707083893
👍17🤪6👏2
Традиционно разминаемся на задачках по теории вероятностей перед новой рабочей неделей
На этот раз задача про шары. Разбор завтра, а пока ждем специалистов по теорверу в комментариях⏬
😻 #задачи
На этот раз задача про шары. Разбор завтра, а пока ждем специалистов по теорверу в комментариях
Please open Telegram to view this post
VIEW IN TELEGRAM
👍25🤯2
Media is too big
VIEW IN TELEGRAM
В Google Deepmind представили модель RT-2 для робототехники
Это модель Vision-Language-Action, обученная на огромном количестве картинок и текстов. Идея такой архитектуры состоит в том, что большие языковые модели можно перекалибровать так, чтобы они могли управлять действиями робота. Действительно, ведь трансформеры на выходе могут выдавать любые последовательности, и в том числе последовательности команд. Главное – разметка данных для обучения.
Оказалось, что такая модель хорошо генерализуется. Связано это, скорее всего, с тем, что кроме сухих движений робосуставами она хорошо «понимает» внешний мир, начитавшись текстов о нем во время обучения. В этом плюс использования в робототехнике LLM: они наделяют робота не только умением двигаться, но и умением «рассуждать», как это делать и понимать сущность действия.
📖 Статья | 👩💻 Демо | ⚙️Блогпост
😻 #news
Это модель Vision-Language-Action, обученная на огромном количестве картинок и текстов. Идея такой архитектуры состоит в том, что большие языковые модели можно перекалибровать так, чтобы они могли управлять действиями робота. Действительно, ведь трансформеры на выходе могут выдавать любые последовательности, и в том числе последовательности команд. Главное – разметка данных для обучения.
Оказалось, что такая модель хорошо генерализуется. Связано это, скорее всего, с тем, что кроме сухих движений робосуставами она хорошо «понимает» внешний мир, начитавшись текстов о нем во время обучения. В этом плюс использования в робототехнике LLM: они наделяют робота не только умением двигаться, но и умением «рассуждать», как это делать и понимать сущность действия.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍25❤4🤯3🔥1
Data Secrets
Традиционно разминаемся на задачках по теории вероятностей перед новой рабочей неделей На этот раз задача про шары. Разбор завтра, а пока ждем специалистов по теорверу в комментариях⏬ 😻 #задачи
Разбор задачи про зеленые и красные шары
Вчера мы опубликовали задачу по теории вероятностей. И снова в комментариях нашлись те, кто был близок к ответу! А сегодня мы показываем наше решение и объясняем его на пальцах. Ну, как вам задача?
😻 #задачи
Вчера мы опубликовали задачу по теории вероятностей. И снова в комментариях нашлись те, кто был близок к ответу! А сегодня мы показываем наше решение и объясняем его на пальцах. Ну, как вам задача?
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍45😨12🔥4🤯3🤔1
Непопулярный способ подготовки к собеседованиям: читлисты
Чаще всего перед DS-собеседованием нет смысла глубоко погружаться в теорию: нужно успеть быстро и концентрированно пробежаться по темам, в которых и так уже неплохо разбираешься, и порешать задачи. Для решения задач подойдут LeetCode (программирование), задачники (линал, cтатистика и прочая математика), SQLIsland и прочее. А вот как бегло повторить теорию, не закапываясь в подробности?
Учебники на такой случай не подойдут – слишком много деталей и нереальный объем. А вот читлисты из-за своей краткости и структуры станут лучшим решением. Например, открываем чит-лист по Git, пробегаемся глазами, если натыкаемся на что-то, что помним плохо – гуглим, читаем, разбираемся. И так далее. Это позволит ничего не пропустить, и закрыть пробелы именно там, где это необходимо, а не тыкать пальцем в небо.
Вам в помощь мы собрали суперсет необходимых чит-листов для подготовки к DS собеседованию: Jupyter Notebooks, R basics for data science, Python (for beginners), NumPy, Pandas, Matplotlib, Seaborn, Machine Learning Technical, Stats and ML compact, Classical ML algorithms, Scikit-learn, Keras, SQL basics, Git.
Не забудьте сохранить и удачи вам на собеседованиях!
😻 #advice
Чаще всего перед DS-собеседованием нет смысла глубоко погружаться в теорию: нужно успеть быстро и концентрированно пробежаться по темам, в которых и так уже неплохо разбираешься, и порешать задачи. Для решения задач подойдут LeetCode (программирование), задачники (линал, cтатистика и прочая математика), SQLIsland и прочее. А вот как бегло повторить теорию, не закапываясь в подробности?
Учебники на такой случай не подойдут – слишком много деталей и нереальный объем. А вот читлисты из-за своей краткости и структуры станут лучшим решением. Например, открываем чит-лист по Git, пробегаемся глазами, если натыкаемся на что-то, что помним плохо – гуглим, читаем, разбираемся. И так далее. Это позволит ничего не пропустить, и закрыть пробелы именно там, где это необходимо, а не тыкать пальцем в небо.
Вам в помощь мы собрали суперсет необходимых чит-листов для подготовки к DS собеседованию: Jupyter Notebooks, R basics for data science, Python (for beginners), NumPy, Pandas, Matplotlib, Seaborn, Machine Learning Technical, Stats and ML compact, Classical ML algorithms, Scikit-learn, Keras, SQL basics, Git.
Не забудьте сохранить и удачи вам на собеседованиях!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍83🔥26🐳5