Open AI закрывает сервис, выявляющий сгенерированные ИИ тексты, из-за большого количества ошибок, но есть альтернатива
Классификатор от Open AI правильно идентифицировал всего 26% написанного ИИ текста (true positive), в то время как текст, написанный человеком, неправильно помечал как написанный ИИ в 9% случаев (false positive). Для такого сервиса это очень большие проценты проколов, поэтому пока его закрывают.
Тем временем на сцену выходит более надежный инструмент – специальный интернет-протокол от Microsoft, Intel и Adobe. Он работает путем кодирования информации о происхождении с помощью набора хэшей, которые криптографически привязываются к каждому пикселю или символу. Подробнее можно прочитать о нем в статье от MIT.
😻 #news
Классификатор от Open AI правильно идентифицировал всего 26% написанного ИИ текста (true positive), в то время как текст, написанный человеком, неправильно помечал как написанный ИИ в 9% случаев (false positive). Для такого сервиса это очень большие проценты проколов, поэтому пока его закрывают.
Тем временем на сцену выходит более надежный инструмент – специальный интернет-протокол от Microsoft, Intel и Adobe. Он работает путем кодирования информации о происхождении с помощью набора хэшей, которые криптографически привязываются к каждому пикселю или символу. Подробнее можно прочитать о нем в статье от MIT.
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯15❤6👍2🗿1
Готовый колаб для файнтюнинга LLaMA-2
На просторах GitHub нашли Google Colab ноутбук, в котором есть весь необходимый код для запуска и файнтюнинга LLaMA-2. Что в нем происходит с технической точки зрения:
– загружаем данные
– настраиваем BitsAndBytesConfig, чтобы VRAM не взорвалась
– загружаем саму Llama 2 на GPU с соответствующим токенизатором
– добавляем parameter-efficient fine-tuning с помощью конфигураций QLoRA (опять же, чтобы поберечь память)
– далее обучаем и вуаля, модель готова к использованию (пример промптинга также есть в коде)
Отличная отправная точка, если вы хотели поработать с LLaMA-2 в своем проекте. Рекомендуем!
😻 #python
На просторах GitHub нашли Google Colab ноутбук, в котором есть весь необходимый код для запуска и файнтюнинга LLaMA-2. Что в нем происходит с технической точки зрения:
– загружаем данные
– настраиваем BitsAndBytesConfig, чтобы VRAM не взорвалась
– загружаем саму Llama 2 на GPU с соответствующим токенизатором
– добавляем parameter-efficient fine-tuning с помощью конфигураций QLoRA (опять же, чтобы поберечь память)
– далее обучаем и вуаля, модель готова к использованию (пример промптинга также есть в коде)
Отличная отправная точка, если вы хотели поработать с LLaMA-2 в своем проекте. Рекомендуем!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍40🔥10❤1
Собрали весь самый полезный контент по DS с митапов X5 Tech за 2023 год:
– PySpark Pipeline в помощь аналитикам больших данных для построения качественных ETL-процессов (+ презентация)
– Propensity Score: как оценить эффект без стандартных A/B-тестов (+ презентация)
– SLOVO: датасет русского жестового языка. Мотивация, проблемы и применения (+ презентация)
– X5 Customer Analytics Meetup про клиентскую аналитику (+ презентации спикеров)
– X5 Data Science Meetup о том, чем занимаются математики в ритейле, про адаптацию ML-моделей под изменение поведения пользователя на примере умной колонки и многое другое (+ презентации спикеров)
– Как адаптировать ML-модель под изменение поведения пользователя и повысить качество на примере умной колонки SberBoom (+ презентация)
– Как мы освободили сотрудников от классификации обращений на 1000+ классов (+ презентация)
К сожалению, не реклама. X5 Tech, ждем...
😻 #advice
– PySpark Pipeline в помощь аналитикам больших данных для построения качественных ETL-процессов (+ презентация)
– Propensity Score: как оценить эффект без стандартных A/B-тестов (+ презентация)
– SLOVO: датасет русского жестового языка. Мотивация, проблемы и применения (+ презентация)
– X5 Customer Analytics Meetup про клиентскую аналитику (+ презентации спикеров)
– X5 Data Science Meetup о том, чем занимаются математики в ритейле, про адаптацию ML-моделей под изменение поведения пользователя на примере умной колонки и многое другое (+ презентации спикеров)
– Как адаптировать ML-модель под изменение поведения пользователя и повысить качество на примере умной колонки SberBoom (+ презентация)
– Как мы освободили сотрудников от классификации обращений на 1000+ классов (+ презентация)
К сожалению, не реклама. X5 Tech, ждем...
Please open Telegram to view this post
VIEW IN TELEGRAM
👍24🔥8❤4🤯1🤨1
Мы рады представить вам бесплатный курс «Автоматическое машинное обучение с помощью LightAutoML».
LightAutoML — это передовой фреймворк для автоматического построения моделей машинного обучения, разработанный специалистами Sber AI Lab.
Серия коротких лекций и семинаров позволит вам познакомиться с функционалом библиотеки и сразу же начать практическое применение полученных знаний для создания высокоэффективных моделей.
Вы познакомитесь с различными модулями LightAutoML, включая автоматический выбор моделей, предварительную обработку данных, оптимизацию гиперпараметров и построение ансамблей моделей для решения широкого спектра задач машинного обучения.
Приглашаем вас присоединиться к курсу по LightAutoML и погрузиться в мир автоматизированного машинного обучения прямо сейчас!
🔹 Курс «Автоматическое машинное обучение с помощью LightAutoML»
🔹 LightAutoML на GitHub
Реклама. Публичное акционерное общество «Сбербанк России», ПАО Сбербанк ИНН 7707083893
LightAutoML — это передовой фреймворк для автоматического построения моделей машинного обучения, разработанный специалистами Sber AI Lab.
Серия коротких лекций и семинаров позволит вам познакомиться с функционалом библиотеки и сразу же начать практическое применение полученных знаний для создания высокоэффективных моделей.
Вы познакомитесь с различными модулями LightAutoML, включая автоматический выбор моделей, предварительную обработку данных, оптимизацию гиперпараметров и построение ансамблей моделей для решения широкого спектра задач машинного обучения.
Приглашаем вас присоединиться к курсу по LightAutoML и погрузиться в мир автоматизированного машинного обучения прямо сейчас!
🔹 Курс «Автоматическое машинное обучение с помощью LightAutoML»
🔹 LightAutoML на GitHub
Реклама. Публичное акционерное общество «Сбербанк России», ПАО Сбербанк ИНН 7707083893
👍17🤪6👏2
Традиционно разминаемся на задачках по теории вероятностей перед новой рабочей неделей
На этот раз задача про шары. Разбор завтра, а пока ждем специалистов по теорверу в комментариях⏬
😻 #задачи
На этот раз задача про шары. Разбор завтра, а пока ждем специалистов по теорверу в комментариях
Please open Telegram to view this post
VIEW IN TELEGRAM
👍25🤯2
Media is too big
VIEW IN TELEGRAM
В Google Deepmind представили модель RT-2 для робототехники
Это модель Vision-Language-Action, обученная на огромном количестве картинок и текстов. Идея такой архитектуры состоит в том, что большие языковые модели можно перекалибровать так, чтобы они могли управлять действиями робота. Действительно, ведь трансформеры на выходе могут выдавать любые последовательности, и в том числе последовательности команд. Главное – разметка данных для обучения.
Оказалось, что такая модель хорошо генерализуется. Связано это, скорее всего, с тем, что кроме сухих движений робосуставами она хорошо «понимает» внешний мир, начитавшись текстов о нем во время обучения. В этом плюс использования в робототехнике LLM: они наделяют робота не только умением двигаться, но и умением «рассуждать», как это делать и понимать сущность действия.
📖 Статья | 👩💻 Демо | ⚙️Блогпост
😻 #news
Это модель Vision-Language-Action, обученная на огромном количестве картинок и текстов. Идея такой архитектуры состоит в том, что большие языковые модели можно перекалибровать так, чтобы они могли управлять действиями робота. Действительно, ведь трансформеры на выходе могут выдавать любые последовательности, и в том числе последовательности команд. Главное – разметка данных для обучения.
Оказалось, что такая модель хорошо генерализуется. Связано это, скорее всего, с тем, что кроме сухих движений робосуставами она хорошо «понимает» внешний мир, начитавшись текстов о нем во время обучения. В этом плюс использования в робототехнике LLM: они наделяют робота не только умением двигаться, но и умением «рассуждать», как это делать и понимать сущность действия.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍25❤4🤯3🔥1
Data Secrets
Традиционно разминаемся на задачках по теории вероятностей перед новой рабочей неделей На этот раз задача про шары. Разбор завтра, а пока ждем специалистов по теорверу в комментариях⏬ 😻 #задачи
Разбор задачи про зеленые и красные шары
Вчера мы опубликовали задачу по теории вероятностей. И снова в комментариях нашлись те, кто был близок к ответу! А сегодня мы показываем наше решение и объясняем его на пальцах. Ну, как вам задача?
😻 #задачи
Вчера мы опубликовали задачу по теории вероятностей. И снова в комментариях нашлись те, кто был близок к ответу! А сегодня мы показываем наше решение и объясняем его на пальцах. Ну, как вам задача?
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍45😨12🔥4🤯3🤔1
Непопулярный способ подготовки к собеседованиям: читлисты
Чаще всего перед DS-собеседованием нет смысла глубоко погружаться в теорию: нужно успеть быстро и концентрированно пробежаться по темам, в которых и так уже неплохо разбираешься, и порешать задачи. Для решения задач подойдут LeetCode (программирование), задачники (линал, cтатистика и прочая математика), SQLIsland и прочее. А вот как бегло повторить теорию, не закапываясь в подробности?
Учебники на такой случай не подойдут – слишком много деталей и нереальный объем. А вот читлисты из-за своей краткости и структуры станут лучшим решением. Например, открываем чит-лист по Git, пробегаемся глазами, если натыкаемся на что-то, что помним плохо – гуглим, читаем, разбираемся. И так далее. Это позволит ничего не пропустить, и закрыть пробелы именно там, где это необходимо, а не тыкать пальцем в небо.
Вам в помощь мы собрали суперсет необходимых чит-листов для подготовки к DS собеседованию: Jupyter Notebooks, R basics for data science, Python (for beginners), NumPy, Pandas, Matplotlib, Seaborn, Machine Learning Technical, Stats and ML compact, Classical ML algorithms, Scikit-learn, Keras, SQL basics, Git.
Не забудьте сохранить и удачи вам на собеседованиях!
😻 #advice
Чаще всего перед DS-собеседованием нет смысла глубоко погружаться в теорию: нужно успеть быстро и концентрированно пробежаться по темам, в которых и так уже неплохо разбираешься, и порешать задачи. Для решения задач подойдут LeetCode (программирование), задачники (линал, cтатистика и прочая математика), SQLIsland и прочее. А вот как бегло повторить теорию, не закапываясь в подробности?
Учебники на такой случай не подойдут – слишком много деталей и нереальный объем. А вот читлисты из-за своей краткости и структуры станут лучшим решением. Например, открываем чит-лист по Git, пробегаемся глазами, если натыкаемся на что-то, что помним плохо – гуглим, читаем, разбираемся. И так далее. Это позволит ничего не пропустить, и закрыть пробелы именно там, где это необходимо, а не тыкать пальцем в небо.
Вам в помощь мы собрали суперсет необходимых чит-листов для подготовки к DS собеседованию: Jupyter Notebooks, R basics for data science, Python (for beginners), NumPy, Pandas, Matplotlib, Seaborn, Machine Learning Technical, Stats and ML compact, Classical ML algorithms, Scikit-learn, Keras, SQL basics, Git.
Не забудьте сохранить и удачи вам на собеседованиях!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍83🔥26🐳5
Stability AI выпустили новую Stable Diffusion XL 1.0
Разрабочики обещают, что по сравнению с SDXL 0.9 версия 0.1 требует меньших вычислительных ресурсов и обеспечивает более высокое качество изображений. Обещают также, что в 1.0 улучшено качество генераций текста.
При этом, по сравнению с 0.9 версией, архитектура модели не поменялась, изменились лишь данные для обучения. Кстати, они все еще включают работы художников, протестовавших против использования их работ.
Код и веса | ClipDrop, чтобы поиграться
😻 #news
Разрабочики обещают, что по сравнению с SDXL 0.9 версия 0.1 требует меньших вычислительных ресурсов и обеспечивает более высокое качество изображений. Обещают также, что в 1.0 улучшено качество генераций текста.
При этом, по сравнению с 0.9 версией, архитектура модели не поменялась, изменились лишь данные для обучения. Кстати, они все еще включают работы художников, протестовавших против использования их работ.
Код и веса | ClipDrop, чтобы поиграться
Please open Telegram to view this post
VIEW IN TELEGRAM
🤩13👍4
Почему датасаентисты тоже разработчики
Ещё в 2018 году работодатели требовали от DS-специалистов основы математики, теорию ML/DL, git и базовые знания python. Теперь даже для джунов к этому списку прибавляются Docker, FastAPI, k8s/ansible, CI/CD и прочие термины из Dev и Ops.
Чтобы соответствовать рынку, необходимо постоянно учиться и изучать смежные области. Но надо с чего-то начать. Можно начать с приведения в порядок репозиториев с экспериментами. Ребята с канала DeepSchool проводят бесплатную лекцию, где расскажут об этом подробнее.
На онлайн-лекции обсудят:
🔹почему датасаентисты тоже разработчики
🔹требования к DL-инженеру на рынке в 2023 году и почему они растут
🔹что изменить в экспериментах, чтобы приблизиться к соответствию этим требованиям
🔹какие шаги нужно предпринять и какие инструменты использовать, чтобы сделать эксперименты воспроизводимыми, прозрачными и доступными для команды
🔹и представят курс CV Rocket, а также подарят скидки на обучение и список полезных библиотек для CV инженера
Лекцию будут вести:
- Тимур Фатыхов — один из основателей школы DeepSchool, ex Lead CV Engineer KoronaPay
- Андрей Шадриков — Head of R&D в компании Verigram, команда которого занимает топовые позиции в независимых тестах биометрических систем
🗓 Лекция пройдет в четверг 3 августа в 18:00 Мск
🎁 При регистрации по ссылке в боте вы получите доступ к одной из лекций курса CV Rocket с разбором сверточных архитектур от VGG до Effnet. Лекция освежит в памяти основные открытия в сверточных архитектурах, поможет подготовиться к собеседованиям или улучшить свои модели!
Регистрируйтесь на лекцию в боте, чтобы повышать свои навыки в CV!
Ещё в 2018 году работодатели требовали от DS-специалистов основы математики, теорию ML/DL, git и базовые знания python. Теперь даже для джунов к этому списку прибавляются Docker, FastAPI, k8s/ansible, CI/CD и прочие термины из Dev и Ops.
Чтобы соответствовать рынку, необходимо постоянно учиться и изучать смежные области. Но надо с чего-то начать. Можно начать с приведения в порядок репозиториев с экспериментами. Ребята с канала DeepSchool проводят бесплатную лекцию, где расскажут об этом подробнее.
На онлайн-лекции обсудят:
🔹почему датасаентисты тоже разработчики
🔹требования к DL-инженеру на рынке в 2023 году и почему они растут
🔹что изменить в экспериментах, чтобы приблизиться к соответствию этим требованиям
🔹какие шаги нужно предпринять и какие инструменты использовать, чтобы сделать эксперименты воспроизводимыми, прозрачными и доступными для команды
🔹и представят курс CV Rocket, а также подарят скидки на обучение и список полезных библиотек для CV инженера
Лекцию будут вести:
- Тимур Фатыхов — один из основателей школы DeepSchool, ex Lead CV Engineer KoronaPay
- Андрей Шадриков — Head of R&D в компании Verigram, команда которого занимает топовые позиции в независимых тестах биометрических систем
🗓 Лекция пройдет в четверг 3 августа в 18:00 Мск
🎁 При регистрации по ссылке в боте вы получите доступ к одной из лекций курса CV Rocket с разбором сверточных архитектур от VGG до Effnet. Лекция освежит в памяти основные открытия в сверточных архитектурах, поможет подготовиться к собеседованиям или улучшить свои модели!
Регистрируйтесь на лекцию в боте, чтобы повышать свои навыки в CV!
👍13🤯9🤨4❤3
Зачем нам энтропия и как считать information gain
Сегодня речь пойдет о деревьях решений. Этот алгоритм строится на базе двух понятий – энтропии и прироста информации. Разберемся, что это такое, и на примере рассмотрим, как благодаря этим сущностям из данных строятся деревья решений.
😻 #train
Сегодня речь пойдет о деревьях решений. Этот алгоритм строится на базе двух понятий – энтропии и прироста информации. Разберемся, что это такое, и на примере рассмотрим, как благодаря этим сущностям из данных строятся деревья решений.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍39🔥7😐1