Data Science by ODS.ai 🦜
44K subscribers
889 photos
98 videos
7 files
1.95K links
First Telegram Data Science channel. Covering all technical and popular staff about anything related to Data Science: AI, Big Data, Machine Learning, Statistics, general Math and the applications of former. To reach editors contact: @malev
Download Telegram
Малайзия, Франция и Индия пошли против ИИ-чат-бота Grok

ИИ разрабатываемый компанией Илона Маска, снова оказался в центре скандала. Grok был создан стартапом xAI и позже интегрирован в социальную сеть X. Пользователи платформы обнаружили, что при загрузке обычной фотографии и указании в запросе «удалить одежду», чат-бот генерировал реалистичное изображение с имитацией обнажённого тела. Такие материалы в ряде случаев даже становились публичными, попадая в ленту X.

Индия направила письмо компании X, предписав провести всестороннюю проверку чат-бота. Власти Малайзии уже расследуют изображения, после жалоб на неправомерное использование ИИ. Франция объявила контент незаконным.

Мой Компьютер
Forwarded from Machinelearning
📌Как делали MiniMax М2.1 и что будет дальше.

Когда говорят, что одна модель пишет код лучше другой, обычно имеется ввиду бенчмарк SWE-Bench. Модель получает реальный баг из настоящего проекта с Github, который она должна прочитать, найти ошибку и исправить её. Это частично повторяет ежедневную работу программиста.

Но у этого бенча, как и у любого другого, есть свои недостатки.

🟠SWE-Bench работает только с Python. В реальном мире разработчики имеют дело с Java, Go, TypeScript, Rust, C++ и еще кучей других.

🟠Бенчмарк только про исправление ошибок, а программисты еще пишут новые функции, занимаются рефакторингом и оптимизацией.

🟠Его результаты сильно зависят от того, в каком окружении работает модель.

И вот здесь MiniMax-AI задалась вопросом: как создать по-настоящему универсального ИИ-программиста?

Ответ они нашли
и реализовали его в своей свежайшей модели M2.1.

🟡Масштабирование окружения.

За этим расплывчатым термином кроется огромная система, которая оперирует популярными языками: JS, TS, Python, Java, Go, C++ и Rust.

Для этого с GitHub были собраны более 100 тыс. реальных задач с описанием проблемы, кодом и тестами. Это было непросто, так как сложные языки (Java или C++) требуют настройки и у каждого языка свои фреймворки и системы управления зависимостями.

Чтобы обучить модель на таком массиве данных, MiniMax построил инфраструктуру, способную запускать более 5 тыс. изолированных сред выполнения за максимально короткое время - 10 секунд.

🟡Выход за рамки баг-фиксов.

MiniMax-M2.1 обучали и генерации тестов и в результате оказалось, что это критически важный навык.

Предыдущая версия, M1, писала слишком простые тесты и часто выбирала неверные решения. M2.1 в этом преуспела и сравнялась по результатам с мощным конкурентом Claude Sonnet 4.5.

Еще она научилась оптимизировать производительность кода — на SWE-Perf показала средний прирост эффективности в 3.1%.

И наконец, M2.1 научили делать Code Review, для чего создали внутренний бенчмарк SWE-Review.

🟡Обобщение на незнакомых окружениях (Generalization on OOD Scaffolds).

Модель должна одинаково хорошо следовать длинным инструкциям и адаптироваться к разным способам управления контекстом диалога.

Команда провела тесты в mini-swe-agent, Droid и Claude Code и если посмотреть на цифры из их сравнительной таблицы, то можно увидель, что модель стала гораздо более гибкой и универсальной.

На том же SWE-Bench, при использовании Claude Code, MiniMax-M2.1 выбила 74 балла, что выше, чем у модели M2 с ее 69.2 баллами, и практически наравне с Claude Sonnet 4.5 и DeepSeek V3.2.

На другом тесте, OctoCodingBench, разрыв еще больше: 26.1 у новой модели против 13.3 у старой.

🟡Планы на 2026.

Во-первых, MiniMax планирует научить модель оценивать не только правильность кода, но и читаемость кода, качество комментариев, прозрачность процесса работы.

Во-вторых - повысить эффективность решения задач, чтобы модель не делала лишних шагов, например, не перечитывала один и тот же файл по несколько раз.

Но самое интересное — это их планы по RL Scaling, и создание так называемой Coding World Model.

Идея в том, чтобы построить модель-симулятор, которая сможет предсказывать результат выполнения кода, не запуская его в реальности.


Наконец, они планируют расширяться в узкоспециализированные области: разработка GPU Kernel, компиляторов и смарт-контрактов.

Похоже, концепция "ИИ-кодера" становится все более реальной. Успех MiniMax-M2.1 показал, что дело уже не в написании отдельных строк кода, а в комплексном понимании всего процесса разработки.


@ai_machinelearning_big_data

#AI #ML #LLM #MiniMaх
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍3🔥1🤯1
🔥 Год ChatGPT Plus бесплатно: экономим 20 000 рублей

Нашли рабочую лазейку в правилах OpenAI.
Вы получаете полноценный аккаунт без лимитов и с доступом ко всем топовым моделям.
Инструкция (займет 2 минуты):

1️⃣ Переходим на сервис временной почты: https://em.bjedu.tech/en/
2️⃣ Важно: в списке доменов выбираем erzi me.
3️⃣ Регистрируем новый аккаунт ChatGPT на этот адрес.
4️⃣ Получаем код подтверждения в почту - готово!

⚡️ Проверили, пока еще работает

@data_analysis_ml
🔥14🥰4👍3🤬2🤔1😢1
Forwarded from Бэклогово
Искусственный интеллект в проектах — помощник, а не начальник🤖

ИИ всё чаще появляется в рабочих процессах — но польза начинается не там, где он «думает за людей», а там, где снимает рутину.

Что уже можно автоматизировать без боли:
🟣 создавать задачи из писем и встреч;
🟣 следить за статусами и дедлайнами;
🟣 собирать отчёты и сводки;
🟣 подсвечивать перегруз и зависшие задачи.

Что ИИ делать не должен — принимать решения и брать ответственность. И именно с таким подходом он работает: человек решает, ИИ экономит время.

Почему управление проектами — идеальная среда для ИИ и как это уже реализовано внутри Kaiten — рассказываем в статье на Хабре: https://habr.com/ru/companies/kaiten/articles/974472/
Please open Telegram to view this post
VIEW IN TELEGRAM
👍52😢1
Forwarded from Код Дурова
😆 Это было не просто смело

Dell открыто признала, что потребители не заинтересованы в покупке ПК с искусственным интеллектом.

В рекламе новой линейки устройств от Dell упоминания ИИ сведены к нулю, хотя устройства способны работать с нейросетями.

↖️ https://kod.ru/dell-ai-pc
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥12👍4🤔2
Тацитное знание — это практическое личное знание, которое мы используем чтобы делать что-то в мире. Это именно то, что характеризует отличие теории от практики.

Когда теория есть в каждой LLM-ке или Ютуб ролике именно наличие практического опыта позволяет сэкономить время и силы для решения задач.

Ребята в AI Talent Hub и GIGASCHOOL сделали курс с фокусом на выводе проектов в прод под нагрузку, не забыв и про традиционные ipynb-тетрадки.

Вот это всё про дообучение, fine-tuning, PEFT, LoRA / QLoRA, RLHF. С актуальными LangChain, LangGraph, векторными базами чтобы можно было пройти фильтр HR-ов.

Про книгу Валеры и Арсения я не спрашивал, но уверен, что её затронут тоже.

Курс запускается уже третьим потоком (пофиксили баги и может сделали новых 🤷‍♀️)а преподают практики из крупных AI-команд, включая директора по разработке моделей в Газпромбанке Кристину Желтову, NLP Lead'а из X5 Tech Александра Потехина и CEO HiveTrace Евгения Кокуйкина.

Старт: 26 января на 25 недель. Дают диплом, есть рассрочка.
Ссылка: https://clck.ru/3R4Cen
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3🤡1
Сервис доставки «изнутри»: увольняющийся программист, работавший в западном сервисе доставки, поделился подробностями алгоритмов и внутренней кухни

Я бэкенд-инженер. Я сижу на еженедельных встречах по планированию спринтов, где продакт-менеджеры обсуждают, как выжать ещё 0,4% маржи из «человеческих активов» (именно так они называют курьеров в схемах баз данных)

Во-первых, «Приоритетная доставка» — это полный обман. Нам её продавали как «психологическое добавление ценности». Как я и писал в заголовке: когда вы платите лишние $2,99, в JSON-объекте заказа просто меняется булев флаг, но логика диспетчеризации его буквально игнорирует. Это никак не ускоряет доставку

В прошлом году мы даже проводили A/B-тест: мы не ускоряли приоритетные заказы, мы намеренно задерживали обычные на 5–10 минут, чтобы приоритетные ощущались быстрее на их фоне

Руководству это понравилось. Мы заработали миллионы чистой прибыли, просто ухудшив стандартный сервис, а не улучшив премиальный

Но то, от чего мне реально становится плохо — и главная причина, по которой я ухожу, — это «Индекс отчаяния». У нас есть скрытая метрика для курьеров, которая отслеживает, насколько они отчаянно нуждаются в деньгах, исходя из их поведения при принятии заказов

Если курьер обычно выходит в онлайн в 22:00 и мгновенно принимает любой мусорный заказ за $3 без колебаний, алгоритм помечает его как «Высокое отчаяние»

После этого система намеренно перестаёт показывать ему высокооплачиваемые заказы. Логика простая: «Зачем платить этому парню $15 за поездку, если мы знаем, что он в таком отчаянии, что сделает её за $6?»

Хорошие заказы с чаевыми мы оставляем «случайным» курьерам, чтобы заманить их и превратить процесс в игру, а тех, кто работает полный день, просто перемалывают в пыль

Затем идёт «Сбор за льготы». Вы, вероятно, видели этот $1,50 — «Сбор в ответ на регулирование» или «Сбор на льготы для водителей», который появился в чеке после принятия новых трудовых законов

Формулировка специально сделана так, чтобы у вас было ощущение, что вы помогаете работнику

На самом деле эти деньги напрямую идут в корпоративный «чёрный фонд», который используется для лоббирования против профсоюзов курьеров

У нас есть отдельный внутренний центр затрат под названием «Защита политики», и этот сбор напрямую его финансирует. Вы буквально платите за дорогих юристов, которые борются за то, чтобы курьер, доставивший вам еду, оставался бездомным

Что касается чаевых, мы, по сути, занимаемся «Кражей чаевых 2.0». Мы больше не «воруем» их напрямую в юридическом смысле, потому что нас за это засудили. Вместо этого мы используем предиктивное моделирование, чтобы динамически снижать базовую оплату

Если алгоритм прогнозирует, что вы — «щедрый на чаевые» клиент и, скорее всего, оставите $10, курьеру предлагают жалкие $2 базовой оплаты. Если вы не оставляете чаевых, ему предлагают $8 базовой оплаты, просто чтобы заказ вообще был выполнен. В итоге ваша щедрость не вознаграждает курьера — она субсидирует нас. Вы платите его зарплату вместо компании.

===

Ваши ставки, господа, как там дела в доставке у российских компаний?

И зачем создавать из WB конкурента Яндекса в том же такси, например... Загадка!

Telegram | Дзен | MAX
🤯63🔥1👏1
Forwarded from Data Science. SQL hub
🔥 Хочешь прокачаться в аналитике, но не просто читать теорию, а решать реальные задачи?

Мы запустили полностью бесплатный телеграм-тренажёр 👇

Тебя ждут сценарии, с которыми сталкиваются аналитики каждый день: от простых запросов до задач уровня собеседований.

Что внутри:

живые кейсы из реальной практики
удобный симулятор - как работа в компании, только бесплатно
разбор ошибок — понимаешь не только «как», но и «почему»
добавляем задачи с интервью и улучшаем бот вместе с сообществом

Начни тренироваться сегодня — и почувствуй уверенность в работе с данными.

t.me/Analitics_databot
4👍4🔥2😢1🎉1
Forwarded from ODS Events
Привет!

Встречайте первый в новом году и в новом сезоне выпуск подкаста "Капитанский мостик". Ведущие подкаста - Валентин Малых и Дмитрий Колодезев обсуждают прогнозы на новый год, рассматривают ключевые аспекты рынка чипов, аспекты регулирования чатботов в здравоохранении, восприятие искусственного интеллекта, его влияние на экономику и коммодитизацию, а также прогнозы по автоматизации программирования.
Смотрите видео на каналах ⤵️
ODS VK Video
ODS YouTube

📩 Присылайте новости для обсуждения в канал "Дата-капитаны" в mattermost (авторизуйтесь через ODS.ai).
❤‍🔥1🔥1