Анализ данных (Data analysis)
49.3K subscribers
2.84K photos
330 videos
1 file
2.41K links
Data science, наука о данных.

@haarrp - админ

РКН: clck.ru/3FmyAp
Download Telegram
⚡️ X-Coder - новый мощный релиз для код-LLM от IIGroup.

Команда выложила полноценный стек для обучения моделей программированию: синтетические датасеты, RL-выравнивание и готовые модели с сильным логическим мышлением.

Что внутри:

— X-Coder-SFT-376k - большой синтетический датасет (376K примеров), сгенерированный с помощью GPT-o3-mini и DeepSeek-R1
— X-Coder-RL-40k - набор для RL-дообучения, сфокусированный на логике, проверке решений и качестве рассуждений
— X-Coder-8B - модели на базе Qwen3 с упором на reasoning и задачи программирования

Главная идея —-полностью синтетическая эволюция данных: масштабирование качества без ручной разметки. Такой подход уже становится стандартом для обучения сильных coding-моделей.

Полезно, если вы:

• обучаете собственные code-LLM
• исследуете synthetic data + RLHF/RLAIF
• работаете с Qwen-экосистемой или агентами для программирования

Модели и датасеты:

https://modelscope.cn/datasets/IIGroup/X-Coder-SFT-376k

https://modelscope.cn/datasets/IIGroup/X-Coder-RL-40k

https://modelscope.cn/models/IIGroup/X-Coder-SFT-Qwen3-8B

#LLM #CodeAI #Qwen3 #DeepSeek #AI #Coding
🔥63😍2
⚡️ AAI иногда помогает делать прорывы в самых неожиданных местах. Модель, обученная распознавать птиц, теперь помогает раскрывать тайны подводного мира.

Главная проблема океанологии - данные.
Подводные камеры записывают тысячи часов видео, но учёные физически не успевают всё просмотреть. В результате редкие виды, изменения экосистем и важные события могут оставаться незамеченными годами.

Исследователи применили модели компьютерного зрения, изначально обученные на изображениях птиц. Несмотря на то, что среда полностью другая (вода, плохое освещение, шум, мутность), модель смогла:

- автоматически находить морских животных в кадре
- классифицировать виды
- отслеживать их поведение
- анализировать большие массивы данных без участия человека

Transfer learning — ключевая идея.
Модель уже умеет распознавать формы, текстуры, контуры и движение. Эти базовые визуальные признаки универсальны и подходят не только для птиц, но и для рыб, медуз и других морских существ.

Самое интересное:

- Не нужно обучать модель с нуля (экономия месяцев работы и огромных ресурсов)
- Можно быстро адаптировать AI к новым научным задачам
- AI способен находить редкие или неожиданные наблюдения, которые человек мог бы пропустить
- Такой подход ускоряет исследования климата и состояния океанов

Фактически, модель стала инструментом научных открытий, а не просто системой распознавания изображений.

Главный вывод для разработчиков:

Ценность AI сегодня - не в обучении новых моделей, а в умении переиспользовать существующие и переносить их в новые домены.

Часто самая сильная инновация — это не новая архитектура, а новое применение.

https://research.google/blog/how-ai-trained-on-birds-is-surfacing-underwater-mysteries/
🔥26👍85
⚡️ Deep Research без интернета? Теперь это возможно.

OpenResearcher — это полностью офлайн-пайплайн для генерации длинных исследовательских траекторий (100+ шагов), которые имитируют реальный процесс работы агента в интернете:
search → open → find → анализ → вывод.

И всё это:
- без API поиска
- без ограничений по rate limit
- без нестабильности результатов
- полностью воспроизводимо

Что под капотом:

- GPT-OSS-120B генерирует исследовательские цепочки
- Локальный поисковик + корпус 10 трлн токенов
- 15 млн документов FineWeb
- 10 000 «золотых» отобранных источников
- Явные примитивы браузинга (поиск, открытие, извлечение), а не просто retrieve-and-read
- Reject sampling — сохраняются только успешные длинные траектории

Почему это важно?

Главная проблема обучения research-агентов — длинные цепочки действий.
Обычные датасеты короткие и не учат модель думать на горизонте десятков шагов.

Здесь результат впечатляет:

SFT на этих траекториях повышает точность модели Nemotron-3-Nano-30B-A3B
с 20.8% → 54.8% на BrowseComp-Plus
(+34% абсолютного прироста)

Что это значит для индустрии:

- Deep-research агентов можно обучать без дорогих онлайн-запросов
- Появляется воспроизводимое обучение tool-use
- Можно масштабировать генерацию «мышления через действия»
- Это шаг к стабильным автономным исследовательским AI

Открытое релизнули всё:

- Код, поисковик и рецепт корпуса
- ~96K длинных исследовательских траекторий
- Логи оценки
- Обученные модели
- Онлайн-демо

GitHub: https://github.com/TIGER-AI-Lab/OpenResearcher
Models & Data: https://huggingface.co/collections/TIGER-Lab/openresearcher
Demo: https://huggingface.co/spaces/OpenResearcher/OpenResearcher
Eval logs: https://huggingface.co/datasets/OpenResearcher/OpenResearcher-Eval-Logs
111👍8🔥3🤣2
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Эти анимации были созданы на 100% с помощью искусственного интеллекта, используя Seedance 2.0.

Всё было сгенерировано на основе одного запроса, без ручной анимации.

Вы смотрите воссозданные бои, такие как Годзё Сатору против Рёмена Сукуны, сражения с участием Махораги и таких персонажей, как Саске Учиха, Тодзи Фусигуро и Юта Оккоцу.

Плавность, точность и эффектность дают понять: искусственный интеллект для 2D-анимации вышел на новый уровень.
Это не проверка. Это реальные перемены, происходящие прямо сейчас.
👍156🔥3🥴3🤨3👏1🕊1
Google представили новый подход к разработке AI-систем, вместо привычного формата «один пользователь - один ассистент» они моделируют групповые диалоги, где одновременно взаимодействуют несколько людей и ИИ.

Идея проста: в реальной жизни ИИ всё чаще работает не в одиночку, а как участник команды.

Что предлагают

Система позволяет:
- Симулировать групповые обсуждения (несколько людей + AI)
- Тестировать, как ИИ ведёт себя в динамике разговора
- Оценивать:
- когда ИИ должен вмешиваться
- когда лучше молчать
- как не перебивать людей
- как учитывать контекст всей группы

Почему это важно

Обычные тесты проверяют:
- точность ответа
- знание фактов

Но в командной работе важнее:
- тайминг ответа
- уместность
- социальное поведение
- понимание ролей участников

ИИ должен стать коллегой, а не просто чат-ботом.

Где это применимо

- Совместное написание документов
- Брейнштормы
- Планирование проектов
- Онлайн-встречи
- Образование и командная работа

Главная идея

Будущее AI - это не «личный помощник»,
а участник командных процессов.

Такие симуляции позволяют заранее тестировать поведение модели в сложных социальных сценариях и делать её более естественной и полезной в реальной работе.

✔️ Источник: https://research.google/blog/beyond-one-on-one-authoring-simulating-and-testing-dynamic-human-ai-group-conversations/
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
17🔥8🥰4🤯4🥴1
😁54💯111🥱1
⚡️ DeepWiki - GitHub-репозитории, которые можно “спросить” как ChatGPT

DeepWiki - это инструмент, который превращает любой GitHub-проект в интерактивную документацию с AI.

Просто замените в ссылке:
github.comdeepwiki.com

И вы получите:
- автоматически сгенерированную wiki по проекту
- объяснение архитектуры
- разбор ключевых файлов
- ответы на вопросы прямо по коду

Пример:
https://deepwiki.com/karpathy/nanochat

Почему это удобно

Обычная документация часто:
- устаревшая
- неполная
- не объясняет, как всё реально работает

DeepWiki анализирует сам код — источник истины — и строит объяснения на его основе.

Можно быстро узнать:
- как устроена архитектура
- где реализована нужная функция
- как работает конкретный модуль
- какие зависимости используются

Практическая польза

- Быстрое изучение чужих репозиториев
- Онбординг в новый проект
- Поиск логики без ручного чтения сотен файлов
- Подготовка к собеседованиям
- Работа AI-агентов с кодом через MCP

Главная идея

Теперь код можно не читать построчно.
Можно задавать вопросы репозиторию и получать готовые объяснения.

Это новый способ изучения и использования open-source.

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2011🔥8🤔2
🔥 Курс AI Agents PRO обновлён под LangChain 1.0+ и LangGraph 1.0

Весь код переписан под актуальные stable-версии февраля 2026:

LangChain 1.0+ — новая create_agent архитектура
LangGraph 1.0+ — production-ready платформа
Актуальные паттерны 2026
Работающий код из коробки

Что внутри:
- Агенты на LangGraph/AutoGen — от простых до multi-agent систем
- Production RAG — hybrid search, reranking, vector DBs
- Мониторинг — метрики, трейсинг, алерты
- Деплой — от прототипа до прод-сервиса

🚀 48 часов скидка 25%
🥴119👍2🤣2😁1
🚀 SoftMatcha 2 - инструмент от Sakana, который проверяет, не “подглядывала” ли модель ответы

Одна из главных проблем в обучении LLM - загрязнение бенчмарков.
Модель показывает отличные результаты… но иногда просто потому, что похожие задачи уже были в обучающих данных.

Проверить это сложно.
Обычный поиск по точным совпадениям не работает - формулировки могут отличаться, слова меняться, а смысл оставаться тем же.

SoftMatcha 2 новое решение от Sakana.

Что делает инструмент:

- Ищет совпадения в корпусах размером до триллионов токенов
- Работает менее чем за 0.3 секунды
- Находит не только точные копии, но и похожие по смыслу фрагменты
(замены слов, вставки, удаления)
- Помогает обнаружить утечки тестовых данных в обучении

Почему это важно:

Если модель уже видела похожие задачи:
- метрики становятся завышенными
- сравнение моделей теряет смысл
- “прорыв” может оказаться просто хорошей памятью

SoftMatcha 2 позволяет:
- проверять чистоту датасетов
- находить скрытые пересечения
- честно оценивать качество моделей

Как это работает:

- Быстрый поиск на основе suffix arrays
- Disk-aware архитектура - эффективная работа даже с огромными данными
- Интеллектуальное pruning, чтобы избежать перебора миллионов вариантов

Можно протестировать онлайн на корпусе 100B токенов или развернуть у себя для триллионных масштабов.

Demo: http://softmatcha-2.s3-website-ap-northeast-1.amazonaws.com
Paper: https://arxiv.org/abs/2602.10908
Code: https://github.com/softmatcha/softmatcha2

Сегодня важен не только размер модели.
Главный вопрос - учится ли она думать, или просто запомнила ответы.
Please open Telegram to view this post
VIEW IN TELEGRAM
14👍5🔥4
✔️ MiniMax выпустила модель M2.5.

Новинка построена на архитектуре MoE и получила 10 млрд. активных параметров при 229 млрд. общих. Она обучалась в сотнях тысяч сложных сред и умеет самостоятельно планировать действия без явных инструкций от пользователя.

По заявленным бенчмаркам, M2.5 превосходит GPT-5.2, Gemini 3 Pro и Claude в веб-поиске, агентных тасках и по офисными задачами. В кодинге модель в ряде тестов обходит Claude Opus 4.6. Веса опубликованы под лицензией MIT.

Закрытый вариант, M2.5-Lightning, выдает 100 токенов в секунду - это вдвое быстрее топовых аналогов. Час ее непрерывной работы стоит 1 доллар, а 4 инстанса можно гонять параллельно круглый год за 10 тыс. долларов.
API и тариф для разработчиков доступны на платформе Minimax.
minimax.io
Please open Telegram to view this post
VIEW IN TELEGRAM
12🔥8👍4
🤖 Агенты на базе LLM звучит как модный тренд, но за ним скрываются конкретные архитектурные решения, ограничения и инженерные компромиссы. Без их понимания агентные системы быстро превращаются в нестабильные и трудно поддерживаемые эксперименты.

На открытом уроке вы разберёте, что на самом деле стоит за agentic-подходом и чем он отличается от привычных LLM-приложений с chains, RAG и tools. Мы подробно рассмотрим устройство агента: модель, инструменты, память, планирование и контроль выполнения, а также разберём архитектурные паттерны агентных систем.

Вы увидите, как один и тот же агентный сценарий реализуется в разных фреймворках, сравните их подходы и ограничения, поймёте, где агентный подход действительно оправдан, а где он усложняет систему без реальной выгоды.

🗓️ Встречаемся 17 февраля в 20:00 МСК в преддверии старта курса «LLM Driven Development». Зарегистрируйтесь: https://otus.pw/Q3x3F/?erid=2W5zFHNEkCZ

Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
4🤣3🥱2
⚡️ Илон Маск: xAI может построить завод на Луне для производства AI-спутников

На внутренней встрече xAI Маск заявил, что в будущем компании может понадобиться лунная фабрика, которая будет производить спутники для ИИ, а также гигантская катапульта для их запуска в космос.

Звучит как фантастика, но идея отражает масштаб амбиций.

Что ещё он сказал сотрудникам:

- xAI должна продолжать расти максимально быстро
- В AI-гонке побеждает тот, кто движется быстрее всех
- По его словам, сейчас xAI развивается быстрее конкурентов
- Компания уже достигла масштаба, при котором требуется новая структура управления
- Часть команды, эффективная на ранних этапах, может не подходить для стадии масштабирования

Главная мысль Маска:

Скорость - главный фактор лидерства в AI.

Речь идёт о долгосрочной стратегии, где:
- AI-инфраструктура выходит за пределы Земли
- спутники могут стать частью глобальной вычислительной сети
- конкуренция идёт не только за модели, но и за физическую инфраструктуру

nytimes.com/2026/02/10/technology/elon-musk-lunar-factory.html
15🔥7👍3🤯3🥱3🤨3
🚀 Mistral научили маленькие модели думать как большие

Mistral AI представила семейство Ministral - компактные модели, созданные с помощью подхода cascade distillation.

- Большая модель Mistral 3 выступает в роли «учителя»
- Дистилляция проходит в несколько этапов, а не за один раз
- Каждая следующая модель учится на результатах предыдущей
- Быстрее inference
- Дешевле запуск в продакшене
- Подходит для edge-устройств и локального запуска
- Можно масштабировать AI-сервисы без огромных затрат
- В итоге - меньше размер, ниже стоимость, высокая точность

Большие модели будут использоваться для обучения…
а в продакшене будут работать маленькие и эффективные.

https://www.deeplearning.ai/the-batch/mistral-uses-cascade-distillation-on-mistral-3-to-build-ministral-family

#ai #ml #llm #Mistral
15👍11🔥6
Как создавать решения и автоматизировать рутину в 2026: No-Code 2.0 × Pro-Code с AI - Практикум от Отус

Покажем, как в 2026 собирать рабочие внутренние сервисы: где хватает No-Code 2.0, а где нужен Pro-Code с AI — без бесконечных спринтов и «ручного» отчётничка.
📌 18 февраля, 20:00 (мск)
🦉 Спикер: Артём Колчин — 7+ лет в продакт/проектном управлении, выстраивал процессы в командах до 60 человек.

О чём поговорим простыми словами;
— Что такое No-Code 2.0 и почему он — оркестратор процессов, а не «замена разработке»
— Связка No-Code + LLM: формы, базы, боты, автоматизации
— Где No-Code заканчивается и начинается Pro-Code
— Pro-Code + AI как «ускоренный Dev»: агенты для кода, интеграций, тестов и DevOps-рутины
— Кейсы внутренних систем: заявки HR/Legal/Finance/IT, Jira/Notion как процессные хабы

Бонусы:
— cкидка 7% на любой курс OTUS
— гайд по работе с промптами для LLM

🔗 Регистрируйся: https://tglink.io/4e26955ca39e4c
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963. erid: 2W5zFJAhvKB
4🥱3🤣1
Media is too big
VIEW IN TELEGRAM
⚡️ Гонка за AGI - это не только технологии. Это ещё и риск банкротства на триллионы.

Dwarkesh спросил CEO Anthropic Дарио Амодеи:
почему он так уверен в AGI, но при этом осторожен с масштабным строительством дата-центров?

Ответ оказался жёстким.


Если рынок AI продолжит расти в 10× в год,
компания может выйти на $1 трлн выручки к 2027 году.

Чтобы поддержать такой рост, придётся закупить примерно $5 трлн вычислительных мощностей.

Но здесь и кроется опасность.

Если прогноз окажется немного оптимистичным - например:
- не $1T, а $800B выручки
- рост замедлится до
- или рынок сдвинется всего на 1 год

→ компания просто обанкротится.

По словам Амодеи:

Если ты ошибся в прогнозе, нет силы и нет хеджа, которые спасут от банкротства после таких инвестиций.


Главная мысль:

AGI - это не только гонка моделей.
Это самая рискованная инфраструктурная ставка в истории технологий.

Поэтому «действовать ответственно» -не значит инвестировать сотни миллиардов.

И, по его словам, некоторые игроки в гонке ИИ, возможно, даже не просчитали все риски до конца.

🚀 Полное интервью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍126🔥2🍌2
This media is not supported in your browser
VIEW IN TELEGRAM
💰 Илон Маск сделал громкое заявление:

Через 10–20 лет накопления на пенсию могут потерять смысл.


Звучит радикально, но его логика проста.

Сегодня вся финансовая система построена на одном предположении:
ресурсы ограничены, а жизнь дорогая.

Мы откладываем деньги, потому что:
- нужно платить за жильё
- еду
- медицину
- услуги
- и в старости дохода может не быть

Но Маск считает, что AI и роботизация меняют саму основу экономики.

Что происходит уже сейчас:

- Автоматизация снижает стоимость труда
- Производство становится дешевле
- Услуги заменяются алгоритмами
- Всё больше процессов работает без участия человека

Если этот тренд продолжится, то:

Стоимость производства → стремится к нулю
Стоимость жизни → резко падает

А значит, логика “копить на дорогую жизнь в будущем” перестаёт работать.

Мы можем перейти от экономики дефицита к экономике изобилия.

Где главным ограничением станет не деньги, а:
- смысл деятельности
- самореализация
- ценность идей и творчества

Самый важный вывод не в том, что «копить не нужно».

А в другом:

Мир меняется быстрее, чем наши финансовые привычки.
Модель «учись → работай 40 лет → копи → пенсия» может просто устареть.

В ближайшие 10–15 лет главный актив - это не накопления.

Это:
- навыки адаптации
- умение работать с AI
- гибкость
- способность создавать ценность в новой экономике

Потому что будущее, к которому мы готовимся по старым правилам,
может оказаться совсем другим.
👍29🥱1810🔥3🍌1