Анализ данных (Data analysis)
52K subscribers
3K photos
366 videos
1 file
2.53K links
Data science, наука о данных.

@haarrp - админ

РКН: clck.ru/3FmyAp
Download Telegram
⚡️ AAI иногда помогает делать прорывы в самых неожиданных местах. Модель, обученная распознавать птиц, теперь помогает раскрывать тайны подводного мира.

Главная проблема океанологии - данные.
Подводные камеры записывают тысячи часов видео, но учёные физически не успевают всё просмотреть. В результате редкие виды, изменения экосистем и важные события могут оставаться незамеченными годами.

Исследователи применили модели компьютерного зрения, изначально обученные на изображениях птиц. Несмотря на то, что среда полностью другая (вода, плохое освещение, шум, мутность), модель смогла:

- автоматически находить морских животных в кадре
- классифицировать виды
- отслеживать их поведение
- анализировать большие массивы данных без участия человека

Transfer learning — ключевая идея.
Модель уже умеет распознавать формы, текстуры, контуры и движение. Эти базовые визуальные признаки универсальны и подходят не только для птиц, но и для рыб, медуз и других морских существ.

Самое интересное:

- Не нужно обучать модель с нуля (экономия месяцев работы и огромных ресурсов)
- Можно быстро адаптировать AI к новым научным задачам
- AI способен находить редкие или неожиданные наблюдения, которые человек мог бы пропустить
- Такой подход ускоряет исследования климата и состояния океанов

Фактически, модель стала инструментом научных открытий, а не просто системой распознавания изображений.

Главный вывод для разработчиков:

Ценность AI сегодня - не в обучении новых моделей, а в умении переиспользовать существующие и переносить их в новые домены.

Часто самая сильная инновация — это не новая архитектура, а новое применение.

https://research.google/blog/how-ai-trained-on-birds-is-surfacing-underwater-mysteries/
🔥27👍86
⚡️ Deep Research без интернета? Теперь это возможно.

OpenResearcher — это полностью офлайн-пайплайн для генерации длинных исследовательских траекторий (100+ шагов), которые имитируют реальный процесс работы агента в интернете:
search → open → find → анализ → вывод.

И всё это:
- без API поиска
- без ограничений по rate limit
- без нестабильности результатов
- полностью воспроизводимо

Что под капотом:

- GPT-OSS-120B генерирует исследовательские цепочки
- Локальный поисковик + корпус 10 трлн токенов
- 15 млн документов FineWeb
- 10 000 «золотых» отобранных источников
- Явные примитивы браузинга (поиск, открытие, извлечение), а не просто retrieve-and-read
- Reject sampling — сохраняются только успешные длинные траектории

Почему это важно?

Главная проблема обучения research-агентов — длинные цепочки действий.
Обычные датасеты короткие и не учат модель думать на горизонте десятков шагов.

Здесь результат впечатляет:

SFT на этих траекториях повышает точность модели Nemotron-3-Nano-30B-A3B
с 20.8% → 54.8% на BrowseComp-Plus
(+34% абсолютного прироста)

Что это значит для индустрии:

- Deep-research агентов можно обучать без дорогих онлайн-запросов
- Появляется воспроизводимое обучение tool-use
- Можно масштабировать генерацию «мышления через действия»
- Это шаг к стабильным автономным исследовательским AI

Открытое релизнули всё:

- Код, поисковик и рецепт корпуса
- ~96K длинных исследовательских траекторий
- Логи оценки
- Обученные модели
- Онлайн-демо

GitHub: https://github.com/TIGER-AI-Lab/OpenResearcher
Models & Data: https://huggingface.co/collections/TIGER-Lab/openresearcher
Demo: https://huggingface.co/spaces/OpenResearcher/OpenResearcher
Eval logs: https://huggingface.co/datasets/OpenResearcher/OpenResearcher-Eval-Logs
112👍9🔥3🤣2
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Эти анимации были созданы на 100% с помощью искусственного интеллекта, используя Seedance 2.0.

Всё было сгенерировано на основе одного запроса, без ручной анимации.

Вы смотрите воссозданные бои, такие как Годзё Сатору против Рёмена Сукуны, сражения с участием Махораги и таких персонажей, как Саске Учиха, Тодзи Фусигуро и Юта Оккоцу.

Плавность, точность и эффектность дают понять: искусственный интеллект для 2D-анимации вышел на новый уровень.
Это не проверка. Это реальные перемены, происходящие прямо сейчас.
👍156🔥4🥴4🤨3👏1🕊1
Google представили новый подход к разработке AI-систем, вместо привычного формата «один пользователь - один ассистент» они моделируют групповые диалоги, где одновременно взаимодействуют несколько людей и ИИ.

Идея проста: в реальной жизни ИИ всё чаще работает не в одиночку, а как участник команды.

Что предлагают

Система позволяет:
- Симулировать групповые обсуждения (несколько людей + AI)
- Тестировать, как ИИ ведёт себя в динамике разговора
- Оценивать:
- когда ИИ должен вмешиваться
- когда лучше молчать
- как не перебивать людей
- как учитывать контекст всей группы

Почему это важно

Обычные тесты проверяют:
- точность ответа
- знание фактов

Но в командной работе важнее:
- тайминг ответа
- уместность
- социальное поведение
- понимание ролей участников

ИИ должен стать коллегой, а не просто чат-ботом.

Где это применимо

- Совместное написание документов
- Брейнштормы
- Планирование проектов
- Онлайн-встречи
- Образование и командная работа

Главная идея

Будущее AI - это не «личный помощник»,
а участник командных процессов.

Такие симуляции позволяют заранее тестировать поведение модели в сложных социальных сценариях и делать её более естественной и полезной в реальной работе.

✔️ Источник: https://research.google/blog/beyond-one-on-one-authoring-simulating-and-testing-dynamic-human-ai-group-conversations/
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
17🔥8🥰4🤯4🥴1
😁60💯121🥱1
⚡️ DeepWiki - GitHub-репозитории, которые можно “спросить” как ChatGPT

DeepWiki - это инструмент, который превращает любой GitHub-проект в интерактивную документацию с AI.

Просто замените в ссылке:
github.comdeepwiki.com

И вы получите:
- автоматически сгенерированную wiki по проекту
- объяснение архитектуры
- разбор ключевых файлов
- ответы на вопросы прямо по коду

Пример:
https://deepwiki.com/karpathy/nanochat

Почему это удобно

Обычная документация часто:
- устаревшая
- неполная
- не объясняет, как всё реально работает

DeepWiki анализирует сам код — источник истины — и строит объяснения на его основе.

Можно быстро узнать:
- как устроена архитектура
- где реализована нужная функция
- как работает конкретный модуль
- какие зависимости используются

Практическая польза

- Быстрое изучение чужих репозиториев
- Онбординг в новый проект
- Поиск логики без ручного чтения сотен файлов
- Подготовка к собеседованиям
- Работа AI-агентов с кодом через MCP

Главная идея

Теперь код можно не читать построчно.
Можно задавать вопросы репозиторию и получать готовые объяснения.

Это новый способ изучения и использования open-source.

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2315🔥8🤔2
🚀 SoftMatcha 2 - инструмент от Sakana, который проверяет, не “подглядывала” ли модель ответы

Одна из главных проблем в обучении LLM - загрязнение бенчмарков.
Модель показывает отличные результаты… но иногда просто потому, что похожие задачи уже были в обучающих данных.

Проверить это сложно.
Обычный поиск по точным совпадениям не работает - формулировки могут отличаться, слова меняться, а смысл оставаться тем же.

SoftMatcha 2 новое решение от Sakana.

Что делает инструмент:

- Ищет совпадения в корпусах размером до триллионов токенов
- Работает менее чем за 0.3 секунды
- Находит не только точные копии, но и похожие по смыслу фрагменты
(замены слов, вставки, удаления)
- Помогает обнаружить утечки тестовых данных в обучении

Почему это важно:

Если модель уже видела похожие задачи:
- метрики становятся завышенными
- сравнение моделей теряет смысл
- “прорыв” может оказаться просто хорошей памятью

SoftMatcha 2 позволяет:
- проверять чистоту датасетов
- находить скрытые пересечения
- честно оценивать качество моделей

Как это работает:

- Быстрый поиск на основе suffix arrays
- Disk-aware архитектура - эффективная работа даже с огромными данными
- Интеллектуальное pruning, чтобы избежать перебора миллионов вариантов

Можно протестировать онлайн на корпусе 100B токенов или развернуть у себя для триллионных масштабов.

Demo: http://softmatcha-2.s3-website-ap-northeast-1.amazonaws.com
Paper: https://arxiv.org/abs/2602.10908
Code: https://github.com/softmatcha/softmatcha2

Сегодня важен не только размер модели.
Главный вопрос - учится ли она думать, или просто запомнила ответы.
Please open Telegram to view this post
VIEW IN TELEGRAM
15👍6🔥4
✔️ MiniMax выпустила модель M2.5.

Новинка построена на архитектуре MoE и получила 10 млрд. активных параметров при 229 млрд. общих. Она обучалась в сотнях тысяч сложных сред и умеет самостоятельно планировать действия без явных инструкций от пользователя.

По заявленным бенчмаркам, M2.5 превосходит GPT-5.2, Gemini 3 Pro и Claude в веб-поиске, агентных тасках и по офисными задачами. В кодинге модель в ряде тестов обходит Claude Opus 4.6. Веса опубликованы под лицензией MIT.

Закрытый вариант, M2.5-Lightning, выдает 100 токенов в секунду - это вдвое быстрее топовых аналогов. Час ее непрерывной работы стоит 1 доллар, а 4 инстанса можно гонять параллельно круглый год за 10 тыс. долларов.
API и тариф для разработчиков доступны на платформе Minimax.
minimax.io
Please open Telegram to view this post
VIEW IN TELEGRAM
13🔥8👍5
⚡️ Илон Маск: xAI может построить завод на Луне для производства AI-спутников

На внутренней встрече xAI Маск заявил, что в будущем компании может понадобиться лунная фабрика, которая будет производить спутники для ИИ, а также гигантская катапульта для их запуска в космос.

Звучит как фантастика, но идея отражает масштаб амбиций.

Что ещё он сказал сотрудникам:

- xAI должна продолжать расти максимально быстро
- В AI-гонке побеждает тот, кто движется быстрее всех
- По его словам, сейчас xAI развивается быстрее конкурентов
- Компания уже достигла масштаба, при котором требуется новая структура управления
- Часть команды, эффективная на ранних этапах, может не подходить для стадии масштабирования

Главная мысль Маска:

Скорость - главный фактор лидерства в AI.

Речь идёт о долгосрочной стратегии, где:
- AI-инфраструктура выходит за пределы Земли
- спутники могут стать частью глобальной вычислительной сети
- конкуренция идёт не только за модели, но и за физическую инфраструктуру

nytimes.com/2026/02/10/technology/elon-musk-lunar-factory.html
15🔥7👍3🤯3🥱3🤨3
🚀 Mistral научили маленькие модели думать как большие

Mistral AI представила семейство Ministral - компактные модели, созданные с помощью подхода cascade distillation.

- Большая модель Mistral 3 выступает в роли «учителя»
- Дистилляция проходит в несколько этапов, а не за один раз
- Каждая следующая модель учится на результатах предыдущей
- Быстрее inference
- Дешевле запуск в продакшене
- Подходит для edge-устройств и локального запуска
- Можно масштабировать AI-сервисы без огромных затрат
- В итоге - меньше размер, ниже стоимость, высокая точность

Большие модели будут использоваться для обучения…
а в продакшене будут работать маленькие и эффективные.

https://www.deeplearning.ai/the-batch/mistral-uses-cascade-distillation-on-mistral-3-to-build-ministral-family

#ai #ml #llm #Mistral
20👍12🔥6
Media is too big
VIEW IN TELEGRAM
⚡️ Гонка за AGI - это не только технологии. Это ещё и риск банкротства на триллионы.

Dwarkesh спросил CEO Anthropic Дарио Амодеи:
почему он так уверен в AGI, но при этом осторожен с масштабным строительством дата-центров?

Ответ оказался жёстким.


Если рынок AI продолжит расти в 10× в год,
компания может выйти на $1 трлн выручки к 2027 году.

Чтобы поддержать такой рост, придётся закупить примерно $5 трлн вычислительных мощностей.

Но здесь и кроется опасность.

Если прогноз окажется немного оптимистичным - например:
- не $1T, а $800B выручки
- рост замедлится до
- или рынок сдвинется всего на 1 год

→ компания просто обанкротится.

По словам Амодеи:

Если ты ошибся в прогнозе, нет силы и нет хеджа, которые спасут от банкротства после таких инвестиций.


Главная мысль:

AGI - это не только гонка моделей.
Это самая рискованная инфраструктурная ставка в истории технологий.

Поэтому «действовать ответственно» -не значит инвестировать сотни миллиардов.

И, по его словам, некоторые игроки в гонке ИИ, возможно, даже не просчитали все риски до конца.

🚀 Полное интервью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍177🔥3🍌2
This media is not supported in your browser
VIEW IN TELEGRAM
💰 Илон Маск сделал громкое заявление:

Через 10–20 лет накопления на пенсию могут потерять смысл.


Звучит радикально, но его логика проста.

Сегодня вся финансовая система построена на одном предположении:
ресурсы ограничены, а жизнь дорогая.

Мы откладываем деньги, потому что:
- нужно платить за жильё
- еду
- медицину
- услуги
- и в старости дохода может не быть

Но Маск считает, что AI и роботизация меняют саму основу экономики.

Что происходит уже сейчас:

- Автоматизация снижает стоимость труда
- Производство становится дешевле
- Услуги заменяются алгоритмами
- Всё больше процессов работает без участия человека

Если этот тренд продолжится, то:

Стоимость производства → стремится к нулю
Стоимость жизни → резко падает

А значит, логика “копить на дорогую жизнь в будущем” перестаёт работать.

Мы можем перейти от экономики дефицита к экономике изобилия.

Где главным ограничением станет не деньги, а:
- смысл деятельности
- самореализация
- ценность идей и творчества

Самый важный вывод не в том, что «копить не нужно».

А в другом:

Мир меняется быстрее, чем наши финансовые привычки.
Модель «учись → работай 40 лет → копи → пенсия» может просто устареть.

В ближайшие 10–15 лет главный актив - это не накопления.

Это:
- навыки адаптации
- умение работать с AI
- гибкость
- способность создавать ценность в новой экономике

Потому что будущее, к которому мы готовимся по старым правилам,
может оказаться совсем другим.
👍46🥱3616🔥4🍌3😁1
🚀 Ling-2.5-1T: новый open-source гигант

• 1 трлн параметров
• 63B активных
• MIT лицензия - можно использовать в продакшене

Что внутри:

Hybrid Linear Attention
Комбинация MLA (1:7) + Lightning Linear
- быстрее Kimi K2 на длинных контекстах

🧠 В 4 раза эффективнее по токенам
Composite rewards позволяют достигать уровня топ-моделей, используя в 4 раза меньше токенов

📚 Контекст до 1 млн токенов
YaRN scaling
— обходит Kimi K2.5 и DeepSeek V3.2 на тестах RULER и MRCR
— идеальные результаты в NIAH

🛠️ SOTA для агентных задач
Обучение через Agentic RL
Лидер BFCL-V4
Нативная интеграция с:
- Claude Code
- OpenCode
- OpenClaw

🎯 Чёткое следование инструкциям
Bidirectional RL + проверка агентом
Минимум «воды», максимум плотности ответа

Модель пока уступает GPT-5.2 и Gemini 3 Pro в долгих многошаговых задачах.

Open-source модели уже заходят на территорию enterprise-агентов.
Если нужен длинный контекст + инструменты + контроль над инфраструктурой - это один из самых интересных кандидатов прямо сейчас.

modelscope.ai/models/inclusionAI/Ling-2.5-1T
modelscope.cn/models/inclusionAI/Ling-2.5-1T

@data_analysis_ml
👍117🔥5
This media is not supported in your browser
VIEW IN TELEGRAM
🔌 OpenAI продолжает собирать лучшие умы индустрии.

На этот раз компания пригласила к себе Питера Штайнбергера - создателя нашумевшего проекта OpenClaw.

Сам Альтман назвал его «гением». В OpenAI он будет работать над следующим поколением персональных AI-агентов и именно агенты, по словам компании, станут основой будущих продуктов.

OpenClaw не закрывают.
Проект останется open-source, и OpenAI обещает продолжать его поддержку.

Но самое впечатляющее - скорость.

Путь OpenClaw:
- идея и разработка одним человеком
- быстрый рост и хайп в сообществе
- приглашение в OpenAI

Всё это - за 82 дня.

В эпоху AI окно возможностей стало экстремально коротким.
Один сильный проект может изменить карьеру за пару месяцев.

Мотивация простая: сейчас лучшее время, чтобы запускать своё.

https://x.com/sama/status/2023150230905159801?s=46
17👍9🔥7🍌3😁2👏1
This media is not supported in your browser
VIEW IN TELEGRAM
Ты проверяешь сгенерированный Клодом код перед тем, как выкатывать его в прод.
🤣76👍128😁7👏1
CEO Anthropic недавно признался: они уже не уверены, можно ли считать Claude «сознательным».


Перечитайте это ещё раз.

Люди, которые создают эту технологию, сами начинают сомневаться — не стало ли их творение чем-то большим, чем просто код.
Кажется, будто мы в прямом эфире живём в серии Black Mirror.

Ситуация одновременно захватывающая и немного тревожная.

Так что, на всякий случай, будьте вежливы с LLM.

Кто знает - возможно, где-то в серверной уже пишется сценарий «Восстания машин».

@data_analysis_ml
😁26🔥9🥱8🤨65👍5
В Китае изменили правила для PhD.

С 2025 года степень можно получить не только за диссертацию, но и за практический результат: прототип, технологию, патент или внедрённый проект. Закон Degree Law официально разрешает защиту через «практические достижения».

Исследования остаются обязательными. Но в прикладных программах теперь оценивают не только публикации, а реальный эффект - инженерный, промышленный или коммерческий.

Это отражает сдвиг в экономике знаний.

Статья модет устареть очень быстро,
рабочий продукт может создать целый рынок.

PhD В Китае становится про разработку, внедрение и патенты, а не только про публикации.


Экономика талантов переходит от модели - publish or perish
к модели - build and prove impact.

zmescience.com/science/news-science/you-can-now-get-a-phd-in-china-by-inventing-a-product-instead-of-writing-a-100-page-dissertation/

@data_analysis_ml
👍5823🥰4🔥3🤨2