Анализ данных (Data analysis)
48.7K subscribers
2.82K photos
326 videos
1 file
2.38K links
Data science, наука о данных.

@haarrp - админ

РКН: clck.ru/3FmyAp
Download Telegram
Встреча для аналитиков: делимся экспертизой

📆 14 февраля Яндекс проведёт Welcome Time — офлайн-встречу с командой Автономного транспорта. Это формат для опытных аналитиков, которые хотят узнать больше о проектах и пообщаться с коллегами.

Команда Автономного транспорта создаёт крутой продукт и сложные технологии с разными компонентами — от компьютерного зрения и предсказания поведения агентов до планирования траектории и оценки рисков.

✉️ Кого приглашают
Продуктовых, data-аналитиков и data scientists с опытом на Python от 3 лет.

Что будет на Welcome Time
🈂️Рассказы о проектах и специфике работы аналитика в них
🈂️Ответы на вопросы участников
🈂️Нетворкинг с коллегами из индустрии
🈂️Разбор бизнес-кейсов и награждение за лучшие решения
🈂️Диагностика навыков по аналитике и матстату для желающих

В рамках диагностики обсудят те же темы, что и на реальных собеседованиях. Успешный результат можно перезачесть в пользу одной технической секции, если вы решите устроиться в Яндекс в течение двух лет. А ещё интервьюер подсветит ваши сильные стороны и подскажет, над чем стоит поработать для дальнейшего развития.

Подробности программы и регистрация — на сайте.
Please open Telegram to view this post
VIEW IN TELEGRAM
7👍5🔥4🤣4
Media is too big
VIEW IN TELEGRAM
🇨🇳 Ant Group выпустили LingBot-Depth — open-модель, которая закрывает одну из самых больных проблем робототехники

Это редкий случай, когда софт реально лечит хардверную боль.

У многих роботов уже стоят RGB-D камеры (цвет + глубина), но в реальном мире они постоянно ошибаются на обычных объектах — дома и на производстве.

Главная проблема
Depth-камеры часто «ломаются» на:
- блестящем металле
- стекле и зеркалах
- тёмных и однотонных поверхностях

В 3D-карте появляются дыры или неправильные расстояния.
Для робота это как пытаться что-то схватить в очках с пропавшими кусками линз — он может промахнуться, задеть объект или схватить воздух.

Старые методы обычно:
- игнорируют плохие области
- или размазывают соседние значения по дыркам

В итоге форма объекта в 3D получается искажённой.

Что делает LingBot-Depth

Это модель, которая учится восстанавливать глубину, используя:
- обычное цветное изображение
- те участки depth-карты, где данные ещё валидны

Во время обучения модели специально «выключают» большие куски depth-изображения и заставляют её восстанавливать их по RGB + остаткам глубины.
Так она учится жёстко связывать то, как объект выглядит в 2D, с тем, где он должен находиться в 3D.

Ключевой момент — сохранение метрического масштаба.
Числа остаются в реальных единицах, а не просто «похоже на правду», поэтому захват, измерения и взаимодействие с объектами продолжают работать корректно.

Выпущены 2 версии:
- общий depth-refiner
- depth-completion версия, способная восстанавливать плотную глубину даже когда валидно меньше 5% пикселей

Модель выложена на Hugging Face подразделением Robbyant — это embodied AI и робототехническое направление Ant Group.

github.com/Robbyant/lingbot-depth
11👍5🔥3
⚡️ GLM-OCR 0.9B - мощный OCR для сложных документов

Модель показывает SOTA-результаты в задачах понимания документов, оставаясь компактной и быстрой.

Она справляется там, где обычный OCR ломается:

- распознавание формул
- извлечение таблиц
- структурированное извлечение информации
- сложная разметка документов

И всё это при размере менее 1 миллиарда параметров - без тяжёлых инфраструктурных требований.

Подходит для:
- научных статей
- финансовых отчётов
- технической документации
- PDF со сложной версткой

Модель не просто “читает текст”, а понимает структуру страницы.

Веса: http://huggingface.co/zai-org/GLM-OCR
Демо: http://ocr.z.ai
API: http://docs.z.ai/guides/vlm/glm-ocr
Please open Telegram to view this post
VIEW IN TELEGRAM
17👍7🔥5
🖥 Большинство “парсеров” умирают через 2 дня.
Ты научишься делать те, которые живут в проде.

Это не про BeautifulSoup ради галочки.
Это про системы сбора данных, которые:

• не падают от мелких правок на сайте
• собирают данные в разы быстрее
• обновляют всё сами по расписанию
• обходят ограничения и баны
• выглядят как сервис, а не хаос из файлов

Ты начнёшь видеть сайты не как страницы, а как источники данных, к которым можно подключиться.

В итоге ты сможешь:

• забирать данные для своих проектов
• автоматизировать чужую рутину
• делать инструменты для аналитики
• брать коммерческие заказы на сбор данных

Это навык, который напрямую превращается в деньги.
Не “знаю Python”, а умею добывать данные из интернета профессионально.

🎁 48 часов скидка 50% на Stepik: https://stepik.org/a/269942/
Please open Telegram to view this post
VIEW IN TELEGRAM
🤣106👍3🔥2🙏2
🚀 Tencent мощно заходит в тему context learning.

Вышел open-source бенчмарк CL-bench - и это не просто очередной датасет, а попытка сдвинуть фокус всей индустрии.

Tencent HY совместно с Fudan University выпустили новую работу:
“CL-bench: A Benchmark for Context Learning” - системный бенчмарк для оценки того, *насколько модели реально умеют думать в контексте*, а не просто вспоминать выученное.

Это первый ресерч-релиз команды Vinces Yao после его перехода в Tencent - и по амбициям видно, что ребята метят в фундаментальные изменения.

Сегодня большинство LLM живут по схеме:
огромные веса + запомненные паттерны = ответы

Но реальный мир - это не экзамен по памяти. Это:

- длинные, запутанные контексты
- противоречивая информация
- необходимость менять стратегию по ходу
- выводы на основе того, что появилось только что

Моделям нужно переходить от static memorization к dynamic reasoning inside context.

CL-bench как раз проверяет это место разлома:

- как модель использует контекст, а не только веса
- умеет ли она обновлять понимание
- способна ли рассуждать в сложных сценариях, а не на чистых QA-задачах

По сути - это шаг в сторону моделей, которые ближе к агентам, чем к “умным автокомплитам”.

Плюс стратегический сигнал

Одновременно Tencent запускает Tencent HY Research - блог, где будут публиковать frontier-исследования.

Это выглядит как заявка:
“Мы не просто треним большие модели. Мы хотим влиять на то, как их вообще оценивают.”

А это уже уровень влияния на направление всей области.
CL-bench - это не про +0.5% на лидерборде.
Это про смену парадигмы:

LLM будущего = меньше зубрежки, больше мышления в живом контексте.

И если эта линия выстрелит - именно такие бенчмарки будут решать, кто реально сделал “умную” модель, а кто просто раздул параметры.

🌐 Project Page: http://clbench.com
📖 Blog: https://hy.tencent.com/research
10👍7🔥3
Не двигайтесь: вы в ИИ-кадре

Этот бот создает фото для соцсетей в футуристичном стиле. Его можно поставить на аватарку, особенно если идете на t-sync conf. Конференция от Группы «Т-Технологии» для опытных инженеров впервые пройдет в Москве 7 февраля.

Попробовать бота можно здесь. А узнать больше о t-sync conf и зарегистрироваться — здесь
🤣63👍1🔥1🌭1
🚀 Towards a Science of Scaling Agent Systems, когда и почему агентные системы работают

Google Research сделали важный шаг к научному пониманию того, как правильно масштабировать AI-агентов, а не просто добавлять их “на глаз”.

Речь о системах, где LLM-агенты не только отвечают, а планируют, рассуждают и выполняют действия во внешней среде.

Исследователи протестировали 180 разных конфигураций агентных систем, меняя:
• количество агентов
• способы координации
• типы задач

И смотрели, как это влияет на итоговую эффективность.

Главные выводы

Больше агентов - не всегда лучше
Добавление агентов помогает, когда задачу можно распараллелить.
Но в задачах с последовательной логикой это может даже ухудшить результат.

Совместная работа агентов полезна для сложных аналитических задач,
но коммуникация между ними создаёт накладные расходы.

Централизованный контроль часто эффективнее
Архитектуры с координатором могут давать лучший баланс между качеством решений и устойчивостью к ошибкам, чем полностью независимые агенты.

Авторы показали, что можно заранее оценивать, какая архитектура агентной системы подойдёт для конкретного типа задач.

До этого multi-agent AI проектировали в основном на интуиции.
Теперь появляется база, которая показывает:

Важно не число агентов, а то, насколько архитектура совпадает со структурой задачи.

Это шаг от “экспериментов на удачу” к настоящей инженерной науке об агентных системах.

https://research.google/blog/towards-a-science-of-scaling-agent-systems-when-and-why-agent-systems-work/
13👍6🔥4
🚀 Вышла новая модель для кодинга - Qwen3-Coder-Next (линейка Qwen).

Это open-weight LM, заточенная под кодинг-агентов и локальную разработку.

Что внутри
:

🤖 Около 800K проверяемых задач + окружения, где код можно реально исполнять, а не просто генерировать текст.

📈 Баланс эффективность / качество
Модель с 80B общих параметров и ~3B активных показывает сильные результаты на SWE-Bench Pro при относительно экономичном инференсе.

Экосистема инструментов
Заявлена поддержка сценариев с агентами и дев-инструментами: OpenClaw, Qwen Code, Claude Code, веб-разработка, работа через браузер, Cline и т.д.

В целом это ещё один шаг к моделям, которые проектируются не просто как "LLM для текста", а как движок для реальных кодинг-агентов.

🤗 Hugging Face: https://huggingface.co/collections/Qwen/qwen3-coder-next
🤖 ModelScope: https://modelscope.cn/collections/Qwen/Qwen3-Coder-Next
📝 Blog: https://qwen.ai/blog?id=qwen3-coder-next
📄 Tech report: https://github.com/QwenLM/Qwen3-Coder/blob/main/qwen3_coder_next_tech_report.pdf

@data_analysis_ml
👍1710🔥4😁2
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ ElevenLabs выложили новый open-source репозиторий - Skills

Это набор plug-and-play инструментов для voice AI-агентов, которые можно подключать как готовые «навыки».

Что внутри

В пакете есть готовые модули:

- text-to-speech
- speech-to-text с таймкодами
- голосовые агенты
- генерация звуковых эффектов
- музыка, сгенерированная ИИ

То есть это не просто API, а строительные блоки для голосовых систем.

Как это устроено

Skills соответствуют спецификации Agent Skills, поэтому их можно использовать в агентных пайплайнах и подключать к инструментам для кодинга-агентов, например к OpenClaw.

Интеграция

Подключать можно через:

- Python
- TypeScript
- cURL

Всё работает поверх ElevenLabs API.

По сути, это шаг к тому, чтобы голосовые возможности стали таким же стандартным «инструментом агента», как веб-поиск или выполнение кода.

https://github.com/elevenlabs/skills
Please open Telegram to view this post
VIEW IN TELEGRAM
13🔥9👍3
This media is not supported in your browser
VIEW IN TELEGRAM
🎥 Kling 3.0 официально вышла.

Новая версия делает серьёзный шаг в сторону полноценного “киношного” продакшена на базе ИИ.

Что внутри:

- Генерация видео 3–15 секунд в 1080p
Стабильное качество и сильная консистентность - персонажи, сцены и стиль сохраняются между кадрами без резких искажений.

- Нативный звук с несколькими персонажами
Модель работает с диалогами и разными голосами внутри одной сцены.

- Видео-персонаж как референс
Можно загрузить или записать видео персонажа и использовать его как основу - с сохранением внешности и согласованности голосов.

- Контроль стартового и конечного кадра
Даёт больше режиссёрского контроля над сценой, переходами и логикой движения.

- Новый Custom Multishot
Инструменты для сборки сцен из нескольких шотов с сохранением целостности истории и визуала.

Главное изменение - улучшенная динамика и “физика” движения.
Движения, взаимодействия объектов, темп сцены и переходы стали достаточно согласованными, чтобы создавать ролики уровня “почти кино” - где motion, continuity и pacing ощущаются связно, а не как набор отдельных сгенерированных кусков.

https://app.klingai.com/global/release-notes/whbvu8hsip?type=dialog
10👍5🥴4🔥2
🧠 Google придумали способ сделать AI-модели быстрее и легче без потери точности

В новом исследовании Google представили подход под названием Sequential Attention.

Идея простая по смыслу, но мощная по эффекту - модель учится фокусироваться только на действительно важных частях вычислений, а всё лишнее постепенно отбрасывает.

Почему это вообще проблема

Современные нейросети огромные. Они:
- считают слишком много
- используют кучу признаков и параметров
- тратят много памяти и энергии

При этом далеко не всё, что модель обрабатывает, реально влияет на итоговый ответ.

Но определить заранее, что важно, а что нет - математически очень сложно.

Что делает Sequential Attention. Метод работает пошагово.

Вместо того чтобы сразу использовать всё, алгоритм:
1. Выбирает один самый полезный компонент
2. Смотрит, что уже выбрано
3. Добавляет следующий, который даёт наибольшую пользу
4. Повторяет процесс последовательно

То есть модель как будто собирает себя заново-— из самых значимых частей, а не из всего подряд.

Что это даёт на практике

- Меньше вычислений - модель работает быстрее
- Меньше нагрузка на память и железо
- Ниже энергопотребление
- И самое главное - точность почти не страдает

Это редкий случай, когда становится и быстрее, и дешевле, без серьёзных компромиссов по качеству.

Размеры моделей растут быстрее, чем инфраструктура. Поэтому ключевой тренд - не просто делать модели больше, а делать их умнее в плане вычислений.

Sequential Attention - это шаг в сторону “бережливого ИИ”, где:
- не каждая операция обязательна
- не каждый параметр нужен всегда
- модель учится экономить ресурсы сама

И чем крупнее системы, тем ценнее такие подходы.

https://research.google/blog/sequential-attention-making-ai-models-leaner-and-faster-without-sacrificing-accuracy/?

@data_analysis_ml
18👍16🔥5
Подборка полезных вебинаров по внедрению AI ⌛️

Когда знания разбросаны по чатам и папкам, сотрудники теряют время, решения принимаются медленно, а ошибки повторяются. А в бизнесе, где все быстро меняется, важно обеспечить быструю коммуникацию, автоматизацию задач и эффективное управление данными.


На вебинарах 10 и 19 февраля эксперт Cloud.ru расскажет, как быстро выстроить единую и безопасную инфраструктуру знаний, развернув корпоративную Wiki-систему Outline, и как внедрить AI-чат, чтобы улучшить процессы и повысить эффективность вашей компании.

▫️Зарегистрироваться на вебинар 10 февраля — База знаний с AI: создаем корпоративную Wiki в облаке

😶‍🌫️как развернуть и масштабировать корпоративную Wiki на базе виртуальных машин и объектного хранилища для надежного управления данными;

😶‍🌫️как настроить единую точку входа (SSO) для централизованной аутентификации и безопасного доступа сотрудников;

😶‍🌫️как интегрировать AI-помощника, создав Telegram-бота с прямым подключением к базе знаний через MCP-сервер для мгновенных ответов на вопросы.


▫️Зарегистрироваться на вебинар 19 февраля — Собираем корпоративный AI-чат: от выбора модели до работающего прототипа

😶‍🌫️какие open source решения представлены на рынке, какие выбрал Cloud.ru и почему;

😶‍🌫️преимущества вашего AI-чата перед SaaS: плюсы и минусы, а также безопасность данных и соответствие законодательству;

😶‍🌫️протестированные архитектурные решения: от варианта для быстрого старта до отказоустойчивой системы для больших нагрузок.
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍4🔥3🥴2🤔1
📌 Vercel Agent Browser - интервьюируемые ассистенты для браузерных приложений

Это экспериментальный SDK от команды Vercel, который позволяет создавать интерактивных агентов прямо внутри браузера. Агент может выполнять действия, понимать контекст, управлять состоянием UI и комбинировать LLM-модели с событиями и логикой фронтенда.

🔥 Что делает Agent Browser:

• Позволяет интегрировать большие языковые модели прямо в браузерные интерфейсы.

• Агент может опрашивать страницу, читать DOM, реагировать на события пользователя.

• Обеспечивает контекстный доступ к состоянию приложения.

• Позволяет модели влиять на UI, управлять данными, взаимодействовать с пользователем “по-человечески”.

• Поддерживает плагинную архитектуру — добавляй свои обработчики задач и действий.

💡 Примеры кейсов:

Автогенерация изменений интерфейса на основе текстовых команд
Интеллектуальные помощники, которые понимают текущую страницу
Автоматизация рутины в браузерных приложениях
Комбинация событий пользователя + LLM логики в одном потоке

📌 Почему это важно:

Раньше браузерные ассистенты были ограничены простыми chat UI или webhook-ами. Agent Browser даёт полноценного агента, который может читать/писать в браузерном окружении, опрашивать DOM, слушать события, управлять состоянием и контекстом — это новый уровень взаимодействия.

👉 Если работаешь с frontend + LLM — обязательно глянуть.

🔗 Репозиторий: https://github.com/vercel-labs/agent-browser
7👍4🔥3
🚀 Вышел Protenix-v1 - первая open-source модель, заявляющая уровень качества AlphaFold 3

За релизом стоит ByteDance, и это серьёзная заявка на open-source в биоинформатике.

Что делает релиз интересным:

🔹 Качество на уровне AF3
Заявлена производительность уровня DeepMind AlphaFold 3, а это уже не просто академическая игрушка, а лига передовых структурных моделей.

🔹 Подтверждено scaling-поведение на инференсе
Модель показывает ожидаемый рост качества при увеличении вычислений во время вывода — редкая и важная характеристика для научных моделей.

🔹 Поддержка RNA MSA и protein templates
Работает не только с белками, но и с РНК-выравниваниями и шаблонами структур — ближе к реальным исследовательским сценариям.

🔹 Отдельная версия на большем датасете
Вышел Protenix-v1-20250630 - дообученная версия с расширенными данными.

🔹 PXMeter v1.0.0
Свой toolkit для бенчмаркинга:
6k+ комплексов, time-split, domain-specific подмножества — меньше «магии», больше воспроизводимости.

Фактически это шаг к тому, чтобы уровень структурного предсказания, раньше доступный только топ-лабораториям, стал open-source инструментом. Для биотеха, фармы и ML-исследователей - очень громкое событие.

🔗 Code: https://github.com/bytedance/Protenix
🔗 Eval toolkit: https://github.com/bytedance/PXMeter
🔗 Online server: https://protenix-server.com
4