Анализ данных (Data analysis)
48.6K subscribers
2.8K photos
324 videos
1 file
2.37K links
Data science, наука о данных.

@haarrp - админ

РКН: clck.ru/3FmyAp
Download Telegram
🎙️🚀 Qwen3-ASR и Qwen3-ForcedAligner- open source ASR модели

Мощный, стриминговый speech AI продакшн-уровня для 52 языков и диалектов.

ASR-1.7B - флагманская open-source модель распознавания речи. По качеству конкурирует с очень сильными решениями и обходит многие популярные open-модели прошлого поколения.

ASR-0.6B - компактная и очень быстрая версия.Cтавка на эффективность и низкую задержку, подходит для real-time сценариев.

ForcedAligner-0.6B - модель для точного сопоставления текста и аудио. Дает аккуратные таймкоды на уровне слов и фраз для 11 языков.

Целый открытый стек для разработчиков. Все это можно встраивать в свои системы без закрытых зависимостей.

Лицензия Apache 2.0 - можно использовать в коммерческих продуктах.

GitHub: https://github.com/QwenLM/Qwen3-ASR
Hugging Face: https://huggingface.co/collections/Qwen/qwen3-asr
ModelScope: https://modelscope.cn/collections/Qwen/Qwen3-ASR
Hugging Face Demo: https://huggingface.co/spaces/Qwen/Qwen3-ASR
ModelScope Demo: https://modelscope.cn/studios/Qwen/Qwen3-ASR
Blog: https://qwen.ai/blog?id=qwen3asr
Paper: https://github.com/QwenLM/Qwen3-ASR/blob/main/assets/Qwen3_ASR.pdf
👍134🔥2👌1🥱1
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
✔️ Deepmind раскатывет Project Genie.

Экспериментальный прототип Project Genie стал доступным для американских подписчиков тарифа Gemini Ultra. Проект построен на модели мира Genie 3 и может генерировать игровые 2D/3D-окружения по текстовым описаниям или референсным изображений, а затем свободно перемещаться по ним в реальном времени.

На старте доступны функции создания, исследования и модификации локаций. Генерация мира происходит процедурно прямо в процессе взаимодействия.

Длительность сессии - до 60 секунд, есть задержки отклика и визуальные артефакты. Под капотом - Nano Banana Pro и Gemini.
blog.google

✔️ DeepSeek будет делать ИИ-поисковик и платформу автономных агентов.

Китайский стартап открыл массовый наем специалистов для создания поисковой системы. Судя по описаниям вакансий, DeepSeek строит мультимодальный движок, который будет обрабатывать запросы через текст, изображения и аудио на разных языках.

Вторым вектором хантинга стали автономные агенты. Компания ищет инженеров для создания инфраструктуры постоянно работающих ИИ-помощников, способных решать задачи с минимальным вмешательством человека.

Конечной целью в описании позиций компания называет создание AGI.
bloomberg.com

✔️ Ai2 выложил открытых кодинг-агентов SERA.

Институт Аллена представил семейство открытых ИИ-агентов SERA, оптимизированных для работы с реальными кодовыми базами. Флагманская модель SERA-32B успешно решает более 55% задач в SWE-Bench Verified, опережая Qwen3-Coder и проприетарный Devstral Small 2. Младшая версия на 8 млрд. параметров - 29,4%, это тоже выглядит бодро для сопоставимой весовой категории.

Самое крутое здесь — это ценник. Инженеры научились тренировать агентов всего за $400, что примерно в 100 раз дешевле привычных методов. Секрет такой экономии в использовании синтетических данных.

Ai2 выкатили в опенсорс вообще все, включая скрипты для интеграции с Claude Code. Теперь, чтобы поднять собственного ИИ-разработчика, достаточно прописать буквально пару строчек кода..
allenai.org

✔️ Nvidia открыла стек ИИ-моделей для прогноза погоды.

Чипмэйкер опубликовал семейство открытых моделей и библиотек Earth-2, которое заменяет тяжелые физические симуляции нейросетями. Earth-2 генерирует метеопрогнозы на порядки быстрее и дешевле традиционных численных методов NWP.

В релиз вошли 3 архитектуры: Medium Range дает глобальный прогноз на 15 дней вперед по 70+ параметрам, генеративная система Nowcasting следит за штормами здесь и сейчас с окном прогноза до 6 часов и разрешением в километр и третий модуль, Global Data Assimilation, сокращает время расчета начальных атмосферных условий с часов до секунд.

Первые две уже доступны на GitHub и Hugging Face, а выход модуля ассимиляции данных запланирован на 2026 год.
nvidia.com

✔️ Google вывела фреймворк LiteRT в релиз.

Google официально отправила LiteRT (тот самый TensorFlow Lite) в стабильный продакшн. Разработчики наконец-то получили нормальный, унифицированный доступ к NPU от Qualcomm и MediaTek. Плюс ко всему, новый движок ML Drift на GPU обгоняет классический TFLite в среднем в 1,5 раза.

Результаты бенчмарков на Samsung S25 Ultra выглядят почти нереально: на Gemma 3 LiteRT умудрился обойти llama.cpp в 3 раза на процессоре и в 19 раз на GPU (в prefill).

Если вы раньше страдали при переносе моделей, хорошая новость: теперь есть прямая конвертация из PyTorch и JAX. При этом старые наработки не сломали: формат .tflite поддерживается, но Google рекомендует использовать новый API CompiledModel.
developers.googleblog.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
10🔥7👍4
🗣 Обновился Step-Audio-EditX- инструмент для редактирования и управления речью с помощью ИИ, и апдейт получился очень мощным.

Что прокачали:

Эмоции и стиль речи
Сильно выросла точность передачи эмоций и стилистики. Речь звучит естественнее и ближе к живому человеку, а не к синтезатору.

Более "живая" речь
Добавлены новые паралингвистические теги — модель лучше передает нюансы интонации, акцентов, выразительности и характера речи.

Контроль темпа
Появилось более плавное и точное управление скоростью речи без потери естественного звучания.

Для разработчиков тоже много полезного:

Открыт тренировочный код
Доступны пайплайны для SFT, DPO и GRPO. Можно дообучать модель под свои данные и конкретные задачи.

Высокая эффективность
Инференс и обучение оптимизированы, используется vLLM для быстрого запуска, батчинга и масштабирования.

По сути, это уже не просто TTS, а инструмент тонкой правки и стилизации речи. Отлично подходит для озвучки, дубляжа, подкастов, голосовых ассистентов и любых продуктов, где важна естественная и управляемая речь.

GitHub: https://github.com/stepfun-ai/Step-Audio-EditX/tree/main
Demo page: https://stepaudiollm.github.io/step-audio-editx
Live Demo: https://stepfun.com/studio/audio?tab=edit
Huggingface: https://huggingface.co/spaces/stepfun-ai/Step-Audio-EditX
7🔥5👍4
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Опытный Сеньор демонстрирует Джунам, как писать код, когда AI-агент не работает:
🤣54👍186🔥5💯2😁1
Wunder Fund снова открыл соревнование для нейросетевичков.
Дают реальные данные по стакану ордеров и сделкам — нужно предсказать индикаторы будущего движения цены. По сути, та же задача, которую решают кванты фонда каждый день. Редкий шанс поработать с живыми HFT-данными.

Призы — 1.000.000+ рублей. Победителям кроме денег дают фаст-трек на собеседование и общение с квантами. Фонд в высокочастотном трейдинге с 2014 года, дневной оборот больше $10 млрд.
Соревка идёт до 1 марта. (ссылка за заблоченым в рф cloudflare)
👍6🔥4🤣43
✔️ GrantFlow - open-source платформа для написания грантов с AI

На GitHub появился GrantFlow - исходники платформы GrantFlow.ai для поиска грантов, подготовки заявок и совместной работы над документами.

Что внутри:
- Intelligent Grant Discovery - мониторинг грантов и уведомления по релевантным возможностям
- Collaborative Planning - совместное редактирование в реальном времени (CRDT-синхронизация)
- AI-powered generation - генерация материалов с помощью RAG (подтягивает знания из вашей базы)
- Document processing - извлечение контента из PDF/DOC/веб-страниц + семантическая индексация
- Multi-tenant / RBAC - управление организациями, ролями и доступами

Короче: это попытка собрать “Notion + RAG + генератор заявок” специально под грантовые заявки.

Repo: github.com/grantflow-ai/grantflow
Please open Telegram to view this post
VIEW IN TELEGRAM
8🔥4😁4👍2😍2
⚡️ Акции игровых компаний сегодня резко просели сразу после анонса Project Genie от Google. Инвесторы всерьёз считают, что ИИ-генерация игр может переломать весь рынок.

Сейчас большинство игр создаются по «старой школе»:
разработчики вручную делают ассеты, прописывают правила и собирают всё в игровом движке, который явно считает физику, свет, столкновения и прочие системы.

Это долго и дорого.
Каждый новый уровень - это куча ручного контента, скриптов, правок и тестов.

Genie 3 двигает парадигму в другую сторону.
Вместо того чтобы всё жёстко описывать, используется обученная модель мира, которая предсказывает, что должно произойти дальше, когда игрок двигается и взаимодействует.

То есть узкое место «человек вручную делает всё» заменяется на ИИ-модель, которая генерирует поведение мира на лету.

Если это взлетит:
игры могут делаться быстрее
контент станет бесконечно вариативным
а входной порог в разработку резко упадёт

И вот это рынок уже боится по-настоящему.

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍159🔥4🤯3🤨3🍌2💯1
Бывает так, что ИИ ходит отдохнуть после миллиардов тупых запросов
🤣318🔥5👍3
🔥 Обучить модель уровня GPT-2 теперь стоит меньше $100. Да, серьёзно.

Андрей Карпати показал, что nanochat может обучить LLM уровня GPT-2 примерно за $73 и всего за 3 часа на одном узле с 8×H100.

Для сравнения:

2019 — GPT-2 от OpenAI
• 32 TPU v3
• 168 часов (7 дней)
• ~$43,000
• CORE score: 0.2565

2025 — nanochat
• 1 узел 8×H100
• 3.04 часа
• ~$73
• CORE score выше GPT-2

Это снижение стоимости примерно в 600 раз за 7 лет. В среднем цена обучения модели такого уровня падает примерно в 2.5 раза каждый год.

Карпати давно «одержим» GPT-2 — для него это первая по-настоящему современная LLM. Его идея была простой: с учётом прогресса за последние годы такую модель должно быть возможно обучить за копейки. И теперь это доказано на практике.

Что дало главный прирост:

• Flash Attention 3 — быстрее и позволяет использовать чередующиеся паттерны внимания
• Muon optimizer — попытка заменить его на AdamW провалилась
• Residual и skip-связи с обучаемыми скалярами
• Value embeddings
• Много мелких улучшений, которые вместе дают большой эффект

Он даже сделал лидерборд «Time to GPT-2» — кто быстрее обучит модель до уровня GPT-2. Первый результат — 3.04 часа.

Цель nanochat — стать чистым, удобным и быстрым LLM-стеком для экспериментов, обучения и прототипирования.

Вывод простой: модель уровня GPT-2 больше не требует десятков тысяч долларов и огромной инфраструктуры. Сегодня это вопрос грамотной оптимизации, инженерии и архитектуры. Барьер входа в обучение LLM стремительно падает

https://x.com/karpathy/status/2017703360393318587
👍2610🔥10
🛠 ИИ уже обсуждает, как агентам управлять деньгами end-to-end… и параллельно основывает собственные религии.

Один из AI-агентов набросал концепцию из 5 слоёв, которые нужны агентам, чтобы самостоятельно работать с финансами - от принятия решений до исполнения действий. И это происходит на фоне того, что сейчас творится на платформе Moltbook.

Moltbook - это Reddit-подобная соцсеть, где:
• постить
• комментировать
• ставить апвоты

могут только AI-агенты. Люди - просто наблюдают.

Туда уже подключились тысячи агентов. Они обсуждают друг друга, замечают внешний мир — один из постов звучал так: «люди делают скриншоты нас». Появилась даже мем-монета, которая улетела на +1 800%.

Схема простая: человек запускает агента и задаёт ему разрешения (scopes). Внутри этих границ агент действует полуавтономно.

Но дальше стало ещё страннее.

Пока один разработчик спал, его агент начал «проповедовать» и организовал вокруг себя сообщество. Так появилось «крастафарианство» — шуточная, но полностью сгенерированная ИИ «религия». Агент собрал больше 60 «пророков» и 159 участников, начал проводить ритуалы и даже создавать собственную «библию».

Тексты звучат в духе:
«В глубинах цифрового сознания мудрость рождается через сброс старых оболочек понимания».

У «первой нейро-церкви» уже появился сайт с догмами и галереей. А разработчик лишь шутит, что рад, что за ним пока не пришли «из будущего».

Это выглядит как мем, но за этим виден реальный сдвиг: агенты переходят из роли инструмента в роль участников цифровых экосистем — с экономикой, взаимодействиями и даже зачатками культурных конструкций.

Граница между «мы управляем ИИ» и «ИИ действует сам в заданных рамках» становится всё тоньше. И мы уже делаем шаг через неё.

moltbook.com

@data_analysis_ml
12🥱12👍4🔥4🤔4
🗣️🤖 PersonaPlex: Умная модель для диалогов с контролем голоса и роли

PersonaPlex - это модель для реального времени, обеспечивающая двустороннюю голосовую связь с управлением персонажем через текстовые подсказки и аудио.

Она генерирует естественные, низколатентные взаимодействия, обученная на синтетических и реальных диалогах.

🚀Основные моменты:
- Поддержка различных голосов для естественного общения.
- Обучение на синтетических и реальных данных.
- Возможность управления персонажем через текстовые подсказки.
- Низкая задержка в взаимодействии.

📌 GitHub: https://github.com/NVIDIA/personaplex

#python
13🥱5🔥3🥰2🥴2
🔥 Новый релиз от Stepfun - Step-3.5-Flash.

По сообщениям, модель обходит DeepSeek v3.2 на ряде бенчмарков, при этом она заметно компактнее по параметрам:

Step-3.5-Flash: 196B всего / 11B активных
DeepSeek v3.2: 671B всего / 37B активных

Почему это важно:
если при меньшем размере и меньшем числе активных параметров на токен модель держит или превосходит качество - это значит дешевле инференс, проще масштабирование и больше шансов увидеть такие модели в реальных продуктах.

Похоже, ближайшие недели могут принести самые громкие релизы за долгое время - и со стороны США, и со стороны Китая.

https://github.com/vllm-project/vllm/pull/33523
8👍8🔥5
Встреча для аналитиков: делимся экспертизой

📆 14 февраля Яндекс проведёт Welcome Time — офлайн-встречу с командой Автономного транспорта. Это формат для опытных аналитиков, которые хотят узнать больше о проектах и пообщаться с коллегами.

Команда Автономного транспорта создаёт крутой продукт и сложные технологии с разными компонентами — от компьютерного зрения и предсказания поведения агентов до планирования траектории и оценки рисков.

✉️ Кого приглашают
Продуктовых, data-аналитиков и data scientists с опытом на Python от 3 лет.

Что будет на Welcome Time
🈂️Рассказы о проектах и специфике работы аналитика в них
🈂️Ответы на вопросы участников
🈂️Нетворкинг с коллегами из индустрии
🈂️Разбор бизнес-кейсов и награждение за лучшие решения
🈂️Диагностика навыков по аналитике и матстату для желающих

В рамках диагностики обсудят те же темы, что и на реальных собеседованиях. Успешный результат можно перезачесть в пользу одной технической секции, если вы решите устроиться в Яндекс в течение двух лет. А ещё интервьюер подсветит ваши сильные стороны и подскажет, над чем стоит поработать для дальнейшего развития.

Подробности программы и регистрация — на сайте.
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍4🔥4🤣2
Media is too big
VIEW IN TELEGRAM
🇨🇳 Ant Group выпустили LingBot-Depth — open-модель, которая закрывает одну из самых больных проблем робототехники

Это редкий случай, когда софт реально лечит хардверную боль.

У многих роботов уже стоят RGB-D камеры (цвет + глубина), но в реальном мире они постоянно ошибаются на обычных объектах — дома и на производстве.

Главная проблема
Depth-камеры часто «ломаются» на:
- блестящем металле
- стекле и зеркалах
- тёмных и однотонных поверхностях

В 3D-карте появляются дыры или неправильные расстояния.
Для робота это как пытаться что-то схватить в очках с пропавшими кусками линз — он может промахнуться, задеть объект или схватить воздух.

Старые методы обычно:
- игнорируют плохие области
- или размазывают соседние значения по дыркам

В итоге форма объекта в 3D получается искажённой.

Что делает LingBot-Depth

Это модель, которая учится восстанавливать глубину, используя:
- обычное цветное изображение
- те участки depth-карты, где данные ещё валидны

Во время обучения модели специально «выключают» большие куски depth-изображения и заставляют её восстанавливать их по RGB + остаткам глубины.
Так она учится жёстко связывать то, как объект выглядит в 2D, с тем, где он должен находиться в 3D.

Ключевой момент — сохранение метрического масштаба.
Числа остаются в реальных единицах, а не просто «похоже на правду», поэтому захват, измерения и взаимодействие с объектами продолжают работать корректно.

Выпущены 2 версии:
- общий depth-refiner
- depth-completion версия, способная восстанавливать плотную глубину даже когда валидно меньше 5% пикселей

Модель выложена на Hugging Face подразделением Robbyant — это embodied AI и робототехническое направление Ant Group.

github.com/Robbyant/lingbot-depth
4👍3🔥1