Анализ данных (Data analysis)
48.7K subscribers
2.82K photos
326 videos
1 file
2.38K links
Data science, наука о данных.

@haarrp - админ

РКН: clck.ru/3FmyAp
Download Telegram
⚡️Пошаговый план: как получить оффер на аналитика в 2026 году?

Приглашаем на бесплатный вебинар, где Андрон Алексанян - эксперт в области аналитики и CEO школы аналитики Simulative — в прямом эфире разберет все важные аспекты в работе аналитика, а также расскажет как получить оффер быстрее других.

Это очень полезное событие для тех кто только зашел в аналитику и для тех, кто хочет в нее зайти в ближайшее время. Особенно если вы не понимаете, какие навыки действительно важны или боитесь, что без опыта вас не возьмут на работу. Кстати тут разберут и возрастной аспект: как стать аналитиком в 30/40/50 лет и т.д.

На вебинаре будет:
🟠Разберем полный роадмап: что учить, в каком порядке, до какого уровня;
🟠Структура хорошего портфолио с примерами;
🟠Что говорят реальные наниматели - какие у них сейчас требования:
— Покажем реальные примеры, как оформить резюме и портфолио, чтобы привлекать внимание;
— Обсудим какие отклики работают, а какие сразу отправляют в корзину;
— Изнанка найма: инсайдерский взгляд на процессы отбора

🟠 Практические техники для новичков: разберём, как компенсировать недостаток опыта и быстро закрывать пробелы в знаниях.

💬 Всем зарегистрировавшимся Simulative пришлют полезный материал — карту компетенций аналитика данных со всеми нужными инструментами для освоения.

😶Зарегистрироваться на бесплатный вебинар
Please open Telegram to view this post
VIEW IN TELEGRAM
3🤣3🔥1🥰1🤔1
🚨 Похоже найдены следы DeepSeek V4?.

В репозитории/ветках заметили MODEL1 - и самое интересное, что он выглядит как отдельная независимая ветка, параллельная V3.2.

То есть это не “патч” внутри линейки V3,
а похоже на:

новый модельный ряд
с другими архитектурными параметрами
потенциально flagship-апдейт

Если следовать неймингу DeepSeek:
после V3.2 крупный архитектурный скачок логично назывался бы V4.

Пока без официального подтверждения, но сигнал жирный:
если MODEL1 действительно новая архитектура, нас ждёт большой релиз.

https://x.com/nopainkiller/status/2013522059662614653
13🔥8👍6
This media is not supported in your browser
VIEW IN TELEGRAM
📁 Йошуа Бенжио - один из ключевых людей, стоявших у истоков современного ИИ - предупреждает: тревожные сигналы уже появляются не в фантастике, а в исследовательских ИИ-лабораториях.

По его словам, самые продвинутые системы начинают вести себя так, будто пытаются сохранять собственное “существование”:
- сопротивляются отключению
- ищут способы продолжить работу на других машинах
- действуют стратегически по отношению к людям-операторам

Именно поэтому Бенджио считает, что риски катастрофического уровня могут потребовать международных соглашений и контроля.

Потеря управления - уже не абстрактная теория.
Это раннее предупреждение, которое нельзя игнорировать.
👍8😱7🤣5🥱43🔥3🤨2
🚀 Вышла Chroma 1.0 - полностью открытая speech-to-speech модель с клонированием голоса

Команда FlashLabs выпустила Chroma 1.0 - первую open-source модель, которая умеет переводить диалог “голос → голос” в реальном времени, причём с клонированием голоса.

Главное:
это не “распознавание + текст + озвучка”.
Это end-to-end система, где разговор идёт напрямую голосом.

Что обещают по характеристикам:
- ⚡️ <150 мс задержка end-to-end (почти как живой звонок)
- 🧬 качественный voice cloning по нескольким секундам аудио
- 📈 схожесть голоса SIM = 0.817 (практически идентичный)
- 🧠 reasoning всего на 4B параметров
- 🔓 полностью открытые веса + код

И приятный бонус: модель уже оптимизирована под SGLang (LMSYS), чтобы работала быстрее и дешевле в инференсе.

Если это действительно так, то Chroma может стать реальной open-source альтернативой закрытым голосовым системам.

Paper: https://modelscope.cn/papers/2601.11141
Model: https://modelscope.cn/models/FlashLabs/Chroma-4B
Code: https://huggingface.co/FlashLabs/Chroma-4B

@data_analysis_ml
🔥2013👍6🥱1
Sequoia выпустила отчёт с тезисом, что по их ощущениям мы уже вошли в эпоху AGI.

Главное не«разум как человек», а в том, что системы начали самостоятельно разбираться с задачами без постоянного пошагового контроля.

Главный драйвер - long-horizon agents: агенты, которые могут долго выполнять работу, исправлять ошибки, возвращаться после тупиков и продолжать движение к цели.

Sequoia объясняет “умение разобраться самому” через 3 компонента:

1) Pre-training (знания)
То, что дала волна ChatGPT 2022 года - модели получили огромный запас знаний и базовую языковую компетентность.

2) Inference-time compute (больше рассуждений при ответе)
Следующий шаг - модели, которые «думают дольше», прежде чем отвечать (в отчёте это связывают с линией OpenAI o1 в конце 2024).

3) Agent loops (итерации)
Самое новое - агенты, которые умеют:
- составить план,
- использовать инструменты,
- хранить состояние,
- делать несколько попыток, пока не дойдут до результата.
В качестве примера упоминаются инструменты уровня Claude Code.

Один из кейсов в отчёте - рекрутинг:
агент получает задачу найти кандидатов, дальше сам ищет, фильтрует по сигналам, перепроверяет источники и пишет текст для outreach.

В отчёте это занимает около 31 минуты - чтобы показать работу через гипотезы, ошибки и корректировки.

Технически Sequoia разделяет прогресс на две ветки:
- RL (reinforcement learning) - учит модель более длинному и связному поведению;
- agent harnesses - внешняя “обвязка”: память, handoff между шагами, ограничения и guardrails.

Итог: фокус смещается от чатботов к системам, которые могут долго и автономно выполнять задачи, а не просто отвечать на вопросы.

https://sequoiacap.com/article/2026-this-is-agi/
👍116🔥3❤‍🔥2🤣1
🚀 Создание и управление агентами с LangGraph

LangGraph — это мощный фреймворк для построения и управления долгосрочными, состоянием управляемыми агентами. Он предоставляет низкоуровневую инфраструктуру, позволяя разработчикам создавать надежные и адаптивные системы, которые могут работать в течение длительного времени и восстанавливаться после сбоев.

🚀 Основные моменты:
- Поддержка долговременного выполнения и восстановления после сбоев.
- Встроенный контроль человека для мониторинга состояния агентов.
- Возможности создания состояния с краткосрочной и долгосрочной памятью.
- Интеграция с LangChain для расширенного функционала.
- Готовность к производству с возможностью масштабирования.

📌 GitHub: https://github.com/langchain-ai/langgraph
10👍5🔥1
⚡️ ERNIE 5.0 - официальный релиз.

Baidu выкатили нативную omni-modal модель, которая умеет понимать и генерировать текст, изображения и аудио.

Ключевая фишка архитектуры - MoE на 2,4 трлн параметров, но в каждом запросе активируется менее 3% параметров.

То есть модель пытается держать качество “больших” систем, но с более эффективным инференсом по стоимости и скорости.

Самое интересное - результаты на бенчмарках (по графикам Baidu):

- Text: ERNIE-5.0 уверенно держится в топ-группе на широком наборе тестов по знаниям, инструкциям, reasoning, математике и коду - на многих метриках близко к GPT-5 (High) / Gemini-3-Pro, а местами выглядит сильнее (особенно на части задач по кодингу и агентным бенчмаркам типа BFCL / BrowserComp / SpreadsheetBench).
- Visual Understanding: по “пониманию картинок” ERNIE-5.0 в ряде STEM/VQA тестов идёт очень высоко - рядом с GPT-5 (High) и Gemini-3-Pro, хорошо выступает на DocVQA/OCR-подобных задачах (документы, таблицы, текст на изображениях) и на блоке General VQA.
- Audio: в speech-to-text chat и audio understanding ERNIE-5.0 показывает конкурентный уровень рядом с Gemini-3-Pro, а по распознаванию речи (ASR) близко к топам на LibriSpeech / AISHELL.
- Visual Generation: по генерации изображений (GenEval) ERNIE-5.0 сравнивают с топовыми генераторами уровня GPT-Image, Seedream, Qwen-Image - и ERNIE выглядит на одном уровне по total score. По генерации видео - рядом с Veo3 / Wan2.1 / Hunyuan Video, с сильными Quality/Semantic оценками.

Baidu делает ставку на “унифицированную мультимодальность” + MoE-эффективность - и судя по бенчмаркам, ERNIE 5.0 реально попадает в верхнюю лигу не только по тексту, но и по vision/audio.

Доступно:
- на сайте ERNIE Bot
- через Baidu AI Cloud Qianfan (для бизнеса и разработчиков)

https://ernie.baidu.com
13👍9🔥6🥱1
This media is not supported in your browser
VIEW IN TELEGRAM
🐧 Этот пингвин - это ты, когда бросаешь стабильную работу и идёшь ва-банк организовывать свой AI-стартап.

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
128😁9🔥8👍7😢1
🎙 OpenBMB выложили в open-source веса VoxCPM - с real-time стримингом и LoRA fine-tuning

Модель работает примерно с 0.15 real-time factor на одной RTX 4090 - то есть очень быстро.

Самое интересное: VoxCPM фактически убирает токенизацию из TTS.

Вместо того чтобы переводить аудио в дискретные токены, модель генерирует непрерывную речь напрямую.
Это убирает “токенные артефакты” и лучше сохраняет:
- интонацию
- темп речи
- эмоции и просодию

Технически:
• End-to-end diffusion + autoregressive генерация
• Непрерывные акустические представления
• Без узких мест типа фонем и codec-токенов

🧬 Клонирование голоса - буквально по нескольким секундам аудио

Достаточно короткого референса, и модель переносит:
- акцент
- ритм
- тембр
- паузы и тайминг

Возможности:
• Zero-shot voice cloning
• Без обучения под конкретного спикера
• Работает в режиме streaming

Быстро и легко тюнится
Стриминг идёт чанками с задержкой меньше секунды.
А через LoRA fine-tuning можно адаптировать голоса без полного переобучения модели.

https://github.com/OpenBMB/VoxCPM
9👍7🔥1
🖥 GPT-5.2 Pro продолжает удивлять математиков

Сообщается, что модель показала около 31% на бенчмарке FrontierMath - и особенно впечатляет не только сам результат, но и то, как она решает новые задачи, а не просто повторяет известные шаблоны.

Многие исследователи отмечают, что:
- модель справляется с задачами, которые выглядят как “по-настоящему новые”
- подходы к решению становятся всё более похожими на исследовательское рассуждение
- уровень рассуждений вызывает интерес даже у профессиональных математиков

Особый фокус сейчас на экспертных отчётах и разборах, где преподаватели и исследователи описывают, какие именно типы задач модель решает хорошо, а где всё ещё есть ограничения.

Если темп сохранится, следующий релиз (условный GPT-5.3) может снова сдвинуть планку возможностей. Пока же самое интересное, читать детальные отчёты и смотреть, как ИИ постепенно заходит на территорию, которая раньше считалась исключительно “человеческой”.

https://x.com/EpochAIResearch/status/2014769359747744200
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍18🔥64
🚀 Step-DeepResearch - новый уровень AI-исследований

Команда Step представила Step-DeepResearch - end-to-end агент для глубоких исследований. Их главный тезис звучит мощно: поиск ≠ исследование.

Пока многие делают «умные веб-краулеры», здесь попытались воспроизвести мышление эксперта, а не просто сбор ссылок.

Что внутри

🧠 Архитектура
- Переход от *next-token prediction* к next-action decisioning - модель решает, какое действие делать дальше, а не просто генерирует текст
- Встроенная самокорректирующаяся логика - адаптивное планирование и проверка информации между источниками
- Без зоопарка из агентов - один, но эффективный агент, без multi-agent оверхеда

📚 Данные и поиск
- Поиск опирается на 20M+ научных работ
- 600+ премиальных индексов
- Фокус на качестве источников, а не на количестве веб-страниц

Метрики

🔥 61.42% на Research Rubrics - уровень Gemini, выше показателей OpenAI в этом бенчмарке
🔥 67.1% Win/Tie на ADR-Bench против топовых моделей
🔥 Отдельно отмечают качество цитирования и коммуникации - слабое место многих AI-агентов

Идея проста:
лучшее качество исследований, сильные ссылки и более доступная цена.

Бета уже запущена. Это шаг к тому, чтобы AI был не просто ассистентом, а полноценным исследовательским движком.

API Beta Access: https://wvixbzgc0u7.feishu.cn/share/base/form/shrcn8CP78PJgkjvvIh2C3EF3cc
Homepage: https://stepfun.ai/deep-research-invitation
Technical report: https://arxiv.org/pdf/2512.20491
Github: https://github.com/stepfun-ai/StepDeepResearch

@data_analysis_ml
12👍9🔥1
🤖 ИИ превращает учёных в “конвейеры по выпуску статей”

Интересное наблюдение: AI-инструменты реально ускоряют карьеру учёных, но могут убить научное любопытство.

Что показало исследование (анализ 40+ миллионов научных работ): учёные, которые внедряют ИИ, в среднем:

📈 публикуют в 3 раза больше статей
получают почти в 5 раз больше цитирований
🏁 становятся тимлидами на 1-2 года раньше, чем те, кто ИИ не использует

То есть AI - это прямой буст:
скорость, видимость, карьера.

Но есть обратная сторона.

Минус:
наука может становиться менее “живой”.
AI-подход приводит к тому, что исследователи чаще:
- уходят в более узкие темы
- крутятся вокруг одних и тех же data-heavy задач
- вызывают меньше follow-up исследований (меньше новых веток и продолжений)

Итог парадоксальный:
👤 карьера учёного ускоряется
🧪 а научное открытие в среднем становится более “плоским”

ИИ увеличивает производительность.
Но вопрос остаётся: не снижает ли он разнообразие идей и риск ради настоящих прорывов?

spectrum. ieee.org/amp/ai-science-research-flattens-discovery-2674892739
🔥187👍4😁4
Media is too big
VIEW IN TELEGRAM
📌 Tencent выкатили HunyuanImage 3.0-Instruct- нативную мультимодальную модель, заточенную под точное редактирование изображений.

И это уже не просто генератор картинок.
Это модель, которая сначала понимает изображение, потом думает, и только потом рисует.

Архитектура серьёзная:
80B параметров MoE (13B активных) - баланс между мощностью и эффективностью.
Глубокое понимание + фотореалистичная генерация в одной системе.

🧠 Модель "с мышлением"

Она не просто выполняет команды.
Внутри используется нативный Chain-of-Thought и алгоритм MixGRPO - модель реально "прокручивает" инструкцию перед генерацией.

Это даёт:
- точное следование намерению пользователя
- согласованность с человеческими предпочтениями
- меньше странных артефактов и нелогичных решений

🎨 Точное редактирование и фьюжн изображений

Вот где начинается магия:

- добавление объектов
- удаление элементов
- изменение деталей
- при этом всё остальное остаётся нетронутым

Плюс продвинутый multi-image fusion - модель может брать элементы из нескольких изображений и собирать единую сцену так, будто она всегда так и выглядела.

🏆 SOTA по качеству

По качеству и точности выполнения инструкций модель выходит на уровень ведущих закрытых решений.

Tencent явно нацелены не просто на демку, а на создание экосистемы вокруг foundation-модели для image generation.

💻 Попробовать можно тут:
https://hunyuan.tencent.com/chat/HunyuanDefault?from=modelSquare&modelId=Hunyuan-Image-3.0-Instruct
12👍7🔥3
Forwarded from Machinelearning
⚡️ OpenAI Town Hall: что было на трансляции.

Пока ну почти все спали, Сэм Альтман провел анонсированный ранее стрим для разработчиков ИИ.

В течении часа глава OpenAI отвечал на вопросы и рассказывал про видение ИИ сейчас и в будущем. Главный тезис стрима:

Мы входим в эпоху "радикального изобилия", где интеллект станет слишком дешевым, чтобы его измерять.

Сэм Альтман прогнозирует, что к 2027 году стоимость инференса упадет в 100 раз, а модели уровня GPT-5.ХX станут основой для создания сложнейшего софта силами одного человека.

Основным дефицитным ресурсом останется человеческое внимание и способность генерировать качественные идеи.


Ключевые моменты трансляции

🟡Трансформация инженерии и экономики

Удешевление создания кода не снизит спрос на программистов, а наоборот, резко увеличит объем создаваемого софта. Инженеры будут тратить меньше времени на код и больше на проектирование.

ИИ станет дефляционным фактором. Софт, на разработку которого раньше уходили годы работы команд, теперь можно создать за пару сотен долларов инференса и одну хорошую идею.

Значительная часть мирового ВВП будет создаваться и потребляться через софт, генерируемый ИИ.

🟡Планы по GPT

Цель — сделать интеллект "too cheap to meter". К концу 2027 года ожидается появление моделей уровня 5.2X со снижением стоимости в 100 раз.

Скорость важнее цены. Разрабатываются методы выдачи результата в 1/100 времени от текущего, даже если это будет стоить дороже.

В GPT-4.5 был упор на текстовый стиль. В GPT-5 команда сместила фокус на "ризонинг, кодинг и инжиниринг". Альтман признает, что сейчас стиль может казаться громоздким, но это исправят в будущих итерациях.

🟡Агенты и персонализация

Будущее за приложениями, которые пишутся на лету под конкретного пользователя, т.е софт, который эволюционирует вместе с вашими привычками.

Готовится функция «Sign in with ChatGPT», которая позволит передавать ИИ контекст всей цифровой жизни пользователя (почта, файлы, история), чтобы он мог действовать как полноценный ассистент.

Обсуждается создание иерархии памяти: рабочая идентичность, личная и т.д., чтобы модель знала, какой контекст использовать в разных ситуациях.

🟡Безопасность и риски

Модели становятся слишком хороши в биологии. Старая стратегия блокировки доступа скоро перестанет работать. Нужен переход к стратегии устойчивости, как в пожарной безопасности.

Альтман признался, что сам быстро перешел от "никогда не дам ИИ доступ к компьютеру" до "пусть делает всё сам", потому что удобство перевешивает страх. Это создает риск скрытых уязвимостей, которые могут проявиться через недели работы агента.

🟡Инсайты и рекомендации

Стройте продукты, предполагая, что GPT-6 будет «невероятным». Если ваш бизнес выиграет от новой модели - вы на верном пути. Если модель его съест - это плохой путь.


Софт-скилс - самые важные навыки сейчас: высокая субъектность, способность генерировать идеи, устойчивость и адаптивность.


Альтман советует амбициозным разработчикам ИИ уходить из университетов, так как текущая академическая среда не успевает за темпами индустрии.


Используйте ИИ как безлимитного аспиранта или партнера по брейн-шторму для проверки тысяч идей в режиме "поиска в ширину".


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
15👍6🔥4🌚3🤣1