Машинное обучение digest

⚡️ Илон Маск подтвердил самый безумный IPO в истории

SpaceX выходит на биржу в 2026 году.
Оценка - $1.5 трлн.
Привлечение - $30+ млрд.

Это крупнейшее IPO в истории, больше рекорда Saudi Aramco ($29 млрд в 2019).

Но главное — не космос, не туризм и не Марс.

Речь идёт об ИИ. И о том, как Маск собирается выиграть всю гонку.

Проблема, которая сейчас убивает все AI-компании — энергия.

Oracle только что отчиталась:
- $12 млрд сожжено за квартал на дата-центры
- свободный денежный поток: −$10 млрд
- выручка ниже ожиданий
- акции −11%

Microsoft, Amazon и Google упёрлись в одно и то же — электричества не хватает.

Жёсткая математика:
- США производят ~490 ГВт электроэнергии
- ИИ к 2035 году потребует ~123 ГВт
- это четверть всей энергосети страны

Goldman Sachs: спрос на энергию для ИИ вырастет на 165% к 2030.

На Земле просто не хватает мощности:
- дата-центры требуют колоссального охлаждения
- миллиарды литров воды
- инфраструктура не успевает за ростом

Решение Маска — радикальное.

Перестать строить дата-центры на Земле.

SpaceX строит дата-центры в КОСМОСЕ.

Не концепт. Не через 10 лет. Старт — с 2026.

Starlink V3 получает AI-чипы:
- 24/7 солнечная энергия
- нет ночи, облаков и погоды
- нет ограничений энергосети

🚀 Starship способен выводить 300–500 ГВт солнечной вычислительной мощности в орбиту каждый год.

При 300 ГВт в год:
через 2 года орбитальные ИИ-мощности превысят всё энергопотребление экономики США.

Пока Oracle бегает за кредитами, а OpenAI застрял в финансовых схемах с Microsoft, у Маска уже есть всё:
- ракеты
- спутники
- инфраструктура запусков
- собственная AI-компания (xAI)

Ему не нужны:
- разрешения от энергосетей
- согласования с регуляторами
- атомные станции

Он просто запускает.

Все остальные уже паникуют:
- Blue Origin объявила орбитальные дата-центры
- Google запустил Project Suncatcher (планы на 2027)
- Эрик Шмидт купил ракетную компанию Relativity Space

Но они отстают на 3+ года.

У SpaceX уже 6000+ спутников на орбите. Инфраструктура готова.

$30 млрд с IPO пойдут на масштабирование орбитального compute.

Выручка SpaceX:
- $15 млрд в 2025
- $24 млрд в 2026
Основной драйвер — Starlink. Теперь добавь к этому космический ИИ.

Почему это важно:
Кто контролирует орбитальные вычисления — контролирует ИИ-революцию.

И сегодня есть только одна компания с многоразовыми ракетами и нужным масштабом.

Если план сработает:
- OpenAI арендует compute у SpaceX
- Google покупает орбитальные мощности
- Microsoft платит за доступ к энергии и запуску

Маск не участвует в гонке ИИ.
Он строит трассу, по которой все будут бежать.

$1.5 трлн выглядят безумием, пока не понимаешь:
это не ракетная компания.

Это инфраструктурный слой вычислений на 50 лет вперёд.

Те, кто называют это пузырём, просто не осознают, что именно строится.

7 views06:43

⚡️ Обсуждение развития ИИ давно раскололось на несколько "лагерей"

Сегодня вокруг ИИ есть несколько устойчивых позиций:
- думеры, которые видят экзистенциальную угрозу
- этики, фокусирующиеся на рисках и регулировании
- билдеры, которые просто строят и запускают продукты
- прагматики, смотрящие на пользу здесь и сейчас
- скептики, считающие всё это переоценённым

Одни призывают срочно замедлить развитие.
Другие говорят, что LLM - всего лишь продвинутый автодополнитель текста.

Третьи уверены, что AGI практически неизбежен и близок.

При этом парадокс в том, что все наблюдают один и тот же технологический прогресс, одни и те же модели, графики и демо.

Но выводы делают диаметрально противоположные.

Именно поэтому любой разговор об ИИ почти мгновенно скатывается в поляризацию, споры и идеологические войны, а не в спокойный анализ.

@data_analysis_ml

❤1👍1

7 views06:55

Машинное обучение digest

0:08

This media is not supported in your browser

VIEW IN TELEGRAM

🎮

Эксперимент с крысами и Doom вышел на новый уровень

Теперь крысы умеют стрелять по врагам в Doom.

Для эксперимента используется изогнутый AMOLED-дисплей, который создаёт для животного погружённую «игровую» среду. Проект разрабатывает open-source команда нейроинженеров.

Это уже не просто демонстрация реакции на стимулы, а полноценное обучение взаимодействию с виртуальным миром — с восприятием, принятием решений и действием.

Грань между нейронаукой, ИИ и игровыми средами становится всё тоньше.

Please open Telegram to view this post

VIEW IN TELEGRAM

9 views07:34

Машинное обучение digest

NVIDIA представила новое открытое семейство моделей Nemotron 3

Nemotron 3 Nano - это универсальная модель для рассуждений и чата, ориентированная на локальный запуск.

Ключевые характеристики:
- MoE-архитектура: 30B параметров всего, ~3.5B активных
- Контекст до 1 миллиона токенов
- Гибридная архитектура:
- 23 слоя Mamba-2 + MoE
- 6 attention-слоёв
- Баланс между скоростью и качеством рассуждений

Требования:
- необходимо около 24 ГБ видеопамяти для локального запуска

Модель хорошо подходит для длинных диалогов, анализа документов и reasoning-задач

Интересный пример того, как MoE и Mamba начинают реально снижать требования к железу, сохраняя масштаб контекста и качество.

Nemotron 3 Super и Nemotron 3 Ultra значительно превосходят Nano по масштабу - примерно в 4 раза и 16 раз соответственно. Но ключевой момент здесь не просто в размере моделей, а в том, как NVIDIA удалось увеличить мощность без пропорционального роста стоимости инференса.

Для обучения Super и Ultra используется NVFP4 и новая архитектура Latent Mixture of Experts. Она позволяет задействовать в четыре раза больше экспертов при той же стоимости инференса. По сути, модель становится «умнее» за счёт более гибкого выбора экспертов, а не за счёт постоянной активации всех параметров.

Дополнительно применяется Multi-Token Prediction, что ускоряет обучение и улучшает качество рассуждений на длинных последовательностях. Это особенно важно для agentic и multi-agent сценариев, где модели работают с длинным контекстом и сложными цепочками решений.

NVIDIA публикует не только веса, но и данные для предобучения и постобучения, а также технические детали, которые объясняют, почему эти модели одновременно быстрые и сильные.

Такой уровень открытости - редкость для моделей этого масштаба и хороший сигнал для индустрии.

Release: https://developer.nvidia.com/blog/inside-nvidia-nemotron-3-techniques-tools-and-data-that-make-it-efficient-and-accurate/
Guide: https://docs.unsloth.ai/models/nemotron-3
GGUF: https://huggingface.co/unsloth/Nemotron-3-Nano-30B-A3B-GGUF
lmstudio: https://lmstudio.ai/models/nemotron-3

@ai_machinelearning_big_data

#AI #LLM #NVIDIA #Nemotron3 #OpenSource #MachineLearning

5 views16:02

Машинное обучение digest

📌

Со-основатель Google DeepMind: вероятность появления AGI к 2028 году составляет 50%.

Шейн Легг, сооснователь и главный AGI-сайентист Google DeepMind в свежем видео-подкасте предлагает понятие "минимального AGI".

Это не обязательно "божественный сверхразум", а агент, способный выполнять когнитивные задачи, типичные для человека.

🟡Сегодня мы видим явный дисбаланс в возможностях моделей.

С одной стороны, топовые модели уже владеют 100–150 языками и обладают феноменальной общей эрудицией, зная детали о городах в Новой Зеландии.

С другой стороны, они спотыкаются на базовых вещах, доступных любому ребенку.

Например, в задачах на визуальное мышление модели путаются в перспективе: они могут не понять, что синяя машина на картинке больше красной, просто потому что она находится ближе.

Другой пример - работа с диаграммами: если попросить ИИ посчитать количество ребер, выходящих из узла на графе, он часто ошибается, так как не умеет внимательно пересчитывать объекты так, как это делает человек.

🟡

Фундаментальных физических ограничений для преодоления человеческого уровня интеллекта не существует, если смотреть на это с инженерной точки зрения.

Человеческий мозг - это устройство весом чуть больше килограмма, потребляющее около 20 ватт энергии. Сигналы в нем передаются посредством электрохимических реакций со скоростью примерно 30 метров в секунду, а частота работы нейронов составляет всего около 100 герц.

Сравните это с современным дата-центром: это сооружение весом в сотни тонн, потребляющее 200 мегаватт. Сигналы там "бегают" со скоростью света, а тактовая частота процессоров достигает 10 млрд. герц.

Разница в масштабах — это десятки порядков сразу по нескольким измерениям: энергопотреблению, объему, пропускной способности и скорости. Поэтому считать человеческий интеллект верхним пределом возможного было бы ошибкой.

🟡

Для достижения AGI недостаточно просто масштабировать данные.

Критическим барьером остается непрерывное обучение. Люди, приходя на новую работу, не обязаны знать все сразу - они учатся в процессе.

Современный ИИ представляет собой статичные объекты после тренировки. Чтобы это изменить, потребуются архитектурные инновации, например, внедрение систем эпизодической памяти, которые позволят модели запоминать новый опыт и дообучаться на нем в реальном времени, не забывая старое.

В ближайшие годы мы увидим переход от ИИ как инструмента к агентным системам, способным самостоятельно планировать и выполнять сложные цепочки действий, например, написать ПО или спланировать поездку "под ключ".

🟡

Вопрос безопасности в таких системах Легг предлагает решать по аналогии с медленным мышлением у человека.

ИИ не должен просто реагировать инстинктивно; он должен демонстрировать цепочку рассуждений, которую можно промониторить. Это дает возможность проверить, почему модель приняла то или иное этически сложное решение — например, солгать злоумышленнику, чтобы спасти чью-то жизнь.

Если мы сможем видеть этот скрытый процесс размышления, доверие к системе вырастет. Это станет критически важным, когда ИИ начнет трансформировать рынок труда: например, в сфере разработки ПО, где вместо команды из 100 инженеров для той же работы может потребоваться всего 20 специалистов, использующих продвинутые инструменты.

🔜

Послушать умного человека в очках 53 минуты на Youtube

@ai_machinelearning_big_data

Please open Telegram to view this post

VIEW IN TELEGRAM

6 views15:31

Машинное обучение digest

🧠 Xiaomi представила MiMo-V2-Flash - новую open-source MoE-модель с фокусом на максимальную скорость без потери качества.

Моделька на 309B параметров, из которых одновременно активны лишь 15B - за счёт умной MoE-маршрутизации модель достигает высокой эффективности. Сравнима с DeepSeek-V3.2 на общих бенчмарках.

MiMo-V2-Flash заточена под агентов и работу с инструментами.

🔥 Ключевые особенности

🏗️ Hybrid Attention
5:1 чередование 128-window SWA и Global Attention
Контекст — 256K токенов

🏆 Код и разработка
• SWE-Bench Verified - 73.4%
• SWE-Bench Multilingual - 71.7%
Новый SOTA среди open-source моделей

🚀 Скорость
• До 150 output tokens/sec
• Day-0 поддержка от @lmsysorg

MiMo-V2-Flash - пример того, как MoE-архитектуры выходят на новый уровень: быстрее, дешевле и готовые к агентным сценариям.

🤗 Model: http://hf.co/XiaomiMiMo/MiMo-V2-Flash
📝 Blog: http://mimo.xiaomi.com/blog/mimo-v2-flash
📄 Technical Report: http://github.com/XiaomiMiMo/MiMo-V2-Flash/blob/main/paper.pdf
🎨 AI Studio: http://aistudio.xiaomimimo.com

#AI #LLM #MoE #OpenSource #AgenticAI #MachineLearning #DeepLearning #GenAI #SWEBench #Xiaomi #AIModels

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

8 views15:41

Машинное обучение digest

Когда OpenAI публикует такие посты, это редко бывает случайно.
Похоже, релиз новой модели для генерации изображений уже совсем близко. 🤯

7 views16:28

Машинное обучение digest

🖥 OpenAI показала, как ИИ начинает реально работать в биологии, а не только анализировать данные или помогать с текстами и статьями.

Речь идёт не о симуляциях, а о связке:
- ИИ-модели
- реальные wet-lab эксперименты
- автоматизация научного цикла от гипотезы до результата

Что меняется на практике:

- ИИ помогает формулировать гипотезы, на которые раньше уходили месяцы ручной работы
- подсказывает, какие эксперименты ставить в первую очередь, экономя время и реагенты
- результаты экспериментов сразу возвращаются в модель и используются в следующей итерации
- меньше случайных проб, больше целенаправленных решений

Ключевая мысль:
ИИ перестаёт быть вспомогательным инструментом и становится участником научного процесса.

Почему это критично:

- биология и медицина - одни из самых медленных и дорогих областей науки
- каждая итерация эксперимента стоит времени, денег и ресурсов
- ускорение даже в 2–3 раза радикально меняет экономику разработки лекарств и биотехнологий

OpenAI фактически показывает направление, где:
- ИИ работает не только с текстом и кодом
- замыкается цикл «гипотеза → эксперимент → вывод → новая гипотеза»
- наука начинает масштабироваться так же, как софт

Это не очередной апдейт модели.
Это задел на новую инфраструктуру научных открытий.

https://openai.com/index/accelerating-biological-research-in-the-wet-lab/

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

6 views17:18

Машинное обучение digest

⚡️

Xiaomi MiMo-V2-Flash: MoE с 309 млрд. общих и 15 активных параметров.

Модель интересна нестандартным подходом к механизму внимания. Xiaomi использовали гибридную схему, чередующую глобальное внимание и внимание скользящего окна в пропорции 1 к 5.

Само скользящее окно всего 128 токенов, но несмотря на такую компактность, модель получила контекстное окно в 256 тыс. токенов.

🟡

Модель создавалась с фокусом на эффективность инференса.

MiMo-V2-Flash выдает 150 токенов в секунду по API и добиться таких показателей удалось благодаря Multi-Token Prediction .

В отличие от стандартных методов, где декодирование упирается в пропускную способность памяти из-за низкой арифметической интенсивности, MTP генерирует несколько черновых токенов за раз. Основная модель затем валидирует их параллельно.

Блок MTP в MiMo-V2-Flash спроектирован легковесным: он использует плотную сеть прямого распространения вместо MoE и опирается на все то же скользящее окно внимания.

Измерения показали, что в этом есть смысл: при использовании 3-слойного MTP длина принятой последовательности составляет от 2,8 до 3,6 токена, что дает чистое ускорение инференса в 2,0–2,6 раза без увеличения операций ввода-вывода KV-кэша.

🟡

На пост-трейне использовали парадигму Multi-Teacher Online Policy Distillation.

Ее суть в том, что модель-студент сэмплирует варианты ответов из собственной политики, а награды ей выдают сразу несколько моделей-учителей.

Это дало возможность масштабировать RL с ощутимой экономией: для пиковой производительности учителей требуется менее 1/50 вычислительных ресурсов по сравнению с традиционными пайплайнами SFT+RL.

🟡

Боевые метрики на бенчмарках выглядят красиво.

На SWE-bench Verified модель набрала 73,4%. Это первое место среди всех открытых моделей и очень близко к показателям GPT-5-High.

В мультиязычном тесте SWE-bench Multilingual решила 71,7% задач.

В математическом AIME 2025 и научном бенчмарке GPQA-Diamond MiMo-V2-Flash входит в топ-2 среди open-source решений.

Для задач поиска на BrowseComp результат составил 45,4, а при использовании управления контекстом вырос до 58,3.

В прямом сравнении ризонинг-задачах MiMo-V2-Flash держит паритет с K2 Thinking и DeepSeek V3.2 Thinking, но превосходит K2 Thinking на длинных контекстах.

🔜 Есть бесплатный доступ по API до конца года (потом - $0,1 за млн. входных токенов и $0,3 за млн. выходных).

📌Лицензирование: MIT License.

🟡

Статья

🟡

Техотчет

🟡

Demo

🟡

Модель

@ai_machinelearning_big_data

#AI #ML #LLM #MiMOv2Flash #Xiaomi

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

10 views17:25

Машинное обучение digest

0:11

This media is not supported in your browser

VIEW IN TELEGRAM

✍️ python-course - структурированный и глубокий разбор Python от базовых принципов до продвинутых тем.

Это подробный текстовый курс для вдумчивого самостоятельного изучения. Материал выстроен последовательно: от основ синтаксиса и ключевых конструкций — к ООП, генераторам, итераторам, замыканиям и внутреннему устройству языка. Без воды, с акцентом на понимание того, как и почему Python работает именно так.

Подойдёт тем, кто хочет:

- выстроить прочный фундамент

- систематизировать разрозненные знания

- глубже разобраться во внутренних механизмах языка

https://python-course.eu/

14 views09:43

Машинное обучение digest

⚡ Gemini 3 Flash - быстрый ИИ нового поколения от Google

Gemini 3 Flash:
- это очень быстрая модель с минимальной задержкой
- при этом она сохраняет сильные способности к рассуждению
- Frontier-уровень на GPQA Diamond - рассуждения уровня PhD
- Хорошие результаты на Humanity’s Last Exam
- State-of-the-art на MMMU Pro - хорошо работает с видео и мультимодальными данными
- В целом, качество сопоставимо с Gemini 3 Pro

По сути, Flash - это попытка Google сбалансировать три вещи одновременно: скорость + интеллект + стоимость.

https://blog.google/products/gemini/gemini-3-flash/

@ai_machinelearning_big_data

#AI #Gemini #Google #LLM #Multimodal #AIModels #MachineLearning

6 views16:08

About

Blog

Apps

Platform