Суровая реальность нашего времени: вы хотите сгенерировать 5-секундное видео на большой SOTA-модели. Вы запускаете промпт, идете пить кофе, возвращаетесь, а процесс все еще идет. И зачастую генерация может занимать больше часа.
Главные виновники - чудовищная вычислительная сложность механизма внимания в трансформерах, необходимость сотен шагов денойзинга и огромный объем памяти для весов в полной точности.
Авторы проекта TurboDiffusion из Цинхуа и Беркли решили собрать все эффективные методы сжатия и ускорения в один пайплайн. Их идея заключалась в том, что разреженность и квантование — это техники, которые не мешают друг другу.
В довершении ко всему смогли объединить после файнтюнинга под SLA и дистилляции rCM веса в единую модель, избежав конфликтов.
На RTX 5090 время генерации для тяжелой модели Wan2.2-I2V 14B упало с 69 минут до 35.4 секунд. А для более легкой Wan 2.1-1.3B - с почти 3-х минут до 1.8 секунды.
Это ускорение больше чем в 100 раз.
При этом, судя по примерам, визуальное качество осталось практически неотличимым от оригинала.
@ai_machinelearning_big_data
#AI #ML #I2V #T2V #TurboDiffusion
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔍 Mistral представила OCR 3 - новую версию своей AI-системы распознавания документов.
Ключевое:
- Существенный рост качества по сравнению с OCR 2, особенно на формах, таблицах и сложных PDF
- Уверенно работает со сканами, рукописным текстом и нестандартной версткой
- Возвращает структурированный результат, а не просто сырой текст
- Подходит для автоматизации Document AI и downstream-аналитики
- Доступен через API и готов к продакшен-использованию
Главное
- На 74% лучше Mistral OCR 2 при работе с формами, сканированными документами, сложными таблицами и рукописным текстом.
- Точность уровня state-of-the-art: Обходит как корпоративные системы обработки документов, так и современные AI-OCR решения.
- Используется в Document AI Playground:
В Mistral AI Studio появился простой drag-and-drop интерфейс для разбора PDF и изображений в чистый текст или структурированный JSON.
https://mistral.ai/news/mistral-ocr-3
@ai_machinelearning_big_data
#ocr #mistal #llm
Ключевое:
- Существенный рост качества по сравнению с OCR 2, особенно на формах, таблицах и сложных PDF
- Уверенно работает со сканами, рукописным текстом и нестандартной версткой
- Возвращает структурированный результат, а не просто сырой текст
- Подходит для автоматизации Document AI и downstream-аналитики
- Доступен через API и готов к продакшен-использованию
Главное
- На 74% лучше Mistral OCR 2 при работе с формами, сканированными документами, сложными таблицами и рукописным текстом.
- Точность уровня state-of-the-art: Обходит как корпоративные системы обработки документов, так и современные AI-OCR решения.
- Используется в Document AI Playground:
В Mistral AI Studio появился простой drag-and-drop интерфейс для разбора PDF и изображений в чистый текст или структурированный JSON.
https://mistral.ai/news/mistral-ocr-3
@ai_machinelearning_big_data
#ocr #mistal #llm
T5Gemma 2 - новое поколение энкодер-декодерных моделей от Google
Google представила T5Gemma 2 - энкодер-декодерную архитектуру, построенную на базе идей и ряда улучшений Gemma 3. Это не просто апдейт, а полноценный шаг вперед для задач генерации, перевода, суммаризации и мультимодального понимания.
T5Gemma 2 объединяет сильные стороны классического подхода T5 (encoder-decoder) с архитектурными улучшениями Gemma нового поколения, делая модель более эффективной, масштабируемой и универсальной.
Основные особенности
- Энкодер-декодерная архитектура нового поколения
- Общие эмбеддинги для энкодера и декодера, что снижает размер модели
- Объединенное self- и cross-attention в декодере для более эффективных вычислений
- Поддержка длинного контекста до 128 000 токенов
- Мультимодальность - работа с текстом и изображениями
- Многоязычная поддержка более 140 языков
Размеры моделей
T5Gemma 2 доступна в нескольких конфигурациях:
- 270M + 270M параметров
- 1B + 1B параметров
- 4B + 4B параметров
Такие размеры позволяют использовать модель как в исследованиях, так и в продакшене, включая on-device сценарии.
Модель демонстрирует отличное понимание контекста, более стабильную генерацию и высокое качество работы с длинными последовательностями. Особенно хорошо проявляет себя в задачах суммаризации, QA, перевода и мультимодальных сценариях.
Где это полезно
- Суммаризация документов
- Машинный перевод
- Поиск и RAG-системы
- Мультимодальные ассистенты
- Обработка длинных текстов без агрессивного чанкинга
T5Gemma 2 показывает, что encoder-decoder подход по-прежнему актуален и может конкурировать с decoder-only моделями, особенно в задачах понимания и структурированной генерации.
https://blog.google/technology/developers/t5gemma-2/
Google представила T5Gemma 2 - энкодер-декодерную архитектуру, построенную на базе идей и ряда улучшений Gemma 3. Это не просто апдейт, а полноценный шаг вперед для задач генерации, перевода, суммаризации и мультимодального понимания.
T5Gemma 2 объединяет сильные стороны классического подхода T5 (encoder-decoder) с архитектурными улучшениями Gemma нового поколения, делая модель более эффективной, масштабируемой и универсальной.
Основные особенности
- Энкодер-декодерная архитектура нового поколения
- Общие эмбеддинги для энкодера и декодера, что снижает размер модели
- Объединенное self- и cross-attention в декодере для более эффективных вычислений
- Поддержка длинного контекста до 128 000 токенов
- Мультимодальность - работа с текстом и изображениями
- Многоязычная поддержка более 140 языков
Размеры моделей
T5Gemma 2 доступна в нескольких конфигурациях:
- 270M + 270M параметров
- 1B + 1B параметров
- 4B + 4B параметров
Такие размеры позволяют использовать модель как в исследованиях, так и в продакшене, включая on-device сценарии.
Модель демонстрирует отличное понимание контекста, более стабильную генерацию и высокое качество работы с длинными последовательностями. Особенно хорошо проявляет себя в задачах суммаризации, QA, перевода и мультимодальных сценариях.
Где это полезно
- Суммаризация документов
- Машинный перевод
- Поиск и RAG-системы
- Мультимодальные ассистенты
- Обработка длинных текстов без агрессивного чанкинга
T5Gemma 2 показывает, что encoder-decoder подход по-прежнему актуален и может конкурировать с decoder-only моделями, особенно в задачах понимания и структурированной генерации.
https://blog.google/technology/developers/t5gemma-2/
⚡️ Shannon - полностью автономный AI-хакер для поиска реальных уязвимостей в веб-приложениях
Shannon - это автономная система для offensive security, которая сама ищет, воспроизводит и документирует реальные эксплойты в веб-приложениях без подсказок и ручного вмешательства.
Модель показала 96.15% успешности на XBOW Benchmark (hint-free, source-aware), что выводит ее на уровень практического pentest, а не просто статического анализа.
Что умеет Shannon
- Полностью автономная работа без ручного управления
- Поиск реальных эксплойтов, а не теоретических уязвимостей
- Генерация pentester-grade отчетов с воспроизводимыми шагами атаки
- Покрытие критических уязвимостей OWASP Top
- Code-aware динамическое тестирование с учетом исходного кода
- Использование набора интегрированных security-инструментов
- Параллельное выполнение атак для ускорения результатов
Почему это важно
Большинство сканеров находят потенциальные проблемы. Shannon ищет именно эксплуатируемые уязвимости и подтверждает их рабочими атаками, снижая false positives и экономя время команд безопасности.
Практическое применение
- Автоматизированный pentest в CI/CD
- Проверка безопасности перед релизом
- Red Team инструментарий
- Continuous security для веб-продуктов
Shannon - пример того, как автономные AI-агенты начинают реально менять рынок offensive security, переходя от подсказок к самостоятельному поиску и эксплуатации уязвимостей.
🖥 GitHub: https://github.com/KeygraphHQ/shannon
Shannon - это автономная система для offensive security, которая сама ищет, воспроизводит и документирует реальные эксплойты в веб-приложениях без подсказок и ручного вмешательства.
Модель показала 96.15% успешности на XBOW Benchmark (hint-free, source-aware), что выводит ее на уровень практического pentest, а не просто статического анализа.
Что умеет Shannon
- Полностью автономная работа без ручного управления
- Поиск реальных эксплойтов, а не теоретических уязвимостей
- Генерация pentester-grade отчетов с воспроизводимыми шагами атаки
- Покрытие критических уязвимостей OWASP Top
- Code-aware динамическое тестирование с учетом исходного кода
- Использование набора интегрированных security-инструментов
- Параллельное выполнение атак для ускорения результатов
Почему это важно
Большинство сканеров находят потенциальные проблемы. Shannon ищет именно эксплуатируемые уязвимости и подтверждает их рабочими атаками, снижая false positives и экономя время команд безопасности.
Практическое применение
- Автоматизированный pentest в CI/CD
- Проверка безопасности перед релизом
- Red Team инструментарий
- Continuous security для веб-продуктов
Shannon - пример того, как автономные AI-агенты начинают реально менять рынок offensive security, переходя от подсказок к самостоятельному поиску и эксплуатации уязвимостей.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 2025 - год, когда LLM действительно изменились. Коротко и по делу, по мотивам поста Андрея Карпты
2025 оказался неожиданно сильным годом для LLM. Не просто улучшения метрик, а реальные сдвиги в том, как модели обучаются, как ими пользуются и как вообще стоит думать об их «интеллекте».
Главное за 2025 по мнению Карпты:
1. RLVR — Reinforcement Learning from Verifiable Rewards
До 2025 стандартный стек выглядел так: pretraining → SFT → RLHF. В 2025 к этому стеку добавился новый, ключевой этап- RLVR.
Вместо субъективной человеческой оценки модель обучают на автоматически проверяемых наградах: задачи по математике, коду, логике. В результате LLM сама находит стратегии рассуждения - дробит задачи, проверяет гипотезы, возвращается назад.
Важно не «что мы показали модели», а то, что она сама нашла рабочие способы думать. Этот этап оказался невероятно эффективным по соотношению capability к стоимости, из-за чего значительная часть вычислений ушла не в pretraining, а в длинные RL-прогоны.
Побочный эффект — появился новый регулятор мощности: test-time compute. Больше «времени на размышление» — выше качество. o1 показал идею, o3 в начале 2025 сделал перелом — разницу стало чувствовать интуитивно.
2. «Призраки, а не животные» и рваный интеллект
В 2025 индустрия наконец осознала форму LLM-интеллекта. Мы не «растим животных». Мы «призываем призраков».
LLM оптимизированы не под выживание и социальные группы, а под имитацию текста, получение наград в формальных задачах и апвоты. Поэтому интеллект получается рваным:
- гениальны в одном
- наивны и уязвимы в другом
RLVR усиливает этот эффект - модели становятся сверхсильными в верифицируемых доменах и странно слабыми вне их. Отсюда и потеря доверия к бенчмаркам: они почти всегда верифицируемы, а значит легко «обрастают jagged-улучшениями». Обучение на тесте стало искусством.
Можно побить все бенчмарки и всё ещё быть далеко от AGI.
3. Cursor и новый слой LLM-приложений
Cursor показал, что появился новый класс LLM-продуктов - «Cursor для X».
Это не просто интерфейс к модели, а слой, который:
- делает context engineering
- оркестрирует множество LLM-вызовов в DAG
- балансирует стоимость и качество
- дает специализированный UI
- вводит «ползунок автономности»
Вероятный сценарий: LLM-лабы делают «универсального студента», а приложения превращают их в специалистов — добавляя данные, инструменты, сенсоры и обратную связь.
4. Claude Code - AI, который живет на твоем компьютере
Claude Code стал первым убедительным агентом, который работает локально, в твоем окружении, с твоими файлами и контекстом.
Это важный сдвиг. Не облачные контейнеры и абстрактные агенты, а «дух», который живет рядом с разработчиком. В мире рваных возможностей это оказалось гораздо полезнее, чем агентные своры в облаке.
Форм-фактор CLI сделал этот сдвиг особенно наглядным: AI - это уже не сайт, а постоянный спутник.
5. Vibe coding
2025 - год, когда стало возможно писать сложные программы, почти забыв, что код вообще существует.
Vibe coding демократизирует программирование:
- обычные люди могут создавать софт
- профессионалы пишут больше, быстрее и смелее
- код стал дешевым, одноразовым, экспериментальным
Можно написать программу ради одной проверки, одного бага, одной идеи - и выкинуть. Это изменит и софт, и профессии.
6. Nano banana и будущее интерфейсов
Чат - это терминал 80-х. Удобно для машины, плохо для человека.
Люди предпочитают визуальное мышление: схемы, изображения, анимации, интерфейсы. LLM должны общаться с нами в этих форматах. Gemini Nano banana - первый намек на настоящий LLM-GUI, где текст, изображения и знания слиты в одной модели.
Это не просто генерация картинок — это новый пользовательский слой для интеллекта.
2025 показал: LLM - это новый тип интеллекта. Он одновременно умнее и глупее, чем ожидали. Он невероятно полезен, но мы реализовали, возможно, даже не 10% его потенциала.
Прогресс будет быстрым. Работы впереди — море. Поле идей - открыто.
https://x.com/karpathy/status/2002118205729562949
2025 оказался неожиданно сильным годом для LLM. Не просто улучшения метрик, а реальные сдвиги в том, как модели обучаются, как ими пользуются и как вообще стоит думать об их «интеллекте».
Главное за 2025 по мнению Карпты:
1. RLVR — Reinforcement Learning from Verifiable Rewards
До 2025 стандартный стек выглядел так: pretraining → SFT → RLHF. В 2025 к этому стеку добавился новый, ключевой этап- RLVR.
Вместо субъективной человеческой оценки модель обучают на автоматически проверяемых наградах: задачи по математике, коду, логике. В результате LLM сама находит стратегии рассуждения - дробит задачи, проверяет гипотезы, возвращается назад.
Важно не «что мы показали модели», а то, что она сама нашла рабочие способы думать. Этот этап оказался невероятно эффективным по соотношению capability к стоимости, из-за чего значительная часть вычислений ушла не в pretraining, а в длинные RL-прогоны.
Побочный эффект — появился новый регулятор мощности: test-time compute. Больше «времени на размышление» — выше качество. o1 показал идею, o3 в начале 2025 сделал перелом — разницу стало чувствовать интуитивно.
2. «Призраки, а не животные» и рваный интеллект
В 2025 индустрия наконец осознала форму LLM-интеллекта. Мы не «растим животных». Мы «призываем призраков».
LLM оптимизированы не под выживание и социальные группы, а под имитацию текста, получение наград в формальных задачах и апвоты. Поэтому интеллект получается рваным:
- гениальны в одном
- наивны и уязвимы в другом
RLVR усиливает этот эффект - модели становятся сверхсильными в верифицируемых доменах и странно слабыми вне их. Отсюда и потеря доверия к бенчмаркам: они почти всегда верифицируемы, а значит легко «обрастают jagged-улучшениями». Обучение на тесте стало искусством.
Можно побить все бенчмарки и всё ещё быть далеко от AGI.
3. Cursor и новый слой LLM-приложений
Cursor показал, что появился новый класс LLM-продуктов - «Cursor для X».
Это не просто интерфейс к модели, а слой, который:
- делает context engineering
- оркестрирует множество LLM-вызовов в DAG
- балансирует стоимость и качество
- дает специализированный UI
- вводит «ползунок автономности»
Вероятный сценарий: LLM-лабы делают «универсального студента», а приложения превращают их в специалистов — добавляя данные, инструменты, сенсоры и обратную связь.
4. Claude Code - AI, который живет на твоем компьютере
Claude Code стал первым убедительным агентом, который работает локально, в твоем окружении, с твоими файлами и контекстом.
Это важный сдвиг. Не облачные контейнеры и абстрактные агенты, а «дух», который живет рядом с разработчиком. В мире рваных возможностей это оказалось гораздо полезнее, чем агентные своры в облаке.
Форм-фактор CLI сделал этот сдвиг особенно наглядным: AI - это уже не сайт, а постоянный спутник.
5. Vibe coding
2025 - год, когда стало возможно писать сложные программы, почти забыв, что код вообще существует.
Vibe coding демократизирует программирование:
- обычные люди могут создавать софт
- профессионалы пишут больше, быстрее и смелее
- код стал дешевым, одноразовым, экспериментальным
Можно написать программу ради одной проверки, одного бага, одной идеи - и выкинуть. Это изменит и софт, и профессии.
6. Nano banana и будущее интерфейсов
Чат - это терминал 80-х. Удобно для машины, плохо для человека.
Люди предпочитают визуальное мышление: схемы, изображения, анимации, интерфейсы. LLM должны общаться с нами в этих форматах. Gemini Nano banana - первый намек на настоящий LLM-GUI, где текст, изображения и знания слиты в одной модели.
Это не просто генерация картинок — это новый пользовательский слой для интеллекта.
2025 показал: LLM - это новый тип интеллекта. Он одновременно умнее и глупее, чем ожидали. Он невероятно полезен, но мы реализовали, возможно, даже не 10% его потенциала.
Прогресс будет быстрым. Работы впереди — море. Поле идей - открыто.
https://x.com/karpathy/status/2002118205729562949
OpenAI неоднократно переходила в режим «Code Red», сообщает Bloomberg.
«Code Red» - это внутренний режим, когда команды временно бросают второстепенные задачи и фокусируются на одном приоритете. По словам главы исследований OpenAI Марка Чена, компания уже не раз использовала этот подход.
Причина простая: большие команды легко распыляются между агентами, рекламой и исследованиями, из-за чего основной продукт - чат, теряет скорость и надёжность.
Последний «Code Red» последовал сразу после релиза Google Gemini 3.
Ответ OpenAI:
- возврат фокуса на core-stack
- снижение latency
- рост uptime
- более жёсткие eval-циклы, чтобы ловить деградации качества до пользователей
Результат:
- релиз GPT-5.2 и GPT-5.2-Codex
- переработка ChatGPT Images до 4× быстрее генерация при сохранении стабильности деталей между правками
Следующий фокус - сам training engine: алгоритмы + инфраструктура для масштабных обучений. OpenAI обсуждает инвестиции порядка 1.4 трлн долларов в инфраструктуру на горизонте 8 лет.
bloomberg.com/news/articles/2025-12-18/openai-has-declared-code-red-multiple-times-executive-says
«Code Red» - это внутренний режим, когда команды временно бросают второстепенные задачи и фокусируются на одном приоритете. По словам главы исследований OpenAI Марка Чена, компания уже не раз использовала этот подход.
Причина простая: большие команды легко распыляются между агентами, рекламой и исследованиями, из-за чего основной продукт - чат, теряет скорость и надёжность.
Последний «Code Red» последовал сразу после релиза Google Gemini 3.
Ответ OpenAI:
- возврат фокуса на core-stack
- снижение latency
- рост uptime
- более жёсткие eval-циклы, чтобы ловить деградации качества до пользователей
Результат:
- релиз GPT-5.2 и GPT-5.2-Codex
- переработка ChatGPT Images до 4× быстрее генерация при сохранении стабильности деталей между правками
Следующий фокус - сам training engine: алгоритмы + инфраструктура для масштабных обучений. OpenAI обсуждает инвестиции порядка 1.4 трлн долларов в инфраструктуру на горизонте 8 лет.
bloomberg.com/news/articles/2025-12-18/openai-has-declared-code-red-multiple-times-executive-says
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Китайские учёные представили сверхбыстрый аналоговый чип до 1000× быстрее топовых цифровых процессоров.
Чип решает сложные математические задачи для ИИ и научных вычислений и в тестах обходит даже GPU NVIDIA.
Ключевая идея не ускорять цифру, а уйти от неё:
аналоговые вычисления позволяют считать напрямую, без дискретных шагов, что даёт резкий прирост скорости и энергоэффективности.
Это может изменить правила игры:
- ускорение обучения и инференса ИИ
- прорыв в научном моделировании
- новые архитектуры, выходящие за пределы GPU/TPU
Гонка вычислительных мощностей входит в следующую фазу.
Чип решает сложные математические задачи для ИИ и научных вычислений и в тестах обходит даже GPU NVIDIA.
Ключевая идея не ускорять цифру, а уйти от неё:
аналоговые вычисления позволяют считать напрямую, без дискретных шагов, что даёт резкий прирост скорости и энергоэффективности.
Это может изменить правила игры:
- ускорение обучения и инференса ИИ
- прорыв в научном моделировании
- новые архитектуры, выходящие за пределы GPU/TPU
Гонка вычислительных мощностей входит в следующую фазу.
🖼️✨ Qwen-Image-Layered: Модель для многослойной обработки изображений
Qwen-Image-Layered позволяет разбирать изображения на несколько RGBA слоев, обеспечивая возможность редактирования каждого слоя независимо. Это открывает новые горизонты для редактирования, позволяя выполнять операции с высоким качеством, такие как изменение размера и перекраска, без влияния на другие элементы.
🚀Основные моменты:
- Декомпозиция изображений на независимые слои.
- Поддержка высококачественного редактирования.
- Гибкость в количестве слоев для декомпозиции.
- Возможность редактирования с сохранением целостности других слоев.
- Интуитивно понятный интерфейс для работы с изображениями.
📌 GitHub: https://github.com/QwenLM/Qwen-Image-Layered
#python
Qwen-Image-Layered позволяет разбирать изображения на несколько RGBA слоев, обеспечивая возможность редактирования каждого слоя независимо. Это открывает новые горизонты для редактирования, позволяя выполнять операции с высоким качеством, такие как изменение размера и перекраска, без влияния на другие элементы.
🚀Основные моменты:
- Декомпозиция изображений на независимые слои.
- Поддержка высококачественного редактирования.
- Гибкость в количестве слоев для декомпозиции.
- Возможность редактирования с сохранением целостности других слоев.
- Интуитивно понятный интерфейс для работы с изображениями.
📌 GitHub: https://github.com/QwenLM/Qwen-Image-Layered
#python
🧠 Google покупает Intersect за $4.75 млрд - ради электроэнергии для ИИ
Alphabet объявила о покупке Intersect за $4.75 млрд наличными плюс принятие долга. Цель сделки - обеспечить энергией быстро растущую сеть AI дата-центров Google.
Это не про «зеленую повестку». Это про главный bottleneck ИИ - электричество.
Что именно покупает Google
Intersect - это не просто энергокомпания. Ее ключевой актив - development platform, то есть способность быстро запускать новые энергетические мощности:
- команда девелоперов и инженеров
- разрешения, земля, работа с регуляторами
- подключение к электросетям (interconnection)
- финансовые схемы
- пайплайн энергетических проектов, которые можно быстро превратить в мегаватты
Фактически Google покупает не электроэнергию, а возможность вовремя ее построить.
Почему это критично для ИИ
Сегодня масштабирование ИИ упирается не в GPU, а в сети:
- дата-центры часто готовы раньше, чем появляется мощность
- очереди на подключение и апгрейды сетей могут занимать годы
- классические PPA-контракты не гарантируют энергию в нужном месте и в нужный час
До этого Google в основном работал через power purchase agreements и углеродные кредиты. Но они плохо совпадают с реальной географией и временной нагрузкой AI-кластеров.
В чем подход Intersect
Intersect строит генерацию и storage рядом с дата-центрами:
- солнечные станции и батареи располагаются рядом с кампусами
- генерация, аккумуляторы и сеть планируются под конкретную нагрузку
- батареи «выравнивают» мощность и снижают зависимость от перегруженной сети
Это позволяет дата-центрам запускаться быстрее и работать стабильнее.
Масштаб сделки
По данным Reuters:
- у Intersect около $15 млрд активов в эксплуатации или строительстве
- цель - 10.8 ГВт мощности к 2028 году
Alphabet покупает именно команду и девелоперскую платформу, включая проекты, уже разрабатываемые под Google. Часть действующих или отдельно законтрактованных активов остается вне сделки.
Что это значит
Google переходит от покупки «электронов» к контролю цепочки поставки энергии.
По сути, компания начинает мыслить как инфраструктурный оператор.
Когда главный bottleneck ИИ - не чипы, а электричество, контроль над энергией становится стратегическим преимуществом.
Alphabet объявила о покупке Intersect за $4.75 млрд наличными плюс принятие долга. Цель сделки - обеспечить энергией быстро растущую сеть AI дата-центров Google.
Это не про «зеленую повестку». Это про главный bottleneck ИИ - электричество.
Что именно покупает Google
Intersect - это не просто энергокомпания. Ее ключевой актив - development platform, то есть способность быстро запускать новые энергетические мощности:
- команда девелоперов и инженеров
- разрешения, земля, работа с регуляторами
- подключение к электросетям (interconnection)
- финансовые схемы
- пайплайн энергетических проектов, которые можно быстро превратить в мегаватты
Фактически Google покупает не электроэнергию, а возможность вовремя ее построить.
Почему это критично для ИИ
Сегодня масштабирование ИИ упирается не в GPU, а в сети:
- дата-центры часто готовы раньше, чем появляется мощность
- очереди на подключение и апгрейды сетей могут занимать годы
- классические PPA-контракты не гарантируют энергию в нужном месте и в нужный час
До этого Google в основном работал через power purchase agreements и углеродные кредиты. Но они плохо совпадают с реальной географией и временной нагрузкой AI-кластеров.
В чем подход Intersect
Intersect строит генерацию и storage рядом с дата-центрами:
- солнечные станции и батареи располагаются рядом с кампусами
- генерация, аккумуляторы и сеть планируются под конкретную нагрузку
- батареи «выравнивают» мощность и снижают зависимость от перегруженной сети
Это позволяет дата-центрам запускаться быстрее и работать стабильнее.
Масштаб сделки
По данным Reuters:
- у Intersect около $15 млрд активов в эксплуатации или строительстве
- цель - 10.8 ГВт мощности к 2028 году
Alphabet покупает именно команду и девелоперскую платформу, включая проекты, уже разрабатываемые под Google. Часть действующих или отдельно законтрактованных активов остается вне сделки.
Что это значит
Google переходит от покупки «электронов» к контролю цепочки поставки энергии.
По сути, компания начинает мыслить как инфраструктурный оператор.
Когда главный bottleneck ИИ - не чипы, а электричество, контроль над энергией становится стратегическим преимуществом.
Детище Alibaba, которое было выпущено отдельно от команд Wan и Qwen и стоит 5 долларов за 1000 изображений на Alibaba Cloud добралась до 1 места в рейтинге Artificial Analysis Image Arena.
Это модель с 6 млрд. параметров, которая может работать на потребительском оборудовании с объемом памяти всего 16 ГБ в полной точночти, а квантованные варианты запускаются на 8 ГБ.
Z-Image Turbo дешевле всех конкурентов: FLUX.2 [dev] ($12/1 тыс. изображений), HiDream-I1-Dev ($26/1 тыс. изображений) и Qwen-Image ($20/1 тыс. изображений), доступна под открытой лицензией Apache 2.0, что позволяет использовать ее в коммерческих целях без ограничений.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Главные новости ИИ и МЛ за сегодня.
✔️ OpenAI подняла маржинальность вычислений до 70% на фоне убытков от R&D.
Согласно внутренним финансовым отчетам, к октябрю 2025 года «вычислительная маржа» компании достигла 70%. Этот показатель, отражающий долю выручки, остающуюся после покрытия прямых затрат на работу моделей для пользователей, удвоился с начала 2024 года - тогда он составлял лишь 35%. Такая динамика указывает на успешную оптимизацию инфраструктуры инференса, что делает платных клиентов значительно рентабельнее.
Несмотря на техническую оптимизацию, компания остается глубоко убыточной. За первую половину 2025 года чистый убыток OpenAI составил $13,5 млрд, из которых $6,7 млрд пришлось на R&D и разработку новых моделей.
Тем не менее, бизнес-показатели продолжают расти: годовая выручка преодолела отметку в $12 млрд еще в июле, а к концу года аналитики прогнозируют выход на уровень $15–20 млрд.
theinformation.com
✔️ Nvidia готовится начать поставки H200 в Китай в феврале.
Компания уведомила китайских партнеров о планах отгрузить первую партию H200 в середине февраля. По информации инсайдеров, Nvidia намерена использовать имеющиеся складские запасы, чтобы поставить от 40 до 80 тысяч чипов (примерно 5–10 тысяч модулей). Это реакция смягчение политики Вашингтона: экспорт флагманского железа разрешили при условии уплаты специального 25-процентного сбора.
Основным препятствием остается позиция Пекина. Правительство Китая пока не согласовало закупки H200, и без официального одобрения местных регуляторов сделка не состоится. Если же политический вопрос будет урегулирован, Nvidia планирует не ограничиваться разовой партией и открыть слоты для новых производственных заказов под китайский рынок уже во втором квартале 2026 года.
reuters.com
✔️ Z.ai выпустила GLM-4.7.
GLM-4.7 - обновление линейки моделей, оптимизированное для разработчиков. При размере в 358 млрд. параметров модель показала существенный прирост производительности в программировании, работе с терминалом и созданию чистого UI-кода (функция Vibe Coding). На SWE-bench Verified модель улучшила результат до 73.8%, а в тестах на сложное математическое рассуждение прирост составил более 12%.
Архитектурное новшество релиза — развитие механизмов мышления. Функция Preserved Thinking позволяет модели сохранять и переиспользовать CoT между репликами, а механизм Interleaved Thinking дает время на анализ перед каждым вызовом внешних инструментов.
GLM-4.7 уже доступна через API и на OpenRouter, а веса модели выложены на HuggingFace и ModelScope.
z.ai
✔️ Anthropic Bloom: фреймворк для авто-тестирования поведенческих паттернов ИИ.
Инструмент кардинально упрощает процесс оценки безопасности моделей: вместо ручного написания тестов нужно просто описать искомое поведение (сикофанство, самосохранение или склонность к саботажу). На основе этого описания, Bloom автоматически генерирует сотни уникальных сценариев, симулирует диалоги с участием виртуальных пользователей и выносит вердикт о частоте и тяжести выявленных проявлений.
Фреймворк поддерживает интеграцию с W&B для трекинга и экспорт логов в формат Inspect. Вместе с релизом кода на GitHub компания опубликовала результаты проверки 16 моделей по 4 критическим категориям безопасности.
anthropic.com
✔️ Manus добавила функцию Design View.
Design View - интерфейс для редактирования графики в режиме point-and-click с сохранением исходной композиции и стиля. Дизайнеры могут менять цвета объектов, корректировать глубину сцены и исправлять текст прямо на холсте. Инструмент глубоко интегрирован в экосистему Manus: поддерживается редактирование презентаций, созданных Nano Banana Pro, а также доработка UI-элементов и иконок для мобильных приложений в реальном времени.
Функция уже доступна всем пользователям сервиса.
manus.im
@ai_machinelearning_big_data
#news #ai #ml
Согласно внутренним финансовым отчетам, к октябрю 2025 года «вычислительная маржа» компании достигла 70%. Этот показатель, отражающий долю выручки, остающуюся после покрытия прямых затрат на работу моделей для пользователей, удвоился с начала 2024 года - тогда он составлял лишь 35%. Такая динамика указывает на успешную оптимизацию инфраструктуры инференса, что делает платных клиентов значительно рентабельнее.
Несмотря на техническую оптимизацию, компания остается глубоко убыточной. За первую половину 2025 года чистый убыток OpenAI составил $13,5 млрд, из которых $6,7 млрд пришлось на R&D и разработку новых моделей.
Тем не менее, бизнес-показатели продолжают расти: годовая выручка преодолела отметку в $12 млрд еще в июле, а к концу года аналитики прогнозируют выход на уровень $15–20 млрд.
theinformation.com
Компания уведомила китайских партнеров о планах отгрузить первую партию H200 в середине февраля. По информации инсайдеров, Nvidia намерена использовать имеющиеся складские запасы, чтобы поставить от 40 до 80 тысяч чипов (примерно 5–10 тысяч модулей). Это реакция смягчение политики Вашингтона: экспорт флагманского железа разрешили при условии уплаты специального 25-процентного сбора.
Основным препятствием остается позиция Пекина. Правительство Китая пока не согласовало закупки H200, и без официального одобрения местных регуляторов сделка не состоится. Если же политический вопрос будет урегулирован, Nvidia планирует не ограничиваться разовой партией и открыть слоты для новых производственных заказов под китайский рынок уже во втором квартале 2026 года.
reuters.com
GLM-4.7 - обновление линейки моделей, оптимизированное для разработчиков. При размере в 358 млрд. параметров модель показала существенный прирост производительности в программировании, работе с терминалом и созданию чистого UI-кода (функция Vibe Coding). На SWE-bench Verified модель улучшила результат до 73.8%, а в тестах на сложное математическое рассуждение прирост составил более 12%.
Архитектурное новшество релиза — развитие механизмов мышления. Функция Preserved Thinking позволяет модели сохранять и переиспользовать CoT между репликами, а механизм Interleaved Thinking дает время на анализ перед каждым вызовом внешних инструментов.
GLM-4.7 уже доступна через API и на OpenRouter, а веса модели выложены на HuggingFace и ModelScope.
z.ai
Инструмент кардинально упрощает процесс оценки безопасности моделей: вместо ручного написания тестов нужно просто описать искомое поведение (сикофанство, самосохранение или склонность к саботажу). На основе этого описания, Bloom автоматически генерирует сотни уникальных сценариев, симулирует диалоги с участием виртуальных пользователей и выносит вердикт о частоте и тяжести выявленных проявлений.
Фреймворк поддерживает интеграцию с W&B для трекинга и экспорт логов в формат Inspect. Вместе с релизом кода на GitHub компания опубликовала результаты проверки 16 моделей по 4 критическим категориям безопасности.
anthropic.com
Design View - интерфейс для редактирования графики в режиме point-and-click с сохранением исходной композиции и стиля. Дизайнеры могут менять цвета объектов, корректировать глубину сцены и исправлять текст прямо на холсте. Инструмент глубоко интегрирован в экосистему Manus: поддерживается редактирование презентаций, созданных Nano Banana Pro, а также доработка UI-элементов и иконок для мобильных приложений в реальном времени.
Функция уже доступна всем пользователям сервиса.
manus.im
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM