This media is not supported in your browser
VIEW IN TELEGRAM
✍️ python-course - структурированный и глубокий разбор Python от базовых принципов до продвинутых тем.
Это подробный текстовый курс для вдумчивого самостоятельного изучения. Материал выстроен последовательно: от основ синтаксиса и ключевых конструкций — к ООП, генераторам, итераторам, замыканиям и внутреннему устройству языка. Без воды, с акцентом на понимание того, как и почему Python работает именно так.
Подойдёт тем, кто хочет:
- выстроить прочный фундамент
- систематизировать разрозненные знания
- глубже разобраться во внутренних механизмах языка
https://python-course.eu/
Это подробный текстовый курс для вдумчивого самостоятельного изучения. Материал выстроен последовательно: от основ синтаксиса и ключевых конструкций — к ООП, генераторам, итераторам, замыканиям и внутреннему устройству языка. Без воды, с акцентом на понимание того, как и почему Python работает именно так.
Подойдёт тем, кто хочет:
- выстроить прочный фундамент
- систематизировать разрозненные знания
- глубже разобраться во внутренних механизмах языка
https://python-course.eu/
⚡ Gemini 3 Flash - быстрый ИИ нового поколения от Google
Gemini 3 Flash:
- это очень быстрая модель с минимальной задержкой
- при этом она сохраняет сильные способности к рассуждению
- Frontier-уровень на GPQA Diamond - рассуждения уровня PhD
- Хорошие результаты на Humanity’s Last Exam
- State-of-the-art на MMMU Pro - хорошо работает с видео и мультимодальными данными
- В целом, качество сопоставимо с Gemini 3 Pro
По сути, Flash - это попытка Google сбалансировать три вещи одновременно: скорость + интеллект + стоимость.
https://blog.google/products/gemini/gemini-3-flash/
@ai_machinelearning_big_data
#AI #Gemini #Google #LLM #Multimodal #AIModels #MachineLearning
Gemini 3 Flash:
- это очень быстрая модель с минимальной задержкой
- при этом она сохраняет сильные способности к рассуждению
- Frontier-уровень на GPQA Diamond - рассуждения уровня PhD
- Хорошие результаты на Humanity’s Last Exam
- State-of-the-art на MMMU Pro - хорошо работает с видео и мультимодальными данными
- В целом, качество сопоставимо с Gemini 3 Pro
По сути, Flash - это попытка Google сбалансировать три вещи одновременно: скорость + интеллект + стоимость.
https://blog.google/products/gemini/gemini-3-flash/
@ai_machinelearning_big_data
#AI #Gemini #Google #LLM #Multimodal #AIModels #MachineLearning
Главные новости ИИ и МЛ
✔️ HY World 1.5: модель для генерации 3D-миров в реальном времени.
Tencent релизнула HY World 1.5 - "модель мира" для генерации бесконечных интерактивных 3D-пространств с фрейм-рейтом 24 FPS.
В этом релизе решили проблему амнезии модели. Это значит, что при возвращении в ранее сгенерированную локацию она сохранит свой исходный облик, а не перестроится случайным образом.
Под капотом - связка Diffusion Transformer и 3D VAE, предсказывающая чанки по 16 кадров на лету. Управление от первого или третьего лица реализовано через гибридную систему Dual Action (клавиши WASD плюс положение камеры).
3d-models.hunyuan.tencent.com
✔️ Microsoft обновила 3D-модель TRELLIS.
TRELLIS 2 получила 4 млрд. параметров и способность генерировать детализированные 3D-меши с разрешением до 1536³ по тексту или изображению. Модель отличается реалистичной проработкой материалов и улучшенной топологией мешей по сравнению с первой версией.
В основе системы - высокопроизводительная архитектура O-Voxel: черновой вариант генерируется всего за 3 секунды, а версия в максимальном качестве — около минуты.
microsoft.github.io
✔️ Adobe добавил видеоредактор в Firefly.
Adobe выпустила обновление Firefly. Теперь там есть полноценный видеоредактор, позволяющий вносить точечные изменения в ролики с помощью текстовых команд. Через промпты можно корректировать отдельные элементы, цветовую гамму и ракурсы камеры. Для удобства работы добавлен интерфейс с привычным таймлайном.
Компания также расширила экосистему, добавив модели FLUX.2 и Topaz Astra для апскейла видео до 4K. Кроме того, собственная видеомодель Adobe научилась повторять движение камеры, используя первый кадр и референсное видео.
Функции вышли из стадии закрытой беты и уже доступны на тарифах Firefly Pro, Firefly Premium бесплатно до 15 января.
blog.adobe.com
✔️ Google Labs делает экспериментального ИИ-агента для автоматизации рутины.
Это ИИ-ассистент под названием CC на базе Gemini, который берет на себя роль умного секретаря. Сервис интегрируется с Gmail, Google Calendar и Drive, чтобы каждое утро присылать пользователю структурированный бриф с планами на день и важными задачами.
Бот умеет не просто агрегировать информацию, но и выделять контекст: он подскажет, когда нужно подготовиться к встрече или оплатить счет, а также может сам составить черновик письма или создать событие в календаре.
Взаимодействие с ассистентом происходит исключительно через электронную почту: вы обучаете его, просто отвечая на письма. Ранний доступ к СС открыт только для пользователей из США и Канады через лист ожидания.
blog.google
✔️ Perplexity обновила свое приложение для iPad.
Perplexity выпустила новую версию приложения для iPad, ориентированную на студентов и бизнес-пользователей, которым нужны глубокие исследования.
Теперь это не просто растянутая версия с iPhone: интерфейс полностью переработан с учетом эргономики планшетов. Появилась удобная боковая панель для навигации и поддержка режима Split View для полноценной многозадачности.
В компании не скрывают, что улучшение UX бля больших экранов — это стратегический шаг для наращивания базы платных подписчиков, так как безлимитный доступ к расширенным исследовательским функциям открывается именно в Pro-тарифе.
bloomberg.com
#news #ai #ml
Tencent релизнула HY World 1.5 - "модель мира" для генерации бесконечных интерактивных 3D-пространств с фрейм-рейтом 24 FPS.
В этом релизе решили проблему амнезии модели. Это значит, что при возвращении в ранее сгенерированную локацию она сохранит свой исходный облик, а не перестроится случайным образом.
Под капотом - связка Diffusion Transformer и 3D VAE, предсказывающая чанки по 16 кадров на лету. Управление от первого или третьего лица реализовано через гибридную систему Dual Action (клавиши WASD плюс положение камеры).
3d-models.hunyuan.tencent.com
TRELLIS 2 получила 4 млрд. параметров и способность генерировать детализированные 3D-меши с разрешением до 1536³ по тексту или изображению. Модель отличается реалистичной проработкой материалов и улучшенной топологией мешей по сравнению с первой версией.
В основе системы - высокопроизводительная архитектура O-Voxel: черновой вариант генерируется всего за 3 секунды, а версия в максимальном качестве — около минуты.
microsoft.github.io
Adobe выпустила обновление Firefly. Теперь там есть полноценный видеоредактор, позволяющий вносить точечные изменения в ролики с помощью текстовых команд. Через промпты можно корректировать отдельные элементы, цветовую гамму и ракурсы камеры. Для удобства работы добавлен интерфейс с привычным таймлайном.
Компания также расширила экосистему, добавив модели FLUX.2 и Topaz Astra для апскейла видео до 4K. Кроме того, собственная видеомодель Adobe научилась повторять движение камеры, используя первый кадр и референсное видео.
Функции вышли из стадии закрытой беты и уже доступны на тарифах Firefly Pro, Firefly Premium бесплатно до 15 января.
blog.adobe.com
Это ИИ-ассистент под названием CC на базе Gemini, который берет на себя роль умного секретаря. Сервис интегрируется с Gmail, Google Calendar и Drive, чтобы каждое утро присылать пользователю структурированный бриф с планами на день и важными задачами.
Бот умеет не просто агрегировать информацию, но и выделять контекст: он подскажет, когда нужно подготовиться к встрече или оплатить счет, а также может сам составить черновик письма или создать событие в календаре.
Взаимодействие с ассистентом происходит исключительно через электронную почту: вы обучаете его, просто отвечая на письма. Ранний доступ к СС открыт только для пользователей из США и Канады через лист ожидания.
blog.google
Perplexity выпустила новую версию приложения для iPad, ориентированную на студентов и бизнес-пользователей, которым нужны глубокие исследования.
Теперь это не просто растянутая версия с iPhone: интерфейс полностью переработан с учетом эргономики планшетов. Появилась удобная боковая панель для навигации и поддержка режима Split View для полноценной многозадачности.
В компании не скрывают, что улучшение UX бля больших экранов — это стратегический шаг для наращивания базы платных подписчиков, так как безлимитный доступ к расширенным исследовательским функциям открывается именно в Pro-тарифе.
bloomberg.com
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Исследователи показали: большие языковые модели могут ощущать, что на их внутреннее состояние что-то сильно влияет, но при этом обычно не способны объяснить, что именно.
Что сделали авторы:
- Они искусственно «подталкивают» скрытые активации модели в заданном направлении
- Модель часто может определить насколько сильным был этот сдвиг
- Но даже заметив изменение внутри себя, она не может корректно назвать внедрённый концепт, например «предательство» или «спутники»
Проще говоря:
Модель может сказать
«на меня сейчас сильно что-то влияет»,
но не может надёжно сказать
«это именно концепт предательства»
Поэтому авторы называют это частичной интроспекцией:
- модель считывает простой сигнал (силу воздействия)
- но не понимает смысл собственного внутреннего состояния
Результаты:
- На Llama 3.1 8B Instruct модель определяет силу инъекции (от слабой до очень сильной) с точностью около 70%
- Случайный уровень - 25%
- Корректно назвать сам концепт удаётся лишь примерно в 20% случаев
- Переформулировка вопроса легко ломает ответы
Некоторые идеи AI-безопасности предполагают, что модель можно спросить, активировано ли внутри неё опасное состояние.
Но эксперимент показывает:
- LLM действительно чувствуют внутренние сигналы
- Однако их объяснения того, что эти сигналы означают, ненадёжны
Как это работает:
- Каждый токен формирует большое числовое состояние
- Авторы создают направление концепта, сравнивая примеры с контрастным набором
- Затем на выбранном слое слегка смещают внутреннее состояние
- И смотрят, что модель может сказать о происходящем
LLM обладают ограниченной самодиагностикой,
но интроспекция не равна пониманию.
Paper:https://arxiv.org/abs/2512.12411
Please open Telegram to view this post
VIEW IN TELEGRAM
Суровая реальность нашего времени: вы хотите сгенерировать 5-секундное видео на большой SOTA-модели. Вы запускаете промпт, идете пить кофе, возвращаетесь, а процесс все еще идет. И зачастую генерация может занимать больше часа.
Главные виновники - чудовищная вычислительная сложность механизма внимания в трансформерах, необходимость сотен шагов денойзинга и огромный объем памяти для весов в полной точности.
Авторы проекта TurboDiffusion из Цинхуа и Беркли решили собрать все эффективные методы сжатия и ускорения в один пайплайн. Их идея заключалась в том, что разреженность и квантование — это техники, которые не мешают друг другу.
В довершении ко всему смогли объединить после файнтюнинга под SLA и дистилляции rCM веса в единую модель, избежав конфликтов.
На RTX 5090 время генерации для тяжелой модели Wan2.2-I2V 14B упало с 69 минут до 35.4 секунд. А для более легкой Wan 2.1-1.3B - с почти 3-х минут до 1.8 секунды.
Это ускорение больше чем в 100 раз.
При этом, судя по примерам, визуальное качество осталось практически неотличимым от оригинала.
@ai_machinelearning_big_data
#AI #ML #I2V #T2V #TurboDiffusion
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔍 Mistral представила OCR 3 - новую версию своей AI-системы распознавания документов.
Ключевое:
- Существенный рост качества по сравнению с OCR 2, особенно на формах, таблицах и сложных PDF
- Уверенно работает со сканами, рукописным текстом и нестандартной версткой
- Возвращает структурированный результат, а не просто сырой текст
- Подходит для автоматизации Document AI и downstream-аналитики
- Доступен через API и готов к продакшен-использованию
Главное
- На 74% лучше Mistral OCR 2 при работе с формами, сканированными документами, сложными таблицами и рукописным текстом.
- Точность уровня state-of-the-art: Обходит как корпоративные системы обработки документов, так и современные AI-OCR решения.
- Используется в Document AI Playground:
В Mistral AI Studio появился простой drag-and-drop интерфейс для разбора PDF и изображений в чистый текст или структурированный JSON.
https://mistral.ai/news/mistral-ocr-3
@ai_machinelearning_big_data
#ocr #mistal #llm
Ключевое:
- Существенный рост качества по сравнению с OCR 2, особенно на формах, таблицах и сложных PDF
- Уверенно работает со сканами, рукописным текстом и нестандартной версткой
- Возвращает структурированный результат, а не просто сырой текст
- Подходит для автоматизации Document AI и downstream-аналитики
- Доступен через API и готов к продакшен-использованию
Главное
- На 74% лучше Mistral OCR 2 при работе с формами, сканированными документами, сложными таблицами и рукописным текстом.
- Точность уровня state-of-the-art: Обходит как корпоративные системы обработки документов, так и современные AI-OCR решения.
- Используется в Document AI Playground:
В Mistral AI Studio появился простой drag-and-drop интерфейс для разбора PDF и изображений в чистый текст или структурированный JSON.
https://mistral.ai/news/mistral-ocr-3
@ai_machinelearning_big_data
#ocr #mistal #llm
T5Gemma 2 - новое поколение энкодер-декодерных моделей от Google
Google представила T5Gemma 2 - энкодер-декодерную архитектуру, построенную на базе идей и ряда улучшений Gemma 3. Это не просто апдейт, а полноценный шаг вперед для задач генерации, перевода, суммаризации и мультимодального понимания.
T5Gemma 2 объединяет сильные стороны классического подхода T5 (encoder-decoder) с архитектурными улучшениями Gemma нового поколения, делая модель более эффективной, масштабируемой и универсальной.
Основные особенности
- Энкодер-декодерная архитектура нового поколения
- Общие эмбеддинги для энкодера и декодера, что снижает размер модели
- Объединенное self- и cross-attention в декодере для более эффективных вычислений
- Поддержка длинного контекста до 128 000 токенов
- Мультимодальность - работа с текстом и изображениями
- Многоязычная поддержка более 140 языков
Размеры моделей
T5Gemma 2 доступна в нескольких конфигурациях:
- 270M + 270M параметров
- 1B + 1B параметров
- 4B + 4B параметров
Такие размеры позволяют использовать модель как в исследованиях, так и в продакшене, включая on-device сценарии.
Модель демонстрирует отличное понимание контекста, более стабильную генерацию и высокое качество работы с длинными последовательностями. Особенно хорошо проявляет себя в задачах суммаризации, QA, перевода и мультимодальных сценариях.
Где это полезно
- Суммаризация документов
- Машинный перевод
- Поиск и RAG-системы
- Мультимодальные ассистенты
- Обработка длинных текстов без агрессивного чанкинга
T5Gemma 2 показывает, что encoder-decoder подход по-прежнему актуален и может конкурировать с decoder-only моделями, особенно в задачах понимания и структурированной генерации.
https://blog.google/technology/developers/t5gemma-2/
Google представила T5Gemma 2 - энкодер-декодерную архитектуру, построенную на базе идей и ряда улучшений Gemma 3. Это не просто апдейт, а полноценный шаг вперед для задач генерации, перевода, суммаризации и мультимодального понимания.
T5Gemma 2 объединяет сильные стороны классического подхода T5 (encoder-decoder) с архитектурными улучшениями Gemma нового поколения, делая модель более эффективной, масштабируемой и универсальной.
Основные особенности
- Энкодер-декодерная архитектура нового поколения
- Общие эмбеддинги для энкодера и декодера, что снижает размер модели
- Объединенное self- и cross-attention в декодере для более эффективных вычислений
- Поддержка длинного контекста до 128 000 токенов
- Мультимодальность - работа с текстом и изображениями
- Многоязычная поддержка более 140 языков
Размеры моделей
T5Gemma 2 доступна в нескольких конфигурациях:
- 270M + 270M параметров
- 1B + 1B параметров
- 4B + 4B параметров
Такие размеры позволяют использовать модель как в исследованиях, так и в продакшене, включая on-device сценарии.
Модель демонстрирует отличное понимание контекста, более стабильную генерацию и высокое качество работы с длинными последовательностями. Особенно хорошо проявляет себя в задачах суммаризации, QA, перевода и мультимодальных сценариях.
Где это полезно
- Суммаризация документов
- Машинный перевод
- Поиск и RAG-системы
- Мультимодальные ассистенты
- Обработка длинных текстов без агрессивного чанкинга
T5Gemma 2 показывает, что encoder-decoder подход по-прежнему актуален и может конкурировать с decoder-only моделями, особенно в задачах понимания и структурированной генерации.
https://blog.google/technology/developers/t5gemma-2/
⚡️ Shannon - полностью автономный AI-хакер для поиска реальных уязвимостей в веб-приложениях
Shannon - это автономная система для offensive security, которая сама ищет, воспроизводит и документирует реальные эксплойты в веб-приложениях без подсказок и ручного вмешательства.
Модель показала 96.15% успешности на XBOW Benchmark (hint-free, source-aware), что выводит ее на уровень практического pentest, а не просто статического анализа.
Что умеет Shannon
- Полностью автономная работа без ручного управления
- Поиск реальных эксплойтов, а не теоретических уязвимостей
- Генерация pentester-grade отчетов с воспроизводимыми шагами атаки
- Покрытие критических уязвимостей OWASP Top
- Code-aware динамическое тестирование с учетом исходного кода
- Использование набора интегрированных security-инструментов
- Параллельное выполнение атак для ускорения результатов
Почему это важно
Большинство сканеров находят потенциальные проблемы. Shannon ищет именно эксплуатируемые уязвимости и подтверждает их рабочими атаками, снижая false positives и экономя время команд безопасности.
Практическое применение
- Автоматизированный pentest в CI/CD
- Проверка безопасности перед релизом
- Red Team инструментарий
- Continuous security для веб-продуктов
Shannon - пример того, как автономные AI-агенты начинают реально менять рынок offensive security, переходя от подсказок к самостоятельному поиску и эксплуатации уязвимостей.
🖥 GitHub: https://github.com/KeygraphHQ/shannon
Shannon - это автономная система для offensive security, которая сама ищет, воспроизводит и документирует реальные эксплойты в веб-приложениях без подсказок и ручного вмешательства.
Модель показала 96.15% успешности на XBOW Benchmark (hint-free, source-aware), что выводит ее на уровень практического pentest, а не просто статического анализа.
Что умеет Shannon
- Полностью автономная работа без ручного управления
- Поиск реальных эксплойтов, а не теоретических уязвимостей
- Генерация pentester-grade отчетов с воспроизводимыми шагами атаки
- Покрытие критических уязвимостей OWASP Top
- Code-aware динамическое тестирование с учетом исходного кода
- Использование набора интегрированных security-инструментов
- Параллельное выполнение атак для ускорения результатов
Почему это важно
Большинство сканеров находят потенциальные проблемы. Shannon ищет именно эксплуатируемые уязвимости и подтверждает их рабочими атаками, снижая false positives и экономя время команд безопасности.
Практическое применение
- Автоматизированный pentest в CI/CD
- Проверка безопасности перед релизом
- Red Team инструментарий
- Continuous security для веб-продуктов
Shannon - пример того, как автономные AI-агенты начинают реально менять рынок offensive security, переходя от подсказок к самостоятельному поиску и эксплуатации уязвимостей.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 2025 - год, когда LLM действительно изменились. Коротко и по делу, по мотивам поста Андрея Карпты
2025 оказался неожиданно сильным годом для LLM. Не просто улучшения метрик, а реальные сдвиги в том, как модели обучаются, как ими пользуются и как вообще стоит думать об их «интеллекте».
Главное за 2025 по мнению Карпты:
1. RLVR — Reinforcement Learning from Verifiable Rewards
До 2025 стандартный стек выглядел так: pretraining → SFT → RLHF. В 2025 к этому стеку добавился новый, ключевой этап- RLVR.
Вместо субъективной человеческой оценки модель обучают на автоматически проверяемых наградах: задачи по математике, коду, логике. В результате LLM сама находит стратегии рассуждения - дробит задачи, проверяет гипотезы, возвращается назад.
Важно не «что мы показали модели», а то, что она сама нашла рабочие способы думать. Этот этап оказался невероятно эффективным по соотношению capability к стоимости, из-за чего значительная часть вычислений ушла не в pretraining, а в длинные RL-прогоны.
Побочный эффект — появился новый регулятор мощности: test-time compute. Больше «времени на размышление» — выше качество. o1 показал идею, o3 в начале 2025 сделал перелом — разницу стало чувствовать интуитивно.
2. «Призраки, а не животные» и рваный интеллект
В 2025 индустрия наконец осознала форму LLM-интеллекта. Мы не «растим животных». Мы «призываем призраков».
LLM оптимизированы не под выживание и социальные группы, а под имитацию текста, получение наград в формальных задачах и апвоты. Поэтому интеллект получается рваным:
- гениальны в одном
- наивны и уязвимы в другом
RLVR усиливает этот эффект - модели становятся сверхсильными в верифицируемых доменах и странно слабыми вне их. Отсюда и потеря доверия к бенчмаркам: они почти всегда верифицируемы, а значит легко «обрастают jagged-улучшениями». Обучение на тесте стало искусством.
Можно побить все бенчмарки и всё ещё быть далеко от AGI.
3. Cursor и новый слой LLM-приложений
Cursor показал, что появился новый класс LLM-продуктов - «Cursor для X».
Это не просто интерфейс к модели, а слой, который:
- делает context engineering
- оркестрирует множество LLM-вызовов в DAG
- балансирует стоимость и качество
- дает специализированный UI
- вводит «ползунок автономности»
Вероятный сценарий: LLM-лабы делают «универсального студента», а приложения превращают их в специалистов — добавляя данные, инструменты, сенсоры и обратную связь.
4. Claude Code - AI, который живет на твоем компьютере
Claude Code стал первым убедительным агентом, который работает локально, в твоем окружении, с твоими файлами и контекстом.
Это важный сдвиг. Не облачные контейнеры и абстрактные агенты, а «дух», который живет рядом с разработчиком. В мире рваных возможностей это оказалось гораздо полезнее, чем агентные своры в облаке.
Форм-фактор CLI сделал этот сдвиг особенно наглядным: AI - это уже не сайт, а постоянный спутник.
5. Vibe coding
2025 - год, когда стало возможно писать сложные программы, почти забыв, что код вообще существует.
Vibe coding демократизирует программирование:
- обычные люди могут создавать софт
- профессионалы пишут больше, быстрее и смелее
- код стал дешевым, одноразовым, экспериментальным
Можно написать программу ради одной проверки, одного бага, одной идеи - и выкинуть. Это изменит и софт, и профессии.
6. Nano banana и будущее интерфейсов
Чат - это терминал 80-х. Удобно для машины, плохо для человека.
Люди предпочитают визуальное мышление: схемы, изображения, анимации, интерфейсы. LLM должны общаться с нами в этих форматах. Gemini Nano banana - первый намек на настоящий LLM-GUI, где текст, изображения и знания слиты в одной модели.
Это не просто генерация картинок — это новый пользовательский слой для интеллекта.
2025 показал: LLM - это новый тип интеллекта. Он одновременно умнее и глупее, чем ожидали. Он невероятно полезен, но мы реализовали, возможно, даже не 10% его потенциала.
Прогресс будет быстрым. Работы впереди — море. Поле идей - открыто.
https://x.com/karpathy/status/2002118205729562949
2025 оказался неожиданно сильным годом для LLM. Не просто улучшения метрик, а реальные сдвиги в том, как модели обучаются, как ими пользуются и как вообще стоит думать об их «интеллекте».
Главное за 2025 по мнению Карпты:
1. RLVR — Reinforcement Learning from Verifiable Rewards
До 2025 стандартный стек выглядел так: pretraining → SFT → RLHF. В 2025 к этому стеку добавился новый, ключевой этап- RLVR.
Вместо субъективной человеческой оценки модель обучают на автоматически проверяемых наградах: задачи по математике, коду, логике. В результате LLM сама находит стратегии рассуждения - дробит задачи, проверяет гипотезы, возвращается назад.
Важно не «что мы показали модели», а то, что она сама нашла рабочие способы думать. Этот этап оказался невероятно эффективным по соотношению capability к стоимости, из-за чего значительная часть вычислений ушла не в pretraining, а в длинные RL-прогоны.
Побочный эффект — появился новый регулятор мощности: test-time compute. Больше «времени на размышление» — выше качество. o1 показал идею, o3 в начале 2025 сделал перелом — разницу стало чувствовать интуитивно.
2. «Призраки, а не животные» и рваный интеллект
В 2025 индустрия наконец осознала форму LLM-интеллекта. Мы не «растим животных». Мы «призываем призраков».
LLM оптимизированы не под выживание и социальные группы, а под имитацию текста, получение наград в формальных задачах и апвоты. Поэтому интеллект получается рваным:
- гениальны в одном
- наивны и уязвимы в другом
RLVR усиливает этот эффект - модели становятся сверхсильными в верифицируемых доменах и странно слабыми вне их. Отсюда и потеря доверия к бенчмаркам: они почти всегда верифицируемы, а значит легко «обрастают jagged-улучшениями». Обучение на тесте стало искусством.
Можно побить все бенчмарки и всё ещё быть далеко от AGI.
3. Cursor и новый слой LLM-приложений
Cursor показал, что появился новый класс LLM-продуктов - «Cursor для X».
Это не просто интерфейс к модели, а слой, который:
- делает context engineering
- оркестрирует множество LLM-вызовов в DAG
- балансирует стоимость и качество
- дает специализированный UI
- вводит «ползунок автономности»
Вероятный сценарий: LLM-лабы делают «универсального студента», а приложения превращают их в специалистов — добавляя данные, инструменты, сенсоры и обратную связь.
4. Claude Code - AI, который живет на твоем компьютере
Claude Code стал первым убедительным агентом, который работает локально, в твоем окружении, с твоими файлами и контекстом.
Это важный сдвиг. Не облачные контейнеры и абстрактные агенты, а «дух», который живет рядом с разработчиком. В мире рваных возможностей это оказалось гораздо полезнее, чем агентные своры в облаке.
Форм-фактор CLI сделал этот сдвиг особенно наглядным: AI - это уже не сайт, а постоянный спутник.
5. Vibe coding
2025 - год, когда стало возможно писать сложные программы, почти забыв, что код вообще существует.
Vibe coding демократизирует программирование:
- обычные люди могут создавать софт
- профессионалы пишут больше, быстрее и смелее
- код стал дешевым, одноразовым, экспериментальным
Можно написать программу ради одной проверки, одного бага, одной идеи - и выкинуть. Это изменит и софт, и профессии.
6. Nano banana и будущее интерфейсов
Чат - это терминал 80-х. Удобно для машины, плохо для человека.
Люди предпочитают визуальное мышление: схемы, изображения, анимации, интерфейсы. LLM должны общаться с нами в этих форматах. Gemini Nano banana - первый намек на настоящий LLM-GUI, где текст, изображения и знания слиты в одной модели.
Это не просто генерация картинок — это новый пользовательский слой для интеллекта.
2025 показал: LLM - это новый тип интеллекта. Он одновременно умнее и глупее, чем ожидали. Он невероятно полезен, но мы реализовали, возможно, даже не 10% его потенциала.
Прогресс будет быстрым. Работы впереди — море. Поле идей - открыто.
https://x.com/karpathy/status/2002118205729562949