Forwarded from Machinelearning
Логан Килпатрик из команды DeepMind беседует с Кораем Кавукчуоглу, CTO DeepMind и по совместительству новым главным архитектором Google по искусственному интеллекту.
Корай Кавукчуоглу рассказал о своих взглядах на текущее состояние ИИ, архитектуру Gemini и стратегию Google по достижению AGI. Он считает, что это «новая эра», где технологии стремительно меняются, и что ближайшие 6 месяцев обещают быть такими же захватывающими, как и предыдущие.
Основные темы интервью:
Недавний запуск Gemini 3 получился суперпозитивным. Но прогресс не замедляется, и Gemini 3, подобно 2.5, снова «отодвинула рубеж по ряду измерений». Центральная философия Google в том, что AGI будет «совместно создаваться с нашими клиентами». Это не чисто исследовательская работа, проводимая в изоляции, а совместное усилие с миром, требующее инженерного мышления.
Несмотря на то, что модели Google достигают лидирующих позиций на бенчмарках, истинное мерило прогресса в реальном применении. Старые бенчмарки перестают определять текущий рубеж, и новая мера успеха — это предоставление большей ценности в реальном мире, где модели используют ученые, студенты, юристы и инженеры.
Приоритеты для улучшения в будущих версиях Gemini Pro:
Интеграция- важная тема для сбора фидбэка от пользователей, который необходим для понимания того, как нужно улучшать модели. Риск для Gemini заключается не в отсутствии масштабирования, а в исчерпании инноваций. Поэтому Google DeepMind и Google Research должны постоянно заниматься исследованиями, чтобы находить новые идеи, которые будут питать «двигатель ИИ» Google.
Генеративные медиа-модели сходятся с текстовыми моделями. Яркий пример - Nano Banana Pro, которая показала, как слияние понимания мира из текста с пониманием из изображений позволяет модели создавать более детализированные и концептуально связные изображения, например, инфографику на основе сложных документов.
Фоном идет история о личном пути Корая Кавукчуоглу : от исследователя Deep Learning в DeepMind в 2012 году до текущей руководящей роли.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3🔥1
В свежей работе из Стэнфорда показывают неожиданный, но очень важный вывод: многие популярные LLM-бенчмарки дают искажённую картину.
Причина проста, большинство тестов используют один фиксированный промпт. Но разные модели сильно зависят от формулировки задачи.
Поэтому итоговая оценка часто показывает не «насколько модель сильная», а «насколько удачно ей подошла конкретная формулировка».
Авторы предлагают посмотреть на это иначе: что будет, если дать каждой модели шанс использовать лучший промпт?
Для экспериментов они связали HELM (suite для оценки моделей) и DSPy (инструмент для построения структурированных промптов).
Пробовали несколько стилей:
- простой короткий ответ
- ответ с пошаговыми рассуждениями
- примеры + поиск лучшего промпта
Пошаговые рассуждения дали основной прирост. Модель сначала пишет ход мысли, а потом ответ - и это заметно повышает точность.
Результаты на четырех моделях и семи бенчмарках (общих и медицинских):
- структурированные промпты повышают точность примерно на 4%
- в некоторых случаях меняют порядок моделей в рейтинге
- поиск оптимальных промптов даёт небольшой прирост, но тратит много токенов
- основной эффект идёт именно от chain-of-thought
Главный вывод:
справедливая оценка моделей должна тестировать их не на одном фиксированном промпте, а на их лучшей версии задачи, особенно с цепочкой рассуждений.
Paper: "Structured Prompting Enables More Robust, Holistic Evaluation of Language Models"
arxiv.org/abs/2511.20836
Причина проста, большинство тестов используют один фиксированный промпт. Но разные модели сильно зависят от формулировки задачи.
Поэтому итоговая оценка часто показывает не «насколько модель сильная», а «насколько удачно ей подошла конкретная формулировка».
Авторы предлагают посмотреть на это иначе: что будет, если дать каждой модели шанс использовать лучший промпт?
Для экспериментов они связали HELM (suite для оценки моделей) и DSPy (инструмент для построения структурированных промптов).
Пробовали несколько стилей:
- простой короткий ответ
- ответ с пошаговыми рассуждениями
- примеры + поиск лучшего промпта
Пошаговые рассуждения дали основной прирост. Модель сначала пишет ход мысли, а потом ответ - и это заметно повышает точность.
Результаты на четырех моделях и семи бенчмарках (общих и медицинских):
- структурированные промпты повышают точность примерно на 4%
- в некоторых случаях меняют порядок моделей в рейтинге
- поиск оптимальных промптов даёт небольшой прирост, но тратит много токенов
- основной эффект идёт именно от chain-of-thought
Главный вывод:
справедливая оценка моделей должна тестировать их не на одном фиксированном промпте, а на их лучшей версии задачи, особенно с цепочкой рассуждений.
Paper: "Structured Prompting Enables More Robust, Holistic Evaluation of Language Models"
arxiv.org/abs/2511.20836
❤5🔥3👍2
⚡️ Классический алгоритм на CPU обошёл нейросети на GPU в решении задач по геометрии уровня IMO
Исследователи из Microsoft, ETH Zurich и Калифорнийского университета представили HAGeo, это новый решатель задач по евклидовой геометрии, который удивил даже авторов. Без нейросетей, без GPU, только набор продуманных эвристик - и результат уровня золотой медали.
Главное, что показал HAGeo:
- Решает 28 из 30 стандартных задач IMO по геометрии - это уровень золота.
- Работает примерно в 20 раз быстрее, чем нейросетевая система AlphaGeometry, которой нужны мощные GPU.
- Исследование показало неожиданный факт: если просто случайно добавлять вспомогательные точки (те самые «хитрые точки», которые школьники придумывают на олимпиадах), CPU-система уже выходит на уровень серебра.
На основе этого наблюдения авторы создали небольшой набор умных правил:
- выбирать точки пересечения, середины, отражения;
- использовать перпендикуляры и точки, которые «попадают» сразу на несколько объектов;
- после каждой попытки запускать быстрый движок геометрической дедукции и алгебры.
Каждая задача превращается в короткое текстовое описание точек, линий и окружностей, дальше алгоритм перебирает разумные вспомогательные конструкции и проверяет, приводит ли новая конфигурация к решению.
Дополнительно представлен набор HAGeo 409 — 409 более сложных олимпиадных задач, где HAGeo снова обгоняет и AlphaGeometry, и случайный поиск.
Вывод простой: хорошо продуманная эвристика и алгоритмика всё ещё способны превосходить крупные нейросети в отдельных задачах, особенно там, где структура предметной области очень строгая.
🔗 Статья: arxiv.org/abs/2512.00097
Исследователи из Microsoft, ETH Zurich и Калифорнийского университета представили HAGeo, это новый решатель задач по евклидовой геометрии, который удивил даже авторов. Без нейросетей, без GPU, только набор продуманных эвристик - и результат уровня золотой медали.
Главное, что показал HAGeo:
- Решает 28 из 30 стандартных задач IMO по геометрии - это уровень золота.
- Работает примерно в 20 раз быстрее, чем нейросетевая система AlphaGeometry, которой нужны мощные GPU.
- Исследование показало неожиданный факт: если просто случайно добавлять вспомогательные точки (те самые «хитрые точки», которые школьники придумывают на олимпиадах), CPU-система уже выходит на уровень серебра.
На основе этого наблюдения авторы создали небольшой набор умных правил:
- выбирать точки пересечения, середины, отражения;
- использовать перпендикуляры и точки, которые «попадают» сразу на несколько объектов;
- после каждой попытки запускать быстрый движок геометрической дедукции и алгебры.
Каждая задача превращается в короткое текстовое описание точек, линий и окружностей, дальше алгоритм перебирает разумные вспомогательные конструкции и проверяет, приводит ли новая конфигурация к решению.
Дополнительно представлен набор HAGeo 409 — 409 более сложных олимпиадных задач, где HAGeo снова обгоняет и AlphaGeometry, и случайный поиск.
Вывод простой: хорошо продуманная эвристика и алгоритмика всё ещё способны превосходить крупные нейросети в отдельных задачах, особенно там, где структура предметной области очень строгая.
🔗 Статья: arxiv.org/abs/2512.00097
❤6🔥4
This media is not supported in your browser
VIEW IN TELEGRAM
Салют, Гига! — пространство для AI-инженеров
10 декабря разработчики GigaChat и Kandinsky расскажут и покажут, что сделали за этот год.
В программе — доклады, постеры, живые демонстрации и воркшопы от команд, которые каждый день обучают модели, собирают датасеты, запускают инференс и поддерживают продакшен-сервисы.
Это хорошая возможность пообщаться с командами, которые создавали открытые модели GigaChat 3 Ultra Preview & Lightning и Kandinsky 5.0. Вы сможете посмотреть на их пайплайны обучения и понять, как применять модели в своих задачах — от pet-проектов до промышленной разработки.
Участие бесплатное, но нужна регистрация.
Ждем всех на «Салют, Гига», кому интересен AI в open source!
10 декабря разработчики GigaChat и Kandinsky расскажут и покажут, что сделали за этот год.
В программе — доклады, постеры, живые демонстрации и воркшопы от команд, которые каждый день обучают модели, собирают датасеты, запускают инференс и поддерживают продакшен-сервисы.
Это хорошая возможность пообщаться с командами, которые создавали открытые модели GigaChat 3 Ultra Preview & Lightning и Kandinsky 5.0. Вы сможете посмотреть на их пайплайны обучения и понять, как применять модели в своих задачах — от pet-проектов до промышленной разработки.
Участие бесплатное, но нужна регистрация.
Ждем всех на «Салют, Гига», кому интересен AI в open source!
❤2
Forwarded from Machinelearning
Исследовательская группа DeepReinforce разработала систему полностью автоматического написания GPU-кода для матричного умножения под названием CUDA-L2.
Этот код работает на 10–30% быстрее, чем cuBLAS и cuBLASLt, а это, на минуточку, уже оптимизированные библиотеки от самой NVIDIA.
Обычно такие библиотеки создаются вручную людьми, которые используют готовые шаблоны ядер. А автотюнеры лишь подкручивают параметры, например, размер тайлов.
Но DeepReinforce считают, что даже критически важные и глубоко оптимизированные задачи, как HGEMM, могут быть улучшены с помощью LLM, работающей в связке с RL.
В системе CUDA-L2 языковая модель буквально пишет исходный код CUDA с нуля для каждого размера матрицы. Она не просто меняет параметры, она может менять структуру кода, циклы, стратегию тайлинга, паддинг и даже свизл-паттерны. А еще, она сама выбирает стиль программирования - будь то сырой CUDA, CuTe, CUTLASS или inline PTX.
Процесс выглядит так: цикл RL запускает сгенерированные ядра на реальном железе, измеряет скорость и корректность, а затем обновляет LLM. Со временем модель выводит свои собственные правила производительности, вместо того чтобы полагаться на знания, заложенные людьми.
В качестве генератора использовалась модель DeepSeek 671B. Ее дополнительно доучили на смеси массива CUDA-ядер и качественном коде из библиотек PyTorch, ATen, CUTLASS и примеров от NVIDIA.
Для претрейна и файнтюна LLM большая часть времени GPU тратится именно на операции матричного умножения HGEMM. Если ускорить эти ядра на те самые 10–30%, которые обещает CUDA-L2, то весь процесс обучения становится заметно дешевле и быстрее.
Поскольку CUDA-L2 обрабатывает около 1000 реальных размеров матриц, а не пару вручную настроенных, ускорение работает для самых разных архитектур. Это значит, что в тот же бюджет на GPU можно вместить больше токенов обучения, больше прогонов SFT или RLHF и т.д.
HGEMM-ядра, созданные CUDA-L2, стабильно быстрее стандартных библиотек.
В так называемом "оффлайн-сценарии" CUDA-L2 работает примерно на 17–22% быстрее, чем
torch.matmul, cuBLAS и cuBLASLt. Она даже на 11% обгоняет cuBLASLt AutoTuning, который сам по себе уже использует поиск ядра.А в "серверном", сценарии, который имитирует реальный инференс с паузами между вызовами - разница еще больше: буст в 24–29% по сравнению с
torch.matmul и cuBLAS.Простым рисёрчем проект не ограничен, в репозитории на Github авторы выложили оптимизированные ядра HGEMM A100 для 1000 конфигураций.
В планах: расширение на архитектуры Ada Lovelace, Hopper, Blackwell, поддержка более плотных конфигураций и 32-битный HGEMM.
@ai_machinelearning_big_data
#AI #ML #CUDA #DeepReinforce
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7👎1