Машиннное обучение | Наука о данных Библиотека

📌

This Is How We Are Going to Build AGI: CAIA Google рассказал о состоянии ИИ.

Логан Килпатрик из команды DeepMind беседует с Кораем Кавукчуоглу, CTO DeepMind и по совместительству новым главным архитектором Google по искусственному интеллекту.

Корай Кавукчуоглу рассказал о своих взглядах на текущее состояние ИИ, архитектуру Gemini и стратегию Google по достижению AGI. Он считает, что это «новая эра», где технологии стремительно меняются, и что ближайшие 6 месяцев обещают быть такими же захватывающими, как и предыдущие.

Основные темы интервью:

🟡

Успех Gemini 3 и подход к AGI

Недавний запуск Gemini 3 получился суперпозитивным. Но прогресс не замедляется, и Gemini 3, подобно 2.5, снова «отодвинула рубеж по ряду измерений». Центральная философия Google в том, что AGI будет «совместно создаваться с нашими клиентами». Это не чисто исследовательская работа, проводимая в изоляции, а совместное усилие с миром, требующее инженерного мышления.

🟡

Новый взгляд на прогресс и бенчмарки

Несмотря на то, что модели Google достигают лидирующих позиций на бенчмарках, истинное мерило прогресса в реальном применении. Старые бенчмарки перестают определять текущий рубеж, и новая мера успеха — это предоставление большей ценности в реальном мире, где модели используют ученые, студенты, юристы и инженеры.

🟡

Планы на будущее

Приоритеты для улучшения в будущих версиях Gemini Pro:

🟢Следование инструкциям: Модель должна уметь понимать и выполнять запрос пользователя, а не просто отвечать так, как считает нужным.

🟢Интернационализация: Google сосредоточен на языках, где исторически производительность была невысокой.

🟢Функциональные и инструментальные вызовы: Это критически важные технические области, поскольку они позволяют моделям естественно использовать существующие инструменты.

🟢Код и агентские действия : Код - это база для создания чего угодно в цифровом мире. Корай считает, что агентские действия и код — это наиболее перспективные области роста, в которых еще есть много возможностей для совершенствования.

🟡

Интеграция с продуктами и инновации

Интеграция- важная тема для сбора фидбэка от пользователей, который необходим для понимания того, как нужно улучшать модели. Риск для Gemini заключается не в отсутствии масштабирования, а в исчерпании инноваций. Поэтому Google DeepMind и Google Research должны постоянно заниматься исследованиями, чтобы находить новые идеи, которые будут питать «двигатель ИИ» Google.

🟡

Единство моделей и генеративные медиа

Генеративные медиа-модели сходятся с текстовыми моделями. Яркий пример - Nano Banana Pro, которая показала, как слияние понимания мира из текста с пониманием из изображений позволяет модели создавать более детализированные и концептуально связные изображения, например, инфографику на основе сложных документов.

Фоном идет история о личном пути Корая Кавукчуоглу : от исследователя Deep Learning в DeepMind в 2012 году до текущей руководящей роли.

🔜

Смотреть полное интервью на Youtube

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3🔥1

866 views10:04

Машиннное обучение | Наука о данных Библиотека

В свежей работе из Стэнфорда показывают неожиданный, но очень важный вывод: многие популярные LLM-бенчмарки дают искажённую картину.

Причина проста, большинство тестов используют один фиксированный промпт. Но разные модели сильно зависят от формулировки задачи.

Поэтому итоговая оценка часто показывает не «насколько модель сильная», а «насколько удачно ей подошла конкретная формулировка».

Авторы предлагают посмотреть на это иначе: что будет, если дать каждой модели шанс использовать лучший промпт?

Для экспериментов они связали HELM (suite для оценки моделей) и DSPy (инструмент для построения структурированных промптов).
Пробовали несколько стилей:
- простой короткий ответ
- ответ с пошаговыми рассуждениями
- примеры + поиск лучшего промпта

Пошаговые рассуждения дали основной прирост. Модель сначала пишет ход мысли, а потом ответ - и это заметно повышает точность.

Результаты на четырех моделях и семи бенчмарках (общих и медицинских):

- структурированные промпты повышают точность примерно на 4%
- в некоторых случаях меняют порядок моделей в рейтинге
- поиск оптимальных промптов даёт небольшой прирост, но тратит много токенов
- основной эффект идёт именно от chain-of-thought

Главный вывод:
справедливая оценка моделей должна тестировать их не на одном фиксированном промпте, а на их лучшей версии задачи, особенно с цепочкой рассуждений.

Paper: "Structured Prompting Enables More Robust, Holistic Evaluation of Language Models"
arxiv.org/abs/2511.20836

❤5🔥3👍2

1.3K views09:01

Машиннное обучение | Наука о данных Библиотека

⚡️ Классический алгоритм на CPU обошёл нейросети на GPU в решении задач по геометрии уровня IMO

Исследователи из Microsoft, ETH Zurich и Калифорнийского университета представили HAGeo, это новый решатель задач по евклидовой геометрии, который удивил даже авторов. Без нейросетей, без GPU, только набор продуманных эвристик - и результат уровня золотой медали.

Главное, что показал HAGeo:

- Решает 28 из 30 стандартных задач IMO по геометрии - это уровень золота.
- Работает примерно в 20 раз быстрее, чем нейросетевая система AlphaGeometry, которой нужны мощные GPU.
- Исследование показало неожиданный факт: если просто случайно добавлять вспомогательные точки (те самые «хитрые точки», которые школьники придумывают на олимпиадах), CPU-система уже выходит на уровень серебра.

На основе этого наблюдения авторы создали небольшой набор умных правил:

- выбирать точки пересечения, середины, отражения;
- использовать перпендикуляры и точки, которые «попадают» сразу на несколько объектов;
- после каждой попытки запускать быстрый движок геометрической дедукции и алгебры.

Каждая задача превращается в короткое текстовое описание точек, линий и окружностей, дальше алгоритм перебирает разумные вспомогательные конструкции и проверяет, приводит ли новая конфигурация к решению.

Дополнительно представлен набор HAGeo 409 — 409 более сложных олимпиадных задач, где HAGeo снова обгоняет и AlphaGeometry, и случайный поиск.

Вывод простой: хорошо продуманная эвристика и алгоритмика всё ещё способны превосходить крупные нейросети в отдельных задачах, особенно там, где структура предметной области очень строгая.

🔗 Статья: arxiv.org/abs/2512.00097

❤6🔥4

1.03K views07:41

Машиннное обучение | Наука о данных Библиотека

This media is not supported in your browser

VIEW IN TELEGRAM

Салют, Гига! — пространство для AI-инженеров

10 декабря разработчики GigaChat и Kandinsky расскажут и покажут, что сделали за этот год.

В программе — доклады, постеры, живые демонстрации и воркшопы от команд, которые каждый день обучают модели, собирают датасеты, запускают инференс и поддерживают продакшен-сервисы.

Это хорошая возможность пообщаться с командами, которые создавали открытые модели GigaChat 3 Ultra Preview & Lightning и Kandinsky 5.0. Вы сможете посмотреть на их пайплайны обучения и понять, как применять модели в своих задачах — от pet-проектов до промышленной разработки.

Участие бесплатное, но нужна регистрация.

Ждем всех на «Салют, Гига», кому интересен AI в open source!

❤2

670 views15:00

Машиннное обучение | Наука о данных Библиотека

Forwarded from Machinelearning

🌟

CUDA-L2: ИИ научился писать CUDA-ядра эффективнее инженеров NVIDIA.

Исследовательская группа DeepReinforce разработала систему полностью автоматического написания GPU-кода для матричного умножения под названием CUDA-L2.
Этот код работает на 10–30% быстрее, чем cuBLAS и cuBLASLt, а это, на минуточку, уже оптимизированные библиотеки от самой NVIDIA.

Обычно такие библиотеки создаются вручную людьми, которые используют готовые шаблоны ядер. А автотюнеры лишь подкручивают параметры, например, размер тайлов.

Но DeepReinforce считают, что даже критически важные и глубоко оптимизированные задачи, как HGEMM, могут быть улучшены с помощью LLM, работающей в связке с RL.

В системе CUDA-L2 языковая модель буквально пишет исходный код CUDA с нуля для каждого размера матрицы. Она не просто меняет параметры, она может менять структуру кода, циклы, стратегию тайлинга, паддинг и даже свизл-паттерны. А еще, она сама выбирает стиль программирования - будь то сырой CUDA, CuTe, CUTLASS или inline PTX.

Процесс выглядит так: цикл RL запускает сгенерированные ядра на реальном железе, измеряет скорость и корректность, а затем обновляет LLM. Со временем модель выводит свои собственные правила производительности, вместо того чтобы полагаться на знания, заложенные людьми.

В качестве генератора использовалась модель DeepSeek 671B. Ее дополнительно доучили на смеси массива CUDA-ядер и качественном коде из библиотек PyTorch, ATen, CUTLASS и примеров от NVIDIA.

🟡

Что это дает на практике

Для претрейна и файнтюна LLM большая часть времени GPU тратится именно на операции матричного умножения HGEMM. Если ускорить эти ядра на те самые 10–30%, которые обещает CUDA-L2, то весь процесс обучения становится заметно дешевле и быстрее.

Поскольку CUDA-L2 обрабатывает около 1000 реальных размеров матриц, а не пару вручную настроенных, ускорение работает для самых разных архитектур. Это значит, что в тот же бюджет на GPU можно вместить больше токенов обучения, больше прогонов SFT или RLHF и т.д.

🟡

Тесты

HGEMM-ядра, созданные CUDA-L2, стабильно быстрее стандартных библиотек.

В так называемом "оффлайн-сценарии" CUDA-L2 работает примерно на 17–22% быстрее, чем torch.matmul, cuBLAS и cuBLASLt. Она даже на 11% обгоняет cuBLASLt AutoTuning, который сам по себе уже использует поиск ядра.

А в "серверном", сценарии, который имитирует реальный инференс с паузами между вызовами - разница еще больше: буст в 24–29% по сравнению с torch.matmul и cuBLAS.

Простым рисёрчем проект не ограничен, в репозитории на Github авторы выложили оптимизированные ядра HGEMM A100 для 1000 конфигураций.

В планах: расширение на архитектуры Ada Lovelace, Hopper, Blackwell, поддержка более плотных конфигураций и 32-битный HGEMM.

🟡

Arxiv

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #CUDA #DeepReinforce

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7👎1

459 views17:05

About

Blog

Apps

Platform