AI VK Hub

Perplexity запускает браузер Comet на основе ИИ (eng | ru)
Главные особенности браузера — поиск на основе ИИ и доступ к Comet Assistant — ИИ-агенту для автоматизации рутинных задач: например, агент может составить сводку писем и задач в календаре. Кроме того, в браузер встроена блокировка рекламы. Пока Comet доступен только подписчикам тарифа Max за 200$ в месяц.
OpenAI тоже объявил о своих планах в ближайшее время выпустить ИИ-браузер. Обе компании стремятся составить конкуренцию Chrome от Google в борьбе за пользовательские данные.

🔹

Google открыл исходный код MCP сервера для баз данных (eng)
Проект помогает упростить интеграцию ИИ-агентов с базами данных. Решение поддерживает подключение к целому ряду баз данных (PostgreSQL, MySQL и другим) в 10 строк кода, встроенную аутентификацию и пулинг и может быть легко интегрировано с популярными фреймворками, например, с LangChain.

🔹

Alibaba открыл исходный код модели генерации звука ThinkSound, поддерживающей цепочку рассуждений (eng)
Для обучения исследователи создали набор данных AudioCoT, содержащий 2531,8 часов звуковых данных. Модель позволяет генерировать звук по тексту, видео, изображениям и их комбинациям и поддерживает режим редактирования. ThinkSound достигает SOTA-уровня в нескольких тестах генерации звука по видео. Модель доступна на Github для исследовательских и образовательных целей.

🔹

Американский стартап Moonvalley выпустил модель для генерации видео Marey Realism v1.5 (eng)
Модель интегрирована в платформу ComfyUI, генерирует видео в разрешении 1080p и обучена на видеоматериалах высокого разрешения, что дает детальную текстуру, чёткие контуры и высокую контрастность без артефактов и размытия. Все данные для обучения лицензированы, что полностью исключает юридические риски, связанные с авторскими правами.

🔹

xAI выпустил две новых модели – Grok 4 и Grok 4 Heavy (eng | ru)
Grok 4 лидирует на бенчмарках AIME25 (100%) и ARC-AGI-2 и дает лучший результат на тесте Humanity's Last Exam как в топовой конфигурации Heavy «с внешними инструментами», так и без нее. Контекстное окно увеличено до 256k токенов, что больше, чем у Claude 4 Opus и o3, хотя и меньше, чем 1 миллион токенов Gemini. Как и прошлые модели, Grok 4 оснащен инструментом поиска в интернете. Разработчик также представляет Grok 4 Code — инструмент для написания и отладки кода. Модель доступна через API и через чат-бот Grok в X.

🔹

Google выпустил T5Gemma — новую коллекцию LLM с архитектурой encoder-decoder (eng)
T5Gemma пересматривает классическую архитектуру энкодер-декодер, адаптируя предварительно обученные модели, работающие только с декодерами. В SuperGLUE и GSM8K модели превосходят сопоставимые модели, работающие только с декодером, как по точности, так и по задержке. Модели в разных размерах доступны на Hugging Face.

🔹

Alibaba открыл исходный код WebSailor — веб-агента, обладающего навыками логического мышления и поиска (eng)
Агент достиг наивысшего результата в бенчмарке BrowseComp, превзойдя такие модели, как DeepSeek R1 и Grok-3. BrowseComp предназначен для проверки возможностей веб-агентов в области рассуждений и поиска информации в сложных сценариях. Проект доступен на Hugging Face.

#дайджест

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥9👍7👏5😁1👌1

1.47K viewsedited 08:07

AI VK Hub

Всем привет! Объявляем неделю обзоров наиболее интересных, на наш взгляд, статей, представленных на конференции ICML 2025.

В первый день рассмотрим статью о высокопроизводительных трансформерах на базе MatMuls.

Трансформеры — следствие роста популярности языковых моделей. Основной недостаток этой архитектуры — вычислительная стоимость:
🔸много нелинейных операций (aka softmax);
🔸 квадратичная сложность по длине обрабатываемой последовательности (числу слов).

Проблема не нова, поэтому существует масса решений для уменьшения вычислительной сложности, но они либо хуже по качеству, либо требуют тонкой настройки под конкретное hardware, либо дают выигрыш в вычислительной эффективности только на очень длинных последовательностях.

Авторы работы предлагают новую модификацию трансформерной архитектуры, которая существенно снижает вычислительную стоимость и достигает линейной сложности и портативности.

Детали

1. Сокращение числа дорогостоящих операций:
🔸Удаляется softmax в механизме внимания (и вместо него не вносится ничего взамен, как в других работах на эту же тему);
🔸Не используются байесы в слоях нейронных сетей, маскирование, dropout.
🔸Используется одна голова внимания большой размерности вместо нескольких маленьких.

Благодаря этому, механизм внимания становится, по сути, чистыми матричными перемножениеми (слоган “MatMuls are Enough” из названия статьи). Из-за отсутствия нелинейных операций, можно переупорядочить множители в матричном произведении Q*K*V и добиться линейной сложности по длине последовательности.

2. Другие модификации архитектуры:
🔸LayerNorm, основанный на l₂ норме, заменен на MaxNormActivation (l ͚ норма) для стабилизации архитектуры, между блоками внимания и MLP убраны residual connection и LayerNorm и матрицы линейных проекций слиты воедино, чтобы обеспечить большую вычислительную эффективность.

3. Кросс-платформенность и совместимость с любым оборудованием за счет того, что модель написана на чистом PyTorch без использования низкоуровневых оптимизаций CUDA, которыми грешат другие современные архитектуры типа Мамбы.

Результаты

1. Достигли SOTA на GLUE для энкодерных моделей, сравнимых с BERT-Large по числу параметров (340M);
2. SOTA с отрывом на 5% на бэнчмарке Long Range Arena — превзошли все предыдущие модели, основанные на трансформерной архитектуре;
3. Значительно ускорили инференс по сравнению с трансформерами с классическим и линейным механизмом внимания на разных устройствах (H100, A100, CPU).

Тщательная оптимизация архитектуры трансформера позволила существенно увеличить производительность без проигрыша в качестве.

Обзор подготовлен командой AI VK.

#ICML #обзорстатьи

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥23❤19👀12

1.72K views06:31

AI VK Hub

Все мы хотим, чтобы языковые модели генерировали не только связный текст, но и точные, формализованные ответы — например, в формате JSON, SQL или корректного программного кода.

Это особенно важно, если результат генерации используется дальше в системе: вставляется в пайплайн, передаётся другим сервисам или парсится автоматически. Один пропущенный символ — и всё ломается.

Избежать таких ошибок помогает структурированная генерация.

В карточках — кратко о том, как она работает и какие есть подходы. А по ссылке — полная статья со всеми подробностями.

🔥8👍3

1.38K views13:52

AI VK Hub

Всем привет! Продолжаем обозревать статьи, представленные на ICML.
Сегодня кратко рассмотрим статью, которая посвящена проблемам оценки качества наборов данных для графового машинного обучения.

В машинном обучении принято сравнивать новые алгоритмы с предыдущими на различных датасетах. Однако в контексте графового машинного обучения возникает вопрос: всегда ли такой подход корректен?

Авторы статьи предлагают набор количественных характеристик, которые помогают оценить, насколько выразительны структура графа и признаки вершин, а также насколько они подходят для решения конкретной задачи — например, классификации вершин.

Такая оценка позволяет исключить как слишком простые графы, на которых любая модель покажет высокий результат, так и слишком сложные, где ни одна модель не сможет выучить закономерности, поскольку таргет не связан с признаками или структурой графа.

Детали

Авторы разработали два алгоритма:

1. Алгоритм возмущений графа, позволяющий оценить, насколько задача действительно зависит от структуры или признаков графа.

2. Метод оценки информативности графа, основанный на анализе того, как при возмущениях меняются важные графовые метрики и расстояния.

Результаты

Методы были применены к нескольким открытым датасетам из биоинформатики и социальных сетей. Были выявлены:

🔸Датасеты с релевантным таргетом.
🔸Датасеты с нерелевантным таргетом.
🔸Графы, которые не подходят для ранжирования алгоритмов машинного обучения.

Предложенный подход помогает оптимизировать тестирование новых алгоритмов машинного обучения. В дальнейшем авторы планируют уточнить разработанный метод, например, для подсчета аналогичных критериев для заданного класса моделей или для заданного класса задач.

Предыдущие обзоры статей с ICML от команды AI VK:

🔸

Высокопроизводительные трансформеры на базе MatMuls

#ICML #обзорстатьи

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥8👀4👍3🍾2

4.66K views06:30

AI VK Hub

Сегодня рассмотрим статью про метод «определение аппаратно‑программной платформы» (HSPI), который позволяет по вход‑выходному поведению модели машинного обучения определить, на каком GPU и с каким программным стеком она запущена.

Большие языковые модели и современные сверточные нейронные сети требуют существенных вычислительных ресурсов для решения реальных задач. По этой причине популярным решением становится аренда вычислительных мощностей, на которых проходит инференс, например, LLM-ок.

Возникает вопрос: как проверить, что поставщик железа и софта добросовестно выполняет свои обязательства? То есть, не инферит менее поздние модели на более старых видеокартах? Эту задачу попытался решить коллектив авторов из ICL, UoC и Google Deepmind.

Детали

Основная идея работы — посмотреть на задачи классификации и подобрать картинки или промпты, для которых на выходы модели будут влиять как железо, так и софт из-за различия в арифметических операциях, например — округления.

В контексте задачи классификации отличие двух архитектур будет ярко проявляться на границе между двумя классами, когда различные способы округления и упорядочивания в арифметических операциях будут приводить к различиям в классе, который предсказывает модель.
Авторы рассматривают два алгоритма: HSPI-BI (работает только на лейблах, предсказанных моделькой) и HSPI-LD (работает с вероятностями принадлежности определенному классу).

Результаты

Рассматривалось два сценария: White-Box — когда есть доступ к значениям в каждом нейроне, и Black-Box — когда есть доступ только к выходу модели. В качестве бэйзлайна рассматривался Random Guess. Авторам удалось существенно превзойти точность случайных угадываний в обеих постановках: в White-Box-сценарии точность детектирования типа железа и софта варьировалась от 83% до 100%. В Black-Box-сценарии удалось превзойти random guess примерно в три раза: 25% против 60%.

Авторы планируют дальше развивать предложенный ими метод, так как некоторые архитектуры неразличимы для текущей версии алгоритма. Кроме того, не исследована зависимость результатов от размера батча, что планируется исследовать в будущем.

Предыдущие обзоры статей с ICML от команды AI VK:

🔸

Высокопроизводительные трансформеры на базе MatMuls;

🔸

Проблемы оценки качества наборов данных для графового машинного обучения

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥8❤5🤔2💯2

6.19K views07:00

AI VK Hub

🔹 Сейчас проходит Международный конкурс по искусственному интеллекту для детей и молодежи — AI Challenge!

Участники соревнуются в трёх треках, разделённых по возрасту и уровню подготовки. Для одного из треков VK подготовил задание: нужно создать модель, которая сможет заранее предсказывать, сколько раз пользователи посмотрят рекламное объявление.

С 9 июля участники уже начали решать задачи, но регистрация, квалификационный и основной этапы продолжаются до 22 сентября — ещё можно присоединиться.

Победителей объявят в ноябре, а призовой фонд составляет внушительные 15,6 миллиона рублей.

Организатор конкурса: Сбер. Соорганизатор: Альянс в сфере искусственного интеллекта.

Все подробности — на сайте https://aiijc.com/ru/

🔸Поделитесь со своими знакомым студентам и теми, кому интересна тема искусственного интеллекта!🔸

Please open Telegram to view this post

VIEW IN TELEGRAM

Aiijc

AI Challenge – международный конкурс по искусственному интеллекту для молодежи

Мы подготовили для тебя по-настоящему интересные задачи. Принимай участие в нашем конкурсе!

🔥7❤4👀3🙊2👍1

1.26K views14:01

AI VK Hub

Всем привет. Подготовили краткий обзор статьи про странности LLM при простых запросах.

Существует два широко известных эффекта в мире LLM.

🔸Один из них – воронка внимания (attention sink): эффект, при котором первый токен в последовательности получает «большее внимание» (значение функции активации), чем остальные. Причём это проявляется не только на первом слое трансформерной архитектуры.
🔸Другой эффект – странное поведение языковых моделей на последовательностях с повторяющимися токенами или на задачах, в которых LLM просят просто повторить заданное слово. В таких случаях модель часто выдаёт странный ответ или раскрывает часть обучающей выборки. Последнее может быть критичным с точки зрения конфиденциальности.

В своей работе авторы показывают, что оба данных эффекта тесно взаимосвязаны: плохо предсказуемое поведение LLM на последовательностях с повторяющимися токенами возникает по тем же причинам, что и воронка внимания.

Детали

Авторы эмпирически исследуют активации нейронной сети для последовательностей с повторяющимися токенами и первого токена в обычных предложениях. Из численных экспериментов делают вывод о том, что эти паттерны похожи, поэтому механизм, в целом, одинаковый. Свой вывод они подтверждают теоремой, которая говорит, что эмбеддинги последовательности, в которой этот токен повторяется n раз, стремится к представлению одиночного токена при n, стремящемся к бесконечности.

Помимо этого, авторы предлагают патч, который позволяет нормализовать работу LLM на последовательностях с повторяющимися токенами. Главным достоинством данного патча является то, что он не сильно портит результаты модели на других задачах. Последнее подтверждается численными экспериментами: метрики упали не более чем на 3%, а в некоторых случаях даже возросли.

Результаты

Основных результата два:
🔸воронка внимания – одна из ключевых причин аномалий при обработке последовательностей с повторяющимися токенами;
🔸патч, который частично решает проблему без существенного проседания метрик на других задачах.

Важно, что, по мнению авторов, они первые в мире, кто это осознал и опубликовал вышеупонятую связь.

Авторы статьи заявляют, что предложенный ими метод впервые позволил частично расшифровать внутренние механизмы работы больших языковых моделей (LLM), благодаря чему была выявлена взаимосвязь между двумя ключевыми паттернами функционирования LLM.

Они подчеркивают важность интерпретируемости и планируют дальше развивать свою работу в этом направлении.

🔹Что думаете по поводу работы? Сталкивались ли вы с похожими эффектами? С какими аномалиями в работе с LLM вы сталкивались?

Предыдущие обзоры статей с ICML от команды AI VK:

🔸

Высокопроизводительные трансформеры на базе MatMuls;

🔸

Проблемы оценки качества наборов данных для графового машинного обучения;

🔸

Метод HSPI — определение железа и ПО по поведению ML-модели.

#ICML #обзорстатьи

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥11❤5👀5🙈2

2.32K viewsedited 07:04

AI VK Hub

Доброе утро, подписчики! Сегодня рассмотрим статью про метод улучшения оптимизации градиентов в глубоких моделях, также представленную на ICML 2025.

Диффузионные модели активно используются для генерации изображений. Практических применений у данного метода масса, из-за высокой степени креативности: можно генерировать осмысленные изображения, далекие от обучающей выборки.

В ходе своей работы авторы выяснили, что причиной креативности диффузионных моделей со свёрточными сетями являются локальность — зависимость только от непосредственного окружения пикселя — и инвариантность относительно сдвигов. Что удивительно, этих двух фундаментальных свойств оказывается достаточно. Последнее проверяется авторами в ходе численных экспериментов.

Детали

Исследователи показывают, что идеально обученная классическая диффузионная модель не может быть очень креативной, так как будет выдавать сэмплы, близкие к сэмплам из обучающей выборки.

🔹

Гипотеза: такое не происходит на практике из-за использования свёрточных нейронных сетей (ConvNet). А именно, свёрточные нейронные сети обладают свойством локальности и инвариантности к сдвигам. Два этих свойства выступают в роли регуляризации, позволяющей обучать полезные диффузионные модельки.

Для проверки выдвинутой гипотезы рассматривается стандартный случайный процесс, использующийся в диффузионных моделях, и добавляют ограничения в виде инвариантности относительно сдвигов (с поправкой на граничные пиксели) и зависимости процесса только от локального окружения пикселя — за счёт модификации правой части стохастического дифференциального уравнения. Важно, что авторы не используют никаких дополнительных лосс-функций — только случайный процесс.

В серии численных экспериментов описанный выше случайный процесс с ограничениями сравнивается с классическими диффузионными моделями со свёрточными нейронными сетями (ResNet, U-Net с Self-Attention (SA)) на классических датасетах (MNIST, CIFAR…).

Результаты

Авторы статьи разработали новый алгоритм для генерации изображений на основе решения стохастического дифференциального уравнения.
Данный алгоритм генерирует картинки, похожие на изображения, создаваемые классическими диффузионными моделями, использующими свёрточные сети (ResNet): значение R² около 0.95 при по-пиксельном сравнении изображений. В случае использования архитектуры U-Net разница более заметна: R² около 0.77. Такое расхождение, скорее всего, связано с нелокальностью архитектуры U-Net с SA.

Исследователи предложили довольно простую интерпретацию креативности диффузионных моделей. По сути, они заменили нейросеть аналитическим случайным процессом с ограничениями, добившись похожих результатов на датасетах в духе MNIST и CIFAR.

Одним из главных выводов является то, что креативность диффузионных моделей, использующих достаточно простые свёрточные нейронные сети, может быть объяснена локальностью и инвариантностью относительно сдвига.

Авторы интерпретируют процесс генерации как перемешивание кусочков (локальность) разных картинок из обучающей выборки с последующей расстановкой их на новые места (инвариантность). Для интерпретации работы диффузионных моделей с другими архитектурами (U-Net с SA) требуется доработка теории для учёта нелокальности.

🔹 Исходя из вашего опыта, что помогает в генерации изображений при помощи диффузионок?

Предыдущие обзоры статей с ICML от команды AI VK:

🔸

Высокопроизводительные трансформеры на базе MatMuls;

🔸

Проблемы оценки качества наборов данных для графового машинного обучения;

🔸

Метод HSPI — определение железа и ПО по поведению ML-модели.

🔸

Странности LLM при простых запросах.

#ICML #обзорстатьи

Please open Telegram to view this post

VIEW IN TELEGRAM

❤8👍5🔥4🍾2🤝1

1.21K views06:51

AI VK Hub

Иногда на рабочей встрече не звучит ничего, кроме «ой, ой, ой». Но мы, играясь с нейронками, попросили Gemini сделать подробный отчёт такой встречи. И вот что получилось 😂

Конечно, вот саммари этой напряженной и содержательной встречи: **Саммари встречи** **Дата:** Сегодня **Участники:** Неустановленный круг лиц **Повестка дня:** Непредвиденные обстоятельства --- **Ключевые моменты:** Встреча прошла в атмосфере эскалации кризисной ситуации, что можно проследить по ключевым репликам: 1. **Первый "Ой!" (00:01):** Участники выразили первоначальное удивление и легкую обеспокоенность, вероятно, ознакомившись с первичными данными (например, квартальным отчетом или результатами запуска проекта). 2. **Второй "Ой!" (00:02):** Удивление сменилось тревогой по мере осознания истинного масштаба проблемы. На этом этапе стало ясно, что первоначальная оценка была слишком оптимистичной. 3. **Третий "Ой!" (00:03):** Тревога достигла пика, перейдя в стадию принятия неизбежного негативного исхода. Данная реплика, вероятно, завершила обсуждение. **Принятые решения:** * Ситуация признана критической. * Дальнейшее обсуждение было признано нецелесообразным до стабилизации эмоционального фона участников. **План дальнейших действий:** * Найти виновных. * Найти выход. * Сделать кофе (возможно, что-нибудь покрепче).

#ithumor #мем #пятничныйюмор

😁16🙈8🔥3👏1🙊1

1.29K views15:28

AI VK Hub

Финальная статья из нашей серии обзоров будет про умеренную токсичность в обучении, которая улучшает детоксикацию моделей.

В теории размер обучающего датасета положительно влияет на работу моделей машинного обучения. Большие языковые модели не являются исключением. Однако на практике часто бывает так, что датасет содержит не совсем желательные сэмплы. В случае LLM это могут быть токсичные комментарии или ответы.

Самым очевидным решением является не использовать токсичные тексты при обучении, если есть задача обучить LLM, которая бы давала нетоксичные ответы. У этого решения есть побочный эффект: снижение размера корпуса текстов и, как следствие, не очень высокая эффективность работы LLM. На практике ML-инженеры идут на компромисс: добавляют в обучающую выборку часть токсичных текстов, балансируя между качеством модели и токсичностью ответов.

В данной работе авторы показывают, как можно увеличить долю токсичных текстов в обучающей выборке без существенного роста токсичности ответов LLM. Основная идея состоит в том, что мало кто использует языковую модель «из коробки»: обычно добавляют промты или определённым образом меняют активации за счёт сдвига эмбеддингов. Если согласовать конструирование обучающей выборки, сам процесс обучения и модификации на инференсе, то можно повысить качество ответов LLM без повышения токсичности.

Результаты

В своей работе исследователи предложили новый подход к объединению предварительной обработки данных, обучения модели и модификаций на этапе инференса.

Предложенный алгоритм повышает эффективность модели без повышения токсичности ответов: с ростом доли токсичных сэмплов растёт токсичность ответов, но повышается эффективность модификаций на этапе инференса (prompting and steering), поэтому общий перформанс растёт без сильного увеличения токсичности.

Детали

В работе предлагается собственная метрика — количественная мера связанности (или запутанности) между различными эмбеддингами. Далее исследуется поведение этой меры для обычных и токсичных текстов при изменении доли токсичных текстов. На игрушечном примере показывается, что значение метрики снижается с ростом доли токсичных текстов в обучающей выборке.

Затем рассматриваются два датасета: Toxigen и Real Toxicity Prompts. Анализ этих наборов данных демонстрирует: с увеличением доли токсичных сэмплов возрастает качество модели по метрикам MMLU, а также усиливается токсичность её ответов. В то же время срабатывает механизм понижения связанности (или запутанности) между эмбеддингами токсичных и нетоксичных комментариев, благодаря чему prompting и steering работают эффективнее. В обоих случаях удалось увеличить объём датасета на 10 % за счёт токсичных примеров — без ущерба для итогового качества модели.

Таким образом, токсичные примеры в обучающей выборке позволяют LLM построить более полную картину мира и давать более интересные ответы. В этом случае токсичность ответов LLM достаточно эффективно детектируется, поэтому prompting и steering успешно это компенсируют и повышают общую эффективность модели.

🔹 Сталкивались ли вы с токсичными или просто неожиданными ответами от LLM?

Предыдущие обзоры статей с ICML от команды AI VK:

🔸

Высокопроизводительные трансформеры на базе MatMuls;

🔸

Проблемы оценки качества наборов данных для графового машинного обучения;

🔸

Метод HSPI — определение железа и ПО по поведению ML-модели.

🔸

Странности LLM при простых запросах.

🔸

Метод улучшения оптимизации градиентов в глубоких моделях.

#ICML #обзорстатьи

Please open Telegram to view this post

VIEW IN TELEGRAM