Вручную писать юнит‑тесты долго и скучно, но они важны — позволяют находить ошибки на ранней стадии и вносить изменения, не опасаясь сломать существующую логику. Поэтому мы решили облегчить себе жизнь и автоматизировать процесс с помощью LLM.
В карточках кратко рассказываем про подходы, инструменты и реализацию. Полная статья — по ссылке.
В карточках кратко рассказываем про подходы, инструменты и реализацию. Полная статья — по ссылке.
❤13🔥7👍6😎2🤷1
Пока все обсуждают скрытые промпты для LLM-ок в библиотеке препринтов на arXiv, нацеленных на генерацию положительных рецензий в погоне за метриками, уже на следующей неделе стартует ICML – одна из крупнейших конференций по машинному обучению.
Команда AI VK уже отобрала для вас самые интересные статьи и подготовила серию обзоров. Следите за обновлениями, будет интересно.
Спойлер:первая тема – « MatMuls are Enough for Efficient and Performant Linear-Time Attention » .
Команда AI VK уже отобрала для вас самые интересные статьи и подготовила серию обзоров. Следите за обновлениями, будет интересно.
Спойлер:
❤11🔥8👍7😎1
Главные особенности браузера — поиск на основе ИИ и доступ к Comet Assistant — ИИ-агенту для автоматизации рутинных задач: например, агент может составить сводку писем и задач в календаре. Кроме того, в браузер встроена блокировка рекламы. Пока Comet доступен только подписчикам тарифа Max за 200$ в месяц.
OpenAI тоже объявил о своих планах в ближайшее время выпустить ИИ-браузер. Обе компании стремятся составить конкуренцию Chrome от Google в борьбе за пользовательские данные.
Проект помогает упростить интеграцию ИИ-агентов с базами данных. Решение поддерживает подключение к целому ряду баз данных (PostgreSQL, MySQL и другим) в 10 строк кода, встроенную аутентификацию и пулинг и может быть легко интегрировано с популярными фреймворками, например, с LangChain.
Для обучения исследователи создали набор данных AudioCoT, содержащий 2531,8 часов звуковых данных. Модель позволяет генерировать звук по тексту, видео, изображениям и их комбинациям и поддерживает режим редактирования. ThinkSound достигает SOTA-уровня в нескольких тестах генерации звука по видео. Модель доступна на Github для исследовательских и образовательных целей.
Модель интегрирована в платформу ComfyUI, генерирует видео в разрешении 1080p и обучена на видеоматериалах высокого разрешения, что дает детальную текстуру, чёткие контуры и высокую контрастность без артефактов и размытия. Все данные для обучения лицензированы, что полностью исключает юридические риски, связанные с авторскими правами.
Grok 4 лидирует на бенчмарках AIME25 (100%) и ARC-AGI-2 и дает лучший результат на тесте Humanity's Last Exam как в топовой конфигурации Heavy «с внешними инструментами», так и без нее. Контекстное окно увеличено до 256k токенов, что больше, чем у Claude 4 Opus и o3, хотя и меньше, чем 1 миллион токенов Gemini. Как и прошлые модели, Grok 4 оснащен инструментом поиска в интернете. Разработчик также представляет Grok 4 Code — инструмент для написания и отладки кода. Модель доступна через API и через чат-бот Grok в X.
T5Gemma пересматривает классическую архитектуру энкодер-декодер, адаптируя предварительно обученные модели, работающие только с декодерами. В SuperGLUE и GSM8K модели превосходят сопоставимые модели, работающие только с декодером, как по точности, так и по задержке. Модели в разных размерах доступны на Hugging Face.
Агент достиг наивысшего результата в бенчмарке BrowseComp, превзойдя такие модели, как DeepSeek R1 и Grok-3. BrowseComp предназначен для проверки возможностей веб-агентов в области рассуждений и поиска информации в сложных сценариях. Проект доступен на Hugging Face.
#дайджест
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9👍7👏5😁1👌1
Всем привет! Объявляем неделю обзоров наиболее интересных, на наш взгляд, статей, представленных на конференции ICML 2025.
В первый день рассмотрим статью о высокопроизводительных трансформерах на базе MatMuls.
Трансформеры — следствие роста популярности языковых моделей. Основной недостаток этой архитектуры — вычислительная стоимость:
🔸 много нелинейных операций (aka softmax);
🔸 квадратичная сложность по длине обрабатываемой последовательности (числу слов).
Проблема не нова, поэтому существует масса решений для уменьшения вычислительной сложности, но они либо хуже по качеству, либо требуют тонкой настройки под конкретное hardware, либо дают выигрыш в вычислительной эффективности только на очень длинных последовательностях.
Авторы работы предлагают новую модификацию трансформерной архитектуры, которая существенно снижает вычислительную стоимость и достигает линейной сложности и портативности.
Детали
1. Сокращение числа дорогостоящих операций:
🔸 Удаляется softmax в механизме внимания (и вместо него не вносится ничего взамен, как в других работах на эту же тему);
🔸 Не используются байесы в слоях нейронных сетей, маскирование, dropout.
🔸 Используется одна голова внимания большой размерности вместо нескольких маленьких.
Благодаря этому, механизм внимания становится, по сути, чистыми матричными перемножениеми (слоган “MatMuls are Enough” из названия статьи). Из-за отсутствия нелинейных операций, можно переупорядочить множители в матричном произведении Q*K*V и добиться линейной сложности по длине последовательности.
2. Другие модификации архитектуры:
🔸 LayerNorm, основанный на l₂ норме, заменен на MaxNormActivation (l ͚ норма) для стабилизации архитектуры, между блоками внимания и MLP убраны residual connection и LayerNorm и матрицы линейных проекций слиты воедино, чтобы обеспечить большую вычислительную эффективность.
3. Кросс-платформенность и совместимость с любым оборудованием за счет того, что модель написана на чистом PyTorch без использования низкоуровневых оптимизаций CUDA, которыми грешат другие современные архитектуры типа Мамбы.
Результаты
1. Достигли SOTA на GLUE для энкодерных моделей, сравнимых с BERT-Large по числу параметров (340M);
2. SOTA с отрывом на 5% на бэнчмарке Long Range Arena — превзошли все предыдущие модели, основанные на трансформерной архитектуре;
3. Значительно ускорили инференс по сравнению с трансформерами с классическим и линейным механизмом внимания на разных устройствах (H100, A100, CPU).
Тщательная оптимизация архитектуры трансформера позволила существенно увеличить производительность без проигрыша в качестве.
Обзор подготовлен командой AI VK.
#ICML #обзорстатьи
В первый день рассмотрим статью о высокопроизводительных трансформерах на базе MatMuls.
Трансформеры — следствие роста популярности языковых моделей. Основной недостаток этой архитектуры — вычислительная стоимость:
Проблема не нова, поэтому существует масса решений для уменьшения вычислительной сложности, но они либо хуже по качеству, либо требуют тонкой настройки под конкретное hardware, либо дают выигрыш в вычислительной эффективности только на очень длинных последовательностях.
Авторы работы предлагают новую модификацию трансформерной архитектуры, которая существенно снижает вычислительную стоимость и достигает линейной сложности и портативности.
Детали
1. Сокращение числа дорогостоящих операций:
Благодаря этому, механизм внимания становится, по сути, чистыми матричными перемножениеми (слоган “MatMuls are Enough” из названия статьи). Из-за отсутствия нелинейных операций, можно переупорядочить множители в матричном произведении Q*K*V и добиться линейной сложности по длине последовательности.
2. Другие модификации архитектуры:
3. Кросс-платформенность и совместимость с любым оборудованием за счет того, что модель написана на чистом PyTorch без использования низкоуровневых оптимизаций CUDA, которыми грешат другие современные архитектуры типа Мамбы.
Результаты
1. Достигли SOTA на GLUE для энкодерных моделей, сравнимых с BERT-Large по числу параметров (340M);
2. SOTA с отрывом на 5% на бэнчмарке Long Range Arena — превзошли все предыдущие модели, основанные на трансформерной архитектуре;
3. Значительно ускорили инференс по сравнению с трансформерами с классическим и линейным механизмом внимания на разных устройствах (H100, A100, CPU).
Тщательная оптимизация архитектуры трансформера позволила существенно увеличить производительность без проигрыша в качестве.
Обзор подготовлен командой AI VK.
#ICML #обзорстатьи
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥23❤19👀12
Все мы хотим, чтобы языковые модели генерировали не только связный текст, но и точные, формализованные ответы — например, в формате JSON, SQL или корректного программного кода.
Это особенно важно, если результат генерации используется дальше в системе: вставляется в пайплайн, передаётся другим сервисам или парсится автоматически. Один пропущенный символ — и всё ломается.
Избежать таких ошибок помогает структурированная генерация.
В карточках — кратко о том, как она работает и какие есть подходы. А по ссылке — полная статья со всеми подробностями.
Это особенно важно, если результат генерации используется дальше в системе: вставляется в пайплайн, передаётся другим сервисам или парсится автоматически. Один пропущенный символ — и всё ломается.
Избежать таких ошибок помогает структурированная генерация.
В карточках — кратко о том, как она работает и какие есть подходы. А по ссылке — полная статья со всеми подробностями.
🔥8👍3
Всем привет! Продолжаем обозревать статьи, представленные на ICML.
Сегодня кратко рассмотрим статью, которая посвящена проблемам оценки качества наборов данных для графового машинного обучения.
В машинном обучении принято сравнивать новые алгоритмы с предыдущими на различных датасетах. Однако в контексте графового машинного обучения возникает вопрос: всегда ли такой подход корректен?
Авторы статьи предлагают набор количественных характеристик, которые помогают оценить, насколько выразительны структура графа и признаки вершин, а также насколько они подходят для решения конкретной задачи — например, классификации вершин.
Такая оценка позволяет исключить как слишком простые графы, на которых любая модель покажет высокий результат, так и слишком сложные, где ни одна модель не сможет выучить закономерности, поскольку таргет не связан с признаками или структурой графа.
Детали
Авторы разработали два алгоритма:
1. Алгоритм возмущений графа, позволяющий оценить, насколько задача действительно зависит от структуры или признаков графа.
2. Метод оценки информативности графа, основанный на анализе того, как при возмущениях меняются важные графовые метрики и расстояния.
Результаты
Методы были применены к нескольким открытым датасетам из биоинформатики и социальных сетей. Были выявлены:
🔸 Датасеты с релевантным таргетом.
🔸 Датасеты с нерелевантным таргетом.
🔸 Графы, которые не подходят для ранжирования алгоритмов машинного обучения.
Предложенный подход помогает оптимизировать тестирование новых алгоритмов машинного обучения. В дальнейшем авторы планируют уточнить разработанный метод, например, для подсчета аналогичных критериев для заданного класса моделей или для заданного класса задач.
Предыдущие обзоры статей с ICML от команды AI VK:
🔸 Высокопроизводительные трансформеры на базе MatMuls
#ICML #обзорстатьи
Сегодня кратко рассмотрим статью, которая посвящена проблемам оценки качества наборов данных для графового машинного обучения.
В машинном обучении принято сравнивать новые алгоритмы с предыдущими на различных датасетах. Однако в контексте графового машинного обучения возникает вопрос: всегда ли такой подход корректен?
Авторы статьи предлагают набор количественных характеристик, которые помогают оценить, насколько выразительны структура графа и признаки вершин, а также насколько они подходят для решения конкретной задачи — например, классификации вершин.
Такая оценка позволяет исключить как слишком простые графы, на которых любая модель покажет высокий результат, так и слишком сложные, где ни одна модель не сможет выучить закономерности, поскольку таргет не связан с признаками или структурой графа.
Детали
Авторы разработали два алгоритма:
1. Алгоритм возмущений графа, позволяющий оценить, насколько задача действительно зависит от структуры или признаков графа.
2. Метод оценки информативности графа, основанный на анализе того, как при возмущениях меняются важные графовые метрики и расстояния.
Результаты
Методы были применены к нескольким открытым датасетам из биоинформатики и социальных сетей. Были выявлены:
Предложенный подход помогает оптимизировать тестирование новых алгоритмов машинного обучения. В дальнейшем авторы планируют уточнить разработанный метод, например, для подсчета аналогичных критериев для заданного класса моделей или для заданного класса задач.
Предыдущие обзоры статей с ICML от команды AI VK:
#ICML #обзорстатьи
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8👀4👍3🍾2
Сегодня рассмотрим статью про метод «определение аппаратно‑программной платформы» (HSPI), который позволяет по вход‑выходному поведению модели машинного обучения определить, на каком GPU и с каким программным стеком она запущена.
Большие языковые модели и современные сверточные нейронные сети требуют существенных вычислительных ресурсов для решения реальных задач. По этой причине популярным решением становится аренда вычислительных мощностей, на которых проходит инференс, например, LLM-ок.
Возникает вопрос: как проверить, что поставщик железа и софта добросовестно выполняет свои обязательства? То есть, не инферит менее поздние модели на более старых видеокартах? Эту задачу попытался решить коллектив авторов из ICL, UoC и Google Deepmind.
Детали
Основная идея работы — посмотреть на задачи классификации и подобрать картинки или промпты, для которых на выходы модели будут влиять как железо, так и софт из-за различия в арифметических операциях, например — округления.
В контексте задачи классификации отличие двух архитектур будет ярко проявляться на границе между двумя классами, когда различные способы округления и упорядочивания в арифметических операциях будут приводить к различиям в классе, который предсказывает модель.
Авторы рассматривают два алгоритма: HSPI-BI (работает только на лейблах, предсказанных моделькой) и HSPI-LD (работает с вероятностями принадлежности определенному классу).
Результаты
Рассматривалось два сценария: White-Box — когда есть доступ к значениям в каждом нейроне, и Black-Box — когда есть доступ только к выходу модели. В качестве бэйзлайна рассматривался Random Guess. Авторам удалось существенно превзойти точность случайных угадываний в обеих постановках: в White-Box-сценарии точность детектирования типа железа и софта варьировалась от 83% до 100%. В Black-Box-сценарии удалось превзойти random guess примерно в три раза: 25% против 60%.
Авторы планируют дальше развивать предложенный ими метод, так как некоторые архитектуры неразличимы для текущей версии алгоритма. Кроме того, не исследована зависимость результатов от размера батча, что планируется исследовать в будущем.
Предыдущие обзоры статей с ICML от команды AI VK:
🔸 Высокопроизводительные трансформеры на базе MatMuls;
🔸 Проблемы оценки качества наборов данных для графового машинного обучения
Большие языковые модели и современные сверточные нейронные сети требуют существенных вычислительных ресурсов для решения реальных задач. По этой причине популярным решением становится аренда вычислительных мощностей, на которых проходит инференс, например, LLM-ок.
Возникает вопрос: как проверить, что поставщик железа и софта добросовестно выполняет свои обязательства? То есть, не инферит менее поздние модели на более старых видеокартах? Эту задачу попытался решить коллектив авторов из ICL, UoC и Google Deepmind.
Детали
Основная идея работы — посмотреть на задачи классификации и подобрать картинки или промпты, для которых на выходы модели будут влиять как железо, так и софт из-за различия в арифметических операциях, например — округления.
В контексте задачи классификации отличие двух архитектур будет ярко проявляться на границе между двумя классами, когда различные способы округления и упорядочивания в арифметических операциях будут приводить к различиям в классе, который предсказывает модель.
Авторы рассматривают два алгоритма: HSPI-BI (работает только на лейблах, предсказанных моделькой) и HSPI-LD (работает с вероятностями принадлежности определенному классу).
Результаты
Рассматривалось два сценария: White-Box — когда есть доступ к значениям в каждом нейроне, и Black-Box — когда есть доступ только к выходу модели. В качестве бэйзлайна рассматривался Random Guess. Авторам удалось существенно превзойти точность случайных угадываний в обеих постановках: в White-Box-сценарии точность детектирования типа железа и софта варьировалась от 83% до 100%. В Black-Box-сценарии удалось превзойти random guess примерно в три раза: 25% против 60%.
Авторы планируют дальше развивать предложенный ими метод, так как некоторые архитектуры неразличимы для текущей версии алгоритма. Кроме того, не исследована зависимость результатов от размера батча, что планируется исследовать в будущем.
Предыдущие обзоры статей с ICML от команды AI VK:
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8❤5🤔2💯2
Участники соревнуются в трёх треках, разделённых по возрасту и уровню подготовки. Для одного из треков VK подготовил задание: нужно создать модель, которая сможет заранее предсказывать, сколько раз пользователи посмотрят рекламное объявление.
С 9 июля участники уже начали решать задачи, но регистрация, квалификационный и основной этапы продолжаются до 22 сентября — ещё можно присоединиться.
Победителей объявят в ноябре, а призовой фонд составляет внушительные 15,6 миллиона рублей.
Организатор конкурса: Сбер. Соорганизатор: Альянс в сфере искусственного интеллекта.
Все подробности — на сайте https://aiijc.com/ru/
Please open Telegram to view this post
VIEW IN TELEGRAM
Aiijc
AI Challenge – международный конкурс по искусственному интеллекту для молодежи
Мы подготовили для тебя по-настоящему интересные задачи. Принимай участие в нашем конкурсе!
🔥7❤4👀3🙊2👍1