Forwarded from Machinelearning
Инженеры Google DeepMind решили вдохнуть новую жизнь в классический подход «энкодер-декодер» выпустив семейство моделей T5Gemma.
Главная интрига заключается не в том, что они сделали, а в том, как. Вместо того чтобы обучать модели с нуля, они разработали метод «адаптации»: взяли уже готовую и предобученную модель-декодер Gemma 2 и, по сути, пересобрали ее в двухкомпонентную энкодер-декодерную архитектуру.
Метод открыл дорогу для интересных экспериментов. Например, стало возможно создавать «несбалансированные» модели, комбинируя большой энкодер с маленьким декодером, скажем, 9-миллиардный энкодер и 2-миллиардный декодер.
Такая конфигурация идеальна для задач суммаризации, где глубокое понимание исходного текста (работа энкодера) гораздо важнее, чем генерация сложного и витиеватого ответа (работа декодера). Это дает инженерам гибкий инструмент для тонкой настройки баланса между качеством и скоростью работы.
На тестах T5Gemma показывает результаты на уровне или даже лучше своих «однокомпонентных» аналогов. Асимметричная модель T5Gemma 9B-2B демонстрирует значительно более высокую точность, чем базовая Gemma 2 2B, но при этом скорость инференса у них почти идентична.
Даже сбалансированная T5Gemma 9B-9B оказывается точнее, чем Gemma 2 9B, при сопоставимой задержке. Это прямое доказательство того, что двухкомпонентная архитектура может быть и умнее, и эффективнее.
T5Gemma показывает впечатляющий рост в задачах, требующих логических рассуждений. Например, на математическом тесте GSM8K модель T5Gemma 9B-9B набирает на 9 баллов больше, чем Gemma 2 9B.
Эффект становится еще более выраженным после инструктивной донастройки. Здесь разрыв в производительности резко увеличивается: на бенчмарке MMLU модель T5Gemma 2B-2B IT опережает аналог Gemma 2 2B IT почти на 12 баллов.
@ai_machinelearning_big_data
#AI #ML #T5Gemma #Google
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤9👍2
✨ Google представили GenAI Processors — open-source библиотеку для создания AI-приложений в реальном времени
GenAI Processors — это новый инструмент от команды Google DeepMind, разработанный для быстрой сборки потоковых и мультимодальных AI‑систем. Библиотека обеспечивает удобную работу с цепочками обработки данных, модульную архитектуру и поддержку стриминга.
Основные возможности:
— Потоковый ввод/вывод (stream-based I/O)
— Простая сборка пайплайнов через chaining
— Модульность и переиспользуемость (composability)
— Поддержка Gemini и Gemini Live API
— Асинхронная архитектура с минимальной задержкой
🔧 GenAI Processors позволяет разработчикам легко собирать голосовых агентов, мультимодальные интерфейсы и реактивные приложения на базе LLM.
🔗 GitHub: https://github.com/google-gemini/genai-processors
📖 Блог: https://developers.googleblog.com/en/genai-processors
GenAI Processors — это новый инструмент от команды Google DeepMind, разработанный для быстрой сборки потоковых и мультимодальных AI‑систем. Библиотека обеспечивает удобную работу с цепочками обработки данных, модульную архитектуру и поддержку стриминга.
Основные возможности:
— Потоковый ввод/вывод (stream-based I/O)
— Простая сборка пайплайнов через chaining
— Модульность и переиспользуемость (composability)
— Поддержка Gemini и Gemini Live API
— Асинхронная архитектура с минимальной задержкой
🔧 GenAI Processors позволяет разработчикам легко собирать голосовых агентов, мультимодальные интерфейсы и реактивные приложения на базе LLM.
🔗 GitHub: https://github.com/google-gemini/genai-processors
📖 Блог: https://developers.googleblog.com/en/genai-processors
🔥4👍3❤2
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 Крутой способ управлять AI-видео: LTX-Video с Control LoRA теперь доступен в Spaces!
🔥 Что это такое:
- Качество ControlNet, но без изменения архитектуры
- Летает быстрее большинства текущих решений
- Поддерживает 3 типа контроля: canny, depth, pose
Простое подключение, стабильный результат — попробуй генерацию с canny LoRA прямо сейчас👇
spaces/ltx-video/control-lora
https://huggingface.co/spaces/Lightricks/ltx-video-iclora
🔥 Что это такое:
- Качество ControlNet, но без изменения архитектуры
- Летает быстрее большинства текущих решений
- Поддерживает 3 типа контроля: canny, depth, pose
Простое подключение, стабильный результат — попробуй генерацию с canny LoRA прямо сейчас👇
spaces/ltx-video/control-lora
https://huggingface.co/spaces/Lightricks/ltx-video-iclora
👍2❤1
Forwarded from Machinelearning
Это модель, которая не просто доказывает теоремы, а учится на своих ошибках.
Kimina-Prover-72B создана на базе Qwen2.5-72B, которая бьет рекорды в формальной математике на Lean 4 и ее облегченные версии 8 и 1,7 миллиарда параметров.
Numina - это некоммерческая научная коллаборация, ориентированная на развитие ИИ в области математики. Ее миссия: создание и публикация обширных баз данных математических задач, разработку open-source ИИ-решателя для их обработки и инструментов для поддержки совместной работы людей и ИИ в фундаментальных науках.
На популярном бенчмарке miniF2F Kimina-Prover-72B достигла внушительной точности в 92.2%, оставив позади Deepseek-Prover-V2 671B.
Вместо того чтобы пытаться решить сложную задачу в лоб, система научилась декомпозировать ее. Она самостоятельно генерирует, комбинирует и применяет промежуточные утверждения, или леммы, выстраивая из них длинные логические цепочки. По сути, это рекурсивный поиск: для доказательства основной теоремы модель может сначала доказать несколько вспомогательных лемм.
Система отслеживает «рейтинг полезности» каждой леммы и отбраковывает те, что ведут в тупик. Вторым эшелоном идет механизм проверки на вменяемость. Прежде чем использовать новую лемму, модель пытается доказать ее отрицание. Если это удается, значит, лемма противоречива и ее сразу выбрасывают. Такая комбинация гарантирует логическую строгость и надежность всего доказательства.
В отличие от других систем, которые в случае неудачи просто начинают заново, Kimina-Prover умеет читать сообщения об ошибках от компилятора Lean и предлагать исправления.
Для этого ее специально дообучали на датасете из комбинаций «неверное доказательство – фидбэк – верное доказательство». Чтобы обучение шло стабильно, использовали стратегию Batched Failure Replay: все неудачные попытки с одной итерации собираются и используются как обучающий батч для следующей. И это оказалось куда эффективнее, чем бездумный перебор вариантов при том же бюджете вычислений.
@ai_machinelearning_big_data
#AI #ML #LLM #TTRL #Reasoning #KiminaProver
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍2
Система готова из коробки и может сразу писать проекты любой сложности.
Что внутри:
• ИИ-агенты с разными ролями — один пишет код, другой проверяет, третий ищет уязвимости и передаёт задачи дальше по цепочке
• Генератор структуры проекта — помогает агентам понимать архитектуру и держать весь контекст
• Интеграция с MCP — ИИ использует только актуальные спецификации и документацию
🔧 Установка и подробности — по ссылке: https://github.com/peterkrueck/Claude-Code-Development-Kit
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8😁4👍2❤1👎1🥰1
Forwarded from Machinelearning
MUVERA - алгоритм, разработанный Google Research, который сводит сложную задачу многовекторного поиска обратно к простому и быстрому MIPS, как в подходах с одним вектором.
Суть проста: вместо того чтобы работать с громоздким набором векторов, MUVERA сжимает его в единый вектор фиксированной длины, так называемый Fixed Dimensional Encoding (FDE). Главный трюк в том, что скалярное произведение этих новых FDE-векторов очень точно аппроксимирует исходную, «честную» метрику Чамфера.
На практике процесс выглядит как двухэтапный конвейер. Сначала MUVERA генерирует FDE для всех документов в базе и индексирует их с помощью обычного MIPS-солвера. Когда приходит запрос, для него тоже создается FDE, и система молниеносно находит небольшой список кандидатов. А уже затем этот короткий список переранжируется с использованием оригинальной, медленной, но точной метрики Чамфера. На выходе получаем и скорость, и качество.
В практическом сравнении с предыдущим SOTA методом PLAID, MUVERA показывает в среднем на 10% более высокую полноту выдачи при сокращении задержки на 90%. Чтобы достичь того же качества, алгоритму требуется отобрать в 5-20 раз меньше кандидатов для финального переранжирования.
Более того, эти FDE-векторы отлично сжимаются — до 32 раз с минимальной потерей качества.
Для тех. кто хочет попробовать, в репозитории проекта на Github есть реализации MUVERA на Python и C++ .
@ai_machinelearning_big_data
#AI #ML #LLM #MUVERA #GoogleResearch
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍2🔥2
📊 Новый подход к графовым нейросетям: WaveGC
На ICML представили WaveGC — графовую сверточную модель, которая заменяет обычные фильтры на полноценные спектральные вейвлеты. Это позволяет обрабатывать и локальные, и дальние зависимости в графе эффективнее, чем стандартные GCN и даже граф‑трансформеры.
🧠 Главное:
- Вместо обычных функций-фильтров — матрицы фильтров на основе вейвлетов.
- Архитектура учитывает мульти-частотную структуру графа.
- В основе — спектральное разложение через чебышёвские полиномы, с разделением на чётные и нечётные компоненты.
📈 Результаты:
- Обгоняет SOTA в задачах node classification, link prediction и других.
- Особенно хорошо работает в задачах с разной длиной связей (short/long-range dependencies).
🛠️ Код уже доступен — легко интегрировать и попробовать в своих задачах на графах.
WaveGC показывает: переход от классических фильтров к спектральным вейвлетам — это не просто теоретический шаг, а реальный прирост качества.
🟠 ArXiv: https://arxiv.org/pdf/2405.13806
🟠 GitHub: https://github.com/liun-online/WaveGC
На ICML представили WaveGC — графовую сверточную модель, которая заменяет обычные фильтры на полноценные спектральные вейвлеты. Это позволяет обрабатывать и локальные, и дальние зависимости в графе эффективнее, чем стандартные GCN и даже граф‑трансформеры.
🧠 Главное:
- Вместо обычных функций-фильтров — матрицы фильтров на основе вейвлетов.
- Архитектура учитывает мульти-частотную структуру графа.
- В основе — спектральное разложение через чебышёвские полиномы, с разделением на чётные и нечётные компоненты.
📈 Результаты:
- Обгоняет SOTA в задачах node classification, link prediction и других.
- Особенно хорошо работает в задачах с разной длиной связей (short/long-range dependencies).
🛠️ Код уже доступен — легко интегрировать и попробовать в своих задачах на графах.
WaveGC показывает: переход от классических фильтров к спектральным вейвлетам — это не просто теоретический шаг, а реальный прирост качества.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3👍2🔥2
Привет! Рекомендую почитать обзор статьи от команды AI VK с ICML, в которой авторы нашли связь между «воронкой внимания» и сбоями LLM на повторяющихся токенах — и предложили патч, который частично решает проблему без потерь в качестве.
Читать полностью
Читать полностью
Telegram
AI VK Hub
Всем привет. Подготовили краткий обзор статьи про странности LLM при простых запросах.
Существует два широко известных эффекта в мире LLM.
🔸Один из них – воронка внимания (attention sink): эффект, при котором первый токен в последовательности получает «большее…
Существует два широко известных эффекта в мире LLM.
🔸Один из них – воронка внимания (attention sink): эффект, при котором первый токен в последовательности получает «большее…
❤7
Media is too big
VIEW IN TELEGRAM
Amazon анонсировала S3 Vectors - нативную поддержку векторного поиска прямо внутри своего вездесущего объектного хранилища. Заявлено, что это может снизить затраты на хранение и обработку векторов до 90%.
По сути, AWS предлагает не отдельный сервис, а новый тип бакета
vector bucket. Внутри него вы создаете векторные индексы, указывая размерность векторов и метрику расстояния (косинусную или евклидову).Вы просто загружаете в индекс свои эмбеддинги вместе с метаданными для фильтрации, а S3 берет на себя всю грязную работу по хранению, автоматической оптимизации и обеспечению субсекундного ответа на запросы. Никакого управления инфраструктурой.
Один бакет может содержать до 10 тысяч индексов, а каждый индекс, в свою очередь, десятки миллионов векторов.
S3 Vectors бесшовно интегрируется с Bedrock Knowledge Bases. Теперь при создании базы знаний для RAG-приложения можно просто указать S3-бакет в качестве векторного хранилища.
Процесс создания RAG-пайплайна для тех, кто уже живет в облаке AWS, упрощается до нескольких кликов. То же самое касается и SageMaker Unified Studio, где эта интеграция тоже доступна из коробки.
AWS предлагает гибкую, многоуровневую стратегию. Нечасто используемые или «холодные» векторы можно экономично хранить в S3 Vectors. А когда для части данных потребуется максимальная производительность и низкая задержка в реальном времени, например, для системы рекомендаций, их можно быстро экспортировать в OpenSearch.
Это очень прагматичный инженерный подход, позволяющий балансировать между стоимостью и производительностью.
Пока сервис находится в статусе превью и доступен в регионах US East (N. Virginia), US East (Ohio), US West (Oregon), Europe (Frankfurt), and Asia Pacific (Sydney) Regions.
Попробовать S3 Vectors можно в Amazon S3 console.
@ai_machinelearning_big_data
#AI #ML #RAG #Amazon
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5🔥1
🚀 Gemini CLI — крупное обновление!
На прошлой неделе команда Gemini CLI смержила ~150 pull-реквестов от 75+ контрибьюторов. И самое главное — теперь Gemini CLI встроен по умолчанию в @Firebase Studio.
Вот что нового:
▪ Поддержка вставки изображений из буфера обмена на macOS *(jaysondasher)*
▪ Глобальные настройки для администраторов *(chrstnb)*
▪ Новый флаг
▪ Автосаммари вывода инструментов с кастомными summarizer-ами *(anj-s)*
▪ Починена бесконечная петля на Windows *(SandyTao520)*
▪ Санитайзинг параметров для предотвращения 400 ошибок API *(BigUncle)*
▪ Улучшен headless auth — удобно для серверов *(NTaylorMullen)*
▪ CLI-опция для включения и отображения расширений *(bbiggs)*
▪ Обработка 429 (quota limit) ошибок теперь стабильнее *(bdmorgan)*
▪ Поддержка
▪ Переменная
▪ Настраиваемое число turn-ов в сессии *(anj-s)*
▪ В UI теперь видно, какая версия nightly *(miguelsolorio)*
📦 Установить:
https://github.com/google-gemini/gemini-cli
На прошлой неделе команда Gemini CLI смержила ~150 pull-реквестов от 75+ контрибьюторов. И самое главное — теперь Gemini CLI встроен по умолчанию в @Firebase Studio.
Вот что нового:
▪ Поддержка вставки изображений из буфера обмена на macOS *(jaysondasher)*
▪ Глобальные настройки для администраторов *(chrstnb)*
▪ Новый флаг
--prompt-interactive / -i для интерактивных запросов *(taeold)* ▪ Автосаммари вывода инструментов с кастомными summarizer-ами *(anj-s)*
▪ Починена бесконечная петля на Windows *(SandyTao520)*
▪ Санитайзинг параметров для предотвращения 400 ошибок API *(BigUncle)*
▪ Улучшен headless auth — удобно для серверов *(NTaylorMullen)*
▪ CLI-опция для включения и отображения расширений *(bbiggs)*
▪ Обработка 429 (quota limit) ошибок теперь стабильнее *(bdmorgan)*
▪ Поддержка
.svg файлов *(PugazhendhiDev)* ▪ Переменная
NO_BROWSER — для оффлайн аутентификации *(sethtroisi)* ▪ Настраиваемое число turn-ов в сессии *(anj-s)*
▪ В UI теперь видно, какая версия nightly *(miguelsolorio)*
📦 Установить:
npm i -g @google/gemini-cli
https://github.com/google-gemini/gemini-cli
❤1👍1
🚀 MIRIX — от Mirix-AI: универсальная платформа для работы с LLM и multimodal AI
Репозиторий [Mirix-AI/MIRIX](https://github.com/Mirix-AI/MIRIX) — открытая инфраструктура, которая превращает LLM и мультимодальные модели в мощный AI-движок:
🔧 Возможности MIRIX
▪ Плагин-фреймворк: легко подключать новые LLM или инструменты (видео, аудио, базы данных и т.д.)
▪ Пайплайны с логикой: можно комбинировать модели, автоматически включать chain-of-thought, добавлять кастомную логику
▪ Многопользовательский API: поддержка сессий, управление историей, токенами
▪ Интерактивные агенты: чат-боты с памятью, планированием и адаптивным поведением
💡 Почему это полезно
– Гибкая логика: можно внедрять flow, правила, разбивать задачу на этапы
– Мульти-модальность: работа не только с языковыми моделями, но и с аудио/видео/датасетами
– Развиваемость: легко подключать новые плагины, модели, фичи
– Продуктивность: готовый skeleton для создания собственного AI-сервиса — от прототипа до продакшена
Website: https://mirix.io
Paper: https://arxiv.org/abs/2507.07957
Github: https://github.com/Mirix-AI/MIRIX
Репозиторий [Mirix-AI/MIRIX](https://github.com/Mirix-AI/MIRIX) — открытая инфраструктура, которая превращает LLM и мультимодальные модели в мощный AI-движок:
🔧 Возможности MIRIX
▪ Плагин-фреймворк: легко подключать новые LLM или инструменты (видео, аудио, базы данных и т.д.)
▪ Пайплайны с логикой: можно комбинировать модели, автоматически включать chain-of-thought, добавлять кастомную логику
▪ Многопользовательский API: поддержка сессий, управление историей, токенами
▪ Интерактивные агенты: чат-боты с памятью, планированием и адаптивным поведением
💡 Почему это полезно
– Гибкая логика: можно внедрять flow, правила, разбивать задачу на этапы
– Мульти-модальность: работа не только с языковыми моделями, но и с аудио/видео/датасетами
– Развиваемость: легко подключать новые плагины, модели, фичи
– Продуктивность: готовый skeleton для создания собственного AI-сервиса — от прототипа до продакшена
Website: https://mirix.io
Paper: https://arxiv.org/abs/2507.07957
Github: https://github.com/Mirix-AI/MIRIX
👍7❤4
This media is not supported in your browser
VIEW IN TELEGRAM
📚 Infinite Wiki — бесконечная вики на стероидах
⁕ Каждое слово — это ссылка
⁕ Каждое определение — генерируется за 1 секунду в реальном времени
⁕ Работает на Gemini 2.5 Flash Lite
⁕ Поддерживает ASCII-диаграммы через 2.5 Flash
Живой, интерактивный текст — как если бы вся Википедия думала на лету.
https://aistudio.google.com/app/apps/drive/1J3Y2wXFzHKha4Qnb7UObSYAucBl1KPBO?showPreview=true
⁕ Каждое слово — это ссылка
⁕ Каждое определение — генерируется за 1 секунду в реальном времени
⁕ Работает на Gemini 2.5 Flash Lite
⁕ Поддерживает ASCII-диаграммы через 2.5 Flash
Живой, интерактивный текст — как если бы вся Википедия думала на лету.
https://aistudio.google.com/app/apps/drive/1J3Y2wXFzHKha4Qnb7UObSYAucBl1KPBO?showPreview=true
❤8👍2🔥2🤔1
💡 Крутая деталь из статьи про Gemini 2.5 — отказоустойчивая тренировка на TPU
В документации к Gemini 2.5 есть незаметный, но крутой инженерный момент:
если одна TPU-секция (slice) выходит из строя во время обучения, система не ждёт, пока освободится новая. Вместо этого они продолжают обучение на оставшихся ~97% TPU.
Это значит:
- никакого простоя
- никакой остановки тренировки
- просто пропускаем сбойный slice и двигаемся дальше
🧠 По сути, это дизайн с толерантностью к сбоям, встроенный прямо в систему планирования обучения.
🎩 И да — это отсылает к "старой школе Google", где железо было дешёвым и ненадёжным, но вся магия была в том, как они писали отказоустойчивый софт поверх этого железа.
👉 https://blog.codinghorror.com/building-a-computer-the-google-way/
Gemini 2.5 — это не только про модели. Это про инженерное мастерство, лежащее под капотом.
В документации к Gemini 2.5 есть незаметный, но крутой инженерный момент:
если одна TPU-секция (slice) выходит из строя во время обучения, система не ждёт, пока освободится новая. Вместо этого они продолжают обучение на оставшихся ~97% TPU.
Это значит:
- никакого простоя
- никакой остановки тренировки
- просто пропускаем сбойный slice и двигаемся дальше
🧠 По сути, это дизайн с толерантностью к сбоям, встроенный прямо в систему планирования обучения.
🎩 И да — это отсылает к "старой школе Google", где железо было дешёвым и ненадёжным, но вся магия была в том, как они писали отказоустойчивый софт поверх этого железа.
👉 https://blog.codinghorror.com/building-a-computer-the-google-way/
Gemini 2.5 — это не только про модели. Это про инженерное мастерство, лежащее под капотом.
❤7👍3🥰1
This media is not supported in your browser
VIEW IN TELEGRAM
🗣 FLOAT — новая open‑source модель для генерации говорящих портретов по аудио
Быстрее и реалистичнее SadTalker:
— Фотореалистичное видео с точной синхронизацией губ
— Плавные движения головы и эмоции
— Управление выражением лица и наклоном головы
💡 Основа — latent flow matching вместо диффузии:
⚡️ генерация быстрее, нет итераций, стабильные кадры
🌐 page: https://deepbrainai-research.github.io/float/
🧬code: https://github.com/deepbrainai-research/float
📄paper: https://arxiv.org/abs/2412.01064
🍊jupyter: https://github.com/camenduru/Float-jupyter
Быстрее и реалистичнее SadTalker:
— Фотореалистичное видео с точной синхронизацией губ
— Плавные движения головы и эмоции
— Управление выражением лица и наклоном головы
💡 Основа — latent flow matching вместо диффузии:
⚡️ генерация быстрее, нет итераций, стабильные кадры
🧬code: https://github.com/deepbrainai-research/float
📄paper: https://arxiv.org/abs/2412.01064
🍊jupyter: https://github.com/camenduru/Float-jupyter
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9👍3❤1