GPT-Image-1.5 — генерация картинок становится полезным инструментом
OpenAI выкатили новый флагманский image-модуль:
▪️ в ChatGPT: https://chatgpt.com/images
▪️в API: GPT-Image-1.5
Главная идея релиза: Image generation теперь ведёт себя как полноценный инструмент. Модель умеет менять часть изображения, что намного удобнее, чем генерация с нуля в надежде выбить нужный результат. Обещают:
1) Сохранения лиц
2) Стабильное свещение
3) Адекватный бэкграунд
4) Сохранение объектов при изменении картинки
Короче шаг в сторону Photoshop'а будущего, а не генеративной лотереи и выбивания результата с стиле MJ / SD (хотя кому-то это и нравилось, был в это свой шарм).
Еще говорят, что генерация стала быстрее в 4 раза, а вот цена упала не на 75%, а только на 20% в сравнение с GPT-Image-1, но больше — не меньше!
Заявляют, что подходит для enterprise, но при этом есть проблемы с:
▪️мультиязычным текстом
▪️"научность" визуализации страдает
▪️тяжело когда много лиц
tl;dr
Оцени качество генерации картинки к посту
OpenAI выкатили новый флагманский image-модуль:
▪️ в ChatGPT: https://chatgpt.com/images
▪️в API: GPT-Image-1.5
Главная идея релиза: Image generation теперь ведёт себя как полноценный инструмент. Модель умеет менять часть изображения, что намного удобнее, чем генерация с нуля в надежде выбить нужный результат. Обещают:
1) Сохранения лиц
2) Стабильное свещение
3) Адекватный бэкграунд
4) Сохранение объектов при изменении картинки
Короче шаг в сторону Photoshop'а будущего, а не генеративной лотереи и выбивания результата с стиле MJ / SD (хотя кому-то это и нравилось, был в это свой шарм).
Еще говорят, что генерация стала быстрее в 4 раза, а вот цена упала не на 75%, а только на 20% в сравнение с GPT-Image-1, но больше — не меньше!
Заявляют, что подходит для enterprise, но при этом есть проблемы с:
▪️мультиязычным текстом
▪️"научность" визуализации страдает
▪️тяжело когда много лиц
tl;dr
Оцени качество генерации картинки к посту
👍13❤4⚡2🔥1
Media is too big
VIEW IN TELEGRAM
🔉 Meta SAM Audio: Segment Anything Model Audio
SAM Audio — это “Segment Anything”, но для звука: foundation-модель, которая выделяет любой целевой звук (separation) из микса по промпту (текстом) или по отдельным объектам из видео!
Что может модель:
— Аудио сепарация: целевой объект (человек, машина, инструмент) + все остальное (бэкграунд, шум, пространство, реверберация и эхо)
— Visual prompting: можно привязать звук к объекту на кадре (маской/объектом в видео) и отделять “звук этого объекта” от остальных.
— Span prompting: задаёшь временные якоря, где звук есть/нет и модель сама определяет “что именно считать целевым”.
💻 github + модель SAM Audio
👄 Есть демо: можно потыкать по этой ссылке
SAM Audio — это “Segment Anything”, но для звука: foundation-модель, которая выделяет любой целевой звук (separation) из микса по промпту (текстом) или по отдельным объектам из видео!
Что может модель:
— Аудио сепарация: целевой объект (человек, машина, инструмент) + все остальное (бэкграунд, шум, пространство, реверберация и эхо)
— Visual prompting: можно привязать звук к объекту на кадре (маской/объектом в видео) и отделять “звук этого объекта” от остальных.
— Span prompting: задаёшь временные якоря, где звук есть/нет и модель сама определяет “что именно считать целевым”.
💻 github + модель SAM Audio
👄 Есть демо: можно потыкать по этой ссылке
🔥18❤6❤🔥1
Поиграл с новой ChatGPT Images 1.5
Вот такие вариации на классику получилось сделать. Действительно отличное понимание текста.
Вот такие вариации на классику получилось сделать. Действительно отличное понимание текста.
👍14🔥6👎2💊1
😈 Google выкатили T5Gemma 2 — T5 возвращается, но уже в шкуре Gemma 3 (и с глазами)
Наконец-то нормальный апгрейд encoder–decoder уровня 2025го года.
Что по теху:
— Encoder–decoder на базе Gemma 3
— Tied embeddings: энкодер и декодер делят словарь → меньше параметров
— Merged attention в декодере (self + cross) → проще, быстрее, дешевле
— 128K контекст через чередование local / global attention
— Мультимодальность: текст + изображения → текст (VQA, reasoning), а это прям 🤌 сок для огромного кол-ва задач, где нужна хорошая текстовая башня
— 140+ языков из коробки
Почему это важно:
— enc-dec снова выигрывает на длинном контексте, суммаризации, RAG, VQA
— лучше держит структуру входа, чем decoder-only
— идеально под on-device и быстрый инференс
— идеально для text2video / text2image как энокодер
tl;dr
T5Gemma 2 — это не ностальгия по T5, а прагматичный энкод-декод нового поколения: компактный, мультимодальный и наконец-то long-context-friendly!
📄 paper
🤗 huggingface
🔮 colab / ноутбук
Наконец-то нормальный апгрейд encoder–decoder уровня 2025го года.
Что по теху:
— Encoder–decoder на базе Gemma 3
— Tied embeddings: энкодер и декодер делят словарь → меньше параметров
— Merged attention в декодере (self + cross) → проще, быстрее, дешевле
— 128K контекст через чередование local / global attention
— Мультимодальность: текст + изображения → текст (VQA, reasoning), а это прям 🤌 сок для огромного кол-ва задач, где нужна хорошая текстовая башня
— 140+ языков из коробки
Почему это важно:
— enc-dec снова выигрывает на длинном контексте, суммаризации, RAG, VQA
— лучше держит структуру входа, чем decoder-only
— идеально под on-device и быстрый инференс
— идеально для text2video / text2image как энокодер
tl;dr
T5Gemma 2 — это не ностальгия по T5, а прагматичный энкод-декод нового поколения: компактный, мультимодальный и наконец-то long-context-friendly!
📄 paper
🤗 huggingface
🔮 colab / ноутбук
❤23🔥6
📲 Google выкатили FunctionGemma — function calling для edge
Google не перестает радовать. Пока все меряются “reasoning” сантиметрами, в Google сделали вещь, которая действительно важна: FunctionGemma — это Gemma 3 270M, но специально заточенная под генерацию вызовов функций + выкатили рецепт дообучения, чтобы вы лепили локальных агентов под свой собственный API.
Что мы получили:
1) Gemma 3 (270M), заточенная исключительно под function calling
2) Схема NL → JSON → вызов API → NL-ответ структурированный function call (аргументы, поля, формат)
3) Возможность переключиться и объяснить результат человеку нормальным языком. Это у них называется Unified action and chat.
Пишут, что даже 270M достаточно для задачи, так как доведение до своей задачи предполагает файнтюн на своём action-датасете (в их примере точность после тюна: 58%→85%).
⚙️ blog с примерами
🤗 модель FunctionGemma
Google не перестает радовать. Пока все меряются “reasoning” сантиметрами, в Google сделали вещь, которая действительно важна: FunctionGemma — это Gemma 3 270M, но специально заточенная под генерацию вызовов функций + выкатили рецепт дообучения, чтобы вы лепили локальных агентов под свой собственный API.
И да, это прямой сигнал рынка: “чат-боты все еще важны, но уже настала эпоха агентов”.
Что мы получили:
1) Gemma 3 (270M), заточенная исключительно под function calling
2) Схема NL → JSON → вызов API → NL-ответ структурированный function call (аргументы, поля, формат)
3) Возможность переключиться и объяснить результат человеку нормальным языком. Это у них называется Unified action and chat.
Пишут, что даже 270M достаточно для задачи, так как доведение до своей задачи предполагает файнтюн на своём action-датасете (в их примере точность после тюна: 58%→85%).
⚙️ blog с примерами
🤗 модель FunctionGemma
❤25👎1🔥1
Forwarded from Denis Sexy IT 🤖
Предлагаю ребрендинг – не АИ слоп, а эко-текст и не бездушная АИ-картинка - а эко-графика
Потому что текст из LLM и генеративные АИ-картинки оставляют намного меньший отпечаток карбона в мире, чем реальные художники и писатели☕️
Потому что текст из LLM и генеративные АИ-картинки оставляют намного меньший отпечаток карбона в мире, чем реальные художники и писатели
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
💯13😁6🥴2🔥1
🔬 Gemma Scope 2 — “микроскоп” от Google DeepMind для Gemma 3
DeepMind сделали практичную и интересную вещь: Gemma Scope 2 открытый стек интерпретируемости, который позволяет залезть внутрь Gemma 3 и смотреть, о чём модель “думает” внутри, и как эти внутренние мысли собираются в принятие решений и ответ.
❓Как это работает❓
1) Используется Sparse Autoencoders (SAE) → разложение активаций в интерпретируемые фичи.
2) Затем прогоняется через skip-transcoders и cross-layer transcoders — чтобы собирать причинные цепочки через все блоки трансформера, а не разглядывать один слой в вакууме.
В итоге получаем “рентген” модели, пригодный для исследования jailbreak’ов и внутренней нелинейной логики.
Scope 2 заточен под исследование jailbreak’ов, галлюцинаций, и поиску несоответствия между “объяснениями модели” и её внутренним состоянием.
🤗 HuggingFace
🔬 Blog DeepMind про Scope 2
📄 Paper
DeepMind сделали практичную и интересную вещь: Gemma Scope 2 открытый стек интерпретируемости, который позволяет залезть внутрь Gemma 3 и смотреть, о чём модель “думает” внутри, и как эти внутренние мысли собираются в принятие решений и ответ.
❓Как это работает❓
1) Используется Sparse Autoencoders (SAE) → разложение активаций в интерпретируемые фичи.
2) Затем прогоняется через skip-transcoders и cross-layer transcoders — чтобы собирать причинные цепочки через все блоки трансформера, а не разглядывать один слой в вакууме.
В итоге получаем “рентген” модели, пригодный для исследования jailbreak’ов и внутренней нелинейной логики.
Scope 2 заточен под исследование jailbreak’ов, галлюцинаций, и поиску несоответствия между “объяснениями модели” и её внутренним состоянием.
🤗 HuggingFace
🔬 Blog DeepMind про Scope 2
📄 Paper
❤20👍2🤔1