Мишин Лернинг

😁16👍5

2.26K views16:33

GPT-Image-1.5 — генерация картинок становится полезным инструментом

OpenAI выкатили новый флагманский image-модуль:
▪️ в ChatGPT: https://chatgpt.com/images
▪️в API: GPT-Image-1.5

Главная идея релиза: Image generation теперь ведёт себя как полноценный инструмент. Модель умеет менять часть изображения, что намного удобнее, чем генерация с нуля в надежде выбить нужный результат. Обещают:

1) Сохранения лиц
2) Стабильное свещение
3) Адекватный бэкграунд
4) Сохранение объектов при изменении картинки

Короче шаг в сторону Photoshop'а будущего, а не генеративной лотереи и выбивания результата с стиле MJ / SD (хотя кому-то это и нравилось, был в это свой шарм).

Еще говорят, что генерация стала быстрее в 4 раза, а вот цена упала не на 75%, а только на 20% в сравнение с GPT-Image-1, но больше — не меньше!

Заявляют, что подходит для enterprise, но при этом есть проблемы с:
▪️мультиязычным текстом
▪️"научность" визуализации страдает
▪️тяжело когда много лиц

tl;dr

Оцени качество генерации картинки к посту

👍13❤4⚡2🔥1

2.35K viewsedited 19:49

🔉 Meta SAM Audio: Segment Anything Model Audio

SAM Audio — это “Segment Anything”, но для звука: foundation-модель, которая выделяет любой целевой звук (separation) из микса по промпту (текстом) или по отдельным объектам из видео!

Что может модель:

— Аудио сепарация: целевой объект (человек, машина, инструмент) + все остальное (бэкграунд, шум, пространство, реверберация и эхо)

— Visual prompting: можно привязать звук к объекту на кадре (маской/объектом в видео) и отделять “звук этого объекта” от остальных.

— Span prompting: задаёшь временные якоря, где звук есть/нет и модель сама определяет “что именно считать целевым”.

💻 github + модель SAM Audio
👄 Есть демо: можно потыкать по этой ссылке

🔥18❤6❤‍🔥1

2.58K viewsedited 22:37

Мишин Лернинг

Поиграл с новой ChatGPT Images 1.5

Вот такие вариации на классику получилось сделать. Действительно отличное понимание текста.

👍14🔥6👎2💊1

3K views23:14

Мишин Лернинг

😈 Google выкатили T5Gemma 2 — T5 возвращается, но уже в шкуре Gemma 3 (и с глазами)

Наконец-то нормальный апгрейд encoder–decoder уровня 2025го года.

Что по теху:
— Encoder–decoder на базе Gemma 3
— Tied embeddings: энкодер и декодер делят словарь → меньше параметров
— Merged attention в декодере (self + cross) → проще, быстрее, дешевле
— 128K контекст через чередование local / global attention
— Мультимодальность: текст + изображения → текст (VQA, reasoning), а это прям 🤌 сок для огромного кол-ва задач, где нужна хорошая текстовая башня
— 140+ языков из коробки

Почему это важно:
— enc-dec снова выигрывает на длинном контексте, суммаризации, RAG, VQA
— лучше держит структуру входа, чем decoder-only
— идеально под on-device и быстрый инференс
— идеально для text2video / text2image как энокодер

tl;dr
T5Gemma 2 — это не ностальгия по T5, а прагматичный энкод-декод нового поколения: компактный, мультимодальный и наконец-то long-context-friendly!

📄 paper
🤗 huggingface
🔮 colab / ноутбук

❤23🔥6

2.69K views01:07

Мишин Лернинг

📲 Google выкатили FunctionGemma — function calling для edge

Google не перестает радовать. Пока все меряются “reasoning” сантиметрами, в Google сделали вещь, которая действительно важна: FunctionGemma — это Gemma 3 270M, но специально заточенная под генерацию вызовов функций + выкатили рецепт дообучения, чтобы вы лепили локальных агентов под свой собственный API.

И да, это прямой сигнал рынка: “чат-боты все еще важны, но уже настала эпоха агентов”.

Что мы получили:
1) Gemma 3 (270M), заточенная исключительно под function calling
2) Схема NL → JSON → вызов API → NL-ответ структурированный function call (аргументы, поля, формат)
3) Возможность переключиться и объяснить результат человеку нормальным языком. Это у них называется Unified action and chat.

Пишут, что даже 270M достаточно для задачи, так как доведение до своей задачи предполагает файнтюн на своём action-датасете (в их примере точность после тюна: 58%→85%).

⚙️ blog с примерами
🤗 модель FunctionGemma

❤25👎1🔥1

10.7K viewsedited 21:08

Мишин Лернинг

Forwarded from Denis Sexy IT 🤖

Предлагаю ребрендинг – не АИ слоп, а эко-текст и не бездушная АИ-картинка - а эко-графика

Потому что текст из LLM и генеративные АИ-картинки оставляют намного меньший отпечаток карбона в мире, чем реальные художники и писатели ☕️

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

💯13😁6🥴2🔥1

1.68K views01:57

Мишин Лернинг

💬 OpenAI в стиле Spotify Wrapper, готовит персональную статистку использования ChatGPT по запросу (usa vpn)

show me my year with chatgpt

👍4😁3

2.43K viewsedited 00:35

Мишин Лернинг

🔬 Gemma Scope 2 — “микроскоп” от Google DeepMind для Gemma 3

DeepMind сделали практичную и интересную вещь: Gemma Scope 2 открытый стек интерпретируемости, который позволяет залезть внутрь Gemma 3 и смотреть, о чём модель “думает” внутри, и как эти внутренние мысли собираются в принятие решений и ответ.

❓Как это работает❓

1) Используется Sparse Autoencoders (SAE) → разложение активаций в интерпретируемые фичи.

2) Затем прогоняется через skip-transcoders и cross-layer transcoders — чтобы собирать причинные цепочки через все блоки трансформера, а не разглядывать один слой в вакууме.

В итоге получаем “рентген” модели, пригодный для исследования jailbreak’ов и внутренней нелинейной логики.

Scope 2 заточен под исследование jailbreak’ов, галлюцинаций, и поиску несоответствия между “объяснениями модели” и её внутренним состоянием.

🤗 HuggingFace
🔬 Blog DeepMind про Scope 2
📄 Paper

❤20👍2🤔1

2.94K viewsedited 13:00

Мишин Лернинг

🎄Happy New Year!

🍾25❤9😁5🎄3☃1🔥1😈1🎅1

1.65K views21:29

About

Blog

Apps

Platform