Мишин Лернинг
7.74K subscribers
1.19K photos
152 videos
4 files
651 links
Субъективный канал об искусстве машинного обучения, нейронных сетях и новостях из мира искусственного интеллекта. 🇺🇦🇮🇱
Download Telegram
Поиграл с новой ChatGPT Images 1.5

Вот такие вариации на классику получилось сделать. Действительно отличное понимание текста.
👍14🔥6👎2💊1
😈 Google выкатили T5Gemma 2 — T5 возвращается, но уже в шкуре Gemma 3 (и с глазами)

Наконец-то нормальный апгрейд encoder–decoder уровня 2025го года.

Что по теху:
— Encoder–decoder на базе Gemma 3
— Tied embeddings: энкодер и декодер делят словарь → меньше параметров
— Merged attention в декодере (self + cross) → проще, быстрее, дешевле
— 128K контекст через чередование local / global attention
— Мультимодальность: текст + изображения → текст (VQA, reasoning), а это прям 🤌 сок для огромного кол-ва задач, где нужна хорошая текстовая башня
— 140+ языков из коробки


Почему это важно:
— enc-dec снова выигрывает на длинном контексте, суммаризации, RAG, VQA
— лучше держит структуру входа, чем decoder-only
— идеально под on-device и быстрый инференс
— идеально для text2video / text2image как энокодер

tl;dr
T5Gemma 2 — это не ностальгия по T5, а прагматичный энкод-декод нового поколения: компактный, мультимодальный и наконец-то long-context-friendly!

📄 paper
🤗 huggingface
🔮 colab / ноутбук
23🔥6
📲 Google выкатили FunctionGemma — function calling для edge

Google не перестает радовать. Пока все меряются “reasoning” сантиметрами, в Google сделали вещь, которая действительно важна: FunctionGemma — это Gemma 3 270M, но специально заточенная под генерацию вызовов функций + выкатили рецепт дообучения, чтобы вы лепили локальных агентов под свой собственный API.

И да, это прямой сигнал рынка: “чат-боты все еще важны, но уже настала эпоха агентов”.


Что мы получили:
1) Gemma 3 (270M), заточенная исключительно под function calling
2) Схема NL → JSON → вызов API → NL-ответ структурированный function call (аргументы, поля, формат)
3) Возможность переключиться и объяснить результат человеку нормальным языком. Это у них называется Unified action and chat.

Пишут, что даже 270M достаточно для задачи, так как доведение до своей задачи предполагает файнтюн на своём action-датасете (в их примере точность после тюна: 58%→85%).

⚙️ blog с примерами
🤗 модель FunctionGemma
26👎1🔥1
Forwarded from Denis Sexy IT 🤖
Предлагаю ребрендинг – не АИ слоп, а эко-текст и не бездушная АИ-картинка - а эко-графика

Потому что текст из LLM и генеративные АИ-картинки оставляют намного меньший отпечаток карбона в мире, чем реальные художники и писатели ☕️
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
💯13😁6🥴2🔥1
💬 OpenAI в стиле Spotify Wrapper, готовит персональную статистку использования ChatGPT по запросу (usa vpn)
show me my year with chatgpt
👍4😁3
🔬 Gemma Scope 2 — “микроскоп” от Google DeepMind для Gemma 3

DeepMind сделали практичную и интересную вещь: Gemma Scope 2 открытый стек интерпретируемости, который позволяет залезть внутрь Gemma 3 и смотреть, о чём модель “думает” внутри, и как эти внутренние мысли собираются в принятие решений и ответ.

Как это работает

1) Используется Sparse Autoencoders (SAE) → разложение активаций в интерпретируемые фичи.

2) Затем прогоняется через skip-transcoders и cross-layer transcoders — чтобы собирать причинные цепочки через все блоки трансформера, а не разглядывать один слой в вакууме.

В итоге получаем “рентген” модели, пригодный для исследования jailbreak’ов и внутренней нелинейной логики.

Scope 2 заточен под исследование jailbreak’ов, галлюцинаций, и поиску несоответствия между “объяснениями модели” и её внутренним состоянием.

🤗
HuggingFace
🔬 Blog DeepMind про Scope 2
📄 Paper
20👍2🤔1
🎄Happy New Year!
🍾259😁5🎄31🔥1😈1🎅1