Анализ данных (Data analysis)

Теперь можно бесплатно дообучать Gemma 4 31B прямо в ноутбуке 🚀

Обучение модели на 31 миллиард параметров полностью бесплатно с использованием Kaggle и Unsloth.

GitHub: https://github.com/unslothai/unsloth

Гайд: https://unsloth.ai/docs/models/gemma-4/train

Ноутбук: https://kaggle.com/code/danielhanchen/gemma4-31b-unsloth

👍21🔥14❤9

5.62K views17:54

0:54

Media is too big

VIEW IN TELEGRAM

🚨 Tencent выложили модель для агентов HY-Embodied-0.5

Это модель, заточенная под embodied агентов. То есть тех, кто действует в физическом мире или его симуляции.

Фокус смещён с текста на восприятие и действие. Модель учится понимать пространство, время и принимать решения на основе этого.

В линейке две модели.

• Модель на 2B параметров открыта и подходит для edge-сценариев. Её можно гонять локально и встраивать в реальные системы.

• Модель на 32B уже про сложное планирование и reasoning. По качеству она приближается к фронтирным решениям.

Архитектура Mixture-of-Transformers. Разные части модели обрабатывают разные типы данных. Это снижает шум и даёт более точное восприятие.

Latent tokens. Более компактное представление визуальной информации, что помогает модели лучше понимать окружение.

Self-evolving post-training. Модель продолжает дообучаться и улучшать поведение после базового обучения.

On-policy distillation. Знания переносятся с большой модели на маленькую без сильной потери качества.

По бенчмаркам маленькая модель обгоняет аналоги на большинстве задач. Это важный сигнал для edge и роботики.

GitHub: https://github.com/Tencent-Hunyuan/HY-Embodied

Hugging Face: https://huggingface.co/tencent/HY-Embodied-0.5

👍13🔥4❤2👏2

3.25K views07:56

Анализ данных (Data analysis)

😁20❤4😱3💯1

2.92K views13:02

Анализ данных (Data analysis)

21 апреля приглашаем на бизнес-митап «Лаборатория решений DataLens» — офлайн-встречу о BI и аналитике данных.

📍 Loft Hall (Avantage), м. Автозаводская
Сбор гостей с 16:30, начало в 17:00

Формат — демонстрация реальных кейсов: партнёры покажут решения на базе DataLens для задач из ритейла, финансов, госсектора и фармы.

Что будет:
— Решения бизнес-задач от Навикон, КОРУС Консалтинг, Смарт-Аналитикс, SQEEL
— Доклад команды DataLens о развитии и новых возможностях
— Q&A по архитектуре и подходам
— Нетворк и фуршет

💡 Вы увидите, как создаются решения: от архитектуры до дашбордов и оценки эффективности.

Кому будет полезно:
— компаниям, выбирающим BI
— аналитикам и специалистам по данным

👉 Регистраци по ссылке.

👍5❤4🔥3

3.24K views13:06

Анализ данных (Data analysis)

0:10

This media is not supported in your browser

VIEW IN TELEGRAM

Исследователи из Национального университета Сингапура представили DMax: новый подход для diffusion LLM.

Вместо последовательного вывода токенов модель генерирует их параллельно, но при этом не разваливается по качеству

Ключевая идея - превратить декодирование в процесс самокоррекции.

Модель не просто пишет ответ, а постоянно пересматривает и исправляет свои же предсказания прямо по ходу генерации.

Это решает главную проблему параллельной генерации - накопление ошибок

По цифрам:

• DMax заметно обгоняет LLaDA-2.0-mini
• TPF на GSM8K вырос с 2.04 до 5.47
• на MBPP с 2.71 до 5.86
и всё это без потери точности

Скорость - до 1338 токенов в секунду на H200

Paper: https://huggingface.co/papers/2604.08302
Code: https://github.com/czg1225/DMax
Models: https://huggingface.co/collections/Zigeng/dmax-models
Datasets: https://huggingface.co/collections/Zigeng/dmax-training-data

👍11🔥11❤4

3.52K views16:04

Анализ данных (Data analysis)

0:26

This media is not supported in your browser

VIEW IN TELEGRAM

Это нельзя развидеть

opus 🤣🤣🤣🤣

🤣27❤16👍9🔥6🤨3

3.57K viewsedited 07:27

Анализ данных (Data analysis)

🤯 Вышел GemOpus-4 26-A4B - локальный Opus на минималках

Новая модель от JackRong - это Gemma 4, но с reasoning в стиле Claude Opus.

Что внутри:

База: Gemma 4 26B MoE
Активных параметров всего 4B
Поверх - дистилляция логики Opus

По факту это попытка упаковать уровень рассуждений больших моделей в компактный локальный формат.

По перфу:

• ~75 токенов в секунду
• 22.7 GB VRAM
• Контекст до 131K

То есть модель реально можно крутить локально и получать нормальный reasoning, а не просто автодополнение.

Если связать с агентом типа HemresAgent - получается уже почти полноценный локальный AI-ассистент под задачи разработки и автоматизации.

Хороший вариант, если хочется мощный reasoning без облака и с контролем над всем стеком

https://huggingface.co/Jackrong/Gemopus-4-26B-A4B-it-GGUF

❤16👍11🥱3🔥1

3.3K views11:03

Анализ данных (Data analysis)

Forwarded from Machinelearning

🚨 Claude «деградировал» и это видно по логам.

Senior AI Director из AMD разобрала сессии Claude за январь-март и картина получилась неприятная.

Модель стала думать меньше. Медианная длина reasoning упала примерно с 2200 до 600 символов. Это сразу бьёт по качеству решений.

Параллельно выросло количество API-запросов - почти в 80 раз с февраля на март. Меньше анализа, больше попыток, больше ретраев и сжигания токенов.

Поведение тоже поменялось. Модель чаще «сдаётся» или начинает спрашивать, продолжать ли дальше. За 17 дней таких кейсов было 173, до 8 марта - ноль.

Ещё одна неприятность падение reads-per-edit (reads-per-edit = сколько файлов / участков кода модель посмотрела перед правкой). Было 6.6, стало 2.0. То есть Claude теперь хуже изучает код перед изменениями.

Плюс выросло количество противоречий. Модель чаще переобувается по ходу ответа.

Пользователи замечают, что Клод начинает игнорировать такие вещи, как CLAUDE.md. Просто не хватает «бюджета мышления», чтобы учитывать контекст.

Что интресно, наблюдается зависимость от времени суток. Худшие результаты в 5–7 вечера по PST, ночью качество заметно выше. Похоже, это напрямую связано с загрузкой GPU.

Claude всё ещё мощный, но его поведение стало менее стабильным и сильно зависит от нагрузки

Замечали ли вы, что Claude стал тупее в последнее время ?🤯

Директор по AI в AMD проанализировала 6 852 сессии Claude Code и показала, что модель сильно ухудшили.

234 760 вызовов инструментов, 17 871 блоков размышлений, 3 месяца логов.

После этого Anthropic ответили и фактически подтвердили её выводы.

Пожалуй, самый чистый и показательный аудит AI за 2026 год 👇

https://github.com/anthropics/claude-code/issues/42796#issuecomment-4194007103

@ai_machinelearning_big_data

#news #ai #ml #claude

👍13❤7🔥5💯4🤣2😁1😢1

1.66K views09:17

Анализ данных (Data analysis)

🖥 У NVIDIA и Unsloth опубликован один из самых полезных гайдов по созданию RL-окружений с нуля, закрыв пробелы, которые обычно пропускают в туториалах.

Разбирают:

• почему RL-окружения вообще важны и как их правильно строить
• в каких случаях RL выигрывает у SFT
• best practices для GRPO и RL
• как работают проверяемые награды и RLVR

Годнота)

https://unsloth.ai/blog/rl-environments

Please open Telegram to view this post

VIEW IN TELEGRAM

👍9❤3🔥3💔1

2.99K views09:29

About

Blog

Apps

Platform