Анализ данных (Data analysis)
52K subscribers
3.01K photos
370 videos
1 file
2.55K links
Data science, наука о данных.

@haarrp - админ

РКН: clck.ru/3FmyAp
Download Telegram
🚨 Claude восстановил игру 90-х без исходников

Разработчик откопал свой проект 1992 года. Тогда ему было 19. Это была мультиплеерная игра на CompuServe, она даже получила награду и закрылась в 1999.

Исходников не осталось. Только скрипты на кастомном языке, который он сам придумал для гейм-мастеров, старый мануал и запись геймплея.

Он просто загрузил всё это в Claude Code и попросил разобраться.

Модель сначала восстановила сам язык. Без документации и без примеров в сети. Вытащила грамматику из скриптов и текста, который писался для людей без технического бэкграунда.

После этого она пересобрала игру с нуля. Полноценный мир с тысячами комнат, предметами, монстрами, магией, крафтом и боевой системой.

Проект, который в 90-х собирался месяцами, был восстановлен за выходные.

Модель работает с неполными данными, восстанавливает структуру и доводит систему до рабочего состояния.

Фактически это реверс-инжиниринг без исходников.

Игра сейчас доступна бесплатно, код открыт.
👍38🔥2113
Claude Mythos сейчас выглядит именно так, по рассказам Anthropic
🤣57🥱76👍3😁2🔥1
Господдержка может ускорить развитие ИИ в России

На конференции Data Fusion представитель ВТБ отметил, что без господдержки рынок ИИ не сможет масштабироваться. Главные узкие места — инфраструктура (ЦОДы) и доступ к высокопроизводительным чипам. Эти задачи бизнес в одиночку закрыть не может.

Отдельный вопрос — экономика: ИИ-проекты требуют крупных инвестиций и долго окупаются, из-за чего часто проигрывают другим направлениям по эффективности.

В качестве решения предлагают классический набор стимулов: субсидии, налоговые льготы и другие меры поддержки, которые должны ускорить внедрение технологий.

Фактически речь о том, что без системной помощи государства ИИ останется нишевой историей, а не массовой инфраструктурой. А вы как думаете?

🎯Полезные Мл-ресурсы 🚀 Max
🤣406👍4🔥3😁2💔2
Liquid AI выпустили LFM2.5-VL-450M - vision-language модель для edge-устройств.

Обрабатывает картинку 512×512 за ~240мс на устройстве, без облака. Хватает на 4 FPS видеопоток с пониманием происходящего, а не просто детекцией.

Главное: один инференс заменяет привычную связку детектор → классификатор → эвристики. Весь multi-stage пайплайн в одном проходе.

В релизе добавили bounding box prediction (81.28 на RefCOCO-M), мультиязычный визуал на 8 языках и function calling.

Крутится на Jetson Orin, Samsung S25 Ultra, AMD 395+ Max.

Веса открыты.

huggingface.co/spaces/LiquidAI/LFM2-VL-WebGPU
8👍6🔥3🥰2
This media is not supported in your browser
VIEW IN TELEGRAM
🚨 Claude Code ускорили в 4 раза на больших кодовых базах

Один и тот же таск. Один и тот же промпт. Меняется только инструмент.

Без него Claude Code 8 минут бродит по коду, читает десятки файлов и всё равно пропускает важные зависимости. В итоге решение сырое.

С ним тот же сценарий занимает около 2 минут и даёт более точный результат.

Речь про repowise.

Инструмент repowise - строит структурную модель проекта. Граф зависимостей с приоритизацией. Историю изменений с зонами ответственности. Автоген документации. И слой решений, который фиксирует, зачем вообще написан код.

Этот слой решает главную проблему. Обычно модель не понимает контекст решений и начинает действовать вслепую.

В тесте на репозитории с 3000 файлов задача была добавить rate limiting во все API.

Без repowise модель читает случайные файлы, не видит ключевые связи и ломает скрытые зависимости.

С repowise хватает нескольких вызовов. Модель сразу находит все зависимости, обнаруживает существующую логику ретраев и даже подсказывает, кто должен ревьюить изменения.

Расход токенов падает примерно на 60 процентов. Модель перестаёт читать всё подряд и работает точечно.

Дополнительно repowise генерирует CLAUDE.md на основе реального состояния репозитория.

Self hosted. Работает локально. Можно использовать с Ollama.

https://github.com/repowise-dev
👍22🔥1310
🌟 VimRAG: мультимодальный RAG-агент, который держит контекст в виде графа памяти.

Tongyi Lab (Alibaba Group) опубликовала VimRAG - фреймворк агентного RAG для работы с текстом, изображениями и видео.

Проект развивает прошлогодний VRAG-RL и решает проблему мультимодального RAG: визуальные данные тяжелые по токенам, но семантически разрежены, а классическая ReAct-история забивает контекст шумом и провоцирует повторные бесполезные запросы к поиску.


Вместо журнала наблюдений VimRAG моделирует рассуждение как динамический направленный ацикличный граф. Каждая вершина хранит подзапрос, действие агента, текстовое саммари и банк визуальных токенов.

Ребра фиксируют логические зависимости между шагами. Такой граф позволяет агенту отличать тупиковую ветку от новой гипотезы и не уходить в циклы повторных поисков.

🟡 Поверх графа работает Graph-Modulated Visual Memory Encoding.

Бюджет визуальных токенов распределяется с учетом исходящей степени в графе, экспоненциального временного затухания (имитация забывания) и рекурсивной обратной связи от потомков.

Ключевым фрагментам достается высокое разрешение, а второстепенные кадры сжимаются или отбрасываются. Для видео задействована способность VLM привязывать содержимое к временной шкале (извлечение ключевых кадров по таймкодам).

🟡Третий компонент - Graph-GPO.

GGPO строит критический путь от корня к ответу и накладывает градиентную маску, исключая тупиковые узлы из положительных примеров, а ценные ретривы - из отрицательных.

По графикам обучения это дает более быструю сходимость, чем базовый GSPO без прунинга.


🟡Тесты

🟢VimRAG обходит Vanilla RAG, ReAct, VideoRAG, UniversalRAG, MemAgent и Mem1 на 9 бенчмарках (HotpotQA и SQuAD до SlideVQA, MMLongBench, LVBench и XVBench).

🟢На Qwen3-VL-8B-Instruct средний скор поднимается с 43,6 до 50,1, на 4B-версии - с 40,6 до 45,2.

При этом средняя длина траектории ниже, чем у ReAct и Mem1: структурированная память съедает меньше действий на ответ.

В репозитории доступны:

🟠тренировочный фреймворк VRAG-RL, демо VRAG на тестовой Qwen2.5-VL-7B-VRAG через vLLM (нужна A100 80GB);

🟠демо на API Qwen3.5-Plus через DashScope (с визуализацией DAG рассуждения и расширенным ризонингом).

Поисковый движок построен на FAISS и поддерживает эмбеддинги GVE-3B/7B и Qwen3-VL-Embedding-2B/8B. Индексировать можно изображения, PDF (через конвертацию) и нарезанное на чанки видео.

Код трейна самого VimRAG обещают выложить после внутреннего ревью Alibaba.



🟡Arxiv
🟡Модель
🖥GitHub

#AI #ML #RAG #VRAG #TongyiLab
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
10👍7🔥4
Теперь можно бесплатно дообучать Gemma 4 31B прямо в ноутбуке 🚀

Обучение модели на 31 миллиард параметров полностью бесплатно с использованием Kaggle и Unsloth.

GitHub: https://github.com/unslothai/unsloth

Гайд: https://unsloth.ai/docs/models/gemma-4/train

Ноутбук: https://kaggle.com/code/danielhanchen/gemma4-31b-unsloth
👍18🔥139
Media is too big
VIEW IN TELEGRAM
🚨 Tencent выложили модель для агентов HY-Embodied-0.5

Это модель, заточенная под embodied агентов. То есть тех, кто действует в физическом мире или его симуляции.

Фокус смещён с текста на восприятие и действие. Модель учится понимать пространство, время и принимать решения на основе этого.

В линейке две модели.

• Модель на 2B параметров открыта и подходит для edge-сценариев. Её можно гонять локально и встраивать в реальные системы.

• Модель на 32B уже про сложное планирование и reasoning. По качеству она приближается к фронтирным решениям.

Архитектура Mixture-of-Transformers. Разные части модели обрабатывают разные типы данных. Это снижает шум и даёт более точное восприятие.

Latent tokens. Более компактное представление визуальной информации, что помогает модели лучше понимать окружение.

Self-evolving post-training. Модель продолжает дообучаться и улучшать поведение после базового обучения.

On-policy distillation. Знания переносятся с большой модели на маленькую без сильной потери качества.

По бенчмаркам маленькая модель обгоняет аналоги на большинстве задач. Это важный сигнал для edge и роботики.

GitHub: https://github.com/Tencent-Hunyuan/HY-Embodied

Hugging Face: https://huggingface.co/tencent/HY-Embodied-0.5
👍8🔥42👏2
21 апреля приглашаем на бизнес-митап «Лаборатория решений DataLens» — офлайн-встречу о BI и аналитике данных.

📍 Loft Hall (Avantage), м. Автозаводская
Сбор гостей с 16:30, начало в 17:00

Формат — демонстрация реальных кейсов: партнёры покажут решения на базе DataLens для задач из ритейла, финансов, госсектора и фармы.

Что будет:
— Решения бизнес-задач от Навикон, КОРУС Консалтинг, Смарт-Аналитикс, SQEEL
— Доклад команды DataLens о развитии и новых возможностях
— Q&A по архитектуре и подходам
— Нетворк и фуршет

💡 Вы увидите, как создаются решения: от архитектуры до дашбордов и оценки эффективности.

Кому будет полезно:
— компаниям, выбирающим BI
— аналитикам и специалистам по данным

👉 Регистраци по ссылке.
👍3🔥21