Machinelearning

🔍 Mistral представила OCR 3 - новую версию своей AI-системы распознавания документов.

Ключевое:
- Существенный рост качества по сравнению с OCR 2, особенно на формах, таблицах и сложных PDF
- Уверенно работает со сканами, рукописным текстом и нестандартной версткой
- Возвращает структурированный результат, а не просто сырой текст
- Подходит для автоматизации Document AI и downstream-аналитики
- Доступен через API и готов к продакшен-использованию

Главное
- На 74% лучше Mistral OCR 2 при работе с формами, сканированными документами, сложными таблицами и рукописным текстом.

- Точность уровня state-of-the-art: Обходит как корпоративные системы обработки документов, так и современные AI-OCR решения.

- Используется в Document AI Playground:
В Mistral AI Studio появился простой drag-and-drop интерфейс для разбора PDF и изображений в чистый текст или структурированный JSON.

https://mistral.ai/news/mistral-ocr-3

@ai_machinelearning_big_data

#ocr #mistal #llm

🔥69❤26👍17🥱3🦄2🙏1

45.6K views15:09

Machinelearning

💀

NeuroSploit v2 - продвинутый AI-фреймворк для тестирования на проникновение (пентеста).

NeuroSploit v2 использует большие языковые модели, чтобы автоматизировать и усилить offensive security.

Фреймворк помогает анализировать цели, находить уязвимости, планировать эксплуатацию и поддерживать защитные меры, сохраняя фокус на этике и операционной безопасности.

Основные возможности:

• Агентная архитектура
Специализированные AI-агенты под разные роли: Red Team, Blue Team, Bug Bounty Hunter, Malware Analyst.

• Гибкая интеграция LLM
Поддержка Gemini, Claude, GPT (OpenAI) и Ollama с настройкой через профили.

• Тонкая настройка моделей
Отдельные LLM-профили для каждой роли: выбор модели, температура, лимиты токенов, кэш и контекст.

• Markdown-промпты
Динамические шаблоны промптов, адаптирующиеся под задачу и контекст.

• Расширяемые инструменты
Интеграция Nmap, Metasploit, Subfinder, Nuclei и других security-инструментов через конфигурацию.

• Структурированные отчёты
JSON-результаты кампаний и удобные HTML-отчёты.

• Интерактивный CLI
Командная строка для прямого управления агентами и сценариями.

NeuroSploit v2 - пример того, как agentic AI превращает пентест из ручной работы в управляемую автоматизацию.


git clone https://github.com/CyberSecurityUP/NeuroSploitv2.git
cd NeuroSploitv2

▪ Github: https://github.com/CyberSecurityUP/NeuroSploit

@ai_machinelearning_big_data

#python #Penetrationtesting #llm #mlops #Cybersecurity

Please open Telegram to view this post

VIEW IN TELEGRAM

❤30👍12🔥11🦄3🗿2

38.1K views07:14

Machinelearning

🚀 Вышел QwenLong-L1.5 - модель для long-context reasoning, которая на длинных контекстах конкурирует с GPT-5 и Gemini-2.5-Pro.

Коротко о модели
- 30B параметров, из них 3B активных
- Заточена под рассуждение на очень длинных контекстах
- Полностью открыты веса, код обучения и рецепты данных

Ключевые показатели:
- +31.7 балла на OpenAI MRCR при контексте 128K - SOTA среди всех моделей
- На уровне Gemini-2.5-Pro на 6 крупных long-QA бенчмарках
- +9.69 на CorpusQA
- +6.16 на LongBench-V2

Что интересного.

1. Синтетические данные в масштабе
14.1K длинных reasoning-сэмплов из 9.2B токенов без ручной разметки.
Средняя длина - 34K токенов, максимум - 119K.

2. Стабильное RL-обучение
Используется балансировка задач и Adaptive Entropy-Controlled Policy Optimization (AEPO), что позволяет стабильно обучать модели на длинных последовательностях.

3. Архитектура с памятью
Итеративные обновления памяти за пределами окна 256K токенов.
Результат - +9.48 балла на задачах с контекстом от 1M до 4M токенов.

QwenLong-L1.5 - это один из самых сильных open-source шагов в сторону реально масштабируемого ризонинга с длинным контекстом

Модель интересна не только результатами, но и тем, что весь стек обучения открыт.

GitHub: https://github.com/Tongyi-Zhiwen/Qwen-Doc
Paper: https://modelscope.cn/papers/2512.12967
Model: https://modelscope.cn/models/iic/QwenLong-L1.5-30B-A3B
HF: https://huggingface.co/Tongyi-Zhiwen/QwenLong-L1.5-30B-A3B

@ai_machinelearning_big_data

#AI, #LLM, #opensource, #long #Owen

❤57👍28🔥19🦄1

28.9K views13:56

Machinelearning

📌

Тренируем FunctionGemma самостоятельно.

LM Studio в коллаборации с Unsloth опубликовали подробный туториал по файнтюнингу недавно выпущенной Google модели FunctionGemma.

FunctionGemma - уменьшенная версия Gemma (всего 270Ь параметров) для агентских сценариев и работы в качестве бэкенда приложений, которую можно запускать практически на любом устройстве.

Гайд состоит из подробного описания всего процесса от обучения модели вызову инструментов до преобразования в GGUF-формат и последующего запуска его в LM Studio

Туториал подойдет для локального трейна (Unsloth работает на NVIDIA, AMD и Intel), но есть и готовый Collab Notebook для тренировки в облаке.

⚠️ FunctionGemma не предназначена для использования в качестве прямой диалоговой модели.

@ai_machinelearning_big_data

#AI #ML #LLM #Tutorial #Unsloth #LMStudio

Please open Telegram to view this post

VIEW IN TELEGRAM

❤26🔥16🥰6🦄2👍1

25.2K views10:45

Machinelearning

🌟

IQuest-Coder-V1: китайская модель, которая обошла лидеров в кодинге.

Quest Research, поддержанная фондом Ubiquant, представила 40-миллиардную модель c контекстным окном в 128K токенов, которая, со слов авторов, выбивает 81,4% на SWE-Bench Verified, 49,9% на BigCodeBench и 81,1% на LiveCodeBench v6.

Это превосходит показатели Claude Sonnet 4.5 и GPT-5.1, несмотря на значительно меньшее количество параметров.

Модель использует технику "code-flow" — обучение на эволюции репозиториев и коммитах, и разделена на 2 ветки:

🟠Dense Models : Base и Instruct версии для дообучения и следованию инструкциям

🟢Loop Models: оптимизированная версия с максимальной эффективностью по VRAM (int4 может запускаться на 3090\4090)

Архитектура LoopCoder использует циклическую конструкцию трансформера, где одни и те же параметры модели используются в 2-х последовательных проходах обработки данных.

На первом проходе модель обрабатывает эмбеддинги через свои слои с учетом позиций слов.

На втором проходе модель одновременно использует два типа внимания: глобальное внимание, которое обращается ко всей информации из первого прохода для понимания общего контекста, и локальное внимание, которое смотрит только на предыдущие слова во втором проходе для сохранения последовательности текста.

Оба типа внимания комбинируются с помощью механизма, который решает, сколько веса дать глобальному контексту, а сколько локальной последовательности.

В техотчете заявлены еще 7B и 14B версии, но сроки их публикации неизвестны.

📌Лицензирование: Modified MIT License

🟡

Страница проекта

🟡

Техотчет

🟡

Набор моделей

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #LLM #IQuest #QuestResearch

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍141🤩92👨‍💻87❤44🤔23🔥21👏20👌12🥰8⚡5🎉5

37.4K views09:15

Machinelearning

📌

Как делали MiniMax М2.1 и что будет дальше.

Когда говорят, что одна модель пишет код лучше другой, обычно имеется ввиду бенчмарк SWE-Bench. Модель получает реальный баг из настоящего проекта с Github, который она должна прочитать, найти ошибку и исправить её. Это частично повторяет ежедневную работу программиста.

Но у этого бенча, как и у любого другого, есть свои недостатки.

🟠SWE-Bench работает только с Python. В реальном мире разработчики имеют дело с Java, Go, TypeScript, Rust, C++ и еще кучей других.

🟠Бенчмарк только про исправление ошибок, а программисты еще пишут новые функции, занимаются рефакторингом и оптимизацией.

🟠Его результаты сильно зависят от того, в каком окружении работает модель.

И вот здесь MiniMax-AI задалась вопросом: как создать по-настоящему универсального ИИ-программиста?

Ответ они нашли и реализовали его в своей свежайшей модели M2.1.

🟡Масштабирование окружения.

За этим расплывчатым термином кроется огромная система, которая оперирует популярными языками: JS, TS, Python, Java, Go, C++ и Rust.

Для этого с GitHub были собраны более 100 тыс. реальных задач с описанием проблемы, кодом и тестами. Это было непросто, так как сложные языки (Java или C++) требуют настройки и у каждого языка свои фреймворки и системы управления зависимостями.

Чтобы обучить модель на таком массиве данных, MiniMax построил инфраструктуру, способную запускать более 5 тыс. изолированных сред выполнения за максимально короткое время - 10 секунд.

🟡Выход за рамки баг-фиксов.

MiniMax-M2.1 обучали и генерации тестов и в результате оказалось, что это критически важный навык.

Предыдущая версия, M1, писала слишком простые тесты и часто выбирала неверные решения. M2.1 в этом преуспела и сравнялась по результатам с мощным конкурентом Claude Sonnet 4.5.

Еще она научилась оптимизировать производительность кода — на SWE-Perf показала средний прирост эффективности в 3.1%.

И наконец, M2.1 научили делать Code Review, для чего создали внутренний бенчмарк SWE-Review.

🟡Обобщение на незнакомых окружениях (Generalization on OOD Scaffolds).

Модель должна одинаково хорошо следовать длинным инструкциям и адаптироваться к разным способам управления контекстом диалога.

Команда провела тесты в mini-swe-agent, Droid и Claude Code и если посмотреть на цифры из их сравнительной таблицы, то можно увидель, что модель стала гораздо более гибкой и универсальной.

На том же SWE-Bench, при использовании Claude Code, MiniMax-M2.1 выбила 74 балла, что выше, чем у модели M2 с ее 69.2 баллами, и практически наравне с Claude Sonnet 4.5 и DeepSeek V3.2.

На другом тесте, OctoCodingBench, разрыв еще больше: 26.1 у новой модели против 13.3 у старой.

🟡

Планы на 2026.

Во-первых, MiniMax планирует научить модель оценивать не только правильность кода, но и читаемость кода, качество комментариев, прозрачность процесса работы.

Во-вторых - повысить эффективность решения задач, чтобы модель не делала лишних шагов, например, не перечитывала один и тот же файл по несколько раз.

Но самое интересное — это их планы по RL Scaling, и создание так называемой Coding World Model.

Идея в том, чтобы построить модель-симулятор, которая сможет предсказывать результат выполнения кода, не запуская его в реальности.

Наконец, они планируют расширяться в узкоспециализированные области: разработка GPU Kernel, компиляторов и смарт-контрактов.

Похоже, концепция "ИИ-кодера" становится все более реальной. Успех MiniMax-M2.1 показал, что дело уже не в написании отдельных строк кода, а в комплексном понимании всего процесса разработки.

@ai_machinelearning_big_data

#AI #ML #LLM #MiniMaх

Please open Telegram to view this post

VIEW IN TELEGRAM

❤59👍29🔥15👌2🦄1

32.1K viewsedited 12:01

Machinelearning

🌟

Technology Innovation Institute выпустила компактную модель Falcon H1R 7B.

Falcon H1R 7B — языковая ризонинг-модель с открытыми весами на 7 млрд. параметров и контекстным окном в 256 тыс. токенов.

Разработчики утверждают, что их модель способна на равных тягаться с конкурентами от 14 до 47 млрд. параметров. То есть, речь идет о сопоставимой эффективности при разнице в размерах от 2 до 7 раз.

Архитектурно - это гибрид классического Transformer и Mamba. Такое решение принято не ради эксперимента, а ради скорости обработки данных, где Mamba традиционно сильна.

Фундаментом стала базовая модель Falcon H1 Base, которую прогнали через SFT, затем подключили масштабирование через RL с использованием GRPO.

Одной из фишек новинки стало использование механизма Deep Think with confidence (DeepConf) на этапе test-time scaling. Он позволяет модели повышать точность ответов, при этом снижая общее количество генерируемых токенов.

Если смотреть на метрики эффективности, то Falcon H1R 7B выдает до 1500 токенов в секунду. Для сравнения, это почти в 2 раза быстрее, чем показатели Qwen3-8B.

В тесте AIME 24 модель показала точность 88,1%. В математическом бенчмарке MATH-500 результат - 97,4%. И даже в сложном GPQA-D Falcon выбил 61,3 балла.

Веса уже на Hugging Face, причем доступны как полные чекпоинты, так и квантованные версии в формате GGUF.

С запуском проблем быть не должно: заявлена поддержка всех основных фреймворков: Transformers, vLLM и SGLang.

📌Лицензирование: Falcon LLM License.

🟡

🟡

🟡

🟡

🟡

🟡

Сообщество в Discord

@ai_machinelearning_big_data

#AI #ML #LLM #FalconH1R #TII

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍58❤29🔥16🤗2🦄1

30.6K views11:37

Machinelearning

📌

Андрей Карпаты нашел идеальный баланс токенов и параметров для обучения LLM.

Андрей Карпаты опубликовал результаты экспериментов по оптимизации претрейна языковых моделей в условиях фиксированного бюджета.

Чтобы найти наиболее эффективный способ расходования вычислительных ресурсов, он провел серию тестов на сервере с 8х GPU H100, обучив 11 моделей разного размера при одинаковых затратах на вычисления.

🟡

Главный вывод: существует «золотое сечение».

Карпаты обнаружил, что по мере увеличения мощностей оптимальное количество параметров и тренировочных токенов растут синхронно. Эмпирическое правило для протестированных конфигураций: на 1 параметр модели должно приходиться примерно 8 токенов обучающей выборки.

Если модель слишком мала, она не усваивает достаточно информации; если слишком велика — бюджет заканчивается раньше, чем она успевает обучиться.

Для инженеров этот рецепт позволяет заранее планировать архитектуру и бюджет, избегая создания заведомо неэффективных моделей.

Традиционно, все эксперименты Андрея открыты и их можно повторить самостоятельно.

🔜

Погрузиться в детали экспериментов

@ai_machinelearning_big_data

#AI #ML #LLM #Karpathy

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤141🔥56👍20🥰18❤‍🔥5🙏5🤣4👏1🦄1

38.9K views12:04

Machinelearning

⚡️

DeepSeek Engram: условная память LLM через поиск.

DeepSeek опять шатают устои архитектуры трансформеров свежайшим пейпером, который доказывает, что новое — это хорошо и очень хитро забытое старое.

Пока все пытаются запихнуть в LLM как можно больше слоев и параметров, DeepSeek задались вопросом: зачем тратить дорогой компьют на запоминание фактов, если их можно просто подсмотреть? Знакомьтесь:

🟡

Engram — модуль, который возвращает нас к дедам с N-грамами.

DeepSeek предлагает разделить "думалку" (MoE-слои) и "хранилище знаний" (Engram):

🟢

Hashed N-grams: модуль смотрит на входящий текст и нарезает его на N-грамы (последовательности токенов).

🟢

O(1) Lookup: система делает мгновенный запрос в гигантскую хэш-таблицу эмбеддингов - это чисто статический поиск.

🟢

Context-Aware Gating: самый сок. Модель не просто слепо берет данные из "хранилища знаний" - специальный гейтинг-механизм решает: "Нам сейчас нужен факт из памяти или будем думать сами?". Если найденный N-грам релевантен контексту, он подмешивается в скрытое состояние.

🟢

Tokenizer Compression: чтобы хранилище знаний не лопнуло от мусора, похожие токены в нем схлопывают в один ID, например, "Apple" и "apple".

🟡

Баланс распределения ресурсов.

Чтобы правильно поделить бюджет параметров между MoE и Engram посчитали сценарии масштабирования. График лосса от соотношения этих частей выглядит как буква U:

🟠

Перекос в MoE (100% вычислений): модель тратит дорогие слои внимания на запоминание статики. Это неэффективно, лосс высокий.

🟠

Перекос в Память (0% вычислений): модель превращается в гигантскую википедию. Она помнит факты, но у нее напрочь атрофируется ризонинг. Лосс тоже высокий.

🟢

Золотая середина (дно U-кривой): 80% MoE и ~20% Engram.

🟡

Тесты и результаты.

DeepSeek обучили модель Engram-27B и сравнили ее с классической MoE-27B при одинаковом бюджете параметров и FLOPs. Итоги:

Общее качество подросло: MMLU +3.4 пункта, HumanEval (код) +3.0.

На длинном контексте - разнос. В тесте на поиск иголки (NIAH) точность выросла с 84.2 до 97.0. Модель разгрузила слои внимания от запоминания локальных паттернов, и оно сфокусировалось на глобальном контексте.

Модель быстрее сходится. Engram берет на себя рутину в ранних слоях, тем самым позволяя модели сразу учиться сложным вещам.

🟡

Архитектурный нюанс.

Таблица эмбеддингов для Engram может быть запредельно огромной (в пейпере разгоняли до 100B параметров) и, очевидно, в VRAM это не влезает.

Решили так: раз ID токенов известен до прогона слоя, то эти данные можно хранить в RAM и асинхронно подтягивать. В реале, оверхед от этой механики показал меньше 3%., т.е. мы получаем модель, которая знает больше, чем влезает в GPU, используя оперативку сервера.

🟡

DeepSeek фактически легализовала подобие шпаргалок для LLM.

Вместо того чтобы заставлять модель учить все наизусть, ей дают гигантский справочник. Теоретически, это открывает путь к прекрасному ИИ светлого будущего, который может иметь условно-бесконечную память, ограниченную только объемом оперативки, а не VRAM.

Похоже, в V4 мы увидим как эта схема работает, ведь инсайдеры обещают у нее запредельные скилы.

🟡

Техотчет

🖥

Github

@ai_machinelearning_big_data

#AI #ML #LLM #Engram #Deepseek

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤146👍64🔥49🥰4🤔2🦄1

50.5K views05:05

Machinelearning

🌟

NVIDIA переизобретает память: LLM, которые доучиваются прямо во время инференса

Контекстные окна растут, но тут два стула: либо классическое внимание, которое питается памятью и компьютит как не в себя, либо RNN-подобные Mamba, DeltaNet, которые работают быстро, но в длинном контексте начинают плыть и терять детали.

NVIDIA предлагает решение, которое пытается усидеть на обоих стульях сразу - Test-Time Training with End-to-End formulation (TTT-E2E):

Обычно веса модели заморожены после тренировки. Когда вы скармливаете ей данные, она просто держит её в KV-кэше. В TTT все по-другому: контекст — это и есть обучающий датасет. Пока модель читает ваш промпт (контекст), она обновляет свои веса (если точнее - делает градиентный спуск прямо на лету), тем самым, инфа из контекста впекается в саму модель. Это позволяет сжать гигантские объемы в фиксированный размер состояния, не раздувая KV-кэш до небес.

🟡

В результате - красота и волшебство:

🟢Латентность инференса становится константной. Неважно, 100 токенов в контексте или миллион — время генерации следующего токена одинаковое.

🟢На контексте 128k токенов — ускорение в 2.7x по сравнению с Attention (на H100). На 2M токенов — ускорение в 35 раз.

🟢В отличие от Mamba и других RNN, качество не проседает на длинных дистанциях. TTT держит планку на уровне полного внимания.

🟡

Разумеется, есть куча пунктов со звездочкой

🟠Трейн - сложный. Чтобы модель могла так лихо учиться на лету, её нужно спечиальным образом претрейнить. Этот процесс сейчас в 3.4x медленнее, чем обычное обучение.

🟠Метод требует вычисления градиентов от градиентов во время обучения. FlashAttention из коробки сейчас это не поддерживает, нужны кастомные ядра или костыли.

🟠Cам процесс поедания контекста при инференсе требует вычислений во время префилл-фазы.

По итогу, NVIDIA сравнивает RAG с блокнотом, а свой TTT — с реальным обновлением нейронных связей мозга. Если есть желание покопаться в методике и проникнуться идеей - код и пейпер в открытом доступе.

🟡

Статья

🟡

Arxiv

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #LLM #TTTE2E #NVIDIA

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM