Forwarded from Machinelearning
Tencent опубликовали довольно интересный проект - POINTS-Reader. Это VLM для OCR английского и китайского языков на 4 млрд. параметров на базе Qwen2.5-3B-Instruct, которая обошла GPT-4o и Gemini на бенче
OmniDocBench.POINTS-Reader - это философия предельной простоты c прямолинейным конвейером: на вход подается изображение документа и фиксированный промпт, а на выходе получается извлеченный текст.
Никаких этапов постобработки, скриптов для очистки или дополнительных моделей — результат сразу готов к использованию.
Помимо скромной базовой Qwen2.5, в POINTS-Reader использовали умеренный по нынешним меркам Vision Transformer -
NaViT на 600 млн. параметров. И это осознанный инженерный шаг в угоду простоте и производительности.Современные фреймворки для инференса, будь то SGLang или vLLM, в первую очередь оптимизированы под LLM-часть, из-за чего громоздкий ViT становится узким местом и серьезно замедляет всю систему.
Такая компактная архитектура превосходно показала себя на тестах. На комплексном
OmniDocBench модель набрала 0.133 для английских документов и 0.212 для китайских. Эти цифры ставят POINTS-Reader в один ряд с гораздо более тяжелыми и сложными системами.Секрет проекта кроется в двухэтапной стратегии подготовки данных, которая полностью отказывается от дистилляции знаний у моделей-учителей.
На первом этапе модель получает базовые навыки OCR, обучаясь на синтетике. Дальше начинается самый интересный этап — непрерывная самоэволюция. Модель используется для генерации аннотаций на реальных документах, после чего лучшие из полученных образцов используются для ее дообучения. Этот итеративный процесс позволяет постоянно повышать качество как самой модели, так и генерируемых ею данных.
Этот метод к самосовершенствованию описан в техотчете как очень гибкий и применимый, по словам Tencent, практически к любой другой архитектуре.
Модель пока не очень уверенно справляется со сложными макетами, вроде газетной верстки, что может приводить к повторению или пропуску контента. Аналогичные трудности возникают и при обработке рукописного текста, например, в чеках или заметках. Кроме того, на данный момент POINTS-Reader поддерживает только английский и китайский языки.
@ai_machinelearning_big_data
#AI #ML #VLM #POINTSReader #Tencent
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9❤6🔥4
Media is too big
VIEW IN TELEGRAM
OpenAI опубликовали исследование о причинах галлюцинации LLM.
Галлюцинации - это не мистический сбой в сознании ИИ, а вполне предсказуемый побочный эффект его обучения.
Представьте, что перед моделью стоит задача бинарной классификации - определить, является ли предложенное утверждение корректным или нет. Математическая выкладка в исследовании проста: уровень ошибок генерации как минимум в 2 раза превышает уровень ошибок классификации. Если модель не способна надежно отличить факт от вымысла, она неизбежно будет этот вымысел генерировать.
Даже на идеально чистых данных статистические цели обучения подталкивают модель к генерации ошибок. Особенно это касается фактов, которые редко встречаются в обучающей выборке.
В работе вводится понятие singleton rate — доля фактов, которые появились в данных лишь один раз. Теоретический расклад показывает, что уровень галлюцинаций модели будет как минимум равен этой доле.
Проще говоря, если 20% фактов о днях рождения в датасете встретились единожды, модель будет выдумывать дни рождения как минимум в 20% случаев.
Модель DeepSeek-V3, на просьбу назвать день рождения одного из авторов статьи, трижды выдала неверные даты: 03-07, 15-06 и 01-01. Ни одна из них не была даже близка к правильной (осенью).
В другом тесте, где нужно было сосчитать количество букв D в слове DEEPSEEK, та же DeepSeek-V3 выдавала 2 или 3, а модели компании Марка Цукерберга и Claude 3.7 Sonnet доходили до 6 и 7.
При этом базовые модели после претрейна часто показывают отличную калибровку. Например, у предобученной GPT-4 ожидаемая ошибка калибровки составляла всего 0.007, что говорит о высокой статистической адекватности ее предсказаний.
Ответ на этот вопрос - в системе оценки. Большинство современных бенчмарков поощряют угадывание. Модели, по сути, постоянно находятся в режиме сдачи экзамена, где за правильный ответ дают 1 балл, а за пустой бланк или ответ я не знаю - 0. В такой системе оптимальная стратегия при неуверенности - только угадать. Любой шанс на правильный ответ лучше, чем гарантированный ноль.
Эту гипотезу подтвердили анализом популярных оценочных наборов.
В GPQA, MMLU-Pro, Omni-MATH, SWE-bench и HLE используется строго бинарная система оценки (правильно/неправильно). Возможности получить частичный балл за честное признание в незнании там просто нет. Из 10 рассмотренных в исследовании популярных бенчмарков только один, WildBench, присуждает частичные баллы за ответы формата я не знаю. Остальные же фактически наказывают модель за отказ галлюцинировать, создавая эпидемию штрафов за неуверенность и поощряя ее выдавать правдоподобную ложь.
OpenAI предлагает встраивать явные целевые уровни уверенности в рубрики, вводить поведенческую калибровку и оценивать модели по секциям с разными порогами уверенности.
Еще рекомендуют включают мониторинг singleton-rate на корпусе, измерение вероятности важных ответов, комбинирование RAG с верификацией фактов и изменение лидербордов чтобы ответы я не знаю не штрафовались автоматически.
#AI #ML #LLM #Research #OpenAI
Please open Telegram to view this post
VIEW IN TELEGRAM
❤17👍13🔥6
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
Без официального анонса стала доступна новая ИИ-модель Polaris Alpha с контекстным окном до 256 тыс. токенов. Она описывается как универсальный инструмент для генерации кода и выполнении инструкций. Модель была запущена для сбора обратной связи от пользователей.
В технических сообществах предполагают, что Polaris Alpha может быть тестовой версией GPT-5.1 от OpenAI. Эту гипотезу подкрепляют отзывы первых пользователей, отмечающих крайне низкий уровень галлюцинаций и стиль ответов, характерный для GPT. Сама Polaris Alpha на прямой вопрос о своей связи с GPT-4 отвечает утвердительно.
По результатам бенчмарка EQ-Bench, производительность модели сопоставима с Claude-3.5-Sonnet. Доступ к Polaris Alpha открыт бесплатно через веб-интерфейс и API на OpenRouter.
openrouter.ai
Мустафа Сулейман, CEO Microsoft AI, анонсировал новую стратегию, основанную на концепции «гуманистического сверхинтеллекта» (HSI). Для работы над этим направлением создается специальное подразделение - MAI Superintelligence Team.
В отличие от идеи AGI, подход Microsoft предполагает создание узкоспециализированных и контролируемых систем для решения конкретных проблем человечества. Стратегия отказывается от гонки за ASI в пользу разработки практических технологий.
Цели HSI — добиться прорывов в медицине, поиск чистой энергии и создание персонализированных ИИ-ассистентов, избегая рисков создания автономных и неконтролируемых систем. По словам Сулеймана, это должно гарантировать, что самые топовые версии ИИ будут создаваться строго в интересах людей.
microsoft.ai
Google представила первый стабильный релиз опенсорсной утилиты Magika с полностью переписанным с нуля на Rust движком. Новая версия способна сканировать сотни файлов в секунду на одном ядре процессора, используя ONNX Runtime для инференса и Tokio для асинхронной обработки.
Количество поддерживаемых типов файлов было удвоено и теперь превышает 200. Добавилась поддержка актуальных форматов для Data Science и ML (Jupyter, PyTorch, ONNX), современных языков программирования (Swift, Kotlin, TypeScript, Zig) и DevOps-инструментов (Dockerfile, TOML, HCL). Разработчикам доступны обновленные модули для Python и TypeScript, а также новый нативный клиент командной строки.
opensource.googleblog.com
Крупнейший в мире контрактный производитель электроники в течение 6 месяцев начнет использовать человекоподобных роботов на своем заводе в Техасе. Роботы будут задействованы в сборке серверов для ИИ-систем. По словам CEO Янг Лю, это первый подобный опыт за более чем 50-летнюю историю Foxconn.
Этот шаг является частью стратегии по агрессивному расширению производства в Северной Америке. Компания, являясь ключевым поставщиком Nvidia, считает Северную Америку своим главным хабом по выпуску ИИ-серверов на ближайшие 3 года. Решение о роботизации принято для повышения эффективности производства, которое, по словам Лю, критически важно в сфере ИИ.
asia.nikkei.com
Сумит Чинтала, один из создателей и ключевых руководителей проекта PyTorch, объявил о своем уходе. Его последний рабочий день в компании - 17 ноября. Чинтала, проработавший у Цукерберга 11 лет, возглавлял PyTorch с момента его создания. За это время фреймворк стал индустриальным стандартом, заняв, по оценкам, более 90% рынка ИИ-разработки.
Свой уход он объяснил желанием после долгого отпуска заняться чем-то новым. По его словам, PyTorch достиг зрелости и стабильности, а сильная команда готова продолжать его развитие. Сам Чинтала планирует остаться активным участником open-source сообщества.
Soumith Chintala в сети X
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥12❤5👍3
Forwarded from Machinelearning
OpenAI выпустила GPT-5.1, сделав основной упор на интеллект и качество диалога.
Вместе с моделями OpenAI расширила возможности кастомизации тона ответов, добавив новые стили: «Профессиональный», «Откровенный» и «Необычный».
Обновление уже раскатывают на платных подписчиков, а доступ через API появится в ближайшие дни. Предыдущие версии GPT-5 останутся доступны в течение трех месяцев.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍3🗿2🔥1