Технозаметки Малышева

Mistral выпустил OCR-модель третьего поколения

Mistral выкатил третье поколение OCR. Главный фокус — универсальность: одна модель для всех типов документов вместо зоопарка специализированных решений.

Ключевые цифры:
- 74% win rate над предыдущей версией
- $2 за 1000 страниц ($1 через Batch API - в 10+ раз дешевле конкурентов)
- 95-98% точность по языкам (китайский, восточноазиатские, европейские)
- Модель: mistral-ocr-2512

Где рвёт конкурентов (см. графики):
- Формы: 95.9% vs Azure 86.2%
- Рукописный текст: 88.9% vs Textract 72.4%
- Сложные таблицы: 96.6% vs Google DocAI 75.9%
- Исторические сканы: 96.7% — лидер

AWS Textract, Azure, Google DocAI, DeepSeek OCR — все позади, причём с заметным отрывом.

Техническая начинка:
- Markdown на выходе с HTML-таблицами (colspan/rowspan сохраняются)
- Извлечение встроенных изображений
- Устойчивость к артефактам сжатия, перекосам, низкому DPI

Один минус, - не оупенсорс.
Доступно через API и Document AI Playground (drag-and-drop интерфейс в Mistral AI Studio).
Т.е. конфиденциалку не пораспознаешь.

#Mistral #OCR #документы
———
@tsingular

🔥7⚡2❤1🤨11

2.15K views17:27

Технозаметки Малышева

🤖 Самые маленькие автономные роботы в мире — меньше крупинки соли

Команды Penn и UMich создали микророботов размером 200×300×50 микрометров, которые умеют думать, чувствовать и действовать самостоятельно.
Цена — 1 цент за штуку.

Почему это прорыв:
40 лет робототехника не могла преодолеть барьер в 1 мм.
На микромасштабе вода ощущается как смола — обычные "руки и ноги" не работают.

Как решили:
Вместо движения конечностями роботы создают электрическое поле, которое двигает ионы в растворе. Ионы толкают воду → робот плывёт. Никаких подвижных частей = месяцы работы без поломок.

Техническая начинка:
- Процессор + память + сенсоры на чипе меньше миллиметра
- Питание от света (LED) — 75 нановатт (в 100 000 раз меньше смарт-часов)
- Датчик температуры с точностью 0.3°C
- Уникальный адрес у каждого робота — можно загружать разные программы

Фишка: роботы "танцуют", чтобы передать данные — как пчёлы. Камера под микроскопом декодирует движения например в показания температуры.

Применение:
- Медицина: мониторинг здоровья отдельных клеток
- Производство: сборка микроустройств
- Координированные группы роботов для сложных задач

Платформа модульная — можно добавлять новые сенсоры и функции.

Не сразу понял где тут робот на фото.

#микророботы #нанотех #Penn #UMich
———
@tsingular

👀24🔥197❤3🤯2👾1

3.13K views17:43

Технозаметки Малышева

FunctionGemma - открытая 270M модель для работы с API

Google представил FunctionGemma — специализированную модель для вызова функций через структурированный вывод.

Основана на Gemma 2, обучена определять когда нужно использовать внешние инструменты и как правильно передавать параметры.

Открытые веса, Apache 2.0 лицензия.

HuggingFace

Бенчмарки показывают конкурентные результаты с GPT-4 на задачах function calling при значительно меньшем размере.

Google позиционирует это как шаг к надёжным агентам, которые умеют взаимодействовать с реальным миром через инструменты.

#FunctionGemma #Gemma #Google
———
@tsingular

✍5👍2❤1🆒1

1.97K viewsedited 17:37

Технозаметки Малышева

NVIDIA RTX Pro 5000: 72GB памяти на Blackwell

NVIDIA выпустила RTX Pro 5000 с архитектурой Blackwell - профессиональную карту с 72GB памяти.

Это удвоение против предыдущего поколения Ada, что критично для больших языковых моделей и сложных визуальных сцен.

Предназначена для офисных рабочих станций для ИИ-разработки, 3D-рендеринга и научных симуляций.

Blackwell принёс не только объём, но и производительность: пятое поколение тензорных ядер ускоряет инференс трансформеров в разы.

Теперь локальный запуск 70B моделей становится реальностью для обычных офисов, а не только для дата-центров.

Интересно что по цене будет, когда до нас доедет.
И будут ли их отключать по геолокации, как H200, например.

#NVIDIA #Blackwell #RTX5000
———
@tsingular

👍8⚡6👨‍💻3😐1

1.94K views17:43

Технозаметки Малышева

OpenAI представила GPT-5.2-Codex — новую модель для программирования и кибербезопасности

Модель является развитием линейки GPT-5.2 с дополнительной оптимизацией для работы в среде Codex.

Ключевые улучшения включают сжатие контекста для длительных сессий, более надёжную обработку крупных задач по рефакторингу и миграции кода, улучшенную поддержку Windows, а также значительно усиленные возможности в кибербезопасности.

При этом OpenAI признаёт риски двойного назначения: те же возможности могут использовать и злоумышленники.

Модель демонстрирует лучшие результаты на бенчмарках SWE-Bench Pro (56,4%) и Terminal-Bench 2.0 (64%), опережая предыдущие версии.

Улучшенное визуальное восприятие позволяет точнее работать со скриншотами, схемами и макетами интерфейсов.

GPT-5.2-Codex уже доступен платным пользователям ChatGPT через Codex, доступ через API планируется в ближайшие недели.

#OpenAI #Codex #cybersecurity
———
@tsingular

👍4❤3✍2

2.12K views18:03

Технозаметки Малышева

Google подаёт в суд на SerpApi за массовый скрейпинг

Google затеял судебный процесс против SerpApi — сервиса, который парсил результаты поиска и продавал доступ через API.

Обвинения: нарушение условий использования, обход технической защиты и миллионы запросов с поддельных аккаунтов.

SerpApi превращал публичные результаты поиска в коммерческий продукт,- разработчики платили за структурированные данные вместо того, чтобы скрейпить самим.

Ирония в том, что Google сам вырос на парсинге всего интернета.

Будем надеяться tavily делает все легально и их похожая история не коснется.

#Google #SerpApi #Scraping
———
@tsingular

👍6🤔42❤1

1.9K views07:29

Технозаметки Малышева

Forwarded from Machinelearning

📌

Итоги года от Андрея Карпаты.

2025 год был захватывающим годом для языковых моделей.

Они проявились как новый вид интеллекта, одновременно гораздо более умный и гораздо более глупый, чем я ожидал. Я думаю, что индустрия не реализовала хотя бы 10% их потенциала даже при нынешних возможностях.

Я одновременно верю и в то, что мы увидим быстрый и непрерывный прогресс, и в то, что впереди еще очень много работы.

Пристегнитесь.

🟡

Обучение с подкреплением на основе проверяемых вознаграждений (RLVR)

В 2025-м стек обучения LLM дополнился новой ключевой стадией оптимизации по объективным наградам. Он заставляет модели самостоятельно находить стратегии рассуждения.

Прогресс года в том, что создание моделей стало не про увеличение размера модели, а про более длительные RLVR-прогоны.

Это также дало новый рычаг управления: "время размышления" на инференсе. Первопроходец - OpenAI o1, а переломный момент - o3.

🟡

Интеллект современных LLM принципиально отличен от человеческого

Интеллект LLM формируется под давлением специфических оптимизаций и на выходе мы имеем резкие всплески способностей в рядом с грубыми ошибками.

Из-за этого бенчмарки теряют смысл: под них напрямую оптимизируются, что не ведёт к созданию AGI.

🟡

Cursor - это новый слой LLM-приложений

Это не просто интерфейс к условной модели, а сложная оркестрация работы LLM под конкретные вертикали, c управляемым контекстом, вызовами и интерфейсом.

Cursor создаёт отдельную ценностную прослойку между LLM-лабораториями и конечными пользователями.

🟡

Claude Code

В отличие от облачных агентов, он использует ваши данные, контекст и инструменты для ризонинга и вызова инструментов.

Его фишка - в низкой задержке, приватности и глубокой интеграции в рабочее окружение. Это сдвиг от ИИ как «сайта» к напарнику-помощнику в вашей системе.

Я думаю, OpenAI допустили ошибку, сосредоточив свои усилия по созданию агентов в облаке и управляемых из ChatGPT, вместо localhost.

🟡

Вайб-кодинг

В 2025 году ИИ преодолел порог, позволяющий через текстовые инструкции создавать работающие программы.

Это демократизирует программирование, позволяя непрофессионалам писать код, а экспертам - быстро прототипировать без глубокого погружения.

Код становится эфемерным, гибким и бесплатным ресурсом.

Забавно, что я придумал термин «вайб-кодинг» в этом твите с мыслями из душа, совершенно не представляя, как далеко это зайдет :)

🟡

LLM GUI и Nano banana

Взаимодействие с ИИ через чат - это аналог командной строки 80-х, неудобный для человека.

Будущее за LLM GUI интерфейсом, где ИИ общается визуально (инфографика, анимации, веб-приложения).

Nano banana - ранний пример такого взаимодействия, в ней объединены генерация текста, изображений и общие знания.

Google Gemini Nano banana — одна из самых невероятных, меняющих парадигму моделей 2025 года.

🔜

Читать статью полностью

@ai_machinelearning_big_data

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7❤3⚡1

1.73K views09:54

Технозаметки Малышева

«300 практик применения ИИ»: результаты, кейсы, мнения

А вот и полная презентация вышла.

«Компьютерра» провела исследование внедрений ИИ в российских компаниях и госструктурах.

Главный вывод: ИИ перестал быть игрушкой и стал частью операционного контура.

Цифры:
- 300 кейсов: 73% бизнес, 27% госсектор
- 22 отрасли — от ИТ до ЖКХ и экологии
- Лидеры: ИТ/телеком (15.3%), медицина (13%), финансы (11%), промышленность (10.7%)
- Средний проект: 5.5 месяцев, 12 млн ₽

Что внедряют:
- СППР (системы поддержки принятия решений),- лидируют везде
- Компьютерное зрение,- промышленность, безопасность
- NLP,- документооборот, поддержка
- GenAI,- финсектор экспериментирует активнее всех (22% кейсов)

Зачем:
- Снижение затрат (20.7%)
- Борьба с человеческим фактором (18.4%)
- Обработка неструктурированных данных (13.8%)

Результаты:
- 63.4% — ожидания оправдались
- 17.1% — результат превзошёл прогнозы
- Каждый третий проект дал прямой финансовый эффект

Барьеры:
- Качество данных и неясность метрик (по 15.4%) — главные стоп-факторы
Мешают не технологии, а организация

Ключевой тренд 2025: переход от «умного поиска» к автономным ИИ-агентам.

#компьютерра #аналитика
———
@tsingular

✍6⚡2❤‍🔥21

3.3K viewsedited 10:09

Технозаметки Малышева

0:17

This media is not supported in your browser

VIEW IN TELEGRAM

В Питер завезли вайбкодеров из Индии.

#новости #юмор
------
@tsingular

✍12👻8😁4👨‍💻4❤21

2.75K views10:26

Технозаметки Малышева

0:19

Media is too big

VIEW IN TELEGRAM

🎮 NitroGen: модель для игровых AI-агентов

Команда из NVIDIA, Stanford и Caltech обучила универсального игрового агента на 40,000 часов геймплея с 1,000+ игр.

Модель способна играть в новые игры без дообучения.

Оцифровали действия из публичных YouTube-видео через оверлеи геймпадов (те картинки контроллера, которые стримеры показывают в углу экрана).

500M параметров (архитектура GR00T + flow-matching)
Action-RPG — 34.9%, Platformers — 18.4% датасета
846 игр с 1+ часом данных, 15 игр с 1000+ часов

Почему важно:
Это первый серьёзный подход к масштабированию embodied AI.

Игровые RL-агенты (StarCraft, Dota) — узкоспециализированные и дорогие. LLM-подходы требуют ручных API.

NitroGen учится напрямую из пикселей → действия.

Датасет, бенчмарк и веса — в открытом доступе.
Paper
HuggingFace
GitHub

#NVIDIA #Games #NtroGen
———
@tsingular

🔥4✍1⚡1

1.89K views11:19

Технозаметки Малышева

This media is not supported in your browser

VIEW IN TELEGRAM

0:35

This media is not supported in your browser

VIEW IN TELEGRAM

Немного танцующих роботов вам в ленту :)

DeepRobotics DR02 в промо
Unitree на концерте в подтанцовке
PNDbotics Adam в лаборатории

#роботы #танцы
------
@tsingular

🔥7🆒2👾2❤1

2.69K views12:38

Технозаметки Малышева

Forwarded from Denis Sexy IT 🤖

Тут легенда ML-индустрии, ученый Эндрю Нг, сходил в Стэнфорд и поделился своим мнением про АИ и карьеру инженеров – видео длинное и я советую смотреть его, но вот топ-10 советов оттуда:

1. Держите рабочие AI-инструменты “свежими”: отставание быстро превращается в потерю продуктивности.
Сейчас выбор среды/ассистента для кода реально влияет на скорость и качество. Если вы используете инструменты на поколение старее, вы часто просто делаете ту же работу дольше и тяжелее

2. Код стал дешевле - дороже стало “решить, что строить” и “описать это четко”.
Когда написать код проще, узкое место смещается в постановку задачи: сформулировать цель, ограничения, критерии успеха, сценарии использования. То есть не “как закодить”, а “что именно нужно получить и как проверить, что получилось”

3. Умение разговаривать с пользователями - это ускоритель разработки, а не “софт-скилл ради галочки”.
Те, кто умеют сами собрать обратную связь, понять боль пользователя и быстро уточнить требования, двигаются быстрее, потому что меньше зависят от “переводчиков” между инженерами и рынком

4. Выбирайте работу по команде и людям, а не по “громкости бренда”. И требуйте ясности по команде заранее.
Если компания не готова сказать, в какую команду вы попадёте и что будете делать (или просит “сначала подпиши, потом разберёмся”), это риск: можно оказаться на задачах, которые не развивают вас в AI-направлении

5. Сделайте портфолио так, чтобы оно “рулило” интервью: пусть вас спрашивают про ваш проект, а не про случайные загадки.
Сильная тактика: собрать проект(ы), максимально похожие на будущую работу, и описать решения, компромиссы, метрики. Тогда интервью превращается в обсуждение реальной инженерии, где вы сильнее

6. Интервью - это проверка “командности под стрессом”, а не только IQ и алгоритмов.
Совет из истории: “стой на своём” можно, но без агрессии. Когда вам указывают на баг/угол, правильная реакция - совместно улучшать решение, а не защищаться как в споре

7. Код, сгенерированный AI, почти всегда приносит “долг по обслуживанию”: думайте как финансист.

Смысл простой: любой код потом надо сопровождать

Хороший “долг” - быстрый прототип, который приносит проверенную пользу/знания и окупает поддержку

Плохой “долг” - нагенерили “что-то крутое”, но никто не понимает, зачем, как работает и как чинить.
Важная мысль: выкинуть прототип - нормально, поддерживать непонятную кашу - дорого

8. Сейчас ценится не “сделал модель”, а “довёл до боевого использования”.
То есть: качество, надёжность, мониторинг, задержки, стоимость, безопасность, удобство для пользователя. На рынке сильный сигнал - умение доводить до работающего продукта, а не до демо

9. Станьте человеком, который переводит хайп в реальность: начните с вопроса “зачем?”.
Соцсети поощряют вовлечённость, а не точность. Поэтому трендовые слова (“агенты”, “всё заменим AI”) легко уводят в сторону. Практичный подход: сначала “зачем бизнесу?”, “какой показатель улучшаем?”, “что будет считаться успехом?” - и уже потом выбирать технологию

10. Готовьтесь к двум параллельным траекториям: большие облачные модели и небольшие локальные модели “у себя”.
В одних задачах будут доминировать мощные модели “как сервис”. В других (где важны приватность, IP, контроль, стоимость) - модели, которые разворачивают внутри компании. Полезные навыки на стыке: настройка под задачу (fine-tuning/адаптация), развёртывание, ограничения по данным, безопасность и эксплуатация.

Ну, база, что скажешь еще

YouTube

Stanford CS230 | Autumn 2025 | Lecture 9: Career Advice in AI

For more information about Stanford’s Artificial Intelligence professional and graduate programs, visit: https://stanford.io/ai

November 18, 2025
This lecture covers career advice and a guest speaker.

To learn more about enrolling in this course, visit:…

❤11✍7🔥5⚡4👍2💯1

1.98K views12:47

Технозаметки Малышева

0:15

This media is not supported in your browser

VIEW IN TELEGRAM

Интересный пример использования нейрорендера для анимации ремонта.

Чисто Нанобанана послойно, ничего лишнего.

#нейрорендер
------
@tsingular

🔥49⚡8✍5

2.22K views17:27

Технозаметки Малышева

Gallup: 45% американцев используют ИИ на работе

Опрос 23 тысяч сотрудников в США показал рост использования искусственного интеллекта в работе с 40% до 45% за квартал.
Ежедневно применяют только 10%, остальные - пару раз в год.

Основные сценарии:
- 42% - собрать информацию
- 41% - сгенерить идеи
- 36% - изучить что-то новое

Инструменты:
- 61% - чатботы
- 36% - редактирование текстов
- 14% - помощники для кода

Сотрудники технологических (76%) и финансовых (58%) компаний лидируют, ритейл и производство отстают (33-38%).

Интересный момент: 23% сотрудников вообще не в курсе, внедрила ли их компания искусственный интеллект официально. :)

Это значит многие юзают личные инструменты типа ChatGPT без ведома руководства. (привет shadow AI)

#Gallup #ShadowAI #аналитика
———
@tsingular

✍8❤2

2.11K views09:26

Технозаметки Малышева

NOAA запустила ИИ-модели прогноза погоды на базе GraphCast

Метеослужба США развернула три модели:
AIGFS (базовый прогноз), AIGEFS (ансамбль сценариев) и гибридную HGEFS, объединяющую 31 физическую и 31 нейросетевую модель.

⚡️Ключевая цифра: прогноз на 16 дней теперь потребует всего 0.3% вычислительных ресурсов традиционной GFS и выполняется за 40 минут на одной A100.

В основе,- GraphCast от DeepMind, дообученный на данных NOAA GDAS с разрешением 0.25°.

Траектории тропических циклонов стали точнее на 5-6 дней упреждения.

Гибридный ансамбль HGEFS из 62х модулей превосходит обе системы по большинству метрик: комбинированный анализ даёт ещё более высокую точность.

Скоро как в "Назад в будущее 2" прогноз погоды в реальном времени с точностью до секунды будем считать.

#NOAA #GraphCast #Weather
———
@tsingular

✍9⚡4❤2

2.36K views13:58

About

Blog

Apps

Platform