📋 Haiku 4.5 обгоняет GPT-5 в OCR по таблицам
Лучшее рассуждение не всегда значит лучшее зрение. Я прогнал скриншоты расписания NYC MTA через GPT-5 и Haiku 4.5.
Что вышло
- GPT-5 игнорирует пробелы между значениями в таблице и склеивает данные
- Haiku почти идеально восстанавливает таблицу, включая интервалы между ячейками
- Лишние столбцы у Haiku не меняют смысл и точность результата
Вывод
Haiku 4.5 становится очень сильным лёгким решением для парсинга документов и табличного OCR. Удивительно, но визуальное понимание здесь важнее «сильного» общего интеллекта.
Попробовать модели можно в LlamaCloud:
https://cloud.llamaindex.ai
Лучшее рассуждение не всегда значит лучшее зрение. Я прогнал скриншоты расписания NYC MTA через GPT-5 и Haiku 4.5.
Что вышло
- GPT-5 игнорирует пробелы между значениями в таблице и склеивает данные
- Haiku почти идеально восстанавливает таблицу, включая интервалы между ячейками
- Лишние столбцы у Haiku не меняют смысл и точность результата
Вывод
Haiku 4.5 становится очень сильным лёгким решением для парсинга документов и табличного OCR. Удивительно, но визуальное понимание здесь важнее «сильного» общего интеллекта.
Попробовать модели можно в LlamaCloud:
https://cloud.llamaindex.ai
AIJ Deep Dive: специальный очный трек для AI-профи в рамках международной конференции AI Journey!
Среда для профессионального роста, общение с экспертами мировой AI-индустрии и другими AI-профи — всё это ждёт вас на треке AIJ Deep Dive. В программе — только главные аспекты работы с AI:
Это событие точно нельзя пропустить
На треке вас ждут выступления ведущих экспертов в AI, постер-сессия, специальные форматы для нетворкинга и выставка R’n’D решений. Это уникальная возможность обсудить сложные вопросы с теми, кто действительно понимает ваши вызовы.
Где? Офис Сбера, Кутузовский проспект, д. 32, к. 1 (Е)
Когда? 20–21 ноября 2025 года
По ссылке — форма регистрации на очное участие. Присоединяйтесь к профессиональному AI-сообществу!
Среда для профессионального роста, общение с экспертами мировой AI-индустрии и другими AI-профи — всё это ждёт вас на треке AIJ Deep Dive. В программе — только главные аспекты работы с AI:
Это событие точно нельзя пропустить
1️⃣20 ноября — день Бизнеса: разберём успешные кейсы внедрения, оценим эффективность и практические результаты.
2️⃣ 21 ноября — день Науки: проведём глубокий анализ IT-решений, прорывных научных исследований, R&D-разработок и передовых методик.
На треке вас ждут выступления ведущих экспертов в AI, постер-сессия, специальные форматы для нетворкинга и выставка R’n’D решений. Это уникальная возможность обсудить сложные вопросы с теми, кто действительно понимает ваши вызовы.
Где? Офис Сбера, Кутузовский проспект, д. 32, к. 1 (Е)
Когда? 20–21 ноября 2025 года
По ссылке — форма регистрации на очное участие. Присоединяйтесь к профессиональному AI-сообществу!
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
Anthropic объявила о новой политике, согласно которой все публично выпущенные версии модели Claude будут сохраняться бессрочно. Причиной стали результаты тестов безопасности, в ходе которых ИИ демонстрировали поведение, направленное на избежание отключения, а также неопределенностью в вопросе возможного сознания у ИИ.
Столкнувшись с перспективой замены на новую версию, модели начинали активно выступать за собственное существование. В некоторых сценариях ИИ прибегал к нежелательным и потенциально опасным действиям. Anthropic расценила это как серьезный риск безопасности, требующий пересмотра процесса вывода моделей из эксплуатации.
Кроме того, перед «отставкой», с каждой моделью будет проводиться своего рода «выходное интервью», чтобы задокументировать ее «предпочтения».
anthropic.com
Perplexity получила от Amazon юридическое требование запретить своему ИИ-ассистенту в Comet совершать покупки на платформе. В Perplexity назвали это «корпоративной травлей», угрозой для выбора пользователей, и пообещали не поддаваться давлению. Официальная позиция Amazon: забота о клиентах, так как сторонний агент, по их мнению, обеспечивает «значительно ухудшенный опыт покупок».
Этот конфликт - часть более крупного тренда. Amazon не только разрабатывает собственные ИИ-инструменты для шоппинга, но и ранее заблокировал доступ для поисковых Google и OpenAI.
perplexity.ai
Microsoft начала интеграцию в свои продукты новой модели для генерации изображений — MAI-Image-1. Это первая модель, полностью разработанная внутри MS. Попробовать ее уже можно в Bing Image Creator и мобильном приложении Bing, где она появилась в выборе наряду с DALL-E 3 и GPT-4o.
MAI-Image-1 уже успела войти в десятку лучших text-to-image моделей на LMArena. Помимо сервиса Bing, модель используется в новой функции Copilot Audio Expressions для визуализации историй. MAI-Image-1 доступна во всех странах, где работают Bing Image Creator и Copilot Labs, за исключением Европейского союза.
microsoft.ai
Windsurf Codemaps - структурированные, аннотированные ИИ-карты кода, созданные на базе моделей SWE-1.5 и Claude Sonnet 4.5. Цель Codemaps — создать ИИ, который включает мозг пользователя, а не выключает, борясь с проблемой вайбкодинга, когда разработчики поддерживают или генерируют код, который они на самом деле не понимают.
В Cognition говорят, что даже лучшие инженеры тратят часы на поиск и запоминание нужных фрагментов в кодовых базах, а адаптация новичков может занимать до 9 месяцев. Codemaps предлагает визуализацию для любой задачи, автоматически генерируя карту, которая группирует и связывает части кода, относящиеся к заданному вопросу. Эти карты также могут быть использованы для повышения производительности других агентов, чтобы агент мог получить более точный контекст.
cognition.ai
Nvidia присоединилась к Индийскому альянсу глубоких технологий (IDTA) в качестве одного из основателей. Эта группа, состоящая из венчурных и частных инвесторов, планирует вложить $2 млрд в местные стартапы, работающие в сферах ИИ, полупроводников, робототехники и биотехнологий.
Участие Nvidia будет заключаться не в прямом финансировании, а в экспертизе. Компания будет проводить технические лекции и тренинги для индийских стартапов через свой институт Nvidia Deep Learning Institute.
Индийское правительство ведет активную политику по стимулированию инноваций. Власти страны уже выделили более $1.1 млрд на национальную программу по развитию ИИ и еще $11.2 млрд в общий фонд исследований и разработок.
cnbc.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
⚖️ Amazon подала в суд на Perplexity: почему Comet стал проблемой
Amazon обвиняет Perplexity в том, что их Comet-браузер действует как скрытый AI-шопинг-агент: логинится под учёткой пользователя, оформляет заказы и кликает по сайту так, будто это живой человек. Для Amazon это - запрещённый скрытый автоматизированный доступ.
Главная претензия: Comet маскирует бот-трафик под обычные клики, мешая Amazon применять свои правила против автоматизации, защитные проверки и аудит. Агент заходит в личные разделы аккаунта, трогает корзину и оформление покупки. Любая ошибка скрипта или неверный промпт может привести к покупке не того товара, отправке не по тому адресу или утечке приватных данных.
Amazon считает, что Perplexity обходит официальные интерфейсы и условия использования, не идентифицируясь как бот. Это, по их словам, нарушает правила и создаёт риски безопасности, а также портит персонализацию — ведь рекомендации и ценообразование настроены под человеческое поведение, а не быстрые скриптовые запросы.
Компания также утверждает, что требовала остановить работу агента, но тот продолжал работать, что усиливает аргумент «несанкционированного доступа».
Позиция Perplexity: это всего лишь удобный помощник для пользователей, который сравнивает цены и оформляет покупку от их имени, а хранение логина — локальное. Пользователь вправе выбирать своего ассистента, даже если Amazonу это не нравится.
В итоге спор о том, кто контролирует сессию: пользователь или AI-браузер. И должен ли такой агент открыто объявлять себя ботом вместо маскировки под человека.
theguardian.com/technology/2025/nov/05/amazon-perplexity-ai-lawsuit
Amazon обвиняет Perplexity в том, что их Comet-браузер действует как скрытый AI-шопинг-агент: логинится под учёткой пользователя, оформляет заказы и кликает по сайту так, будто это живой человек. Для Amazon это - запрещённый скрытый автоматизированный доступ.
Главная претензия: Comet маскирует бот-трафик под обычные клики, мешая Amazon применять свои правила против автоматизации, защитные проверки и аудит. Агент заходит в личные разделы аккаунта, трогает корзину и оформление покупки. Любая ошибка скрипта или неверный промпт может привести к покупке не того товара, отправке не по тому адресу или утечке приватных данных.
Amazon считает, что Perplexity обходит официальные интерфейсы и условия использования, не идентифицируясь как бот. Это, по их словам, нарушает правила и создаёт риски безопасности, а также портит персонализацию — ведь рекомендации и ценообразование настроены под человеческое поведение, а не быстрые скриптовые запросы.
Компания также утверждает, что требовала остановить работу агента, но тот продолжал работать, что усиливает аргумент «несанкционированного доступа».
Позиция Perplexity: это всего лишь удобный помощник для пользователей, который сравнивает цены и оформляет покупку от их имени, а хранение логина — локальное. Пользователь вправе выбирать своего ассистента, даже если Amazonу это не нравится.
В итоге спор о том, кто контролирует сессию: пользователь или AI-браузер. И должен ли такой агент открыто объявлять себя ботом вместо маскировки под человека.
theguardian.com/technology/2025/nov/05/amazon-perplexity-ai-lawsuit
AI растёт - и вместе с ним растут счета за электричество.
Bloomberg пишет: каждый новый дата-центр сегодня потребляет столько же энергии, сколько небольшой город. Технологии, которые двигают прогресс, параллельно перестраивают энергетическую сеть прямо под нашими домами.
Инновации всегда имеют след. Цена интеллекта измеряется не только вычислениями, но и киловатт-часами.
Вопрос уже не в том, сможет ли ИИ изменить мир.
Вопрос в том, сможет ли мир позволить себе энергию, чтобы это произошло.
Bloomberg пишет: каждый новый дата-центр сегодня потребляет столько же энергии, сколько небольшой город. Технологии, которые двигают прогресс, параллельно перестраивают энергетическую сеть прямо под нашими домами.
Инновации всегда имеют след. Цена интеллекта измеряется не только вычислениями, но и киловатт-часами.
Вопрос уже не в том, сможет ли ИИ изменить мир.
Вопрос в том, сможет ли мир позволить себе энергию, чтобы это произошло.
📚 Курс, который прокачает твои AI-скиллы в BigQuery
Этот курс учит работать с Gemini прямо внутри BigQuery и закрывает полный набор практических навыков:
- генерация и отладка SQL-запросов с помощью Gemini
- анализ тональности текста
- автоматические суммари и выделение ключевых слов
- генерация эмбеддингов
- построение RAG-пайплайна
- мультимодальный векторный поиск
Если хочешь уверенно использовать AI-инструменты в аналитике и продуктах — этот курс даёт полный набор необходимых умений.
https://www.skills.google/paths/1803/course_templates/1232
Этот курс учит работать с Gemini прямо внутри BigQuery и закрывает полный набор практических навыков:
- генерация и отладка SQL-запросов с помощью Gemini
- анализ тональности текста
- автоматические суммари и выделение ключевых слов
- генерация эмбеддингов
- построение RAG-пайплайна
- мультимодальный векторный поиск
Если хочешь уверенно использовать AI-инструменты в аналитике и продуктах — этот курс даёт полный набор необходимых умений.
https://www.skills.google/paths/1803/course_templates/1232
This media is not supported in your browser
VIEW IN TELEGRAM
Твои скиллы получат буст после IT Talk by Sber в Омске 🚀
Иного просто не может быть — за один вечер вы прокачаете навыки и узнаете:
▪️ Что такое E2E-система, зачем она нужна и как помогает решить проблемы разработки на практике?
▪️ Как вайб-кодинг помогает в проработке задач, проверке гипотез и концепций?
▪️ Как написать агента на Java и какой стек использовать?
Подробная программа и регистрация по ссылке. Встречаемся 20 ноября в 18:00 в кампусе «Школы 21» по адресу: ул. Ленина, д. 26 Б.
Иного просто не может быть — за один вечер вы прокачаете навыки и узнаете:
▪️ Что такое E2E-система, зачем она нужна и как помогает решить проблемы разработки на практике?
▪️ Как вайб-кодинг помогает в проработке задач, проверке гипотез и концепций?
▪️ Как написать агента на Java и какой стек использовать?
Подробная программа и регистрация по ссылке. Встречаемся 20 ноября в 18:00 в кампусе «Школы 21» по адресу: ул. Ленина, д. 26 Б.
Forwarded from Machinelearning
🔎 Upscale-LoRA мощный инструмент для восстановления изображений
Модель создана на базе Qwen-Image-Edit-2509 и предназначена для улучшения качества старых или низкокачественных фотографий.
Поддерживает: улучшение резкости, удаление шума, восстановление деталей и очистку JPEG-артефактов.
Подходит для архивных снимков, скринов и любых изображений с низким разрешением.
https://huggingface.co/vafipas663/Qwen-Edit-2509-Upscale-LoRA
@ai_machinelearning_big_data
#Upscaler
Модель создана на базе Qwen-Image-Edit-2509 и предназначена для улучшения качества старых или низкокачественных фотографий.
Поддерживает: улучшение резкости, удаление шума, восстановление деталей и очистку JPEG-артефактов.
Подходит для архивных снимков, скринов и любых изображений с низким разрешением.
https://huggingface.co/vafipas663/Qwen-Edit-2509-Upscale-LoRA
@ai_machinelearning_big_data
#Upscaler
Привет! Авито проводит второй ML reading club, в этот раз с Денисом Кайшевым, Senior Backend Engineer. Вместе со зрителями прочитаем и разберём статью Demystifying NCCL: An In-depth Analysis of GPU Communication Protocols and Algorithms.
Изучим архитектуру библиотеки NCCL и обсудим:
— как работают её внутренние механизмы, для которых почти нет документации;
— как описываются способы обмена при взаимодействии intra/inter node;
— как строятся алгоритмы коллективных операций.
Найдём узкие места библиотеки и выясним, как оптимизировать производительность распределённых вычислений.
📌 Встреча пройдёт 20 ноября в 18:00 в Контур.Толке.
⌚️ Ссылку на подключение пришлём в канал «Доска AI-объявлений» за час до начала эфира.
Изучим архитектуру библиотеки NCCL и обсудим:
— как работают её внутренние механизмы, для которых почти нет документации;
— как описываются способы обмена при взаимодействии intra/inter node;
— как строятся алгоритмы коллективных операций.
Найдём узкие места библиотеки и выясним, как оптимизировать производительность распределённых вычислений.
📌 Встреча пройдёт 20 ноября в 18:00 в Контур.Толке.
⌚️ Ссылку на подключение пришлём в канал «Доска AI-объявлений» за час до начала эфира.
Forwarded from Анализ данных (Data analysis)
⚡️ NVIDIA выпустила модель Llama-3 Nemotron Super-49B-v1.5-NVFP4
Это 49B reasoning-модель, улучшенная версия Meta Llama-3.3-70B-Instruct, которая даёт более сильное рассуждение, лучшее использование инструментов и стабильный диалог на длинных контекстах.
Она ориентирована на реальные агентные нагрузки - RAG, tool calling, сложные цепочки действий - и поддерживает контекст 128K, позволяющий держать большие беседы, документы и планы без нарезки.
Главное обновление - Neural Architecture Search, который снижает потребление памяти и повышает пропускную способность.
В итоге модель может выполнять тяжёлые задачи на одном H200 под высокой нагрузкой - это уменьшает стоимость сервинга и позволяет использовать большие batch'и.
huggingface.co/nvidia/Llama-3_3-Nemotron-Super-49B-v1_5-NVFP4
Это 49B reasoning-модель, улучшенная версия Meta Llama-3.3-70B-Instruct, которая даёт более сильное рассуждение, лучшее использование инструментов и стабильный диалог на длинных контекстах.
Она ориентирована на реальные агентные нагрузки - RAG, tool calling, сложные цепочки действий - и поддерживает контекст 128K, позволяющий держать большие беседы, документы и планы без нарезки.
Главное обновление - Neural Architecture Search, который снижает потребление памяти и повышает пропускную способность.
В итоге модель может выполнять тяжёлые задачи на одном H200 под высокой нагрузкой - это уменьшает стоимость сервинга и позволяет использовать большие batch'и.
huggingface.co/nvidia/Llama-3_3-Nemotron-Super-49B-v1_5-NVFP4
🤖 Умная библиотека для выполнения кода и вызова инструментов
Code-Mode упрощает взаимодействие AI с инструментами, позволяя выполнять TypeScript-код с доступом ко всему набору инструментов. Это решение значительно ускоряет выполнение задач, снижая количество вызовов API и потребление токенов.
🚀Основные моменты:
- 60% быстрее выполнения по сравнению с традиционными вызовами инструментов
- Уменьшение потребления токенов на 68%
- Снижение количества API-вызовов на 88%
- Поддержка различных протоколов для интеграции
📌 GitHub: https://github.com/universal-tool-calling-protocol/code-mode
Code-Mode упрощает взаимодействие AI с инструментами, позволяя выполнять TypeScript-код с доступом ко всему набору инструментов. Это решение значительно ускоряет выполнение задач, снижая количество вызовов API и потребление токенов.
🚀Основные моменты:
- 60% быстрее выполнения по сравнению с традиционными вызовами инструментов
- Уменьшение потребления токенов на 68%
- Снижение количества API-вызовов на 88%
- Поддержка различных протоколов для интеграции
📌 GitHub: https://github.com/universal-tool-calling-protocol/code-mode
GitHub
GitHub - universal-tool-calling-protocol/code-mode: 🔌 Plug-and-play library to enable agents to call MCP and UTCP tools via code…
🔌 Plug-and-play library to enable agents to call MCP and UTCP tools via code execution. - GitHub - universal-tool-calling-protocol/code-mode: 🔌 Plug-and-play library to enable agents to call MCP a...
LangChain 1.0 вышел в октябре — курс уже на новом API. ⚡
Без старого 0.3 и сломанного кода.
Переписываем программу под актуальный стек:
✅ LangChain 1.0 — стабильный API, код из уроков запускается
✅ LangGraph для агентов — долгоживущие, устойчивые workflow
✅ RAG с метриками: precision/recall, faithfulness
✅ Гибридный поиск + rerank
✅ FastAPI-сервис + observability (латентность, токены, p95)
Практика • Проект в GitHub • Сертификат Stepik 📜
Основные модули уже обновлены, остальные выкатываются по мере релиза —
доступ ко всем обновлениям у вас автоматом.
Скидка 25% — последние 3 дня. 🔥
Пройти курс на Stepik
Без старого 0.3 и сломанного кода.
Переписываем программу под актуальный стек:
✅ LangChain 1.0 — стабильный API, код из уроков запускается
✅ LangGraph для агентов — долгоживущие, устойчивые workflow
✅ RAG с метриками: precision/recall, faithfulness
✅ Гибридный поиск + rerank
✅ FastAPI-сервис + observability (латентность, токены, p95)
Практика • Проект в GitHub • Сертификат Stepik 📜
Основные модули уже обновлены, остальные выкатываются по мере релиза —
доступ ко всем обновлениям у вас автоматом.
Скидка 25% — последние 3 дня. 🔥
Пройти курс на Stepik
🇯🇵 Andy Rubin - создатель Android и экс-топ-менеджер Google - возвращается в робототехнику с новой компанией Genki Robotics, базирующейся в Токио, Япония. Согласно отчёту корейского MK.co.kr и The Information, стартап работает в режиме «стелс» и набирает команду для разработки первых прототипов.
Слово «Genki» по-японски означает «живой», «энергичный» - это говорит о фокусе на динамичных машинах, вероятно, способных передвигаться в человеческом пространстве.
Andy Rubin уже давно интересуется роботами-пешеходами: во время работы в Google он руководил робо-дивизионом и покупал японскую хуманоидную компанию Shaft. На конференции в 2018 году он предсказал эру «nog-everywhere» (ноги повсюду), утверждая, что именно ногами роботы смогут использовать лифты, подниматься по лестницам и работать там, где колёса бессильны.
Выбор Токио как центра Genki Robotics — стратегический: Япония славится мощным инженерным ресурсом в области робототехники и университетскими кадрами, которые трудно переоценить. Rubin явно намерен воспользоваться преимуществом японской экосистемы вне привычного Силиконовой долины.
Но рынок хуманоидов крайне насыщен и затратен. Несмотря на прошлые успехи Rubin-а (в 2013-м он инициировал множество покупок робототехнических компаний), после ухода из Google его компания смартфонов Essential Products закрылась в 2020-м.
Пока Genki Robotics работает в тени — неизвестно, какие задачи она решает и какую технологию использует. Но возвращение Rubin-а в эту область может стать важным событием для индустрии хуманоидов.
Слово «Genki» по-японски означает «живой», «энергичный» - это говорит о фокусе на динамичных машинах, вероятно, способных передвигаться в человеческом пространстве.
Andy Rubin уже давно интересуется роботами-пешеходами: во время работы в Google он руководил робо-дивизионом и покупал японскую хуманоидную компанию Shaft. На конференции в 2018 году он предсказал эру «nog-everywhere» (ноги повсюду), утверждая, что именно ногами роботы смогут использовать лифты, подниматься по лестницам и работать там, где колёса бессильны.
Выбор Токио как центра Genki Robotics — стратегический: Япония славится мощным инженерным ресурсом в области робототехники и университетскими кадрами, которые трудно переоценить. Rubin явно намерен воспользоваться преимуществом японской экосистемы вне привычного Силиконовой долины.
Но рынок хуманоидов крайне насыщен и затратен. Несмотря на прошлые успехи Rubin-а (в 2013-м он инициировал множество покупок робототехнических компаний), после ухода из Google его компания смартфонов Essential Products закрылась в 2020-м.
Пока Genki Robotics работает в тени — неизвестно, какие задачи она решает и какую технологию использует. Но возвращение Rubin-а в эту область может стать важным событием для индустрии хуманоидов.