Борис опять
15.1K subscribers
1.44K photos
72 videos
30 files
1.48K links
life = curiosity + irreducible noise

Whois: https://xn--r1a.website/boris_again/3400

Лс: @btseytlin
Download Telegram
889👍1
Gemini 3 Pro бенчмарки простыми словами

- Очень большой рост на Humanity's Last Exam: это про решение очень сложных задач.
- Очень большой рост на Arc AGI 2: это про способность понимать правила задачи по парочке примеров и далее применять их в новых случаях.
- Большой рост по способностям понимать сложные изображения вроде скриншотов и графиков (бывшие коллеги из eBay обратите внимание).
- SWE-bench verified лишь незначительно отстаёт от Sonnet 4.5: это про способность решать реальные задачи по разработке софта. Короче модель на уровне Соннета.
- Большой рост по всему, что касается тулколлов и агентности. Особенно Vending Bench 2 выделяется — это про долгосрочное планирование.

Все стандартные бенчи типа MMMLU чуть-чуть выросли.

В общем большая ставка на агентность. Возможно на этой модели уже можно сделать какой-то рабочий computer use.

Выглядит как рост уровня того, что было при переходе от GPT-3.5 к GPT-4. Давно такого не было! Но подождем результатов на арене, SWE Rebench и прочих штуках, где нельзя оверфитнуться на тест
🔥554🤔2
Для тех кто не понимает почему когда у AWS проблемы пол интернета падает, объясняю. Это тоже самое как когда в России выпадает снег и весь транспорт встает как будто зимы раньше никогда не случалось
151😢10
Forwarded from epsilon correct
Nano Banana Pro

Новая бананья на основе Gemini 3 Pro (блогпост) с генерацией в 4k и очень очень хорошим следованием промпту. Выкатывается сегодня в Gemini app, AI studio, Vertex AI.
👍30
Cloud.​ru запустил в коммерческую эксплуатацию Evolution AI Factory — среду для создания решений на основе GenAI.

AI Factory состоит из шести взаимосвязанных сервисов для полного цикла работы с AI:
- Foundation Models — каталог открытых больших языковых моделей с доступом через OpenAI API.
- ML Inference — позволяет быстро развернуть модели из каталога HuggingFace, а также любые другие.
- Evolution Notebooks на базе Jupyter Lab — для экспериментов с машинным обучением и тестирования гипотез.
- ML Finetuning — для дообучения моделей под специальные задачи бизнеса.
- Managed RAG — для использования внутренних данных и повышения точности ответов моделей.
- AI Agents — для запуска агентов, самостоятельно выполняющих задач.

Теперь доступ ко всем сервисам предоставляется по доступным тарифам, с гарантированным уровнем сервиса (SLA), круглосуточной поддержкой и возможностью масштабирования нагрузки.

Представили цены на доступ к открытым большим языковым моделям из собственного каталога. Средняя цена составит составляет 35 рублей за входной и 70 за выходной миллион токенов.
👍1514🤔6
#дайджест

Дайджест ML/AI за неделю с 17 - 23 Ноября 2025

Экспериментальный пост! По двум причинам. Во-первых, тестирую сам формат дайджестов. Во-вторых, дайджест делал не я. Я люто ненавижу писать ссылко-посты (несмотря на то, что вижу в них пользу). Ну не получается у меня. Поэтому я заплатил за это человеку, а потом отредактировал. Так что это эксперимент по добавлению других людей по эту сторону канала. Оставляйте свой фидбек!

Google: Gemini 3 Pro.
Новое поколение Gemini, SOTA по всем бенчмаркам с значимым отрывом.
ARC-AGI-2 +13%, Humanity's Last Exam +11%.
Доступна бесплатно в Google AI Studio, при этом API модели обойдется на дороже на 20% чем у Gemini 2.5 Pro.
Карточка модели, Пробовать здесь, описание бенчмарков от меня.

Google: Nano Banana Pro.
модель для редактирования изображений на основе Gemini 3. Очень сильно прокачали консистентность и следование сложным промптам. Модель уже можно попробовать в Google AI Studio или приложении Gemini. Бесплатно дается 5 генераций в сутки через free-tier Gemini App.
Пробовать здесь, Блогпост модели

Снова Google: выпустили агентскую IDE Antigravity.
Google не просто так выкупали за $2.4b команду Windsurf и наконец выпустили свой аналог Cursor/Codex. Работает достаточно удобно, доступна Gemini 3 Pro. Можно попробовать бесплатно здесь.

xAI выпустили Grok 4.1.
Модель заняла первое место на LLM Arena. В карточке очень мало бенчмарков, показали только эмоциональный интеллект и creative writing, так что видимо модель оптимизирована под AI goth gf.
Карточка модели

OpenAI заменяет GPT-5.1-Codex на GPT-5.1-Codex-Max.
Сочувствуем если вы успели привыкнуть к старой модели за её долгую (6 дней) жизнь. Тоже небольшой рост бенчмарков, минорный апдейт.
Карточка модели

Tencent выпустила HunyuanImage 3.0.
Открытая мультимодальная MoE-модель на 80B параметров, 14B активных, по бенчам из собственной статьи обходит Nano Banana не pro.
Код здесь, попробовать здесь (надо выбирать почту для входа)

Qwen-2-VL-7B научили играть в Genshin Impact
Причем без использования RL. При этом модель показывает генерализацию и на другие гачи игры .
Летсплей от 7B модельки, Статья, разбор статьи в сиолошной

Half-Life 3
Не анонсировали :c
🔥35👎26👍9🤔41
Nanobana Pro конечно совсем не впечатляет. Все пишут, что она решает сложные задачи прямо на изображении. Но я попросил её добавить на мой ноут стартап который принесет мне миллиарды долларов и получил только эту картинку
151🤔12😢52👍1👎1
Forwarded from AI[ex]Time
Я больше не пишу прям про каждый релиз swe-rebench, просто знайте, что каждый месяц он стабильно обновляется и во вкладке Insights есть какие-то интересные наблюдения.

Но сейчас напишу – мы только что добавили Opus 4.5, чтобы наверняка проверить, что Anthropic вчера не соврали. И действительно, у нас он тоже занимает теперь первое место. Обратите еще внимание, как упала цена и потребление токенов по сравнению с Opus4 😘

Gemini 3 Pro на подходе.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
13🤔6
В IT компаниях бывает только две проблемы:

1. Команды общаются между собой слишком мало.
2. Команды общаются между собой слишком много.

Эта шутка доступна от грейда синьор и выше
12727🤔9👍1😢1
У меня есть бизнес идейка, послушайте, а что если...
51🔥33🤔21
Первый курс в магистратуре по ML если бы я был деканом.

Обязательные курсы:
- Просмотр аниме "Психо-паспорт"
- Угадывание содержания статей по абстрактам. Экзамен: определение китайских статей
- Скроллинг Твиттера

Курсы по выбору:
- Критика Юдковского в Интернете.
- Создание паблика с мемами про вагонетки и шогготов.
- Введение в рисование графиков экспонент.
- Прикладной слив персональных данных.
- Углубленное использование команды vllm serve.
- Основы создания бенчмарков с n=1.
- Введение в product-free стартапы с уклоном в AI safety.
- Подготовка резюме для Palantir.

Курсовая работа: Kaggle соревнование по построению кибергулага
15537😢13🔥11👎4👍2🤔2
https://x.com/iclr_conf/status/1994104147373903893

Произошел слив данных авторов и ревьюеров ICLR, а так же других конференций, которые работали через OpenReview.net

Организаторы ICLR попросили обращаться к ним в случае угроз и попыток подкупа, а так же обещали максимальное возмездие в случае использования слитой информации. Как будто это остановит желающих поквитаться с ревьюером #2

Готовимся к череде загадочных нападений в коридорах университетов
694🔥1
Мы сами создали этот мир
118😢168
Кент: могу пореферить в хорошее место

Куда он тебя реферит:
13910
Коротко о том почему в моей книге не будет ллмного текста

😱
Please open Telegram to view this post
VIEW IN TELEGRAM
123👍82🤔2
#дайджест

Дайджест ML/AI за неделю с 24 - 30 Ноября 2025

Anthropic: Claude Opus 4.5.
Opus 4.5 - SOTA на кодинг-бенчмарках и агентских задачах. Кроме того, цену модели снизили в 3 раза до $5/$25.
Карточка модели, swe-rebench.

Black Forest Labs: FLUX.2
Новый генератор изображений с Mistral 3 24B в качестве энкодера. Крепкий оупенсорс, немного слабее Nano Banana Pro, но дешевле.
Попробовать здесь, Веса, Блогпост, Технический блогпост

Safe Superintelligence Inc.: Илья
Илья Суцкевер в полуторачасовом интервью у Дваркеша Пателя. Илья считает что эпоха масштабирования закончилась и начинается эпоха ресерча.
Интервью, Основные тезисы

США: Genesis Mission
Правительство США увеличивает стратегические инвестиции в AI. В дополнение к уже существующей с начала года программы Stargate по строительству новой инфраструктуры, добавилась Genesis Mission. Программа консолидирует компьют, научные данные и экспертизу национальных лабораторий и предоставляет их AI компаниям с целью ускорения науки.
Более подробный пост, Документ - Разбор документа

DeepSeek: DeepSeekMath-V2
685B модель заточенная под решения математических олимпиад. Показывает себя на уровне Gemini Deep Think, выигравшем золото на IMO. Как этого добились можете прочитать в оригинальной статье, или для ленивых в разборе статьи.
Модель на HF

Tencent: HunyuanOCR 1B
1B мультимодальная VLM для OCR. Модель доступна на GitHub и Hugging Face, поддерживает 100+ языков и решает задачи от распознавания уличных вывесок до полного разбора документов с таблицами (HTML), формулами (LaTeX) и субтитров. На некоторых бенчах обходит даже Qwen3-VL-4B.
Репорт, Модель на HF

Microsoft: Fara-7B
Компактная открытая модель для автономного управления UI по скриншотам. Предсказывает координаты кликов и нажатия клавиш. 73.5% успеха на WebVoyager — выше GPT-4o!
Блог пост, Модель на HF

Meta: AdvancedIF Benchmark
Новый бенчмарк для тестирования многослойного следования инструкциям в LLM. В наборе — 1600+ промптов, каждый содержит 6 одновременных условий: формат, стиль, логические зависимости, запреты, перекрёстные ограничения и др. Проверяются как однократные ответы, так и управление через системные промпты и удержание контекста в длинных диалогах.
HF
🤔147👎64👍2
Когда благодаря сливу авторов и ревьюеров ICLR нашел виноватого в том, что ты ничего не можешь опубликовать
108😢10👍2
Посмотрел трансляцию Data Dojo от Яндекса. К слову, самурайских дуэлей там не было. Оказалось, что это встреча ML-сообщества с докладами. Вроде как ориентированная больше на начинающих в ML, но уровень докладов был не меньше, чем на конференциях для профессионалов.

Мне больше всего понравился первый доклад от Сергея Овчаренко про итоги года в мультимодальной генерации. В последнее время я больше всего занят книгой и выживанием без зарплаты, так что не успеваю за всем следить.

Из доклада узнал, что там творится в далекой от меня области звука. Я что-то слышал про аудио токены, но не знал, что всё шагнуло намного дальше. Оказывается, уже начинается тренд на голосовых агентов. То есть end-to-end аудио модель которая слушает запрос пользователя, делает ризонинг, дергает тулы и генерирует голосовой ответ вообще не проваливаясь в текст.

Вторая часть обзора была ближе к моей теме, про VLM. Главным трендом года, конечно, стало редактирование изображений: ChatGPT Image и Nanobanana, Qwen-Image и всё такое прочее.

Наиболее общий тренд — это omni-модели. Это даже не про частные попытки вроде Qwen2.5-Omni, а в целом про объединение разных модальностей в одной модели. Это видно на примере редактирования изображений, где мы перешли от простой генерации картинки по промпту к объединению инструкций и изображений. Это видно по Sora, Veo3 и другим вышедшим моделям генерации видео, которые делают видео и звук одной моделью. И видно по попыткам делать world models вроде Genie 3, генерирующим интерактивные миры и таким образом объединяющим команды пользователя и видеоряд.
👍2217🔥87