Борис опять

В конце года я почти всегда чувствую потребность немного притормозить и попробовать сложить происходящее в голове в какую-то картину. В ML это особенно сложно: слишком много событий, новостей и технологий, которые накладываются друг на друга и быстро теряются в повестке.

У ребят из South HUB как раз будет эфир в котором они соберут за одним виртуальным столом людей, весь год принимавших решения, чтобы поговорить о них и контексте без прикрас.

❤25🔥17👍14👎85😢2

3.27K views12:51

Борис опять

Forwarded from South HUB

ML-шум, хайп и реальность: подводим итоги года

Перед эфиром знакомим ближе с гостями, кто будет подводить итоги года в Machine Learning. Они не наблюдали за индустрией со стороны, а прожили этот год изнутри, принимая сложные решения, создавая системы и мотивируя свои команды.

Александр Толмачёв, Chief Data Officer, ex-Ozon.
Превращает Machine Learning в прозрачный бизнес-эффект, понятный CEO и измеримый в деньгах.

Андрей Венжега, Head of Search & Recommendations, Avito.
Делает сложные ML-системы продуктами, которые реально улучшают пользовательский опыт и масштабируются без потери смысла.

Павел Пархоменко, Руководитель ML, AI и логистических сервисов, Яндекс.Лавка.
Масштабирует ML так, что он одновременно ускоряет бизнес, оптимизирует логистику и выдерживает нагрузку реального мира.

Андрей Кузнецов, Head of ML, Positive Technologies.
Cтроит устойчивые ML-системы и команды, которые стабильно работают в продакшене и выдерживают критические сценарии.

🗓 24 декабря, 13:00–14:00 (МСК)
📍 Telegram-канал South HUB

👍27❤20🔥15👎9

3.28K views12:56

Борис опять

#дайджест

Запоздалый Дайджест ML/AI за неделю 15 - 21 Декабря 2025

Google: Gemini Flash 3
Новая версия моей любимой модели. Дешевая и очень быстрая модель. По бенчмаркам удивительно хороша, сравнима и даже местами бьет Claude Sonnet 4.5 и GPT-5.2, из курьезного незначительно обходит Gemini 3 Pro на MMMU-Pro. Средняя скорость на artificialanalysis 200 т/с и все это при цене $0.50/$3 через API. Доступна везде как модель по умолчанию. Ну и как обычно Гугл раздает какие-то бесконечные лимиты на Flash версию.
Пробовать здесь
Блогпост

OpenAI: GPT Image 1.5
OpenAI обновили модель для генерации изображений, улучшили следование промптам, точность редактирования изображений, почти убрали желтизну. На Artificial Analysis Leaderboard заняла первое место с небольшим отрывом от Nano Banana Pro. Модель доступна в бесплатном тарифе и по API на 20% дешевле чем GPT Image 1.
Блогпост

Black Forest Labs: FLUX.2 [max]
Новая лучшая модель компании, занимает третье место на Artificial Analysis Leaderboard, между Nano Banana Pro и не Pro.
Из интересного, можно добавлять до 10 изображений контекста, также модель может брать данные из интернета для контекста по запросу, так что "нарисуй фото по координатам" будет работать еще лучше, даже с погодой.
Доступна по API 0.03$/MP
Попробовать здесь
Блогпост

Qwen: Qwen-Image-Layered
Opensource модель для декомпозиции картинок на слои как в фотошопе. Открывает новые возможности для контроля над редактированием изображений и построения пайплайнов. Примеры есть в блогпосте.
github, статья, попробовать здесь

Google: T5Gemma 2
Encoder-decoder модель от гугл. Модель представлена в трех размерах 270М, 1B, 4B. Расширили контекст до 128к токенов, 140 языков, мультимодальность. Модель уверенно обходит Gemma 3 тех же размеров.
Блогпост, Статья,
Kaggle, HF, Colab

Meta: SAM Audio, PE-AV
Meta создала инструмент для извлечения конкретного звука из видео, при этом указать на звук можно через таймкод где звук доминирует, текстовым промптом или кликом мышью на источник звука.
Блогпост, Код, Попробовать здесь

Также Meta релизнула энкодер на котором построен SAM Audio. Perception Encoder Audiovisual (PE-AV) объединяет аудио, видео и текст в единое пространство эмбеддингов. PE-AV доступна в шести чекпоинтах различного размера - от Small до Large.
Блогпост, Код, Модель

Nvidia: Nemotron 3
MoE модель с контекстным окном на 1М токенов, представлена в трех размерах: Nano (31.6B, активирует 3.6B), Super (~100B) и Ultra (~500B). Использует гибридную архитектуру Mamba-Transformer MoE. Nano превосходит GPT-OSS-20B и Qwen3-30B-A3B на популярных бенчмарках NVIDIA Nemotron. Доступна Nano. Super и Ultra обещают выпустить в первой половине 2026.
Блогпост, Статья, HF

❤9👎5👍1🔥1

2.9K views13:07

Борис опять

Португальская кухня момент

9❤5😢3👎1

3.03K views14:17

Борис опять

Выйду на улицу, отдохнуть от нейрослопа проклятого.

Улица:

66😢21❤5

3.14K views14:33

Борис опять

Forwarded from Фанклуб свидетелей Егора Коновалова (егористическая регрессия)

0:18

Media is too big

VIEW IN TELEGRAM

сегодня наконец дописал статью про то как я делал minimodal

контекст: modal.com это очень крутая серверлесс платформа для машинного обучения

было очень много всего сделано - точно такой же sdk, control plane который собирает образы, переправляет запросы воркерам (делать шедулер запросов было очень интимно), воркеры которые исполняют код в изолированных песочницах и возвращают результаты на сокетах. есть и батч операции, и стриминг, и все это вроде должно работать благодаря ретраям, DLQ и circuit breaker
ну и всякие удобные штуки типа секретов, вольюмов и вебпоинтов тоже поддерживаются

мне прям супер понравилось порисовать архитектуру неделю и заимплементить кучу штук которые прочитал за последние пару лет

читаем тут - distributedhatemachine.github.io/posts/modal
не читаем тут - github.com/wtfnukee/minimodal

❤12👍4🔥2

2.86K views22:43

Борис опять

Forwarded from ML Underhood

Alice AI VLM dev на MWS Vision Bench: что конкретно изменилось в модели (и вокруг неё)

Сегодня наша базовая визуально-языковая модель Alice AI VLM dev появились на втором месте в MWS Vision Bench с результатами Overall private test: 0,646 (img→text: 0,885, img→markdown: 0,776, Grounding: 0,060, KIE (JSON): 0,729, VQA: 0,781). Alice AI VLM dev — часть большой Alice AI VLM. Расскажем, как всё обучалось.

Инженеры Яндекса сумели добиться хороших результатов благодаря обучению модели не только под пользовательские сценарии, но и под бизнесовые. Внутри компании используют VLM для автоматизации документооборота, разметок и многого другого. На этих доменах модель обучается как на стадии претрейна, так и на стадии алайнмента.

В сценарии «картинка + вопрос» качество упирается не только в генерацию ответа, но и в то, как модель видит изображение, читает текст на нём и следует инструкции. В продакшене Alice AI VLM работает в связке: «называтель» извлекает объекты и строит их иерархию с учётом текстового запроса, а VLM‑рефразер маршрутизирует запрос либо в основной VLM‑генератор, либо в специализированные ветки (например, «решатель»), либо в Alice AI LLM. Alice AI VLM dev (она же базовая VLM) — это та же модель, которая работает в продакшене как «генератор» и «решатель», но обрабатывающая запросы пользователя напрямую, без предыдущих этапов.

Обучение VLM двухэтапное: на претрейне мультимодальное next‑token-обучение на большом корпусе, а на алайнменте — SFT + RL, где модель доводят до «ассистентского» поведения.

Претрейн

Увеличили Image‑encoder и размер картинки на входе без деградации — с 896×896 до 1024×1024. Благодаря этому выросло качество работы с деталями, вроде формул, таблиц, этикеток и дорожных знаков.

Также переформатировали OCR‑данные. Раньше в датасете часто встречались пары «картинка + весь распознанный текст», что хорошо помогало учить модель непосредственно на чтение, но этого было недостаточно для некоторых других сценариев. Например для задач на понимание логической и пространственной связи между блоками текста.

Теперь обучают VLM отвечать в разных форматах на OCR-данных: выписывая весь текст самостоятельно, выписывая координаты текста вместе с ним, используя текст внешнего OCR или напрямую отвечая на вопрос пользователя. Такой grounded‑OCR улучшает извлечение таблиц и списков, а также выполнение задач на поиск контента.

Объём претрейна увеличился с 400 миллиардов до 600 миллиардов токенов, а максимальную длину контекста целенаправленно проучили до 32 тысяч. Это позволяет обрабатыватьдлинные документы и несколько изображений в одном запросе.

Алайнмент

Раньше фотоинпут получался через дообучение поверх базовой VLM Яндекса: это давало продуктовые фичи, но обновления базовой модели требовали пересборки датасетов, а по пути могли проседать базовые навыки (OCR, следование некоторым инструкциям).

В последнем релизе сделали «Алису из коробки»: та же базовая VLM стала Alice AI VLM — моделью, отвечающей пользователю. А датасеты и метрики алайнмента объединили так, чтобы одновременно контролировать показатели как «технической» мультимодальности, так и продуктовой.

Отдельно перенесли сетап RL из текстовой Alice AI LLM. Теперь оптимизируют не только правильность, но и полноту, полезность и проактивность ответа. На потоковой корзине SbS новая версия выигрывает у предыдущей в 63% случаев.

Подробнее об обучении нашей VLM — читайте в соответствующем разделе технического отчёта. Там же можно узнать и об изменениях в других моделях семейства.

❤17👍11🔥11👎3

2.29K views12:31

Борис опять

getgpu.ru открывают ранний доступ к своей bare metal инфраструктуре для обучения в РФ от 299₽/GPU-час

Кластеры:
- A100 80GB и H100 80GB
- NVLink и InfiniBand для обмена данных
- 2 ТБ RAM и NVMe на 32 ТБ в каждом узле

Посмотреть подробности и забронировать слот можно на сайте: https://getgpu.ru

🔥8❤22

2.92K views16:03

Борис опять

Сейчас я уничтожу вашу продуктивность

Обнаружил для себя www.healthdata.org и ghdx.healthdata.org.

GBDS это проект University of Washington где можно посмотреть какой-то бездонный кладезь данных про здоровье с разбивкой по разным странам, способам измерения, возрастным группам, итд.

Для примера вот вам количество насильственных смертей в разных странах.

Ссылка на график: http://ihmeuw.org/7cmk

👍17❤11🔥5

2.91K views10:01

Борис опять

Что-то меня занесло в кроличью нору

Вот например какие у меня (мужчины 30 лет) наиболее вероятные способы умереть в случае переезда в разные страны.

США: передоз фентанилом
Англия: смерть от ножа
РФ: 😐
Португалия: спотнулся на скользкой плитке

http://ihmeuw.org/7cmq

❤2314

2.94K views10:15

Борис опять

Достиг новой вехи карьеры инфлюенсера: когда скамеры начинают продавать марафоны от твоего имени

Друзья, если что обучений по ИИ от Бориса не существует. Мы тут больше деградируем + пытаемся забыть

Но есть карьерные консультации

Upd: прям волна скама, много кому пишут, будьте осторожны

84❤6

2.85K viewsedited 11:27

Борис опять

Яндекс делает любопытный эксперимент по взаимодействию с ИИ ассистентами, называя их люменами. Это ИИ-помощники, которые не притворяются людьми.

Описывают их так:

Люмены скорее тотемные животные, деймоны из книжек Филипа Пулмана, они самостоятельны, обладают индивидуальной внешностью и при этом будут продолжениями своих хозяев.

Мы как-то все пришли к тому, что ЛЛМ притворяется человеком. Отсюда все мемы про шогготов. Не знаю что из этого получится, но мне кажется смело, что ребята пытаются перепридумать взаимодействие с ИИ.

Попробовать и записаться в лист ожидания можно здесь: lumen.yandex.ru

36👎19❤7🔥7👍4

2.8K views17:02

Борис опять

@neural_prosecco навайбкодила красивые итоги года для каналов

624 поста! Получается я посчу практически два раза в день

🔥25❤16👍6

1.93K views10:01

About

Blog

Apps

Platform