Forwarded from South HUB
ML-шум, хайп и реальность: подводим итоги года
Перед эфиром знакомим ближе с гостями, кто будет подводить итоги года в Machine Learning. Они не наблюдали за индустрией со стороны, а прожили этот год изнутри, принимая сложные решения, создавая системы и мотивируя свои команды.
Александр Толмачёв, Chief Data Officer, ex-Ozon.
Превращает Machine Learning в прозрачный бизнес-эффект, понятный CEO и измеримый в деньгах.
Андрей Венжега, Head of Search & Recommendations, Avito.
Делает сложные ML-системы продуктами, которые реально улучшают пользовательский опыт и масштабируются без потери смысла.
Павел Пархоменко, Руководитель ML, AI и логистических сервисов, Яндекс.Лавка.
Масштабирует ML так, что он одновременно ускоряет бизнес, оптимизирует логистику и выдерживает нагрузку реального мира.
Андрей Кузнецов, Head of ML, Positive Technologies.
Cтроит устойчивые ML-системы и команды, которые стабильно работают в продакшене и выдерживают критические сценарии.
🗓 24 декабря, 13:00–14:00 (МСК)
📍 Telegram-канал South HUB
Перед эфиром знакомим ближе с гостями, кто будет подводить итоги года в Machine Learning. Они не наблюдали за индустрией со стороны, а прожили этот год изнутри, принимая сложные решения, создавая системы и мотивируя свои команды.
Александр Толмачёв, Chief Data Officer, ex-Ozon.
Превращает Machine Learning в прозрачный бизнес-эффект, понятный CEO и измеримый в деньгах.
Андрей Венжега, Head of Search & Recommendations, Avito.
Делает сложные ML-системы продуктами, которые реально улучшают пользовательский опыт и масштабируются без потери смысла.
Павел Пархоменко, Руководитель ML, AI и логистических сервисов, Яндекс.Лавка.
Масштабирует ML так, что он одновременно ускоряет бизнес, оптимизирует логистику и выдерживает нагрузку реального мира.
Андрей Кузнецов, Head of ML, Positive Technologies.
Cтроит устойчивые ML-системы и команды, которые стабильно работают в продакшене и выдерживают критические сценарии.
🗓 24 декабря, 13:00–14:00 (МСК)
📍 Telegram-канал South HUB
👍27❤20🔥15👎9
#дайджест
Запоздалый Дайджест ML/AI за неделю 15 - 21 Декабря 2025
Google: Gemini Flash 3
Новая версия моей любимой модели. Дешевая и очень быстрая модель. По бенчмаркам удивительно хороша, сравнима и даже местами бьет Claude Sonnet 4.5 и GPT-5.2, из курьезного незначительно обходит Gemini 3 Pro на MMMU-Pro. Средняя скорость на artificialanalysis 200 т/с и все это при цене $0.50/$3 через API. Доступна везде как модель по умолчанию. Ну и как обычно Гугл раздает какие-то бесконечные лимиты на Flash версию.
Пробовать здесь
Блогпост
OpenAI: GPT Image 1.5
OpenAI обновили модель для генерации изображений, улучшили следование промптам, точность редактирования изображений, почти убрали желтизну. На Artificial Analysis Leaderboard заняла первое место с небольшим отрывом от Nano Banana Pro. Модель доступна в бесплатном тарифе и по API на 20% дешевле чем GPT Image 1.
Блогпост
Black Forest Labs: FLUX.2 [max]
Новая лучшая модель компании, занимает третье место на Artificial Analysis Leaderboard, между Nano Banana Pro и не Pro.
Из интересного, можно добавлять до 10 изображений контекста, также модель может брать данные из интернета для контекста по запросу, так что "нарисуй фото по координатам" будет работать еще лучше, даже с погодой.
Доступна по API 0.03$/MP
Попробовать здесь
Блогпост
Qwen: Qwen-Image-Layered
Opensource модель для декомпозиции картинок на слои как в фотошопе. Открывает новые возможности для контроля над редактированием изображений и построения пайплайнов. Примеры есть в блогпосте.
github, статья, попробовать здесь
Google: T5Gemma 2
Encoder-decoder модель от гугл. Модель представлена в трех размерах 270М, 1B, 4B. Расширили контекст до 128к токенов, 140 языков, мультимодальность. Модель уверенно обходит Gemma 3 тех же размеров.
Блогпост, Статья,
Kaggle, HF, Colab
Meta: SAM Audio, PE-AV
Meta создала инструмент для извлечения конкретного звука из видео, при этом указать на звук можно через таймкод где звук доминирует, текстовым промптом или кликом мышью на источник звука.
Блогпост, Код, Попробовать здесь
Также Meta релизнула энкодер на котором построен SAM Audio. Perception Encoder Audiovisual (PE-AV) объединяет аудио, видео и текст в единое пространство эмбеддингов. PE-AV доступна в шести чекпоинтах различного размера - от Small до Large.
Блогпост, Код, Модель
Nvidia: Nemotron 3
MoE модель с контекстным окном на 1М токенов, представлена в трех размерах: Nano (31.6B, активирует 3.6B), Super (~100B) и Ultra (~500B). Использует гибридную архитектуру Mamba-Transformer MoE. Nano превосходит GPT-OSS-20B и Qwen3-30B-A3B на популярных бенчмарках NVIDIA Nemotron. Доступна Nano. Super и Ultra обещают выпустить в первой половине 2026.
Блогпост, Статья, HF
Запоздалый Дайджест ML/AI за неделю 15 - 21 Декабря 2025
Google: Gemini Flash 3
Новая версия моей любимой модели. Дешевая и очень быстрая модель. По бенчмаркам удивительно хороша, сравнима и даже местами бьет Claude Sonnet 4.5 и GPT-5.2, из курьезного незначительно обходит Gemini 3 Pro на MMMU-Pro. Средняя скорость на artificialanalysis 200 т/с и все это при цене $0.50/$3 через API. Доступна везде как модель по умолчанию. Ну и как обычно Гугл раздает какие-то бесконечные лимиты на Flash версию.
Пробовать здесь
Блогпост
OpenAI: GPT Image 1.5
OpenAI обновили модель для генерации изображений, улучшили следование промптам, точность редактирования изображений, почти убрали желтизну. На Artificial Analysis Leaderboard заняла первое место с небольшим отрывом от Nano Banana Pro. Модель доступна в бесплатном тарифе и по API на 20% дешевле чем GPT Image 1.
Блогпост
Black Forest Labs: FLUX.2 [max]
Новая лучшая модель компании, занимает третье место на Artificial Analysis Leaderboard, между Nano Banana Pro и не Pro.
Из интересного, можно добавлять до 10 изображений контекста, также модель может брать данные из интернета для контекста по запросу, так что "нарисуй фото по координатам" будет работать еще лучше, даже с погодой.
Доступна по API 0.03$/MP
Попробовать здесь
Блогпост
Qwen: Qwen-Image-Layered
Opensource модель для декомпозиции картинок на слои как в фотошопе. Открывает новые возможности для контроля над редактированием изображений и построения пайплайнов. Примеры есть в блогпосте.
github, статья, попробовать здесь
Google: T5Gemma 2
Encoder-decoder модель от гугл. Модель представлена в трех размерах 270М, 1B, 4B. Расширили контекст до 128к токенов, 140 языков, мультимодальность. Модель уверенно обходит Gemma 3 тех же размеров.
Блогпост, Статья,
Kaggle, HF, Colab
Meta: SAM Audio, PE-AV
Meta создала инструмент для извлечения конкретного звука из видео, при этом указать на звук можно через таймкод где звук доминирует, текстовым промптом или кликом мышью на источник звука.
Блогпост, Код, Попробовать здесь
Также Meta релизнула энкодер на котором построен SAM Audio. Perception Encoder Audiovisual (PE-AV) объединяет аудио, видео и текст в единое пространство эмбеддингов. PE-AV доступна в шести чекпоинтах различного размера - от Small до Large.
Блогпост, Код, Модель
Nvidia: Nemotron 3
MoE модель с контекстным окном на 1М токенов, представлена в трех размерах: Nano (31.6B, активирует 3.6B), Super (~100B) и Ultra (~500B). Использует гибридную архитектуру Mamba-Transformer MoE. Nano превосходит GPT-OSS-20B и Qwen3-30B-A3B на популярных бенчмарках NVIDIA Nemotron. Доступна Nano. Super и Ultra обещают выпустить в первой половине 2026.
Блогпост, Статья, HF
❤9👎6👍1🔥1
Forwarded from Фанклуб свидетелей Егора Коновалова (егористическая регрессия)
Media is too big
VIEW IN TELEGRAM
сегодня наконец дописал статью про то как я делал minimodal
контекст: modal.com это очень крутая серверлесс платформа для машинного обучения
было очень много всего сделано - точно такой же sdk, control plane который собирает образы, переправляет запросы воркерам (делать шедулер запросов было очень интимно), воркеры которые исполняют код в изолированных песочницах и возвращают результаты на сокетах. есть и батч операции, и стриминг, и все это вроде должно работать благодаря ретраям, DLQ и circuit breaker
ну и всякие удобные штуки типа секретов, вольюмов и вебпоинтов тоже поддерживаются
мне прям супер понравилось порисовать архитектуру неделю и заимплементить кучу штук которые прочитал за последние пару лет
читаем тут - distributedhatemachine.github.io/posts/modal
не читаем тут - github.com/wtfnukee/minimodal
контекст: modal.com это очень крутая серверлесс платформа для машинного обучения
было очень много всего сделано - точно такой же sdk, control plane который собирает образы, переправляет запросы воркерам (делать шедулер запросов было очень интимно), воркеры которые исполняют код в изолированных песочницах и возвращают результаты на сокетах. есть и батч операции, и стриминг, и все это вроде должно работать благодаря ретраям, DLQ и circuit breaker
ну и всякие удобные штуки типа секретов, вольюмов и вебпоинтов тоже поддерживаются
мне прям супер понравилось порисовать архитектуру неделю и заимплементить кучу штук которые прочитал за последние пару лет
читаем тут - distributedhatemachine.github.io/posts/modal
не читаем тут - github.com/wtfnukee/minimodal
❤13👍4🔥2
Forwarded from ML Underhood
Alice AI VLM dev на MWS Vision Bench: что конкретно изменилось в модели (и вокруг неё)
Сегодня наша базовая визуально-языковая модель Alice AI VLM dev появились на втором месте в MWS Vision Bench с результатами Overall private test: 0,646 (img→text: 0,885, img→markdown: 0,776, Grounding: 0,060, KIE (JSON): 0,729, VQA: 0,781). Alice AI VLM dev — часть большой Alice AI VLM. Расскажем, как всё обучалось.
Инженеры Яндекса сумели добиться хороших результатов благодаря обучению модели не только под пользовательские сценарии, но и под бизнесовые. Внутри компании используют VLM для автоматизации документооборота, разметок и многого другого. На этих доменах модель обучается как на стадии претрейна, так и на стадии алайнмента.
В сценарии «картинка + вопрос» качество упирается не только в генерацию ответа, но и в то, как модель видит изображение, читает текст на нём и следует инструкции. В продакшене Alice AI VLM работает в связке: «называтель» извлекает объекты и строит их иерархию с учётом текстового запроса, а VLM‑рефразер маршрутизирует запрос либо в основной VLM‑генератор, либо в специализированные ветки (например, «решатель»), либо в Alice AI LLM. Alice AI VLM dev (она же базовая VLM) — это та же модель, которая работает в продакшене как «генератор» и «решатель», но обрабатывающая запросы пользователя напрямую, без предыдущих этапов.
Обучение VLM двухэтапное: на претрейне мультимодальное next‑token-обучение на большом корпусе, а на алайнменте — SFT + RL, где модель доводят до «ассистентского» поведения.
Претрейн
Увеличили Image‑encoder и размер картинки на входе без деградации — с 896×896 до 1024×1024. Благодаря этому выросло качество работы с деталями, вроде формул, таблиц, этикеток и дорожных знаков.
Также переформатировали OCR‑данные. Раньше в датасете часто встречались пары «картинка + весь распознанный текст», что хорошо помогало учить модель непосредственно на чтение, но этого было недостаточно для некоторых других сценариев. Например для задач на понимание логической и пространственной связи между блоками текста.
Теперь обучают VLM отвечать в разных форматах на OCR-данных: выписывая весь текст самостоятельно, выписывая координаты текста вместе с ним, используя текст внешнего OCR или напрямую отвечая на вопрос пользователя. Такой grounded‑OCR улучшает извлечение таблиц и списков, а также выполнение задач на поиск контента.
Объём претрейна увеличился с 400 миллиардов до 600 миллиардов токенов, а максимальную длину контекста целенаправленно проучили до 32 тысяч. Это позволяет обрабатыватьдлинные документы и несколько изображений в одном запросе.
Алайнмент
Раньше фотоинпут получался через дообучение поверх базовой VLM Яндекса: это давало продуктовые фичи, но обновления базовой модели требовали пересборки датасетов, а по пути могли проседать базовые навыки (OCR, следование некоторым инструкциям).
В последнем релизе сделали «Алису из коробки»: та же базовая VLM стала Alice AI VLM — моделью, отвечающей пользователю. А датасеты и метрики алайнмента объединили так, чтобы одновременно контролировать показатели как «технической» мультимодальности, так и продуктовой.
Отдельно перенесли сетап RL из текстовой Alice AI LLM. Теперь оптимизируют не только правильность, но и полноту, полезность и проактивность ответа. На потоковой корзине SbS новая версия выигрывает у предыдущей в 63% случаев.
Подробнее об обучении нашей VLM — читайте в соответствующем разделе технического отчёта. Там же можно узнать и об изменениях в других моделях семейства.
Сегодня наша базовая визуально-языковая модель Alice AI VLM dev появились на втором месте в MWS Vision Bench с результатами Overall private test: 0,646 (img→text: 0,885, img→markdown: 0,776, Grounding: 0,060, KIE (JSON): 0,729, VQA: 0,781). Alice AI VLM dev — часть большой Alice AI VLM. Расскажем, как всё обучалось.
Инженеры Яндекса сумели добиться хороших результатов благодаря обучению модели не только под пользовательские сценарии, но и под бизнесовые. Внутри компании используют VLM для автоматизации документооборота, разметок и многого другого. На этих доменах модель обучается как на стадии претрейна, так и на стадии алайнмента.
В сценарии «картинка + вопрос» качество упирается не только в генерацию ответа, но и в то, как модель видит изображение, читает текст на нём и следует инструкции. В продакшене Alice AI VLM работает в связке: «называтель» извлекает объекты и строит их иерархию с учётом текстового запроса, а VLM‑рефразер маршрутизирует запрос либо в основной VLM‑генератор, либо в специализированные ветки (например, «решатель»), либо в Alice AI LLM. Alice AI VLM dev (она же базовая VLM) — это та же модель, которая работает в продакшене как «генератор» и «решатель», но обрабатывающая запросы пользователя напрямую, без предыдущих этапов.
Обучение VLM двухэтапное: на претрейне мультимодальное next‑token-обучение на большом корпусе, а на алайнменте — SFT + RL, где модель доводят до «ассистентского» поведения.
Претрейн
Увеличили Image‑encoder и размер картинки на входе без деградации — с 896×896 до 1024×1024. Благодаря этому выросло качество работы с деталями, вроде формул, таблиц, этикеток и дорожных знаков.
Также переформатировали OCR‑данные. Раньше в датасете часто встречались пары «картинка + весь распознанный текст», что хорошо помогало учить модель непосредственно на чтение, но этого было недостаточно для некоторых других сценариев. Например для задач на понимание логической и пространственной связи между блоками текста.
Теперь обучают VLM отвечать в разных форматах на OCR-данных: выписывая весь текст самостоятельно, выписывая координаты текста вместе с ним, используя текст внешнего OCR или напрямую отвечая на вопрос пользователя. Такой grounded‑OCR улучшает извлечение таблиц и списков, а также выполнение задач на поиск контента.
Объём претрейна увеличился с 400 миллиардов до 600 миллиардов токенов, а максимальную длину контекста целенаправленно проучили до 32 тысяч. Это позволяет обрабатыватьдлинные документы и несколько изображений в одном запросе.
Алайнмент
Раньше фотоинпут получался через дообучение поверх базовой VLM Яндекса: это давало продуктовые фичи, но обновления базовой модели требовали пересборки датасетов, а по пути могли проседать базовые навыки (OCR, следование некоторым инструкциям).
В последнем релизе сделали «Алису из коробки»: та же базовая VLM стала Alice AI VLM — моделью, отвечающей пользователю. А датасеты и метрики алайнмента объединили так, чтобы одновременно контролировать показатели как «технической» мультимодальности, так и продуктовой.
Отдельно перенесли сетап RL из текстовой Alice AI LLM. Теперь оптимизируют не только правильность, но и полноту, полезность и проактивность ответа. На потоковой корзине SbS новая версия выигрывает у предыдущей в 63% случаев.
Подробнее об обучении нашей VLM — читайте в соответствующем разделе технического отчёта. Там же можно узнать и об изменениях в других моделях семейства.
❤17👍11🔥11👎3
getgpu.ru открывают ранний доступ к своей bare metal инфраструктуре для обучения в РФ от 299₽/GPU-час
Кластеры:
- A100 80GB и H100 80GB
- NVLink и InfiniBand для обмена данных
- 2 ТБ RAM и NVMe на 32 ТБ в каждом узле
Посмотреть подробности и забронировать слот можно на сайте: https://getgpu.ru
Кластеры:
- A100 80GB и H100 80GB
- NVLink и InfiniBand для обмена данных
- 2 ТБ RAM и NVMe на 32 ТБ в каждом узле
Посмотреть подробности и забронировать слот можно на сайте: https://getgpu.ru
🔥8 3❤2
Сейчас я уничтожу вашу продуктивность
Обнаружил для себя www.healthdata.org и ghdx.healthdata.org.
GBDS это проект University of Washington где можно посмотреть какой-то бездонный кладезь данных про здоровье с разбивкой по разным странам, способам измерения, возрастным группам, итд.
Для примера вот вам количество насильственных смертей в разных странах.
Ссылка на график: http://ihmeuw.org/7cmk
Обнаружил для себя www.healthdata.org и ghdx.healthdata.org.
GBDS это проект University of Washington где можно посмотреть какой-то бездонный кладезь данных про здоровье с разбивкой по разным странам, способам измерения, возрастным группам, итд.
Для примера вот вам количество насильственных смертей в разных странах.
Ссылка на график: http://ihmeuw.org/7cmk
👍18❤11🔥5
Что-то меня занесло в кроличью нору
Вот например какие у меня (мужчины 30 лет) наиболее вероятные способы умереть в случае переезда в разные страны.
США: передоз фентанилом
Англия: смерть от ножа
РФ: 😐
Португалия: спотнулся на скользкой плитке
http://ihmeuw.org/7cmq
Вот например какие у меня (мужчины 30 лет) наиболее вероятные способы умереть в случае переезда в разные страны.
США: передоз фентанилом
Англия: смерть от ножа
РФ: 😐
Португалия: спотнулся на скользкой плитке
http://ihmeuw.org/7cmq
❤24 14
Достиг новой вехи карьеры инфлюенсера: когда скамеры начинают продавать марафоны от твоего имени
Друзья, если что обучений по ИИ от Бориса не существует. Мы тут больше деградируем + пытаемся забыть
Но есть карьерные консультации
Upd: прям волна скама, много кому пишут, будьте осторожны
Друзья, если что обучений по ИИ от Бориса не существует. Мы тут больше деградируем + пытаемся забыть
Но есть карьерные консультации
Upd: прям волна скама, много кому пишут, будьте осторожны
Яндекс делает любопытный эксперимент по взаимодействию с ИИ ассистентами, называя их люменами. Это ИИ-помощники, которые не притворяются людьми.
Описывают их так:
Мы как-то все пришли к тому, что ЛЛМ притворяется человеком. Отсюда все мемы про шогготов. Не знаю что из этого получится, но мне кажется смело, что ребята пытаются перепридумать взаимодействие с ИИ.
Попробовать и записаться в лист ожидания можно здесь: lumen.yandex.ru
Описывают их так:
Люмены скорее тотемные животные, деймоны из книжек Филипа Пулмана, они самостоятельны, обладают индивидуальной внешностью и при этом будут продолжениями своих хозяев.
Мы как-то все пришли к тому, что ЛЛМ притворяется человеком. Отсюда все мемы про шогготов. Не знаю что из этого получится, но мне кажется смело, что ребята пытаются перепридумать взаимодействие с ИИ.
Попробовать и записаться в лист ожидания можно здесь: lumen.yandex.ru
@neural_prosecco навайбкодила красивые итоги года для каналов
624 поста! Получается я посчу практически два раза в день
624 поста! Получается я посчу практически два раза в день
🔥30❤17👍6
#дайджест
Дайджест ML/AI за неделю 22 - 28 Декабря 2025
Alibaba: Qwen-Image-Edit-2511
Оупенсорс аналог nano-banana/gpt-image от Qwen. Как и ожидается в декабре 2025 - хороший контроль редактирования, понимание контекста, консистентность. Из интересного: встроили популярные LoRA предыдущей версии в базовую модель. Уже доступна в ComfyUI .
Qwen Chat, Попробовать HF, Статья, GitHub
Alibaba: Qwen3-TTS VoiceDesign и VoiceClone
Alibaba выпустила две TTS-модели:
Qwen3-TTS-VD-Flash - синтез речи. В промпте можно задать параметры от тембра голоса до фона и личности персонажа, может имитировать звуки животных (наконец услышим о чем блеят нейроовцы).
На InstructTTS-Eval benchmark проигрывает Gemini-2.5-pro-preview-tts, сравнимо с Mimo-audio-7b-instruct.
Qwen3-TTS-VC-Flash - копирует голос с трёх секунд аудио. На TTS Multilingual Test Set побеждает всех на английском и китайском, на русском проигрывает ElevenLabs.
Блогпост, VoiceDesign демо, VoiceClone демо, Статья.
Nvidia: NitroGen
Vision-action foundation model. То есть модель для игры в любые игры. Спарсили 40 000 часов геймплея с YouTube и Twitch, в которых на видео был выведен геймпад, автоматически разметили и обучили базовую модель. В итоге файнтюн модели на игру вне датасета выполняет игровые задачи на 52% быстрее, чем модель, обученная на эту игру с нуля с тем же бюждетом. Для zero-shot нет оценки, но есть видео на Reddit.
Сайт проекта, Статья, HF, Датасет
Hunyuan3D-2-WinPortable
Умельцы™ сделали портабл сборку оупенсорс 3D-генератора от Tencent, которая работает на 3GB VRAM. Теперь превращение картинок в 3D-модельки приемлемого качества доступно каждому.
github
EpochAI: Top 10 Data Insights of 2025
Все подводят итоги года, и EpochAI свели самые интересные инфорграфики 2025 года в одну статью. Сколько месяцев назад модели которые сейчас можно запустить на своем GPU были бы SOTA? На что OpenAI тратит компьют? И другие инсайты смотрите в статье.
xAI: Collections API
xAI запустили Collections API — инструмент для создания RAG-систем по API. Позволяет загружать датасеты от PDF до кодовых баз. Использует OCR и layout-aware парсинг, поддерживает гибридный поиск с reranker.
По внутренним бенчмаркам обходит Google File Search и OpenAI Vector Store, но не сильно.
Первая неделя бесплатно, далее $2.50 за 1000 запросов. Данные обещают не использовать для обучения моделей без спроса.
Блогпост
Дайджест ML/AI за неделю 22 - 28 Декабря 2025
Alibaba: Qwen-Image-Edit-2511
Оупенсорс аналог nano-banana/gpt-image от Qwen. Как и ожидается в декабре 2025 - хороший контроль редактирования, понимание контекста, консистентность. Из интересного: встроили популярные LoRA предыдущей версии в базовую модель. Уже доступна в ComfyUI .
Qwen Chat, Попробовать HF, Статья, GitHub
Alibaba: Qwen3-TTS VoiceDesign и VoiceClone
Alibaba выпустила две TTS-модели:
Qwen3-TTS-VD-Flash - синтез речи. В промпте можно задать параметры от тембра голоса до фона и личности персонажа, может имитировать звуки животных (наконец услышим о чем блеят нейроовцы).
На InstructTTS-Eval benchmark проигрывает Gemini-2.5-pro-preview-tts, сравнимо с Mimo-audio-7b-instruct.
Qwen3-TTS-VC-Flash - копирует голос с трёх секунд аудио. На TTS Multilingual Test Set побеждает всех на английском и китайском, на русском проигрывает ElevenLabs.
Блогпост, VoiceDesign демо, VoiceClone демо, Статья.
Nvidia: NitroGen
Vision-action foundation model. То есть модель для игры в любые игры. Спарсили 40 000 часов геймплея с YouTube и Twitch, в которых на видео был выведен геймпад, автоматически разметили и обучили базовую модель. В итоге файнтюн модели на игру вне датасета выполняет игровые задачи на 52% быстрее, чем модель, обученная на эту игру с нуля с тем же бюждетом. Для zero-shot нет оценки, но есть видео на Reddit.
Сайт проекта, Статья, HF, Датасет
Hunyuan3D-2-WinPortable
Умельцы™ сделали портабл сборку оупенсорс 3D-генератора от Tencent, которая работает на 3GB VRAM. Теперь превращение картинок в 3D-модельки приемлемого качества доступно каждому.
github
EpochAI: Top 10 Data Insights of 2025
Все подводят итоги года, и EpochAI свели самые интересные инфорграфики 2025 года в одну статью. Сколько месяцев назад модели которые сейчас можно запустить на своем GPU были бы SOTA? На что OpenAI тратит компьют? И другие инсайты смотрите в статье.
xAI: Collections API
xAI запустили Collections API — инструмент для создания RAG-систем по API. Позволяет загружать датасеты от PDF до кодовых баз. Использует OCR и layout-aware парсинг, поддерживает гибридный поиск с reranker.
По внутренним бенчмаркам обходит Google File Search и OpenAI Vector Store, но не сильно.
Первая неделя бесплатно, далее $2.50 за 1000 запросов. Данные обещают не использовать для обучения моделей без спроса.
Блогпост
👎5❤4👍2🤔1