Про улучшения хорошо пишет Artificial Analysis. Вкратце:
- Новая самая сильная модель по общему уровню "интеллекта"
- Модель примерно на 30% дороже Sonnet 4.5
- По скорости сопоставима с Gemini 2.5 Pro и GPT-5.1, примерно на 40% быстрее Sonnet 4.5
- Улучшения в кодинге, включая агентские системы: по бенчмаркам AA модель с отрывом первая
- Новая самая сильная модель по общему уровню "интеллекта"
- Модель примерно на 30% дороже Sonnet 4.5
- По скорости сопоставима с Gemini 2.5 Pro и GPT-5.1, примерно на 40% быстрее Sonnet 4.5
- Улучшения в кодинге, включая агентские системы: по бенчмаркам AA модель с отрывом первая
🔥43💅2
Nano Banana Pro
Новая бананья на основе Gemini 3 Pro (блогпост) с использованием поиска (!), генерацией в 4k и очень очень хорошим следованием промпту. Выкатывается сегодня в Gemini app, AI studio, Vertex AI.
Новая бананья на основе Gemini 3 Pro (блогпост) с использованием поиска (!), генерацией в 4k и очень очень хорошим следованием промпту. Выкатывается сегодня в Gemini app, AI studio, Vertex AI.
🔥54🤯14🎉4
На этой неделе буду на NeurIPS в Сан Диего свободным человеком без статей и презентаций.
Кидайте статьи, если приехали с постером, и приходите на наш phd networking event.
Кидайте статьи, если приехали с постером, и приходите на наш phd networking event.
❤43
Любопытная статья (pdf) про связь академической нечестности (плагиаризма) и дальнейшего карьерного развития, написанная на данных китайских университетов. Авторы использовали систему по поиску плагиата и сматчили по именам на дипломах с людьми, которые проходили китайский национальный экзамен на государственную службу (match rate ~17%), а также с открытыми данными китайской служебной системы (~32%).
Оказалось, что доля плагиата у людей, которые в последующем идут на госслужбу, выше на 1.2% (15.6% относительно общей популяции), и индивиды в верхней половине по плагиаризму получают повышения на 10-15% быстрее (с контролем на опыт и департамент).
С судьями примерно такая же ситуация. Судьи, которые занимались плагиатом в университете, на 10-15% чаще выносят вердикты в пользу государственных компаний и на 16.6% чаще попадают под расследования о коррупции.
Чтобы понять, не вызван ли этот эффект банальной некомпетентностью авторы придумали мерить результаты процессов, которые транслировались онлайн. Там размер эффекта существенно снижается.
Оказалось, что доля плагиата у людей, которые в последующем идут на госслужбу, выше на 1.2% (15.6% относительно общей популяции), и индивиды в верхней половине по плагиаризму получают повышения на 10-15% быстрее (с контролем на опыт и департамент).
С судьями примерно такая же ситуация. Судьи, которые занимались плагиатом в университете, на 10-15% чаще выносят вердикты в пользу государственных компаний и на 16.6% чаще попадают под расследования о коррупции.
Чтобы понять, не вызван ли этот эффект банальной некомпетентностью авторы придумали мерить результаты процессов, которые транслировались онлайн. Там размер эффекта существенно снижается.
👍40❤9👀7👏1
Breakneck: China's Quest to Engineer the Future – Dan Wang, 2025.
#book_review
Какое фундаментальное отличие китайского и американского обществ? Дэн Ван, который прожил в Китае несколько последних лет, нашёл новый тезис, вокруг которого построена вся книга. По его словам,
Как пример, в текущей американской администрации большинство – юристы, тогда как в Политбюро ЦК КПК – почти все инженеры. Это приводит к существенным различиям в государственной политике, результаты которой мы можем видеть, например, в Сан-Диего, где общественная инфраструктура проиграет многим китайским деревням. Первая часть книги посвящена контрасту таких различий, и читать её максимально интересно.
Отдельная часть посвящена демографической политике в Китае (политика одного ребенка) как пример того, где инженерное государство с его возможностями планирования не может сравниться с государством, где юристы будут биться за индивидуальные права.
К концу книга немного скатывается из аналитики в описание личного опыта автора, его друзей-эмигрантов из Китая, родителей, что, если честно, быстро становится довольно размазано. Но первую половину (до 5 главы) прочитать точно стоит.
Сейчас на нипсе много мл-стартапов нанимают на возрождение производства – роборуки, создание новых материалов и лекарств. Интересно, смогут ли юристы оперативно решить регуляторные барьеры или всё-таки государство инженеров на его поле побить не получится.
#book_review
Какое фундаментальное отличие китайского и американского обществ? Дэн Ван, который прожил в Китае несколько последних лет, нашёл новый тезис, вокруг которого построена вся книга. По его словам,
Америкой управляют юристы, а Китаем — инженеры.
Как пример, в текущей американской администрации большинство – юристы, тогда как в Политбюро ЦК КПК – почти все инженеры. Это приводит к существенным различиям в государственной политике, результаты которой мы можем видеть, например, в Сан-Диего, где общественная инфраструктура проиграет многим китайским деревням. Первая часть книги посвящена контрасту таких различий, и читать её максимально интересно.
Отдельная часть посвящена демографической политике в Китае (политика одного ребенка) как пример того, где инженерное государство с его возможностями планирования не может сравниться с государством, где юристы будут биться за индивидуальные права.
К концу книга немного скатывается из аналитики в описание личного опыта автора, его друзей-эмигрантов из Китая, родителей, что, если честно, быстро становится довольно размазано. Но первую половину (до 5 главы) прочитать точно стоит.
Сейчас на нипсе много мл-стартапов нанимают на возрождение производства – роборуки, создание новых материалов и лекарств. Интересно, смогут ли юристы оперативно решить регуляторные барьеры или всё-таки государство инженеров на его поле побить не получится.
❤41👀10🤣6👍5👎3🤔1
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥55👀12🥴1
Узнал от гуглсколара о том, что процитировали ранее неизвестную мою статью. Из минусов – статьи я этой не писал, чистая галлюцинация. Не знаю даже, стоит ли писать авторам. 🐕
Please open Telegram to view this post
VIEW IN TELEGRAM
🥴110🤣71🍓10🔥5😱3
STOC – серьёзная конференция для настоящих сварщиков компьютерсаенс теоретиков – провела эксперимет, где статьи получали фидбек от системы на основе Gemini 3 Deep Think. По результатам 97% оценили фидбек как полезный; система помогла найти пару критических ошибок в статьях.
Над экспериментом работала наша команда, мне кажется это один из первых примеров того, как ЛЛМки будут помогать учёным делать науку лучше.
Блогпост
Над экспериментом работала наша команда, мне кажется это один из первых примеров того, как ЛЛМки будут помогать учёным делать науку лучше.
Блогпост
1❤42🔥8🤝8🥴4🙏2
⚡⚡⚡ Gemini 3 Flash
Флагманский апдейт дешёвой рабочей лошадки, которя перформит существенно лучше альтернатив за свои деньги. Особенно всё прокачалось в мультимодальных запросах. На MMMU умудрились обогнать Gemini 3 Pro. Это всё за небольшое увеличение в цене относительно 2.5 Flash.
На юзеров в приложении моделька раскатывается сегодня, попробовать, как всегда, можно в AI Studio.
Блогпост
Флагманский апдейт дешёвой рабочей лошадки, которя перформит существенно лучше альтернатив за свои деньги. Особенно всё прокачалось в мультимодальных запросах. На MMMU умудрились обогнать Gemini 3 Pro. Это всё за небольшое увеличение в цене относительно 2.5 Flash.
На юзеров в приложении моделька раскатывается сегодня, попробовать, как всегда, можно в AI Studio.
Блогпост
🔥65🎉12❤6💅2🙏1
Два новогодних подгончика, чтобы слушать/читать, пока готовишь оливье.
Неделю назадо вышло довольно подробное интервью с Себом, который (тех)лидит пре-трейн Gemini. Мало где можно послушать о том, как фронтирные лабы думают о претрейне.
Джефф с Санджаем (вот тут очень мило про них от Нью Йоркера) выпустили коллекцию мыслей про оптимизацию ПО. У Джеффа невероятная интуиция на ускорение кода, в гугле ходят шутки в стиле шуток про Чака Норриса.
Неделю назадо вышло довольно подробное интервью с Себом, который (тех)лидит пре-трейн Gemini. Мало где можно послушать о том, как фронтирные лабы думают о претрейне.
Джефф с Санджаем (вот тут очень мило про них от Нью Йоркера) выпустили коллекцию мыслей про оптимизацию ПО. У Джеффа невероятная интуиция на ускорение кода, в гугле ходят шутки в стиле шуток про Чака Норриса.
👍39🔥18❤3
The origins of efficiency
Brian Potter, 2025
stripe press, amazon
подкаст про книгу с автором
Эффективность производства – один из фундаментальных механизмов, которые толкают цивилизацию вперёд, превращая дефицит в изобилие за счёт снижения затрат на производство товаров. В "истоках эффективности" Поттер максимально подробно разбирает конкретные рычаги оптимизации: технологические S-образные кривые (смена парадигм производства), экономию на масштабе, контролю вариативности и приведение процесса к идеалу непрерывного процесса, где минимизированы буферы, простои и запасы.
Разбирая кейсы от производства лампочек и гвоздей до фотовольтаики, Поттер показывает, как улучшение процессов создаёт положительные циклы обратной связи, когда рост объёмов производства оправдывает инвестиции в улучшение процессов и R&D. Тем не менее, так происходит не везде: например, в строительстве и медицине в связи с высокой вариативностью, низкой повторяемостью, регуляторных усложнений процессов и болезни издержек Баумоля не получается обеспечить роста эффективности сравнимого с другими областями. Поттер считает, что в будущем такие барьеры будут преодолеваться через гибкую автоматизацию при помощи более адаптивных роботов.
Книга – моя любимая из прочитанных за год, очень рекомендую любителям читать про изменения техпроцесса производства лампочек 10 страниц подряд. Заставляет смотреть на окружающие процессы с точки зрения улучшения их эффективности, параллели можно найти и с нашими с вами ЛЛМками – они усилиями многих коллег проходят ускоренный S-образный процесс улучшения их "производства". Настоящим сварщикам и выпекателям настоятельнейше рекомендую.
Brian Potter, 2025
stripe press, amazon
подкаст про книгу с автором
Эффективность производства – один из фундаментальных механизмов, которые толкают цивилизацию вперёд, превращая дефицит в изобилие за счёт снижения затрат на производство товаров. В "истоках эффективности" Поттер максимально подробно разбирает конкретные рычаги оптимизации: технологические S-образные кривые (смена парадигм производства), экономию на масштабе, контролю вариативности и приведение процесса к идеалу непрерывного процесса, где минимизированы буферы, простои и запасы.
Разбирая кейсы от производства лампочек и гвоздей до фотовольтаики, Поттер показывает, как улучшение процессов создаёт положительные циклы обратной связи, когда рост объёмов производства оправдывает инвестиции в улучшение процессов и R&D. Тем не менее, так происходит не везде: например, в строительстве и медицине в связи с высокой вариативностью, низкой повторяемостью, регуляторных усложнений процессов и болезни издержек Баумоля не получается обеспечить роста эффективности сравнимого с другими областями. Поттер считает, что в будущем такие барьеры будут преодолеваться через гибкую автоматизацию при помощи более адаптивных роботов.
Книга – моя любимая из прочитанных за год, очень рекомендую любителям читать про изменения техпроцесса производства лампочек 10 страниц подряд. Заставляет смотреть на окружающие процессы с точки зрения улучшения их эффективности, параллели можно найти и с нашими с вами ЛЛМками – они усилиями многих коллег проходят ускоренный S-образный процесс улучшения их "производства". Настоящим сварщикам и выпекателям настоятельнейше рекомендую.
❤60👍9🔥1
В декабре я писал про систему помощи авторам на конференции STOC; сегодня наша команда выпустила экспериментальную версию, где можно получить фидбек про свою статью на ICML от агента похожего на Gemini 3 Deep Think.
Гарантируется анонимность – фидбек будет даваться только авторам и не передаваться кому-либо ещё, статья будет удалена с серверов и не будет использоваться для тренировки или улучшения моделей.
Гарантируется анонимность – фидбек будет даваться только авторам и не передаваться кому-либо ещё, статья будет удалена с серверов и не будет использоваться для тренировки или улучшения моделей.
🔥36🎉9🙏5❤2
Пара полезных чисел
Берём два несвязанных эмбеддинга из новой модной модели, а их косинусное расстояние – не ноль, почему? Есть два полезных числа, которые стоит запомнить: 2/π ≈ 0.6366 и 1/π ≈ 0.3184. Первое в ожидании получится, когда наши эмбеддинги распределены как модуль от координат гауссианы, второе – когда мы берём max(0, ·) – в простонародье ReLU от координат. Для других функций вычислить тоже довольно просто: косинусное расстояние для Z~N(0;1) концентрируется вокруг
Берём два несвязанных эмбеддинга из новой модной модели, а их косинусное расстояние – не ноль, почему? Есть два полезных числа, которые стоит запомнить: 2/π ≈ 0.6366 и 1/π ≈ 0.3184. Первое в ожидании получится, когда наши эмбеддинги распределены как модуль от координат гауссианы, второе – когда мы берём max(0, ·) – в простонародье ReLU от координат. Для других функций вычислить тоже довольно просто: косинусное расстояние для Z~N(0;1) концентрируется вокруг
E[f(Z)^2] / (E[f(Z)])^2.2🌚33👍7🤝6❤1