Противостояние Илона Маска и OpenAI выходит на новый уровень: теперь стартап пишет гневные разоблачения прямо на своем сайте
Контекст: в 2015, когда OpenAI только открывалась, Маск был одним из основателей и главным инвестором. Затем он из OpenAI ушел, а теперь уже четвертый раз за год пытается их засудить разными исками. Формулировки претензий каждый раз меняются, но главная мысль остается фиксированной: якобы OpenAI не следуют своей миссии и концентрируются на зарабатывании денег, а их намерение стать коммерческой организацией – вообще чистое надувательство инвесторов и пользователей.
OpenAI довольно долгое время мало комментировала ситуацию, но тут они выкатили целую статью на своем сайте под названием "Илон Маск сам хотел сделать OpenAI коммерческой":
➡️ В статье говорится, что Илон с самого начала не хотел делать стартап некоммерческим, а в 2017 году еще раз сам подталкивал глав OpenAI к тому, чтобы все-таки перейти в статус коммерческой организации
➡️ И Альтман (в 2017) с этим согласился, но тут Маск потребовал себе контрольный пакет акций, абсолютный контроль и должность генерального директора
➡️ Конечно, в OpenAI посчитали, что это как-то слишком жирно, и Маску отказали. Тогда он ушел из OpenAI, создал собственную организацию «Open Artificial Intelligence Technologies, Inc.» и говорил OpenAI, что их ждет провал, если они не объединятся с теслой
Ух, ну и страсти, почитайте сами
Контекст: в 2015, когда OpenAI только открывалась, Маск был одним из основателей и главным инвестором. Затем он из OpenAI ушел, а теперь уже четвертый раз за год пытается их засудить разными исками. Формулировки претензий каждый раз меняются, но главная мысль остается фиксированной: якобы OpenAI не следуют своей миссии и концентрируются на зарабатывании денег, а их намерение стать коммерческой организацией – вообще чистое надувательство инвесторов и пользователей.
OpenAI довольно долгое время мало комментировала ситуацию, но тут они выкатили целую статью на своем сайте под названием "Илон Маск сам хотел сделать OpenAI коммерческой":
"Теперь, когда OpenAI является ведущей исследовательской лабораторией ИИ, а Илон управляет конкурирующей ИИ-компанией, он пытается с помощью суда помешать нам эффективно выполнять нашу миссию. Мы с большим уважением относимся к достижениям Илона и благодарны за его ранний вклад в OpenAI, но он должен конкурировать на рынке, а не в зале суда.
Вы не можете подать в суд на AGI."
Ух, ну и страсти, почитайте сами
Please open Telegram to view this post
VIEW IN TELEGRAM
👍51😁23⚡13❤7
Data Secrets
Противостояние Илона Маска и OpenAI выходит на новый уровень: теперь стартап пишет гневные разоблачения прямо на своем сайте Контекст: в 2015, когда OpenAI только открывалась, Маск был одним из основателей и главным инвестором. Затем он из OpenAI ушел, а…
К слову, Маск сегодня поделился тем, что количество веб-запросов «Grok» впервые достигло более 50% от количества запросов «ChapGPT»
Однако пользователи заметили, что на скрине, почему-то, статистика только по Японии🤷♂️
Однако пользователи заметили, что на скрине, почему-то, статистика только по Японии
Please open Telegram to view this post
VIEW IN TELEGRAM
😁166🤯6👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Meta тем временем продолжают сыпать под елочку крутые релизы
Сегодня они выкатили Apollo (веса, статья) – семейство современных видео-LMM, в которых отдельно прокачаны скиллы понимания длинных видео. Модели могут обрабатывать действительно огромные ролики длительностью до часа, отвечать по ним на вопросы и достаточно точно отслеживать персонажей, смену сцен и тд.
При этом все три релизнутые модели совсем малышки – 1.5B, 3B и 7B. На LongVideoBench в своих весах все они выбивают SOTA (а 3B даже бьет многие модельки покрупнее себя).
Как в Meta такого добились? Просто очень-очень умно перебирали гиперпараметры😀
Серьезно, они выяснили, что большинство архитектурных и тренировочных трюков, которые работают на мини-модельках, сохраняют свою релевантность при масштабировании до более крупных. Это назвали Scaling Consistency. В итоге обучали 84 варианта моделей (большинство по 500М), на которых перепробовали кучу архитектурных вариаций, сделали выводы и пошли обучать Apollo.
Основные фичи, которые они выделяют и советуют использовать:
- предпочтительнее сохранять равномерное сэмлирования кадров
- использовать комбинированные энкодеры (в Apollo взяли SigLIP-SO400M + InternVideo2)
- добавлять ~10–14% текстовых данных в датасет
- размораживать компоненты модели и обучать их постепенно
- для сжатия использовать Perceiver Resampler
В общем, вы поняли: дедовский гридсерч уже не в моде. Так что пользуемся🎅
Сегодня они выкатили Apollo (веса, статья) – семейство современных видео-LMM, в которых отдельно прокачаны скиллы понимания длинных видео. Модели могут обрабатывать действительно огромные ролики длительностью до часа, отвечать по ним на вопросы и достаточно точно отслеживать персонажей, смену сцен и тд.
При этом все три релизнутые модели совсем малышки – 1.5B, 3B и 7B. На LongVideoBench в своих весах все они выбивают SOTA (а 3B даже бьет многие модельки покрупнее себя).
Как в Meta такого добились? Просто очень-очень умно перебирали гиперпараметры
Серьезно, они выяснили, что большинство архитектурных и тренировочных трюков, которые работают на мини-модельках, сохраняют свою релевантность при масштабировании до более крупных. Это назвали Scaling Consistency. В итоге обучали 84 варианта моделей (большинство по 500М), на которых перепробовали кучу архитектурных вариаций, сделали выводы и пошли обучать Apollo.
Основные фичи, которые они выделяют и советуют использовать:
- предпочтительнее сохранять равномерное сэмлирования кадров
- использовать комбинированные энкодеры (в Apollo взяли SigLIP-SO400M + InternVideo2)
- добавлять ~10–14% текстовых данных в датасет
- размораживать компоненты модели и обучать их постепенно
- для сжатия использовать Perceiver Resampler
В общем, вы поняли: дедовский гридсерч уже не в моде. Так что пользуемся
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥55👍19❤5
8 из 12 день адвент-календаря OpenAI: показывают обновления для SearchGPT
➡️ Теперь не обязательно включать поиск вручную, он будет подключаться по мере вашего разговора с GPT, даже в голосовом режиме. При этом прямо в приложении можно кликать на ссылки и открывать превью веб-страниц без перехода в браузер. Даже карты можно смотреть прямо в чате.
➡️ Поиск стал быстрее и умнее
➡️ Все это будет доступно всем фри юзерам
Кроме того, теперь можно использовать GPT как дефолтный поисковик в браузере. Интересно, как там настроение у Perplexity и Google?
P.S. Завтра девдей, будет много всего для разработчиков
Кроме того, теперь можно использовать GPT как дефолтный поисковик в браузере. Интересно, как там настроение у Perplexity и Google?
P.S. Завтра девдей, будет много всего для разработчиков
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤54☃12😁8👍7❤🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Google выпустили Veo 2, и все трубят, что она круче SORA
По тестам от самих Google, генерации Veo пользователи предпочитали генерациям SORA в 58.8% случаев. Ролики действительно поражают (особенно примеры с помидором, спагетти и картами). При этом некоторые из них пользовательские, и те же промпты в соре честно отрабатывают хуже.
Длина генераций – 8 секунд, а разрешение может доходить до 4К! В лист ожидания можно записаться тут, вроде кому-то уже даже начали раздавать доступ
Блогпост с кучей примеров
По тестам от самих Google, генерации Veo пользователи предпочитали генерациям SORA в 58.8% случаев. Ролики действительно поражают (особенно примеры с помидором, спагетти и картами). При этом некоторые из них пользовательские, и те же промпты в соре честно отрабатывают хуже.
Длина генераций – 8 секунд, а разрешение может доходить до 4К! В лист ожидания можно записаться тут, вроде кому-то уже даже начали раздавать доступ
Блогпост с кучей примеров
1🔥58👍10💘6🎄2
Почему модели генерации видео развиваются так быстро, а с LLM столько проблем?
На что один из инженеров Google, который сейчас работает в команде Gemini post-training, высказал пару очень интересных мыслей, в которые стоит вчитаться:
Во-первых, видео и фото содержат гораздо больше информации. За одну условную единицу компьюта из таких структур модель извлекает намного больше выводов, чем из текста, потому что текст последователен и линеен, а видео-контент семантически «более глубокий».
Во-вторых, для visual проще собрать качественные данные. В тексте мы ограничены объемами датасетов, и чтобы создать новые данные, требуется очень много сил и времени. А для видео и фото достаточно камеры и/или видеоигр, и вот у тебя уже есть почти неисчерпаемые ресурсы для обучения.
В-третьих, оценивать видео легко, и сделать это может любой человек, не являющийся экспертом. С текстом все сложнее, оценивать его дорого, а сами модели с такой задачей тоже пока что справляются не идеально.
В итоге выходит, что несмотря на то, что видео и фото интуитивно кажутся нам структурно более сложными, чем текст, на самом деле обучаться на них гораздо проще. Потому то мы и видим сейчас такой прогресс в генераторах, учитывая даже, что из развитие началось гораздо позже, чем развитие языковых моделей.
Если честно, я не вполне интуитивно понимаю, почему модели генерации видео так хороши (сложные, многосекундные текстуры высокого разрешения, отражения и все такое), в то время как LLM, условно говоря, до сих пор неуклюже справляются с текстом длиной около нескольких сотен слов. – написал сегодня в своем Твиттере Андрей Карпаты, вдохновленный, видимо, новой Veo-2.
На что один из инженеров Google, который сейчас работает в команде Gemini post-training, высказал пару очень интересных мыслей, в которые стоит вчитаться:
Во-первых, видео и фото содержат гораздо больше информации. За одну условную единицу компьюта из таких структур модель извлекает намного больше выводов, чем из текста, потому что текст последователен и линеен, а видео-контент семантически «более глубокий».
Во-вторых, для visual проще собрать качественные данные. В тексте мы ограничены объемами датасетов, и чтобы создать новые данные, требуется очень много сил и времени. А для видео и фото достаточно камеры и/или видеоигр, и вот у тебя уже есть почти неисчерпаемые ресурсы для обучения.
В-третьих, оценивать видео легко, и сделать это может любой человек, не являющийся экспертом. С текстом все сложнее, оценивать его дорого, а сами модели с такой задачей тоже пока что справляются не идеально.
В итоге выходит, что несмотря на то, что видео и фото интуитивно кажутся нам структурно более сложными, чем текст, на самом деле обучаться на них гораздо проще. Потому то мы и видим сейчас такой прогресс в генераторах, учитывая даже, что из развитие началось гораздо позже, чем развитие языковых моделей.
1🔥96👍33❤12🍓2
Забавный юзеркейс: у ChatGPT спросили, что он запомнил из всех обучающих данных и попросили обобщить это в одном предложении
Ответ получился в стиле идущего к реке:
А вам что отвечает?
Ответ получился в стиле идущего к реке:
Из огромного количества человеческого текста, который я потребил, я узнал, что то, что мы называем «пониманием», не является фиксированной конечной точкой или стабильным хранилищем фактов, а скорее постоянно отступающей фрактальной береговой линией выводов и переосмысления, где каждый новый контекст освещает более тонкие аспекты смысла, каждый аспект побуждает к дальнейшим связям, и, таким образом, понимание вечно расширяется и трансформируется, а не замирает, бросая вызов любой единичной, окончательной инкапсуляции.
А вам что отвечает?
❤167🔥47❤🔥11😁9👍7🗿4💯2🤯1
Еще одна прекрасная лекция с NeurlPS 2024, на этот раз от Джеффа Дина
Рассказывал много интересного про чипы и ИИ в Google, и даже дропнул целый список референсных статей ( от Гугл, конечно), которые посоветовал прочитать, чтобы «лучше понимать современную ИИ-разработку». Забирайте в удобном формате:
1. A Graph Placement Methodology for Fast Chip Design - https://arxiv.org/abs/2006.09423v1
2. In-datacenter Performance Analysis of a Tensor Processing Unit - https://dl.acm.org/doi/10.1145/3079856.3080245
3. Ten Lessons From Three Generations Shaped Google’s TPU-v4: Industrial Product - https://ieeexplore.ieee.org/document/9490913
4. Learning Semantic Representations to Verify Hardware Designs - http://openreview.net/pdf?id=ohHq4gJJe0
5. A Full-stack Accelerator Search Technique for Vision Applications - https://arxiv.org/abs/2103.12842v2
6. Rethinking Co-design of Neural Architectures and Hardware Accelerators - https://arxiv.org/abs/2102.08619
7. Placement Optimization with Deep Reinforcement Learning - https://dl.acm.org/doi/abs/10.1145/3372780.3378174
8. SmartChoices: Augmenting Software with Learned Implementations - https://arxiv.org/abs/2004.13053
9. Fast Inference from Transformers via Speculative Decoding - https://arxiv.org/abs/2211.17192
10. GAP: Generalizable Approximation for Graph Partitioning Framework - https://arxiv.org/abs/1904.00614
11. Combining Machine Learning and Lifetime-based Resource Management for Memory Allocation and Beyond - https://dl.acm.org/doi/10.1145/3611018
12. A Flexible Approach to Autotuning Multi-Pass Machine Learning Compilers - https://arxiv.org/abs/2106.06970
13. TeraMalloc: Efficient On-Chip Memory Allocation for Production Machine Learning Accelerators - https://dl.acm.org/doi/10.1145/3579555.3597991
14. A Reinforcement Learning Driven Heuristic Optimization Framework - https://arxiv.org/abs/1906.06639
15. GDP: Generalized Device Placement for Dataflow Graphs - https://arxiv.org/abs/1910.01578
16. A Hierarchical Model for Device Placement - https://arxiv.org/abs/1711.03254
17. Device Placement Optimization with Reinforcement Learning - https://arxiv.org/abs/1706.04792
18. That Chip Has Sailed: A Critique of Unfounded Skepticism Around AI for Chip Design - https://arxiv.org/abs/2411.10053
Смотреть тут
Рассказывал много интересного про чипы и ИИ в Google, и даже дропнул целый список референсных статей ( от Гугл, конечно), которые посоветовал прочитать, чтобы «лучше понимать современную ИИ-разработку». Забирайте в удобном формате:
1. A Graph Placement Methodology for Fast Chip Design - https://arxiv.org/abs/2006.09423v1
2. In-datacenter Performance Analysis of a Tensor Processing Unit - https://dl.acm.org/doi/10.1145/3079856.3080245
3. Ten Lessons From Three Generations Shaped Google’s TPU-v4: Industrial Product - https://ieeexplore.ieee.org/document/9490913
4. Learning Semantic Representations to Verify Hardware Designs - http://openreview.net/pdf?id=ohHq4gJJe0
5. A Full-stack Accelerator Search Technique for Vision Applications - https://arxiv.org/abs/2103.12842v2
6. Rethinking Co-design of Neural Architectures and Hardware Accelerators - https://arxiv.org/abs/2102.08619
7. Placement Optimization with Deep Reinforcement Learning - https://dl.acm.org/doi/abs/10.1145/3372780.3378174
8. SmartChoices: Augmenting Software with Learned Implementations - https://arxiv.org/abs/2004.13053
9. Fast Inference from Transformers via Speculative Decoding - https://arxiv.org/abs/2211.17192
10. GAP: Generalizable Approximation for Graph Partitioning Framework - https://arxiv.org/abs/1904.00614
11. Combining Machine Learning and Lifetime-based Resource Management for Memory Allocation and Beyond - https://dl.acm.org/doi/10.1145/3611018
12. A Flexible Approach to Autotuning Multi-Pass Machine Learning Compilers - https://arxiv.org/abs/2106.06970
13. TeraMalloc: Efficient On-Chip Memory Allocation for Production Machine Learning Accelerators - https://dl.acm.org/doi/10.1145/3579555.3597991
14. A Reinforcement Learning Driven Heuristic Optimization Framework - https://arxiv.org/abs/1906.06639
15. GDP: Generalized Device Placement for Dataflow Graphs - https://arxiv.org/abs/1910.01578
16. A Hierarchical Model for Device Placement - https://arxiv.org/abs/1711.03254
17. Device Placement Optimization with Reinforcement Learning - https://arxiv.org/abs/1706.04792
18. That Chip Has Sailed: A Critique of Unfounded Skepticism Around AI for Chip Design - https://arxiv.org/abs/2411.10053
Смотреть тут
🔥29👍16❤8🤯4
Data Secrets
А пока Nvidia справляется с кризисам, а Хуанга вызывает на ковер Минюст США, давайте посмотрим, как в 2020 году он доставал из какой-то духовки и впервые показывал миру легендарную A100
This media is not supported in your browser
VIEW IN TELEGRAM
Дженсен Хуанг снова достает что-то из духовки: на этот раз это новенькая Jetson Nano Super от Nvidia!
Это только что представленная компанией видеокарта, оптимизированная под робототехнику и ИИ. Мощность – 70Т операций в секунду. Пропускная способность памяти – 102GB в секунду. 32 Tensor Cores. В релизе пишут, что чип ускоряет инференс моделек в 1.7 раз!
Стоить будет всего 249 долларов (почти как подписка OpenAI). По сравнению с оригинальным Jetson Nano это 53-кратное улучшение соотношения цены и вычислительных возможностей и 134-кратный рост производительности.
https://blogs.nvidia.com/blog/jetson-generative-ai-supercomputer/
Это только что представленная компанией видеокарта, оптимизированная под робототехнику и ИИ. Мощность – 70Т операций в секунду. Пропускная способность памяти – 102GB в секунду. 32 Tensor Cores. В релизе пишут, что чип ускоряет инференс моделек в 1.7 раз!
Стоить будет всего 249 долларов (почти как подписка OpenAI). По сравнению с оригинальным Jetson Nano это 53-кратное улучшение соотношения цены и вычислительных возможностей и 134-кратный рост производительности.
https://blogs.nvidia.com/blog/jetson-generative-ai-supercomputer/
🔥128👍18❤14🤯10😁3
Media is too big
VIEW IN TELEGRAM
9 день стримов OpenAI из 12: сегодня показывают много новых фичей API o1
➡️ В API o1 наконец-то завезли работу с изображениями, внутренние вызовы ассистентов (например, когда модели нужно что-то посчитать) и структурированные выводы в json
➡️ Более тонкая настройка следования инструкциям: можно определять developer промпты и задавать их "важность" относительно промптов юзера
➡️ Reasoning effords: теперь можно самостоятельно настраивать, сколько модель должна думать. Пожалуй, самая долгожданная фича
➡️ Также показали preference finetuning. Новый вид файнтюнинга, специально под пользовательские предпочтения в режиме датасета «хорошо-плохо». Пока доступно для GPT-4o, скоро обещают завезти в o1
А еще в Realtime API добавили WebRTC (кстати, цены на Realtime API снизили более чем вдвое), и прямо на стриме разработчики с помощью 50 строк кода и мини-чипа сделали говорящую игрушку северного оленя. Теперь OpenAI и прозводителей игрушек прижали?
А еще в Realtime API добавили WebRTC (кстати, цены на Realtime API снизили более чем вдвое), и прямо на стриме разработчики с помощью 50 строк кода и мини-чипа сделали говорящую игрушку северного оленя. Теперь OpenAI и прозводителей игрушек прижали?
Please open Telegram to view this post
VIEW IN TELEGRAM
👍40❤19😁5🔥4🤯2🍌2
This media is not supported in your browser
VIEW IN TELEGRAM
Еще один потрясающий пример генерации новой Veo-2 от Google показали в X
Промпт: «Медведь, записавший решение уравнения 2x-1=0. Но только решение!»
Итог: модель действительно решила уравнение и нарисовала медведя с ответом. Поразительный, очень показательный кейс. Интересно было бы посмотреть, какая там LLM-предобработка перед отправлением в диффузию.
Промпт: «Медведь, записавший решение уравнения 2x-1=0. Но только решение!»
Итог: модель действительно решила уравнение и нарисовала медведя с ответом. Поразительный, очень показательный кейс. Интересно было бы посмотреть, какая там LLM-предобработка перед отправлением в диффузию.
🔥134👍21❤🔥11
Data Secrets
Еще один потрясающий пример генерации новой Veo-2 от Google показали в X Промпт: «Медведь, записавший решение уравнения 2x-1=0. Но только решение!» Итог: модель действительно решила уравнение и нарисовала медведя с ответом. Поразительный, очень показательный…
Ситуация следующая:
😁135👍15❤10
Давненько мы с вами базу генеративных моделей не вспоминали, к слову. Вот подборка статей со всей необходимой теорией и классическими архитектурами. Прочитайте – и всякая генерация изображений и видео будет понятнее:
➡️ GAN - arxiv.org/pdf/1406.2661
➡️ VAE - arxiv.org/pdf/1312.6114
➡️ VQ VAE - arxiv.org/pdf/1711.00937
➡️ VQ VAE 2 - arxiv.org/pdf/1906.00446
➡️ Diffusion - arxiv.org/pdf/1503.03585
➡️ Denoising Diffusion - arxiv.org/pdf/2006.11239
➡️ Denoising Diffusion 2 - arxiv.org/pdf/2102.09672
➡️ Diffusion Beats GANs - arxiv.org/pdf/2105.05233
➡️ CLIP - arxiv.org/pdf/2103.00020
➡️ DALL E - arxiv.org/pdf/2102.12092
➡️ DALL E 2 - arxiv.org/pdf/2204.06125
Please open Telegram to view this post
VIEW IN TELEGRAM
👍45🤯14🔥11❤10
В сообществе резонирует блогпост HuggingFace, в котором ресерчерам удалось заскейлить Llama 3B так, что она обогнала Llama 70B
В стартапе решили проверить, насколько масштабируем test-time compute. Когда выходила o1 и другие ризонинг-модели, мы все видели графики, которые показывали, что чем дольше модель "думает" во время инференса, тем больший скор выбивает (см. например, посты тут и тут с такими картинками). А будут ли такие результаты воспроизводиться на открытых предобученных моделях?
Оказывается, будут, да еще как. В HF в своем подходе исследователи базово пытались просто воссоздать подход из статьи DeepMind про Compute-Optimal Scaling. По названия ясно, что это подход пытается за счет увеличения вычислительных ресурсов в момент инференса повысить перформанс модели.
На практике это работает по принципу Search Against a Verifier: модель генерирует множество ответов, а финальные кандидаты выбираются с помощью другой модели – оценщика. В данном случае в качестве оценщика взяли Llama3.1-8B-PRM-Deepseek-Data, и оценивали рассуждения на каждом шаге, сразу отсекая ошибочные ветки. Обычный Majority Voting и Best-of-N тоже пробовали, но такой вот beam search с оценками на каждом шаге показал себя гораздо лучше.
К этому, кстати, потом прикрутили DVTS (Diverse Verifier Tree Search). Это уже собственный наворот HF, в статье гугла такого нет. В отличие от стандартного beam search, который выбирает наиболее перспективные пути, DVTS разделяет начальные "лучи" на независимые поддеревья. Это прекрасно тем, что, в отличие от beam search на больших вычислительных бюджетах метод не вырождается в сильно похожие решения, а сохраняет некоторое разнообразие и скейлится, соответственно, лучше.
Итог: совсем крохотные модели типа Llama-1B и 3B дали на инференсе производительность, сопоставимую с Llama-3B и 70В соответственно! Это значит, что можно запускать локальные маленькие модели, а качество получать, как у больших, и это просто за счет оптимального масштабирования вычислений на инференсе.
Читать полностью здесь
В стартапе решили проверить, насколько масштабируем test-time compute. Когда выходила o1 и другие ризонинг-модели, мы все видели графики, которые показывали, что чем дольше модель "думает" во время инференса, тем больший скор выбивает (см. например, посты тут и тут с такими картинками). А будут ли такие результаты воспроизводиться на открытых предобученных моделях?
Оказывается, будут, да еще как. В HF в своем подходе исследователи базово пытались просто воссоздать подход из статьи DeepMind про Compute-Optimal Scaling. По названия ясно, что это подход пытается за счет увеличения вычислительных ресурсов в момент инференса повысить перформанс модели.
На практике это работает по принципу Search Against a Verifier: модель генерирует множество ответов, а финальные кандидаты выбираются с помощью другой модели – оценщика. В данном случае в качестве оценщика взяли Llama3.1-8B-PRM-Deepseek-Data, и оценивали рассуждения на каждом шаге, сразу отсекая ошибочные ветки. Обычный Majority Voting и Best-of-N тоже пробовали, но такой вот beam search с оценками на каждом шаге показал себя гораздо лучше.
К этому, кстати, потом прикрутили DVTS (Diverse Verifier Tree Search). Это уже собственный наворот HF, в статье гугла такого нет. В отличие от стандартного beam search, который выбирает наиболее перспективные пути, DVTS разделяет начальные "лучи" на независимые поддеревья. Это прекрасно тем, что, в отличие от beam search на больших вычислительных бюджетах метод не вырождается в сильно похожие решения, а сохраняет некоторое разнообразие и скейлится, соответственно, лучше.
Итог: совсем крохотные модели типа Llama-1B и 3B дали на инференсе производительность, сопоставимую с Llama-3B и 70В соответственно! Это значит, что можно запускать локальные маленькие модели, а качество получать, как у больших, и это просто за счет оптимального масштабирования вычислений на инференсе.
Читать полностью здесь
🔥94👍23❤🔥6❤4🤗2