Data Secrets
77.4K subscribers
6.04K photos
592 videos
20 files
2.42K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Противостояние Илона Маска и OpenAI выходит на новый уровень: теперь стартап пишет гневные разоблачения прямо на своем сайте

Контекст: в 2015, когда OpenAI только открывалась, Маск был одним из основателей и главным инвестором. Затем он из OpenAI ушел, а теперь уже четвертый раз за год пытается их засудить разными исками. Формулировки претензий каждый раз меняются, но главная мысль остается фиксированной: якобы OpenAI не следуют своей миссии и концентрируются на зарабатывании денег, а их намерение стать коммерческой организацией – вообще чистое надувательство инвесторов и пользователей.

OpenAI довольно долгое время мало комментировала ситуацию, но тут они выкатили целую статью на своем сайте под названием "Илон Маск сам хотел сделать OpenAI коммерческой":

➡️ В статье говорится, что Илон с самого начала не хотел делать стартап некоммерческим, а в 2017 году еще раз сам подталкивал глав OpenAI к тому, чтобы все-таки перейти в статус коммерческой организации

➡️ И Альтман (в 2017) с этим согласился, но тут Маск потребовал себе контрольный пакет акций, абсолютный контроль и должность генерального директора

➡️ Конечно, в OpenAI посчитали, что это как-то слишком жирно, и Маску отказали. Тогда он ушел из OpenAI, создал собственную организацию «Open Artificial Intelligence Technologies, Inc.» и говорил OpenAI, что их ждет провал, если они не объединятся с теслой

"Теперь, когда OpenAI является ведущей исследовательской лабораторией ИИ, а Илон управляет конкурирующей ИИ-компанией, он пытается с помощью суда помешать нам эффективно выполнять нашу миссию. Мы с большим уважением относимся к достижениям Илона и благодарны за его ранний вклад в OpenAI, но он должен конкурировать на рынке, а не в зале суда.

Вы не можете подать в суд на AGI."


Ух, ну и страсти, почитайте сами
Please open Telegram to view this post
VIEW IN TELEGRAM
👍51😁23137
Data Secrets
Противостояние Илона Маска и OpenAI выходит на новый уровень: теперь стартап пишет гневные разоблачения прямо на своем сайте Контекст: в 2015, когда OpenAI только открывалась, Маск был одним из основателей и главным инвестором. Затем он из OpenAI ушел, а…
К слову, Маск сегодня поделился тем, что количество веб-запросов «Grok» впервые достигло более 50% от количества запросов «ChapGPT»

Однако пользователи заметили, что на скрине, почему-то, статистика только по Японии 🤷‍♂️
Please open Telegram to view this post
VIEW IN TELEGRAM
😁166🤯6👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Meta тем временем продолжают сыпать под елочку крутые релизы

Сегодня они выкатили Apollo (веса, статья) – семейство современных видео-LMM, в которых отдельно прокачаны скиллы понимания длинных видео. Модели могут обрабатывать действительно огромные ролики длительностью до часа, отвечать по ним на вопросы и достаточно точно отслеживать персонажей, смену сцен и тд.

При этом все три релизнутые модели совсем малышки – 1.5B, 3B и 7B. На LongVideoBench в своих весах все они выбивают SOTA (а 3B даже бьет многие модельки покрупнее себя).

Как в Meta такого добились? Просто очень-очень умно перебирали гиперпараметры 😀

Серьезно, они выяснили, что большинство архитектурных и тренировочных трюков, которые работают на мини-модельках, сохраняют свою релевантность при масштабировании до более крупных. Это назвали Scaling Consistency. В итоге обучали 84 варианта моделей (большинство по 500М), на которых перепробовали кучу архитектурных вариаций, сделали выводы и пошли обучать Apollo.

Основные фичи, которые они выделяют и советуют использовать:
- предпочтительнее сохранять равномерное сэмлирования кадров
- использовать комбинированные энкодеры (в Apollo взяли SigLIP-SO400M + InternVideo2)
- добавлять ~10–14% текстовых данных в датасет
- размораживать компоненты модели и обучать их постепенно
- для сжатия использовать Perceiver Resampler

В общем, вы поняли: дедовский гридсерч уже не в моде. Так что пользуемся 🎅
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥55👍195
8 из 12 день адвент-календаря OpenAI: показывают обновления для SearchGPT

➡️ Теперь не обязательно включать поиск вручную, он будет подключаться по мере вашего разговора с GPT, даже в голосовом режиме. При этом прямо в приложении можно кликать на ссылки и открывать превью веб-страниц без перехода в браузер. Даже карты можно смотреть прямо в чате.

➡️ Поиск стал быстрее и умнее

➡️ Все это будет доступно всем фри юзерам

Кроме того, теперь можно использовать GPT как дефолтный поисковик в браузере. Интересно, как там настроение у Perplexity и Google?

P.S. Завтра девдей, будет много всего для разработчиков
Please open Telegram to view this post
VIEW IN TELEGRAM
15412😁8👍7❤‍🔥1
Google выпустили Veo 2, и все трубят, что она круче SORA

По тестам от самих Google, генерации Veo пользователи предпочитали генерациям SORA в 58.8% случаев. Ролики действительно поражают (особенно примеры с помидором, спагетти и картами). При этом некоторые из них пользовательские, и те же промпты в соре честно отрабатывают хуже.

Длина генераций – 8 секунд, а разрешение может доходить до 4К! В лист ожидания можно записаться тут, вроде кому-то уже даже начали раздавать доступ

Блогпост с кучей примеров
1🔥58👍10💘6🎄2
Почему модели генерации видео развиваются так быстро, а с LLM столько проблем?

Если честно, я не вполне интуитивно понимаю, почему модели генерации видео так хороши (сложные, многосекундные текстуры высокого разрешения, отражения и все такое), в то время как LLM, условно говоря, до сих пор неуклюже справляются с текстом длиной около нескольких сотен слов. – написал сегодня в своем Твиттере Андрей Карпаты, вдохновленный, видимо, новой Veo-2.


На что один из инженеров Google, который сейчас работает в команде Gemini post-training, высказал пару очень интересных мыслей, в которые стоит вчитаться:

Во-первых, видео и фото содержат гораздо больше информации. За одну условную единицу компьюта из таких структур модель извлекает намного больше выводов, чем из текста, потому что текст последователен и линеен, а видео-контент семантически «более глубокий».

Во-вторых, для visual проще собрать качественные данные. В тексте мы ограничены объемами датасетов, и чтобы создать новые данные, требуется очень много сил и времени. А для видео и фото достаточно камеры и/или видеоигр, и вот у тебя уже есть почти неисчерпаемые ресурсы для обучения.

В-третьих, оценивать видео легко, и сделать это может любой человек, не являющийся экспертом. С текстом все сложнее, оценивать его дорого, а сами модели с такой задачей тоже пока что справляются не идеально.

В итоге выходит, что несмотря на то, что видео и фото интуитивно кажутся нам структурно более сложными, чем текст, на самом деле обучаться на них гораздо проще. Потому то мы и видим сейчас такой прогресс в генераторах, учитывая даже, что из развитие началось гораздо позже, чем развитие языковых моделей.
1🔥96👍3312🍓2
Забавный юзеркейс: у ChatGPT спросили, что он запомнил из всех обучающих данных и попросили обобщить это в одном предложении

Ответ получился в стиле идущего к реке:

Из огромного количества человеческого текста, который я потребил, я узнал, что то, что мы называем «пониманием», не является фиксированной конечной точкой или стабильным хранилищем фактов, а скорее постоянно отступающей фрактальной береговой линией выводов и переосмысления, где каждый новый контекст освещает более тонкие аспекты смысла, каждый аспект побуждает к дальнейшим связям, и, таким образом, понимание вечно расширяется и трансформируется, а не замирает, бросая вызов любой единичной, окончательной инкапсуляции.


А вам что отвечает?
167🔥47❤‍🔥11😁9👍7🗿4💯2🤯1
Еще одна прекрасная лекция с NeurlPS 2024, на этот раз от Джеффа Дина

Рассказывал много интересного про чипы и ИИ в Google, и даже дропнул целый список референсных статей ( от Гугл, конечно), которые посоветовал прочитать, чтобы «лучше понимать современную ИИ-разработку». Забирайте в удобном формате:

1. A Graph Placement Methodology for Fast Chip Design - https://arxiv.org/abs/2006.09423v1
2. In-datacenter Performance Analysis of a Tensor Processing Unit - https://dl.acm.org/doi/10.1145/3079856.3080245
3. Ten Lessons From Three Generations Shaped Google’s TPU-v4: Industrial Product - https://ieeexplore.ieee.org/document/9490913
4. Learning Semantic Representations to Verify Hardware Designs - http://openreview.net/pdf?id=ohHq4gJJe0
5. A Full-stack Accelerator Search Technique for Vision Applications - https://arxiv.org/abs/2103.12842v2
6. Rethinking Co-design of Neural Architectures and Hardware Accelerators - https://arxiv.org/abs/2102.08619
7. Placement Optimization with Deep Reinforcement Learning - https://dl.acm.org/doi/abs/10.1145/3372780.3378174
8. SmartChoices: Augmenting Software with Learned Implementations - https://arxiv.org/abs/2004.13053
9. Fast Inference from Transformers via Speculative Decoding - https://arxiv.org/abs/2211.17192
10. GAP: Generalizable Approximation for Graph Partitioning Framework - https://arxiv.org/abs/1904.00614
11. Combining Machine Learning and Lifetime-based Resource Management for Memory Allocation and Beyond - https://dl.acm.org/doi/10.1145/3611018
12. A Flexible Approach to Autotuning Multi-Pass Machine Learning Compilers - https://arxiv.org/abs/2106.06970
13. TeraMalloc: Efficient On-Chip Memory Allocation for Production Machine Learning Accelerators - https://dl.acm.org/doi/10.1145/3579555.3597991
14. A Reinforcement Learning Driven Heuristic Optimization Framework - https://arxiv.org/abs/1906.06639
15. GDP: Generalized Device Placement for Dataflow Graphs - https://arxiv.org/abs/1910.01578
16. A Hierarchical Model for Device Placement - https://arxiv.org/abs/1711.03254
17. Device Placement Optimization with Reinforcement Learning - https://arxiv.org/abs/1706.04792
18. That Chip Has Sailed: A Critique of Unfounded Skepticism Around AI for Chip Design - https://arxiv.org/abs/2411.10053

Смотреть тут
🔥29👍168🤯4
Data Secrets
А пока Nvidia справляется с кризисам, а Хуанга вызывает на ковер Минюст США, давайте посмотрим, как в 2020 году он доставал из какой-то духовки и впервые показывал миру легендарную A100
This media is not supported in your browser
VIEW IN TELEGRAM
Дженсен Хуанг снова достает что-то из духовки: на этот раз это новенькая Jetson Nano Super от Nvidia!

Это только что представленная компанией видеокарта, оптимизированная под робототехнику и ИИ. Мощность – 70Т операций в секунду. Пропускная способность памяти – 102GB в секунду. 32 Tensor Cores. В релизе пишут, что чип ускоряет инференс моделек в 1.7 раз!

Стоить будет всего 249 долларов (почти как подписка OpenAI). По сравнению с оригинальным Jetson Nano это 53-кратное улучшение соотношения цены и вычислительных возможностей и 134-кратный рост производительности.

https://blogs.nvidia.com/blog/jetson-generative-ai-supercomputer/
🔥128👍1814🤯10😁3
Media is too big
VIEW IN TELEGRAM
9 день стримов OpenAI из 12: сегодня показывают много новых фичей API o1

➡️ В API o1 наконец-то завезли работу с изображениями, внутренние вызовы ассистентов (например, когда модели нужно что-то посчитать) и структурированные выводы в json

➡️ Более тонкая настройка следования инструкциям: можно определять developer промпты и задавать их "важность" относительно промптов юзера

➡️ Reasoning effords: теперь можно самостоятельно настраивать, сколько модель должна думать. Пожалуй, самая долгожданная фича

➡️ Также показали preference finetuning. Новый вид файнтюнинга, специально под пользовательские предпочтения в режиме датасета «хорошо-плохо». Пока доступно для GPT-4o, скоро обещают завезти в o1

А еще в Realtime API добавили WebRTC (кстати, цены на Realtime API снизили более чем вдвое), и прямо на стриме разработчики с помощью 50 строк кода и мини-чипа сделали говорящую игрушку северного оленя. Теперь OpenAI и прозводителей игрушек прижали?
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4019😁5🔥4🤯2🍌2
This media is not supported in your browser
VIEW IN TELEGRAM
Еще один потрясающий пример генерации новой Veo-2 от Google показали в X

Промпт: «Медведь, записавший решение уравнения 2x-1=0. Но только решение!»

Итог: модель действительно решила уравнение и нарисовала медведя с ответом. Поразительный, очень показательный кейс. Интересно было бы посмотреть, какая там LLM-предобработка перед отправлением в диффузию.
🔥134👍21❤‍🔥11
Давненько мы с вами базу генеративных моделей не вспоминали, к слову. Вот подборка статей со всей необходимой теорией и классическими архитектурами. Прочитайте – и всякая генерация изображений и видео будет понятнее:

➡️GAN - arxiv.org/pdf/1406.2661
➡️ VAE - arxiv.org/pdf/1312.6114
➡️ VQ VAE - arxiv.org/pdf/1711.00937
➡️ VQ VAE 2 - arxiv.org/pdf/1906.00446
➡️ Diffusion - arxiv.org/pdf/1503.03585
➡️ Denoising Diffusion - arxiv.org/pdf/2006.11239
➡️ Denoising Diffusion 2 - arxiv.org/pdf/2102.09672
➡️ Diffusion Beats GANs - arxiv.org/pdf/2105.05233
➡️ CLIP - arxiv.org/pdf/2103.00020
➡️ DALL E - arxiv.org/pdf/2102.12092
➡️ DALL E 2 - arxiv.org/pdf/2204.06125
Please open Telegram to view this post
VIEW IN TELEGRAM
👍45🤯14🔥1110
Все мы немного Антон
😁122👍13💯124🫡1