Data Secrets
77.3K subscribers
6.04K photos
592 videos
20 files
2.42K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
EpochAI говорят, что в 2025 нас ждет еще больше моделей, обученных на огромных кластерах

Сейчас примерная планка передовых моделей – 10^25 FLOP (10 септиллионов операций с плавающей запятой). В переводе на железо это больше 5к H100 и больше 15к А100.

Всего сейчас таких моделей насчитывают 24. Первой стала GPT-4. В 2023 ее обучали на 25000 А100, следом пошли Inflection-2 и Gemini.

Если тенденции сохранятся, в этом году таких моделей станет намного больше. Нечто подобное уже случалось: GPT-3 обучался на 10^23 FLOP в 2020 году, а к 2024 было уже 80+ моделей выше этого уровня.

epoch.ai/data/large-scale-ai-models
👍47🔥178
Data просто хочет быть свободной
😁330👍6017💯10🔥52
Сэм продолжает тратить инвестиции на мощное железо и пообещал, что завтра нас ждут какие-то апдейты 😉
Please open Telegram to view this post
VIEW IN TELEGRAM
58😁17🔥10🍌2👍1
CEO Nvidia вызвали на ковер в Белый Дом

По сообщениям сразу нескольких СМИ Трамп и Хуанг должны встретиться сегодня, в пятницу. Цель встречи неизвестна, предположительно разговор пойдет о DeepSeek и о том, как они могли заполучить GPU несмотря на ограничения США.

Напоминаем, что сразу после выхода R1 акции Nvidia драматично обвалились, убытки компании составили сотни миллиардов долларов
👍86🌚37🔥23😁173🕊21
🚀 Вышла o3-mini

Модель будет доступна даже для бесплатных юзеров (правда, лимиты будут небольшие, скорее всего). С ней можно будет использовать поиск + она сразу же доступна в API по цене ниже o1.

В зависимости от скейла рассуждений o3 либо немного хуже o1-mini (low режим, самый дешевый), либо немного лучше нее (medium режим), либо обходит даже полноценную o1 (high режим).

🍯 🍯 🍯
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍77😎2011🔥7🍌4👏2😁1
Вышли результаты o3-mini на LiveBench

(Livebench примечателен тем, что он постоянно обновляется, минимизируя всевозможные лики и гарантируя, что задачи не устаревают и не становятся слишком простыми. В общем это почти как арена)

На кодинге модель рвет абсолютно всех с огромным отрывом, и в среднем она лучше R1 (но не по математике).

В математике, кстати, сначала результаты были аномально низкими, но затем организаторы признались, что случайно допустили ошибку, и пересчитали среднее.
👍70🔥1712
OpenAI смотрит в сторону опенсорса

Вчера в честь выхода o3-mini Сэм Альтман запустил на реддите AMA (ask me anything). Его спросили, не планирует ли стартап релизить какие-нибудь веса или ресерчи, на что Сэм ответил так:

«Да, мы обсуждаем это. Лично я считаю, что мы оказались на неправильной стороне истории и нам необходимо разработать другую стратегию опенсорса. Но не все в openai разделяют эту точку зрения. Также это не является для нас высшим приоритетом на данный момент»


Кроме того, в этом треде с лидами OpenAI поднялись еще несколько интересных тем:

Сэм признал, что DeepSeek очень хорош. «Мы, конечно, создадим лучшие модели, но сохраним меньшее преимущество, чем раньше», – сказал он.

На вопрос о том, каким будет ИИ в 2030, вице-президент по инжинирингу Шринивас Нараянан предсказал, что к тому времени наше взаимодействие с ИИ «в корне изменится», поскольку он будет постоянно работать над задачами в фоновом режиме от нашего имени.

Вскоре нас ждут обновления в голосовом режиме, а еще OpenAI все еще планирует выпустить GPT-5. Таймлайна пока нет, но Сэм написал: «быстрый взлет ИИ более вероятен, чем я думал пару лет назад».

Прочитать ама полностью можно здесь
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
😁75👍36🔥119🐳3🍌3
Пользователи, кстати, заметили, что o3-mini может думать даже дольше, чем o1 full. Время раздумий в режиме high доходит до 10 минут, а длина цепочек рассуждений достигает 44 страниц
🤯121🔥239👍6😁4🗿3
Data Secrets
При этом не все верят, что с вычислениями в DeepSeek все так уж просто CEO ScaleAI Александр Ванг вот говорит, что на самом деле у компании есть кластер с 50к H100 (неплохо, мягко говоря), но они не могут это разглашать из-за текущих условий экспорта США.…
The Kobeissi Letter провели интересное расследование и выяснили, могли ли действительно DeepSeek нелегально выкупать чипы Nvidia

Напоминаем, что несколько дней назад стартап обвинял в этом известный предприниматель и CEO ScaleAI Александр Ванг. Он говорил (и его поддержал Илон Маск), что на самом деле у компании есть кластер с 50к H100, но они не могут это разглашать, так как из-за текущих условий экспорта США закупали GPU нелегально.

И действительно: в Сингапуре, через который предположительно закупались видеокартами DeepSeek, с момента основания стартапа продажи чипов скакнули на колоссальные +740%.

Кроме того, в отчетных документах Nvidia исследователи нашли следующую занятную строку:

«Место конечного потребителя и место доставки могут отличаться от места выставления счета нашему клиенту. Например, большинство оборудования, которое продается в Сингапур, находится в других регионах»


Казалось бы, с чего бы Nvidia отдельно отмечать Сингапур в своих документах? А оказывается с того, что за последние 3 квартала Сингапур принес Nvidia рекордную прибыль в $17.4 млрд и оказался на втором месте среди стран потребителей. Для сравнения, в Китай продали железа на $11.6 млрд.

При этом темпы роста выручки в Сингапуре растут даже быстрее, чем в США (+278% против +133%). Вы скажете «но может быть они все эти GPU используют сами?»

Но нет. В Сингапуре всего 99 датацентров, в то время как в США их 5к+, а в Китае около 500. 99 датацентров – это даже не топ-20 стран мира, это примерно уровень Польши.

Так куда же деваются все эти видеокарты?

США этот вопрос тоже интересует, и поэтому они начинают расследование. Если ограничат продажи в Сингапур, под угрозой окажется около 20% доходов Nvidia.

💀
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥74😁48👍25👀127🤯6🫡4