Data Secrets
77.3K subscribers
6.04K photos
592 videos
20 files
2.42K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Deep Research будет доступен бесплатным пользователям

Альтман сказал, что в плюсе будет доступно 10 запросов в месяц, а во фри плане – 2, и со временем это будут масштабировать. Он также написал следующее:

«В долгосрочной перспективе нам все еще предстоит найти способ позволить людям платить за вычислительные ресурсы, которые они хотят использовать более динамично»


Такая подписка, конечно, была бы революционной в мире чат-ботов. Представьте: вы платите не за план, а динамически настраиваете себе ресурсы, которые можете оптимизированно тратить на любую модель или продукт в зависимости от ваших задач.
👍105🔥299🤔4😁2❤‍🔥1
Что-то замышляют?
😁216🗿3315💯11🔥7🦄6❤‍🔥3👍1🎄1
⚡️ o3 не будет. Зато будет GPT-4.5 и GPT-5

Сэм Альтман внезапно запостил в X планы OpenAI. GPT-4.5 (aka тот самый Orion, для которого из o3 генерировали синтетику) станет последней не-ризонинг моделью и выйдет уже в течение нескольких недель.

После этого компания надеется создать единую модель, которая будет воплощать в себе все технологии OpenAI, включая o3: GPT-5. По словам Сэма, она сама будет знать, когда думать дольше, а когда нет. Также в нее интегрируют голосовой режим, агентов, поиск и canvas.

При этом GPT-5 будет доступна бесплатно! А Plus и Pro юзеры смогут запускать ее на более высоком уровне компьюта.

Мы хотим, чтобы ИИ «просто работал» для вас, и мечтаем вернуться к единому волшебному интеллекту вместо множества моделей, из которых приходится выбирать
Please open Telegram to view this post
VIEW IN TELEGRAM
23🔥213👍4224👀10🤔7🍌72❤‍🔥2🫡1
В Nvidia попробовали генерировать оптимизированные GPU-ядра с помощью DeepSeek R1 и получили решения, превосходящие скорость PyTorch

Так как атеншн в языковых моделях очень прожорливый, инженеры оптимизируют вычисления на уровне ядер GPU. И это непростая задача, потому что видов внимания много, и их нужно комбинировать, а еще там куча заморочек с мультимодалками.

Вот в Nvidia и попробовали с помощью простого пайплайна генерировать CUDA код автоматически с R1.

В итоге решения, которые она написала, превосходят по производительности стандартные решения PyTorch API в 1.1—2.1 раза. К тому же модель почти никогда не ошибается, особенно на высоком уровне бюджета на рассуждения.

Получается, страдать и учить CUDA теперь необязательно 🥳

Блогпост
Please open Telegram to view this post
VIEW IN TELEGRAM
148🔥73👍28🤔19😁10🕊2🍌1
Data Secrets
Илон Маск пытается купить OpenAI и настроен серьезно Начальная ставка от его группы инвесторов за контрольный пакет акций – $97.4 млрд (1/5 Stargate). В документе также написано, что они готовы перебить любые другие ставки, если OpenAI собирается их рассматривать.…
Маск заявил, что отзовет свою заявку на покупку OpenAI, если некоммерческий совет директоров остановит преобразование организации в коммерческую

Собственно, ничего удивительного. Сразу было понятно, что цель Илона была именно в том, чтобы отнять у Альтмана некий финансовый контроль совета директоров и надавить на них.

Адвокаты OpenAI тем временем говорят, что Маск делает все для того, чтобы подорвать позиции конкурента и утверждают, что все его действия неправомерны.
😁123🔥22🤯11❤‍🔥5🗿5👍4👀32🕊2🍌2🦄2
В Apple изучили законы масштабирования дистилляции и написали об этом интересную работу

Дистилляция в последнее время уж очень всем полюбилась. С помощью нее можно как бы "перекачивать" знания из большой модели-учителя в маленькую модель-ученика, заставляя ученика предсказывать генерации и иногда промежуточные состояния учителя. Таким образом было получено ну очень много моделей, которыми мы пользуемся и особенно которые запускаем локально.

С другой стороны дистилляция непредсказуема. Например, насколько глупее учителя получается ученик в зависимости от разницы в количестве параметров? Насколько это эффективнее обучения с нуля? Или насколько быстро обучение выходит на плато?

Apple изучали как раз такие вопросы и вот к каким выводам эмпирически пришли:

Кажется, что чем мощнее учитель, тем лучше получится дистилляция. Оказалось, это миф. Слишком мощный учитель может ухудшить обучение ученика из-за capacity gap, при котором ученик не может эффективно усваивать "уроки".

На дистилляцию распространяется общий закон масштабирования моделей. Это значит, что добавление данных и увеличение модели снижает ошибку, но с убывающей отдачей. Работает и для учителя, и для ученика.

Есть способ оптимизировать дистилляцию и описывается он вполне конкретным уравнением, которое зависит от размера ученика и доступного бюджета вычислений.

От выбора учителя тоже много чего зависит. Чем больше ученик, тем мощнее должен быть учитель, но эта зависимость следует степенному закону, так что нужно очень внимательно подбирать соотношение параметров.

И да, дистилляция эффективнее ванильного обучения, но только в пределах определённого бюджета вычислений. Если данных и вычислений достаточно, супервизионное обучение всегда будет лучше.


Супер-полезное исследование для практики, на самом деле. Прямо готовые рецепты удачного обучения arxiv.org/pdf/2502.08606
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
90👍59🔥206
А вы знали, что существует организация Stop AI?

Это общественное объединение, и они борются за то, чтобы навсегда запретить разработку AGI и ASI во избежании вымирания человечества.

А еще они проводят митинги в Сан-Франциско и расследуют гибель ресерчера Сухири Баладжи из OpenAI, который рассказал журналистам о том, как OpenAI нарушает авторские права, а затем внезапно совершил самоубийство.

Рабочий слоган StopAI «AI will kill us all» и их логотип вообще не нуждается в комментариях 👆

Теперь вы в курсе
1🤯145😁70👍47🤪2112🫡96🤔6👏2🗿2
Вышло двухчасовое интервью с легендами Google Джеффом Дином и Ноамом Шазиром

Джефф сейчас старший научный сотрудник Google Brain. Он разрабатывал MapReduce, BigTable, Tensorflow, AlphaChip и Gemini.

А Ноам – это фаундер Character AI, которому Google недавно заплатили 2.7 миллиарда долларов за то, чтобы он вернулся в компанию со своей технологией.

Поговорили про MoE, новые архитектуры, 25-летнее становление Google и AI в нем, AlphaChip, AGI и экономику ИИ.

Нарезали для вас немного интересных цитат:

ИИ уже генерирует 25% кода Google. Мы обучили Gemini на своей внутренней кодовой базе, и это помогает разработчикам.


К 2030 году агенты будут повсюду, мировой ВВП вырастет на несколько порядков и мы решим проблему неограниченной энергии.


AGI будет одним гигантским MoE, который не обучается весь сразу, а выращивается частями


youtu.be/v0gjI__RyCY?si=82zRs8B6w2jusxlg
🔥86👍27🤪2212🤔5🦄2🎄1
Вышел новый бенчмарк EnigmaEval, на котором все модели выбивают ровно 0

Его выпустили рисерчеры из ScaleAI (те самые, которые составляли знаменитый Humanity’s Last Exam) и он состоит из длинных и сложных головоломок, на решение которых людям требуются дни. Несколько примеров мы оставили наверху (сможете решить?)

На нормальном уровне сложности большинство моделей выбивают 0.5-1.3%, а o1 – 7%. Но если переключится на задачи высокой сложности, некоторые из которых разрабатывали для студентов MIT, все дают одинаковый результат: 0.

(DeepSeek в тесте нет, потому что для прохождения требуется мультимодальность)

Интересно, что покажет o3-mini. В нее как раз вчера добавили возможность грузить файлы и картинки.

Статья | Блогпост + лидерборд
👍97🔥40😁169🎃1
Современное 14 февраля требует современных валентинок 😎
Please open Telegram to view this post
VIEW IN TELEGRAM
😁12218🦄17😐6👍5🤩4🐳3🌚2🙈1
OpenAI выкатили гайд по тому, как правильно обращаться с ризонинг-моделями

Ризонинг-модели отличаются от серии GPT и не всегда могут оказаться полезнее обычных для всех типов задач. Их скорее стоит использовать для неоднозначных, многошаговых тасок по математике, инженерии или финансам. И промптить их стоит более осознанно.

Итак, записываем рекомендации от OpenAI:

🟦 Будьте проще и прямо выражайте, что вам нужно. Не используйте уловки типа «думай шаг за шагом» или «сделай глубокий вдох и хорошо подумай». Это все не только не работает с ризонерами, но и может подпортить качество ответа.

🟦 Обязательно используйте разделители, заголовки, абзацы и маркдаун (или даже теги xml). Не кормите ризонерам полотно текста, лучше разделять промпт на понятные части.

🟦 Не обязательно париться с примерами, это может сбить модель. Сначала пробуйте zero-shot без примеров вообще, а потом добавляйте их, если будет необходимо.

🟦 Если что-то не получилось с первого раза, часто модели достаточно ответить просто «подумай еще».

🟦 Сразу убедитесь, что в самом первом промпте предоставили всю нужную информацию и ограничения. Если будете добавлять ограничения по ходу диалога, это может ухудшить ответы.


Бежим пробовать 🏃‍♂️
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15231🤯137💅6🗿4