Data Secrets

OpenAI начинает прогрев перед выпуском GPT-4.5: некоторым Pro-пользователям обновленного приложения на Android «случайно» всплыло уведомление с приглашением попробовать модель.

Попробуйте предварительную исследовательскую версию GPT-4.5 — пользователи Pro теперь имеют доступ к нашей новейшей, самой большой модели.

Все указывает на то, что завтра модель действительно выйдет в виде превью для pro-юзеров, а на остальных покатят позже.

👍81🔥31❤15😁6

14.2K views12:37

Data Secrets

Мастхэв: Google совместно с Kaggle снова открыли регистрацию на тот самый бесплатный курс по генеративным моделям

Он пройдет в формате недельного интенсива с 31 марта по 4 апреля. Каждый день – онлайн лекции, домашки, практики + обсуждения в Дискорде.

В программе актуальная база по основным архитектурам глубокого обучения, устройству LLM, векторным базам данных и MLOps. Курс составляли ML-ресерчеры и инженеры из Google.

В конце, кстати, будет еще и проект-соревнование, так что можно заодно залутать медальку Kaggle.

Еще раз: все бесплатно. Для регистрации нужен только Google аккаунт 🍯

👍89❤22🔥20

19.7K viewsedited 15:03

Data Secrets

Стали известны название и состав нового стартапа Миры Мурати – бывшей CTO OpenAI Напоминаем, что Мира ушла из OpenAI в сентябре. Она почти сразу объявила о том, что собирается открывать собственную компанию и даже уже искала инвестиции и переманивала сотрудников…

Стартап Миры Мурати оценили в 9 миллиардов долларов

Чуть меньше, чем у Суцкевера, конечно, но все еще очень даже прилично для еще ничего не выпустившей компании 🤑

Также пишут, что скоро компания привлечет инвестиции в размере одного миллиарда.

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥85👍28😐21❤16💅7🍌3

15.4K viewsedited 17:43

Data Secrets

⚡️

Microsoft выпустили новое поколение семейства Phi

Phi-4-Multimodal и Phi-4-Mini уже лежат в опенсорсе под лицензией MIT и интегрированы в Transformers.

Мультимодальность включает текст, аудио и видео. Ну куче мультимодальных бенчмарков модель превосходит GPT-4o, Gemini-2.0 Flash и 1.5 Pro. Это первая открытая модель такого уровня поднимания речи и OCR.

В привычных математических и кодинговых задачах тоже неплохо: mini с ризонингом соответствует o1-mini и дистилляциям R1.

Внутри 2 адаптера для видео и аудио + лоры для модальностей в основной модели, чтобы не менять ее собственные веса. Обучали в три внушительных этапа:

1. претрейн на тексте + файнтюн на тексте
2. мультимодальный трейн на vision, audio и vision-speech
3. ризонинг трейн на CoT + обучение с подкреплением с DPO

Веса, веса mini

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥88👍29❤15🤝3😎3❤‍🔥1

16K views07:01

Data Secrets

В Китае придумали, как соединить LLM с диффузией На сегодняшний день все модели работают авторегрессионно, то есть предсказывают следующие токены один за одним на основе предыдущих. Это задача next token prediction. Но исследователи из Китая предложили другой…

This media is not supported in your browser

VIEW IN TELEGRAM

Помните, мы рассказывали про диффузионную языковую модель LLaDA?

Так вот подход, кажется, набирает популярность: стартап Inception Labs выпустил «первую большую диффузионную языковую модель коммерческого масштаба»: Mercury Coder.

Если кратко, идея состоит в том, чтобы вместо генерации токенов один за одним генерировать их в произвольном порядке, как бы постепенно расшумляя замаскированную последовательность (подробнее - в нашем разборе LLaDA).

Самое интересное в этом – скорость. Mercury Coder летает в 5-10 раз быстрее, чем LLM текущего поколения. Это примерно 1000 токенов в секунду на обычной H100.

И метрики при этом вполне конкурентноспособные. На Copilot арене Mercury сейчас на втором месте. Это лучше, чем GPT-4o и Gemini 1.5.

Попробовать сетку можно уже сейчас бесплатно: chat.inceptionlabs.ai/

👍93🔥39❤16🤯7❤‍🔥1

24K viewsedited 09:38

Data Secrets

Четвертый день опенсорса от DeepSeek: библиотека DualPipe

Это инструмент для эффективной параллелизации. Что это значит:

1. Минимизация пайплайн-пузырей. Это, иначе говоря, периоды простоя оборудования, когда какие-то процессоры ничего не считают и просто ждут поступления данных.

В данном случае алгоритм позволяет прямой и обратный проход выполнять одновременно, поэтому этапы передачи перекрываются вычислениями, и обучение значительно ускоряется.

2. Симметричное распределение микробатчей в прямом и обратном проходе, чтобы сбалансировать нагрузку.

3. Хранение меньшего количества активаций. Это происходит как раз за счет симметричности: часть активаций сразу используется для обратного распространения, и их можно вычищать из памяти.

Кстати, один из троих разработчиков библиотеки – Лян Вэньфэн, CEO и основатель DeepSeek. Оказывается, он не просто руководит, но и довольно часто сам пишет код.

github.com/deepseek-ai/DualPipe

👍73🔥41❤15🤯3

14.6K viewsedited 11:43

Data Secrets

OpenAI объявили, что через 4.5 часа проведут лайфстрим

Ждем 4.5 часа и встречаем GPT-4.5 (и скрещиваем пальцы, чтобы доступ дали всем)

1🔥145👍26❤23🍌6

14.5K views15:34

Data Secrets

Я в ожидании стрима OpenAI (он будет тут):

P.S Кстати, сегодня должны были раскатить Advanced Voice на базе GPT-4o mini на всех бесплатных пользователей. У кого появилось?

❤51👍12😁5🍓5🍾3

13.2K viewsedited 18:43

Data Secrets

В твиттер уже утекла системная карта GPT-4.5

«Это наша самая большая модель, которая продолжает парадигму масштабирования претрейна и ризонинга» – пишут в ней

Также в доке есть бенчмарки: много оценок безопасности и чуть-чуть качества. По ощущениям в кодинге хуже, чем o3-mini и даже o1, но отстает не сильно.

Стоит смотреть скорее на приросты относительно GPT-4o (это примерно 10х) + в доке прямо говорят, что это не frontier модель, а новая самая большая модель компании. Она лучше в письме, лучше понимает мир в целом и общение с ней более «человечное».

https://cdn.openai.com/gpt-4-5-system-card.pdf

1😐70❤30👍13🔥8

15.9K views18:57

Data Secrets

Итак, GPT-4.5 вышла

Еще раз: в сравнении с o1 на математике и кодинге модель хуже (неудивительно, это другой подход). Но нельзя бесконечно скейлить только ризонинг, и, с другой стороны, это самая большая и самая накаченная знаниями о мире модель. Она поглотила МНОГО текста и лучше подходит для простых нетехнических задач, креатива, написания текстов, социального взаимодействия и просто разговоров. То есть, это лучшая модель для НЕайти обывателя.

Отдельно отмечают глубокий элаймент и то, что модель стала безопаснее и этичнее. Ее долго тюнили на предпочтения, и ответы получаются емкие и естественные. Кроме того, в GPT-4.5 сократили процент галлюцинаций.

Пока доступно только Pro, в течение следующей недели добавят в плюс и тим. В API завезут сегодня, цены пока ждем

Блог: openai.com/index/introducing-gpt-4-5/

1👍103❤35🔥12😁6👨‍💻2🌚1

17.1K views20:13

Data Secrets

У OpenAI закончились графические процессоры

😢

По крайней мере, так говорит Сэм Альтман. Вчера после выпуска GPT-4.5 он написал в X:

Это гигантская дорогая модель. Мы действительно хотели выпустить ее в версиях Plus и Pro одновременно, но мы сильно выросли, и у нас закончились GPU. На следующей неделе мы добавим десятки тысяч GPU и выпустим ее в Plus. (Скоро их будет сотни тысяч, и я почти уверен, что вы будете использовать все)

Скинемся по 200 долларов Сэму на чипы? 💵

P.S. Кстати цены на API зверские. 75$ за миллион токенов на input и 150$ (сколько????) на output. Это в два раза дороже, чем o1, o3-mini и 4o вместе взятые.

Please open Telegram to view this post

VIEW IN TELEGRAM

1😁162👍20❤9🙈9🔥3⚡2🍌1💘1

15.2K viewsedited 06:23

About

Blog

Apps

Platform