OpenAI начинает прогрев перед выпуском GPT-4.5: некоторым Pro-пользователям обновленного приложения на Android «случайно» всплыло уведомление с приглашением попробовать модель.
Все указывает на то, что завтра модель действительно выйдет в виде превью для pro-юзеров, а на остальных покатят позже.
Попробуйте предварительную исследовательскую версию GPT-4.5 — пользователи Pro теперь имеют доступ к нашей новейшей, самой большой модели.
Все указывает на то, что завтра модель действительно выйдет в виде превью для pro-юзеров, а на остальных покатят позже.
👍81🔥31❤15😁6
Мастхэв: Google совместно с Kaggle снова открыли регистрацию на тот самый бесплатный курс по генеративным моделям
Он пройдет в формате недельного интенсива с 31 марта по 4 апреля. Каждый день – онлайн лекции, домашки, практики + обсуждения в Дискорде.
В программе актуальная база по основным архитектурам глубокого обучения, устройству LLM, векторным базам данных и MLOps. Курс составляли ML-ресерчеры и инженеры из Google.
В конце, кстати, будет еще и проект-соревнование, так что можно заодно залутать медальку Kaggle.
Еще раз: все бесплатно. Для регистрации нужен только Google аккаунт 🍯
Он пройдет в формате недельного интенсива с 31 марта по 4 апреля. Каждый день – онлайн лекции, домашки, практики + обсуждения в Дискорде.
В программе актуальная база по основным архитектурам глубокого обучения, устройству LLM, векторным базам данных и MLOps. Курс составляли ML-ресерчеры и инженеры из Google.
В конце, кстати, будет еще и проект-соревнование, так что можно заодно залутать медальку Kaggle.
Еще раз: все бесплатно. Для регистрации нужен только Google аккаунт 🍯
👍89❤22🔥20
Data Secrets
Стали известны название и состав нового стартапа Миры Мурати – бывшей CTO OpenAI Напоминаем, что Мира ушла из OpenAI в сентябре. Она почти сразу объявила о том, что собирается открывать собственную компанию и даже уже искала инвестиции и переманивала сотрудников…
Стартап Миры Мурати оценили в 9 миллиардов долларов
Чуть меньше, чем у Суцкевера, конечно, но все еще очень даже прилично для еще ничего не выпустившей компании🤑
Также пишут, что скоро компания привлечет инвестиции в размере одного миллиарда.
Чуть меньше, чем у Суцкевера, конечно, но все еще очень даже прилично для еще ничего не выпустившей компании
Также пишут, что скоро компания привлечет инвестиции в размере одного миллиарда.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥85👍28😐21❤16💅7🍌3
Phi-4-Multimodal и Phi-4-Mini уже лежат в опенсорсе под лицензией MIT и интегрированы в Transformers.
Мультимодальность включает текст, аудио и видео. Ну куче мультимодальных бенчмарков модель превосходит GPT-4o, Gemini-2.0 Flash и 1.5 Pro. Это первая открытая модель такого уровня поднимания речи и OCR.
В привычных математических и кодинговых задачах тоже неплохо: mini с ризонингом соответствует o1-mini и дистилляциям R1.
Внутри 2 адаптера для видео и аудио + лоры для модальностей в основной модели, чтобы не менять ее собственные веса. Обучали в три внушительных этапа:
1. претрейн на тексте + файнтюн на тексте
2. мультимодальный трейн на vision, audio и vision-speech
3. ризонинг трейн на CoT + обучение с подкреплением с DPO
Веса, веса mini
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥88👍29❤15🤝3😎3❤🔥1
Data Secrets
В Китае придумали, как соединить LLM с диффузией На сегодняшний день все модели работают авторегрессионно, то есть предсказывают следующие токены один за одним на основе предыдущих. Это задача next token prediction. Но исследователи из Китая предложили другой…
This media is not supported in your browser
VIEW IN TELEGRAM
Помните, мы рассказывали про диффузионную языковую модель LLaDA?
Так вот подход, кажется, набирает популярность: стартап Inception Labs выпустил «первую большую диффузионную языковую модель коммерческого масштаба»: Mercury Coder.
Если кратко, идея состоит в том, чтобы вместо генерации токенов один за одним генерировать их в произвольном порядке, как бы постепенно расшумляя замаскированную последовательность (подробнее - в нашем разборе LLaDA).
Самое интересное в этом – скорость. Mercury Coder летает в 5-10 раз быстрее, чем LLM текущего поколения. Это примерно 1000 токенов в секунду на обычной H100.
И метрики при этом вполне конкурентноспособные. На Copilot арене Mercury сейчас на втором месте. Это лучше, чем GPT-4o и Gemini 1.5.
Попробовать сетку можно уже сейчас бесплатно: chat.inceptionlabs.ai/
Так вот подход, кажется, набирает популярность: стартап Inception Labs выпустил «первую большую диффузионную языковую модель коммерческого масштаба»: Mercury Coder.
Если кратко, идея состоит в том, чтобы вместо генерации токенов один за одним генерировать их в произвольном порядке, как бы постепенно расшумляя замаскированную последовательность (подробнее - в нашем разборе LLaDA).
Самое интересное в этом – скорость. Mercury Coder летает в 5-10 раз быстрее, чем LLM текущего поколения. Это примерно 1000 токенов в секунду на обычной H100.
И метрики при этом вполне конкурентноспособные. На Copilot арене Mercury сейчас на втором месте. Это лучше, чем GPT-4o и Gemini 1.5.
Попробовать сетку можно уже сейчас бесплатно: chat.inceptionlabs.ai/
👍93🔥39❤16🤯7❤🔥1
Четвертый день опенсорса от DeepSeek: библиотека DualPipe
Это инструмент для эффективной параллелизации. Что это значит:
1. Минимизация пайплайн-пузырей. Это, иначе говоря, периоды простоя оборудования, когда какие-то процессоры ничего не считают и просто ждут поступления данных.
В данном случае алгоритм позволяет прямой и обратный проход выполнять одновременно, поэтому этапы передачи перекрываются вычислениями, и обучение значительно ускоряется.
2. Симметричное распределение микробатчей в прямом и обратном проходе, чтобы сбалансировать нагрузку.
3. Хранение меньшего количества активаций. Это происходит как раз за счет симметричности: часть активаций сразу используется для обратного распространения, и их можно вычищать из памяти.
Кстати, один из троих разработчиков библиотеки – Лян Вэньфэн, CEO и основатель DeepSeek. Оказывается, он не просто руководит, но и довольно часто сам пишет код.
github.com/deepseek-ai/DualPipe
Это инструмент для эффективной параллелизации. Что это значит:
1. Минимизация пайплайн-пузырей. Это, иначе говоря, периоды простоя оборудования, когда какие-то процессоры ничего не считают и просто ждут поступления данных.
В данном случае алгоритм позволяет прямой и обратный проход выполнять одновременно, поэтому этапы передачи перекрываются вычислениями, и обучение значительно ускоряется.
2. Симметричное распределение микробатчей в прямом и обратном проходе, чтобы сбалансировать нагрузку.
3. Хранение меньшего количества активаций. Это происходит как раз за счет симметричности: часть активаций сразу используется для обратного распространения, и их можно вычищать из памяти.
Кстати, один из троих разработчиков библиотеки – Лян Вэньфэн, CEO и основатель DeepSeek. Оказывается, он не просто руководит, но и довольно часто сам пишет код.
github.com/deepseek-ai/DualPipe
👍73🔥41❤15🤯3
Я в ожидании стрима OpenAI (он будет тут):
P.S Кстати, сегодня должны были раскатить Advanced Voice на базе GPT-4o mini на всех бесплатных пользователей. У кого появилось?
P.S Кстати, сегодня должны были раскатить Advanced Voice на базе GPT-4o mini на всех бесплатных пользователей. У кого появилось?
❤51👍12😁5🍓5🍾3
В твиттер уже утекла системная карта GPT-4.5
«Это наша самая большая модель, которая продолжает парадигму масштабирования претрейна и ризонинга» – пишут в ней
Также в доке есть бенчмарки: много оценок безопасности и чуть-чуть качества. По ощущениям в кодинге хуже, чем o3-mini и даже o1, но отстает не сильно.
Стоит смотреть скорее на приросты относительно GPT-4o (это примерно 10х) + в доке прямо говорят, что это не frontier модель, а новая самая большая модель компании. Она лучше в письме, лучше понимает мир в целом и общение с ней более «человечное».
https://cdn.openai.com/gpt-4-5-system-card.pdf
«Это наша самая большая модель, которая продолжает парадигму масштабирования претрейна и ризонинга» – пишут в ней
Также в доке есть бенчмарки: много оценок безопасности и чуть-чуть качества. По ощущениям в кодинге хуже, чем o3-mini и даже o1, но отстает не сильно.
Стоит смотреть скорее на приросты относительно GPT-4o (это примерно 10х) + в доке прямо говорят, что это не frontier модель, а новая самая большая модель компании. Она лучше в письме, лучше понимает мир в целом и общение с ней более «человечное».
https://cdn.openai.com/gpt-4-5-system-card.pdf
1😐70❤30👍13🔥8
Итак, GPT-4.5 вышла
Еще раз: в сравнении с o1 на математике и кодинге модель хуже (неудивительно, это другой подход). Но нельзя бесконечно скейлить только ризонинг, и, с другой стороны, это самая большая и самая накаченная знаниями о мире модель. Она поглотила МНОГО текста и лучше подходит для простых нетехнических задач, креатива, написания текстов, социального взаимодействия и просто разговоров. То есть, это лучшая модель для НЕайти обывателя.
Отдельно отмечают глубокий элаймент и то, что модель стала безопаснее и этичнее. Ее долго тюнили на предпочтения, и ответы получаются емкие и естественные. Кроме того, в GPT-4.5 сократили процент галлюцинаций.
Пока доступно только Pro, в течение следующей недели добавят в плюс и тим. В API завезут сегодня, цены пока ждем
Блог: openai.com/index/introducing-gpt-4-5/
Еще раз: в сравнении с o1 на математике и кодинге модель хуже (неудивительно, это другой подход). Но нельзя бесконечно скейлить только ризонинг, и, с другой стороны, это самая большая и самая накаченная знаниями о мире модель. Она поглотила МНОГО текста и лучше подходит для простых нетехнических задач, креатива, написания текстов, социального взаимодействия и просто разговоров. То есть, это лучшая модель для НЕайти обывателя.
Отдельно отмечают глубокий элаймент и то, что модель стала безопаснее и этичнее. Ее долго тюнили на предпочтения, и ответы получаются емкие и естественные. Кроме того, в GPT-4.5 сократили процент галлюцинаций.
Пока доступно только Pro, в течение следующей недели добавят в плюс и тим. В API завезут сегодня, цены пока ждем
Блог: openai.com/index/introducing-gpt-4-5/
1👍103❤35🔥12😁6👨💻2🌚1
У OpenAI закончились графические процессоры 😢
По крайней мере, так говорит Сэм Альтман. Вчера после выпуска GPT-4.5 он написал в X:
Скинемся по 200 долларов Сэму на чипы?💵
P.S. Кстати цены на API зверские. 75$ за миллион токенов на input и 150$ (сколько????) на output. Это в два раза дороже, чем o1, o3-mini и 4o вместе взятые.
По крайней мере, так говорит Сэм Альтман. Вчера после выпуска GPT-4.5 он написал в X:
Это гигантская дорогая модель. Мы действительно хотели выпустить ее в версиях Plus и Pro одновременно, но мы сильно выросли, и у нас закончились GPU. На следующей неделе мы добавим десятки тысяч GPU и выпустим ее в Plus. (Скоро их будет сотни тысяч, и я почти уверен, что вы будете использовать все)
Скинемся по 200 долларов Сэму на чипы?
P.S. Кстати цены на API зверские. 75$ за миллион токенов на input и 150$ (сколько????) на output. Это в два раза дороже, чем o1, o3-mini и 4o вместе взятые.
Please open Telegram to view this post
VIEW IN TELEGRAM
1😁162👍20❤9🙈9🔥3⚡2🍌1💘1