This media is not supported in your browser
VIEW IN TELEGRAM
Андрей Карпаты изобрел новый вид программирования
Он назвал его «vibe coding». Если кратко, это когда вы вообще не программируете сами, а просто полностью доверяетесь ИИ.
Таким образом Андрей уже накодил LLM reader, в котором можно читать любую литературу попутно задавая вопросы модельке, а еще морской бой, в котором можно наблюдать, как выбранные вами LLM сражаются между собой.
Лайк, если каждый твой рабочий день – это vibe coding
x.com/karpathy/status/1886192184808149383?s=46&t=pKf_FxsPGBd_YMIWTA8xgg
Он назвал его «vibe coding». Если кратко, это когда вы вообще не программируете сами, а просто полностью доверяетесь ИИ.
«Вы полностью отдаетесь вибрациям и забываете, что код вообще существует. Я пользуюсь голосовым вводом, поэтому практически не касаюсь клавиатуры.
Я всегда «Принимаю все», я больше не читаю дифы. Когда получаю сообщения об ошибках, просто копирую и вставляю их без комментариев, обычно это исправляет ситуацию. Если LLM не может исправить ошибку, я просто обхожу ее или прошу вносить случайные изменения, пока она не исчезнет. В итоге я просто вижу что-то, говорю что-то, запускаю что-то, копирую и вставляю что-то, и это в основном работает»
Таким образом Андрей уже накодил LLM reader, в котором можно читать любую литературу попутно задавая вопросы модельке, а еще морской бой, в котором можно наблюдать, как выбранные вами LLM сражаются между собой.
Лайк, если каждый твой рабочий день – это vibe coding
x.com/karpathy/status/1886192184808149383?s=46&t=pKf_FxsPGBd_YMIWTA8xgg
❤195😁125👍63🤪29😐12☃7👨💻3💅1
Соцсети разносит график, на котором видно, что o3 превзошла уровень PhD
И не просто PhD (доктор наук), а PhD, которые отвечают на вопросы своей области с использованием к тому же гугла.
Бенчмарк – GPQA Diamond от Google. Это самый сложный существующий тест из семейства GPQA (Graduate-Level Q&A), в нем 198 очень сложных вопросов по биологии, физике и химии. Эти задачи многосоставные и требуют многошагового абстрактного мышления, так что даже эксперты обычно решают его на 65%.
Красивое
И не просто PhD (доктор наук), а PhD, которые отвечают на вопросы своей области с использованием к тому же гугла.
Бенчмарк – GPQA Diamond от Google. Это самый сложный существующий тест из семейства GPQA (Graduate-Level Q&A), в нем 198 очень сложных вопросов по биологии, физике и химии. Эти задачи многосоставные и требуют многошагового абстрактного мышления, так что даже эксперты обычно решают его на 65%.
Красивое
😐162🔥61😁16🤔12❤8👍6🦄4🍌3👾3🎄2🗿2
Жаль, конечно, что при этом всем о3 все еще остается очень дорогой моделью, да еще и не слишком экологичной
Кто-то на форумах посчитал (расчеты кстати, интересные), что в high compute режиме на обслуживание одной таски о3 будет тратить около 684 кг углекислого газа, что примерно равняется выбросам от пяти полностью заправленных баков автомобилей.
Радует только то, что модели очень быстро дешевеют, отрицать это нельзя. Например, наверху еще один график, который показывает соотношение стоимости и перформанса на ARC AGI. Смотрите: o3-mini выбивает примерно также, как o1, но стоит при этом намноооого меньше. И тенденция (пока что) будет сохраняться.
Кто-то на форумах посчитал (расчеты кстати, интересные), что в high compute режиме на обслуживание одной таски о3 будет тратить около 684 кг углекислого газа, что примерно равняется выбросам от пяти полностью заправленных баков автомобилей.
Радует только то, что модели очень быстро дешевеют, отрицать это нельзя. Например, наверху еще один график, который показывает соотношение стоимости и перформанса на ARC AGI. Смотрите: o3-mini выбивает примерно также, как o1, но стоит при этом намноооого меньше. И тенденция (пока что) будет сохраняться.
🔥79😐34👍16❤9😁4🤔3
Media is too big
VIEW IN TELEGRAM
OpenAI проводят первый за время своего существования ребрендинг
Больших изменений не будет, но поменяется шрифт (теперь у компании есть собственный OpenAI Sans), стиль лого и палетка. Все это не менялось с 2015, а сейчас станет «более закругленным, человечным и органичным».
На секундочку, команда дизайнеров стартапа готовила обновление год. Возможно, в ближайшем будущем редизайну подвергнется и сайт, и интерфейс чат-бота.
Интересно, что эта новость совпала с новостью о том, что OpenAI регистрирует новый товарный знак, под которым можно будет производить наушники, умные аксессуары, AR/VR и роботов.
P.S. Кстати все ролики в конце видео сгенерировали в SORA
Больших изменений не будет, но поменяется шрифт (теперь у компании есть собственный OpenAI Sans), стиль лого и палетка. Все это не менялось с 2015, а сейчас станет «более закругленным, человечным и органичным».
На секундочку, команда дизайнеров стартапа готовила обновление год. Возможно, в ближайшем будущем редизайну подвергнется и сайт, и интерфейс чат-бота.
Интересно, что эта новость совпала с новостью о том, что OpenAI регистрирует новый товарный знак, под которым можно будет производить наушники, умные аксессуары, AR/VR и роботов.
P.S. Кстати все ролики в конце видео сгенерировали в SORA
👍108😁30❤7🔥7🤔5🍌3🗿2
Hugging Face релизнули собственный опенсорсный DeepResearch
Агента воссоздали всего за сутки после выхода DeepResearch от OpenAI.
В итоге агент HF выбил результат 55% на GAIA (основной бенч агентов). Для сравнения, OpenAI набрали на нем 67%. Это достаточно крутой результат, и сами инженеры в блогпосте говорят, что добились такого в основном благодаря тому, что заменили json-структуру агента на кодовую.
То есть чаще всего такие агенты (а именно планирование в них) работают на основе JSON-команд. Но HF решили, что это долго и муторно, и заменили все на CodeAgent. Получается, что для выполнения всей задачи LLM просто пишет код и выполняет его с помощью прикрученных инструментов: веб-браузера и тулзы для чтения файлов.
Весь код здесь, а демо можно потыкать тут
Агента воссоздали всего за сутки после выхода DeepResearch от OpenAI.
"Такие системы состоят из LLM и внутренней агентной структуры. И в то время, пока сранимые с o1 LLM уже есть в опенсорсе, про агентную структуру OpenAI мало чего известно. Поэтому мы решили воспроизвести ее и выложить в открытый доступ"
В итоге агент HF выбил результат 55% на GAIA (основной бенч агентов). Для сравнения, OpenAI набрали на нем 67%. Это достаточно крутой результат, и сами инженеры в блогпосте говорят, что добились такого в основном благодаря тому, что заменили json-структуру агента на кодовую.
То есть чаще всего такие агенты (а именно планирование в них) работают на основе JSON-команд. Но HF решили, что это долго и муторно, и заменили все на CodeAgent. Получается, что для выполнения всей задачи LLM просто пишет код и выполняет его с помощью прикрученных инструментов: веб-браузера и тулзы для чтения файлов.
Весь код здесь, а демо можно потыкать тут
🔥116👍29❤11🤔6🤯2❤🔥1
Калифорнийский университет раскатывает ChatGPT на пол миллиона своих студентов и преподавателей
На практике студенты и преподаватели получат полный бесплатный доступ к ChatGPT Edu. Это версия бота, адаптированная специально под образование. Внутри будут бесплатные курсы и сертификации, интерактивные GPT-тьюторы и интерфейсы для преподавателей, в которых можно будет создавать учебные программы.
Это крупнейшее внедрение ИИ какой-либо отдельной организацией в мире. Знаменательно, что такой организацией стал не бизнес, а университет.
На практике студенты и преподаватели получат полный бесплатный доступ к ChatGPT Edu. Это версия бота, адаптированная специально под образование. Внутри будут бесплатные курсы и сертификации, интерактивные GPT-тьюторы и интерфейсы для преподавателей, в которых можно будет создавать учебные программы.
Это крупнейшее внедрение ИИ какой-либо отдельной организацией в мире. Знаменательно, что такой организацией стал не бизнес, а университет.
🔥244👍60❤20👻6🤔5⚡1
Свежее исследование соцсети «Сетка» показало реальные масштабы проникновения нейросетей в России
Опросили 2300 специалистов из 30 отраслей. В топе по использованию среди зарубежных: ChatGPT (86%), среди отечественных: YandexGPT (42%), среди российских нейросетевых сервисов — «Шедеврум» (24%). Основные задачи: генерация изображений (66%), планирование (48%) и написание ТЗ (36%).
Да, в списке популярных пока полностью отсутствуют китайские модели вроде DeepSeek и Qwen. Видимо, это вопрос времени — учитывая их текущий темп развития и доступность.
Опросили 2300 специалистов из 30 отраслей. В топе по использованию среди зарубежных: ChatGPT (86%), среди отечественных: YandexGPT (42%), среди российских нейросетевых сервисов — «Шедеврум» (24%). Основные задачи: генерация изображений (66%), планирование (48%) и написание ТЗ (36%).
Да, в списке популярных пока полностью отсутствуют китайские модели вроде DeepSeek и Qwen. Видимо, это вопрос времени — учитывая их текущий темп развития и доступность.
👍68🤪39🔥10😁8❤7😐3
Hugging Face сегодня в ударе: помимо опенсорсного агента Deep Research они релизнули целый стор ИИ приложений
Он так и называется: AI App store. В нем уже 400к (!) аппсов и найти можно вообще все, что хочешь. Например, нужна вам для вашего проекта тулза, транскрибирующая или обобщающая видео:
1. Заходите на huggingface.co/spaces
2. Вводите запрос «summary of video» (в поисковой строке кстати тоже встроена моделька) или переходите в нужный раздел из предложенных
3. Из множества вариантов выбираете то, что подходит, пользуетесь прямо внутри Hugging Face или качаете себе проект: они все опенсорсные и бесплатные
Так что если вы под каждую задачу искали по сусекам отдельный сервис, то больше так делать не нужно: Hugging Face объединил их все в одном месте и тут буквально за минуту отыщется действительно все. А если вы разработчик, то можно и самому добавить Space
🍯
Он так и называется: AI App store. В нем уже 400к (!) аппсов и найти можно вообще все, что хочешь. Например, нужна вам для вашего проекта тулза, транскрибирующая или обобщающая видео:
1. Заходите на huggingface.co/spaces
2. Вводите запрос «summary of video» (в поисковой строке кстати тоже встроена моделька) или переходите в нужный раздел из предложенных
3. Из множества вариантов выбираете то, что подходит, пользуетесь прямо внутри Hugging Face или качаете себе проект: они все опенсорсные и бесплатные
Так что если вы под каждую задачу искали по сусекам отдельный сервис, то больше так делать не нужно: Hugging Face объединил их все в одном месте и тут буквально за минуту отыщется действительно все. А если вы разработчик, то можно и самому добавить Space
🍯
1🔥216👍31❤26😐6⚡4🐳4🫡4🍓3
Рубрика «занимательные совпадения»
Бретт Эдкок, фаундер известного робо-стартапа FugureAI, написал в Твиттере что:
1. Стартап разрывает контракт с OpenAI, который они заключали в начале прошлой весны
2. В течение 30 дней они покажут нечто такое, чего никто еще не видел на рынке роботов-гуманоидов
Надо сказать, что их сотрудничество с OpenAI не было бесплодным. В августе они анонсировали совместного крутого робота, который должен был появиться в продаже как раз в 2025.
Что же произошло? Связано ли это с новым товарным знаком OpenAI, под которым можно разрабатывать роботов? Или с декабрьскими новостями о том, что стартап пересобирает команду робототехников?
Как бы там ни было, сейчас ясно одно:Маск нервно закурил
Бретт Эдкок, фаундер известного робо-стартапа FugureAI, написал в Твиттере что:
1. Стартап разрывает контракт с OpenAI, который они заключали в начале прошлой весны
2. В течение 30 дней они покажут нечто такое, чего никто еще не видел на рынке роботов-гуманоидов
Надо сказать, что их сотрудничество с OpenAI не было бесплодным. В августе они анонсировали совместного крутого робота, который должен был появиться в продаже как раз в 2025.
Что же произошло? Связано ли это с новым товарным знаком OpenAI, под которым можно разрабатывать роботов? Или с декабрьскими новостями о том, что стартап пересобирает команду робототехников?
Как бы там ни было, сейчас ясно одно:
🔥68😁22👍12❤5🌭1
Сегодня нас стало 50 тысяч! 🚀
Это большая и важная отметка для нашей команды. Спасибо нашим подписчикам за ваше внимание и поддержку, едем дальше
Это большая и важная отметка для нашей команды. Спасибо нашим подписчикам за ваше внимание и поддержку, едем дальше
Please open Telegram to view this post
VIEW IN TELEGRAM
7❤255🎉122🏆33👍23🔥9😎3🍌2🤯1
Это то, что мы все так сильно любим: Андрей Карпаты выложил новое обучающее видео
Это погружение в LLM на 3.5 часа. В лекции рассмотрены все основные шаги обучения моделек:
– Прентрейн: данные, токенизация, устройство архитектуры трансформера, примеры на GPT-2 и Llama 3.1
– Файнтюнинг: LLM Psychology, галлюцинации, орфография и еще много интересных деталей
– RLHF: все про то, как обучение с подкреплением работает в LLM на примере DeepSeek R1
Ну что может быть лучше?
youtu.be/7xTGNNLPyMI?si=dlaK07h1Uw_1Dr8Z
Это погружение в LLM на 3.5 часа. В лекции рассмотрены все основные шаги обучения моделек:
– Прентрейн: данные, токенизация, устройство архитектуры трансформера, примеры на GPT-2 и Llama 3.1
– Файнтюнинг: LLM Psychology, галлюцинации, орфография и еще много интересных деталей
– RLHF: все про то, как обучение с подкреплением работает в LLM на примере DeepSeek R1
Ну что может быть лучше?
youtu.be/7xTGNNLPyMI?si=dlaK07h1Uw_1Dr8Z
16🔥270❤45👍35😎7🤩6🎅3☃2🗿2⚡1😁1
Google насыпал приятных обновлений:
➖ Наконец-то релизнули Gemini 2.0 Flash, и теперь она доступна всем через Gemini API, Google AI Studio и Vertex AI. Моделька быстрая, а еще самая качественная и дешевая в своем весе и категории. Контекст до 1 млн токенов.
➖ Вышла новая Gemini 2.0 Flash-Lite. Она еще дешевле и легче Gemini 2.0 Flash. По качеству превосходит предыдущую 1.5 Flash, при этом стоимость остается где-то на том же уровне.
➖ Появилась экспериментальная Gemini 2.0 Pro. Тут контекст до 2 млн токенов, и говорят, что это лучшая модель для кода и сложных промптов. Доступна в Gemini Advanced.
➖ В приложение бесплатно добавили 2.0 Flash Thinking Experimental. На LLMSYS это сейчас лучшая модель в мире (правда на лидерборд еще не завезли o3-mini).
Блогпост
Обновления пробуем здесь
Блогпост
Обновления пробуем здесь
Please open Telegram to view this post
VIEW IN TELEGRAM
👍53🔥14❤7🗿3
Кстати ChatGPT Search там открыли для всех пользователей, теперь для него даже не требуется регистрация, только включенный VPN
Интересно, гуляем за счет подстегивания конкуренции от DeepSeek или так и было запланировано?
chatgpt.com
Интересно, гуляем за счет подстегивания конкуренции от DeepSeek или так и было запланировано?
chatgpt.com
🔥84😁49👍17❤10☃5
Media is too big
VIEW IN TELEGRAM
CEO Anthropic, Дарио Амодеи, говорит, что DeepSeek R1 худшая с точки зрения безопасности модель, которую они когда-либо тестировали
«Мы запускали оценку R1 на предмет того, насколько она способна выдавать опасную информацию (например о биооружии), которую обычно нелегко найти в интернете или в книгах. И это буквально худшая в этом смысле модель, которую мы тестировали, в ней абсолютно нет блоков. Так что на месте DeepSeek я бы обратил на это внимание»
😁236🔥46👍31🤔10😐10🍌9🗿6❤5🤗2🦄2👀1
Разработчик YandexGPT поделился методами ускорения инференса моделей
На Хабре выкатили полезный материал про то, как улучшить процесс работы на конечном устройстве. Самое приятное — методы универсальные и их можно комбинировать между собой для максимального буста.
Они подойдут для большинства популярных архитектур типа LLaMA или MoE (Mixture of Experts). Полностью статья лежит тут.
🍯
На Хабре выкатили полезный материал про то, как улучшить процесс работы на конечном устройстве. Самое приятное — методы универсальные и их можно комбинировать между собой для максимального буста.
Они подойдут для большинства популярных архитектур типа LLaMA или MoE (Mixture of Experts). Полностью статья лежит тут.
🍯
🔥80😐17👍12🌭4❤1👌1
Разбираемся, как работает GRPO – ключевой алгоритм модели DeepSeek R1
Начнем с того, что GRPO – это метод обучения с подкреплением. Он, можно сказать, авторская находка DeepSeek, они предложили его еще год назад в статье про DeepSeekMath (ее подробный разбор лежит у нас на сайте), и с тех пор активно используют в своих моделях.
Обучение с подкреплением – это метод обучения, при котором агент (в нашем случае модель) учится принимать решения, взаимодействуя с окружающей средой. Агент получает награды за свои действия и стремится максимизировать общую награду. На каждом шаге взаимодействия со средой у агента есть политика – стратегия, которой следует агент, определяющая, какое действие он должен предпринять в каждом состоянии.
Самым распространенным для языковых моделей алгоритмом RL является Proximal Policy Optimization (PPO), и GRPO как раз является его вариацией. Суть:
➖ У агента есть начальная политика (стратегия), по которой он действует.
➖ Агент выполняет действия в среде (отвечает на вопросы), следуя своей текущей политике
➖ PPO оценивает действие агента. Для этого обычно используется три модели:
reference model – модель, которая выступает эталоном и позволяет измерять, насколько текущая политика изменилась по сравнению с исходной,
reward model – оценивает награду, которую агент получает за выполнение действия прямо сейчас,
value model – оценивает ожидаемую долгосрочную выгоду от действия, предсказывая будущие награды.
➖ На основе этих оценок агент меняет свою политику. Здесь заключена основная особенность алгоритма: функция потерь в PPO устроена так, что слишком резкие изменения политики не допускаются. Это помогает агенту постепенно улучшать свою стратегию, не делая слишком резких шагов сразу, что делает процесс обучения более стабильным и эффективным.
Но есть в PPO и недостатки. В частности, value model, которая играет ключевую роль в PPO, тащит на себя очень много ресурсов, потому что обычно сопоставима по размерам с моделью, которую мы обучаем. Это делает обучение дорогим.
Так что из GRPO (Group Relative Policy Optimization) value model вообще выкинули. Вместо value model в GRPO мы используем среднюю награду от группы ответов на один и тот же вопрос, и так определяем, насколько "хороши" действия модели.
То есть в GRPO оценка качества ответа основана на сравнении с другими ответами в группе, а не на абсолютных значениях наград. Если ответ лучше среднего по группе, политика усиливает вероятность его выбора. Если хуже — ослабляет. Это компенсирует оценку value model и делает обучение более эффективным и менее ресурсоемким.
Математические детали процесса оставили для вас в конспекте наверху.
Кстати, GRPO работает хорошо даже если пропустить этап файнтюнинга. Так обучали R1-Zero, младшую сестренку R1. Для нее вообще не использовали никакой разметки, и GRPO вытащил все ее качество исключительно на себе (подробнее).
Начнем с того, что GRPO – это метод обучения с подкреплением. Он, можно сказать, авторская находка DeepSeek, они предложили его еще год назад в статье про DeepSeekMath (ее подробный разбор лежит у нас на сайте), и с тех пор активно используют в своих моделях.
Обучение с подкреплением – это метод обучения, при котором агент (в нашем случае модель) учится принимать решения, взаимодействуя с окружающей средой. Агент получает награды за свои действия и стремится максимизировать общую награду. На каждом шаге взаимодействия со средой у агента есть политика – стратегия, которой следует агент, определяющая, какое действие он должен предпринять в каждом состоянии.
Самым распространенным для языковых моделей алгоритмом RL является Proximal Policy Optimization (PPO), и GRPO как раз является его вариацией. Суть:
reference model – модель, которая выступает эталоном и позволяет измерять, насколько текущая политика изменилась по сравнению с исходной,
reward model – оценивает награду, которую агент получает за выполнение действия прямо сейчас,
value model – оценивает ожидаемую долгосрочную выгоду от действия, предсказывая будущие награды.
Но есть в PPO и недостатки. В частности, value model, которая играет ключевую роль в PPO, тащит на себя очень много ресурсов, потому что обычно сопоставима по размерам с моделью, которую мы обучаем. Это делает обучение дорогим.
Так что из GRPO (Group Relative Policy Optimization) value model вообще выкинули. Вместо value model в GRPO мы используем среднюю награду от группы ответов на один и тот же вопрос, и так определяем, насколько "хороши" действия модели.
То есть в GRPO оценка качества ответа основана на сравнении с другими ответами в группе, а не на абсолютных значениях наград. Если ответ лучше среднего по группе, политика усиливает вероятность его выбора. Если хуже — ослабляет. Это компенсирует оценку value model и делает обучение более эффективным и менее ресурсоемким.
Математические детали процесса оставили для вас в конспекте наверху.
Кстати, GRPO работает хорошо даже если пропустить этап файнтюнинга. Так обучали R1-Zero, младшую сестренку R1. Для нее вообще не использовали никакой разметки, и GRPO вытащил все ее качество исключительно на себе (подробнее).
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥117👍58❤21🤯4😁2☃1
Джон Шульман, который в августе ушел из OpenAI в Anthropic, теперь уходит из Anthropic в... компанию Миры Мурати
Джон Шульман – сооснователь OpenAI и в стартапе работал главой команды пост-обучения. Он мега выдающийся исследователь, автор метода PPO, который мы разбирали вчера и который лежит в основе RLHF, и большой любитель alignment’a.
В Anthropic он проработал чуть больше пяти месяцев и теперь ушел в компанию к Мурати, которая 9 лет была CTO OpenAI, покинула стартап в сентябре и объявила о создании собственной лаборатории.
Также сообщают, что вместе с Шульманом она захантила еще нескольких бывших сотрудников OpenAI, включая Кристиана Гибсона, который у Альтмана работал в команде суперкомпьюта.
Также напоминаем, что у Миры уже работает Миана Чен, Баррет Зоф и Люк Метц (они были ключевыми учеными команды элаймента в OpenAI), а в октябре она вела переговоры о о привлечении инвестиций в размере $100 миллионов.
Не хватает пива и чипсов
Джон Шульман – сооснователь OpenAI и в стартапе работал главой команды пост-обучения. Он мега выдающийся исследователь, автор метода PPO, который мы разбирали вчера и который лежит в основе RLHF, и большой любитель alignment’a.
В Anthropic он проработал чуть больше пяти месяцев и теперь ушел в компанию к Мурати, которая 9 лет была CTO OpenAI, покинула стартап в сентябре и объявила о создании собственной лаборатории.
Также сообщают, что вместе с Шульманом она захантила еще нескольких бывших сотрудников OpenAI, включая Кристиана Гибсона, который у Альтмана работал в команде суперкомпьюта.
Также напоминаем, что у Миры уже работает Миана Чен, Баррет Зоф и Люк Метц (они были ключевыми учеными команды элаймента в OpenAI), а в октябре она вела переговоры о о привлечении инвестиций в размере $100 миллионов.
😎108👍29🫡15🤯10❤6💯1
OpenAI объявили о том, что теперь будут раскрывать больше цепочек рассуждений o3-mini
Это относится и к платным, и к бесплатным пользователям.
Однако это все еще не полная CoT. Более того, это даже не сырые рассуждения: в компании прямо говорят, что o3-mini думает «свободно», а потом просто обобщает свои мысли, и вот это уже показывают пользователю.
Это относится и к платным, и к бесплатным пользователям.
«Мы делаем этопотому что на нас давит Китайдля того, чтобы людям было понятнее, как думает модель, и чтобы они были увереннее в ее ответах»
Однако это все еще не полная CoT. Более того, это даже не сырые рассуждения: в компании прямо говорят, что o3-mini думает «свободно», а потом просто обобщает свои мысли, и вот это уже показывают пользователю.
😁113👍39❤14🤪7🔥6