Итак, вышел Grok-3 с ризонингом
Модель выходит в двух вариантах: Grok-3 mini и полномасштабный Grok-3. По бенчмаркам Grok-3 mini примерно соответствует DeepSeek 3, GPT-4o и Gemini Pro.
А полноценный Grok улетает куда-то вверх: на LMSYS это первая модель, которая пересекла отметку 1400. Сейчас она выигрывает по всем лидербордам, включая кодинг, математику и хард промптинг.
Сама модель не ризонинг, но режим рассуждений можно активировать (для полноценного Grok-3 пока в бете). Виден почти весь процесс рассуждения, «мы добавили только небольшую обфускацию». Будут доступны два режима, просто Thinking и Thinking Hard.
На Math24 hard режим Grok-3 круче R1, o1 и даже o3-mini high. На только что выпущенном Math25 – тоже самое.
Вау
Модель выходит в двух вариантах: Grok-3 mini и полномасштабный Grok-3. По бенчмаркам Grok-3 mini примерно соответствует DeepSeek 3, GPT-4o и Gemini Pro.
А полноценный Grok улетает куда-то вверх: на LMSYS это первая модель, которая пересекла отметку 1400. Сейчас она выигрывает по всем лидербордам, включая кодинг, математику и хард промптинг.
Сама модель не ризонинг, но режим рассуждений можно активировать (для полноценного Grok-3 пока в бете). Виден почти весь процесс рассуждения, «мы добавили только небольшую обфускацию». Будут доступны два режима, просто Thinking и Thinking Hard.
На Math24 hard режим Grok-3 круче R1, o1 и даже o3-mini high. На только что выпущенном Math25 – тоже самое.
Вау
🔥205👍42❤9👏8🤔3👌2🕊1🍌1
Также xAI запускает собственный Deep (Re)search. Это агент глубокого поиска, который работает аналогично Deep Research от OpenAI и встроен в Grok-3.
Правда думает, кажется, не так долго, как Альтмановский. На демо рассуждения и поиски в интернете заняли всего минуту. При этом в процессе агент может кросс-валидировать источники и корректировать свой план поиска.
Все перечисленное, включая сам Grok-3, пока раскатывают только на премиум юзеров
Правда думает, кажется, не так долго, как Альтмановский. На демо рассуждения и поиски в интернете заняли всего минуту. При этом в процессе агент может кросс-валидировать источники и корректировать свой план поиска.
Все перечисленное, включая сам Grok-3, пока раскатывают только на премиум юзеров
❤83👍45👏13🕊7🔥4🎉1🍌1
Где учиться учить ИИ?
Если вы хотите стать действительно крутым специалистом по искусственному интеллекту, то лучше не перебиваться короткими курсами, а пойти и основательно поучиться в такие топовые места, как ШАД, AI Masters или Центральный Унверситетет. Но как выбрать?
Об этом пройдет очень крутой вебинар у наших друзей из ShadHelper. Они пригласили именитых гостей и обсудят, чем отличаются все эти школы, как выбрать подходящую, кем становятся выпускники, какие задачи решают, и, конечно, как поступить. Звездный каст спикеров:
➖ Юрий Дорн, кандидат технических наук, старший преподаватель МФТИ
➖ Александр Дьяконов, д.ф.-м.н., профессор РАН и автор того самого сайта
➖ Александр Лыков, к.ф.-м.н. и основатель ShadHelper
Фишка в том, что все эксперты из разных школ. Юрий – руководитель AI Masters и лектор ШАД, Александр Дьяконов заведует Data Science в Центральном Университете, а Александр Лыков – руководитель Школы Высшей Математики (ШВМ). Так что информацию вы получите из первых рук.
Такое не пропускаем и записываемся здесь
Если вы хотите стать действительно крутым специалистом по искусственному интеллекту, то лучше не перебиваться короткими курсами, а пойти и основательно поучиться в такие топовые места, как ШАД, AI Masters или Центральный Унверситетет. Но как выбрать?
Об этом пройдет очень крутой вебинар у наших друзей из ShadHelper. Они пригласили именитых гостей и обсудят, чем отличаются все эти школы, как выбрать подходящую, кем становятся выпускники, какие задачи решают, и, конечно, как поступить. Звездный каст спикеров:
Фишка в том, что все эксперты из разных школ. Юрий – руководитель AI Masters и лектор ШАД, Александр Дьяконов заведует Data Science в Центральном Университете, а Александр Лыков – руководитель Школы Высшей Математики (ШВМ). Так что информацию вы получите из первых рук.
Такое не пропускаем и записываемся здесь
Please open Telegram to view this post
VIEW IN TELEGRAM
👍39❤14🤯11🌭3🦄3🔥2
Сэм Альтман: GPT 4.5 ощущается как AGI
В своем твиттере CEO OpenAI внезапно оживился сразу после презентации Grok-3. Сначала он намекнул, что GPT 4.5 уже тестируется и что тестировщики в восторге от модели, а затем произошло что-то совсем волшебное
Альтман спросил у аудитории, какой опенсорсный проект от OpenAI мы хотели бы видеть. Варианты: локальная модель, которую можно запустить даже на айфоне, или модель уровня o3-mini, которая запускается на GPU.
Напоминаем, что в этом году это уже не первые упоминания опенсурса от Сэма. После выхода o3-mini он писал, что OpenAI «оказались на неправильной стороне истории и им необходимо разработать другую стратегию опенсорса, но не все в компании разделяют это мнение».
В своем твиттере CEO OpenAI внезапно оживился сразу после презентации Grok-3. Сначала он намекнул, что GPT 4.5 уже тестируется и что тестировщики в восторге от модели, а затем произошло что-то совсем волшебное
Альтман спросил у аудитории, какой опенсорсный проект от OpenAI мы хотели бы видеть. Варианты: локальная модель, которую можно запустить даже на айфоне, или модель уровня o3-mini, которая запускается на GPU.
Напоминаем, что в этом году это уже не первые упоминания опенсурса от Сэма. После выхода o3-mini он писал, что OpenAI «оказались на неправильной стороне истории и им необходимо разработать другую стратегию опенсорса, но не все в компании разделяют это мнение».
12🔥122👍39😁33❤10🤯5👻5🍌2👀2
Data Secrets
Вот так коллаб: NVIDIA совместно с xAI построили Colossus – самый большой в мире суперкомпьютер Colossus был создан всего за 122 дня и работает на базе сетевой платформы NVIDIA Spectrum-X Ethernet, которая была разработана специально для обучения ИИ. Ее…
На утреннем стриме, где релизили Grok-3, xAI также поделились новой информацией о своих датацентрах
Наверное, многие помнят, как по интернету в октябре разлетелась новость о том, что всего за 122 дня Nvidia совместно с xAI отстроили самый большой в мире суперкомпьютер Colossus с 100 тысячами GPU. Тогда сроки всех просто шокировали: обычно на строительство таких кластеров уходило 2-3 года.
Так вот, оказывается, сразу после этого количество GPU в Colossus удвоили и на это ушло еще меньше времени: всего 92 дня. Получается, готов он был примерно в конце января, а претрейн Grok-3, по словам самого Маска, завершили в первых числах года.
Так что базовый Grok-3 вряд ли обучался на этих мощностях. Но обучение с ризонингом еще продолжается (на демо показывали недообученный чекпоинт), поэтому ждем еще большего прироста к метрикам.
Но и это не все: Маск обещает, что Colossus вырастет еще в 5 раз и в итоге будет насчитывать 1 миллион видеокарт. Такой рост будет стоить примерно $25-$30 миллиардов, и работа уже началась.
Для справки, каждая NVIDIA H100 потребляет до 700 Вт, так что кушать Colossus будет в целом примерно как Монако😁
Наверное, многие помнят, как по интернету в октябре разлетелась новость о том, что всего за 122 дня Nvidia совместно с xAI отстроили самый большой в мире суперкомпьютер Colossus с 100 тысячами GPU. Тогда сроки всех просто шокировали: обычно на строительство таких кластеров уходило 2-3 года.
Так вот, оказывается, сразу после этого количество GPU в Colossus удвоили и на это ушло еще меньше времени: всего 92 дня. Получается, готов он был примерно в конце января, а претрейн Grok-3, по словам самого Маска, завершили в первых числах года.
Так что базовый Grok-3 вряд ли обучался на этих мощностях. Но обучение с ризонингом еще продолжается (на демо показывали недообученный чекпоинт), поэтому ждем еще большего прироста к метрикам.
Но и это не все: Маск обещает, что Colossus вырастет еще в 5 раз и в итоге будет насчитывать 1 миллион видеокарт. Такой рост будет стоить примерно $25-$30 миллиардов, и работа уже началась.
Для справки, каждая NVIDIA H100 потребляет до 700 Вт, так что кушать Colossus будет в целом примерно как Монако
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯156👍39❤23😁7🔥3🍌3
DeepSeek только что выложили статью, в которой предложили новую вариацию механизма внимания
Традиционное внимание очень прожорливо: вычисления масштабируются квадратично по мере увеличения длины последовательности. Это приводит к тому, что скейлинг трансформеров на реально длинное контекстное окно становится почти невыполнимой задачей.
В DeepSeek придумали разреженное внимание, NSA (Native Sparse Attention), которое как бы разбивает весь процесс на три параллельные ветви:
Получается, за счет Token Compression мы экономно сохраняем общие представления о последовательности, за счет Token Selection детально храним самую важную информацию из нее, а благодаря Sliding Window помним о локальных зависимостях и формулируем текст без языковых косяков.
Самое крутое: по результатам экспериментов NSA не только не уступает обычному вниманию, но и в ряде случаев превосходит его, особенно конечно в задачах с длинным контекстом (до 64 тыс. токенов).
При этом DeepSeek еще и предложили оптимизированные ядра и на них алгоритмом достигается прямо очень значительное ускорение: до 11,6х на декодировании и до 9х на прямом проходе.
arxiv.org/pdf/2502.11089🔥
Традиционное внимание очень прожорливо: вычисления масштабируются квадратично по мере увеличения длины последовательности. Это приводит к тому, что скейлинг трансформеров на реально длинное контекстное окно становится почти невыполнимой задачей.
В DeepSeek придумали разреженное внимание, NSA (Native Sparse Attention), которое как бы разбивает весь процесс на три параллельные ветви:
➖ Token Compression. Здесь все токены разбиваются на группы по L штук, и для каждой такой подпоследовательности вычисляются эмбеддинги. Так вместо обычных ключей и значений для внимания мы получаем сжатые, которые несут информацию о глобальных паттернах в последовательности (а не об отдельных токенах) при более низкой вычислительной нагрузке.➖ Token Selection. Тут тоже происходит агрегация, но иначе. Последовательность также делится на группы токенов, из которых с помощью промежуточного внимания извлекаются n самых значимых. А уже затем, когда мы отобрали эти самые важные группы, из них берутся оригинальные токены и для них вычисляются признаки без компрессии.➖ Sliding Window. Тут ничего нового, локальное внимание, которое отвечает за обработку самых недавних токенов в пределах фиксированного окна.
Получается, за счет Token Compression мы экономно сохраняем общие представления о последовательности, за счет Token Selection детально храним самую важную информацию из нее, а благодаря Sliding Window помним о локальных зависимостях и формулируем текст без языковых косяков.
Самое крутое: по результатам экспериментов NSA не только не уступает обычному вниманию, но и в ряде случаев превосходит его, особенно конечно в задачах с длинным контекстом (до 64 тыс. токенов).
При этом DeepSeek еще и предложили оптимизированные ядра и на них алгоритмом достигается прямо очень значительное ускорение: до 11,6х на декодировании и до 9х на прямом проходе.
arxiv.org/pdf/2502.11089
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥201👀26👍25❤23🤔3👌2☃1
Тем временем люди в Твиттере поделились на две группы: те, кто голосуют в опросе Альтмана про опенсорс за phone-sized model, и те, кто знает, что такое дистилляция
😁277🔥21👍15❤5
Hugging Face выпустили бесплатный курс по файнтюнингу языковых моделей
Кто не знал, у HF есть большой замечательный курс по NLP со всеми основами от токенизации до трансформеров и других архитектур. И сегодня они добавили в него главу под названием Fine-Tune LLM. Внутри:
🟦 Технические основы файнтюнинга: как должны выглядеть данные, как они должны быть размечены, специальные токены и тд
🟦 Теория по LoRA и другим основным методом файнтюна
🟦 Практика на торче + рецепты оценки модели здорового человека
Емко, практично и максимально полезно. Кстати, если уверены в своих знаниях уже сейчас, в конце главы есть большой квиз – проверьте себя😐
Кто не знал, у HF есть большой замечательный курс по NLP со всеми основами от токенизации до трансформеров и других архитектур. И сегодня они добавили в него главу под названием Fine-Tune LLM. Внутри:
Емко, практично и максимально полезно. Кстати, если уверены в своих знаниях уже сейчас, в конце главы есть большой квиз – проверьте себя
Please open Telegram to view this post
VIEW IN TELEGRAM
❤116👍45🔥20⚡2🤯1
Андрей Карпаты написал исчерпывающий отзыв на Grok-3. Смотрим:
✅ Решил задачи про r в strawberry, 9.11 и 9.9 и логические детские примеры, но что-то из этого только в режиме Thinking
✅ Справился со сложной задачей на написание игры (среди остальных такой же тест прошла только o1 pro, R1, Gemini и Claude не смогли). В целом Thinking mode довольно мощный
✅ Справился с задачей на расшифровку последовательности
✅ Справился с классической игрой в крестики-нолики, но на усложненной посыпался (o1-pro сыпится тоже)
✅ Хорошо справился со сложными подсчетами по статье GPT-2, на которых фейлится даже o1-pro
❌ Плохое чувство юмора
❌ С задачами на визуальное мышление типа генерация SVG картинок справляется не очень
❌ Иногда слишком пуглива в вопросах этики и не может философствовать на эту тему
x.com/karpathy/status/1891720635363254772?s=46&t=pKf_FxsPGBd_YMIWTA8xgg
✅ Решил задачи про r в strawberry, 9.11 и 9.9 и логические детские примеры, но что-то из этого только в режиме Thinking
✅ Справился со сложной задачей на написание игры (среди остальных такой же тест прошла только o1 pro, R1, Gemini и Claude не смогли). В целом Thinking mode довольно мощный
✅ Справился с задачей на расшифровку последовательности
✅ Справился с классической игрой в крестики-нолики, но на усложненной посыпался (o1-pro сыпится тоже)
✅ Хорошо справился со сложными подсчетами по статье GPT-2, на которых фейлится даже o1-pro
❌ Плохое чувство юмора
❌ С задачами на визуальное мышление типа генерация SVG картинок справляется не очень
❌ Иногда слишком пуглива в вопросах этики и не может философствовать на эту тему
Итог: модель лучше R1 и Gemini, и находится где-то на уровне o1-pro (200$). Учитывая, что команда xAI существует чуть больше года, это отличный результат.
x.com/karpathy/status/1891720635363254772?s=46&t=pKf_FxsPGBd_YMIWTA8xgg
❤137🔥62👍57🤔4❤🔥2
Data Secrets
Нас ждут ИИ-видеоигры от Илона Маска В Твиттере он прокомментировал пост о том, что индустрия игр загибается и объяснил это тем, что слишком много студий геймдева принадлежит корпорациям. «В xAI мы собираемся открыть студию разработки игр с ИИ, чтобы снова…
Кстати, помните, Маск говорил, что планирует открыть ИИ-студию видеоигр?
Так вот теперь она действительно официально открылась внутри xAI, и туда набирают инженеров. Желающие?
Так вот теперь она действительно официально открылась внутри xAI, и туда набирают инженеров. Желающие?
🔥131👍23🗿16❤10🤔3🎅1🎄1
Perplexity AI релизнули DeepSeek R1 без китайской цензуры
В блоге они написали:
Дообучали на фреймворке NeMo 2.0 от Nvidia. Про сбор данных деталей немного: говорят, что сначала вручную отобрали 300 цензурированных тем, а затем с помощью классификатора насэмплили из реальных диалогов пользователей промпты на эти темы. Обработали, собрали фактически точные ответы и дофайнтюнили.
Как показывают тесты, в R1 1776 теперь даже меньше китайской цензуры, чем в o3-mini и Claude 3.5. При этом по общим бенчам проседания почти нет (только кое-где на малые доли процентов). А на AIME 2024 метрика даже волшебным образом подросла на 1 процентный пункт.
Это, кстати, первая опенсорсная модель Perplexity
Веса
В блоге они написали:
R1 1776 – это DeepSeek-R1, которую мы дообучили, чтобы убрать из нее цензуру китайской коммунистической партии. Модель сохраняет свои мощные способности ризонинга, но при этом теперь предоставляет беспристрастную и фактически точную информацию.
Дообучали на фреймворке NeMo 2.0 от Nvidia. Про сбор данных деталей немного: говорят, что сначала вручную отобрали 300 цензурированных тем, а затем с помощью классификатора насэмплили из реальных диалогов пользователей промпты на эти темы. Обработали, собрали фактически точные ответы и дофайнтюнили.
Как показывают тесты, в R1 1776 теперь даже меньше китайской цензуры, чем в o3-mini и Claude 3.5. При этом по общим бенчам проседания почти нет (только кое-где на малые доли процентов). А на AIME 2024 метрика даже волшебным образом подросла на 1 процентный пункт.
Это, кстати, первая опенсорсная модель Perplexity
Веса
🔥167👍48😁36❤9😐7⚡1🕊1🗿1👾1
OpenAI релизнули новый бенчмарк SWE-Lancer, который привязывает способности LLM к реальному экономическому эффекту
А сделали они это очень просто и изящно: взяли 1 488 заданий с фриланс-платформы Upwork общей стоимостью $1 миллион USD и проверили, сколько из них сможет решить модель. При этом не все задачи одинаковые. Они варьируются от мелких исправлений багов за $50 до сложных тасок по реализации новых фич за $32 000.
В этом как раз и фишка: задания оцениваются по реальным рыночным ставкам, а не гипотетическим оценкам сложности. В среднем, если что, такие задачи требуют изменения 2 файлов и 69 строк кода и решаются людьми за 26 дней.
Лучше всего себя показала Claude 3.5 Sonnet (да, не o1). Модель заработала $403 000. o1 high compute при этом заслужила $380 000, а GPT-4o всего $304 000.
Интересно было посмотреть на сравнение с затратами на API, но такого анализа пока не провели
arxiv.org/abs/2502.12115
А сделали они это очень просто и изящно: взяли 1 488 заданий с фриланс-платформы Upwork общей стоимостью $1 миллион USD и проверили, сколько из них сможет решить модель. При этом не все задачи одинаковые. Они варьируются от мелких исправлений багов за $50 до сложных тасок по реализации новых фич за $32 000.
В этом как раз и фишка: задания оцениваются по реальным рыночным ставкам, а не гипотетическим оценкам сложности. В среднем, если что, такие задачи требуют изменения 2 файлов и 69 строк кода и решаются людьми за 26 дней.
Лучше всего себя показала Claude 3.5 Sonnet (да, не o1). Модель заработала $403 000. o1 high compute при этом заслужила $380 000, а GPT-4o всего $304 000.
Интересно было посмотреть на сравнение с затратами на API, но такого анализа пока не провели
arxiv.org/abs/2502.12115
🔥103👍35❤14🤯9😁6😐5
Стали известны название и состав нового стартапа Миры Мурати – бывшей CTO OpenAI
Напоминаем, что Мира ушла из OpenAI в сентябре. Она почти сразу объявила о том, что собирается открывать собственную компанию и даже уже искала инвестиции и переманивала сотрудников из OpenAI.
И вот наконец-то у стартапа появился лендинг и официальный начальный состав. Оказалось, что компания будет называться Thinking Machines. Сама Мира станет CEO, на место главного научного сотрудника назначен сооснователь OpenAI Джон Шульман. Он ушел из OpenAI почти одновременно с Мирой, и после этого недолго работал лидом команды элаймента в Anthropic.
Также известно, что тех.диром станет Баррет Зоф. Он тоже работал в OpenAI и был там CRO (chief research officer). Также к Мире присоединились Лилиан Венг, Александр Кириллов из Meta, Кристиан Гибсон и еще с десяток очень именитых ученых. На сайте можно посмотреть полный список и краткое описание заслуг каждого.
Ждем от них чего-то интересного
Напоминаем, что Мира ушла из OpenAI в сентябре. Она почти сразу объявила о том, что собирается открывать собственную компанию и даже уже искала инвестиции и переманивала сотрудников из OpenAI.
И вот наконец-то у стартапа появился лендинг и официальный начальный состав. Оказалось, что компания будет называться Thinking Machines. Сама Мира станет CEO, на место главного научного сотрудника назначен сооснователь OpenAI Джон Шульман. Он ушел из OpenAI почти одновременно с Мирой, и после этого недолго работал лидом команды элаймента в Anthropic.
Также известно, что тех.диром станет Баррет Зоф. Он тоже работал в OpenAI и был там CRO (chief research officer). Также к Мире присоединились Лилиан Венг, Александр Кириллов из Meta, Кристиан Гибсон и еще с десяток очень именитых ученых. На сайте можно посмотреть полный список и краткое описание заслуг каждого.
Ждем от них чего-то интересного
2❤71👍40🔥21🤔10👌1💋1