Qwen отлично обновили свою локальную модельку Qwen3-4B
Так же, как и предыдущие, она теперь вышла в двух вариантах: Thinking (веса) и просто Instruct (веса).
Приросты по метрикам достойные. И, кроме того, модели расширили контекстное окно: теперь вывозит до 256к токенов. Выглядит как имба для локального запуска.
Интересно было бы сравнить с новой gpt-oss 20B.
И вообще, будет хотя бы день без китайского опенсорса? Qwen только за этот месяц выпустили 6 или 7 обновлений и релизов
Так же, как и предыдущие, она теперь вышла в двух вариантах: Thinking (веса) и просто Instruct (веса).
Приросты по метрикам достойные. И, кроме того, модели расширили контекстное окно: теперь вывозит до 256к токенов. Выглядит как имба для локального запуска.
Интересно было бы сравнить с новой gpt-oss 20B.
И вообще, будет хотя бы день без китайского опенсорса? Qwen только за этот месяц выпустили 6 или 7 обновлений и релизов
1❤111🔥48👍35😁8⚡1
На ИТ-Пикнике в Коломенском расскажут о будущем в технологиях
1) Профессор РАН Иван Оселедец расскажет, как ИИ научился не просто генерировать ответы, а мыслить по цепочке, как человек, а также — что такое reasoning-системы, зачем нужен мультиагентный подход и почему сбор данных уже не так важен.
2) Кандидат физико-математических наук Александр Петюшко объяснит, как работают беспилотные машины — от технологий до планирования маршрута и сложностей.
3) Еще будет разговор про опенсорс, а точнее — для чего люди занимаются этим добровольно, что ими движет и как устроены новые опен-платформы вроде SourceCraft. СТО Яндекса, Т-Банка и Авито сядут за один стол, чтобы обсудить: GenAI учит платформы, или, уже наоборот, что останется людям в ближайшие пять лет.
Готовимся серьезно думать
1) Профессор РАН Иван Оселедец расскажет, как ИИ научился не просто генерировать ответы, а мыслить по цепочке, как человек, а также — что такое reasoning-системы, зачем нужен мультиагентный подход и почему сбор данных уже не так важен.
2) Кандидат физико-математических наук Александр Петюшко объяснит, как работают беспилотные машины — от технологий до планирования маршрута и сложностей.
3) Еще будет разговор про опенсорс, а точнее — для чего люди занимаются этим добровольно, что ими движет и как устроены новые опен-платформы вроде SourceCraft. СТО Яндекса, Т-Банка и Авито сядут за один стол, чтобы обсудить: GenAI учит платформы, или, уже наоборот, что останется людям в ближайшие пять лет.
Готовимся серьезно думать
👍39🗿19❤7🔥6🤯2🤩1🤨1
Сегодня пройдет финал ИИ-чемпионата Kaggle по шахматам
В финал вышли o3 и Grok-4 (ставки принимаем в комментариях). За третье место будут бороться o4-mini и Gemini 2.5 Pro. Прискорбно, конечно, что в финале ни одной модели от Anthropic. С другой стороны новый Opus 4.1 не участвовал.
Комментировать трансляцию будет Магнус Карлсен, так что смотрим. Вчера, кстати, комментил Хикару Накамура (да, Kaggle запарились).
Онлайн будет здесь сразу после презентации GPT-5, в 20:30 по Москве. Расписание на вечер сегодня плотное🏃♂️
В финал вышли o3 и Grok-4 (ставки принимаем в комментариях). За третье место будут бороться o4-mini и Gemini 2.5 Pro. Прискорбно, конечно, что в финале ни одной модели от Anthropic. С другой стороны новый Opus 4.1 не участвовал.
Комментировать трансляцию будет Магнус Карлсен, так что смотрим. Вчера, кстати, комментил Хикару Накамура (да, Kaggle запарились).
Онлайн будет здесь сразу после презентации GPT-5, в 20:30 по Москве. Расписание на вечер сегодня плотное
Please open Telegram to view this post
VIEW IN TELEGRAM
3🔥151❤26😁19 12🤯8👍3🐳2🤨1🦄1
GitHub случайно раскрыл детали о моделях GPT-5
В блог компании раньше времени утекла новость о добавлении в GitHub Models еще не вышедших моделей OpenAI. Конечно же новость быстро удалили, но доступ на архиве никто не отменял.
Обещают 4 версии:
Из важного: свежая версия будет заточена под "расширенные агентные возможности", а также адаптирована под быстрое и точное решение задач с кодом с минимальным промптингом.
Получается, сегодня презентацию можно не смотреть👓
https://www.theverge.com/news/752091/openai-gpt-5-model-announcement-github-leak
В блог компании раньше времени утекла новость о добавлении в GitHub Models еще не вышедших моделей OpenAI. Конечно же новость быстро удалили, но доступ на архиве никто не отменял.
Обещают 4 версии:
gpt-5 — для логики и многошаговых задач.
gpt-5-mini — облегчённая версия для случаев, где важна стоимость.
gpt-5-nano — оптимизирована для скорости и минимальных задержек.
gpt-5-chat — для продвинутых, естественных, мультимодальных и контекстно-чувствительных диалогов, ориентирована на корпоративные приложения.
Из важного: свежая версия будет заточена под "расширенные агентные возможности", а также адаптирована под быстрое и точное решение задач с кодом с минимальным промптингом.
Получается, сегодня презентацию можно не смотреть
https://www.theverge.com/news/752091/openai-gpt-5-model-announcement-github-leak
Please open Telegram to view this post
VIEW IN TELEGRAM
1🫡113 57 31😁18❤11👍5🔥3🤨3🤯2
Конспирологи, вам понравится: год назад правительство США провело очень масштабное исследование рисков ИИ-моделей, но… результаты решили не публиковать
Информацию накопали Wired. Оказывается, прошлой осенью несколько крупных лабораторий, которые занимаются безопасностью, две недели занимались ред тимингом и нашли в ведущих моделях 139 уязвимостей.
Среди них были способы, как можно заставить модель распространять дезинформацию, раскрывать личные данные или выдавать инструкции по совершению кибератак. Исследование могло бы помочь нескольким крупным компаниям лучше обезопасить свои модели. Но это если бы его опубликовали👉
Но этого никто не сделал и, более того, работа осталась под NDA. И нет, не потому что какая-то там модель сбежала из лаборатории.
Дело в том, что скоро к власти должен прийти Трамп с новой политикой, а в работе среди прочего фигурировали упоминания «разнообразия, равенства и инклюзии» (DEI).
Это все, кстати, при том, что тогда исследование проводилось Национальным институтом стандартов и технологий (NIST), то есть по сути самим правительством. А еще ироничнее, что буквально пару недель назад вышел AI Action Plan, в котором администрация Трампа требует провести ровно такое же тестирование.
www.wired.com/story/inside-the-biden-administrations-unpublished-report-on-ai-safety/
Информацию накопали Wired. Оказывается, прошлой осенью несколько крупных лабораторий, которые занимаются безопасностью, две недели занимались ред тимингом и нашли в ведущих моделях 139 уязвимостей.
Среди них были способы, как можно заставить модель распространять дезинформацию, раскрывать личные данные или выдавать инструкции по совершению кибератак. Исследование могло бы помочь нескольким крупным компаниям лучше обезопасить свои модели. Но это если бы его опубликовали
Но этого никто не сделал и, более того, работа осталась под NDA. И нет, не потому что какая-то там модель сбежала из лаборатории.
Дело в том, что скоро к власти должен прийти Трамп с новой политикой, а в работе среди прочего фигурировали упоминания «разнообразия, равенства и инклюзии» (DEI).
Это все, кстати, при том, что тогда исследование проводилось Национальным институтом стандартов и технологий (NIST), то есть по сути самим правительством. А еще ироничнее, что буквально пару недель назад вышел AI Action Plan, в котором администрация Трампа требует провести ровно такое же тестирование.
www.wired.com/story/inside-the-biden-administrations-unpublished-report-on-ai-safety/
Please open Telegram to view this post
VIEW IN TELEGRAM
1👾61😁43 22❤12🤯9 5👍4
Итак, кроме громких слов, что мы имеем:
– Модель действительно гибридная. В тех.репорте даже написано, что это не модель вовсе, а система (то есть видимо несколько моделей с роутером)
– Говорят, что это лучшая модель для кодинга на рынке
– Первые бенчмарки (потом соберем их все в отдельный пост) наверху. Обратите внимание на 100% на AIME 25. Ну и да, шкалы на графиках те еще, так что смотрите на чиселки, а не на столбики.
– Самая НЕгаллюцинирующая модель в мире, разрабы прямо очень сильно хвастаются фактологией
– Большой апдейт в креативности, модель теперь пишет действительно неплохие нешаблонные тексты
– Обучена на знаниях до октября 2024, то есть одна из самых современных моделей, которая уже многое знает про прогресс последних лет
– На LMArena моделька первая во всех категориях с устойчивым отрывом
– Еще запускают рисерч превью фичи Personalities. Можно будет менять характер модели: делать не более дружественной и эмпатичной, или более профессиональной и строгой ну и тд
– Отдельную часть презентации посвятили безопасности: говорят, что долго занимались элайментом и теперь модель будет реже обманывать и вести себя более ✨осознанно✨
– Вообще переосмыслили подход к безопасности: раньше промпт попадал к модели, и она решала, стоит ли ей отвечать. Теперь это работает иначе: модель может не отказаться, а просто обрезать ответ до безопасного минимума. А если все-таки откажется – объяснит почему
– Сегодня раскатят на ВСЕХ юзеров. Да, даже на бесплатных. Ризонинг с ограничениями, но лимиты – норм. Если достигли лимита GPT-5, вас перекинут на GPT-5 mini.
– Цены в API зависят от бюджета ризонинга. Базово чуть дороже o3, но дешевле Opus и Sonnet 4
Системная карта
– Модель действительно гибридная. В тех.репорте даже написано, что это не модель вовсе, а система (то есть видимо несколько моделей с роутером)
– Говорят, что это лучшая модель для кодинга на рынке
– Первые бенчмарки (потом соберем их все в отдельный пост) наверху. Обратите внимание на 100% на AIME 25. Ну и да, шкалы на графиках те еще, так что смотрите на чиселки, а не на столбики.
– Самая НЕгаллюцинирующая модель в мире, разрабы прямо очень сильно хвастаются фактологией
– Большой апдейт в креативности, модель теперь пишет действительно неплохие нешаблонные тексты
– Обучена на знаниях до октября 2024, то есть одна из самых современных моделей, которая уже многое знает про прогресс последних лет
– На LMArena моделька первая во всех категориях с устойчивым отрывом
– Еще запускают рисерч превью фичи Personalities. Можно будет менять характер модели: делать не более дружественной и эмпатичной, или более профессиональной и строгой ну и тд
– Отдельную часть презентации посвятили безопасности: говорят, что долго занимались элайментом и теперь модель будет реже обманывать и вести себя более ✨осознанно✨
– Вообще переосмыслили подход к безопасности: раньше промпт попадал к модели, и она решала, стоит ли ей отвечать. Теперь это работает иначе: модель может не отказаться, а просто обрезать ответ до безопасного минимума. А если все-таки откажется – объяснит почему
– Сегодня раскатят на ВСЕХ юзеров. Да, даже на бесплатных. Ризонинг с ограничениями, но лимиты – норм. Если достигли лимита GPT-5, вас перекинут на GPT-5 mini.
– Цены в API зависят от бюджета ризонинга. Базово чуть дороже o3, но дешевле Opus и Sonnet 4
Системная карта
6🔥181❤41😁14👍13🤯6✍3🗿1
Please open Telegram to view this post
VIEW IN TELEGRAM
1😁349 63🤯14👍7❤3☃2
Все важные бенчмарки в одном посте
Пупупу, Grok-4 на ARC-AGI-2 (последний график) обогнать не удалось
Пупупу, Grok-4 на ARC-AGI-2 (последний график) обогнать не удалось
1❤99👍33🔥24😁17🤨8 8 7🕊1
На Твиче запустили прямую трансляцию, как GPT-5 играет в Pokémon Red
Модель почти точно сможет пройти игру полностью (несколько месяцев назад это уже сделала Gemini 2.5 Pro), но главный вопрос – сколько времени ей понадобится. У Gemini ушло несколько сотен часов: она часто путалась.
У GPT-5 пока все идет гладко. Если провалиться внутрь сайта, можно даже почитать цепочки ризонинга и отследить вызов инструментов.
www.twitch.tv/gpt_plays_pokemon
Кстати, мы забыли вам сообщить, что GPT-5 уже со вчера бесплатно доступна в Cursor. Если вы никогда не вайб-кодили до этого, то теперь точно никуда не денетесь🙂
Модель почти точно сможет пройти игру полностью (несколько месяцев назад это уже сделала Gemini 2.5 Pro), но главный вопрос – сколько времени ей понадобится. У Gemini ушло несколько сотен часов: она часто путалась.
У GPT-5 пока все идет гладко. Если провалиться внутрь сайта, можно даже почитать цепочки ризонинга и отследить вызов инструментов.
www.twitch.tv/gpt_plays_pokemon
Кстати, мы забыли вам сообщить, что GPT-5 уже со вчера бесплатно доступна в Cursor. Если вы никогда не вайб-кодили до этого, то теперь точно никуда не денетесь
Please open Telegram to view this post
VIEW IN TELEGRAM
2❤93😁29🔥21👍5❤🔥1👌1
Data Secrets
Что мы имели в виду, когда писали, что «шкалы на графиках те еще» Просто присмотритесь 😁
Найден еще один легендарный график с презентации OpenAI. Этот просто 10/10
Либо это какая-то мощная постирония, чтобы превратиться в мем (как известно, плохой рекламы не бывает), либо графики рисовала GPT-5, либо и то и другое
Либо это какая-то мощная постирония, чтобы превратиться в мем (как известно, плохой рекламы не бывает), либо графики рисовала GPT-5, либо и то и другое
1😁395🔥49 37❤22💯6👍5