Data Secrets

Андрей Карпаты написал исчерпывающий отзыв на Grok-3. Смотрим:

✅ Решил задачи про r в strawberry, 9.11 и 9.9 и логические детские примеры, но что-то из этого только в режиме Thinking
✅ Справился со сложной задачей на написание игры (среди остальных такой же тест прошла только o1 pro, R1, Gemini и Claude не смогли). В целом Thinking mode довольно мощный
✅ Справился с задачей на расшифровку последовательности
✅ Справился с классической игрой в крестики-нолики, но на усложненной посыпался (o1-pro сыпится тоже)
✅ Хорошо справился со сложными подсчетами по статье GPT-2, на которых фейлится даже o1-pro

❌ Плохое чувство юмора
❌ С задачами на визуальное мышление типа генерация SVG картинок справляется не очень
❌ Иногда слишком пуглива в вопросах этики и не может философствовать на эту тему

Итог: модель лучше R1 и Gemini, и находится где-то на уровне o1-pro (200$). Учитывая, что команда xAI существует чуть больше года, это отличный результат.

x.com/karpathy/status/1891720635363254772?s=46&t=pKf_FxsPGBd_YMIWTA8xgg

❤137🔥62👍57🤔4❤‍🔥2

16.2K views06:46

Data Secrets

Нас ждут ИИ-видеоигры от Илона Маска В Твиттере он прокомментировал пост о том, что индустрия игр загибается и объяснил это тем, что слишком много студий геймдева принадлежит корпорациям. «В xAI мы собираемся открыть студию разработки игр с ИИ, чтобы снова…

Кстати, помните, Маск говорил, что планирует открыть ИИ-студию видеоигр?

Так вот теперь она действительно официально открылась внутри xAI, и туда набирают инженеров. Желающие?

🔥131👍23🗿16❤10🤔3🎅1🎄1

17K viewsedited 07:07

Data Secrets

Perplexity AI релизнули DeepSeek R1 без китайской цензуры

В блоге они написали:

R1 1776 – это DeepSeek-R1, которую мы дообучили, чтобы убрать из нее цензуру китайской коммунистической партии. Модель сохраняет свои мощные способности ризонинга, но при этом теперь предоставляет беспристрастную и фактически точную информацию.

Дообучали на фреймворке NeMo 2.0 от Nvidia. Про сбор данных деталей немного: говорят, что сначала вручную отобрали 300 цензурированных тем, а затем с помощью классификатора насэмплили из реальных диалогов пользователей промпты на эти темы. Обработали, собрали фактически точные ответы и дофайнтюнили.

Как показывают тесты, в R1 1776 теперь даже меньше китайской цензуры, чем в o3-mini и Claude 3.5. При этом по общим бенчам проседания почти нет (только кое-где на малые доли процентов). А на AIME 2024 метрика даже волшебным образом подросла на 1 процентный пункт.

Это, кстати, первая опенсорсная модель Perplexity

Веса

🔥167👍48😁36❤9😐7⚡1🕊1🗿1👾1

17.2K views08:26

Data Secrets

OpenAI релизнули новый бенчмарк SWE-Lancer, который привязывает способности LLM к реальному экономическому эффекту

А сделали они это очень просто и изящно: взяли 1 488 заданий с фриланс-платформы Upwork общей стоимостью $1 миллион USD и проверили, сколько из них сможет решить модель. При этом не все задачи одинаковые. Они варьируются от мелких исправлений багов за $50 до сложных тасок по реализации новых фич за $32 000.

В этом как раз и фишка: задания оцениваются по реальным рыночным ставкам, а не гипотетическим оценкам сложности. В среднем, если что, такие задачи требуют изменения 2 файлов и 69 строк кода и решаются людьми за 26 дней.

Лучше всего себя показала Claude 3.5 Sonnet (да, не o1). Модель заработала $403 000. o1 high compute при этом заслужила $380 000, а GPT-4o всего $304 000.

Интересно было посмотреть на сравнение с затратами на API, но такого анализа пока не провели

arxiv.org/abs/2502.12115

🔥103👍35❤14🤯9😁6😐5

19K views11:07

Data Secrets

Стали известны название и состав нового стартапа Миры Мурати – бывшей CTO OpenAI

Напоминаем, что Мира ушла из OpenAI в сентябре. Она почти сразу объявила о том, что собирается открывать собственную компанию и даже уже искала инвестиции и переманивала сотрудников из OpenAI.

И вот наконец-то у стартапа появился лендинг и официальный начальный состав. Оказалось, что компания будет называться Thinking Machines. Сама Мира станет CEO, на место главного научного сотрудника назначен сооснователь OpenAI Джон Шульман. Он ушел из OpenAI почти одновременно с Мирой, и после этого недолго работал лидом команды элаймента в Anthropic.

Также известно, что тех.диром станет Баррет Зоф. Он тоже работал в OpenAI и был там CRO (chief research officer). Также к Мире присоединились Лилиан Венг, Александр Кириллов из Meta, Кристиан Гибсон и еще с десяток очень именитых ученых. На сайте можно посмотреть полный список и краткое описание заслуг каждого.

Ждем от них чего-то интересного

2❤71👍40🔥21🤔10👌1💋1

16.6K views13:30

Data Secrets

Тем временем в обновленном приложении Claude от Anthropic появились намеки на thinking режим, поиск в интернете и аналитические инструменты

Релиз в любой момент 🥁

🔥119👍29😁15❤8

16.2K views16:17

Data Secrets

Срочный общий сбор: Grok-3 открыли для всех бесплатно!

Написали, что это будет продолжаться «пока серверы не упадут», так что лучше поторопиться с экспериментами 👇

x.com/i/grok

🔥116👍30😁15❤12❤‍🔥3☃2🗿1

21.1K views08:03

Data Secrets

Microsoft открыли новый революционный материал и сделали из него квантовый чип, который может открыть следующую эру вычислений

Причиной того, что сегодня мы пользуемся телефонами, ноутбуками и другой электроникой стали полупроводники, которые в 1833 открыл Фарадей. А сейчас, в 2025, Microsoft открыли топопроводники – материалы, которые могут наконец-то вывести квантовые вычисления на новый уровень масштабирования.

На основе этих топопроводников Microsoft сделали Majorana 1. По словам компании тут решается сразу две главных проблемы квантовых вычислений: скейлинг и ошибки вычислений. Это стоило ученым 20 лет трудов.

Дело в том, что обычно, чем больше кубитов в чипе, тем больше ошибок этот чип допускает. Но с топопроводниками это может измениться, и Majorana может без потерь масштабироваться до миллиардов кубитов. Для сравнения, сейчас в самых мощных квантовых чипах не более 150 кубитов.

При этом топопроводники очень «компактные», так что такой чип поместится на ладошке.

CEO Microsoft говорит, что все это открывает абсолютно новую эру, и что теперь, возможно, мы получим настоящие квантовые компьютеры не через десятилетия, а через считанные годы.

news.microsoft.com/source/features/innovation/microsofts-majorana-1-chip-carves-new-path-for-quantum-computing/

1🔥228👍43🤔20❤18🦄7😁6🍌4❤‍🔥3🗿1

18.8K viewsedited 09:38

Data Secrets

Google выпустили агента-ученого AI co-scientist

В отличие от многих подобных проектов, агент не пишет статьи и не делает исследования end-to-end. Его цель – быть генератором идей и подкидывать настоящим ученым свежие целесообразные гипотезы.

AI co-scientist реализует весь цикл научного метода: генерация идей, отбор лучших, уточнение, ревью и так по кругу. Это похоже на то, как устроена структура ризонинга во многих моделях, но здесь за каждый этап отвечает отдельный супер-проработанный агент со своими инструментами:

➖ Generation agent: генерирует начальные гипотезы и направления исследования с помощью веб-поиска
➖ Reflection agent: критически оценивает гипотезы через детальные проверки и симуляции. Может запускать код.
➖ Ranking agent: организует турнир дебатов и таким образом сравнивает гипотезы попарно и ранжирует по Эло (как на LMSYS)
➖ Proximity agent: строит граф близости гипотез, объединяет их и выкидывает дубликаты.
➖ Evolution agent: совершенствует и уточняет оставшиеся гипотезы.
➖ Meta-review agent: сводит все в общий обзор и ревьюит.

Самое интересное, что сюда прикрутили асинхронную систему управления задачами, так что test-time компьют распределяется динамически, и за счет этого система легко скейлится.

Кстати, агента тестили на мед.исследованиях, и оказалось, что он действительно способен генерировать идеи, которые потом подтверждаются экспериментально.

Интересно, что из этого выйдет, но выглядит масштабно: storage.googleapis.com/coscientist_paper/ai_coscientist.pdf

Please open Telegram to view this post

VIEW IN TELEGRAM

2🔥159❤22👍13🤔8❤‍🔥3

19.4K views13:07

Data Secrets

Рубрика «занимательные совпадения» Бретт Эдкок, фаундер известного робо-стартапа FugureAI, написал в Твиттере что: 1. Стартап разрывает контракт с OpenAI, который они заключали в начале прошлой весны 2. В течение 30 дней они покажут нечто такое, чего…

2:53

Media is too big

VIEW IN TELEGRAM

FigureAI только что представили своего нового робота-гуманоида, который оснащен ризонингом

FigureAI раньше работали с OpenAI, но месяц назад разорвали контракт и сделали заявление о том, что до весны представят что-то абсолютно новое. Кажется, их новый Helix – это оно, и они деликатно уточняют что «разработали его полностью самостоятельно».

По словам создателей Helix мыслит, как человек, и может справиться с любой домашней утварью, даже если никогда раньше (то есть в трейне) ее не видел. Судя по графикам из статьи, генерализация там действительно на уровне.

А еще он воспринимает речь и может взаимодействовать с человеком/другим роботом. При этом для всего этого используется единая небольшая модель VLA (Vision-Language-Action) на 7В.

Тех.репорт с деталями и тестами:
www.figure.ai/news/helix

🔥123👍33🤯16👾13❤9

25.8K viewsedited 15:29

Data Secrets

Там DeepSeek в честь недели опенсорса объявили, что будут 5 дней выкладывать репозитории с кодом их проектов

«Мы поделимся нашим небольшим, но честным прогрессом с полной прозрачностью. Это будут скромные строительные блоки нашего онлайн-сервиса, которые были задокументированы, развернуты и испытаны в реальных условиях»

Кажется, OpenAI уже пора отдать им название

👍234🔥95😁41❤8💯7👌3

16.4K views09:27

Data Secrets

“Ъ” и Центральный университет выпустили совместный проект “Директора и люди”, посвященный стратегиям крупного бизнеса и участию выпускников вузов в реализации этих стратегий. Его первым гостем стал глава Т-Банка Станислав Близнюк.

Разобрали на цитаты основное:

У нас три ценности - клиенты, сотрудники и акционеры, причем именно в таком порядке.

Любой бизнес имеет шанс на рост, только если он вкладывается в науку

Работодатель должен выступать заказчиком университета. Сегодня это не совсем так, и работодатель часто считает, что кадры можно найти в капусте. Но нет, нельзя. Их надо взращивать, и это то, что мы делаем в ЦУ. Поэтому наши выпускники "золотые".

У нас есть понимание того, что какая-то доля набора в Т-Банк должна быть в виде джунов. Очень важная задача – брать кого-то молодого, необтесанного, но умного и перспективного.

Капитал школьника – напористость и любопытство. Первый, второй, третий, четвертый курс - это тот самый уникальный момент, когда нужно реализовывать этот капитал, который будет тебя потом кормить.

👍36🍌13🔥11❤6🤯5🙈3😁2🌭1👀1

16.3K views10:50

Data Secrets

Anthropic на своей новой презентации показали интересный график

Это employee retention rate, то есть процент сотрудников, которые остались в стартапе спустя год, два, три и тд с момента найма.

У Anthropic эта метрика достаточно высокая, даже самая высокая среди всего ИИ-теха. OpenAI проваливается куда-то вниз, и, внезапно, у Perplexity тоже дела с этим не очень.

😁103🤔36👍17❤5

16.5K viewsedited 11:52

About

Blog

Apps

Platform