Data Secrets
77.4K subscribers
6.04K photos
592 videos
20 files
2.42K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Андрей Карпаты написал исчерпывающий отзыв на Grok-3. Смотрим:

Решил задачи про r в strawberry, 9.11 и 9.9 и логические детские примеры, но что-то из этого только в режиме Thinking
Справился со сложной задачей на написание игры (среди остальных такой же тест прошла только o1 pro, R1, Gemini и Claude не смогли). В целом Thinking mode довольно мощный
Справился с задачей на расшифровку последовательности
Справился с классической игрой в крестики-нолики, но на усложненной посыпался (o1-pro сыпится тоже)
Хорошо справился со сложными подсчетами по статье GPT-2, на которых фейлится даже o1-pro

Плохое чувство юмора
С задачами на визуальное мышление типа генерация SVG картинок справляется не очень
Иногда слишком пуглива в вопросах этики и не может философствовать на эту тему

Итог: модель лучше R1 и Gemini, и находится где-то на уровне o1-pro (200$). Учитывая, что команда xAI существует чуть больше года, это отличный результат.


x.com/karpathy/status/1891720635363254772?s=46&t=pKf_FxsPGBd_YMIWTA8xgg
137🔥62👍57🤔4❤‍🔥2
Data Secrets
Нас ждут ИИ-видеоигры от Илона Маска В Твиттере он прокомментировал пост о том, что индустрия игр загибается и объяснил это тем, что слишком много студий геймдева принадлежит корпорациям. «В xAI мы собираемся открыть студию разработки игр с ИИ, чтобы снова…
Кстати, помните, Маск говорил, что планирует открыть ИИ-студию видеоигр?

Так вот теперь она действительно официально открылась внутри xAI, и туда набирают инженеров. Желающие?
🔥131👍23🗿1610🤔3🎅1🎄1
Perplexity AI релизнули DeepSeek R1 без китайской цензуры

В блоге они написали:
R1 1776 – это DeepSeek-R1, которую мы дообучили, чтобы убрать из нее цензуру китайской коммунистической партии. Модель сохраняет свои мощные способности ризонинга, но при этом теперь предоставляет беспристрастную и фактически точную информацию.


Дообучали на фреймворке NeMo 2.0 от Nvidia. Про сбор данных деталей немного: говорят, что сначала вручную отобрали 300 цензурированных тем, а затем с помощью классификатора насэмплили из реальных диалогов пользователей промпты на эти темы. Обработали, собрали фактически точные ответы и дофайнтюнили.

Как показывают тесты, в R1 1776 теперь даже меньше китайской цензуры, чем в o3-mini и Claude 3.5. При этом по общим бенчам проседания почти нет (только кое-где на малые доли процентов). А на AIME 2024 метрика даже волшебным образом подросла на 1 процентный пункт.

Это, кстати, первая опенсорсная модель Perplexity

Веса
🔥167👍48😁369😐71🕊1🗿1👾1
OpenAI релизнули новый бенчмарк SWE-Lancer, который привязывает способности LLM к реальному экономическому эффекту

А сделали они это очень просто и изящно: взяли 1 488 заданий с фриланс-платформы Upwork общей стоимостью $1 миллион USD и проверили, сколько из них сможет решить модель. При этом не все задачи одинаковые. Они варьируются от мелких исправлений багов за $50 до сложных тасок по реализации новых фич за $32 000.

В этом как раз и фишка: задания оцениваются по реальным рыночным ставкам, а не гипотетическим оценкам сложности. В среднем, если что, такие задачи требуют изменения 2 файлов и 69 строк кода и решаются людьми за 26 дней.

Лучше всего себя показала Claude 3.5 Sonnet (да, не o1). Модель заработала $403 000. o1 high compute при этом заслужила $380 000, а GPT-4o всего $304 000.

Интересно было посмотреть на сравнение с затратами на API, но такого анализа пока не провели

arxiv.org/abs/2502.12115
🔥103👍3514🤯9😁6😐5
Стали известны название и состав нового стартапа Миры Мурати – бывшей CTO OpenAI

Напоминаем, что Мира ушла из OpenAI в сентябре. Она почти сразу объявила о том, что собирается открывать собственную компанию и даже уже искала инвестиции и переманивала сотрудников из OpenAI.

И вот наконец-то у стартапа появился лендинг и официальный начальный состав. Оказалось, что компания будет называться Thinking Machines. Сама Мира станет CEO, на место главного научного сотрудника назначен сооснователь OpenAI Джон Шульман. Он ушел из OpenAI почти одновременно с Мирой, и после этого недолго работал лидом команды элаймента в Anthropic.

Также известно, что тех.диром станет Баррет Зоф. Он тоже работал в OpenAI и был там CRO (chief research officer). Также к Мире присоединились Лилиан Венг, Александр Кириллов из Meta, Кристиан Гибсон и еще с десяток очень именитых ученых. На сайте можно посмотреть полный список и краткое описание заслуг каждого.

Ждем от них чего-то интересного
271👍40🔥21🤔10👌1💋1
Тем временем в обновленном приложении Claude от Anthropic появились намеки на thinking режим, поиск в интернете и аналитические инструменты

Релиз в любой момент 🥁
🔥119👍29😁158
Срочный общий сбор: Grok-3 открыли для всех бесплатно!

Написали, что это будет продолжаться «пока серверы не упадут», так что лучше поторопиться с экспериментами 👇

x.com/i/grok
🔥116👍30😁1512❤‍🔥32🗿1
Microsoft открыли новый революционный материал и сделали из него квантовый чип, который может открыть следующую эру вычислений

Причиной того, что сегодня мы пользуемся телефонами, ноутбуками и другой электроникой стали полупроводники, которые в 1833 открыл Фарадей. А сейчас, в 2025, Microsoft открыли топопроводники – материалы, которые могут наконец-то вывести квантовые вычисления на новый уровень масштабирования.

На основе этих топопроводников Microsoft сделали Majorana 1. По словам компании тут решается сразу две главных проблемы квантовых вычислений: скейлинг и ошибки вычислений. Это стоило ученым 20 лет трудов.

Дело в том, что обычно, чем больше кубитов в чипе, тем больше ошибок этот чип допускает. Но с топопроводниками это может измениться, и Majorana может без потерь масштабироваться до миллиардов кубитов. Для сравнения, сейчас в самых мощных квантовых чипах не более 150 кубитов.

При этом топопроводники очень «компактные», так что такой чип поместится на ладошке.

CEO Microsoft говорит, что все это открывает абсолютно новую эру, и что теперь, возможно, мы получим настоящие квантовые компьютеры не через десятилетия, а через считанные годы.

news.microsoft.com/source/features/innovation/microsofts-majorana-1-chip-carves-new-path-for-quantum-computing/
1🔥228👍43🤔2018🦄7😁6🍌4❤‍🔥3🗿1
Google выпустили агента-ученого AI co-scientist

В отличие от многих подобных проектов, агент не пишет статьи и не делает исследования end-to-end. Его цель – быть генератором идей и подкидывать настоящим ученым свежие целесообразные гипотезы.

AI co-scientist реализует весь цикл научного метода: генерация идей, отбор лучших, уточнение, ревью и так по кругу. Это похоже на то, как устроена структура ризонинга во многих моделях, но здесь за каждый этап отвечает отдельный супер-проработанный агент со своими инструментами:

Generation agent: генерирует начальные гипотезы и направления исследования с помощью веб-поиска
Reflection agent: критически оценивает гипотезы через детальные проверки и симуляции. Может запускать код.
Ranking agent: организует турнир дебатов и таким образом сравнивает гипотезы попарно и ранжирует по Эло (как на LMSYS)
Proximity agent: строит граф близости гипотез, объединяет их и выкидывает дубликаты.
Evolution agent: совершенствует и уточняет оставшиеся гипотезы.
Meta-review agent: сводит все в общий обзор и ревьюит.


Самое интересное, что сюда прикрутили асинхронную систему управления задачами, так что test-time компьют распределяется динамически, и за счет этого система легко скейлится.

Кстати, агента тестили на мед.исследованиях, и оказалось, что он действительно способен генерировать идеи, которые потом подтверждаются экспериментально.

Интересно, что из этого выйдет, но выглядит масштабно: storage.googleapis.com/coscientist_paper/ai_coscientist.pdf
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥15922👍13🤔8❤‍🔥3
Data Secrets
Рубрика «занимательные совпадения» Бретт Эдкок, фаундер известного робо-стартапа FugureAI, написал в Твиттере что: 1. Стартап разрывает контракт с OpenAI, который они заключали в начале прошлой весны 2. В течение 30 дней они покажут нечто такое, чего…
Media is too big
VIEW IN TELEGRAM
FigureAI только что представили своего нового робота-гуманоида, который оснащен ризонингом

FigureAI раньше работали с OpenAI, но месяц назад разорвали контракт и сделали заявление о том, что до весны представят что-то абсолютно новое. Кажется, их новый Helix – это оно, и они деликатно уточняют что «разработали его полностью самостоятельно».

По словам создателей Helix мыслит, как человек, и может справиться с любой домашней утварью, даже если никогда раньше (то есть в трейне) ее не видел. Судя по графикам из статьи, генерализация там действительно на уровне.

А еще он воспринимает речь и может взаимодействовать с человеком/другим роботом. При этом для всего этого используется единая небольшая модель VLA (Vision-Language-Action) на 7В.

Тех.репорт с деталями и тестами:
www.figure.ai/news/helix
🔥123👍33🤯16👾139
Там DeepSeek в честь недели опенсорса объявили, что будут 5 дней выкладывать репозитории с кодом их проектов

«Мы поделимся нашим небольшим, но честным прогрессом с полной прозрачностью. Это будут скромные строительные блоки нашего онлайн-сервиса, которые были задокументированы, развернуты и испытаны в реальных условиях»


Кажется, OpenAI уже пора отдать им название
👍234🔥95😁418💯7👌3
“Ъ” и Центральный университет выпустили совместный проект “Директора и люди”, посвященный стратегиям крупного бизнеса и участию выпускников вузов в реализации этих стратегий. Его первым гостем стал глава Т-Банка Станислав Близнюк.

Разобрали на цитаты основное:

У нас три ценности - клиенты, сотрудники и акционеры, причем именно в таком порядке.

Любой бизнес имеет шанс на рост, только если он вкладывается в науку

Работодатель должен выступать заказчиком университета. Сегодня это не совсем так, и работодатель часто считает, что кадры можно найти в капусте. Но нет, нельзя. Их надо взращивать, и это то, что мы делаем в ЦУ. Поэтому наши выпускники "золотые".

У нас есть понимание того, что какая-то доля набора в Т-Банк должна быть в виде джунов. Очень важная задача – брать кого-то молодого, необтесанного, но умного и перспективного.

Капитал школьника – напористость и любопытство. Первый, второй, третий, четвертый курс - это тот самый уникальный момент, когда нужно реализовывать этот капитал, который будет тебя потом кормить.
👍36🍌13🔥116🤯5🙈3😁2🌭1👀1
Anthropic на своей новой презентации показали интересный график

Это employee retention rate, то есть процент сотрудников, которые остались в стартапе спустя год, два, три и тд с момента найма.

У Anthropic эта метрика достаточно высокая, даже самая высокая среди всего ИИ-теха. OpenAI проваливается куда-то вниз, и, внезапно, у Perplexity тоже дела с этим не очень.
😁103🤔36👍175