Perplexity AI релизнули DeepSeek R1 без китайской цензуры
В блоге они написали:
Дообучали на фреймворке NeMo 2.0 от Nvidia. Про сбор данных деталей немного: говорят, что сначала вручную отобрали 300 цензурированных тем, а затем с помощью классификатора насэмплили из реальных диалогов пользователей промпты на эти темы. Обработали, собрали фактически точные ответы и дофайнтюнили.
Как показывают тесты, в R1 1776 теперь даже меньше китайской цензуры, чем в o3-mini и Claude 3.5. При этом по общим бенчам проседания почти нет (только кое-где на малые доли процентов). А на AIME 2024 метрика даже волшебным образом подросла на 1 процентный пункт.
Это, кстати, первая опенсорсная модель Perplexity
Веса
В блоге они написали:
R1 1776 – это DeepSeek-R1, которую мы дообучили, чтобы убрать из нее цензуру китайской коммунистической партии. Модель сохраняет свои мощные способности ризонинга, но при этом теперь предоставляет беспристрастную и фактически точную информацию.
Дообучали на фреймворке NeMo 2.0 от Nvidia. Про сбор данных деталей немного: говорят, что сначала вручную отобрали 300 цензурированных тем, а затем с помощью классификатора насэмплили из реальных диалогов пользователей промпты на эти темы. Обработали, собрали фактически точные ответы и дофайнтюнили.
Как показывают тесты, в R1 1776 теперь даже меньше китайской цензуры, чем в o3-mini и Claude 3.5. При этом по общим бенчам проседания почти нет (только кое-где на малые доли процентов). А на AIME 2024 метрика даже волшебным образом подросла на 1 процентный пункт.
Это, кстати, первая опенсорсная модель Perplexity
Веса
🔥167👍48😁36❤9😐7⚡1🕊1🗿1👾1
OpenAI релизнули новый бенчмарк SWE-Lancer, который привязывает способности LLM к реальному экономическому эффекту
А сделали они это очень просто и изящно: взяли 1 488 заданий с фриланс-платформы Upwork общей стоимостью $1 миллион USD и проверили, сколько из них сможет решить модель. При этом не все задачи одинаковые. Они варьируются от мелких исправлений багов за $50 до сложных тасок по реализации новых фич за $32 000.
В этом как раз и фишка: задания оцениваются по реальным рыночным ставкам, а не гипотетическим оценкам сложности. В среднем, если что, такие задачи требуют изменения 2 файлов и 69 строк кода и решаются людьми за 26 дней.
Лучше всего себя показала Claude 3.5 Sonnet (да, не o1). Модель заработала $403 000. o1 high compute при этом заслужила $380 000, а GPT-4o всего $304 000.
Интересно было посмотреть на сравнение с затратами на API, но такого анализа пока не провели
arxiv.org/abs/2502.12115
А сделали они это очень просто и изящно: взяли 1 488 заданий с фриланс-платформы Upwork общей стоимостью $1 миллион USD и проверили, сколько из них сможет решить модель. При этом не все задачи одинаковые. Они варьируются от мелких исправлений багов за $50 до сложных тасок по реализации новых фич за $32 000.
В этом как раз и фишка: задания оцениваются по реальным рыночным ставкам, а не гипотетическим оценкам сложности. В среднем, если что, такие задачи требуют изменения 2 файлов и 69 строк кода и решаются людьми за 26 дней.
Лучше всего себя показала Claude 3.5 Sonnet (да, не o1). Модель заработала $403 000. o1 high compute при этом заслужила $380 000, а GPT-4o всего $304 000.
Интересно было посмотреть на сравнение с затратами на API, но такого анализа пока не провели
arxiv.org/abs/2502.12115
🔥103👍35❤14🤯9😁6😐5
Стали известны название и состав нового стартапа Миры Мурати – бывшей CTO OpenAI
Напоминаем, что Мира ушла из OpenAI в сентябре. Она почти сразу объявила о том, что собирается открывать собственную компанию и даже уже искала инвестиции и переманивала сотрудников из OpenAI.
И вот наконец-то у стартапа появился лендинг и официальный начальный состав. Оказалось, что компания будет называться Thinking Machines. Сама Мира станет CEO, на место главного научного сотрудника назначен сооснователь OpenAI Джон Шульман. Он ушел из OpenAI почти одновременно с Мирой, и после этого недолго работал лидом команды элаймента в Anthropic.
Также известно, что тех.диром станет Баррет Зоф. Он тоже работал в OpenAI и был там CRO (chief research officer). Также к Мире присоединились Лилиан Венг, Александр Кириллов из Meta, Кристиан Гибсон и еще с десяток очень именитых ученых. На сайте можно посмотреть полный список и краткое описание заслуг каждого.
Ждем от них чего-то интересного
Напоминаем, что Мира ушла из OpenAI в сентябре. Она почти сразу объявила о том, что собирается открывать собственную компанию и даже уже искала инвестиции и переманивала сотрудников из OpenAI.
И вот наконец-то у стартапа появился лендинг и официальный начальный состав. Оказалось, что компания будет называться Thinking Machines. Сама Мира станет CEO, на место главного научного сотрудника назначен сооснователь OpenAI Джон Шульман. Он ушел из OpenAI почти одновременно с Мирой, и после этого недолго работал лидом команды элаймента в Anthropic.
Также известно, что тех.диром станет Баррет Зоф. Он тоже работал в OpenAI и был там CRO (chief research officer). Также к Мире присоединились Лилиан Венг, Александр Кириллов из Meta, Кристиан Гибсон и еще с десяток очень именитых ученых. На сайте можно посмотреть полный список и краткое описание заслуг каждого.
Ждем от них чего-то интересного
2❤71👍40🔥21🤔10👌1💋1
Тем временем в обновленном приложении Claude от Anthropic появились намеки на thinking режим, поиск в интернете и аналитические инструменты
Релиз в любой момент 🥁
Релиз в любой момент 🥁
🔥119👍29😁15❤8
Срочный общий сбор: Grok-3 открыли для всех бесплатно!
Написали, что это будет продолжаться «пока серверы не упадут», так что лучше поторопиться с экспериментами 👇
x.com/i/grok
Написали, что это будет продолжаться «пока серверы не упадут», так что лучше поторопиться с экспериментами 👇
x.com/i/grok
🔥116👍30😁15❤12❤🔥3☃2🗿1
Microsoft открыли новый революционный материал и сделали из него квантовый чип, который может открыть следующую эру вычислений
Причиной того, что сегодня мы пользуемся телефонами, ноутбуками и другой электроникой стали полупроводники, которые в 1833 открыл Фарадей. А сейчас, в 2025, Microsoft открыли топопроводники – материалы, которые могут наконец-то вывести квантовые вычисления на новый уровень масштабирования.
На основе этих топопроводников Microsoft сделали Majorana 1. По словам компании тут решается сразу две главных проблемы квантовых вычислений: скейлинг и ошибки вычислений. Это стоило ученым 20 лет трудов.
Дело в том, что обычно, чем больше кубитов в чипе, тем больше ошибок этот чип допускает. Но с топопроводниками это может измениться, и Majorana может без потерь масштабироваться до миллиардов кубитов. Для сравнения, сейчас в самых мощных квантовых чипах не более 150 кубитов.
При этом топопроводники очень «компактные», так что такой чип поместится на ладошке.
CEO Microsoft говорит, что все это открывает абсолютно новую эру, и что теперь, возможно, мы получим настоящие квантовые компьютеры не через десятилетия, а через считанные годы.
news.microsoft.com/source/features/innovation/microsofts-majorana-1-chip-carves-new-path-for-quantum-computing/
Причиной того, что сегодня мы пользуемся телефонами, ноутбуками и другой электроникой стали полупроводники, которые в 1833 открыл Фарадей. А сейчас, в 2025, Microsoft открыли топопроводники – материалы, которые могут наконец-то вывести квантовые вычисления на новый уровень масштабирования.
На основе этих топопроводников Microsoft сделали Majorana 1. По словам компании тут решается сразу две главных проблемы квантовых вычислений: скейлинг и ошибки вычислений. Это стоило ученым 20 лет трудов.
Дело в том, что обычно, чем больше кубитов в чипе, тем больше ошибок этот чип допускает. Но с топопроводниками это может измениться, и Majorana может без потерь масштабироваться до миллиардов кубитов. Для сравнения, сейчас в самых мощных квантовых чипах не более 150 кубитов.
При этом топопроводники очень «компактные», так что такой чип поместится на ладошке.
CEO Microsoft говорит, что все это открывает абсолютно новую эру, и что теперь, возможно, мы получим настоящие квантовые компьютеры не через десятилетия, а через считанные годы.
news.microsoft.com/source/features/innovation/microsofts-majorana-1-chip-carves-new-path-for-quantum-computing/
1🔥228👍43🤔20❤18🦄7😁6🍌4❤🔥3🗿1
Google выпустили агента-ученого AI co-scientist
В отличие от многих подобных проектов, агент не пишет статьи и не делает исследования end-to-end. Его цель – быть генератором идей и подкидывать настоящим ученым свежие целесообразные гипотезы.
AI co-scientist реализует весь цикл научного метода: генерация идей, отбор лучших, уточнение, ревью и так по кругу. Это похоже на то, как устроена структура ризонинга во многих моделях, но здесь за каждый этап отвечает отдельный супер-проработанный агент со своими инструментами:
Самое интересное, что сюда прикрутили асинхронную систему управления задачами, так что test-time компьют распределяется динамически, и за счет этого система легко скейлится.
Кстати, агента тестили на мед.исследованиях, и оказалось, что он действительно способен генерировать идеи, которые потом подтверждаются экспериментально.
Интересно, что из этого выйдет, но выглядит масштабно: storage.googleapis.com/coscientist_paper/ai_coscientist.pdf
В отличие от многих подобных проектов, агент не пишет статьи и не делает исследования end-to-end. Его цель – быть генератором идей и подкидывать настоящим ученым свежие целесообразные гипотезы.
AI co-scientist реализует весь цикл научного метода: генерация идей, отбор лучших, уточнение, ревью и так по кругу. Это похоже на то, как устроена структура ризонинга во многих моделях, но здесь за каждый этап отвечает отдельный супер-проработанный агент со своими инструментами:
➖ Generation agent: генерирует начальные гипотезы и направления исследования с помощью веб-поиска➖ Reflection agent: критически оценивает гипотезы через детальные проверки и симуляции. Может запускать код.➖ Ranking agent: организует турнир дебатов и таким образом сравнивает гипотезы попарно и ранжирует по Эло (как на LMSYS)➖ Proximity agent: строит граф близости гипотез, объединяет их и выкидывает дубликаты.➖ Evolution agent: совершенствует и уточняет оставшиеся гипотезы.➖ Meta-review agent: сводит все в общий обзор и ревьюит.
Самое интересное, что сюда прикрутили асинхронную систему управления задачами, так что test-time компьют распределяется динамически, и за счет этого система легко скейлится.
Кстати, агента тестили на мед.исследованиях, и оказалось, что он действительно способен генерировать идеи, которые потом подтверждаются экспериментально.
Интересно, что из этого выйдет, но выглядит масштабно: storage.googleapis.com/coscientist_paper/ai_coscientist.pdf
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥159❤22👍13🤔8❤🔥3
Data Secrets
Рубрика «занимательные совпадения» Бретт Эдкок, фаундер известного робо-стартапа FugureAI, написал в Твиттере что: 1. Стартап разрывает контракт с OpenAI, который они заключали в начале прошлой весны 2. В течение 30 дней они покажут нечто такое, чего…
Media is too big
VIEW IN TELEGRAM
FigureAI только что представили своего нового робота-гуманоида, который оснащен ризонингом
FigureAI раньше работали с OpenAI, но месяц назад разорвали контракт и сделали заявление о том, что до весны представят что-то абсолютно новое. Кажется, их новый Helix – это оно, и они деликатно уточняют что «разработали его полностью самостоятельно».
По словам создателей Helix мыслит, как человек, и может справиться с любой домашней утварью, даже если никогда раньше (то есть в трейне) ее не видел. Судя по графикам из статьи, генерализация там действительно на уровне.
А еще он воспринимает речь и может взаимодействовать с человеком/другим роботом. При этом для всего этого используется единая небольшая модель VLA (Vision-Language-Action) на 7В.
Тех.репорт с деталями и тестами:
www.figure.ai/news/helix
FigureAI раньше работали с OpenAI, но месяц назад разорвали контракт и сделали заявление о том, что до весны представят что-то абсолютно новое. Кажется, их новый Helix – это оно, и они деликатно уточняют что «разработали его полностью самостоятельно».
По словам создателей Helix мыслит, как человек, и может справиться с любой домашней утварью, даже если никогда раньше (то есть в трейне) ее не видел. Судя по графикам из статьи, генерализация там действительно на уровне.
А еще он воспринимает речь и может взаимодействовать с человеком/другим роботом. При этом для всего этого используется единая небольшая модель VLA (Vision-Language-Action) на 7В.
Тех.репорт с деталями и тестами:
www.figure.ai/news/helix
🔥123👍33🤯16👾13❤9
Там DeepSeek в честь недели опенсорса объявили, что будут 5 дней выкладывать репозитории с кодом их проектов
Кажется, OpenAI уже пора отдать им название
«Мы поделимся нашим небольшим, но честным прогрессом с полной прозрачностью. Это будут скромные строительные блоки нашего онлайн-сервиса, которые были задокументированы, развернуты и испытаны в реальных условиях»
Кажется, OpenAI уже пора отдать им название
👍234🔥95😁41❤8💯7👌3
“Ъ” и Центральный университет выпустили совместный проект “Директора и люди”, посвященный стратегиям крупного бизнеса и участию выпускников вузов в реализации этих стратегий. Его первым гостем стал глава Т-Банка Станислав Близнюк.
Разобрали на цитаты основное:
Разобрали на цитаты основное:
У нас три ценности - клиенты, сотрудники и акционеры, причем именно в таком порядке.
Любой бизнес имеет шанс на рост, только если он вкладывается в науку
Работодатель должен выступать заказчиком университета. Сегодня это не совсем так, и работодатель часто считает, что кадры можно найти в капусте. Но нет, нельзя. Их надо взращивать, и это то, что мы делаем в ЦУ. Поэтому наши выпускники "золотые".
У нас есть понимание того, что какая-то доля набора в Т-Банк должна быть в виде джунов. Очень важная задача – брать кого-то молодого, необтесанного, но умного и перспективного.
Капитал школьника – напористость и любопытство. Первый, второй, третий, четвертый курс - это тот самый уникальный момент, когда нужно реализовывать этот капитал, который будет тебя потом кормить.
👍36🍌13🔥11❤6🤯5🙈3😁2🌭1👀1
Anthropic на своей новой презентации показали интересный график
Это employee retention rate, то есть процент сотрудников, которые остались в стартапе спустя год, два, три и тд с момента найма.
У Anthropic эта метрика достаточно высокая, даже самая высокая среди всего ИИ-теха. OpenAI проваливается куда-то вниз, и, внезапно, у Perplexity тоже дела с этим не очень.
Это employee retention rate, то есть процент сотрудников, которые остались в стартапе спустя год, два, три и тд с момента найма.
У Anthropic эта метрика достаточно высокая, даже самая высокая среди всего ИИ-теха. OpenAI проваливается куда-то вниз, и, внезапно, у Perplexity тоже дела с этим не очень.
😁103🤔36👍17❤5
Всплыло, что Илон Маск тихо построил еще один огромный датацентр стоимостью 700 миллионов долларов
Он расположен в Атланте, построен в сотрудничестве с X, и насчитывает 12000 GPU. Это не так много по сравнению с другим суперкомпьютером Маска, в котором 200к чипов, но все равно масштабно. Официальное назначение пока не раскрывается.
Он расположен в Атланте, построен в сотрудничестве с X, и насчитывает 12000 GPU. Это не так много по сравнению с другим суперкомпьютером Маска, в котором 200к чипов, но все равно масштабно. Официальное назначение пока не раскрывается.
👍102😁36🔥19❤9🤯5🌚2🍌2
OpenAI поделились текущей статистикой
🟦 Сейчас еженедельно они обслуживают 400 миллионов юзеров. Еще в декабре было 300 миллионов, кстати.
🟦 Сейчас у стартапа 2+ миллиона корпоративных клиентов: это в два раза больше, чем пол года назад.
🟦 Трафик в API тоже удвоился за последние 6 месяцев. Причем для недавно вышедшей o3-mini с момента запуска рост составил x5.
Самое интересное, что DeepSeek, возможно, не только не помешал росту OpenAI, но и ускорил его. Дело в том, что появление такого конкурента разгоняет внимание к ИИ и привлекает новую аудиторию, как бы провоцируя ее изучать рынок.
Самое интересное, что DeepSeek, возможно, не только не помешал росту OpenAI, но и ускорил его. Дело в том, что появление такого конкурента разгоняет внимание к ИИ и привлекает новую аудиторию, как бы провоцируя ее изучать рынок.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍124🔥33🎉21🤔16❤4
Аналитическая ИИ-лаборатория EpochAI опубликовала свои прогнозы на 2025:
⭐ К концу года FrontierMath будет решен на 75%. На данный момент это самый сложный мат.бенчмарк. Текущие модели (включая o3-mini) решают его на <10%, а o3, судя по анонсам, будет решать примерно на 25.
⭐ SWE Bench Verified будет решен на 90% (сейчас это <40).
⭐ Доход OpenAI составит примерно 12 миллиардов долларов. Это почти в 3.5 раза больше, чем в 2024.
⭐ Модели будут пока становиться больше, и можно ожидать повышение цен на API в 2-3 раза.
⭐ В целом прогресс за 2025 можно будет сравнить с прогрессом, который мы до этого наблюдали в течение двух лет, то есть с момента выхода GPT-4.
Отчет
Отчет
Please open Telegram to view this post
VIEW IN TELEGRAM
👍64❤19🌭10⚡6🙈1
Please open Telegram to view this post
VIEW IN TELEGRAM
😁264❤36🤔33🤯17🔥10👍9🌚7
This media is not supported in your browser
VIEW IN TELEGRAM
Boston Dynamics опять радуют видео новинки. На этот раз показали миленького робо-байкера 🥰
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤73😍43👍32🔥13⚡5😁4