Data Secrets

Тем временем OpenAI закончили раскатывать GPT-4.5 на юзеров Plus подписки (20$)

Теперь можно сэкономить 180 долларов 🤑

Please open Telegram to view this post

🔥71❤21🤯13👍8😐5

14.5K views09:22

И кстати, если вы думали, что 200 долларов за ChatGPT – это предел, то присаживайтесь поудобнее: сейчас будет больше нулей! 🤑

В OpenAI обсуждают добавление новых подписок, которые будут стоить от 2 000$ до 20 000$ в месяц. В них будут включены несколько агентов уровня PhD, которые «способны генерировать научные гипотезы и разрабатывать ПО». Целевая аудитория – «работники научной сферы и высокими доходами» и, конечно, лаборатории и компании.

Интересно, какой уровень возможностей будет предлагать стартап за такие деньги. Ведь это аналогично тому, чтобы нанять себе неплохого живого ассистента (2к) или даже очень крутого PhD исследователя (20к).

Please open Telegram to view this post

VIEW IN TELEGRAM

🤯134🗿38👍19😁19🔥12❤8

16.6K views09:53

Data Secrets

Трое мэтров ML опубликовали статью под названием "Superintelligence Strategy". В ней они предлагают стратегию мировой безопасности в области ИИ

Среди авторов:
– Дэн Хендрикс, директор Центра безопасности ИИ США
– Эрик Шмидт, бывший исполнительный директор и глава совета директоров Google, член совета директоров Apple, член совета по науке и технологиям США
– Александр Ван, 27-летний миллиардер, основатель Scale AI

Основная идея этих троих – исключить монополию на искусственный интеллект с помощью концепции Mutual Assured AI Malfunction (MAIM) – по аналогии с доктриной взаимного гарантированного уничтожения (MAD) времён холодной войны.

Суть MAIM в том, что государства будут стремиться саботировать потенциально опасные проекты конкурентов, чтобы ни одна страна не имела возможность обрести единоличное доминирование. Предполагается, что такая монополия будет приравниваться к агрессии и прямой угрозе существованию других.

С практической точки зрения MAIM – это шпионаж и разведка, скрытый саботаж, кибератаки, и даже физические атаки на датацентры. Да-да, мы все еще говорим о том, что написано в статье. По мнению авторов, только так можно избежать межгосударственных конфликтов и наладить взаимодействие в области ИИ.

Необычно.

https://drive.google.com/file/d/1wLcGgLOTVNsVVbgS5lPHOnqOQtNT8Z5j/view

2👀92❤28👍22🤯14🙈10😁5🤔5👾3

17.3K viewsedited 12:20

Data Secrets

Всего через несколько часов после выхода QwQ-32B Alibaba дропнули START – модель, дообученную на использование инструментов

START – это Self-Taught Reasoner with Tools. То есть здесь из обычных цепочек рассуждений пытаются сделать такие, чтобы модель в какой-то момент сама понимала, что хорошо бы проверить что-то с помощью кода, шла и проверяла.

Для этого взяли QwQ-32B и зафайнтюнили его в два этапа:

1. Во время инференса прямо в CoT вставляли подсказки. Типа «Возможно, здесь хорошо бы использовать Python», как будто моделька сама до этого догадалась. Такие подсказки становились частью контекста и заставляли ризонер подумать подольше, сгенерировать код и запустить его.

2. После первого этапа у нас остается куча цепочек с использованием интерпретатора. Среди них есть ошибочные и хорошие. Фильтруем, обрабатываем, и еще разок дообучаем модель на чистых и правильных CoT с инструментами.

Надо сказать, очень прикольный способ генерации специфичной синтетики, который, к тому же, дал свои результаты: метрики относительно базового QwQ-32B подскочили на 5-15 процентных пунктов, и STAR почти на всех представленных бенчмарках обогнал o1-mini.

arxiv.org/pdf/2503.04625

❤‍🔥75👍39❤23🔥9☃2🙈1

16.2K views07:54

Data Secrets

Новая OCR система от Mistral: SOTA или все-таки нет?

Вчера вечером Mistral выкатили собственную OCR модель и заявили ее как "лучшую в мире". На всякий случай, OCR – это распознавание символов с картинки, типа doc2text или image2text. Задача звучит не очень сложно, но на самом деле многосоставная и нетривиальная, особенно когда дело доходит до распознавания сканов плохого качества или рецептов вашего терапевта. На 100% задача OCR в ML до сих пор не решена.

И да, возвращаясь к Mistral: по их внутренним неопубликованным бенчмаркам (а они только такие показали в блогпосте) моделька действительно лучшая и классно справляется и с разными языками, и с формулами, и с таблицами, и с картинками, и с рукописными бумагами, и со сканами. Плюс, на примерах из того же блогпоста выглядит супер.

К тому же она довольно дешевая и быстрая: 1000-2000 страниц обрабатывает за 1 доллар и 1 минуту.

Но что там с независимыми бенчмарками? Вот здесь и здесь, например, показывают, что Gemini Flash 2.0 со многими задачами справляется лучше, а вот тут на открытых данных разработчиков другой OCR-системы Mistral вообще оказался на 6 месте (график на картинке 3). В соцсетях многие также пишут про галлюцинации на рукописях.

В общем, модель однозначно хороша, но по поводу "лучшей в мире" все-такие есть сомнения. Подождем больше тестов. А пока вы и сами можете попробовать: здесь в чате или через API.

mistral.ai/news/mistral-ocr

👍65❤15🔥9🤔2

14.6K views10:05

Data Secrets

А что, если бы LLM эволюционировали, как живые существа? Вышла статья, в которой исследователи попытались соединить идеи генетических алгоритмов и LLM

Представим, что модели – это индивиды, а их веса – это гены. Тогда к ним можно применить классический набор модификаций: кроссовер (объединение весов родительских моделей для создания потомства), мутации (небольшие случайные изменения весов для увеличения разнообразия популяции), наследование опыта или естественный отбор.

Это и есть идея, которую предложили в статье. Подход назвали GENOME (GENetic Optimization for Model Evolution). Понятно, что он не для претрейна – это скорее какое-то переосмысление ансамблей и файнтюнинга на базе старых как мир генетических алгоритмов. Вот что происходит:

1. Берем несколько готовых моделей, прогоняем их по нашему датасету. Отбираем тех, кто решает задачу успешнее всего.
2. Скрещиваем их, то есть создаем новые модели, веса которых – это линейная комбинация весов родительских.
3. Добавляем мутацию, то есть какую-то случайную компоненту.
4. Переходим обратно к пункту 1.
5. На выходе получаем успешную популяцию моделей, которые дальше можем ансамблировать привычно. Например, с помощью majority voiting.

Невероятно, но факт: это работает. GENOME действительно кое-где превосходит другие методы адаптации и при этом требует совсем немного данных и ресурсов. Средний прирост метрик составил +24% относительно лучшей отдельной модели. Особенно хорошо работает на задачах, требующих логики и математического рассуждения.

arxiv.org/pdf/2503.01155

👍151👀38🤯24❤12🤔10🔥9❤‍🔥4👏3😁3

17K views12:42

Data Secrets

Известный рисерчер Миша Ласкин вместе с Яннисом Антоноглу запускают собственный стартап

Они оба – бывшие исследователи Google DeepMind и большие специалисты по RL, которые разрабатывали AlphaGo, Gemini, PaLM и другие знаковые системы.

Стартап называется ReflectionAI. В нем будут разрабатывать автономные системы суперинтеллекта. «Мы начнем с автономного кодинга» – написано в из первом посте в Твиттере.

Скоро бывшие исследователи Google образуют собственную кремниевую долину

👍110😁30🔥23❤12😎6🕊3🌚1

14.7K viewsedited 17:01

Data Secrets

Дорогие наши DS-подписчицы!

Наша редакция от всей своей Data-души поздравляет вас с праздником! Желаем, чтобы скор вашего настроения рос, а лосс неудач падал.

А еще в честь праздника мы приготовили для вас фирменные открытки. Хватайте их и поздравляйте коллег и друзей!

❤115❤‍🔥30🔥18👍8💅7😐4💘1

14.3K views08:57

About

Blog

Apps

Platform