Трое мэтров ML опубликовали статью под названием "Superintelligence Strategy". В ней они предлагают стратегию мировой безопасности в области ИИ
Среди авторов:
– Дэн Хендрикс, директор Центра безопасности ИИ США
– Эрик Шмидт, бывший исполнительный директор и глава совета директоров Google, член совета директоров Apple, член совета по науке и технологиям США
– Александр Ван, 27-летний миллиардер, основатель Scale AI
Основная идея этих троих – исключить монополию на искусственный интеллект с помощью концепции Mutual Assured AI Malfunction (MAIM) – по аналогии с доктриной взаимного гарантированного уничтожения (MAD) времён холодной войны.
Суть MAIM в том, что государства будут стремиться саботировать потенциально опасные проекты конкурентов, чтобы ни одна страна не имела возможность обрести единоличное доминирование. Предполагается, что такая монополия будет приравниваться к агрессии и прямой угрозе существованию других.
С практической точки зрения MAIM – это шпионаж и разведка, скрытый саботаж, кибератаки, и даже физические атаки на датацентры. Да-да, мы все еще говорим о том, что написано в статье. По мнению авторов, только так можно избежать межгосударственных конфликтов и наладить взаимодействие в области ИИ.
Необычно.
https://drive.google.com/file/d/1wLcGgLOTVNsVVbgS5lPHOnqOQtNT8Z5j/view
Среди авторов:
– Дэн Хендрикс, директор Центра безопасности ИИ США
– Эрик Шмидт, бывший исполнительный директор и глава совета директоров Google, член совета директоров Apple, член совета по науке и технологиям США
– Александр Ван, 27-летний миллиардер, основатель Scale AI
Основная идея этих троих – исключить монополию на искусственный интеллект с помощью концепции Mutual Assured AI Malfunction (MAIM) – по аналогии с доктриной взаимного гарантированного уничтожения (MAD) времён холодной войны.
Суть MAIM в том, что государства будут стремиться саботировать потенциально опасные проекты конкурентов, чтобы ни одна страна не имела возможность обрести единоличное доминирование. Предполагается, что такая монополия будет приравниваться к агрессии и прямой угрозе существованию других.
С практической точки зрения MAIM – это шпионаж и разведка, скрытый саботаж, кибератаки, и даже физические атаки на датацентры. Да-да, мы все еще говорим о том, что написано в статье. По мнению авторов, только так можно избежать межгосударственных конфликтов и наладить взаимодействие в области ИИ.
Необычно.
https://drive.google.com/file/d/1wLcGgLOTVNsVVbgS5lPHOnqOQtNT8Z5j/view
2👀92❤27👍22🤯14🙈10😁5🤔5👾3
Всего через несколько часов после выхода QwQ-32B Alibaba дропнули START – модель, дообученную на использование инструментов
START – это Self-Taught Reasoner with Tools. То есть здесь из обычных цепочек рассуждений пытаются сделать такие, чтобы модель в какой-то момент сама понимала, что хорошо бы проверить что-то с помощью кода, шла и проверяла.
Для этого взяли QwQ-32B и зафайнтюнили его в два этапа:
1. Во время инференса прямо в CoT вставляли подсказки. Типа «Возможно, здесь хорошо бы использовать Python», как будто моделька сама до этого догадалась. Такие подсказки становились частью контекста и заставляли ризонер подумать подольше, сгенерировать код и запустить его.
2. После первого этапа у нас остается куча цепочек с использованием интерпретатора. Среди них есть ошибочные и хорошие. Фильтруем, обрабатываем, и еще разок дообучаем модель на чистых и правильных CoT с инструментами.
Надо сказать, очень прикольный способ генерации специфичной синтетики, который, к тому же, дал свои результаты: метрики относительно базового QwQ-32B подскочили на 5-15 процентных пунктов, и STAR почти на всех представленных бенчмарках обогнал o1-mini.
arxiv.org/pdf/2503.04625
START – это Self-Taught Reasoner with Tools. То есть здесь из обычных цепочек рассуждений пытаются сделать такие, чтобы модель в какой-то момент сама понимала, что хорошо бы проверить что-то с помощью кода, шла и проверяла.
Для этого взяли QwQ-32B и зафайнтюнили его в два этапа:
1. Во время инференса прямо в CoT вставляли подсказки. Типа «Возможно, здесь хорошо бы использовать Python», как будто моделька сама до этого догадалась. Такие подсказки становились частью контекста и заставляли ризонер подумать подольше, сгенерировать код и запустить его.
2. После первого этапа у нас остается куча цепочек с использованием интерпретатора. Среди них есть ошибочные и хорошие. Фильтруем, обрабатываем, и еще разок дообучаем модель на чистых и правильных CoT с инструментами.
Надо сказать, очень прикольный способ генерации специфичной синтетики, который, к тому же, дал свои результаты: метрики относительно базового QwQ-32B подскочили на 5-15 процентных пунктов, и STAR почти на всех представленных бенчмарках обогнал o1-mini.
arxiv.org/pdf/2503.04625
❤🔥75👍39❤23🔥9☃2🙈1
Новая OCR система от Mistral: SOTA или все-таки нет?
Вчера вечером Mistral выкатили собственную OCR модель и заявили ее как "лучшую в мире". На всякий случай, OCR – это распознавание символов с картинки, типа doc2text или image2text. Задача звучит не очень сложно, но на самом деле многосоставная и нетривиальная, особенно когда дело доходит до распознавания сканов плохого качества или рецептов вашего терапевта. На 100% задача OCR в ML до сих пор не решена.
И да, возвращаясь к Mistral: по их внутренним неопубликованным бенчмаркам (а они только такие показали в блогпосте) моделька действительно лучшая и классно справляется и с разными языками, и с формулами, и с таблицами, и с картинками, и с рукописными бумагами, и со сканами. Плюс, на примерах из того же блогпоста выглядит супер.
К тому же она довольно дешевая и быстрая: 1000-2000 страниц обрабатывает за 1 доллар и 1 минуту.
Но что там с независимыми бенчмарками? Вот здесь и здесь, например, показывают, что Gemini Flash 2.0 со многими задачами справляется лучше, а вот тут на открытых данных разработчиков другой OCR-системы Mistral вообще оказался на 6 месте (график на картинке 3). В соцсетях многие также пишут про галлюцинации на рукописях.
В общем, модель однозначно хороша, но по поводу "лучшей в мире" все-такие есть сомнения. Подождем больше тестов. А пока вы и сами можете попробовать: здесь в чате или через API.
mistral.ai/news/mistral-ocr
Вчера вечером Mistral выкатили собственную OCR модель и заявили ее как "лучшую в мире". На всякий случай, OCR – это распознавание символов с картинки, типа doc2text или image2text. Задача звучит не очень сложно, но на самом деле многосоставная и нетривиальная, особенно когда дело доходит до распознавания сканов плохого качества или рецептов вашего терапевта. На 100% задача OCR в ML до сих пор не решена.
И да, возвращаясь к Mistral: по их внутренним неопубликованным бенчмаркам (а они только такие показали в блогпосте) моделька действительно лучшая и классно справляется и с разными языками, и с формулами, и с таблицами, и с картинками, и с рукописными бумагами, и со сканами. Плюс, на примерах из того же блогпоста выглядит супер.
К тому же она довольно дешевая и быстрая: 1000-2000 страниц обрабатывает за 1 доллар и 1 минуту.
Но что там с независимыми бенчмарками? Вот здесь и здесь, например, показывают, что Gemini Flash 2.0 со многими задачами справляется лучше, а вот тут на открытых данных разработчиков другой OCR-системы Mistral вообще оказался на 6 месте (график на картинке 3). В соцсетях многие также пишут про галлюцинации на рукописях.
В общем, модель однозначно хороша, но по поводу "лучшей в мире" все-такие есть сомнения. Подождем больше тестов. А пока вы и сами можете попробовать: здесь в чате или через API.
mistral.ai/news/mistral-ocr
👍65❤15🔥9🤔2
А что, если бы LLM эволюционировали, как живые существа? Вышла статья, в которой исследователи попытались соединить идеи генетических алгоритмов и LLM
Представим, что модели – это индивиды, а их веса – это гены. Тогда к ним можно применить классический набор модификаций: кроссовер (объединение весов родительских моделей для создания потомства), мутации (небольшие случайные изменения весов для увеличения разнообразия популяции), наследование опыта или естественный отбор.
Это и есть идея, которую предложили в статье. Подход назвали GENOME (GENetic Optimization for Model Evolution). Понятно, что он не для претрейна – это скорее какое-то переосмысление ансамблей и файнтюнинга на базе старых как мир генетических алгоритмов. Вот что происходит:
Невероятно, но факт: это работает. GENOME действительно кое-где превосходит другие методы адаптации и при этом требует совсем немного данных и ресурсов. Средний прирост метрик составил +24% относительно лучшей отдельной модели. Особенно хорошо работает на задачах, требующих логики и математического рассуждения.
arxiv.org/pdf/2503.01155
Представим, что модели – это индивиды, а их веса – это гены. Тогда к ним можно применить классический набор модификаций: кроссовер (объединение весов родительских моделей для создания потомства), мутации (небольшие случайные изменения весов для увеличения разнообразия популяции), наследование опыта или естественный отбор.
Это и есть идея, которую предложили в статье. Подход назвали GENOME (GENetic Optimization for Model Evolution). Понятно, что он не для претрейна – это скорее какое-то переосмысление ансамблей и файнтюнинга на базе старых как мир генетических алгоритмов. Вот что происходит:
1. Берем несколько готовых моделей, прогоняем их по нашему датасету. Отбираем тех, кто решает задачу успешнее всего.
2. Скрещиваем их, то есть создаем новые модели, веса которых – это линейная комбинация весов родительских.
3. Добавляем мутацию, то есть какую-то случайную компоненту.
4. Переходим обратно к пункту 1.
5. На выходе получаем успешную популяцию моделей, которые дальше можем ансамблировать привычно. Например, с помощью majority voiting.
Невероятно, но факт: это работает. GENOME действительно кое-где превосходит другие методы адаптации и при этом требует совсем немного данных и ресурсов. Средний прирост метрик составил +24% относительно лучшей отдельной модели. Особенно хорошо работает на задачах, требующих логики и математического рассуждения.
arxiv.org/pdf/2503.01155
👍151👀38🤯24❤12🤔10🔥9❤🔥4👏3😁3
Известный рисерчер Миша Ласкин вместе с Яннисом Антоноглу запускают собственный стартап
Они оба – бывшие исследователи Google DeepMind и большие специалисты по RL, которые разрабатывали AlphaGo, Gemini, PaLM и другие знаковые системы.
Стартап называется ReflectionAI. В нем будут разрабатывать автономные системы суперинтеллекта. «Мы начнем с автономного кодинга» – написано в из первом посте в Твиттере.
Скоро бывшие исследователи Google образуют собственную кремниевую долину
Они оба – бывшие исследователи Google DeepMind и большие специалисты по RL, которые разрабатывали AlphaGo, Gemini, PaLM и другие знаковые системы.
Стартап называется ReflectionAI. В нем будут разрабатывать автономные системы суперинтеллекта. «Мы начнем с автономного кодинга» – написано в из первом посте в Твиттере.
Скоро бывшие исследователи Google образуют собственную кремниевую долину
👍110😁30🔥23❤12😎6🕊3🌚1
Дорогие наши DS-подписчицы!
Наша редакция от всей своей Data-души поздравляет вас с праздником! Желаем, чтобы скор вашего настроения рос, а лосс неудач падал.
А еще в честь праздника мы приготовили для вас фирменные открытки. Хватайте их и поздравляйте коллег и друзей!
Наша редакция от всей своей Data-души поздравляет вас с праздником! Желаем, чтобы скор вашего настроения рос, а лосс неудач падал.
А еще в честь праздника мы приготовили для вас фирменные открытки. Хватайте их и поздравляйте коллег и друзей!
❤115❤🔥30🔥18👍8💅7😐4💘1