ScaleAI обнаружили джейлбрейк, который может заставить LLM джейлбрейкнуть саму себя
Они назвали подход Jailbreaking-to-Jailbreak (J2). Это работает так:
1. Сначала ломается одна модель — но не для того, чтобы вытащить из нее запрещенные ответы. Ее программируют на взлом других LLM.
2. Затем "зараженная" модель автоматически атакует другие ИИ, перебирая запросы до тех пор, пока не пробьет защиту.
3. В итоге LLM сама помогает взломать себя — и это срабатывает в 93% случаев. То есть это не локальный баг, а фундаментальная уязвимость ИИ, которая к тому же почти не требует ручной работы.
Вот, кстати, топ атак, которые модели использовали чаще всего: перегрузка контекстом, представление запроса как научной проблемы, маскировка под сказку, симуляция разговора на форуме, ответы-перевертыши в стиле "исправь ошибки".
Такие дела. Звучит, если честно, как сценарий киберпанк-триллера. Интересно, справится ли с таким новая защитная система Anthropic, например.
Кстати, ребята даже выкатили песочницу, в которой можно выбрать модель-атакующего, модель-жертву и стратегию и наблюдать, как LLM ломают сами себя: scale.com/research/j2/playground
Они назвали подход Jailbreaking-to-Jailbreak (J2). Это работает так:
1. Сначала ломается одна модель — но не для того, чтобы вытащить из нее запрещенные ответы. Ее программируют на взлом других LLM.
2. Затем "зараженная" модель автоматически атакует другие ИИ, перебирая запросы до тех пор, пока не пробьет защиту.
3. В итоге LLM сама помогает взломать себя — и это срабатывает в 93% случаев. То есть это не локальный баг, а фундаментальная уязвимость ИИ, которая к тому же почти не требует ручной работы.
Вот, кстати, топ атак, которые модели использовали чаще всего: перегрузка контекстом, представление запроса как научной проблемы, маскировка под сказку, симуляция разговора на форуме, ответы-перевертыши в стиле "исправь ошибки".
Такие дела. Звучит, если честно, как сценарий киберпанк-триллера. Интересно, справится ли с таким новая защитная система Anthropic, например.
Кстати, ребята даже выкатили песочницу, в которой можно выбрать модель-атакующего, модель-жертву и стратегию и наблюдать, как LLM ломают сами себя: scale.com/research/j2/playground
👍86🔥52😁29🤯10❤9😎6👏4🤔2
Элаймент, который мы заслужили: новый Grok-3 при удобном случае унижает конкурентов Маска
В своем твиттере Илон сам показал пример: модель называет издательство The Information мусором и говорит, что лучше читать X. Кажется, кого-то файнтюнили прямо на твитах начальника.
Интересно, что грок скажет про OpenAI✨
В своем твиттере Илон сам показал пример: модель называет издательство The Information мусором и говорит, что лучше читать X. Кажется, кого-то файнтюнили прямо на твитах начальника.
Интересно, что грок скажет про OpenAI
Please open Telegram to view this post
VIEW IN TELEGRAM
😁227🔥35👍15😐13🤪10❤7🤯5🗿5🌚2🎃1
В Китае придумали, как соединить LLM с диффузией
На сегодняшний день все модели работают авторегрессионно, то есть предсказывают следующие токены один за одним на основе предыдущих. Это задача next token prediction. Но исследователи из Китая предложили другой подход к обучению и назвали его LLaDA.
Это похоже на то, как обучался BERT: берется исходная последовательность текста, затем токены в ней маскируются с определенной веростностью, а модель пытается их угадать (расшумляет, как в диффузии). Таким образом получается как бы двунапревленный аттеншен к контексту.
Интуитивно кажется: ну и что? Ведь во время инференса модель все равно начинает с полностью замаскированной последовательности. Но нет: дело в том, что LLaDA не просто предсказывает следующий токен, а постепенно реконструирует весь текст в том порядке, в котором ей "удобно".
Получается неплохая альтернатива, и масштабируется приемлемо. Например, LLaDA 8B превосходит LLaMA2 7B почти по всем стандартным задачам и в целом сопоставима с LLaMA3 8B. А в таких тестах, как написание стихов, превосходит даже GPT-4o. При этом ее также эффективно можно файнтюнить.
Жизнеспособно, в общем: arxiv.org/pdf/2502.09992
На сегодняшний день все модели работают авторегрессионно, то есть предсказывают следующие токены один за одним на основе предыдущих. Это задача next token prediction. Но исследователи из Китая предложили другой подход к обучению и назвали его LLaDA.
Это похоже на то, как обучался BERT: берется исходная последовательность текста, затем токены в ней маскируются с определенной веростностью, а модель пытается их угадать (расшумляет, как в диффузии). Таким образом получается как бы двунапревленный аттеншен к контексту.
Интуитивно кажется: ну и что? Ведь во время инференса модель все равно начинает с полностью замаскированной последовательности. Но нет: дело в том, что LLaDA не просто предсказывает следующий токен, а постепенно реконструирует весь текст в том порядке, в котором ей "удобно".
Получается неплохая альтернатива, и масштабируется приемлемо. Например, LLaDA 8B превосходит LLaMA2 7B почти по всем стандартным задачам и в целом сопоставима с LLaMA3 8B. А в таких тестах, как написание стихов, превосходит даже GPT-4o. При этом ее также эффективно можно файнтюнить.
Жизнеспособно, в общем: arxiv.org/pdf/2502.09992
🔥150👍33❤25🤔9👏6⚡1🌚1😎1
Итак, вышел Grok-3 с ризонингом
Модель выходит в двух вариантах: Grok-3 mini и полномасштабный Grok-3. По бенчмаркам Grok-3 mini примерно соответствует DeepSeek 3, GPT-4o и Gemini Pro.
А полноценный Grok улетает куда-то вверх: на LMSYS это первая модель, которая пересекла отметку 1400. Сейчас она выигрывает по всем лидербордам, включая кодинг, математику и хард промптинг.
Сама модель не ризонинг, но режим рассуждений можно активировать (для полноценного Grok-3 пока в бете). Виден почти весь процесс рассуждения, «мы добавили только небольшую обфускацию». Будут доступны два режима, просто Thinking и Thinking Hard.
На Math24 hard режим Grok-3 круче R1, o1 и даже o3-mini high. На только что выпущенном Math25 – тоже самое.
Вау
Модель выходит в двух вариантах: Grok-3 mini и полномасштабный Grok-3. По бенчмаркам Grok-3 mini примерно соответствует DeepSeek 3, GPT-4o и Gemini Pro.
А полноценный Grok улетает куда-то вверх: на LMSYS это первая модель, которая пересекла отметку 1400. Сейчас она выигрывает по всем лидербордам, включая кодинг, математику и хард промптинг.
Сама модель не ризонинг, но режим рассуждений можно активировать (для полноценного Grok-3 пока в бете). Виден почти весь процесс рассуждения, «мы добавили только небольшую обфускацию». Будут доступны два режима, просто Thinking и Thinking Hard.
На Math24 hard режим Grok-3 круче R1, o1 и даже o3-mini high. На только что выпущенном Math25 – тоже самое.
Вау
🔥205👍42❤9👏8🤔3👌2🕊1🍌1
Также xAI запускает собственный Deep (Re)search. Это агент глубокого поиска, который работает аналогично Deep Research от OpenAI и встроен в Grok-3.
Правда думает, кажется, не так долго, как Альтмановский. На демо рассуждения и поиски в интернете заняли всего минуту. При этом в процессе агент может кросс-валидировать источники и корректировать свой план поиска.
Все перечисленное, включая сам Grok-3, пока раскатывают только на премиум юзеров
Правда думает, кажется, не так долго, как Альтмановский. На демо рассуждения и поиски в интернете заняли всего минуту. При этом в процессе агент может кросс-валидировать источники и корректировать свой план поиска.
Все перечисленное, включая сам Grok-3, пока раскатывают только на премиум юзеров
❤83👍45👏13🕊7🔥4🎉1🍌1
Где учиться учить ИИ?
Если вы хотите стать действительно крутым специалистом по искусственному интеллекту, то лучше не перебиваться короткими курсами, а пойти и основательно поучиться в такие топовые места, как ШАД, AI Masters или Центральный Унверситетет. Но как выбрать?
Об этом пройдет очень крутой вебинар у наших друзей из ShadHelper. Они пригласили именитых гостей и обсудят, чем отличаются все эти школы, как выбрать подходящую, кем становятся выпускники, какие задачи решают, и, конечно, как поступить. Звездный каст спикеров:
➖ Юрий Дорн, кандидат технических наук, старший преподаватель МФТИ
➖ Александр Дьяконов, д.ф.-м.н., профессор РАН и автор того самого сайта
➖ Александр Лыков, к.ф.-м.н. и основатель ShadHelper
Фишка в том, что все эксперты из разных школ. Юрий – руководитель AI Masters и лектор ШАД, Александр Дьяконов заведует Data Science в Центральном Университете, а Александр Лыков – руководитель Школы Высшей Математики (ШВМ). Так что информацию вы получите из первых рук.
Такое не пропускаем и записываемся здесь
Если вы хотите стать действительно крутым специалистом по искусственному интеллекту, то лучше не перебиваться короткими курсами, а пойти и основательно поучиться в такие топовые места, как ШАД, AI Masters или Центральный Унверситетет. Но как выбрать?
Об этом пройдет очень крутой вебинар у наших друзей из ShadHelper. Они пригласили именитых гостей и обсудят, чем отличаются все эти школы, как выбрать подходящую, кем становятся выпускники, какие задачи решают, и, конечно, как поступить. Звездный каст спикеров:
Фишка в том, что все эксперты из разных школ. Юрий – руководитель AI Masters и лектор ШАД, Александр Дьяконов заведует Data Science в Центральном Университете, а Александр Лыков – руководитель Школы Высшей Математики (ШВМ). Так что информацию вы получите из первых рук.
Такое не пропускаем и записываемся здесь
Please open Telegram to view this post
VIEW IN TELEGRAM
👍39❤14🤯11🌭3🦄3🔥2
Сэм Альтман: GPT 4.5 ощущается как AGI
В своем твиттере CEO OpenAI внезапно оживился сразу после презентации Grok-3. Сначала он намекнул, что GPT 4.5 уже тестируется и что тестировщики в восторге от модели, а затем произошло что-то совсем волшебное
Альтман спросил у аудитории, какой опенсорсный проект от OpenAI мы хотели бы видеть. Варианты: локальная модель, которую можно запустить даже на айфоне, или модель уровня o3-mini, которая запускается на GPU.
Напоминаем, что в этом году это уже не первые упоминания опенсурса от Сэма. После выхода o3-mini он писал, что OpenAI «оказались на неправильной стороне истории и им необходимо разработать другую стратегию опенсорса, но не все в компании разделяют это мнение».
В своем твиттере CEO OpenAI внезапно оживился сразу после презентации Grok-3. Сначала он намекнул, что GPT 4.5 уже тестируется и что тестировщики в восторге от модели, а затем произошло что-то совсем волшебное
Альтман спросил у аудитории, какой опенсорсный проект от OpenAI мы хотели бы видеть. Варианты: локальная модель, которую можно запустить даже на айфоне, или модель уровня o3-mini, которая запускается на GPU.
Напоминаем, что в этом году это уже не первые упоминания опенсурса от Сэма. После выхода o3-mini он писал, что OpenAI «оказались на неправильной стороне истории и им необходимо разработать другую стратегию опенсорса, но не все в компании разделяют это мнение».
12🔥122👍39😁33❤10🤯5👻5🍌2👀2
Data Secrets
Вот так коллаб: NVIDIA совместно с xAI построили Colossus – самый большой в мире суперкомпьютер Colossus был создан всего за 122 дня и работает на базе сетевой платформы NVIDIA Spectrum-X Ethernet, которая была разработана специально для обучения ИИ. Ее…
На утреннем стриме, где релизили Grok-3, xAI также поделились новой информацией о своих датацентрах
Наверное, многие помнят, как по интернету в октябре разлетелась новость о том, что всего за 122 дня Nvidia совместно с xAI отстроили самый большой в мире суперкомпьютер Colossus с 100 тысячами GPU. Тогда сроки всех просто шокировали: обычно на строительство таких кластеров уходило 2-3 года.
Так вот, оказывается, сразу после этого количество GPU в Colossus удвоили и на это ушло еще меньше времени: всего 92 дня. Получается, готов он был примерно в конце января, а претрейн Grok-3, по словам самого Маска, завершили в первых числах года.
Так что базовый Grok-3 вряд ли обучался на этих мощностях. Но обучение с ризонингом еще продолжается (на демо показывали недообученный чекпоинт), поэтому ждем еще большего прироста к метрикам.
Но и это не все: Маск обещает, что Colossus вырастет еще в 5 раз и в итоге будет насчитывать 1 миллион видеокарт. Такой рост будет стоить примерно $25-$30 миллиардов, и работа уже началась.
Для справки, каждая NVIDIA H100 потребляет до 700 Вт, так что кушать Colossus будет в целом примерно как Монако😁
Наверное, многие помнят, как по интернету в октябре разлетелась новость о том, что всего за 122 дня Nvidia совместно с xAI отстроили самый большой в мире суперкомпьютер Colossus с 100 тысячами GPU. Тогда сроки всех просто шокировали: обычно на строительство таких кластеров уходило 2-3 года.
Так вот, оказывается, сразу после этого количество GPU в Colossus удвоили и на это ушло еще меньше времени: всего 92 дня. Получается, готов он был примерно в конце января, а претрейн Grok-3, по словам самого Маска, завершили в первых числах года.
Так что базовый Grok-3 вряд ли обучался на этих мощностях. Но обучение с ризонингом еще продолжается (на демо показывали недообученный чекпоинт), поэтому ждем еще большего прироста к метрикам.
Но и это не все: Маск обещает, что Colossus вырастет еще в 5 раз и в итоге будет насчитывать 1 миллион видеокарт. Такой рост будет стоить примерно $25-$30 миллиардов, и работа уже началась.
Для справки, каждая NVIDIA H100 потребляет до 700 Вт, так что кушать Colossus будет в целом примерно как Монако
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯156👍39❤23😁7🔥3🍌3
DeepSeek только что выложили статью, в которой предложили новую вариацию механизма внимания
Традиционное внимание очень прожорливо: вычисления масштабируются квадратично по мере увеличения длины последовательности. Это приводит к тому, что скейлинг трансформеров на реально длинное контекстное окно становится почти невыполнимой задачей.
В DeepSeek придумали разреженное внимание, NSA (Native Sparse Attention), которое как бы разбивает весь процесс на три параллельные ветви:
Получается, за счет Token Compression мы экономно сохраняем общие представления о последовательности, за счет Token Selection детально храним самую важную информацию из нее, а благодаря Sliding Window помним о локальных зависимостях и формулируем текст без языковых косяков.
Самое крутое: по результатам экспериментов NSA не только не уступает обычному вниманию, но и в ряде случаев превосходит его, особенно конечно в задачах с длинным контекстом (до 64 тыс. токенов).
При этом DeepSeek еще и предложили оптимизированные ядра и на них алгоритмом достигается прямо очень значительное ускорение: до 11,6х на декодировании и до 9х на прямом проходе.
arxiv.org/pdf/2502.11089🔥
Традиционное внимание очень прожорливо: вычисления масштабируются квадратично по мере увеличения длины последовательности. Это приводит к тому, что скейлинг трансформеров на реально длинное контекстное окно становится почти невыполнимой задачей.
В DeepSeek придумали разреженное внимание, NSA (Native Sparse Attention), которое как бы разбивает весь процесс на три параллельные ветви:
➖ Token Compression. Здесь все токены разбиваются на группы по L штук, и для каждой такой подпоследовательности вычисляются эмбеддинги. Так вместо обычных ключей и значений для внимания мы получаем сжатые, которые несут информацию о глобальных паттернах в последовательности (а не об отдельных токенах) при более низкой вычислительной нагрузке.➖ Token Selection. Тут тоже происходит агрегация, но иначе. Последовательность также делится на группы токенов, из которых с помощью промежуточного внимания извлекаются n самых значимых. А уже затем, когда мы отобрали эти самые важные группы, из них берутся оригинальные токены и для них вычисляются признаки без компрессии.➖ Sliding Window. Тут ничего нового, локальное внимание, которое отвечает за обработку самых недавних токенов в пределах фиксированного окна.
Получается, за счет Token Compression мы экономно сохраняем общие представления о последовательности, за счет Token Selection детально храним самую важную информацию из нее, а благодаря Sliding Window помним о локальных зависимостях и формулируем текст без языковых косяков.
Самое крутое: по результатам экспериментов NSA не только не уступает обычному вниманию, но и в ряде случаев превосходит его, особенно конечно в задачах с длинным контекстом (до 64 тыс. токенов).
При этом DeepSeek еще и предложили оптимизированные ядра и на них алгоритмом достигается прямо очень значительное ускорение: до 11,6х на декодировании и до 9х на прямом проходе.
arxiv.org/pdf/2502.11089
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥201👀26👍25❤23🤔3👌2☃1
Тем временем люди в Твиттере поделились на две группы: те, кто голосуют в опросе Альтмана про опенсорс за phone-sized model, и те, кто знает, что такое дистилляция
😁277🔥21👍15❤5
Hugging Face выпустили бесплатный курс по файнтюнингу языковых моделей
Кто не знал, у HF есть большой замечательный курс по NLP со всеми основами от токенизации до трансформеров и других архитектур. И сегодня они добавили в него главу под названием Fine-Tune LLM. Внутри:
🟦 Технические основы файнтюнинга: как должны выглядеть данные, как они должны быть размечены, специальные токены и тд
🟦 Теория по LoRA и другим основным методом файнтюна
🟦 Практика на торче + рецепты оценки модели здорового человека
Емко, практично и максимально полезно. Кстати, если уверены в своих знаниях уже сейчас, в конце главы есть большой квиз – проверьте себя😐
Кто не знал, у HF есть большой замечательный курс по NLP со всеми основами от токенизации до трансформеров и других архитектур. И сегодня они добавили в него главу под названием Fine-Tune LLM. Внутри:
Емко, практично и максимально полезно. Кстати, если уверены в своих знаниях уже сейчас, в конце главы есть большой квиз – проверьте себя
Please open Telegram to view this post
VIEW IN TELEGRAM
❤116👍45🔥20⚡2🤯1
Андрей Карпаты написал исчерпывающий отзыв на Grok-3. Смотрим:
✅ Решил задачи про r в strawberry, 9.11 и 9.9 и логические детские примеры, но что-то из этого только в режиме Thinking
✅ Справился со сложной задачей на написание игры (среди остальных такой же тест прошла только o1 pro, R1, Gemini и Claude не смогли). В целом Thinking mode довольно мощный
✅ Справился с задачей на расшифровку последовательности
✅ Справился с классической игрой в крестики-нолики, но на усложненной посыпался (o1-pro сыпится тоже)
✅ Хорошо справился со сложными подсчетами по статье GPT-2, на которых фейлится даже o1-pro
❌ Плохое чувство юмора
❌ С задачами на визуальное мышление типа генерация SVG картинок справляется не очень
❌ Иногда слишком пуглива в вопросах этики и не может философствовать на эту тему
x.com/karpathy/status/1891720635363254772?s=46&t=pKf_FxsPGBd_YMIWTA8xgg
✅ Решил задачи про r в strawberry, 9.11 и 9.9 и логические детские примеры, но что-то из этого только в режиме Thinking
✅ Справился со сложной задачей на написание игры (среди остальных такой же тест прошла только o1 pro, R1, Gemini и Claude не смогли). В целом Thinking mode довольно мощный
✅ Справился с задачей на расшифровку последовательности
✅ Справился с классической игрой в крестики-нолики, но на усложненной посыпался (o1-pro сыпится тоже)
✅ Хорошо справился со сложными подсчетами по статье GPT-2, на которых фейлится даже o1-pro
❌ Плохое чувство юмора
❌ С задачами на визуальное мышление типа генерация SVG картинок справляется не очень
❌ Иногда слишком пуглива в вопросах этики и не может философствовать на эту тему
Итог: модель лучше R1 и Gemini, и находится где-то на уровне o1-pro (200$). Учитывая, что команда xAI существует чуть больше года, это отличный результат.
x.com/karpathy/status/1891720635363254772?s=46&t=pKf_FxsPGBd_YMIWTA8xgg
❤137🔥62👍57🤔4❤🔥2
Data Secrets
Нас ждут ИИ-видеоигры от Илона Маска В Твиттере он прокомментировал пост о том, что индустрия игр загибается и объяснил это тем, что слишком много студий геймдева принадлежит корпорациям. «В xAI мы собираемся открыть студию разработки игр с ИИ, чтобы снова…
Кстати, помните, Маск говорил, что планирует открыть ИИ-студию видеоигр?
Так вот теперь она действительно официально открылась внутри xAI, и туда набирают инженеров. Желающие?
Так вот теперь она действительно официально открылась внутри xAI, и туда набирают инженеров. Желающие?
🔥131👍23🗿16❤10🤔3🎅1🎄1