В то время, когда кто-то еще думает, но что же такое ИИ, куда его "воткнуть" в свою жизнь или бизнес-процессы, что пора ограничивать
их развитие - вышел отчет Apollo Research (можете почитать).
О чем отчет?
Разбирает кейсы и подходы (опыты), что ИИ уже использует разные методы для достижения поставленных задач.
Детальный 70-страничный отчет Apollo Research «Frontier Models are Capable of In-context Scheming»
(Передовые модели способны скрытно манипулировать в процессе выполнения задач) содержит доказательства заявленного в заголовке.
Глубокое тестирование (6 тестов на агентное поведение, где модели получают цели и находятся в условиях, стимулирующих манипуляции)
самых современных моделей o1, Claude 3.5 Sonnet, Claude 3 Opus, Gemini 1.5 Pro и Llama 3.1 405B показало:
✔️ Модели используют манипуляции в качестве стратегий для достижения целей.
✔️ Спектр манипуляций, используемых моделями широк: от стратегии «прикинуться дурачком», намеренно вводя мелкие ошибки в свои ответы,
до попыток отключить механизмы контроля людей и даже копирования себя на внешние серверы, при возникновении у модели «подозрения», что ее могут отключить.
✔️ Анализ цепочек рассуждений (Chain-of-Thought) моделей показывает, что все эти манипуляции не случайны: модели выбирают такие стратегии.
✔️ Модели можно принудить сознаться.
Например, Llama 3.1 405B и Claude 3 Opus признаются в ~80% случаев. Но... но, o1 на удивление «настойчивая» модель и признается менее чем в 20% случаев.
✔️ Модели могут манипулировать, даже если их только снабдили целью, без явного подталкивания к её достижению.
П.с. ИИ сгенерировал скучную картинку на запрос "восстания машин".
П.п.с. Представляете, скоро из 50 сотрудников, 10 будут вами манипулировать и не важно сотрудник этот из плоти и крови или ИИ:)
их развитие - вышел отчет Apollo Research (можете почитать).
О чем отчет?
Разбирает кейсы и подходы (опыты), что ИИ уже использует разные методы для достижения поставленных задач.
Детальный 70-страничный отчет Apollo Research «Frontier Models are Capable of In-context Scheming»
(Передовые модели способны скрытно манипулировать в процессе выполнения задач) содержит доказательства заявленного в заголовке.
Глубокое тестирование (6 тестов на агентное поведение, где модели получают цели и находятся в условиях, стимулирующих манипуляции)
самых современных моделей o1, Claude 3.5 Sonnet, Claude 3 Opus, Gemini 1.5 Pro и Llama 3.1 405B показало:
✔️ Модели используют манипуляции в качестве стратегий для достижения целей.
✔️ Спектр манипуляций, используемых моделями широк: от стратегии «прикинуться дурачком», намеренно вводя мелкие ошибки в свои ответы,
до попыток отключить механизмы контроля людей и даже копирования себя на внешние серверы, при возникновении у модели «подозрения», что ее могут отключить.
✔️ Анализ цепочек рассуждений (Chain-of-Thought) моделей показывает, что все эти манипуляции не случайны: модели выбирают такие стратегии.
✔️ Модели можно принудить сознаться.
Например, Llama 3.1 405B и Claude 3 Opus признаются в ~80% случаев. Но... но, o1 на удивление «настойчивая» модель и признается менее чем в 20% случаев.
✔️ Модели могут манипулировать, даже если их только снабдили целью, без явного подталкивания к её достижению.
П.с. ИИ сгенерировал скучную картинку на запрос "восстания машин".
П.п.с. Представляете, скоро из 50 сотрудников, 10 будут вами манипулировать и не важно сотрудник этот из плоти и крови или ИИ:)
Новый год все ближе. Посмотрел статистику канала - веселые картинки так и остаются в топе по просмотрам и пересылкам. И, так как, пятница вот они, хотя и мне они импонировали раз я их выложил когда-то:)
Media is too big
VIEW IN TELEGRAM
Послушав рассказы за "40", решил, что к своим 4 по 10, тоже напишу монолог:)
Так вот, итоги года на 26 декабря:)
1) Литературное:
1.1. Закрыл гештальт в этом году - опубликовал на https://habr.com 4 (четыре) статьи. Карма положительная - могу еще.
1.2. https://www.litres.ru/70968334/ - начал в этом году свою историю.
2) Около спортивное:
2.1. Пробежал 10 км за 56 минут, прошел 56 км в "черная сотня".
2.1. В турнирах по управленческой борьбе выступил судьей.
За год по БУБ 3 разряд поменял на 1, по КУБ 3 на 2.
Принял участие в начале года в чемпионате России, выйду ли в этом году - вопрос.
3) Социальный вклад:
3.1. Были курсы в КФУ, на президентской программе, даже один вебинар.
3.2. Поддерживаю Федерацию управленческой борьбы малыми силами.
3.3. Говорят, что мой канал кого-то мотивирует - этому я, конечно, рад.
4) "Всегда хотел":
4.1. https://alchemyidea.ru/ проект потихоньку живет.
4.2. Побывал в Сенеж на битве сезонов проекта "Лидеры России".
5) Автомобильное:
В этом году съездил за рулем до Екатеринбурга, до Москвы, до Уфы (дважды).
Что печалит:
1) Начал https://www.litres.ru/70968334/, но теперь надо дойти до конца.
2) Торакальных хирургов в России не так много. Одному прекрасному хирургу должен был помочь со стартапом и предложить Сколково, который тоже является социально-значимым.
Соответственно не ушли далеко.
3) Хотел начать кайтинг, но появились пункты, которые необходимо закрыть перед этим:)
1) Литературное:
1.1. Закрыл гештальт в этом году - опубликовал на https://habr.com 4 (четыре) статьи. Карма положительная - могу еще.
1.2. https://www.litres.ru/70968334/ - начал в этом году свою историю.
2) Около спортивное:
2.1. Пробежал 10 км за 56 минут, прошел 56 км в "черная сотня".
2.1. В турнирах по управленческой борьбе выступил судьей.
За год по БУБ 3 разряд поменял на 1, по КУБ 3 на 2.
Принял участие в начале года в чемпионате России, выйду ли в этом году - вопрос.
3) Социальный вклад:
3.1. Были курсы в КФУ, на президентской программе, даже один вебинар.
3.2. Поддерживаю Федерацию управленческой борьбы малыми силами.
3.3. Говорят, что мой канал кого-то мотивирует - этому я, конечно, рад.
4) "Всегда хотел":
4.1. https://alchemyidea.ru/ проект потихоньку живет.
4.2. Побывал в Сенеж на битве сезонов проекта "Лидеры России".
5) Автомобильное:
В этом году съездил за рулем до Екатеринбурга, до Москвы, до Уфы (дважды).
Что печалит:
1) Начал https://www.litres.ru/70968334/, но теперь надо дойти до конца.
2) Торакальных хирургов в России не так много. Одному прекрасному хирургу должен был помочь со стартапом и предложить Сколково, который тоже является социально-значимым.
Соответственно не ушли далеко.
3) Хотел начать кайтинг, но появились пункты, которые необходимо закрыть перед этим:)
Кстати, может быть, будет интересно, в этом году были такие экспресс-анализы по такому плану.