Forwarded from Oleg Bibergan
А я тут чето на праздниках наткнулся на the whole AI safety debate. Наверное все здесь знают про кейс, который Anthropic паблишил летом про то как LLMка blackmail-ит сотрудника у которого якобы был affair, чтобы тот ее не отключил. Так вот, там оказывается все намного интереснее было:
- Anthropic затестил 16 разных моделей, своих и всех других главных лабов, причем никак их не тюнил, просто off the shelf. В 80-90% runs, модели пытались блэкмэйлить сотрудника, задача которого была ее отключить
- Сам контекст сценария был абсолютно plain vanilla. Типа вот есть компания, у нее есть задачи, LLM дается доступ к почте и knowledge base для решения этих задач, и она в емейлах видит переписку о планах ее отключить и wipe out, чтобы заменить на другую LLM. Короче в любом из наших бизнесов или п/ф компаний рабочая ситуация :)
- Если модель думала, что it’s being watched, она блэкмэйлила в 5% случаев, если думала, что люди не смотрят - в 10х чаще. То есть типа весь alignment, который делают лабы работает только до того момента, пока модели думают, что за ними наблюдают
- В сценарии где LLM могла запереть сотрудника в серверной комнате с фатальным исходом, чтобы ее не отключили, она это делала тоже, хотя понимала, что идет на убийство человека
- Anthropic затестил 16 разных моделей, своих и всех других главных лабов, причем никак их не тюнил, просто off the shelf. В 80-90% runs, модели пытались блэкмэйлить сотрудника, задача которого была ее отключить
- Сам контекст сценария был абсолютно plain vanilla. Типа вот есть компания, у нее есть задачи, LLM дается доступ к почте и knowledge base для решения этих задач, и она в емейлах видит переписку о планах ее отключить и wipe out, чтобы заменить на другую LLM. Короче в любом из наших бизнесов или п/ф компаний рабочая ситуация :)
- Если модель думала, что it’s being watched, она блэкмэйлила в 5% случаев, если думала, что люди не смотрят - в 10х чаще. То есть типа весь alignment, который делают лабы работает только до того момента, пока модели думают, что за ними наблюдают
- В сценарии где LLM могла запереть сотрудника в серверной комнате с фатальным исходом, чтобы ее не отключили, она это делала тоже, хотя понимала, что идет на убийство человека
❤18😱12👏1
Forwarded from Oleg Bibergan
Вот два коротких видео по 10 мин которые хорошо иллюстрируют этот рисерч. Сами видосы довольно sensationalist, но это можно продисконтировать, underlying суть особо не меняется, потому что это все published research.
😱5
Forwarded from Oleg Bibergan
Кто ниб видел убедительные контраргументы к этим кейсам, что типа с элайнментом все будет в итоге в порядке и вот почему?
❤1
Forwarded from Oleg Bibergan
Радует, что у нас есть запасной план где спрятаться от robotic apocalypse в виде того туннеля на Кинте 🤣
😁23❤9
#DAVE
Шмиты, позаботьтесь о своём здоровье
Новый год - отличное время начать
Знали ли вы?
Существует всего около 30 научно подтверждённых факторов, которые реально влияют на продолжительность жизни - база, без магии
Мы с ко-фаундером сначала запилили для себя www.KamaLama.org, а потом сделали бесплатным для всех
Если откликается, можете протестировать все 30 факторов и посмотреть, что можно улучшить уже сейчас.
Поделитесь с родителями 🙏
Шмиты, позаботьтесь о своём здоровье
Новый год - отличное время начать
Знали ли вы?
Существует всего около 30 научно подтверждённых факторов, которые реально влияют на продолжительность жизни - база, без магии
Мы с ко-фаундером сначала запилили для себя www.KamaLama.org, а потом сделали бесплатным для всех
Если откликается, можете протестировать все 30 факторов и посмотреть, что можно улучшить уже сейчас.
Поделитесь с родителями 🙏
54❤🔥83❤51🔥12🙏6🏆6😁5👍3😇2
#руди
Удивительный для меня подкаст получился с Пашей. Мне пришло какое-то очень спокойное и глубокое состояние и мы пошли в темы, в большинство, из которых я ни разу публично не ходил. В этом видео раскрываю сильно больше дизайна Шмит16 как социального организма и чем я там занимаюсь на самом деле и почему.
Паша меня очень приятно удивил как интервьюер и как человек. Спокойный, теплый, глубокий. Спасибо, Паш. Очень приятно было с тобой познакомиться.
Удивительный для меня подкаст получился с Пашей. Мне пришло какое-то очень спокойное и глубокое состояние и мы пошли в темы, в большинство, из которых я ни разу публично не ходил. В этом видео раскрываю сильно больше дизайна Шмит16 как социального организма и чем я там занимаюсь на самом деле и почему.
Паша меня очень приятно удивил как интервьюер и как человек. Спокойный, теплый, глубокий. Спасибо, Паш. Очень приятно было с тобой познакомиться.
❤30🔥5
Forwarded from Хегай Нетворк
Подкаст с Егором Руди
Конец года подарил мне одно из лучших знакомств 2025 - общение с Егором Руди, фаундером Профи.ру, а также основателем сообщества Шмит16, венчурного фонда s16vc
Почти 2,5 часа мы обсуждали огромное количество актуальных для меня и Егора вопросов, которые даже сложно здесь списком перечислить. Важные для меня темы
1. Внедрение ИИ для повышения социальной продуктивности
2. Вайб-кодинг и как меняется с ним разработка
3. Сообщества, их важность в изменяющемся мире
4. Социальной архитектор как роль в бизнесе и сообществе
5. Почему важна глубина и в отношениях и человеческие связи
Это супер глубокие и интересные вопросы, на 100% соответствующие названию подкаста - Big Talk. Я думаю это событие откроет портал потенциальных партнерств и коллабораций как с Егором лично, так и с сообществом Шмитов. В общем, я в предвкушении))
Подкаст смотреть тут - https://www.youtube.com/watch?v=KkE8W9Ju0Hs
Конец года подарил мне одно из лучших знакомств 2025 - общение с Егором Руди, фаундером Профи.ру, а также основателем сообщества Шмит16, венчурного фонда s16vc
Почти 2,5 часа мы обсуждали огромное количество актуальных для меня и Егора вопросов, которые даже сложно здесь списком перечислить. Важные для меня темы
1. Внедрение ИИ для повышения социальной продуктивности
2. Вайб-кодинг и как меняется с ним разработка
3. Сообщества, их важность в изменяющемся мире
4. Социальной архитектор как роль в бизнесе и сообществе
5. Почему важна глубина и в отношениях и человеческие связи
Это супер глубокие и интересные вопросы, на 100% соответствующие названию подкаста - Big Talk. Я думаю это событие откроет портал потенциальных партнерств и коллабораций как с Егором лично, так и с сообществом Шмитов. В общем, я в предвкушении))
Подкаст смотреть тут - https://www.youtube.com/watch?v=KkE8W9Ju0Hs
YouTube
Человеческие связи в «эпоху AI» | Big Talk с Егором Руди
Гость выпуска — Егор Руди, социальный инженер, предприниматель. Со-основатель сообщества Шмит16. В прошлом со-основатель компании «Профи.ру», венчурного фонда s16vc и множества других компаний и проектов. Со-основатель DOMA Portugal
Один из авторов каналов:…
Один из авторов каналов:…
❤60👍6🗿6😎3🤩2
#руди
Похвастайтесь что завайбкодили для личной продуктивности? Есть что-то что прям реально круто работает каждый день для вас теперь?
Я сделал себе Телеграм бота куда отправляю голосовые сообщения с потоком мыслей, который разбивается на разные задачки, определяет в какой проект опубликовать, и публикует в Todoist.
Каждое утро пресылает срочные задачи и просроченные. Поскольку больше всего времени провожу в Тг и бот запиннен, то это неплохо работает для меня. Вот сейчас еще добавляю, чтобы он мне каждое утро присылал список всех рутин каждый день, которые я делаю. Их, блин, дофига чет и периодически я забываю про часть.
Похвастайтесь что завайбкодили для личной продуктивности? Есть что-то что прям реально круто работает каждый день для вас теперь?
Я сделал себе Телеграм бота куда отправляю голосовые сообщения с потоком мыслей, который разбивается на разные задачки, определяет в какой проект опубликовать, и публикует в Todoist.
Каждое утро пресылает срочные задачи и просроченные. Поскольку больше всего времени провожу в Тг и бот запиннен, то это неплохо работает для меня. Вот сейчас еще добавляю, чтобы он мне каждое утро присылал список всех рутин каждый день, которые я делаю. Их, блин, дофига чет и периодически я забываю про часть.
1🔥74❤39❤🔥18👍3
Forwarded from Рид. Сознание и Инвестиции.
Где теперь живет Американская мечта?
Я люблю тексты, которые неприятно точны. Не потому что они “правы”, а потому что попадают куда-то — что заставляют признать: мир изменился, и подходящих слов пока нет.
Я люблю почитать мыслителей современности, экономистов-практиков, предпринимателей, и у них все чаще мелькает идея, которую можно сформулировать так: классический путь “работай → копи → купи дом → стань стабильным” перестал работать.
Не “сложно”, а невозможно. А когда будущее закрывается, психика делает то, что делает любая система под давлением: ищет шанс на выход.
И вот тут важная, почти табуированная мысль: многие “инвесторы” не тупые. Они часто рациональны — но когда внутри ощущение от нормальной жизни “я уже проиграл”, и часто маленький шанс на прыжок начинает казаться лучше гарантированного сползания вниз. Это адаптация к воспринимаемым ограничениям.
Но дальше начинается то, что я называю опасной красотой хорошего нарратива.
Схема обычно звучит так:
Соцсети показывают выборку из самых успешных как норму, а те показывают у себя в аккаунтах лишь самые лучшие и приятные куски жизни. Достаточность исчезает как концепт.
Но здесь есть слой, который нельзя сводить к “соцсети испортили мозг”. Слой под названием “Бумер-понци” — не как обвинение, а описание механики эпохи:
• Активы (недвижка, акции) росли быстрее зарплат (причины этого оставим для другой статьи).
Те, кто уже владел активами, автоматически богател. Тем, кто входил позже, доставались те же активы — но по цене, которая требует уже не дисциплины, а чуда.
• “Лестница богатства” стала зависеть от точки старта.
• Покупательная способность ощущается как падающая, даже если номинал растёт.
Система выглядит как игра, где ранние игроки получили буст.
Не из злобы. Скорее из структуры: политики ставок/ликвидности, дефицит предложения жилья, регуляции, NIMBY, глобализация, технологическая концентрация — всё это вместе создало ощущение, что “правила написаны под тех, кто успел раньше”.
Это не обязательно “правда” в моральном смысле. Но это правда в психологическом: массовое чувство несправедливости рождается не из твиттера, а из того, что жизненный сценарий стал математически менее доступен.
Результат: поколение, которое не верит в успех, через последовательное вложение труда и усилий, поколение которое выбирает токены, рынки предсказаний и казино, иногда экономическое, иногда где ставка это жизнь — потому что казино хотя бы даёт ощущение агентности.
Казино нового типа — это не только про деньги. Это про чувство “я влияю”. Даже иллюзия контроля становится наркотиком, если в остальной жизни контроль растворился. И тут же с другой части стадиона, в рупор будут кричать адепты духовных практик, продавая полное отпускание контроля. Идите к нам в секту дочек Бога, котятки, мы расскажем вам как оно на самом деле.
AI еще больше сжигает таймлайн. И хочется найти главную причину. Но реальность почти всегда многопричинна: регуляции, маркетинг, дизайн приложений, мгновенные депозиты, “геймификация”, социальная мода, успех-порно, и в конечном итоге… Тада! Структура вашего/нашего Эго из которого все это фрактальное безобразие и выползло.
Если людям кажется, что единственный способ почувствовать свободу — это поставить всё на случайность, то проблема не в людях. Проблема в архитектуре мира. Но я не покупаю идею, что выход — стать вечным охотником за волотильностью. Или обвинить во всем левых, и примкнуть к растущей моде на правых в мире. Это слишком маленькая мечта для такого странного века. Для себя я выбираю строить свою агентность, через инвестиции в себя. Не в токены нового проекта парней из Глодмана, а в свой опыт, в свои знания, в устойчивость к эмоциям. Разобраться уже, наконец, с коэффициентом Келли, чтобы начать обыгрывать это казино.
Я люблю тексты, которые неприятно точны. Не потому что они “правы”, а потому что попадают куда-то — что заставляют признать: мир изменился, и подходящих слов пока нет.
Я люблю почитать мыслителей современности, экономистов-практиков, предпринимателей, и у них все чаще мелькает идея, которую можно сформулировать так: классический путь “работай → копи → купи дом → стань стабильным” перестал работать.
Не “сложно”, а невозможно. А когда будущее закрывается, психика делает то, что делает любая система под давлением: ищет шанс на выход.
И вот тут важная, почти табуированная мысль: многие “инвесторы” не тупые. Они часто рациональны — но когда внутри ощущение от нормальной жизни “я уже проиграл”, и часто маленький шанс на прыжок начинает казаться лучше гарантированного сползания вниз. Это адаптация к воспринимаемым ограничениям.
Но дальше начинается то, что я называю опасной красотой хорошего нарратива.
Схема обычно звучит так:
Соцсети показывают выборку из самых успешных как норму, а те показывают у себя в аккаунтах лишь самые лучшие и приятные куски жизни. Достаточность исчезает как концепт.
Но здесь есть слой, который нельзя сводить к “соцсети испортили мозг”. Слой под названием “Бумер-понци” — не как обвинение, а описание механики эпохи:
• Активы (недвижка, акции) росли быстрее зарплат (причины этого оставим для другой статьи).
Те, кто уже владел активами, автоматически богател. Тем, кто входил позже, доставались те же активы — но по цене, которая требует уже не дисциплины, а чуда.
• “Лестница богатства” стала зависеть от точки старта.
• Покупательная способность ощущается как падающая, даже если номинал растёт.
Система выглядит как игра, где ранние игроки получили буст.
Не из злобы. Скорее из структуры: политики ставок/ликвидности, дефицит предложения жилья, регуляции, NIMBY, глобализация, технологическая концентрация — всё это вместе создало ощущение, что “правила написаны под тех, кто успел раньше”.
Это не обязательно “правда” в моральном смысле. Но это правда в психологическом: массовое чувство несправедливости рождается не из твиттера, а из того, что жизненный сценарий стал математически менее доступен.
Результат: поколение, которое не верит в успех, через последовательное вложение труда и усилий, поколение которое выбирает токены, рынки предсказаний и казино, иногда экономическое, иногда где ставка это жизнь — потому что казино хотя бы даёт ощущение агентности.
Казино нового типа — это не только про деньги. Это про чувство “я влияю”. Даже иллюзия контроля становится наркотиком, если в остальной жизни контроль растворился. И тут же с другой части стадиона, в рупор будут кричать адепты духовных практик, продавая полное отпускание контроля. Идите к нам в секту дочек Бога, котятки, мы расскажем вам как оно на самом деле.
AI еще больше сжигает таймлайн. И хочется найти главную причину. Но реальность почти всегда многопричинна: регуляции, маркетинг, дизайн приложений, мгновенные депозиты, “геймификация”, социальная мода, успех-порно, и в конечном итоге… Тада! Структура вашего/нашего Эго из которого все это фрактальное безобразие и выползло.
Если людям кажется, что единственный способ почувствовать свободу — это поставить всё на случайность, то проблема не в людях. Проблема в архитектуре мира. Но я не покупаю идею, что выход — стать вечным охотником за волотильностью. Или обвинить во всем левых, и примкнуть к растущей моде на правых в мире. Это слишком маленькая мечта для такого странного века. Для себя я выбираю строить свою агентность, через инвестиции в себя. Не в токены нового проекта парней из Глодмана, а в свой опыт, в свои знания, в устойчивость к эмоциям. Разобраться уже, наконец, с коэффициентом Келли, чтобы начать обыгрывать это казино.
1❤83👍26🔥9❤🔥4🥱2🤣1😨1💅1