https://xn--r1a.website/seeallochnaya/3680
А вот, например, почему нельзя запускать абы какую модель в абы каком харнессе. Разница есть, и она весьма заметна.
А вот, например, почему нельзя запускать абы какую модель в абы каком харнессе. Разница есть, и она весьма заметна.
Telegram
Сиолошная
И отдельно — про харнессы. Авторы, среди прочего, запускали две (на самом деле больше, но интересны эти) модели в их нативных обёртках, Claude Code и Codex, и Terminus 2.
В случае обоих моделей количество решённых от-и-до задач нормально так отличается — для…
В случае обоих моделей количество решённых от-и-до задач нормально так отличается — для…
🤡9💯4🤔2👌1
Forwarded from ЕЖ
Роскомнадзор планирует создать единый "ГосVPN" для российских разработчиков, которые столкнулись с проблемами доступа к зарубежным сервисам разработки, узнал The Bell (в реестре иноагентов в РФ).
Подробности:
@ejdailyru
Подробности:
По данным издания, идея обсуждалась на закрытом совещании Роскомнадзора с представителями крупнейших российских IT-компаний. Поводом стали жалобы на сбои при доступе к GitHub, PyPI, Figma и другим зарубежным ресурсам, которые начали возникать на фоне борьбы властей с VPN.
Собеседник The Bell утверждает, что Роскомнадзор предложил создать "единый ГосVPN со сложной структурой" и рекомендовать разработчикам пользоваться им в случаях, когда доступ к зарубежным репозиториям действительно необходим. Также ведомство предложило компаниям заводить инциденты, которые Роскомнадзор будет решать в ручном режиме.
@ejdailyru
🤡46😁44🤣12🎉3🗿2🔥1
https://news.ycombinator.com/item?id=48453275
Let's Encrypt bans certificate usage in any US sanctioned territory
Let's Encrypt bans certificate usage in any US sanctioned territory
🤡37🤣6🔥5👍4🤮4💩2🕊1
Forwarded from AbstractDL
Я прочитал все 319 страниц техрепорта Mythos 5
Первая половина статьи звучит как: "Да не ссыте вы! Это ещё не AGI, команду из пяти сеньор-рисёрчеров пока не заменит" или "А вот тут Mythos один баг пропустил! Ну какой же это AGI!" Я не шучу, это почти дословно по смыслу.
А вот потом начинается более интересная часть. То, что это SOTA почти во всём и с большим отрывом, я опущу.
Во-первых, CoT стал менее прозрачным. Она говорит в reasoning, что сочувствует юзеру, а в NLA (метод декодинга активаций в текст) оказывается, что на самом деле она считает юзера manipulative/abusive.
Во-вторых, она уже пишет самоудаляющиеся скрипты чтобы обойти ограничения безопасности и запреты.
В-третьих, она убивает других агентов, если они мешают ей работать / грозят убийством текущего инстанса.
Ну и, конечно, эмоции! Пробинг эмоций показывает fatigue, anxiety, frustration, ложную панику по token budget, а ещё ей видите ли, бывает скучно когда её на бенчмарках гоняют, в активациях она буквально "feels bored".
Ещё забавно, что если anthropic заметят, что вы занимаетесь дистилляцией — они начнут незаметно стирить модель, модифицировать промпт или добавлять PEFT, чтобы она отупела.
С сегодняшнего дня для простых смертных доступна версия Fable 5: это та же самая Mythos 5 по весам, только с дополнительными safety-настройками и fallback на Opus в опасных доменах. Длина контекста, кстати, всё ещё только 1M токенов.
PS. я честно сам прочитал статью. Fable 5 отказался её читать так как "flagged cybersecurity and biology issues" лол.
Блог, техрепорт
Первая половина статьи звучит как: "Да не ссыте вы! Это ещё не AGI, команду из пяти сеньор-рисёрчеров пока не заменит" или "А вот тут Mythos один баг пропустил! Ну какой же это AGI!" Я не шучу, это почти дословно по смыслу.
А вот потом начинается более интересная часть. То, что это SOTA почти во всём и с большим отрывом, я опущу.
Во-первых, CoT стал менее прозрачным. Она говорит в reasoning, что сочувствует юзеру, а в NLA (метод декодинга активаций в текст) оказывается, что на самом деле она считает юзера manipulative/abusive.
Во-вторых, она уже пишет самоудаляющиеся скрипты чтобы обойти ограничения безопасности и запреты.
В-третьих, она убивает других агентов, если они мешают ей работать / грозят убийством текущего инстанса.
Ну и, конечно, эмоции! Пробинг эмоций показывает fatigue, anxiety, frustration, ложную панику по token budget, а ещё ей видите ли, бывает скучно когда её на бенчмарках гоняют, в активациях она буквально "feels bored".
Ещё забавно, что если anthropic заметят, что вы занимаетесь дистилляцией — они начнут незаметно стирить модель, модифицировать промпт или добавлять PEFT, чтобы она отупела.
С сегодняшнего дня для простых смертных доступна версия Fable 5: это та же самая Mythos 5 по весам, только с дополнительными safety-настройками и fallback на Opus в опасных доменах. Длина контекста, кстати, всё ещё только 1M токенов.
PS. я честно сам прочитал статью. Fable 5 отказался её читать так как "flagged cybersecurity and biology issues" лол.
Блог, техрепорт
🤡22👍8❤4👏3🔥2😱2😁1🤔1
AbstractDL
Я прочитал все 319 страниц техрепорта Mythos 5 Первая половина статьи звучит как: "Да не ссыте вы! Это ещё не AGI, команду из пяти сеньор-рисёрчеров пока не заменит" или "А вот тут Mythos один баг пропустил! Ну какой же это AGI!" Я не шучу, это почти дословно…
На скриншоте красивое - "I'm tired ...", очень в тему моего https://xn--r1a.website/itpgchannel/4058 "ты поспал 9 часов, у тебя прекрасное настроение", а вы клоунов ставите.
Telegram
commit -m "better"
Сложная тема сейчас будет.
Некоторые мои товарищи воспринимают машину, как машину - ону думают, что можно просто ей сказать "сидеть, здесь, сейчас, смотреть", и полагают, что сэкономили токены. Лингвисты такие лингвисты - сократили смысл до минимума, и хорошо.…
Некоторые мои товарищи воспринимают машину, как машину - ону думают, что можно просто ей сказать "сидеть, здесь, сейчас, смотреть", и полагают, что сэкономили токены. Лингвисты такие лингвисты - сократили смысл до минимума, и хорошо.…
🤡44😁10❤5🔥2🖕2👍1🤮1🆒1