commit -m "better"
3.45K subscribers
1.17K photos
165 videos
3 files
2.6K links
just random thoughts
Download Telegram
Сиолошная
Новый опус: https://www.anthropic.com/news/claude-opus-4-8 1) цена та же 2) сделали гранулярную разбивку длины рассуждений, как у ChatGPT 3) fast режим, ускоряющий генерацию в 2.5 раза, теперь в 3 раза дешевле, чем для предыдущих моделей. Получается было…
4.8 решил одну мою задачку за 15 минут, 4.7 застрял на ней на пару часов, мне даже пришлось сходить к владельцу кода, и задать несколько вопросов.

Завод все ближе, кто бы что ни думал.
🤡43💯13😁8🖕6😱5🥴4🤯3🔥2🤔1
Если вы используете jqwik наджави, то создатель либы запрограммировал ее уничтожать ваш код, если вы используете ИИ.

Это не шутка.

https://github.com/jqwik-team/jqwik/issues/708#issuecomment-4554650392

@git_rebase / send memes
😎34🤡10👏8😁43🔥2😱2😨2
https://mastodon.gamedev.place/@JeremiahFieldhaven/116654345332213390

"So my systems recently updated to rsync 3.4.3, and as soon as that happened my backup system - which does incremental backups using multiple --compare-dest= arguments - started to fail on anything but a full backup.

Revert to 3.4.1 and it works.

So I go look at the source in GitHub to see what might have changed, because there doesn't seem to be anything relevant in the changelog.

Since 3.4.1, 36 commits by "tridge and claude"

Oh for fuck's sakes"

Думал, навайбкодил, https://xn--r1a.website/itpgchannel/4032, но сходил по ссылке - нет, вроде все норм делал, покрывал тестами и писал фичи - https://github.com/RsyncProject/rsync/commits/master/

Спасибо слушателям за ссылку!
😁10🤡53😢2🤔1🆒1
Заметил, что агенты начали придумывать какие-то ложные факты про одну там кодовую базу, которая целиком и полностью писалась агентами в течении длительного времени.

Оказалось:

1) агенты верят комментариям в коде
2) агенты пишут очень много комментариев, чуть ли не 20% всех написанных строк
3) агенты не всегда меняют все комментарии про какой-то факт о коде, который они потрогали

Стер все комментарии, стало лучше!

Комментарии - зло.
👍62😁47💊13🔥7💯4👎2😱1
Forwarded from Сиолошная
Ребята из Nebius обновили SWE-rebench после двухмесячного перерыва, добавив 110 новых задач. В отличии от многих других бенчей, наконец-то добавляют запуски в Codex и Claude Code. Просто писать «GPT-5.5 в очередной раз статистически значимо лучше моделей Anthropic» не хотелось, но Ибрагим, первый автор статьи, добавил немного аналитики по эффективности.

— GPT-5.5 medium выглядит заметно эффективнее, чем Opus 4.8 high (обе настройки — значения по умолчанию)
— Opus 4.6 -> 4.8 стал более оптимизирован: больше решенных задач, на 45% меньше токенов на задачу и примерно на 39% ниже стоимость решения задачи.
— Opus 4.8 high практически не превосходит Opus 4.7 high по качеству, но значительно дешевле в плане вычислительных ресурсов. Количество токенов на задачу снизилось с 1.5 млн до 1 млн, а среднее количество шагов уменьшилось с 44 до 34.
 — Полезной метрикой является pass^5. Здесь мы засчитываем задачу только в том случае, если она была решена во всех 5 независимых запусках. GPT-5.5 vs GPT-5.4 – 51 vs 39 задач, модель гораздо меньше полагается на «везение», что один раз получилось решить, другой нет. Для Opus это число практически одинаково во всех версиях модели.
— опенсурс очень сильно отстаёт
— Composer 2.5 от Cursor на этом наборе задач выглядит очень перспективно за счёт цены (см. колонку) — в 4 раза дешевле GPT-5.5 medium
— ещё отмечу, что Claude получает гораздо больший прирост качества из-за использования родного скаффолда, в то время как GPT показывает +- тот же результат (хотя цена отличается в два раза, интересно почему).

В целом думаю честно сказать, что модели OpenAI с появлением 5.5 перешли в новую лигу. Если давно в программировании они отставали от Anthropic, и потом +- сравнялись, то теперь они часто обходят конкурентов (особенно если закрыть глаза на фронтенд).
👍28🤮9🔥3🆒1
Forwarded from Hacker News
Codex just found a "workaround" of not having sudo on my PC
Article, Comments
😁42🤡12🐳7🔥4🤮1💩1🥱1🥴1🆒1👾1
Два девопса смотрят на третьего (тебя)
😁30🤗6👌42🆒1
В бан РКН улетел https://pypi.org/

А улетел он всё из-за тех же "ковровых" блокировок CDN-ов
https://xn--r1a.website/tech_b0lt_Genona/6534

В этот чудесный понедельник взялись за Fastly

$ dig pypi.org 
. . .
;; ANSWER SECTION:
pypi.org. 7053 IN A 151.101.0.223
pypi.org. 7053 IN A 151.101.64.223
pypi.org. 7053 IN A 151.101.192.223
pypi.org. 7053 IN A 151.101.128.223

$ whois 151.101.0.223

NetRange: 151.101.0.0 - 151.101.255.255
CIDR: 151.101.0.0/16
NetName: SKYCA-3
NetHandle: NET-151-101-0-0-1
Parent: RIPE-ERX-151 (NET-151-0-0-0-0)
NetType: Direct Allocation
OriginAS:
Organization: Fastly, Inc. (SKYCA-3)
RegDate: 2016-02-01
Updated: 2021-12-14
Ref: https://rdap.arin.net/registry/ip/151.101.0.0


Ждём чуда!
https://xn--r1a.website/tech_b0lt_Genona/6537
This media is not supported in your browser
VIEW IN TELEGRAM
🤡20😁8👍2🤬21🐳1
https://www.opennet.ru/opennews/art.shtml?num=65583

"Комитет, управляющий каталогом GNOME Circle, утвердил новые правила, запрещающие публикацию приложений, сгенерированных при помощи AI-инструментов. GNOME Circle предоставляет площадку для размещения приложений и библиотек, созданных сторонними разработчиками с использованием технологий GNOME, для упрощения их вхождения в экосистему GNOME"
👍28🤡20🔥2🤔1
https://www.whitehouse.gov/presidential-actions/2026/06/promoting-advanced-artificial-intelligence-innovation-and-security/

TL;DR - правительство США предлагает компаниям AI заранее показывать правительству США сильные модели, если они хорошо ищут уязвимости.

Пока добровольно, но я уже, конечно, представляю, что по-настоящему сильный AI обычным работягам не достанется.
😢9😁4🤡4🆒2🤔1
Hacker News
Coreutils
Cocorepilot!
😁21🐳1
Forwarded from XOR
Как неожиданно: Amazon отменила токенмаксинг и рейтинг вайбкодеров 😁

Дело в том, что сотрудники начали сливать токены ради очков и красивой статистики. Так что всего спустя месяц в руководстве признали, что рейтинг создал «неправильные стимулы», отменили его и призвали сотрудников больше не использовать ИИ тупо ради использования ИИ.

И да, эта новость вышла тогда же, когда появилась инфа о слитых 500 миллионах на ИИ в неназванной компании. Совпадение? Не думаем 😁

@xor_journal
Please open Telegram to view this post
VIEW IN TELEGRAM
😁336👍3🔥3🤡1🐳1🆒1
Регрессии в rsync 3.4.3 и принятие изменений, подготовленных с использованием AI
https://www.opennet.ru/opennews/art.shtml?num=65589

После выхода обновления утилиты для синхронизации файлов rsync 3.4.3 с исправлением 6 уязвимостей, отмечено появление регрессий, нарушающих работоспособность ранее используемых конфигураций. Помимо этого непонимание и недовольство вызвало добавление за последние две недели в репозитории rsync около 50 изменений, подготовленных с использованием AI-модели Claude. Некоторые пользователи связали появление регрессий с генерацией низкокачественных исправлений уязвимостей при помощи AI.
. . .
Эндрю Триджелл (Andrew Tridgell), основатель проектов samba и rsync, два года назад вернувшийся к сопровождению rsync и добавивший проблемные коммиты, опубликовал заметку с пояснением сложившейся ситуации. По словам Эндрю, проект rsync столкнулся с лавиной отчётов об уязвимостях, многие из которых были сгенерированы через AI. В релизе rsync 3.4.3 появление регрессий стало ценой устранения уязвимостей. Эндрю сознательно предпочёл исправить уязвимости, несмотря на то, что исправления могли нарушить работу некоторых редких, но корректных сценариев использования rsync. Подобные сценарии не покрывались старым тестовым набором и ручными проверками, поэтому регрессии остались не замеченными и будут устранены в следующим выпуске 3.4.4.

Возникшая ситуация побудила Эндрю модернизировать тестовый набор, ввести проверку покрытия кода и реализовать тестирование в системе непрерывной интеграции на разных платформах, а также выполнить анализ потенциальных уязвимостей. Так как Эндрю уже почти 60 лет и он предпочёл бы путешествовать на яхте, а не тратить своё время на устранение уязвимостей в rsync, он решил привлечь AI-ассистенты для выполнения рутинных задач в условиях свалившейся лавины сообщений об уязвимостях. Эндрю разработал архитектуру, план проверки и структуру нового тестового набора, после чего при помощи AI сгенерировал его на Python и заменил им ранее применявшийся тестовый shell-скрипт. При разработке использовалась модель Claude с ручной проверкой результата и перекрёстной проверкой в Codex и Gemini.
18🤮8🤣6👍5🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
Полностью согласен с Максутом Игоревичем!

Нельзя лишать десятки миллионов наших пользователей доступа к привычным сервисам без объяснения причин и одномоментно.

Вот бы Минцифры помогло разобраться как так получается.
😁52🤡14🔥42👍2🐳1🌭1🖕1
Снесла тут #LLM промежуточный результат нашей работы, через git checkout .

Обычно в такой ситуации она вполне может восстановить все из "памяти", но тут промежуточный результат был весьма большой, и из "памяти" восстановить не получилось.

И тут она такая "я сейчас грепну JSONL ЛОГИ НАШЕЙ СЕССИИ, и подниму отттуда".

И подняла, будьте уверены.

Мне бы такую интроспекцию своей памяти.
😁59💯16👍11🤡4👏3🐳21