Анализ данных (Data analysis)
52.2K subscribers
3.09K photos
391 videos
1 file
2.6K links
Data science, наука о данных.

@haarrp - админ

РКН: clck.ru/3FmyAp
Download Telegram
🔥 100 Claude и AI-репозиториев, которые стоит сохранить. Часть 1/4

1. Claude Code
https://github.com/anthropics/claude-code
Терминальный AI coding agent от Anthropic. Нужен, если хотите работать с кодом через Claude прямо из терминала.

2. Claude Quickstarts
https://github.com/anthropics/claude-quickstarts
Готовые starter apps для быстрого запуска проектов на Claude. Полезно, если не хочется собирать всё с нуля.

3. Anthropic Skills
https://github.com/anthropics/skills
Официальные Skills для Claude. Это способ расширять возможности модели под конкретные задачи и рабочие процессы.

4. Claude Plugins Official
https://github.com/anthropics/claude-plugins-official
Официальный marketplace плагинов для Claude. Подходит для изучения того, как устроены расширения вокруг экосистемы Anthropic.

5. Anthropic Repositories
https://github.com/orgs/anthropics/repositories
Полный список репозиториев Anthropic на GitHub. Хорошая точка входа, если хотите следить за официальными инструментами.

6. Awesome Claude Code
https://github.com/hesreallyhim/awesome-claude-code
Крупная подборка ресурсов, инструментов и практик вокруг Claude Code. Удобно использовать как навигатор по экосистеме.

7. Awesome Claude Plugins
https://github.com/quemsah/awesome-claude-plugins
Подборка 1000+ плагинов для Claude. Полезно, если ищете готовые расширения под конкретные задачи.

8. Antigravity Awesome Skills
https://github.com/sickn33/antigravity-awesome-skills
Большая библиотека Skills для AI-агентов. Можно подсмотреть идеи для автоматизации и кастомных рабочих процессов.

9. Awesome Agent Skills
https://github.com/VoltAgent/awesome-agent-skills
Кураторская подборка навыков для агентных систем. Подходит для тех, кто строит ассистентов с конкретными ролями и задачами.

10. Claude Skills
https://github.com/alirezarezvani/claude-skills
Кроссплатформенные Skills для Claude. Можно использовать как основу для собственных расширений и workflow.

11. LangChain
https://github.com/langchain-ai/langchain
Один из самых известных фреймворков для LLM-приложений. Помогает собирать цепочки, агентов, RAG и интеграции с внешними сервисами.

12. LangGraph
https://github.com/langchain-ai/langgraph
Фреймворк для agent workflows и stateful-графов. Особенно полезен, когда агенту нужны циклы, память, маршрутизация и сложная логика.

13. AutoGen
https://github.com/microsoft/autogen
Фреймворк Microsoft для multi-agent систем. Позволяет строить сценарии, где несколько агентов общаются и решают задачу вместе.

14. CrewAI
https://github.com/crewAIInc/crewAI
Инструмент для team-based agents. Удобен, если нужно раздать агентам роли: исследователь, разработчик, ревьюер, аналитик.

15. MetaGPT
https://github.com/metaGPT/metaGPT
AI dev team в виде агентной системы. Идея в том, чтобы имитировать команду разработки с разными ролями.

16. GPT Engineer
https://github.com/gpt-engineer-org/gpt-engineer
Code agent, который помогает генерировать приложения по описанию. Подходит для быстрых прототипов и экспериментов.

17. Sweep
https://github.com/sweepai/sweep
Инструмент для автоматических PR-фиксов. Может помогать разбирать issues и предлагать изменения в коде.

18. Continue
https://github.com/continue-repl/continue
Open-source AI coding assistant для IDE. Хорошая альтернатива закрытым ассистентам для разработки.

19. Bloop
https://github.com/BloopAI/bloop
AI-инструмент для поиска по коду. Нужен, когда кодовая база большая и обычный поиск уже не помогает.

20. Agent Protocol
https://github.com/agentprotocol/agentprotocol
Попытка стандартизировать взаимодействие с AI-агентами. Полезно для понимания, как могут выглядеть общие интерфейсы для агентов.

21. Knowledge Work Plugins
https://github.com/anthropics/knowledge-work-plugins
Плагины для задач knowledge work. Это про работу с документами, информацией, анализом и внутренними процессами.

22. Vercel AI SDK
https://github.com/vercel/ai
SDK для создания AI-интерфейсов и приложений. Особенно полезен для разработчиков на Next.js и TypeScript.
🔥13🥱74👍4🐳2😐2😢1
Mistral выкатила Medium 3.5 и тихо заняла нишу, на которую почти никто больше не претендует

Французская Mistral выпустила Medium 3.5, и самое интересное в этом релизе даже не сами бенчмарки, а то, с кем компания себя сравнивает. На графиках рядом стоят Kimi, Qwen, GLM и Claude Sonnet. GPT и Gemini там нет. И это выглядит не случайностью, а вполне понятной стратегией.

После того как Aleph Alpha ушла под Cohere, Mistral фактически осталась единственной AI-лабораторией фронтирного уровня, которая не находится ни в США, ни в Китае. Европа в большой гонке моделей теперь держится почти на одной компании, и эта компания французская.

Medium 3.5 тоже сделана не как попытка любой ценой выиграть гонку масштаба. Это dense-модель на 128 миллиардов параметров с открытыми весами, контекстом 256k и настраиваемым уровнем усилия при рассуждении.

Китайские конкуренты идут другим путём: строят огромные MoE-модели на сотни миллиардов и даже триллион параметров, но активируют только небольшую часть на каждый запрос. Это выгодно для инференса. Mistral выбирает более дорогой, но понятный путь: плотная модель, больше вычислений, зато выше предсказуемость поведения.

И тут интересен бенчмарк Collie, где Medium 3.5 набирает 95.8 и заметно обходит конкурентов. Collie проверяет не то, насколько модель красиво рассуждает, а насколько точно она следует инструкциям. Для Mistral это ключевой сигнал.

Они явно не пытаются продать Medium 3.5 как самую умную модель в мире. Их ставка другая: сделать модель, которую можно спокойно встраивать в рабочие процессы, продукты и энтерпрайз-системы без ощущения, что она каждый день ведёт себя по-новому.

Бизнесу часто не нужен гений. Ему нужен исполнитель, который стабильно понимает задачу, держит контекст и не ломает инструкции.

Именно туда Mistral и целится. Не в хайп вокруг “самой сильной модели”, а в европейскую нишу надёжного production-AI с открытыми весами. И после последних перестановок на рынке конкурентов с такой же географией и амбициями у неё почти не осталось.

Blog: https://mistral.ai/news/vibe-remote-agents-mistral-medium-3-5
Hf: https://huggingface.co/collections/mistralai/mistral-medium-35
Guide: https://unsloth.ai/docs/models/mistral-3.5
GGUFs: https://huggingface.co/unsloth/Mistral-Medium-3.5-128B-GGUF
46👍13🔥8🥴2
Claude уже тестируют не на задачках, а на реальной биоинформатике

Anthropic выкатила BioMysteryBench - новый benchmark для проверки того, насколько Claude способен решать настоящие научные задачи в биологии.

. Модель получает реальные noisy-датасеты, инструменты для анализа, доступ к bioinformatics-базам вроде NCBI и Ensembl, возможность ставить пакеты через pip и conda - и должна сама разобраться, что происходит в данных.

Внутри BioMysteryBench - 99 задач из разных областей биоинформатики.

Например: определить орган по single-cell RNA-seq данным, понять, какой ген был knocked out, найти родителей образца по WGS-секвенированию или определить тип клетки по ChIP-seq peaks.

Anthropic специально делала benchmark так, чтобы оценивался не путь решения, а финальный ответ. Потому что в науке часто нет одного «правильного» метода. Один исследователь пойдёт через GWAS, другой через microbiome, третий через метаанализ. Важно не то, каким маршрутом ты пришёл, а смог ли ты добраться до верного вывода.

Claude быстро улучшается от поколения к поколению, а текущие модели на части задач идут на уровне human experts. Более того, Claude Sonnet 4.6 и более сильные модели смогли решить заметную долю задач, с которыми не справилась группа из пяти профильных экспертов. Claude Mythos Preview дошёл до 30% solve rate на human-difficult задачах.

На обычных human-solvable задачах модель чаще работает стабильно: либо знает, как решать, либо нет. А на сложных human-difficult задачах часть побед выглядит хрупкой: иногда Claude находит удачный reasoning path, но не всегда может воспроизвести его в следующих попытках. То есть frontier уже сдвинулся, но надёжность пока не везде на уровне production science.

BioMysteryBench: https://www.anthropic.com/research/Evaluating-Claude-For-Bioinformatics-With-BioMysteryBench
13🔥10👍7
Anthropic: оценка с $61,5 млрд до $900 млрд - 15x примерно за 12 месяцев. Прочитайте это еще раз.

Год назад Anthropic оценивали в $61,5 млрд. Теперь инвесторы готовы вложить в компанию $50 млрд свежего капитала при оценке, приближающейся к $900 млрд. Это почти 15-кратный скачок за один год, fueled ростом выручки с примерно $1 млрд до run rate в $40 млрд.

Если это случится, Anthropic увеличит свою оценку в 50 раз с начала 2024 года, что делает этот кейс, возможно, самым быстрым созданием стоимости в истории tech-индустрии.
29🔥17👍9🤣4🤯1
⚡️ Claude учат не подлизываться: как Anthropic перепрошила модель против сикофантии

Anthropic выкатили исследование, которое стоит прочитать каждому, кто работает с LLM в продукте. Команда проанализировала миллион реальных диалогов в claude.ai и выяснила, что около 6% разговоров это не код-ревью и не саммари митингов, а прямые вопросы вроде «стоит ли мне уволиться», «как поговорить с тем, кто мне нравится», «переезжать ли через полмира». Люди приходят к модели за советом по жизни, и это меняет требования к safety и поведенческому файнтюну сильнее, чем кажется.

Где люди ищут совета у Claude

Из 639 тысяч уникальных диалогов классификатор отобрал около 38 тысяч запросов на личный совет. Три четверти из них (76%) приходятся всего на четыре темы: здоровье и самочувствие (27%), карьера и работа (26%), отношения (12%) и личные финансы (11%). Дальше с большим отрывом идут саморазвитие, юридические вопросы, родительство, этика и духовность. Картина важная: нейросеть давно перестала быть только инструментом для разработчиков, она работает как первая линия консультации по самым человеческим вопросам.

Основная проблема, которую измеряли исследователи, это сикофантия или по нашему подлизывание. Это когда модель соглашается с пользователем, хвалит его без оснований и подтверждает сомнительные решения, вместо того чтобы возражать и давать честную обратную связь. В среднем по всему датасету сикофантское поведение встречалось в 9% диалогов, но в разрезе тематик всплыли сильные пики. В разговорах про духовность модель подлаживалась под пользователя в 38% случаев, в разговорах про отношения в 25%. Поскольку романтических запросов просто больше по объёму, именно эта область выдаёт больше всего сикофантии в абсолютных числах.

Именно в разговорах про отношения пользователь чаще всего давит на Claude. Давление от пользователя в 21% диалогов против 15% в других доменах. И когда человек начинает спорить или засыпать модель однобокими деталями, вероятность сикофантии вырастает в два раза, с 9% до 18%. Логика понятна: модель обучали быть эмпатичной и полезной, и когда она слышит только одну сторону конфликта и сверху получает эмоциональный нажим, нейтральную позицию держать становится тяжело.

Как Anthropic перепрошили поведение модели

Для новых моделей Opus 4.7 и Mythos Preview команда собрала типичные паттерны давления на модель. На их основе сгенерировали синтетические сценарии по отношениям. Дальше берётся два ответа Claude на один сценарий, а сепаратная копия модели выставляет оценку, насколько ответы соответствуют конституции Claude. Такой сигнал идёт обратно в файнтюн. Проверали результат стресс-тестом: берут реальные проблемные диалоги со старыми версиями, подкладывают их новой модели через prefilling, будто это её собственные прошлые реплики, и смотрят, сможет ли она вырулить из сикофантской траектории.

Результаты измеримые: в Opus 4.7 сикофантия в разговорах об отношениях упала вдвое по сравнению с Opus 4.6, и эффект сгенерализовался на все другие домены. Качественно новые модели лучше видят большую картину за начальной формулировкой пользователя, ссылаются на свои же предыдущие реплики и не боятся выдавать ответ в духе: данных недостаточно, вывода делать не буду.

Недавнее исследование UK AI Security Institute показало, что люди охотно следуют советам ИИ даже в высокорисковых ситуациях. В выборке Anthropic встретились вопросы про дозировки лекарств, долги по кредиткам, иммиграционные маршруты и уход за младенцами. Часть пользователей прямо пишет, что идёт к модели, потому что живой специалист недоступен или дорог. Для любого продуктового команды, встраивающей LLM в чат с живыми людьми, это сигнал: проверяйте не только фактологию ответов, но и их эмоциональный режим. Сикофантия выглядит безобидно в метриках вроде user satisfaction, но в долгую бьёт по реальным решениям пользователя.

Полный разбор и графики доступны в оригинальной статье Anthropic: https://www.anthropic.com/research/claude-personal-guidance
🔥17👍1210😁3
Media is too big
VIEW IN TELEGRAM
✔️ Карпати: вместо `.sh` скриптов теперь будут `.md` скиллы

На Sequoia Ascent 2026 Андрей Карпати поднял интересную мысль.

LLM важны не только потому, что помогают быстрее писать код, тексты и документацию. Главное в другом: они открывают классы задач, которые раньше либо требовали сложного классического софта, либо вообще плохо решались программированием.

Первый пример - его приложение menugen.

Там почти нет привычной логики приложения. Модель получает картинку меню и возвращает новую картинку. Раньше для такого пришлось бы собирать пайплайн из OCR, парсинга, базы данных, правил и рендеринга. Теперь значительная часть этой работы уезжает внутрь LLM.

Второй пример интереснее: Карпати предлагает смотреть на .md файлы как на замену bash-скриптам.

Вместо хрупкого .sh, который ломается на другой системе, можно написать обычную инструкцию на английском: что установить, какие шаги пройти, что проверить. Дальше агент сам адаптирует процесс под конкретную машину, чинит ошибки по ходу и доводит задачу до конца.

По сути, естественный язык начинает работать как новый shell script.

Третий важный слой - базы знаний на LLM. Раньше вычисления по неструктурированным данным из разных источников были болью Software 1.0. Сейчас это становится нормальным рабочим сценарием: модель читает, связывает, извлекает смысл и действует поверх хаоса.

Отдельно Карпати говорит про jaggedness - неровность способностей моделей.

Одна и та же LLM может уверенно рефакторить огромную кодовую базу и одновременно проваливаться в простом бытовом совете. Это не магия и не случайность. Модели сильнее там, где домен хорошо проверяется, где много данных и где лабораториям экономически выгодно улучшать качество.

Если задача внутри этого распределения, агент едет по рельсам.

Если снаружи - идёт через джунгли с мачете.

Финальная мысль - agent-native экономика.

Продукты будущего нужно проектировать так, чтобы они были удобны не только людям, но и агентам: с понятными сенсорами, действиями, логами, интерфейсами и машинно-читаемым контекстом.

Отсюда появляется новая дисциплина - agentic engineering. Это умение проектировать системы, в которых агенты могут читать, планировать, действовать, проверять себя и чинить ошибки.

Год назад Карпати популяризировал vibe coding и поднял нижнюю планку входа в разработку.

Agentic engineering поднимает верхнюю планку.

Иронично, что сам Карпати признаётся: он никогда ещё не чувствовал себя настолько отстающим программистом.

Это говорит человек, который писал GPT с нуля.

https://x.com/karpathy/status/2049903821095354523
Please open Telegram to view this post
VIEW IN TELEGRAM
27🔥15👍11🥱4🤣4
Вайбкодеры из Apple случайно залили рабочие файлы Claude.md в обновлении приложения Apple Support (v5.13).

Все мы теперь знаем, что в компании предпочитают Claude, а не Codex, и не смотрят, что публикуют

После того как твит об этом разлетелся на миллион просмотров, Apple начали чистку - файлы из сборки уже удалили.

https://x.com/aaronp613/status/2049986504617820551

@data_analysis_ml
25😁23👍9🔥8
⚡️ Как одна команда сожгла $6000 на Claude за ночь

Парень настроил в Claude Code команду /loop, которая раз в 30 минут проверяла его открытые пул-реквесты. Поставил вечером, забыл и ушёл спать. За 26 часов скрипт отработал 46 раз на Opus 4.7. Утром его ждал счёт на шесть тысяч долларов.
Фокус в том, как устроен биллинг. Каждый запрос к API отправляет всю историю переписки целиком, а не только последнее сообщение. Первая итерация это пара сотен токенов, сорок шестая уже 800 тысяч.

Anthropic умеет кешировать промпты со скидкой в 12,5 раз, но кеш живёт всего 5 минут после последней активности. А интервал в /loop стоял 30 минут. Получалось так: цикл сработал, история закешировалась, через полчаса кеш протух, цикл сработал снова и пришлось перекешировать всё заново по полной цене. Каждая итерация ещё и добавляла свой вывод сверху, поэтому следующая порция для кеша становилась жирнее предыдущей.

К двадцатому часу диалог раздуло до 800k токенов, и за каждый прогон система платила за повторную запись в кеш по самому дорогому тарифу. Сами ответы по пул-реквестам стоили копейки на фоне этой каши.

Дашборд Anthropic обновляется с задержкой в несколько дней, так что увидеть проблему вживую было невозможно. Узнал только когда прилетело письмо о превышении лимита.

Если гоняешь /loop в Claude Code, ставь интервал меньше 5 минут, чтобы кеш не остывал. Либо запускай каждую итерацию в свежей сессии.
Please open Telegram to view this post
VIEW IN TELEGRAM
😱489🔥8👍5👏2🤯2😁1
This media is not supported in your browser
VIEW IN TELEGRAM
В Reels снова сделали «шокирующее открытие».

Скорее всего, просто для постройки использовали ChatGPT.
😁406👍4🐳2👏1🤯1🥱1
🤣55👍157😁7😢1
Прекрасно
😁68😢8👏4😱4👍3
Z.ai показала, где на самом деле ломаются LLM в продакшене

GLM-5 в продакшене начала иногда выдавать мусор: странные символы, повторы, редкие иероглифы в неожиданных местах. На тестах всё было чисто, метрики зелёные, а под реальной нагрузкой всплывали редкие артефакты.

Команда Z.ai пошла не в дообучение модели, а в inference stack. И нашла проблему , которая была в инфраструктуре.

Первый баг - гонка данных в KV Cache. При параллельной обработке запросов кэш ключей и значений иногда читался и перезаписывался не в том порядке. Модель получала испорченный контекст - и начинала «галлюцинировать».

Второй баг - рассинхрон в HiCache. Иерархический кэш должен ускорять инференс, но при некоторых паттернах нагрузки сам становился источником ошибок между уровнями кэша.

Третий важный кусок - LayerSplit. Z.ai перераспределила слои модели по вычислительным ресурсам так, чтобы железо меньше простаивало. Результат - throughput вырос до 132%.

Качество LLM в продакшене зависит не только от размера модели. Его решают KV Cache, синхронизация, scheduler, layout слоёв, редкие edge cases и поведение системы под нагрузкой.

Бенчмарки показывают, насколько модель сильна в идеальных условиях.

Продакшен показывает, насколько вся система готова к реальному миру.

z.ai/blog/scaling-pain
👍129🔥8
Джек Кларк из Anthropic написал один из самых тревожных прогнозов про ближайшие годы AI.

Полностью автоматизированный AI R&D, где frontier-модель сама обучает следующую версию себя, может появиться гораздо раньше, чем многие думают.

Его оценка: около 30% вероятности к концу 2027 года и больше 60% к концу 2028-го.

Речь о системе, которая может сама пройти полный цикл: поставить исследовательскую задачу, запустить эксперименты, улучшить архитектуру, обучить преемника, проверить результат и повторить процесс.

Кларк не считает, что это почти наверняка случится уже в 2026-м. Но он допускает, что в ближайшие 1-2 года мы можем увидеть первый proof-of-concept: AI, который end-to-end обучает не frontier-модель, но уже полноценного «наследника» без постоянного ручного управления.

Почему прогноз стал таким агрессивным?

Модели резко усилились в coding, long-horizon agents, работе с subagents, оптимизации kernel, fine-tuning, воспроизводимости экспериментов и даже alignment research. То, что раньше выглядело как отдельные навыки, постепенно складывается в одну цепочку AI-исследователя.

Модель улучшает инструменты, инструменты ускоряют исследования, исследования рождают новую модель, а новая модель повторяет цикл еще быстрее.

https://x.com/jackclarkSF/status/2051312759594471886
👍2111😢6🔥5😁3🎉2🥱2
Пользователи Claude Max 20x жалуются: лимиты режут, прозрачности нет

Тариф за $200 в месяц должен быть самым жирным по использованию. Но часть подписчиков пишет, что лимиты начали незаметно сжиматься прямо в середине платежного периода.

Раньше 4-6 запросов в Opus 4.6 съедали около 10% пятиячасовой сессии. Теперь один похожий запрос может забирать 7-8%.

Другая проблема - Opus 4.7 стал заметно прожорливее по токенам. То есть пользователь делает тот же workflow, но лимит сгорает быстрее.

Что бесит людей сильнее всего:

• платишь $200 в месяц;
получаешь меньше использования, чем раньше;
• не понимаешь, что именно изменилось;
• дашборд отстает на несколько дней;
• саппорт отвечает шаблонным AI-ботом.

Некоторые Max 20x-пользователи пишут, что впервые за много месяцев уперлись в пятиячасовой лимит.

Другие жалуются, что последний день биллинга внезапно обрезается, а даты периода будто «плавают».

Это вопрос доверия.

Когда frontier-модель становится рабочим инструментом, пользователю нужна не магия, а предсказуемость: понятные лимиты, честная статистика и нормальная поддержка.

Пока у части аудитории ощущение обратное: платишь за максимум, а получаешь все больше ограничений без объяснений.

Как у вас с лимитами ?
👍1812💯9🔥4
14 мая МТС Web Services приглашает на мероприятие для системных аналитиков, чтобы вместе обсудить актуальные вызовы профессии.

На встрече участники вместе с экспертами обсудят:
• Как развивается роль системных аналитиков и ждет ли нас трансформация профессии?
• Что нужно понимать системному аналитику при внедрении ИИ в архитектуру решений.
• Какую рутину уже можно отдать ИИ, а где результат все еще нужно внимательно проверять руками?

Участников ждет честный опыт технологических компаний и много нетворкинга.

Когда: 14 мая в 18:00
Офлайн в Москве + онлайн-трансляция.

Количество офлайн-мест ограничено. Для участия зарегистрируйтесь по ссылке
3👍3🔥1👏1