Машинное обучение digest
61 subscribers
2.97K photos
495 videos
1.82K links
Download Telegram
Трамп садясь в самолет отдал приказ: всё китайское - в мусорку, ничего не заносить на Air Force One

Перед самой посадкой на борт американские сотрудники собрали всё, что китайская сторона раздала делегации: пресс-бейджи, burner phones и значки делегации. После этого всё выбросили в мусорку.

Журналист Daily Mail, сопровождавший Белый дом, видел это лично: «Ничего китайского на борт не занесли».

Китай сильнейшая держава в мире по кибершпионажу, и даже в обычный значок теоретически может быть встроено устройство для прослушки.

Рукопожатия есть. Доверия - ноль. Вот реальность отношений США и Китая.

https://x.com/Machinelearrn/status/2055264980925305005
Россиян лишили нейросетей —ChatGPT, Claude и Gemini больше недоступны по API даже на OpenRouter 😭

По новым правилам платформы владельцы российских аккаунтов не могут задействовать их в своих проектах. А ещё была инфа, что для аккаунтов из России обрезают возможность пополнения.

Хорошо хоть DeepSeek не отобрали
Please open Telegram to view this post
VIEW IN TELEGRAM
✔️ AutoScientist: система автоматического файн-тюнинга моделей

Adaption представила систему AutoScientist, которая автоматизирует полный цикл дообучения: она сама и синхронно оптимизирует наборы данных и рецепты тренировки, пока модель не сойдётся к заданному поведению.

Adaption основан в 2025 году бывшими руководителями направлений в Cohere. Компания строит то, что называет adaptable intelligence: системы, которые подстраиваются под конкретную задачу. Среди инвесторов Adaption: Emergence Capital, Mozilla Ventures и Threshold Ventures.

AutoScientist - третий продукт компании. До него вышли Adaptive Data, платформа подготовки и оптимизации датасетов для дообучения, и Forge, инструмент для превращения неструктурированных документов в готовые для тренировки наборы данных.

AutoScientist надстраивается над Adaptive Data, замыкая связку «данные - модель». Четвёртое направление, Adaptive Interfaces, система обратной связи от пользователей, компания заявила, но пока не выпустила.


AutoScientist закрывает типовые причины провала файн-тюнинга: катастрофическое забывание, переобучение на маленьких датасетах и конфликтующие сигналы тренировки.

Для разработчиков это путь от идеи до собственной дообученной модели за несколько часов вместо недель, а для специалистов без профильного образования - доступ к тренировке моделей, а не только к промптингу.

Внутреннее тестирование на 8 отраслевых бенчмарках подтвердило успех алгоритма над конфигурациями, которые создавали штатные инженеры Adaption.

Исследователи задавали конфигурации, зная тип модели, домен и размер датасета. AutoScientist получал ту же информацию и мог дообучаться на ограниченном наборе прошлых запусков.


При работе с архитектурами на базе Together AI и датасетами от 5 до 100 тысяч примеров AutoScientist увеличил показатель успешных дообучений с 48% до 64%.

Система показала стабильный результат во всех протестированных доменах и избежала чувствительности к конкретным вертикалям данных.

Сейчас платформа доступна бесплатно в рамках 30-дневного ознакомительного периода.

В дальнейшем Adaption обещает представить технологию адаптации в реальном времени, которая позволит корректировать поведение моделей без классического цикла тренировки.


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Жесть: OpenRouter теперь запрещает россиянам доступ к ChatGPT, Claude и Gemini 😢

По обновленным правилам платформы россияне не могут задействовать API американских компаний в своих проектах. А ещё была говорят, что для аккаунтов из России обрезают возможность пополнения.

Пу пу пууу 💀
Please open Telegram to view this post
VIEW IN TELEGRAM
X выложили обновленный алгоритм For You на GitHub

Можно посмотреть, как X собирает и ранжирует ленту рекомендаций.

В репозитории xai-org/x-algorithm опубликован код системы, которая питает For You feed: от подбора кандидатов на показ до финального ранжирования постов. Внутри два основных источника контента:

- посты от аккаунтов, на которые вы подписаны
- посты из глобального корпуса, найденные через ML-retrieval

Дальше всё прогоняется через Phoenix - transformer-модель на базе архитектуры Grok. Она оценивает вероятности действий пользователя: лайк, реплай, репост, клик и другие сигналы. После этого система собирает итоговый score и решает, что именно попадёт в ленту.

Можно посмотреть, какие сигналы действительно влияют на рекомендации, как устроен ranking pipeline и где платформа фильтрует контент перед показом.

GitHub: https://github.com/xai-org/x-algorithm

@ai_machinelearning_big_data
This media is not supported in your browser
VIEW IN TELEGRAM
Rust сегодня исполняется 11 лет 🦀🎉

С версии 1.0 многое изменилось, но история языка всё ещё пишется.

От первого стабильного релиза до сегодняшнего дня Rust вырос в топовые язык, сформированный, аккуратным дизайном и крутым сообществом, которое постоянно поднимает планку качества в разработке ПО.

А когда вы начали работать с Rust?

🎁 Пишите в комментариях.

@rust_code
Дуров дарит подарки за СМЕШНЫЕ КОММЕНТЫ — причём лично.

Создатель Telegram объявился под постом одного канала и вручил годовой премиум девушке за забавный отзыв.

Дед Мороз, не иначе 😳
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
✔️ OpenAI обвиняет Apple в занижении конверсии ChatGPT

OpenAI готовит иск к Apple о нарушении контракта из-за интеграции ChatGPT в iOS. По версии ИИ-компании, яблочный партнер намеренно ограничил системные функции модели, из-за чего пользователи предпочитают отдельное приложение, а конверсия в платные подписки не достигла целевых показателей.

У Apple есть встречные претензии. Компанию не устраивают подходы OpenAI к конфиденциальности данных, переманивание инженеров из Купертино и планы стартапа по запуску собственного аппаратного бизнеса.

На предстоящей конференции WWDC Apple анонсирует новую версию ОС, в которой, как ожидается, компания откажется от эксклюзивного статуса ChatGPT и откроет Siri для интеграции со сторонними LLM.
bloomberg.com

✔️ SpaceXAI потеряла руководителя и часть команды по претрейну

С февраля из SpaceXAI ушли более 50 ML-исследователей и инженеров. Причинами стали переработки и жёсткие дедлайны.

Увольнения затронули разработку генерации кода, моделей мира и голосового интерфейса Grok. Команду претрейна покинул руководитель Цзюньтан Чжуан, после чего в подразделении осталось несколько сотрудников. 11 ушедших специалистов нанял Марк Цукерберг, еще 7 перешли к Мурати в Thinking Machines Lab.

По словам бывших сотрудников Илона Маска, сжатые сроки обучения моделей вынуждают идти на компромиссы в архитектуре Grok. Но есть и доля финансовой мотивации: регулярные тендеры на частный выкуп акций позволяют инженерам обналичить опционы и сменить место работы, зафиксировав прибыль.
theinformation.com

✔️ Poetiq представил инструмент для улучшения кодогенерации LLM

Стартап, основанный выходцами из Google и DeepMind представил API-надстройку для языковых моделей под названием Meta-System. Она улучшает генерацию кода через рекурсивное самосовершенствование, формируя оптимизированный интерфейс для подключенной LLM. Инструмент работает без изменения весов и файн-тюнинга.

На бенче LiveCodeBench Pro надстройка повысила точность Kimi K2.6 на 30%, а Gemini 3.0 Flash прибавила 10%, обойдя базовую Gemini 3.1 Pro, Claude Opus 4.7 и GPT 5.2 High.

Показатели флагманов тоже выросли. GPT 5.5 High в связке с Meta-System достигла точности 93,9%. Gemini 3.1 Pro набрала 90,9%, превзойдя результаты модели Google Gemini 3 Deep Think.
poetiq.ai

✔️ Resemble AI опубликовала открытую модель синтеза речи со сценическими ремарками и клонированием

DramaBox - открытая модель генерации речи с контролем эмоций через промпты. Текст для синтеза заключается в кавычки, а за их пределами прописываются ремарки (вздохи, шепот, паузы, хрипота), которые отыгрываются при генерации.

Модель поддерживает клонирование голоса по 10-секундному референсу. Атрибуты персонажа (возраст, акцент и эмоция) задаются естественным языком. На выходе генерируется стереозвук с частотой 48 кГц. В аудио встраиваются водяные знаки PerTh, устойчивые к MP3-сжатию и редактированию.

В основе системы лежит дообученная LTX-2.3 от Lightricks. Текстовые эмбеддинги обрабатывает Gemma 3 12B. Для локального инференса требуется около 24 ГБ видеопамяти. Чекпоинты выложены на Hugging Face.
huggingface.co

✔️ Mythos помог разработать эксплойт для macOS

ИБ-компания Calif разработала эксплойт для ядра macOS на процессорах Apple M5 с помощью закрытой модели Claude Mythos Preview. Уязвимость позволяет локальному пользователю без привилегий получить контроль над устройством через повреждение памяти ядра.

Атака комбинирует 2 бага. Модель нашла ошибки в коде ОС и участвовала в написании эксплойта. В Calif заявили, что после усвоения механики эксплуатации конкретного класса проблем нейросеть масштабирует опыт для поиска аналогичных уязвимостей в других системах.

Apple закрыла уязвимость в релизе macOS Tahoe 26.5, упомянув в примечаниях к патчу исследователей из Calif и Anthropic Research. Технический разбор вектора атаки скрыт до массовой установки обновления.
wsj.com

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👣 Я заставил LLM писать Rust полгода. Вот что они стабильно ломают

Полгода я использовал Claude, GPT и Cursor как основной инструмент для написания Rust-кода в проде. Не как «помощник для бойлерплейта», а как полноценного второго разработчика на монолите примерно в 80 тысяч строк (бэкенд обработки потоковых данных, tokio, sqlx, немного unsafe в hot path).

Доля сгенерированного кода в коммитах последних шести месяцев около 40%, остальное это правки, рефакторинг и места, куда модель я не пускаю.

За это время накопилась коллекция ошибок, которые модели делают с пугающей регулярностью, и которые проходят cargo build, проходят cargo test, иногда даже проходят cargo clippy, и при этом являются либо UB, либо логически некорректным кодом, либо тем самым «работает на моей машине».

Я не буду писать, какая модель лучше. К моменту публикации статьи рейтинг устареет. Я расскажу про категории ошибок, которые воспроизводятся у всех топовых моделей весной 2026 года, и которые упираются не в качество обучающих данных, а в фундаментальные слепые пятна архитектуры трансформеров применительно к системе типов Rust.

Цифры, которые буду приводить дальше, получены так: я завёл бенчмарк из 50 типовых задач (написать функцию, отрефакторить, добавить фичу), прогонял каждую через четыре модели в течение полугода, и руками классифицировал ошибки. Это не academic-level статистика, но порядки величин показывает.

https://uproger.com/ya-zastavil-llm-pisat-rust-polgoda-vot-chto-oni-stabilno-lomayut/
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ Глава NVIDIA в обращении к студентам ит специальностей: ваш главный конкурент - электрик!

Дженсен Хуанг выступал перед выпускниками Carnegie Mellon и сказал довольно жёсткую вещь: в ближайшие годы огромный шанс будет не только у программистов, а у электриков, сантехников, сварщиков, техников и строителей.

И звучит это уже не как
ИИ нужны дата-центры, электричество, охлаждение, кабели, трубы, бетон, стойки, обслуживание и люди, которые всё это физически построят.

Пока одни спорят, кого заменят нейросети, спрос на рабочие специальности летит вверх:

• робототехники - плюс 107%

• HVAC-инженеры - плюс 67%

• специалисты по промышленной автоматизации - плюс 51%

• традиционные рабочие профессии - плюс 27% за последние годы

Парадокс эпохи ИИ в том, что победителем может оказаться не prompt engineer, а человек, который умеет подключить 100-мегаваттный дата-центр где-нибудь в пустыне Невады.

Код можно сгенерировать.

А вот кабель сам себя не протянет.

https://consent.yahoo.com/v2/collectConsent?sessionId=3_cc-session_096f2d7d-f863-4ee4-8fc8-af10b78de394
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Mythos обошёл защиту, в которую Apple вложила 5 лет и миллиарды

Три исследователя использовали Anthropic Mythos, чтобы собрать рабочий exploit для macOS kernel. По их словам, он обходит Apple M5 Memory Integrity Enforcement - систему защиты, которую Apple строила годами и продвигала как один из главных барьеров против memory corruption атак.

Таймлайн выглядит жёстко:

- 25 апреля нашли баг
- 1 мая уже был рабочий exploit
- отчёт понесли лично в Apple Park

MIE была флагманской security-фичей для M5 и A19. Apple описывала её как защиту, которая должна резко усложнить целый класс атак на память. По их же исследованиям, MIE ломала все известные публичные exploit chains против современных iOS-устройств.

Исследователи не «сломали» MIE напрямую. Они её обошли. По описанию, атака была data-only: без манипуляций с указателями, через стандартные syscalls, от обычного непривилегированного пользователя до root.

Проблема уже не только в том, что уязвимости всё ещё находятся. Проблема в том, что frontier-модели начинают ускорять самую сложную часть offensive security: связывать баги, проверять гипотезы, искать обходные маршруты и собирать рабочую цепочку быстрее, чем это делала бы обычная команда вручную.

55-страничный технический отчёт обещают выпустить после патча Apple.

Если всё подтвердится, это одна из самых важных cybersecurity-историй года.

https://blog.calif.io/p/first-public-kernel-memory-corruption
Linux-инсайт: shell - это просто обычная программа

Ваш терминал не разговаривает с ядром напрямую магическим языком. Shell - это обычная userspace-программа. Просто таких программ целое семейство:

bash, zsh, fish, dash, ksh, ash, встроенный shell из BusyBox.

С точки зрения ядра все они делают примерно одну и ту же работу:

- читают байты из file descriptor
- парсят их как командный язык
- вызывают fork
- вызывают exec
- запускают другие программы

Разница почти вся живёт в userspace: какой синтаксис shell принимает, насколько он удобен в интерактивной работе, насколько строго следует POSIX и какие расширения добавляет сверху.

POSIX описывает shell-язык, который часто называют просто sh. Большинство shell реализуют его как базу, а потом добавляют свои фичи.

Поэтому bash и dash - это не «разные терминалы». Это разные реализации одной идеи.

Небольшой сюрприз: в Debian и Ubuntu /bin/sh обычно не bash, а dash. Он проще, меньше и стартует быстрее. Поэтому скрипт с первой строкой:


#!/bin/sh


может вести себя не так, как вы ожидаете, если вы писали его «как bash-скрипт».

Проверьте у себя:


readlink -f /bin/sh

И вы увидите, какой shell реально стоит за /bin/sh на вашей машине.
10 open-source репозиториев, которые можно форкнуть и превратить в SaaS с выручкой от $50 до $5 млн в год

Подборка проектов с GitHub, у каждого из которых уже есть основатели, поднявшие миллионы на той же кодовой базе. Лицензии позволяют форкать, перепаковывать и продавать как сервис.

Cal.com, open-source аналог Calendly. Форкаешь, делаешь белый лейбл, продаёшь стоматологам и юристам за $200 в месяц. Сами основатели Cal.com сделали $5M ARR за 3 года ровно по этой модели. Репозиторий: github.com/calcom/cal.com

Plausible Analytics, приватная альтернатива Google Analytics. Self-hosted, перепродаёшь агентствам по $50 в месяц за клиента. Два фаундера вытащили проект до семизначной выручки на бутстрапе. Репозиторий: github.com/plausible/analytics

Ghost, open-source движок для блогов и рассылок, прямой конкурент Substack. Маржа стремится к 100%. Тысяча читателей по $5 в месяц, это $60 000 в год, и так каждый год. Репозиторий: github.com/TryGhost/Ghost

n8n, open-source Zapier для автоматизаций. Продаёшь настройку интеграций за $500–$2000 за внедрение, дальше идёт поддержка. Сама n8n подняла $14M, потому что агентская модель поверх их кода работает. Репозиторий: github.com/n8n-io/n8n

Supabase, бесплатная замена Firebase. Поднимаешь SaaS за выходные, берёшь $29–$99 в месяц с пользователя. Сами Supabase подняли $116M, и не просто так. Репозиторий: github.com/supabase/supabase

Medusa, open-source Shopify. Берёшь 5% с каждой продажи навсегда, ничего не отдаёшь самой платформе. Репозиторий: github.com/medusajs/medusa

AppFlowy, open-source Notion. Продаёшь self-hosted версию корпоратам, которые параноят за свои данные. Сама AppFlowy подняла $30M, потому что рынок огромный. Репозиторий: github.com/AppFlowy-IO/AppFlowy

Coolify, open-source Vercel и Heroku в одном флаконе. Берёшь с разработчиков $20 в месяц за управление деплоями вместо их $200 чека от Vercel. Репозиторий: github.com/coollabsio/coolify

Listmonk, open-source Mailchimp. Шлёшь безлимит писем за стоимость AWS, перепродаёшь агентствам с десятикратной наценкой. Репозиторий: github.com/knadh/listmonk

Penpot, open-source Figma. Продаёшь self-hosted дизайн-инструменты агентствам, которые не готовы заливать файлы клиентов в облако. Репозиторий: github.com/penpot/penpot

Разница между разработчиком, который пишет фичи, и разработчиком, который строит бизнес, это одно решение. Выбираешь проект, форкаешь на выходных, отгружаешь на следующей неделе. Фаундеры этих репозиториев уже доказали, что модель работает. Лицензии 100% свободные, исходники 100% открыты.
🤖 Machine Learning Roadmap: от базы до гуру вайбкодинга

Карта обучения машинному обучению (Machine Learning, Deep Learning, LLM, Generative AI, MLOps) - от первого import numpy до уровня инженера, который понимает, как ИИ работает внутри, и может писать прод‑системы, а не только дёргать API.

https://github.com/justxor/MachineLearningRoadmap/tree/main
Команда сOpenClaw жигает токенов на $1,3 млн в месяц.

Разработчики ставят вопрос - как бы мы писали софт в будущем, если бы токены ничего не стоили?

Их ответ - запускать не одного «помощника для кода», а целую армию агентов вокруг разработки.

У команды постоянно крутится около 100 Codex-инстансов в облаке. Они не просто пишут код по запросу, а закрывают почти весь инженерный контур:

- ревьювят каждый PR
- проверяют каждый commit на security issues
- дедуплицируют issues и ищут кластеры проблем
- поднимают временные окружения для сложных багов
- воспроизводят баг, пишут фикс и прикладывают before/after видео в PR
- следят за новыми issues и автоматически создают PR, если задача совпадает с vision проекта
- проверяют комментарии на спам и банят нарушителей
- гоняют performance benchmarks и кидают регрессии в Discord
- слушают митинги команды и начинают делать PR прямо во время обсуждения фичи

Самое интересное не в том, что это дорого. Самое интересное в том, что это показывает другой стиль разработки.

Обычная команда думает: «Как бы сэкономить токены?»

Они думают наоборот: «Что можно автоматизировать, если токены считать бесплатным инженерным ресурсом?»

Так появляются workflow, где агент не ждёт задачи в чате, а сам живёт вокруг репозитория: читает issues, ищет старые баги после фикса на main, проверяет безопасность, ловит регрессии, пересобирает окружения и пишет отчёты.

Да, $1,3 млн в месяц на токены выглядит безумием.

Но если такая автоматизация позволяет маленькой команде из 3-6 разработчиков поддерживать темп большой инженерной организации, то это уже не игрушка с ИИ. Это эксперимент с будущей экономикой разработки.

Вопрос в том, что произойдёт, когда такой workflow станет стоить не миллионы, а тысячи.

https://x.com/Machinelearrn/status/2055640278732620046
В этот день в 1821 году в Окатово, Российская империя, родился Пафнутий Львович Чебышёв.

Он основал Петербургскую математическую школу и занимал кафедру математики в Санкт-Петербургском университете.

Среди его работ - введение многочленов Чебышёва, неравенство Чебышёва в теории вероятностей, результаты о распределении простых чисел и фундаментальный вклад в теорию приближения.