Машинное обучение digest

📊 Минималистичная графовая база данных на C++17

TGDB — это простая графовая база данных, реализованная как статическая библиотека. Она поддерживает фиксированные узлы и индексные указатели, обеспечивая схему без схемы и работу с базовыми типами данных. База данных позволяет эффективно создавать и извлекать объекты с свойствами.

🚀Основные моменты:
- Унифицированный тип узла размером 56 байт.
- Поддержка встроенных типов: int, double, std::string.
- Двусторонние ссылки между узлами.
- Дисковая устойчивость через mmap.
- Быстрый локальный обход и глобальный поиск.

📌 GitHub: https://github.com/LincolnCox29/TrueGraphDataBase

#cpp

13 views11:17

✔️

Intern-S2-Preview - эффективная научная мультимодальная foundation-модель на 35B параметров.

1. Показывает качество, сопоставимое с trillion-scale моделью Intern-S1-Pro на ключевых научных задачах.

2. Первая open-source модель с возможностью генерации кристаллических структур материалов и сильными общими способностями.

3. Значительно усиливает возможности научных агентов на нескольких бенчмарках.

4. Повышает MTP acceptance rate и скорость генерации токенов за счёт shared-weight MTP + KL loss.

5. CoT compression сокращает ответы, сохраняя сильное рассуждение, что улучшает и качество, и эффективность.

Теперь поддерживается vLLM и SGLang. В будущем обещают больше интеграций с экосистемой.

Модель:
https://huggingface.co/collections/internlm/intern-s2

ModelScope:
https://modelscope.cn/collections/Shanghai_AI_Laboratory/Intern-S2

GitHub:
https://github.com/InternLM/Intern-S1

Попробовать:
https://chat.intern-ai.org.cn

Please open Telegram to view this post

VIEW IN TELEGRAM

11 views11:40

Машинное обучение digest

Члены делегации США перед вылетом из Китая выбросили все вещи, выданные китайской стороной. По данным журналистки New York Post, у трапа самолёта оставили аккредитации, значки и одноразовые телефоны сотрудников Белого дома.

10 views12:19

Машинное обучение digest

Трамп садясь в самолет отдал приказ: всё китайское - в мусорку, ничего не заносить на Air Force One

Перед самой посадкой на борт американские сотрудники собрали всё, что китайская сторона раздала делегации: пресс-бейджи, burner phones и значки делегации. После этого всё выбросили в мусорку.

Журналист Daily Mail, сопровождавший Белый дом, видел это лично: «Ничего китайского на борт не занесли».

Китай сильнейшая держава в мире по кибершпионажу, и даже в обычный значок теоретически может быть встроено устройство для прослушки.

Рукопожатия есть. Доверия - ноль. Вот реальность отношений США и Китая.

https://x.com/Machinelearrn/status/2055264980925305005

12 views12:32

Машинное обучение digest

Россиян лишили нейросетей —ChatGPT, Claude и Gemini больше недоступны по API даже на OpenRouter 😭

По новым правилам платформы владельцы российских аккаунтов не могут задействовать их в своих проектах. А ещё была инфа, что для аккаунтов из России обрезают возможность пополнения.

Хорошо хоть DeepSeek не отобрали

Please open Telegram to view this post

VIEW IN TELEGRAM

13 views12:57

Машинное обучение digest

✔️

AutoScientist: система автоматического файн-тюнинга моделей

Adaption представила систему AutoScientist, которая автоматизирует полный цикл дообучения: она сама и синхронно оптимизирует наборы данных и рецепты тренировки, пока модель не сойдётся к заданному поведению.

Adaption основан в 2025 году бывшими руководителями направлений в Cohere. Компания строит то, что называет adaptable intelligence: системы, которые подстраиваются под конкретную задачу. Среди инвесторов Adaption: Emergence Capital, Mozilla Ventures и Threshold Ventures.

AutoScientist - третий продукт компании. До него вышли Adaptive Data, платформа подготовки и оптимизации датасетов для дообучения, и Forge, инструмент для превращения неструктурированных документов в готовые для тренировки наборы данных.

AutoScientist надстраивается над Adaptive Data, замыкая связку «данные - модель». Четвёртое направление, Adaptive Interfaces, система обратной связи от пользователей, компания заявила, но пока не выпустила.

AutoScientist закрывает типовые причины провала файн-тюнинга: катастрофическое забывание, переобучение на маленьких датасетах и конфликтующие сигналы тренировки.

Для разработчиков это путь от идеи до собственной дообученной модели за несколько часов вместо недель, а для специалистов без профильного образования - доступ к тренировке моделей, а не только к промптингу.

Внутреннее тестирование на 8 отраслевых бенчмарках подтвердило успех алгоритма над конфигурациями, которые создавали штатные инженеры Adaption.

Исследователи задавали конфигурации, зная тип модели, домен и размер датасета. AutoScientist получал ту же информацию и мог дообучаться на ограниченном наборе прошлых запусков.

При работе с архитектурами на базе Together AI и датасетами от 5 до 100 тысяч примеров AutoScientist увеличил показатель успешных дообучений с 48% до 64%.

Система показала стабильный результат во всех протестированных доменах и избежала чувствительности к конкретным вертикалям данных.

Сейчас платформа доступна бесплатно в рамках 30-дневного ознакомительного периода.

В дальнейшем Adaption обещает представить технологию адаптации в реальном времени, которая позволит корректировать поведение моделей без классического цикла тренировки.

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

12 views15:06

Машинное обучение digest

Жесть: OpenRouter теперь запрещает россиянам доступ к ChatGPT, Claude и Gemini 😢

По обновленным правилам платформы россияне не могут задействовать API американских компаний в своих проектах. А ещё была говорят, что для аккаунтов из России обрезают возможность пополнения.

Пу пу пууу 💀

Please open Telegram to view this post

VIEW IN TELEGRAM

10 views15:11

Машинное обучение digest

X выложили обновленный алгоритм For You на GitHub

Можно посмотреть, как X собирает и ранжирует ленту рекомендаций.

В репозитории xai-org/x-algorithm опубликован код системы, которая питает For You feed: от подбора кандидатов на показ до финального ранжирования постов. Внутри два основных источника контента:

- посты от аккаунтов, на которые вы подписаны
- посты из глобального корпуса, найденные через ML-retrieval

Дальше всё прогоняется через Phoenix - transformer-модель на базе архитектуры Grok. Она оценивает вероятности действий пользователя: лайк, реплай, репост, клик и другие сигналы. После этого система собирает итоговый score и решает, что именно попадёт в ленту.

Можно посмотреть, какие сигналы действительно влияют на рекомендации, как устроен ranking pipeline и где платформа фильтрует контент перед показом.

GitHub: https://github.com/xai-org/x-algorithm

@ai_machinelearning_big_data

14 views15:19

Машинное обучение digest

0:07

This media is not supported in your browser

VIEW IN TELEGRAM

Rust сегодня исполняется 11 лет 🦀🎉

С версии 1.0 многое изменилось, но история языка всё ещё пишется.

От первого стабильного релиза до сегодняшнего дня Rust вырос в топовые язык, сформированный, аккуратным дизайном и крутым сообществом, которое постоянно поднимает планку качества в разработке ПО.

А когда вы начали работать с Rust?

🎁 Пишите в комментариях.

@rust_code

40 views16:01

Машинное обучение digest

Дуров дарит подарки за СМЕШНЫЕ КОММЕНТЫ — причём лично.

Создатель Telegram объявился под постом одного канала и вручил годовой премиум девушке за забавный отзыв.

Дед Мороз, не иначе 😳

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

12 views21:17

Машинное обучение digest

3:57

Media is too big

VIEW IN TELEGRAM

✔️

OpenAI обвиняет Apple в занижении конверсии ChatGPT

OpenAI готовит иск к Apple о нарушении контракта из-за интеграции ChatGPT в iOS. По версии ИИ-компании, яблочный партнер намеренно ограничил системные функции модели, из-за чего пользователи предпочитают отдельное приложение, а конверсия в платные подписки не достигла целевых показателей.

У Apple есть встречные претензии. Компанию не устраивают подходы OpenAI к конфиденциальности данных, переманивание инженеров из Купертино и планы стартапа по запуску собственного аппаратного бизнеса.

На предстоящей конференции WWDC Apple анонсирует новую версию ОС, в которой, как ожидается, компания откажется от эксклюзивного статуса ChatGPT и откроет Siri для интеграции со сторонними LLM.
bloomberg.com

✔️

SpaceXAI потеряла руководителя и часть команды по претрейну

С февраля из SpaceXAI ушли более 50 ML-исследователей и инженеров. Причинами стали переработки и жёсткие дедлайны.

Увольнения затронули разработку генерации кода, моделей мира и голосового интерфейса Grok. Команду претрейна покинул руководитель Цзюньтан Чжуан, после чего в подразделении осталось несколько сотрудников. 11 ушедших специалистов нанял Марк Цукерберг, еще 7 перешли к Мурати в Thinking Machines Lab.

По словам бывших сотрудников Илона Маска, сжатые сроки обучения моделей вынуждают идти на компромиссы в архитектуре Grok. Но есть и доля финансовой мотивации: регулярные тендеры на частный выкуп акций позволяют инженерам обналичить опционы и сменить место работы, зафиксировав прибыль.
theinformation.com

✔️

Poetiq представил инструмент для улучшения кодогенерации LLM

Стартап, основанный выходцами из Google и DeepMind представил API-надстройку для языковых моделей под названием Meta-System. Она улучшает генерацию кода через рекурсивное самосовершенствование, формируя оптимизированный интерфейс для подключенной LLM. Инструмент работает без изменения весов и файн-тюнинга.

На бенче LiveCodeBench Pro надстройка повысила точность Kimi K2.6 на 30%, а Gemini 3.0 Flash прибавила 10%, обойдя базовую Gemini 3.1 Pro, Claude Opus 4.7 и GPT 5.2 High.

Показатели флагманов тоже выросли. GPT 5.5 High в связке с Meta-System достигла точности 93,9%. Gemini 3.1 Pro набрала 90,9%, превзойдя результаты модели Google Gemini 3 Deep Think.
poetiq.ai

✔️

Resemble AI опубликовала открытую модель синтеза речи со сценическими ремарками и клонированием

DramaBox - открытая модель генерации речи с контролем эмоций через промпты. Текст для синтеза заключается в кавычки, а за их пределами прописываются ремарки (вздохи, шепот, паузы, хрипота), которые отыгрываются при генерации.

Модель поддерживает клонирование голоса по 10-секундному референсу. Атрибуты персонажа (возраст, акцент и эмоция) задаются естественным языком. На выходе генерируется стереозвук с частотой 48 кГц. В аудио встраиваются водяные знаки PerTh, устойчивые к MP3-сжатию и редактированию.

В основе системы лежит дообученная LTX-2.3 от Lightricks. Текстовые эмбеддинги обрабатывает Gemma 3 12B. Для локального инференса требуется около 24 ГБ видеопамяти. Чекпоинты выложены на Hugging Face.
huggingface.co

✔️

Mythos помог разработать эксплойт для macOS

ИБ-компания Calif разработала эксплойт для ядра macOS на процессорах Apple M5 с помощью закрытой модели Claude Mythos Preview. Уязвимость позволяет локальному пользователю без привилегий получить контроль над устройством через повреждение памяти ядра.

Атака комбинирует 2 бага. Модель нашла ошибки в коде ОС и участвовала в написании эксплойта. В Calif заявили, что после усвоения механики эксплуатации конкретного класса проблем нейросеть масштабирует опыт для поиска аналогичных уязвимостей в других системах.

Apple закрыла уязвимость в релизе macOS Tahoe 26.5, упомянув в примечаниях к патчу исследователей из Calif и Anthropic Research. Технический разбор вектора атаки скрыт до массовой установки обновления.
wsj.com

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

10 views08:43

Машинное обучение digest

👣

Я заставил LLM писать Rust полгода. Вот что они стабильно ломают

Полгода я использовал Claude, GPT и Cursor как основной инструмент для написания Rust-кода в проде. Не как «помощник для бойлерплейта», а как полноценного второго разработчика на монолите примерно в 80 тысяч строк (бэкенд обработки потоковых данных, tokio, sqlx, немного unsafe в hot path).

Доля сгенерированного кода в коммитах последних шести месяцев около 40%, остальное это правки, рефакторинг и места, куда модель я не пускаю.

За это время накопилась коллекция ошибок, которые модели делают с пугающей регулярностью, и которые проходят cargo build, проходят cargo test, иногда даже проходят cargo clippy, и при этом являются либо UB, либо логически некорректным кодом, либо тем самым «работает на моей машине».

Я не буду писать, какая модель лучше. К моменту публикации статьи рейтинг устареет. Я расскажу про категории ошибок, которые воспроизводятся у всех топовых моделей весной 2026 года, и которые упираются не в качество обучающих данных, а в фундаментальные слепые пятна архитектуры трансформеров применительно к системе типов Rust.

Цифры, которые буду приводить дальше, получены так: я завёл бенчмарк из 50 типовых задач (написать функцию, отрефакторить, добавить фичу), прогонял каждую через четыре модели в течение полугода, и руками классифицировал ошибки. Это не academic-level статистика, но порядки величин показывает.

https://uproger.com/ya-zastavil-llm-pisat-rust-polgoda-vot-chto-oni-stabilno-lomayut/

Please open Telegram to view this post

VIEW IN TELEGRAM

12 views09:22

Машинное обучение digest

⚡️ Глава NVIDIA в обращении к студентам ит специальностей: ваш главный конкурент - электрик!

Дженсен Хуанг выступал перед выпускниками Carnegie Mellon и сказал довольно жёсткую вещь: в ближайшие годы огромный шанс будет не только у программистов, а у электриков, сантехников, сварщиков, техников и строителей.

И звучит это уже не как
ИИ нужны дата-центры, электричество, охлаждение, кабели, трубы, бетон, стойки, обслуживание и люди, которые всё это физически построят.

Пока одни спорят, кого заменят нейросети, спрос на рабочие специальности летит вверх:

• робототехники - плюс 107%

• HVAC-инженеры - плюс 67%

• специалисты по промышленной автоматизации - плюс 51%

• традиционные рабочие профессии - плюс 27% за последние годы

Парадокс эпохи ИИ в том, что победителем может оказаться не prompt engineer, а человек, который умеет подключить 100-мегаваттный дата-центр где-нибудь в пустыне Невады.

Код можно сгенерировать.

А вот кабель сам себя не протянет.

https://consent.yahoo.com/v2/collectConsent?sessionId=3_cc-session_096f2d7d-f863-4ee4-8fc8-af10b78de394

Please open Telegram to view this post

VIEW IN TELEGRAM

9 views09:37

Машинное обучение digest

0:20

This media is not supported in your browser

VIEW IN TELEGRAM

Mythos обошёл защиту, в которую Apple вложила 5 лет и миллиарды

Три исследователя использовали Anthropic Mythos, чтобы собрать рабочий exploit для macOS kernel. По их словам, он обходит Apple M5 Memory Integrity Enforcement - систему защиты, которую Apple строила годами и продвигала как один из главных барьеров против memory corruption атак.

Таймлайн выглядит жёстко:

- 25 апреля нашли баг
- 1 мая уже был рабочий exploit
- отчёт понесли лично в Apple Park

MIE была флагманской security-фичей для M5 и A19. Apple описывала её как защиту, которая должна резко усложнить целый класс атак на память. По их же исследованиям, MIE ломала все известные публичные exploit chains против современных iOS-устройств.

Исследователи не «сломали» MIE напрямую. Они её обошли. По описанию, атака была data-only: без манипуляций с указателями, через стандартные syscalls, от обычного непривилегированного пользователя до root.

Проблема уже не только в том, что уязвимости всё ещё находятся. Проблема в том, что frontier-модели начинают ускорять самую сложную часть offensive security: связывать баги, проверять гипотезы, искать обходные маршруты и собирать рабочую цепочку быстрее, чем это делала бы обычная команда вручную.

55-страничный технический отчёт обещают выпустить после патча Apple.

Если всё подтвердится, это одна из самых важных cybersecurity-историй года.

https://blog.calif.io/p/first-public-kernel-memory-corruption

9 views09:54

Машинное обучение digest

Linux-инсайт: shell - это просто обычная программа

Ваш терминал не разговаривает с ядром напрямую магическим языком. Shell - это обычная userspace-программа. Просто таких программ целое семейство:

bash, zsh, fish, dash, ksh, ash, встроенный shell из BusyBox.

С точки зрения ядра все они делают примерно одну и ту же работу:

- читают байты из file descriptor
- парсят их как командный язык
- вызывают fork
- вызывают exec
- запускают другие программы

Разница почти вся живёт в userspace: какой синтаксис shell принимает, насколько он удобен в интерактивной работе, насколько строго следует POSIX и какие расширения добавляет сверху.

POSIX описывает shell-язык, который часто называют просто sh. Большинство shell реализуют его как базу, а потом добавляют свои фичи.

Поэтому bash и dash - это не «разные терминалы». Это разные реализации одной идеи.

Небольшой сюрприз: в Debian и Ubuntu /bin/sh обычно не bash, а dash. Он проще, меньше и стартует быстрее. Поэтому скрипт с первой строкой:


#!/bin/sh

может вести себя не так, как вы ожидаете, если вы писали его «как bash-скрипт».

Проверьте у себя:


readlink -f /bin/sh

И вы увидите, какой shell реально стоит за /bin/sh на вашей машине.

9 views10:34

About

Blog

Apps

Platform