Машинное обучение RU
18K subscribers
1.72K photos
244 videos
11 files
2.16K links
Все о машинном обучении

админ - @workakkk

@data_analysis_ml - анализ даннных

@ai_machinelearning_big_data - Machine learning

@itchannels_telegram -лучшие ит-каналы

@pythonl - Python

@pythonlbooks- python 📚

@datascienceiot - 📚

РКН: clck.ru/3FmrUw
Download Telegram
Liquid AI выпустили две компактные модели под японский язык: речевую LFM2.5-Audio-1.5B-JP и языковую LFM2.5-1.2B-JP-202606.

Самое интересное здесь - речевая модель. LFM2.5-Audio-1.5B-JP умеет принимать японскую речь и отвечать японской речью напрямую. Это не связка из ASR + LLM + TTS, а единая end-to-end модель для полного речевого цикла.

Что заявляют по LFM2.5-Audio-1.5B-JP:

- 1.5B параметров
- первая японская speech-to-speech модель Liquid AI
- превосходит J-Moshi примерно на 77B параметров
- показывает уровень, близкий к Qwen2.5-Omni-3B
- подходит как базовая модель для дальнейшего дообучения

Вторая модель - LFM2.5-1.2B-JP-202606, обновлённая японская LLM на 1.2B параметров. Предыдущая версия уже обходила Qwen3-1.7B и Llama 3.2 1B на JMMLU, M-IFEval и GSM8K. В новой версии улучшили смесь японских данных, промежуточное обучение и пост-тренинг.

https://huggingface.co/LiquidAI/LFM2.5-Audio-1.5B-JP

https://huggingface.co/LiquidAI/LFM2.5-1.2B-JP-202606
7👍4
Rust теперь можно компилировать в JVM bytecode.

rustc_codegen_jvm - экспериментальный backend для компилятора Rust, который берёт Rust MIR и превращает его в .class файлы, а затем собирает runnable .jar под JVM 8+.

Что уже заявлено:

- генерация исполняемого .jar
- поддержка базового core
- if/else, match, for, while, loop
- structs, tuples, arrays, slices, enums
- traits, closures, dynamic dispatch
- function pointers, recursion, generics
- часть unsafe, включая unions
- оптимизации вроде constant folding, propagation и dead code elimination

Пайплайн выглядит так:

Rust frontend → MIR → OOMIR → JVM classfile → R8 → .jar

https://github.com/IntegralPilot/rustc_codegen_jvm
2👍1
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
✔️ OpenAI переделает ChatGPT в суперприложение

В ближайшие недели компания проведёт первый крупный редизайн ChatGPT с 2022 года. Сервис трансформируется из диалогового чат-бота в платформу автономных агентов.

Обновлённый интерфейс интегрирует партнёрские сервисы для самостоятельного выполнения многошаговых задач без дополнительных промптов и переключения между приложениями.

Смена курса обусловлена низкой рентабельностью чат-бота. Перед IPO OpenAI смещает фокус на B2B-сегмент и реструктуризирует продуктовые команды. Бизнес-модель переориентируется на корпоративных клиентов со стабильной монетизацией по аналогии со стратегией Anthropic.
ft.com

✔️ Инженер из аппаратного подразделения OpenAI перешёл в Anthropic

Anthropic наняла бывшего инженера OpenAI Клайва Чана для разработки собственных ИИ-чипов. До этого у компании не было профильного аппаратного подразделения.

В OpenAI Чан проектировал кастомный кремний и участвовал в партнёрстве с Broadcom. До этого он разрабатывал чипы для обучения ML-моделей в Tesla Autopilot, где отвечал за архитектуру дата-центров и энергоэффективные вычисления.

Найм Чана должен помочь Anthropic сформировать команду аппаратных инженеров. Переход на собственное железо планируется для снижения себестоимости вычислений и повышения маржинальности.
Clive Chan в сети Х

✔️ TSMC испытывает дефицит производственных мощностей

Google заказала у Intel производство более 3 млн TPU на 2028 год. Nvidia пока не заключила контракт, но тестирует техпроцессы Intel для будущей GPU-архитектуры Feynman. Причина переноса заказов - из-за нехватки производственных линий у TSMC.

Глава TSMC подтвердил, что индустрия не сможет покрыть спрос на ИИ-чипы в ближайшие несколько лет. Дефицит позволил Intel привлечь новых клиентов на фоне прошлых финансовых убытков и срывов дедлайнов.

Параллельно SK Hynix проверяет совместимость своей памяти с новыми технологиями упаковки Intel.
theinformation.com

✔️ Sakana AI займётся алгоритмической эволюцией ИИ

Японский стартап открыл исследовательскую лабораторию рекурсивного самосовершенствования (RSI). Цель - создание сетей, которые итеративно переписывают, тестируют и оптимизируют собственный код.

Компания рассчитывает, что алгоритмическая эволюция позволит отказаться от парадигмы масштабирования вычислений.

В портфеле стартапа уже есть система LLM-Squared, где одни LLM создают алгоритмы обучения для других, и платформа AI Scientist, автоматизирующая научные исследования.

Следующий этап дорожной карты Sakana AI - разработка автономных агентов, способных улучшать свою архитектуру без участия человека.
sakana.ai

✔️ Динамический биллинг лишил 74% бизнеса контроля над ИИ-бюджетами

По данным неопубликованного отчета KPMG, только 26% компаний полностью контролируют свои расходы на ИИ. 50% ведут ограниченный мониторинг, а 22% узнают о затратах постфактум из выставленных счетов. Причина - неготовность финансовых отделов к токенизированному биллингу и динамическому ценообразованию.

Из-за непрогнозируемой нагрузки потребление ресурсов в отдельных проектах возрастает до 6 раз. Это приводит к исчерпанию годовых бюджетов на облачные вычисления и API за несколько месяцев. По итогам текущего квартала ожидается пересмотр расходов после получения бизнесом реальных счетов от ИИ-провайдеров.

Текущую ситуацию сравнивают с закупками облачных мощностей во время пандемии, за которыми последовало сокращение инфраструктурных бюджетов.
wsj.com


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍31
WSJ пишет, что OpenAI сделала первый официальный шаг к IPO.

Компания конфиденциально подала черновые документы для выхода на биржу.

Конфиденциальная форма S-1 позволяет OpenAI начать проверку в SEC, не раскрывая сразу выручку, убытки, структуру клиентов, расходы на вычисления и зарплаты руководителей. Так компания может готовиться к листингу, сохраняя чувствительные цифры закрытыми.

На прошлой неделе Anthropic уже подала свои конфиденциальные документы для IPO. Поэтому это больше не только гонка моделей, а ещё и гонка капитала между лабораториями, которым нужно финансировать следующее поколение ИИ-инфраструктуры.

wsj.com/tech/ai/openai-kicks-off-ipo-process-in-test-of-investor-appetite-for-top-ai-labs-eb7bebe1
1👍1
Claude 5 Fable - кратко:

- почти на всех проверенных бенчмарках модель показывает уровень SOTA
- особенно сильна в разработке, работе со знаниями, vision-задачах и научных исследованиях
- чем длиннее и сложнее задача, тем сильнее Fable 5 отрывается от других моделей Claude
- модель эффективнее расходует токены, чем прошлые версии Claude
- Fable 5 удерживает фокус на задачах длиной в миллионы токенов и улучшает результат, используя собственные заметки

Fable 5 - это не просто «лучше бенчмарки». Она эффективнее, дольше работает без потери контекста, лучше управляет длинными задачами и даёт больше возможностей для сложных агентных сценариев.

GPT-5.6 уже близко.

Интересно, выпустит ли OpenAI свой аналог Mythos.

Во время раннего тестирования Stripe заявила, что Fable 5 сжала месяцы инженерной работы до нескольких дней. В Ruby-кодовой базе на 50 млн строк модель за один день провела миграцию по всему репозиторию - работу, которая вручную заняла бы у целой команды больше двух месяцев.

https://www.anthropic.com/news/claude-fable-5-mythos-5
5🔥4🥰1🤔1
⚡️ Wasserstein Learning Theory: когда ИИ учится сравнивать не точки, а целые распределения

В машинном обучении всё чаще важен не один конкретный пример, а то, как устроены данные целиком.

Например, модель обучали на одном распределении картинок, текстов или действий, а в реальности она получает немного другие данные. Обычная метрика может сказать: “распределения отличаются”. Wasserstein-подход показывает глубже: насколько далеко одно распределение нужно “перенести”, чтобы оно стало похоже на другое.

Идея пришла из оптимального транспорта. Представьте две кучи песка: одна форма - это первое распределение, другая второе. Расстояние Вассерштейна считает минимальную работу, которую нужно сделать, чтобы переложить песок из первой формы во вторую.

Почему это важно для ML:

* помогает анализировать сдвиг данных
* полезно для domain adaptation
* даёт инструменты для устойчивого обучения
* применяется в генеративных моделях
* помогает изучать обобщение нейросетей
* используется в reinforcement learning

В отличие от KL-дивергенции, Wasserstein distance учитывает геометрию пространства. Поэтому два распределения могут отличаться не просто “сильно” или “слабо”, а с учётом того, где именно находятся эти различия.

На практике это важно там, где модель должна быть устойчивой: новые домены, шумные данные, генерация, перенос знаний, обучение агентов.

Wasserstein Learning Theory даёт более точный язык для современной ML-задачи: не просто подогнать модель под датасет, а понять, как она ведёт себя при изменении распределения данных.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍74🔥2
ИИ-блогеры после выхода Claude Fable 5
😁20👍63
Title: SIA: Self Improving AI with Harness & Weight Updates

В этой работе показали, что ИИ лучше улучшает сам себя, когда меняет не только обвязку вокруг агента, но и обновляет модель.

Проблема в том, что прогресс ИИ до сих пор сильно зависит от людей: они вручную правят промпты, инструменты, код, данные для обучения и веса модели.

Авторы предлагают SIA - цикл, где один ИИ наблюдает за работой task-agent, а затем улучшает либо его внешнюю настройку, либо саму модель.

Внешняя настройка -это промпты, инструменты, правила повторных попыток, парсинг ответа и прочая обвязка. Обновление весов - это изменение поведения модели на основе обратной связи по задаче.

Работает это так: агент пробует много ответов или программ, верификатор оценивает результат, а эти оценки превращаются в обучающий сигнал.

После этого система обновляет небольшой набор дополнительных весов LoRA. Это меняет поведение модели без полного переобучения.

Базовая модель почти не трогается, но LoRA-адаптер постепенно учится: такие ответы давали высокий reward, а такие проваливались.

Авторы проверили подход на трёх разных задачах: классификация обвинений в китайском праве, ускорение GPU kernel-кода и denoising single-cell RNA.

Комбинированная версия обошла вариант, где улучшали только обвязку: 70.1% на LawBench, более быстрый GPU-код, чем у предыдущего лучшего решения, и 0.289 на задаче denoising.

Интересный вывод: хорошая обвязка помогает агенту действовать лучше, но обновление весов помогает ему выучить паттерны задачи, которые одними промптами и инструментами не находятся.

arxiv. org/abs/2605.27276
👍4🔥21
🖥 На stepik обновили курс Python в 2026 - рабочий инструмент для автоматизации, ботов, парсинга, API, данных и разработки с ИИ.

Проблема новичков в том, что они учат Python кусками: синтаксис, пару задач, немного теории - и потом не понимают, как собрать из этого реальный проект.

Этот курс закрывает именно этот разрыв. Здесь вы не просто смотрите уроки, а учитесь писать код, разбирать ошибки и собирать рабочие решения на практике.

Внутри:

- Python с нуля
- много практики без сухой теории
- реальные задачи и проекты
- автоматизация рутины
- работа с файлами, данными и API
- понятная логика программирования
- современная разработка с ИИ
- отдельный блок по вайбкодингу

Вайбкодинг это нормальный навык 2026 года и вас научат- правильно ставить задачу, проверять код, понимать результат и быстрее доводить проект до рабочего состояния.

48 часов скидка 60%: https://stepik.org/course/288218/
Please open Telegram to view this post
VIEW IN TELEGRAM
5😁2👍1🔥1
OpenRouter запустил Fusion - систему, где на один запрос отвечает не одна модель, а сразу несколько

Суть в том, что Fusion отправляет ваш промпт параллельно в разные модели. Каждая модель пытается решить задачу по-своему, при необходимости использует web search и bash-инструменты, а затем отдельный judge сравнивает ответы. После этого synthesizer собирает финальный вариант.

Получается не просто «выбор лучшей модели», а полноценная серверная схема коллективного мышления:

* несколько моделей работают одновременно;
* инструменты помогают проверять факты и считать;
* judge отбрасывает слабые ответы;
* synthesizer собирает итоговый результат в один связный ответ.

OpenRouter утверждает, что Fusion уже обходит frontier-модели на DRACO, deep research benchmark от Perplexity.

https://openrouter.ai/fusion

@machinelearning_ru
🔥73👍2
Исследователи Amazon с помощью серии промптов добились от модели Anthropic Fable информации о небольшом числе уязвимостей безопасности.

Amazon передала результаты американским чиновникам. Это помогло запустить экспортные ограничения, из-за которых Anthropic пришлось отключить Fable 5 и Mythos 5 для всех клиентов.

Главный спор сейчас в том, что именно показало исследование: серьёзный jailbreak, который раскрыл кибервозможности уровня Mythos, или обычную помощь по кибербезопасности, уже доступную в других продвинутых моделях.

Anthropic не согласна с трактовкой правительства. Эксперты по кибербезопасности, изучившие отчёт, тоже сомневаются, стоит ли вообще считать этот случай jailbreak’ом.
👍96🔥3😁1
Рост продуктивности от ИИ не линейный. Он ускоряется по мере глубины использования.

Сотрудники, которые активно используют продвинутые возможности ChatGPT вроде GPT-5 Thinking, Deep Research и Image Generation, а также работают с разными моделями и инструментами, сообщают о гораздо большей экономии времени.

В новом исследовании OpenAI показано: группа, которая экономит больше 10 часов в неделю, использует примерно в 8 раз больше AI-кредитов, чем сотрудники, которые сообщают о нулевой экономии времени.

То есть история не в том, что «дали всем чат-бота и получили небольшой равномерный прирост».

Чем глубже люди встраивают мощные AI-функции в свой рабочий процесс, тем сильнее накапливается экономия времени. Активные пользователи превращают ИИ не в случайного помощника, а в полноценного рабочего ассистента.

Из отчёта OpenAI “The state of enterprise AI”.

openai.com/index/the-state-of-enterprise-ai-2025-report/
11🔥6👍5
Исследователи из Stanford, University of California и Nanjing University представили SEFD - переработанную версию EDGAR filings для обучения LLM на финансовых документах.

Главная проблема старого подхода в том, что SEC-отчёты часто превращались в плоский текст. Модель видела слова и цифры, но теряла структуру: вложенные таблицы, объединённые заголовки, отступы, знаки, иерархию строк и связь между показателями.

SEFD решает это через layout-faithful MultiMarkdown. Он сохраняет логику документа и финансовых таблиц, но убирает лишний HTML-шум, который раздувает токены и мешает обучению.

Публичный снапшот содержит 152 млрд токенов. Полный архив, по оценке авторов, может дать около 550 млрд токенов длинных финансовых документов. При этом пересечение с Common Crawl-корпусами меньше 0,1%, то есть это почти незаезженный источник данных для финансовых LLM.

Модели получают структуру отчётности. Для финансового анализа это критично, потому что в таких документах значение часто лежит не в отдельной цифре, а в том, где она стоит, к какому заголовку относится и как связана с соседними строками.

arxiv.org/abs/2606.18192v1
2👍2🔥1
Forwarded from AI VK Hub
This media is not supported in your browser
VIEW IN TELEGRAM
📢 Открыта регистрация на RecSys Meetup от AI VK

1 июля в Москве инженеры и исследователи AI VK расскажут о трансформерных моделях и LLM-агентах в рекомендациях, представят исследовательское направление и поделятся опытом внедрения технологий Discovery в продукты VK с многомиллионной аудиторией.

Спикеры:
🟣 Андрей Зимовнов, директор по AI, VK
🟣 Александр Дьяконов, руководитель отдела исследований AI VK Research
🟣 Евгений Астафуров, ведущий разработчик, AI VK
🟣 Михаил Трапезников, руководитель группы рекомендательных технологий, AI VK

В программе:
🟣 Нейропрофиль в Discovery
🟣 Контентные LLM-агенты
🟣 Научные исследования в AI VK
🟣 Cоциальное общение, светомузыка и активности

➡️Регистрация по ссылке
Количество мест ограничено, трансляции не будет.
📍1 июля, ДК «Кристалл», Москва


#aivkhub #recsys
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍3👎2
Команда Tongyi Lab из Alibaba представила LOGOS, большую модель для всей естественной науки сразу.

Идея простая: если ChatGPT учится предсказывать следующее слово, то LOGOS так же предсказывает следующий кусочек белка, молекулы или реакции.

Разные научные объекты записываются одним общим языком токенов.

Плюс в том, что модель переносит знания между областями: понятое про молекулы помогает в работе с белками.

По словам авторов, на разных задачах LOGOS не уступает моделям, заточенным под конкретную область, а иногда и обходит их. Модель, код и статья уже выложены на HuggingFace, GitHub и arXiv.

🤗 HuggingFace: https://huggingface.co/LOGOS-Hub
💻 GitHub: https://github.com/LOGOS-Hub/LOGOS
📄 Paper: https://arxiv.org/abs/2606.16905
8😁2🤔2
Если хочется не только предсказывать цены на рынке, но и принимать решения на нём, то:

Команда Reinforce.fi (ex-Overnight.fi) запускает хакатон по ML, Reinforcement Learning и алгоритмической торговле - Market-Action Arena с призовым фондом $5,000

Задача отличается от классического прогнозирования.

Для каждого состояния рынка необходимо выбрать одно из 10 возможных действий (A1–A10), чтобы максимизировать итоговую прибыль стратегии.

Участникам предоставляются:

• реальные рыночные данные с анонимизированными признаками
• последовательности длиной 1000 шагов
• различные рыночные режимы и временные периоды
• train и validation датасеты в формате Parquet

Метрика:

Score = суммарный PnL по всем принятым решениям.

Призовой фонд:

1️⃣ $2,500
2️⃣ $1,500
3️⃣ $1,000

Финал соревнования:

Топ-10 участников лидерборда предоставляют код или ноутбук для проверки на скрытом датасете. Финалисты презентуют свои решения команде Reinforce.fi в онлайн или офлайн формате.

Период проведения:

Старт — конец июня 2026 года.
Продолжительность — около 1,5–2 месяцев.

💬 Telegram-чат участников:
https://xn--r1a.website/+R6lMJ10VXP5hOTI0

Регистрация и подробные условия
Please open Telegram to view this post
VIEW IN TELEGRAM
😁2
⚡️ Ling & Ring 2.6: новый техрепорт и open-weight модели

Ant Ling выпустили технический отчёт по Ling & Ring 2.6 и открыли два base checkpoint.

Главное:

* 7:1 Hybrid Linear Attention: 7 Lightning Attention слоёв + 1 MLA слой, чтобы сделать 256K context практичнее
* KPop RL: адаптивный Binary KL вместо uniform KL, прирост SWE-bench Verified с 70.8% до 76.28%
* ~4× token efficiency: больше “интеллекта” на меньшее число output-токенов
* Ling-2.6-flash: 104B, быстрый inference
* Ling-2.6-1T: trillion-scale flagship
* Ring-2.6-1T: deep reasoning и long-horizon agentic задачи

Суть релиза: команда оптимизирует не только модель, а всю связку architecture + training + agentic capability.

Открыты:

* Ling-2.6-1T-base
* Ling-2.6-flash-base
* код и inference-стек

📑 Full technical report: http://arxiv.org/abs/2606.15079
🧱 Ling-2.6-1T-base:
http://huggingface.co/inclusionAI/Ling-2.6-1T-base
🧱 Ring-2.6-flash-base:
http://huggingface.co/inclusionAI/Ling-2.6-flash-base
💻 Code:
http://github.com/inclusionAI/Ling-V2.5
⚙️ Inference:
http://github.com/inclusionAI/linghe
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3🔥32
GLM-5.2 теперь можно запускать локально.

2-битная версия сохраняет около 82% точности после сжатия модели с 1,51 ТБ до 238 ГБ, то есть размер уменьшили на 84%.

Запуск возможен на Mac с 256 ГБ памяти или на системах с достаточным объёмом RAM/VRAM.

GLM-5.2 называют самой сильной открытой моделью на данный момент.

Гайд: https://unsloth.ai/docs/models/glm-5.2
GGUF: https://huggingface.co/unsloth/GLM-5.2-GGUF
👍11🔥54