Forwarded from Machinelearning
Это один из крупнейших договоров на облачные вычисления в истории.
Расходы на инфраструктуру для ИИ продолжают расти рекордными темпами, несмотря на опасения «перегрева» рынка.
⚡ Масштаб сделки:
- OpenAI потребуется 4,5 гигаватта мощности - это больше, чем две плотины Гувера, или электричество для 4 миллионов домов.
- Oracle уже демонстрирует рост: акции компании подскочили, а Ларри Эллисон (глава Oracle) за сутки заработал $101 млрд и стал самым богатым человеком на планете, обогнав Илона Маска.
Рынок ИИ-вычислений превращается в арену сделок планетарного масштаба — где стоимость инфраструктуры измеряется сотнями миллиардов долларов и требует энергопотребления на уровне целых стран.
@ai_machinelearning_big_data
#AI #Cloud #OpenAI #Oracle #DataCenters
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4🔥4👍2
Forwarded from Machinelearning
🚀 Релиз: Qwen3-Next-80B-A3B - эффективная модель заточенная на работа работу с очень длинным контекстом!
🔹 80B параметров, но активируется только 3B на токен → тренировка и инференс 10x дешевле и быстрее, чем у Qwen3-32B (особенно при 32K+ контексте).
🔹 Гибридная архитектура: Gated DeltaNet + Gated Attention → сочетает скорость и точность.
🔹 Ultra-sparse MoE: 512 экспертов, маршрутизируется 10 + 1 общий.
🔹 Multi-Token Prediction → ускоренное speculative decoding.
🔹 По производительности обходит Qwen3-32B и приближается к Qwen3-235B в рассуждениях и long-context задачах.
🟢 Qwen3-Next-80B-A3B-Instruct показатели почти на уровне 235B flagship.
🟢 Qwen3-Next-80B-A3B-Thinking превосходит Gemini-2.5-Flash-Thinking.
▪ Попробовать: https://chat.qwen.ai
▪ Анонс: https://qwen.ai/blog?id=4074cca80393150c248e508aa62983f9cb7d27cd&from=research.latest-advancements-list
▪ HuggingFace: https://huggingface.co/collections/Qwen/qwen3-next-68c25fd6838e585db8eeea9d
▪ ModelScope: https://modelscope.cn/collections/Qwen3-Next-c314f23bd0264a
▪ Kaggle: https://kaggle.com/models/qwen-lm/qwen3-next-80b
▪ Alibaba Cloud API: https://alibabacloud.com/help/en/model-studio/models#c5414da58bjgj
@ai_machinelearning_big_data
#AI #LLM #Qwen #DeepLearning #MoE #EfficientModels #LongContext #Reasonin
▪ Попробовать: https://chat.qwen.ai
▪ Анонс: https://qwen.ai/blog?id=4074cca80393150c248e508aa62983f9cb7d27cd&from=research.latest-advancements-list
▪ HuggingFace: https://huggingface.co/collections/Qwen/qwen3-next-68c25fd6838e585db8eeea9d
▪ ModelScope: https://modelscope.cn/collections/Qwen3-Next-c314f23bd0264a
▪ Kaggle: https://kaggle.com/models/qwen-lm/qwen3-next-80b
▪ Alibaba Cloud API: https://alibabacloud.com/help/en/model-studio/models#c5414da58bjgj
@ai_machinelearning_big_data
#AI #LLM #Qwen #DeepLearning #MoE #EfficientModels #LongContext #Reasonin
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4❤2👍2
Forwarded from Machinelearning
Open-source инструмент от исследователей из Stanford, который превращает статические статьи в интерактивных AI-ассистентов.
📌 Как это работает:
- Paper2MCP анализирует статью и её код( если есть), извлекает ключевые методы и превращает их в инструменты внутри MCP-сервера.
- Agent layer подключает этот сервер к чат-агенту (например, Claude Code или Chatgpt).
Поле чего, у каждой статьи появляется свой ИИ-ассистент, который:
- объясняет папиру на простом языке;
- запускает код без ручного копания в репозиториях, зависимостях и API-ключах;
- объединяет данные и пайплайны из разных работ.
Каждый MCP-сервер включает:
- Tools — функции (например, прогноз изменения экспрессии генов).
- Resources — текст, код, датасеты.
- Prompts — шаблоны для пошаговых сценариев.
Фактически Paper2Agent помогает конвертировать научные работы в полноценные рабочие инструменты.
Чтобы повторить методы их статьи, приходилось вручную ставить окружения, импортировать десятки модулей и гадать с входными данными. Paper2Agent позволяет это сделать через диалоговый интерфейс.
@ai_machinelearning_big_data
#ai #ml #aiagent
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍4🔥3🥰1
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
Deutsche Bank предупреждает: нынешний рост инвестиций в ИИ неустойчив.
Расходы на дата-центры и оборудование удерживают США от рецессии, но без них рост ВВП близок к нулю. Goldman оценивает капзатраты в $368 млрд к августу 2025 года.
К 2030 году отрасли потребуется $2 трлн годовой выручки, но прогнозируется дефицит в $800 млрд. Продуктивность от ИИ придёт, но слишком медленно, чтобы оправдать такие масштабы инвестиций.
Fortune
KAT-Dev-32B достигает 62,4% на SWE-Bench Verified, входя в топ-5 среди всех open-source моделей.
KAT-Coder идёт ещё дальше - 73,4%, что ставит его в один ряд с ведущими проприетарными решениями.
HF
InclusionAI анонсировала Ring-flash-linear-2.0, открытое решение с комбинированным вниманием (линейным + стандартным). При активации лишь 6,1 млрд параметров она демонстрирует производительность, сопоставимую с плотной моделью на 40 млрд параметров.
Модель основана на Ling-flash-base-2.0 и дообучена на 1 триллионе токенов. Благодаря использованию MoE и гибридной архитектуре она достигает почти линейной временной сложности и устойчивого потребления памяти - что ускоряет и удешевляет инференс.
Ring-flash-linear-2.0 поддерживает контексты длиной до 128 000 токенов, показывая конкурентные результаты в задачах рассуждения, математики, программирования и генерации текста.
Модель распространяется под лицензией MIT.
HF
В Science Magazine опубликовано исследование, которое описывает новую технологию редактирования ДНК. Она позволяет вносить крупные и точные изменения прямо в нужное место генома человека — то, чего не могли обеспечить существующие методы вроде CRISPR.
CRISPR работает грубо: разрезает ДНК и надеется, что клетка правильно её восстановит. Более точные версии редактируют лишь крошечные участки - десятки или сотню «букв» ДНК. Но большинство болезней связано не с одной мутацией, а с распределёнными изменениями по всему геному.
Учёные нашли решение в бактериальных «прыгающих генах» - так называемых мостовых РНК. Они позволяют безопасно и точно вставлять, удалять или переставлять фрагменты длиной до 1 миллиона пар оснований.
В эксперименте новая технология исправила ДНК-повторы, вызывающие атаксию Фридрейха - редкое неврологическое заболевание. Тот же подход можно применить к болезни Хантингтона и другим тяжёлым наследственным патологиям.
В институте Arc уверены: комбинация их ДНК-модели Evo (для проектирования «здоровых» последовательностей) и метода Bridge recombination (для внедрения изменений) может стать основой будущей «Тьюринговой машины для биологии» — системы, способной переписывать геном с высокой точностью.
Paper
Лицо сохраняется точным, а движения выглядят плавно и естественно.
Главное новшество - два специальных адаптера. ID-adapter закрепляет лицо во всех кадрах, чтобы оно не «менялось» при генерации, а Ref-adapter переносит детали исходного фото - волосы, глаза, текстуру кожи.
Lynx построена на Diffusion Transformer и обучена на базе из 50,2 млн пар изображений и видео с разными выражениями лица, светом и фоном. Это помогает модели уверенно сохранять идентичность человека даже в сложных условиях.
Моделька выйдет персонализированное видео высокого качества, где совпадают лицо, мимика и мелкие детали внешности.
byteaigc
С 10 по 14 ноября участников ждут ежедневные лекции, практические задания и финальный проект для портфолио. В программе — основы архитектуры агентов, работа с Tool Use и API, контекст-инженеринг и память, метрики качества и оптимизация, а также создание первой мультиагентной системы по протоколу Agent2Agent. Регистрация открыта, участие доступно всем без отбора.
Rsvp
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍2🔥1
Forwarded from Анализ данных (Data analysis)
🔥 Новая SOTA среди моделей на 1.5B параметров
QuestA 🤖 показывает двузначный прирост Pass@1 и даже обгоняет ранние 32B-модели:
- AIME24: 72.50% (+10.73%)
- AIME25: 62.29% (+12.79%)
- HMMT25: 41.67% (+10.11%)
🚀 Секрет в обучении: QuestA использует RL с scaffolded-problems — это снимает конфликт между лёгкими и сложными задачами и даёт более масштабируемое рассуждение.
🔓 Всё в открытом доступе:
- Модель: https://huggingface.co/foreverlasting1202/QuestA-Nemotron-1.5B
- Тренировочный пайплайн: https://github.com/foreverlasting1202/QuestA
- Статья: https://arxiv.org/abs/2507.13266
- Блог: https://mercurial-kidney-02d.notion.site/QuestA-Expanding-Reasoning-Capacity-in-LLMs-via-Question-Augmentation-216b21d08abb81a1bcecfe79e7d1e88a?pvs=73
#LLM #Reasoning #AI #SOTA
@data_analysis_ml
QuestA 🤖 показывает двузначный прирост Pass@1 и даже обгоняет ранние 32B-модели:
- AIME24: 72.50% (+10.73%)
- AIME25: 62.29% (+12.79%)
- HMMT25: 41.67% (+10.11%)
🚀 Секрет в обучении: QuestA использует RL с scaffolded-problems — это снимает конфликт между лёгкими и сложными задачами и даёт более масштабируемое рассуждение.
🔓 Всё в открытом доступе:
- Модель: https://huggingface.co/foreverlasting1202/QuestA-Nemotron-1.5B
- Тренировочный пайплайн: https://github.com/foreverlasting1202/QuestA
- Статья: https://arxiv.org/abs/2507.13266
- Блог: https://mercurial-kidney-02d.notion.site/QuestA-Expanding-Reasoning-Capacity-in-LLMs-via-Question-Augmentation-216b21d08abb81a1bcecfe79e7d1e88a?pvs=73
#LLM #Reasoning #AI #SOTA
@data_analysis_ml
👍3❤2🔥1
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
Она была преобразована из предварительно обученной авторегрессионной модели (Qwen3-30B-A3B) и затем дополнительно обучена на 500 миллиардах токенов, чтобы полностью поменять поведениие диффузионной модели.
Обычные модели (AR, автогрессионные) пишут текст слово за словом, а RND1 создаёт всё предложение сразу и потом пошагово уточняет его, как будто “проявляет” текст из шума.
Это - Diffusion Language Model (DLM), аналог диффузионных моделей, которые рисуют картинки, только здесь она “рисует” слова.
🔄 Как её сделали
Команда Radical Numerics придумала, как превратить готовую модель в диффузионную без обучения с нуля.
Они просто поменяли тип внимания и дообучили модель на новой задаче.
Этот метод называется AR-to-Diffusion Conversion (A2D) - то есть конверсия из автогрессионной модели в диффузионную.
Как это происходит:
1. Берут сильную GPT-подобную модель.
2. Меняют механизм внимания — теперь модель видит весь контекст сразу.
3. Продолжают обучение по диффузионной задаче.
4. Используют разные скорости обучения для разных частей сети, чтобы модель не забыла старое, но научилась новому способу мышления.
⚙️ Что под капотом
▪ Mixture-of-Experts (MoE) - у модели 30 млрд параметров, но реально работают только 3 млрд за раз. Это делает её мощной, но экономной.
▪ Непрерывное дообучение - старые знания не стираются, а “встраиваются” в новый режим.
▪ Огромные батчи - модель учится на больших партиях данных, чтобы стабилизировать обучение, ведь она не обрабатывает все токены сразу.
- Параллельная генерация - текст создаётся быстрее, без пошаговой задержки.
- Меньше затрат - активных параметров всего 3 млрд, при этом качество как у больших GPT.
- Новая архитектура - открывает дорогу гибридным моделям, сочетающим плюсы AR и DLM.
- Полностью открытый код и веса - можно исследовать, изменять, запускать самому.
- Первый серьёзный шаг к самосовершенствующемуся ИИ- модель может не только обучаться, но и помогать в проектировании следующей версии.
Это реально интересный метод, RND1 показывает, что ИИ можно не просто обучать, а перестраивать - менять его саму логику мышления без начала “с нуля”.
Похоже, это может стать фундаментом для систем Recursive Self-Improvement (RSI), когда ИИ способен создавать и улучшать самого себя.
@ai_machinelearning_big_data
#RND1 #RadicalNumerics #AI #DLM #DiffusionModel #MoE #OpenSource
Please open Telegram to view this post
VIEW IN TELEGRAM
❤9🔥7👍3
Forwarded from Machinelearning
Новая архитектура Mamba-3 делает модели быстрее, стабильнее и эффективнее при работе с длинными контекстами.
Главная идея - не в слоях внимания, а в state-space моделях, где модель хранит и обновляет внутреннее состояние во времени.
📘 Краткие эускурс:
- Mamba-1 ввела непрерывную динамику и выборочное обновление памяти - помнила эффективно без высокой цены attention.
- Mamba-2 показала, что обновления состояния и attention - это две стороны одной математики, что ускорило вычисления на GPU.
- Mamba-3 довела концепцию до зрелости: теперь внутренняя память развивается плавнее и устойчивее за счёт перехода от простого шага Эйлера к трапецеидальному интегрированию.
Вместо простого шага Эйлера, как в Mamba-2, Mamba-3 аппроксимирует интеграл обновления состояния не только по правому концу интервала, но усреднением между началом и концом, с коэффициентом λ, зависящим от данных. Это даёт более точное приближение (второго порядка) и делает динамику состояния более выразительной.
🧠 Что изменилось под капотом:
- Память стала «ритмичной»: теперь модель может хранить повторяющиеся и периодические паттерны (например, структуры языка или музыки).
- Новый multi-input-multi-output дизайн позволяет обрабатывать несколько потоков параллельно — идеально для современных GPU.
⚙️ Что это даёт на практике:
- Эффективная работа с длинными последовательностями: документы, геномы, временные ряды.
- Линейное время выполнения и стабильная задержка делают её идеальной для реального времени: чат-ботов, перевода, речи.
- Энергоэффективность и масштабируемость открывают путь к on-device AI, где большие модели работают локально, без облака.
Mamba-3 - это не просто ускоренная альтернатива Transformers.
Это новая архитектура, которая объединяет глубокое понимание контекста, скорость и устойчивость, от серверных систем до умных устройств.
@ai_machinelearning_big_data
#ssm #mamba3 #llm,#architecture #ai
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7❤6🔥6😱1🦄1
Forwarded from Machinelearning
OmniVinci - модель, способная одновременно понимать и обрабатывать разные типы информации: текст, изображения, видео и звук.
Модель крайне эффективна, несмотря на то, что была обучена всего на 200 млрд. токенов (что в 6 раз меньше, чем у Qwen2.5-Omni - 1.2 трлн.). Это стало возможным благодаря архитектурным фишкам и тщательному подходу к подготовке данных.
В основе OmniVinci 3 компонента:
Абляция показала, что вклад каждого элемента играет свою важную роль: базовая модель с простой конкатенацией токенов набирает в среднем 45.51 балла. Добавление TEG поднимает результат до 47.72 (+2.21), CRTE — до 50.25 (+4.74 от базовой), а финальный слой в виде OmniAlignNet доводит средний балл до 52.59, что в сумме дает прирост в 7.08 пункта.
Данные для обучения - 24 млн. диалогов, которые пропустили через систему, где отдельная LLM анализирует и объединяет описания из нескольких модальностей, создавая единую и корректную аннотацю.
Итоговый датасет на 36% состоял из изображений, на 21% из звуков, на 17% из речи, 15% - из смешанных данных и на 11% из видео.
В бенчах OmniVinci обошла всех конкурентов. На Worldsense модель набрала 48.23 балла против 45.40 у Qwen2.5-Omni. На Dailyomni - 66.50 против 47.45. В аудио-задачах OmniVinci тоже молодец: 58.40 в MMAR и 71.60 в MMAU.
В распознавании речи модель показала WER 1.7% на датасете LibriSpeech-clean.
Применение модели протестили на практике. В задаче классификации дефектов полупроводниковых пластин, OmniVinci достигла точности 98.1%, что лучше, чем у специализированной NVILA (97.6%), и у более крупную 40-миллиардную VILA (90.8%).
@ai_machinelearning_big_data
#AI #ML #NVIDIA #OmniVinci
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍3🔥1🤯1
Forwarded from Machinelearning
⚡️ Glyph: масштабирование контекста через визуально-текстовую компрессию
В основе модели лежит простая идея : вместо того чтобы кормить модели километровый текст, Glyph превращает его в изображение и обрабатывает через vision-language модель.
Используется LLM-управляемый генетический алгоритм, чтобы подобрать наилучшие параметры визуального отображения текста (шрифт, плотность, макет), балансируя между сжатием и точностью.
Это радикально снижает вычислительные затраты, сохраняя при этом смысловую структуру текста.
При этом точность почти не падает: на задачах с длинным контекстом Glyph работает на уровне современных моделей вроде Qwen3-8B.
При экстремальном сжатии VLM с контекстом 128K может эффективно обрабатывать задачи, эквивалентные 1M+ токенов в традиционных LLM.
Фактически, длинный контекст становится мультимодальной задачей, а не чисто текстовой.
📄 Подробности: arxiv.org/abs/2510.17800
🧩 Веса: huggingface.co/zai-org/Glyph
👉 Репозиторий: github.com/thu-coai/Glyph
@ai_machinelearning_big_data
#AI #LLM #Multimodal #Research #DeepLearning
В основе модели лежит простая идея : вместо того чтобы кормить модели километровый текст, Glyph превращает его в изображение и обрабатывает через vision-language модель.
Используется LLM-управляемый генетический алгоритм, чтобы подобрать наилучшие параметры визуального отображения текста (шрифт, плотность, макет), балансируя между сжатием и точностью.
Это радикально снижает вычислительные затраты, сохраняя при этом смысловую структуру текста.
При этом точность почти не падает: на задачах с длинным контекстом Glyph работает на уровне современных моделей вроде Qwen3-8B.
При экстремальном сжатии VLM с контекстом 128K может эффективно обрабатывать задачи, эквивалентные 1M+ токенов в традиционных LLM.
Фактически, длинный контекст становится мультимодальной задачей, а не чисто текстовой.
📄 Подробности: arxiv.org/abs/2510.17800
🧩 Веса: huggingface.co/zai-org/Glyph
👉 Репозиторий: github.com/thu-coai/Glyph
@ai_machinelearning_big_data
#AI #LLM #Multimodal #Research #DeepLearning
❤9🔥3👍2😢1🙏1
Forwarded from Библиотека баз данных
Media is too big
VIEW IN TELEGRAM
🔥 Hugging Face снова выкатили полезные материалы.
Вышел бесплатный плейбук о том, как изнутри строят SOTA-модели.
Без общих слов - только реальные решения и нюансы, которые обычно скрыты внутри исследовательских команд.
Это полноценный мастеркласс на 214 страниц для тех, кто хочет понимать, как устроены современные LLM.
Что внутри:
• Логика построения модели: зачем → что → как
• Как разработчики берут модель и по частям включают/выключают компоненты (или меняют их)
• Архитектура: ключевые выборы и trade-offs
• Искусство подбора и очистки данных
• Как проходит обучение моделей
• Пост-тренинг и RLHF в 2025
• Инфраструктура больших моделей
По первым страницам - уровень деталей как в Ultra-scale playbook.
Ссылка: https://huggingface.co/spaces/HuggingFaceTB/smol-training-playbook#designing-the-model-architecture
Видео: https://www.youtube.com/watch?v=LGzO-Mn0DJQ
#AI #LLM #MachineLearning #HuggingFace
@sql_lib - библиотека МЛ и ИИ книг
Вышел бесплатный плейбук о том, как изнутри строят SOTA-модели.
Без общих слов - только реальные решения и нюансы, которые обычно скрыты внутри исследовательских команд.
Это полноценный мастеркласс на 214 страниц для тех, кто хочет понимать, как устроены современные LLM.
Что внутри:
• Логика построения модели: зачем → что → как
• Как разработчики берут модель и по частям включают/выключают компоненты (или меняют их)
• Архитектура: ключевые выборы и trade-offs
• Искусство подбора и очистки данных
• Как проходит обучение моделей
• Пост-тренинг и RLHF в 2025
• Инфраструктура больших моделей
По первым страницам - уровень деталей как в Ultra-scale playbook.
Ссылка: https://huggingface.co/spaces/HuggingFaceTB/smol-training-playbook#designing-the-model-architecture
Видео: https://www.youtube.com/watch?v=LGzO-Mn0DJQ
#AI #LLM #MachineLearning #HuggingFace
@sql_lib - библиотека МЛ и ИИ книг
🔥9👍5❤2🙏2🥰1😢1
Forwarded from Machinelearning
GPT-5-Codex-Mini - более доступная версия флагманского Codex, она в 4 раза эффективней по затратам по сравнению с полной версией GPT-5-Codex при небольшом компромиссе в производительности.
Разница в возможностях минимальна: на SWE-bench Verified версия Mini набрала 71.3%, в то время как старшая GPT-5-Codex - 74.5%. OpenAI рекомендует переключаться на Mini для решения более простых задач или для экономии ресурсов при приближении к лимитам. Старший Codex будет автоматически предлагать переход на Mini, когда пользователь достигнет 90% своего лимита.
Модель уже доступна в CLI и расширении для IDE, а в скором времени появится и поддержка через API.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6🔥1🥰1🤡1
Forwarded from Machinelearning
Miles - фреймворк для RL-обучения от команды LMSYS ORG, ориентированный на энтерпрайз-уровень.
Если вы следите за опенсорс разработками, вы наверняка слышали о предшественнике этой системы, проекте slime. Это легкий инструмент, который используют во многих современных пайплайнов пост-трейна. На нем, кстати, запускали GLM-4.6.
Slime доказал, что легковесный дизайн работает, и Miles делает следующий шаг - масштабное обучение архитектур MoE и поддержка тяжелых промышленных нагрузок.
Miles предлагает то, что называют "True On-Policy". Раньше между тренировкой и инференсом часто возникало расхождение. Теперь же, благодаря инфраструктурному подходу, LMSYS добилась нулевой дивергенции. Это стало возможным благодаря использованию Flash Attention 3, библиотеки DeepGEMM и ядер от Thinking Machines Lab, работающих в связке с
torch.compile.Вторая особенность - в использовании спекулятивного декодирования. Обычно в RL черновая модель замораживается, что мешает ей следовать политике целевой модели. LMSYS добавили онлайн-обучение черновой модели.
Результаты на тестах положительные: ускорение генерации более чем на 25%, особенно на поздних стадиях обучения.
Для энтерпрайза память - это деньги. В Miles включили механизмы, предотвращающие падение системы при некритичных ошибках OOM и исправили чрезмерное потребление памяти в FSDP.
В дорожной карте проекта обещают поддержку мультимодального обучения, совместимость со SGLang v2 и расширенное спекулятивное декодирование.
@ai_machinelearning_big_data
#AI #ML #RL #Miles #LMSYS
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3👍2🥰1