⚡️ Вышли новые версии Qwen3-Next-80B в формате FP8!
📌 Модели:
- Qwen3-Next-80B-A3B-Instruct-FP8: 80B, обученная в формате Instruct. Сочетает MoE-архитектуру и FP8-квантование, при большом размере работает быстро и кушает меньше памяти, поддерживает длинный контекст - до 262k токенов (с расширением до миллиона) и оптимизирована для сложных задач рассуждения и работы с большими документами.
- Qwen3-Next-80B-A3B-Thinking-FP8
— Thinking модель, с акцентом на рассуждения, и решение логических задач. Гибридное внимание: Gated DeltaNet + Gated Attention → работа с супердлинными контекстами. Thinking-версия** показывает топ-результаты на задачах рассуждений, обгоняя не только Qwen3-30B/32B, но и закрытую Gemini-2.5-Flash-Thinking
- FP8-точность → быстрый инференс при сохранении качества.
- Полная совместимость с Transformers, vLLM и SGLang.
- Подходит для продакшн-задач, где важны скорость и эффективность.
🟠 Hugging Face: https://huggingface.co/collections/Qwen/qwen3-next-68c25fd6838e585db8eeea9d
🟠 ModelScope: https://modelscope.cn/collections/Qwen3-Next-c314f23bd0264a
@ai_machinelearning_big_data
#qwen #opensource #llm #ml
📌 Модели:
- Qwen3-Next-80B-A3B-Instruct-FP8: 80B, обученная в формате Instruct. Сочетает MoE-архитектуру и FP8-квантование, при большом размере работает быстро и кушает меньше памяти, поддерживает длинный контекст - до 262k токенов (с расширением до миллиона) и оптимизирована для сложных задач рассуждения и работы с большими документами.
- Qwen3-Next-80B-A3B-Thinking-FP8
— Thinking модель, с акцентом на рассуждения, и решение логических задач. Гибридное внимание: Gated DeltaNet + Gated Attention → работа с супердлинными контекстами. Thinking-версия** показывает топ-результаты на задачах рассуждений, обгоняя не только Qwen3-30B/32B, но и закрытую Gemini-2.5-Flash-Thinking
- FP8-точность → быстрый инференс при сохранении качества.
- Полная совместимость с Transformers, vLLM и SGLang.
- Подходит для продакшн-задач, где важны скорость и эффективность.
@ai_machinelearning_big_data
#qwen #opensource #llm #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤53👍23🔥14❤🔥1👌1💘1
🐳 Обновленная DeepSeek-V3.1-Terminus
Она даёт более стабильные и полные результаты на тестах по сравнению с предыдущей версией.
Языковая консистентность -китайцы значительно улучшили вывод модель - меньше случайных иероглифов и мешанины CN/EN.
Ряд Агентных апгрейдов рузльтаты на Code Agent и Search Agent стали заметно сильнее.
Доступна в приложении и в веб-версии и через API.
🔗 Открытые веса: https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Terminus
@ai_machinelearning_big_data
#DeepSeek #opensource #llm
Она даёт более стабильные и полные результаты на тестах по сравнению с предыдущей версией.
Языковая консистентность -китайцы значительно улучшили вывод модель - меньше случайных иероглифов и мешанины CN/EN.
Ряд Агентных апгрейдов рузльтаты на Code Agent и Search Agent стали заметно сильнее.
Доступна в приложении и в веб-версии и через API.
🔗 Открытые веса: https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Terminus
@ai_machinelearning_big_data
#DeepSeek #opensource #llm
👍68❤24🔥10🤨2💘1
🚀 Не стройте ракету, пока не собрали бумажный самолёт
Один из главных рисков в запуске IT-продукта — застрять в бесконечной доработке и не выйти на рынок.
В комьюнити Короче, Капитан делают по-другому.
Челлендж: 12 запусков за 12 месяцев.
✅ Разработка и запуск — за 1 месяц
✅ Минимальные вложения (средний бюджет на продвижение — $150)
✅ Честный разбор: что получилось, а что — нет
Формула проста:
1 запуск = 1 функция = решение 1 проблемы
Три главных правила:
⚡️Проверенный спрос, а не догадки
⚡️ Быстрый запуск без перфекционизма
⚡️ Только США и ЕС — там платят за удобство
Канал Короче, Капитан показывает запуск, продвижение и доход по каждому продукту в реальном времени.
Без иллюзий, без теорий — только работающие подходы и реальные цифры.
👉 Подписаться: @its_capitan
Реклама. ИП Зуев, ИНН 360408359441, erid: 2Vtzqx3W8bW
Один из главных рисков в запуске IT-продукта — застрять в бесконечной доработке и не выйти на рынок.
В комьюнити Короче, Капитан делают по-другому.
Челлендж: 12 запусков за 12 месяцев.
✅ Разработка и запуск — за 1 месяц
✅ Минимальные вложения (средний бюджет на продвижение — $150)
✅ Честный разбор: что получилось, а что — нет
Формула проста:
1 запуск = 1 функция = решение 1 проблемы
Три главных правила:
⚡️Проверенный спрос, а не догадки
⚡️ Быстрый запуск без перфекционизма
⚡️ Только США и ЕС — там платят за удобство
Канал Короче, Капитан показывает запуск, продвижение и доход по каждому продукту в реальном времени.
Без иллюзий, без теорий — только работающие подходы и реальные цифры.
👉 Подписаться: @its_capitan
Реклама. ИП Зуев, ИНН 360408359441, erid: 2Vtzqx3W8bW
🤣33❤13🔥7👍3🐳2🌚2🤝2
🚀 Новая китайская модель LongCat-Flash-Thinking
🧠 Это модель для рассуждений, которая показала SOTA-результаты среди open-source решений.
⚡ Основное:
- Архитектура MoE, 560B параметров, из них 27B активируются.
- Эффективность: требует на **64,5% меньше токенов**( чем другим открытым моделям того же класса), чтобы достичь топ-результатов на AIME25 (с нативным использованием инструментов,).
- Контекст: 128k, обучение с усилением на задачах рассуждений и кода, многоэтапное пост-тюнинг обучение с мультиагентным синтезом.
- Инфраструктура: асинхронный RL даёт 3x ускорение по сравнению с синхронными фреймворками.
⚙️ Оптимизации для продакшена:
- Свои оптимизированные ядра для работы с MoE и специальные приёмы распределённого обучения,
- KV-cache reduction, квантование, chunked prefill,
- статическая/эластичная маршрутизация, peer-to-peer cache transfer, heavy-hitter replication и PD-disaggregation.
- Поддержка SGLang и vLLM для эффективного деплоя.
📊 Бенчмарки:
- Лидирует в tool use (**τ²-Bench, VitaBench**)
- Хорошие результаты по instruction following (**IFEval, COLLIE, Meeseeks-zh**).
Китайцы стабильно удерживают лидерство в reasoning-моделях.
🟠 HF: https://huggingface.co/meituan-longcat/LongCat-Flash-Thinking
@ai_machinelearning_big_data
#AI #LLM #Reasoning #MoE #DeepLearning #OpenSource
🧠 Это модель для рассуждений, которая показала SOTA-результаты среди open-source решений.
⚡ Основное:
- Архитектура MoE, 560B параметров, из них 27B активируются.
- Эффективность: требует на **64,5% меньше токенов**( чем другим открытым моделям того же класса), чтобы достичь топ-результатов на AIME25 (с нативным использованием инструментов,).
- Контекст: 128k, обучение с усилением на задачах рассуждений и кода, многоэтапное пост-тюнинг обучение с мультиагентным синтезом.
- Инфраструктура: асинхронный RL даёт 3x ускорение по сравнению с синхронными фреймворками.
⚙️ Оптимизации для продакшена:
- Свои оптимизированные ядра для работы с MoE и специальные приёмы распределённого обучения,
- KV-cache reduction, квантование, chunked prefill,
- статическая/эластичная маршрутизация, peer-to-peer cache transfer, heavy-hitter replication и PD-disaggregation.
- Поддержка SGLang и vLLM для эффективного деплоя.
📊 Бенчмарки:
- Лидирует в tool use (**τ²-Bench, VitaBench**)
- Хорошие результаты по instruction following (**IFEval, COLLIE, Meeseeks-zh**).
Китайцы стабильно удерживают лидерство в reasoning-моделях.
@ai_machinelearning_big_data
#AI #LLM #Reasoning #MoE #DeepLearning #OpenSource
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥40❤18🥰8👍4💘1
Модель обрабатывает текст, изображения, аудио и видео в одной модели.
На бенчмарках выглядит так, как будто все модальности работают одинаково качественно.
- Первое место на 22 из 36 аудио- и мультимодальных бенчмарков
- Поддержка: 119 языков текста,
- Минимальная задержка — 211 мс
- Обработка аудио до 30 минут длиной
- ПОзволяет гибко настраивать через системные промпты
- Встроенный tool calling
Компания выложила три версии:
- Qwen3-Omni-30B-A3B-Instruct
- Qwen3-Omni-30B-A3B-Thinking
- Qwen3-Omni-30B-A3B-Captioner
👉 Попробовать можно здесь:
💬 Chat: https://chat.qwen.ai/?models=qwen3-omni-flash
💻 GitHub: https://github.com/QwenLM/Qwen3-Omni
🤗 Hugging Face: https://huggingface.co/collections/Qwen/qwen3-omni-68d100a86cd0906843ceccbe
🤖 ModelScope: https://modelscope.cn/collections/Qwen3-Omni-867aef131e7d4f
🎬 Demo: https://huggingface.co/spaces/Qwen/Qwen3-Omni-Demo
@ai_machinelearning_big_data
#qwen #opensource #llm #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍115❤44🔥34💘1
Media is too big
VIEW IN TELEGRAM
В 2025 году в OpenAI перешло более двадцати специалистов Apple. Компания привлекает их миллионными пакетами акций и менее бюрократичной культурой. Среди новых сотрудников - дизайнер звуковых волн для Siri Сайрус Ирани и бывший топ-менеджер Apple Watch Эрик де Йонг.
Причины ухода называют одни и те же: медленные продуктовые обновления Apple и слабая динамика акций. Ситуация настолько встревожила Купертино, что было отменено выездное совещание в Китае, чтобы удержать ключевых сотрудников ближе к офису.
Новость
Модель поддерживает 14 выразительных голосов и умеет работать с 10 языками, включая русский. Задержка генерации составляет всего 97 миллисекунд — примерно одна десятая секунды, что открывает путь к полноценным голосовым ассистентам в реальном времени.
Qwen3-TTS-Flash
Главное в сделке - Nvidia инвестирует до 100 миллиардов долларов, предоставляя инфраструктуру для обучения и запуска моделей OpenAI. Речь идёт о строительстве датацентров совокупной мощностью не менее 10 гигаватт, что эквивалентно миллионам GPU. Таким образом Nvidia становится ключевым поставщиком вычислительных мощностей для компании Сэма Альтмана.
Первый кластер на базе платформы NVIDIA Vera Rubin планируется запустить во второй половине 2026 года.
Openai
В отличие от существующих моделей, ограниченных фиксированными соотношениями материалов, TuNa-AI может исследовать как состав, так и количество ингредиентов, что позволяет повысить стабильность и эффективность наночастиц.
В рамках первых испытаний система показала значимые результаты. Успешность формирования наночастиц увеличилась на 42,9%. При использовании препарата венетоклакс, применяемого в лечении лейкоза, удалось улучшить его растворимость и эффективность подавления раковых клеток. В другом эксперименте содержание канцерогенного вспомогательного вещества удалось сократить на 75%, сохранив при этом эффективность химиотерапии и улучшив распределение препарата в организме.
Модель лучше сохраняет контекст, лица и целостность объектов, а встроенный ControlNet позволяет менять позы персонажей для точного управления сценой.
Qwen-Image-Edit
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍61❤42🔥17🤬3🤔1💘1
Идея проста: собрать тысячи Ascend-чипов в **SuperPod**-стойки с новой шиной UnifiedBus, чтобы они работали как единый ускоритель.
В 2026 году Huawei обещает SuperPod 950 с 8,192 чипами, что даст:
- в 6,7 раза больше вычислительной мощности,
- в 15 раз больше памяти,
- в 62 раза выше пропускную способность,
чем у Nvidia NVL144.
К 2028-му скорость связи между чипами хотят поднять до 4 Тбит/с (у Nvidia сейчас 1,8).
В будущем Huawei говорит даже о кластерах из миллиона чипов.
⚠️ Но главное слабое место — производство. После санкций компания лишилась доступа к фабрикам TSMC. Попытка сделать 5нм чип Ascend 910D провалилась: слишком мало годных кристаллов выходит с пластин. Последний реальный прорыв — 7нм чип в Mate 60 Pro в 2023 году.
У Китайцев есть амбиции и архитектура, но нет надёжного производства. Это и есть главный барьер на пути к конкуренции с Nvidia.
@ai_machinelearning_big_data
#Huawei #Nvidia #AIChips #SuperPod
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥77❤30👍17❤🔥3💘1
Ключевые особенности:
- лёгкая и быстрая, всего 2.6B параметров
- построена на архитектуре v2 (short convs + group query attention)
- обучена на 10 трлн токенов, поддерживает контекст до 32k
LFM2-2.6B - компактная, но мощная моделька для широкого спектра задач.
@ai_machinelearning_big_data
#AI #LLM #LFM2 #OpenSourceAI #Multilingual
Please open Telegram to view this post
VIEW IN TELEGRAM
❤52👍19🔥12👌2🥱2💘2
Media is too big
VIEW IN TELEGRAM
Это vision-language модель, которая умеет управлять графическими интерфейсами, писать код, строить диаграммы в Draw.io по макетам и распознавать объекты в самых разных областях - от повседневной жизни до узкоспециализированных сфер. Среди ключевых возможностей: точное определение событий в видео продолжительностью до двух часов, расширение поддержки OCR с 19 до 32 языков с улучшением качества на редких символах и наклонном тексте, работа с контекстом длиной 256 тысяч токенов с возможностью увеличения до миллиона, а также высокая точность в задачах обнаружения рисков в реальных условиях.
HF
Исследователи показали, что foundation-модели могут обучаться в стиле few-shot, то есть адаптироваться к новой задаче прямо «на лету», без отдельного переобучения.
В основе подхода лежит TimesFM, расширенный методом in-context fine-tuning (TimesFM-ICF). Модель получает несколько примеров вместе с историей данных и учится делать прогнозы более точно. В экспериментах на 23 датасетах точность выросла на 6,8% по сравнению с базовой моделью, при этом качество оказалось сопоставимо с версиями, обученными специально под каждый набор данных.
Теперь модели временных рядов можно использовать как LLM: им достаточно нескольких примеров в контексте, чтобы подстроиться под задачу. Это открывает путь к более гибкому и простому применению таких систем в бизнесе, финансах, энергетике и других областях.
Главная идея в том, что вместо ручного конструирования симуляций теперь можно задавать цель в виде текста, а модель будет находить или создавать такие системы, где возникают жизнеподобные явления.
ASAL работает на разных субстратах - от классических Boids и Game of Life до Lenia, Particle Life и нейронных клеточных автоматов. В ходе экспериментов метод открыл новые формы поведения в Lenia и Boids, а также клеточные автоматы, способные демонстрировать открытое и сложное развитие, сравнимое с «Жизнью» Конвея.
Это открывает путь к ускоренному исследованию искусственной жизни и автоматическому открытию новых «жизнеподобных» систем, которые раньше приходилось искать вручную.
По результатам тестов Qwen3-Max выходит на уровень топовых моделей на таких бенчмарках, как SWE-Bench, Tau2-Bench, SuperGPQA, LiveCodeBench и AIME25. Модель построена на масштабном датасете и опирается на значительные вычислительные мощности как в предобучении, так и в RL.
Компания позиционирует Qwen3-Max как новый флагман и открывает доступ сразу на нескольких платформах: в Qwen Chat, через API Alibaba Cloud и в блоге разработчиков.
X
Доверие остаётся ограниченным: 46% доверяют «отчасти», 23% — «немного», и только 20% - «сильно». Это объясняется частыми мелкими исправлениями после автогенерации. Влияние на качество кода оценивается сдержанно: 31% видят лёгкое улучшение, 30% — «без изменений». Зато ощутим рост скорости за счёт снижения рутины.
На рынке труда обстановка сложнее: вакансии для новичков сократились на 71% с 2022 года, а кандидаты подают сотни заявок, прежде чем получить работу.
Report
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥59❤45👍21🤔4💘2
🤖 AI Studio — платформа для создания ИИ-агентов без навыков разработки
Yandex B2B Tech обновила AI Studio: теперь на платформе можно собрать своих ИИ-агентов всего за несколько часов
Что умеют:
🟠 Голосовые агенты для контакт-центров на базе realtime API с ответами в реальном времени;
🟠 AI Search для поиска по изображениям, таблицам и документам, а также по интернету;
🟠 Составление мультиагентных сценариев (несколько агентов решают задачу вместе);
🟠 Подключение агентов к внешним сервисам по шаблону через MCP Hub (уже можно интегрировать их с системами Контур.Фокус и amoCRM)
📌 Встроены готовые решения: SpeechSense для анализа звонков, Нейроюрист для юридических заключений и другие.
AI Studio уже доступна для всех клиентов Yandex Cloud.
@ai_machinelearning_big_data
#ai #cloud #agents
Yandex B2B Tech обновила AI Studio: теперь на платформе можно собрать своих ИИ-агентов всего за несколько часов
Что умеют:
📌 Встроены готовые решения: SpeechSense для анализа звонков, Нейроюрист для юридических заключений и другие.
AI Studio уже доступна для всех клиентов Yandex Cloud.
@ai_machinelearning_big_data
#ai #cloud #agents
Please open Telegram to view this post
VIEW IN TELEGRAM
🤣39👍27❤17🔥6🍓3🗿3💋1
OpenAI представила новую модель GPT-5-Codex, оптимизированную под программирование и агентные задачи.
Она доступна пользователям GitHub Copilot в публичном превью.
Модель можно выбрать прямо в VS Code в режимах Ask, Edit и Agent, но только начиная с версии Copilot v1.104.1. Доступ распространяется на тарифы Pro, Pro+, Business и Enterprise, при этом в бизнес- и корпоративных планах администратор должен включить поддержку GPT-5-Codex в настройках.
https://github.blog/changelog/2025-09-23-openai-gpt-5-codex-is-rolling-out-in-public-preview-for-github-copilot/
@ai_machinelearning_big_data
#openai #chatgpt
Please open Telegram to view this post
VIEW IN TELEGRAM
👍69🔥14❤🔥8❤8💘2
Forwarded from Machine learning Interview
🧠 MIT доказал: LLM могут логически рассуждать, если правильно их учить.
📄 Исследователи предложили метод PDDL-INSTRUCT. Он превращает обучение модели из «угадай ответ» в пошаговое решение задач с внешней проверкой.
Как это устроено:
1️⃣ На первом этапе модели показывают правильные и неправильные планы с объяснениями.
2️⃣ На втором этапе она сама прописывает рассуждения для каждого шага. После этого внешний инструмент (**VAL**) проверяет логику. Если ошибка - модель получает чёткое объяснение, что не так.
📊 Результаты:
- У Llama-3-8B точность выросла с 28% до 94% на задачах планирования.
- Подробная обратная связь работает намного лучше, чем простое «правильно/неправильно».
💡 Главное: модель не заменяет символический планировщик, а учится мыслить как он, сохраняя внешнюю проверку.
⚡ Такой подход можно применить к любым многошаговым задачам - от математики до программирования. Возможно, многие «невозможные» способности моделей скрыты внутри и ждут правильного метода обучения.
🟠 Статья: https://arxiv.org/abs/2509.13351
@machinelearning_interview
📄 Исследователи предложили метод PDDL-INSTRUCT. Он превращает обучение модели из «угадай ответ» в пошаговое решение задач с внешней проверкой.
Как это устроено:
1️⃣ На первом этапе модели показывают правильные и неправильные планы с объяснениями.
2️⃣ На втором этапе она сама прописывает рассуждения для каждого шага. После этого внешний инструмент (**VAL**) проверяет логику. Если ошибка - модель получает чёткое объяснение, что не так.
📊 Результаты:
- У Llama-3-8B точность выросла с 28% до 94% на задачах планирования.
- Подробная обратная связь работает намного лучше, чем простое «правильно/неправильно».
💡 Главное: модель не заменяет символический планировщик, а учится мыслить как он, сохраняя внешнюю проверку.
⚡ Такой подход можно применить к любым многошаговым задачам - от математики до программирования. Возможно, многие «невозможные» способности моделей скрыты внутри и ждут правильного метода обучения.
@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
👍106🔥57❤42🤔8💘3
Друзья, запускаем новый конкурс на один из самых неубиваемых (кто бы мог подумать?) и необычных iPhone в этом году!
Условия участия максимально простые:
🔸Подписаться на медиа-канал о нейросетях и машинном обучении «Machine Learning»
🔸Подписаться на канал о технологиях и о будущем «Droider»
🔸Нажать кнопку «Участвовать» под постом
Итоги — 24 октября. Доставка приза осуществляется по РФ, РБ и Казахстану.
Всем удачи!
Please open Telegram to view this post
VIEW IN TELEGRAM
3❤802🔥322👏114👍100💘26😁25🥱20🤔13🤬9🌭8😭6
Инженеры MIT создали новый тип транзистора - магнитный транзистор.
Обычные транзисторы работают только за счёт электричества, а здесь добавлен магнитный контроль.
Что это даёт:
- транзистор может быть и переключателем, и памятью одновременно
- работает быстрее и потребляет меньше энергии
- размеры схем можно сделать ещё меньше
Почему это интересно:
- Сейчас в компьютерах логика и память разделены: процессор считает, память хранит.
- Новый подход объединяет эти функции прямо в одном элементе. Это может упростить схемы и ускорить работу устройств.
Вызовы:
- нужно научиться производить такие транзисторы массово
- переключение пока требует магнитного поля, а в будущем его хотят делать электрическим током
Перспективы:
Если технология выстрелит, мы получим мощные и экономичные чипы, что особенно важно для смартфонов, носимой электроники и систем с ограниченными ресурсами.
@ai_machinelearning_big_data
#MIT #технологии #электроника #полупроводники
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥129👍49❤26🥰12🤔7🥱4💘4