379K subscribers
4.37K photos
834 videos
17 files
4.86K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
⚡️ Вышли новые версии Qwen3-Next-80B в формате FP8!

📌 Модели:
- Qwen3-Next-80B-A3B-Instruct-FP8: 80B, обученная в формате Instruct. Сочетает MoE-архитектуру и FP8-квантование, при большом размере работает быстро и кушает меньше памяти, поддерживает длинный контекст - до 262k токенов (с расширением до миллиона) и оптимизирована для сложных задач рассуждения и работы с большими документами.
- Qwen3-Next-80B-A3B-Thinking-FP8
— Thinking модель, с акцентом на рассуждения, и решение логических задач. Гибридное внимание: Gated DeltaNet + Gated Attention → работа с супердлинными контекстами. Thinking-версия** показывает топ-результаты на задачах рассуждений, обгоняя не только Qwen3-30B/32B, но и закрытую Gemini-2.5-Flash-Thinking

- FP8-точность → быстрый инференс при сохранении качества.
- Полная совместимость с Transformers, vLLM и SGLang.
- Подходит для продакшн-задач, где важны скорость и эффективность.

🟠Hugging Face: https://huggingface.co/collections/Qwen/qwen3-next-68c25fd6838e585db8eeea9d
🟠ModelScope: https://modelscope.cn/collections/Qwen3-Next-c314f23bd0264a

@ai_machinelearning_big_data


#qwen #opensource #llm #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
53👍23🔥14❤‍🔥1👌1💘1
🐳 Обновленная DeepSeek-V3.1-Terminus

Она даёт более стабильные и полные результаты на тестах по сравнению с предыдущей версией.

Языковая консистентность -китайцы значительно улучшили вывод модель - меньше случайных иероглифов и мешанины CN/EN.

Ряд Агентных апгрейдов рузльтаты на Code Agent и Search Agent стали заметно сильнее.

Доступна в приложении и в веб-версии и через API.

🔗 Открытые веса: https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Terminus

@ai_machinelearning_big_data


#DeepSeek #opensource #llm
👍6824🔥10🤨2💘1
🚀 Не стройте ракету, пока не собрали бумажный самолёт

Один из главных рисков в запуске IT-продукта — застрять в бесконечной доработке и не выйти на рынок.

В комьюнити Короче, Капитан делают по-другому.

Челлендж: 12 запусков за 12 месяцев.

Разработка и запуск — за 1 месяц
Минимальные вложения (средний бюджет на продвижение — $150)
Честный разбор: что получилось, а что — нет

Формула проста:
1 запуск = 1 функция = решение 1 проблемы

Три главных правила:
⚡️Проверенный спрос, а не догадки
⚡️ Быстрый запуск без перфекционизма
⚡️ Только США и ЕС — там платят за удобство

Канал Короче, Капитан показывает запуск, продвижение и доход по каждому продукту в реальном времени.

Без иллюзий, без теорий — только работающие подходы и реальные цифры.

👉 Подписаться: @its_capitan

Реклама. ИП Зуев, ИНН 360408359441, erid: 2Vtzqx3W8bW
🤣3313🔥7👍3🐳2🌚2🤝2
🚀 Новая китайская модель LongCat-Flash-Thinking

🧠 Это модель для рассуждений, которая показала SOTA-результаты среди open-source решений.

Основное:
- Архитектура MoE, 560B параметров, из них 27B активируются.
- Эффективность: требует на **64,5% меньше токенов**( чем другим открытым моделям того же класса), чтобы достичь топ-результатов на AIME25 (с нативным использованием инструментов,).
- Контекст: 128k, обучение с усилением на задачах рассуждений и кода, многоэтапное пост-тюнинг обучение с мультиагентным синтезом.
- Инфраструктура: асинхронный RL даёт 3x ускорение по сравнению с синхронными фреймворками.

⚙️ Оптимизации для продакшена:
- Свои оптимизированные ядра для работы с MoE и специальные приёмы распределённого обучения,
- KV-cache reduction, квантование, chunked prefill,
- статическая/эластичная маршрутизация, peer-to-peer cache transfer, heavy-hitter replication и PD-disaggregation.
- Поддержка SGLang и vLLM для эффективного деплоя.

📊 Бенчмарки:
- Лидирует в tool use (**τ²-Bench, VitaBench**)
- Хорошие результаты по instruction following (**IFEval, COLLIE, Meeseeks-zh**).

Китайцы стабильно удерживают лидерство в reasoning-моделях.

🟠 HF: https://huggingface.co/meituan-longcat/LongCat-Flash-Thinking

@ai_machinelearning_big_data


#AI #LLM #Reasoning #MoE #DeepLearning #OpenSource
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4018🥰8👍4💘1
🚀 День релизов: Qwen выпустили Qwen3-Omni — первый нативный end-to-end *omni-modal AI*

Модель обрабатывает текст, изображения, аудио и видео в одной модели.

На бенчмарках выглядит так, как будто все модальности работают одинаково качественно.

⚡️ Особенности
- Первое место на 22 из 36 аудио- и мультимодальных бенчмарков
- Поддержка: 119 языков текста,
- Минимальная задержка — 211 мс
- Обработка аудио до 30 минут длиной
- ПОзволяет гибко настраивать через системные промпты
- Встроенный tool calling

🌟 Open-source релизы
Компания выложила три версии:
- Qwen3-Omni-30B-A3B-Instruct
- Qwen3-Omni-30B-A3B-Thinking
- Qwen3-Omni-30B-A3B-Captioner

👉 Попробовать можно здесь:
💬 Chat: https://chat.qwen.ai/?models=qwen3-omni-flash
💻 GitHub: https://github.com/QwenLM/Qwen3-Omni
🤗 Hugging Face: https://huggingface.co/collections/Qwen/qwen3-omni-68d100a86cd0906843ceccbe
🤖 ModelScope: https://modelscope.cn/collections/Qwen3-Omni-867aef131e7d4f
🎬 Demo: https://huggingface.co/spaces/Qwen/Qwen3-Omni-Demo

@ai_machinelearning_big_data


#qwen #opensource #llm #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11544🔥34💘1
Media is too big
VIEW IN TELEGRAM
✔️ OpenAI активно переманивает инженеров из Apple для работы над своим первым железом, которое планируется к выпуску в 2026–27 годах.

В 2025 году в OpenAI перешло более двадцати специалистов Apple. Компания привлекает их миллионными пакетами акций и менее бюрократичной культурой. Среди новых сотрудников - дизайнер звуковых волн для Siri Сайрус Ирани и бывший топ-менеджер Apple Watch Эрик де Йонг.

Причины ухода называют одни и те же: медленные продуктовые обновления Apple и слабая динамика акций. Ситуация настолько встревожила Купертино, что было отменено выездное совещание в Китае, чтобы удержать ключевых сотрудников ближе к офису.
Новость

✔️ Qwen представила новую модель Qwen3-TTS-Flash для преобразования текста в речь. Разработчики называют её самой стабильной в линейке.

Модель поддерживает 14 выразительных голосов и умеет работать с 10 языками, включая русский. Задержка генерации составляет всего 97 миллисекунд — примерно одна десятая секунды, что открывает путь к полноценным голосовым ассистентам в реальном времени.
Qwen3-TTS-Flash

✔️ OpenAI объявила о заключении стратегического партнёрства с Nvidia, которое уже называют историческим.

Главное в сделке - Nvidia инвестирует до 100 миллиардов долларов, предоставляя инфраструктуру для обучения и запуска моделей OpenAI. Речь идёт о строительстве датацентров совокупной мощностью не менее 10 гигаватт, что эквивалентно миллионам GPU. Таким образом Nvidia становится ключевым поставщиком вычислительных мощностей для компании Сэма Альтмана.

Первый кластер на базе платформы NVIDIA Vera Rubin планируется запустить во второй половине 2026 года.
Openai

✔️Инженеры-биомедики из Duke University разработали платформу TuNa-AI, которая сочетает искусственный интеллект и робототехнику для создания и оптимизации наночастиц, используемых в разработке лекарств.

В отличие от существующих моделей, ограниченных фиксированными соотношениями материалов, TuNa-AI может исследовать как состав, так и количество ингредиентов, что позволяет повысить стабильность и эффективность наночастиц.

В рамках первых испытаний система показала значимые результаты. Успешность формирования наночастиц увеличилась на 42,9%. При использовании препарата венетоклакс, применяемого в лечении лейкоза, удалось улучшить его растворимость и эффективность подавления раковых клеток. В другом эксперименте содержание канцерогенного вспомогательного вещества удалось сократить на 75%, сохранив при этом эффективность химиотерапии и улучшив распределение препарата в организме.

✔️ И еще про Qwen, китайцы представили модель Qwen-Image-Edit-2509, которую уже называют «убийцей» Nano Banana. Она умеет редактировать сразу несколько изображений и комбинировать их в единый результат.

Модель лучше сохраняет контекст, лица и целостность объектов, а встроенный ControlNet позволяет менять позы персонажей для точного управления сценой.
Qwen-Image-Edit

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6142🔥17🤬3🤔1💘1
🖥 Huawei строит план, чтобы догнать Nvidia за 3 года - ставка не на мощность отдельного чипа, а на масштабирование кластеров.

Идея проста: собрать тысячи Ascend-чипов в **SuperPod**-стойки с новой шиной UnifiedBus, чтобы они работали как единый ускоритель.

В 2026 году Huawei обещает SuperPod 950 с 8,192 чипами, что даст:
- в 6,7 раза больше вычислительной мощности,
- в 15 раз больше памяти,
- в 62 раза выше пропускную способность,
чем у Nvidia NVL144.

К 2028-му скорость связи между чипами хотят поднять до 4 Тбит/с (у Nvidia сейчас 1,8).

В будущем Huawei говорит даже о кластерах из миллиона чипов.

⚠️ Но главное слабое место — производство. После санкций компания лишилась доступа к фабрикам TSMC. Попытка сделать 5нм чип Ascend 910D провалилась: слишком мало годных кристаллов выходит с пластин. Последний реальный прорыв — 7нм чип в Mate 60 Pro в 2023 году.

У Китайцев есть амбиции и архитектура, но нет надёжного производства. Это и есть главный барьер на пути к конкуренции с Nvidia.

🟠Новость: bloomberg.com/news/articles/2025-09-23/huawei-plans-three-year-campaign-to-overtake-nvidia-in-ai-chips

@ai_machinelearning_big_data


#Huawei #Nvidia #AIChips #SuperPod
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7730👍17❤‍🔥3💘1
⚡️ Новая модель LFM2-2.6B - лидер в классе до 3B параметров.

Ключевые особенности:
- лёгкая и быстрая, всего 2.6B параметров
- построена на архитектуре v2 (short convs + group query attention)
- обучена на 10 трлн токенов, поддерживает контекст до 32k

LFM2-2.6B - компактная, но мощная моделька для широкого спектра задач.

🟠Blog post: https://liquid.ai/blog/introducing-lfm2-2-6b-redefining-efficiency-in-language-models
🟠HF: https://huggingface.co/LiquidAI/LFM2-2.6B
🟠Model Bundle on LEAP: https://leap.liquid.ai/models?model=lfm2-2.6b

@ai_machinelearning_big_data

#AI #LLM #LFM2 #OpenSourceAI #Multilingual
Please open Telegram to view this post
VIEW IN TELEGRAM
52👍19🔥12👌2🥱2💘2
Media is too big
VIEW IN TELEGRAM
✔️ Alibaba открыла исходный код модели Qwen3-VL.

Это vision-language модель, которая умеет управлять графическими интерфейсами, писать код, строить диаграммы в Draw.io по макетам и распознавать объекты в самых разных областях - от повседневной жизни до узкоспециализированных сфер. Среди ключевых возможностей: точное определение событий в видео продолжительностью до двух часов, расширение поддержки OCR с 19 до 32 языков с улучшением качества на редких символах и наклонном тексте, работа с контекстом длиной 256 тысяч токенов с возможностью увеличения до миллиона, а также высокая точность в задачах обнаружения рисков в реальных условиях.
HF

✔️ Google Research представил новую работу о моделях для временных рядов.

Исследователи показали, что foundation-модели могут обучаться в стиле few-shot, то есть адаптироваться к новой задаче прямо «на лету», без отдельного переобучения.

В основе подхода лежит TimesFM, расширенный методом in-context fine-tuning (TimesFM-ICF). Модель получает несколько примеров вместе с историей данных и учится делать прогнозы более точно. В экспериментах на 23 датасетах точность выросла на 6,8% по сравнению с базовой моделью, при этом качество оказалось сопоставимо с версиями, обученными специально под каждый набор данных.

Теперь модели временных рядов можно использовать как LLM: им достаточно нескольких примеров в контексте, чтобы подстроиться под задачу. Это открывает путь к более гибкому и простому применению таких систем в бизнесе, финансах, энергетике и других областях.
Google

✔️ Исследователи из MIT, OpenAI и Sakana AI предложили новый метод ASAL (Automated Search for Artificial Life), который автоматизирует поиск «искусственной жизни» с помощью foundation-моделей.

Главная идея в том, что вместо ручного конструирования симуляций теперь можно задавать цель в виде текста, а модель будет находить или создавать такие системы, где возникают жизнеподобные явления.

ASAL работает на разных субстратах - от классических Boids и Game of Life до Lenia, Particle Life и нейронных клеточных автоматов. В ходе экспериментов метод открыл новые формы поведения в Lenia и Boids, а также клеточные автоматы, способные демонстрировать открытое и сложное развитие, сравнимое с «Жизнью» Конвея.

Это открывает путь к ускоренному исследованию искусственной жизни и автоматическому открытию новых «жизнеподобных» систем, которые раньше приходилось искать вручную.

✔️ Еще Qwen представила свою новую флагманскую модель Qwen3-Max, сразу доступную без ограниченного превью. Линейка включает две версии: Qwen3-Max-Instruct, ориентированную на кодинг и агентные задачи, и Qwen3-Max-Thinking, оснащённую инструментальным использованием и «heavy mode» для сложных сценариев.

По результатам тестов Qwen3-Max выходит на уровень топовых моделей на таких бенчмарках, как SWE-Bench, Tau2-Bench, SuperGPQA, LiveCodeBench и AIME25. Модель построена на масштабном датасете и опирается на значительные вычислительные мощности как в предобучении, так и в RL.

Компания позиционирует Qwen3-Max как новый флагман и открывает доступ сразу на нескольких платформах: в Qwen Chat, через API Alibaba Cloud и в блоге разработчиков.
X

✔️ Отчёт Google DORA показал: 90% IT-специалистов уже используют ИИ в работе, что на 14% больше, чем год назад. В опросе участвовало почти 5 тысяч разработчиков, и в среднем они тратят около двух часов в день на взаимодействие с AI-инструментами.

Доверие остаётся ограниченным: 46% доверяют «отчасти», 23% — «немного», и только 20% - «сильно». Это объясняется частыми мелкими исправлениями после автогенерации. Влияние на качество кода оценивается сдержанно: 31% видят лёгкое улучшение, 30% — «без изменений». Зато ощутим рост скорости за счёт снижения рутины.

На рынке труда обстановка сложнее: вакансии для новичков сократились на 71% с 2022 года, а кандидаты подают сотни заявок, прежде чем получить работу.
Report

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5945👍21🤔4💘2
🤖 AI Studio — платформа для создания ИИ-агентов без навыков разработки

Yandex B2B Tech обновила AI Studio: теперь на платформе можно собрать своих ИИ-агентов всего за несколько часов

Что умеют:
🟠Голосовые агенты для контакт-центров на базе realtime API с ответами в реальном времени;
🟠AI Search для поиска по изображениям, таблицам и документам, а также по интернету;
🟠Составление мультиагентных сценариев (несколько агентов решают задачу вместе);
🟠Подключение агентов к внешним сервисам по шаблону через MCP Hub (уже можно интегрировать их с системами Контур.Фокус и amoCRM)

📌 Встроены готовые решения: SpeechSense для анализа звонков, Нейроюрист для юридических заключений и другие.

AI Studio уже доступна для всех клиентов Yandex Cloud.

@ai_machinelearning_big_data

#ai #cloud #agents
Please open Telegram to view this post
VIEW IN TELEGRAM
🤣39👍2717🔥6🍓3🗿3💋1
✔️ GitHub запустил публичное превью GPT-5-Codex для Copilot

OpenAI представила новую модель GPT-5-Codex, оптимизированную под программирование и агентные задачи.

Она доступна пользователям GitHub Copilot в публичном превью.

Модель можно выбрать прямо в VS Code в режимах Ask, Edit и Agent, но только начиная с версии Copilot v1.104.1. Доступ распространяется на тарифы Pro, Pro+, Business и Enterprise, при этом в бизнес- и корпоративных планах администратор должен включить поддержку GPT-5-Codex в настройках.

https://github.blog/changelog/2025-09-23-openai-gpt-5-codex-is-rolling-out-in-public-preview-for-github-copilot/

@ai_machinelearning_big_data


#openai #chatgpt
Please open Telegram to view this post
VIEW IN TELEGRAM
👍69🔥14❤‍🔥88💘2
🧠 MIT доказал: LLM могут логически рассуждать, если правильно их учить.

📄 Исследователи предложили метод PDDL-INSTRUCT. Он превращает обучение модели из «угадай ответ» в пошаговое решение задач с внешней проверкой.

Как это устроено:
1️⃣ На первом этапе модели показывают правильные и неправильные планы с объяснениями.
2️⃣ На втором этапе она сама прописывает рассуждения для каждого шага. После этого внешний инструмент (**VAL**) проверяет логику. Если ошибка - модель получает чёткое объяснение, что не так.

📊 Результаты:
- У Llama-3-8B точность выросла с 28% до 94% на задачах планирования.
- Подробная обратная связь работает намного лучше, чем простое «правильно/неправильно».

💡 Главное: модель не заменяет символический планировщик, а учится мыслить как он, сохраняя внешнюю проверку.

Такой подход можно применить к любым многошаговым задачам - от математики до программирования. Возможно, многие «невозможные» способности моделей скрыты внутри и ждут правильного метода обучения.

🟠Статья: https://arxiv.org/abs/2509.13351

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
👍106🔥5742🤔8💘3
🎁 РАЗЫГРЫВАЕМ iPhone Air!

Друзья, запускаем новый конкурс на один из самых неубиваемых (кто бы мог подумать?) и необычных iPhone в этом году!

Условия участия максимально простые:


🔸Подписаться на медиа-канал о нейросетях и машинном обучении «Machine Learning»
🔸Подписаться на канал о технологиях и о будущем «Droider»
🔸Нажать кнопку «Участвовать» под постом

Итоги — 24 октября. Доставка приза осуществляется по РФ, РБ и Казахстану.

Всем удачи!
Please open Telegram to view this post
VIEW IN TELEGRAM
3802🔥322👏114👍100💘26😁25🥱20🤔13🤬9🌭8😭6
⚡️Магнитный транзистор от MIT: электроника будущего

Инженеры MIT создали новый тип транзистора - магнитный транзистор.
Обычные транзисторы работают только за счёт электричества, а здесь добавлен магнитный контроль.

Что это даёт:
- транзистор может быть и переключателем, и памятью одновременно
- работает быстрее и потребляет меньше энергии
- размеры схем можно сделать ещё меньше

Почему это интересно:
- Сейчас в компьютерах логика и память разделены: процессор считает, память хранит.
- Новый подход объединяет эти функции прямо в одном элементе. Это может упростить схемы и ускорить работу устройств.

Вызовы:
- нужно научиться производить такие транзисторы массово
- переключение пока требует магнитного поля, а в будущем его хотят делать электрическим током

Перспективы:
Если технология выстрелит, мы получим мощные и экономичные чипы, что особенно важно для смартфонов, носимой электроники и систем с ограниченными ресурсами.

🟠 Статья: https://news.mit.edu/2025/mit-engineers-develop-magnetic-transistor-more-energy-efficient-electronics-0923

@ai_machinelearning_big_data


#MIT #технологии #электроника #полупроводники
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥129👍4926🥰12🤔7🥱4💘4