378K subscribers
4.37K photos
831 videos
17 files
4.85K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
✔️ GitHub запустил публичное превью GPT-5-Codex для Copilot

OpenAI представила новую модель GPT-5-Codex, оптимизированную под программирование и агентные задачи.

Она доступна пользователям GitHub Copilot в публичном превью.

Модель можно выбрать прямо в VS Code в режимах Ask, Edit и Agent, но только начиная с версии Copilot v1.104.1. Доступ распространяется на тарифы Pro, Pro+, Business и Enterprise, при этом в бизнес- и корпоративных планах администратор должен включить поддержку GPT-5-Codex в настройках.

https://github.blog/changelog/2025-09-23-openai-gpt-5-codex-is-rolling-out-in-public-preview-for-github-copilot/

@ai_machinelearning_big_data


#openai #chatgpt
Please open Telegram to view this post
VIEW IN TELEGRAM
👍69🔥14❤‍🔥88💘2
🧠 MIT доказал: LLM могут логически рассуждать, если правильно их учить.

📄 Исследователи предложили метод PDDL-INSTRUCT. Он превращает обучение модели из «угадай ответ» в пошаговое решение задач с внешней проверкой.

Как это устроено:
1️⃣ На первом этапе модели показывают правильные и неправильные планы с объяснениями.
2️⃣ На втором этапе она сама прописывает рассуждения для каждого шага. После этого внешний инструмент (**VAL**) проверяет логику. Если ошибка - модель получает чёткое объяснение, что не так.

📊 Результаты:
- У Llama-3-8B точность выросла с 28% до 94% на задачах планирования.
- Подробная обратная связь работает намного лучше, чем простое «правильно/неправильно».

💡 Главное: модель не заменяет символический планировщик, а учится мыслить как он, сохраняя внешнюю проверку.

Такой подход можно применить к любым многошаговым задачам - от математики до программирования. Возможно, многие «невозможные» способности моделей скрыты внутри и ждут правильного метода обучения.

🟠Статья: https://arxiv.org/abs/2509.13351

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
👍106🔥5742🤔8💘3
🎁 РАЗЫГРЫВАЕМ iPhone Air!

Друзья, запускаем новый конкурс на один из самых неубиваемых (кто бы мог подумать?) и необычных iPhone в этом году!

Условия участия максимально простые:


🔸Подписаться на медиа-канал о нейросетях и машинном обучении «Machine Learning»
🔸Подписаться на канал о технологиях и о будущем «Droider»
🔸Нажать кнопку «Участвовать» под постом

Итоги — 24 октября. Доставка приза осуществляется по РФ, РБ и Казахстану.

Всем удачи!
Please open Telegram to view this post
VIEW IN TELEGRAM
3802🔥322👏114👍100💘26😁25🥱20🤔13🤬9🌭8😭6
⚡️Магнитный транзистор от MIT: электроника будущего

Инженеры MIT создали новый тип транзистора - магнитный транзистор.
Обычные транзисторы работают только за счёт электричества, а здесь добавлен магнитный контроль.

Что это даёт:
- транзистор может быть и переключателем, и памятью одновременно
- работает быстрее и потребляет меньше энергии
- размеры схем можно сделать ещё меньше

Почему это интересно:
- Сейчас в компьютерах логика и память разделены: процессор считает, память хранит.
- Новый подход объединяет эти функции прямо в одном элементе. Это может упростить схемы и ускорить работу устройств.

Вызовы:
- нужно научиться производить такие транзисторы массово
- переключение пока требует магнитного поля, а в будущем его хотят делать электрическим током

Перспективы:
Если технология выстрелит, мы получим мощные и экономичные чипы, что особенно важно для смартфонов, носимой электроники и систем с ограниченными ресурсами.

🟠 Статья: https://news.mit.edu/2025/mit-engineers-develop-magnetic-transistor-more-energy-efficient-electronics-0923

@ai_machinelearning_big_data


#MIT #технологии #электроника #полупроводники
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥129👍4926🥰12🤔7🥱4💘4
Media is too big
VIEW IN TELEGRAM
✔️ Новый агент от OpenAI может оказаться на базе GPT-5.

По данным TestingCatalog, в закрытом тестировании замечена модель под названием Alpha Agent, которая, предположительно, является улучшенной версией ChatGPT Agent.
Первые результаты тестов показывают значительно более высокую эффективность и возможности по сравнению с текущим поколением.

Если эти слухи подтвердятся, то 2025 год действительно может стать «годом агентов». Всё больше признаков указывает, что во второй половине года мы увидим по-настоящему полезные автономные системы, и предсказание Сэма Альтмана может оказаться верным.
X

✔️ Microsoft расширяет возможности 365 Copilot, добавив поддержку моделей Claude от Anthropic.

Теперь пользователи могут использовать как OpenAI, так и Claude — сначала в инструментах Researcher и Copilot Studio, а позже и в других продуктах.

Компания подчёркивает, что её стратегия «multi-model» выходит за рамки простого выбора: цель — объединить лучшие ИИ-модели индустрии, настроенные под рабочие процессы и потребности бизнеса.
Microsoft

✔️Германия объявила о крупной инициативе: SAP и OpenAI запускают проект “OpenAI for Germany”.

В отличие от обычных PR-заявлений, это поддержанный Microsoft проект с размещением на суверенной облачной инфраструктуре Германии. Это значит, что миллионы сотрудников государственного сектора будут пользоваться ИИ, созданным в Германии и для Германии, с учётом строгих требований к суверенитету данных, юридической прозрачности и национальным ценностям.

SAP выделяет 631 млрд евро инвестиций и дополнительно 20 млрд на цифровой суверенитет. Цель Берлина - к 2030 году увеличить вклад ИИ в экономику страны до 10% ВВП.

Долгое время Германию обвиняли в том, что она отстаёт в технологиях. Сегодня ситуация меняется: с суверенным ИИ, колоссальными вложениями и партнёрством SAP + OpenAI страна заявляет о возвращении в мировую технологическую гонку.

✔️Google выпустила руководство о том, как создавать и использовать AI-агентов.

Внутри: 10 способов применения AI-агентов, пошаговая инструкция по в Google Agentspace, более 100 полезных готовых промптов.
Гайд

✔️ NVIDIA представила способ создания RAG-агента на базе модели Nemotron, который может сам решать, когда искать информацию, а когда — генерировать ответ напрямую.

Новый подход, основанный на архитектуре ReAct (Reason + Act), интегрирует модели NeMo Retriever Embedding и Reranking, а также фреймворк LangGraph. Агент запускается в Jupyter и разворачивается через DevX Workshop.

Инструмент предлагает более гибкие интеллектуальные агенты, которые обращаются к базе знаний только по необходимости и способны решать комплексные задачи, комбинируя инструменты и принятие решений.
nvidia

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
81👍39🔥9🥰5😴4😁2👌1💘1
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Sakana AI представили: ShinkaEvolve — новый open-source фреймворк для научных открытий, который использует LLM и работает на порядки эффективнее традиционных эволюционных систем.

Обычные эволюционные алгоритмы похожи на brute-force: им нужны тысячи выборок, чтобы найти хорошее решение.

ShinkaEvolve, вдохновлённый принципами природы (*shinka* — «эволюция» по-японски), решает задачи всего за сотни попыток.

Пример: в классической задаче упаковки кругов (разместить несколько кругов так, чтобы они не перекрывались и при этом занимали как можно меньше места или максимально эффективно заполняли заданную область) ShinkaEvolve нашёл новое SOTA-решение, использовав 150 выборок, тогда как прошлым методам требовались тысячи.

📌 Применения ShinkaEvolve:

1️⃣ AIME Math Reasoning - система создала новые агентные шаблоны (scaffolds), которые оказались сильнее существующих методов.
2️⃣ Соревновательное программирование (ALE-Bench) - улучшила готовые решения и подняла результат с 5-го до 2-го места в рейтинге.
3️⃣ Обучение LLM - открыла новую функцию потерь для MoE-моделей, что помогло экспертам лучше специализироваться и снизило perplexity моделей.

⚙️ Основные инновации, которые дают такой прирост эффективности:
- умный отбор родителей, балансирующий исследование новых идей и улучшение старых;
- фильтрация по новизне, чтобы не тратить ресурсы на повторные варианты;
- ансамбль из нескольких LLM, где bandit-алгоритм в реальном времени выбирает наиболее подходящую модель для задачи.

ShinkaEvolve открыт для сообщества и задуман как универсальный помощник для учёных и инженеров. Цель команды — сделать поиск новых решений быстрее и доступнее.

🔗 Блог: https://sakana.ai/shinka-evolve/
🔗 Код: https://github.com/SakanaAI/ShinkaEvolve
📄 Репорт: https://arxiv.org/abs/2509.19349

@ai_machinelearning_big_data

#AI #LLM #EvolutionaryAI #ShinkaEvolve #OpenSource
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8966👍23💘2👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🤖 Kimi представила новый агентный режим OK Computer

Что он может:
Генерирует сайты, дашборды приложения и презентации
Работает с файлами, браузером и терминалом
Большой встроенный набор инструментов

K2 получил полезный агентский функционал.

🟢Попробовать: https://kimi.com

@ai_machinelearning_big_data


#AI #Agents #Kimi #K2 #OKComputer
Please open Telegram to view this post
VIEW IN TELEGRAM
81👍26🔥17👏3
Media is too big
VIEW IN TELEGRAM
✔️ Liquid Nanos - новая линейка ультракомпактных моделей, которые дают производительность уровня GPT-4o на эйдж девайсах.

Модели (от 350M до 2.6B параметров) с архитектурой LFM2 v2, которые выдают производительность уровня GPT-4o при минимальной задержке и конкурируют с моделями, которые в сотни раз больше.
Hf

✔️ ChatGPT Pulse - новый проактивный ассистент от OpenAI.

Он сам формирует повестку дня: напоминает о событиях, подбирает полезные материалы и советы на основе ваших интересов. При подключении Gmail и Google Calendar готовит агенду встреч, напоминает о днях рождения и даже предлагает подарки.

Сейчас доступен только Pro-пользователям в мобильном приложении, позже появится и у Plus.
X

✔️ Euclyd Craftwerk — европейский ответ Nvidia в AI

Стартап Euclyd представил систему Craftwerk, которая обещает кардинально снизить стоимость и энергопотребление инференса. Архитектура впечатляет: 16 384 процессора, до 32 PFLOPS мощности и собственная память UBM с 1 ТБ DRAM и пропускной способностью 8000 ТБ/с.

Один блок Craftwerk способен выдавать 20 000 токенов/сек (против ~1000 у Nvidia), а полный рэк - до 7,68 млн токенов/сек для моделей уровня Llama-4. Главная цель - сделать мощный AI-инференс доступным всем, а не только технологическим гигантам.
eetimes

✔️ Google DeepMind обновила модели Gemini 2.5 Flash и Flash-Lite (preview).

Они теперь работают быстрее, дают более качественные ответы и стоят дешевле: Flash-Lite на 50% понижен по стоимости токенов, Flash — на 24%. Улучшились мультимодальные возможности и переводы, а также работа с инструментами. На бенчмарке SWE-Bench модель Flash показала прирост производительности на 5%.

Обновления делают Gemini более доступным и полезным для реальных задач, особенно в программировании и мультимодальных сценариях.

✔️ OpenAI представила GDPval - свой новый бенчмарк

OpenAI запустила метрику GDPval, которая оценивает модели не по абстрактным тестам, а по реальным экономически значимым задачам из 44 профессий.

Результаты показали: современные модели могут работать на уровне экспертов, выполняя задачи примерно в 100 раз быстрее и дешевле. Но важно - в честном сравнении лидером оказался Claude Opus 4.1, опередивший решения OpenAI.
Openai

✔️ Tencent представила Hunyuan3D-Part — открытую модель для генерации 3D-объектов на уровне отдельных деталей.

Модель уже обгоняет все существующие открытые и закрытые аналоги.
В состав разработки входят две ключевые новинки: P3-SAM, первая нативная модель сегментации деталей в 3D, и X-Part, генератор, который задаёт новые стандарты управляемости и качества форм.

Модель обучена на датасете из 3,7 миллиона объектов с чистыми аннотациями и полностью исключает использование 2D SAM. В ней реализован автоматический пайплайн сегментации прямо в 3D без участия пользователя, а также диффузионный механизм разбиения объектов на части с учётом геометрии и семантики.
Code

@ai_machinelearning_big_data


#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8637🔥15💘3❤‍🔥2
⚡️Новый датасет Т-ECD — крупнейший кросс-доменный набор для RecSys

Ключевые особенности:
- синтезирован на основе поведения 44 млн пользователей
- более 135 млрд взаимодействий
- включает 30 млн товаров и 1,2 млн брендов
- охватывает домены: Marketplace, Retail, Payments, Offers, Reviews, Reciepts
- подходит для большинства рекомендательных задач
- глубина данных 1– 3,5 года — можно изучать как краткосрочные, так и долгосрочные взаимодействия

T-ECD универсален и применяется от базовой коллаборативной фильтрации до сложных мультизадачных моделей последовательных и графовых рекомендаций. Можно использовать целиком и по отдельным доменам.

🟠HF: https://huggingface.co/datasets/t-tech/T-ECD

@ai_machinelearning_big_data

#AI #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
61👍18🔥12🗿3💘2
13 сентября Илье Сегаловичу, одному из создателей и техническому директору «Яндекса», исполнился бы 61 год.

Для многих он был не только выдающимся инженером, но и человеком, который умел вдохновлять, поддерживать и замечать в других то, чего они сами в себе не видели.

Во многом именно он заложил основы внутренней культуры и ценности компании.

Яндекс опубликовал видео с воспоминаниями друзей и коллег Ильи, которые работали с ним в разные годы. Рекомендую посмотреть каждому!
🫡6440👍13🔥5👏5🥰3🤣3🤷‍♂2🌭1😭1🤓1
This media is not supported in your browser
VIEW IN TELEGRAM
✔️ Tencent представила Hunyuan3D-Omni: первую в индустрии модель для генерации 3D-объектов с мультиконтрольным управлением.

Модель ростроенная на базе open-source Hunyuan3D 2.1 и называемая «ControlNet для 3D», система решает проблемы кривых генераций и искажённой геометрии, интегрируя до четырёх условий контроля.

Две ключевые инновации:
- Лёгкий унифицированный энкодер управления для эффективного мультимодального фьюжна
- Стратегия прогрессивного обучения по сложности, повышающая устойчивость модели

Возможности:
- Управление по одному изображению и наброску позволяет точно задавать позы для анимаций и аватаров
- Использование облака точек (полного или построенного по глубине): убирает визуальную неопределённость и обеспечивает реалистичную геометрию
- Контроль через bounding box: задаёт пропорции объекта (длину, ширину и высоту) в соответствии с дизайном
- Voxel-контроль: формирует топологию объекта, что удобно и для инженерных, и для творческих сценариев

Tencent дропнули код и веса.

🟢Код: https://github.com/Tencent-Hunyuan/Hunyuan3D-Omni
🟢Веса: https://huggingface.co/tencent/Hunyuan3D-Omni
🟢Отчёт: https://arxiv.org/pdf/2509.21245

@ai_machinelearning_big_data


#3DGenAI #TencentHunyuan #OpenSourceAI
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4825👍10🥰3💘2
🦾 Google представил Gemini Robotics-ER 1.5 - новую модель для роботов, которая умеет видеть, рассуждать, планировать и действовать в реальном мире.

Что она может:
- Понимать пространство и объекты вокруг.
- Разбивать задачу на шаги (например: «убери стол» → план действий).
- Подключать внешние инструменты - поиск, модели для анализа изображений и др.
- Балансировать скорость и точность: быстро реагировать или глубже анализировать.
- Работать безопаснее: учитывать вес предметов и физические ограничения.

Мир слишком сложен для роботов: окружение, сцены, объекты постоянно меняются.

Gemini Robotics-ER помогает роботам соединять понимание и действие.

📌 Пример: робот сортирует мусор.
Он узнаёт местные правила, распознаёт предметы, планирует действия и выполняет всё безопасно.

https://developers.googleblog.com/en/building-the-next-generation-of-physical-agents-with-gemini-robotics-er-15/

@ai_machinelearning_big_data


#Google #Gemini #Robotics #AI #PhysicalAgents
🔥6623👍23🤔5💘2
Media is too big
VIEW IN TELEGRAM
✔️ Deutsche Bank: бум ИИ держит экономику США, но он нестабилен

Deutsche Bank предупреждает: нынешний рост инвестиций в ИИ неустойчив.

Расходы на дата-центры и оборудование удерживают США от рецессии, но без них рост ВВП близок к нулю. Goldman оценивает капзатраты в $368 млрд к августу 2025 года.

К 2030 году отрасли потребуется $2 трлн годовой выручки, но прогнозируется дефицит в $800 млрд. Продуктивность от ИИ придёт, но слишком медленно, чтобы оправдать такие масштабы инвестиций.
Fortune

✔️ KAT-Dev-32B и KAT-Coder - новые модели для Кодинга.

KAT-Dev-32B достигает 62,4% на SWE-Bench Verified, входя в топ-5 среди всех open-source моделей.
KAT-Coder идёт ещё дальше - 73,4%, что ставит его в один ряд с ведущими проприетарными решениями.
HF

✔️ InclusionAI выпустила Ring-flash-linear-2.0 — эффективную гибридную модель

InclusionAI анонсировала Ring-flash-linear-2.0, открытое решение с комбинированным вниманием (линейным + стандартным). При активации лишь 6,1 млрд параметров она демонстрирует производительность, сопоставимую с плотной моделью на 40 млрд параметров.

Модель основана на Ling-flash-base-2.0 и дообучена на 1 триллионе токенов. Благодаря использованию MoE и гибридной архитектуре она достигает почти линейной временной сложности и устойчивого потребления памяти - что ускоряет и удешевляет инференс.

Ring-flash-linear-2.0 поддерживает контексты длиной до 128 000 токенов, показывая конкурентные результаты в задачах рассуждения, математики, программирования и генерации текста.
Модель распространяется под лицензией MIT.
HF

✔️ Новый прорыв в Science Magazine: технология для «переписывания» ДНК

В Science Magazine опубликовано исследование, которое описывает новую технологию редактирования ДНК. Она позволяет вносить крупные и точные изменения прямо в нужное место генома человека — то, чего не могли обеспечить существующие методы вроде CRISPR.

CRISPR работает грубо: разрезает ДНК и надеется, что клетка правильно её восстановит. Более точные версии редактируют лишь крошечные участки - десятки или сотню «букв» ДНК. Но большинство болезней связано не с одной мутацией, а с распределёнными изменениями по всему геному.

Учёные нашли решение в бактериальных «прыгающих генах» - так называемых мостовых РНК. Они позволяют безопасно и точно вставлять, удалять или переставлять фрагменты длиной до 1 миллиона пар оснований.

В эксперименте новая технология исправила ДНК-повторы, вызывающие атаксию Фридрейха - редкое неврологическое заболевание. Тот же подход можно применить к болезни Хантингтона и другим тяжёлым наследственным патологиям.

В институте Arc уверены: комбинация их ДНК-модели Evo (для проектирования «здоровых» последовательностей) и метода Bridge recombination (для внедрения изменений) может стать основой будущей «Тьюринговой машины для биологии» — системы, способной переписывать геном с высокой точностью.
Paper

✔️ ByteDance выпустила модель Lynx, которая превращает одну фотографию человека в реалистичный видеоролик.

Лицо сохраняется точным, а движения выглядят плавно и естественно.

Главное новшество - два специальных адаптера. ID-adapter закрепляет лицо во всех кадрах, чтобы оно не «менялось» при генерации, а Ref-adapter переносит детали исходного фото - волосы, глаза, текстуру кожи.

Lynx построена на Diffusion Transformer и обучена на базе из 50,2 млн пар изображений и видео с разными выражениями лица, светом и фоном. Это помогает модели уверенно сохранять идентичность человека даже в сложных условиях.

Моделька выйдет персонализированное видео высокого качества, где совпадают лицо, мимика и мелкие детали внешности.
byteaigc

✔️ Kaggle и Google проведут бесплатный пятидневный интенсив по ИИ-агентам.

С 10 по 14 ноября участников ждут ежедневные лекции, практические задания и финальный проект для портфолио. В программе — основы архитектуры агентов, работа с Tool Use и API, контекст-инженеринг и память, метрики качества и оптимизация, а также создание первой мультиагентной системы по протоколу Agent2Agent. Регистрация открыта, участие доступно всем без отбора.
Rsvp

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11045👍18💘2
🧪 Генеративный ИИ учится строить молекулы шаг за шагом

NVIDIA представила модель ReaSyn, которая предсказывает пути синтеза молекул - от простых реагентов до целевых соединений.

Как это работает:
- Вместо одной готовой формулы ИИ строит цепочку реакций (chain of reaction)
- Каждый шаг можно проверить и скорректировать
- Усиленное обучение и поиск вариантов помогают находить оптимальные пути

Что это даёт:
Химики получают не только новые молекулы, но и инструкции, как их реально синтезировать
Можно искать аналоги веществ, если прямой синтез невозможен
Ускоряется разработка лекарств, материалов и других инновационных соединений

ИИ теперь помогает не просто придумывать молекулы, а ещё и объясняет, как их создать в лаборатории.

https://developer.nvidia.com/blog/reasoning-through-molecular-synthetic-pathways-with-generative-ai/

@ai_machinelearning_big_data
81👍35🤔22🔥14💘4
Media is too big
VIEW IN TELEGRAM
🔥 HunyuanImage 3.0 — свежая open-source модель для генерации изображений по тексту (text-to-image) от Hunyuan.

Размер 80B параметров, из которых 13B активируются на токен во время инференса.

Качество сопоставимо с флагманскими закрытыми моделями индустрии.


Что интересного:
- Основана на собственной мультимодальной LLM Tencent
- Постобучение заточено под text-to-image задачи
- Архитектура MoE + Transfusion объединяет Diffusion и LLM в единую систему

🚀 Возможности:

- Понимает сложные промпты длиной до тысячи слов
- Детализированные изображения с текстом
- Генерирует сложные иллюстрации и комиксы

👉 Попробовать: https://hunyuan.tencent.com/image
🔗 GitHub: https://github.com/Tencent-Hunyuan/HunyuanImage-3.0
🤗 Hugging Face: https://huggingface.co/tencent/HunyuanImage-3.0

@ai_machinelearning_big_data


#AI #GenerativeAI #Adobe #MorganStanley
👍8634🔥30🦄4💘2
🚀 Qwen Chat получил интересные апдейты

Теперь в Qwen Chat можно не только искать данные в интернете, но и сразу визуализировать их графиками благодаря связке *Code Interpreter + Web Search*.

Пример, можно прогноз погоды на 7 дней и получить готовый график прямо в чате.

📈 Если хотите быстро построить диаграмму по найденным данным, то просто напишите это в промоет.

Попробовать можно здесь: https://chat.qwen.ai

@ai_machinelearning_big_data


#qwen #llm
🔥9226🥰8👍3😁2🙈2😢1🍓1
🚀 DeepSeek-V3.2-Exp - вышла новая экспериментальная версия

Главное:
- Основана на V3.1-Terminus
- Новый механизм Sparse Attention (DSA) → быстрее и дешевле работа с длинными контекстами
- Качество почти без потерь, производительность как у V3.1
- API подешевел более чем на 50%

📊 V3.1 пока ещё будет доступна до 15 октября 2025.

💰 Цены:
- Input (cache hit): $0.07 → $0.028 (−60%)
- Input (cache miss): $0.56 → $0.28 (−50%)
- Output: $1.68 → $0.42 (−75%)

🔗 Hugging Face: https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp)
🔗 Tech Report: https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf)
🔗Github: https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf

@ai_machinelearning_big_data


#DeepSeek #AI #V32 #SparseAttention #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
102👍29🔥17👏3🤩2🥱2💘2🤨1