Neural Networks | Нейронные сети
11.6K subscribers
821 photos
189 videos
170 files
9.46K links
Все о машинном обучении

По всем вопросам - @notxxx1

№ 4959169263
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
🎮 Эксперимент с крысами и Doom вышел на новый уровень

Теперь крысы умеют стрелять по врагам в Doom.

Для эксперимента используется изогнутый AMOLED-дисплей, который создаёт для животного погружённую «игровую» среду. Проект разрабатывает open-source команда нейроинженеров.

Это уже не просто демонстрация реакции на стимулы, а полноценное обучение взаимодействию с виртуальным миром — с восприятием, принятием решений и действием.

Грань между нейронаукой, ИИ и игровыми средами становится всё тоньше.
Please open Telegram to view this post
VIEW IN TELEGRAM
🤖 Nanbeige4-3B от Boss Zhipin - LLM с 3 млрд параметров, которая превосходит Qwen3-32B в математике (AIME), науке (GPQA) и tool calling (BFCL-V4), а на бенчмарках с человеческими предпочтениями (Arena-Hard-V2) сопоставима с Qwen3-30B-A3B.

Как это удалось?

- 23 трлн токенов ультра-курированных данных
- более 30 млн высококачественных SFT-инструкций
- многостадийный RL + инновационная дистилляция (DPD)
- реконструкция chain-of-thought и deliberative generation

Модель также входит в топ-15 на WritingBench и EQ-Bench3, обгоняя модели в 100 раз больше по размеру — включая GLM-4.5 и Deepseek-R1.

🔗 Weights: https://modelscope.cn/organization/nanbeige
📄 Paper: https://arxiv.org/pdf/2512.06266
This media is not supported in your browser
VIEW IN TELEGRAM
✔️ Интересная утечка - Google работает над TorchTPU, секретным проектом, который позволит PyTorch работать нативно на TPU от Google, обходя легендарную привязку NVIDIA к CUDA.
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Дарио Амодеи как-то сказал, что суперинтеллект будет выглядеть как город дата-центров.

Новый дата-центр Amazon подходит к этому описанию пугающе близко.
Forwarded from Machinelearning
⚡️ Nvidia забирает команду основателей Groq и лицензирует архитектуру LPU

Производитель чипов Groq объявил о сделке с Nvidia, которая больше напоминает «покупку кадров», чем обычное партнерство.

Стороны опровергли слухи о полном поглощении стартапа за $20 млрд: вместо этого подписан договор о неэксклюзивном лицензировании технологий инференса.

Ключевой момент сделки — трансфер мозгов.

Основатель и CEO Groq Джонатан Росс, президент Санни Мадра и ведущие инженеры переходят на работу в Nvidia. Им предстоит интегрировать свои наработки в экосистему «зеленой команды».

Groq при этом продолжит существовать как независимая компания под руководством бывшего финдиректора Саймона Эдвардса, а платформа GroqCloud будет работать в штатном режиме.


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
В Шэньчжэне появился полноценный “дрон-аэропорт” для доставки еды 🚁🍜

Компания Meituan (китайский аналог DoorDash) запустила в Шэньчжэне полноценный аэропорт для дронов отсюда начинаются все рейсы доставки.

Дроны поднимаются в воздух, летят по маршруту и
доставляют еду жителям напрямую с неба, быстро и без пробок.

- доставка занимает меньше времени, чем курьер на дороге
- меньше трафика и выбросов
- можно покрывать районы, куда сложно доехать

Китай фактически превращает дроны
из эксперимента в обычную городскую инфраструктуру.

Будущее логистики всё ближе и оно летает. 🚁
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Илон Маск: стоит ли детям идти в университет в эпоху ИИ

> Если вы хотите поступить по социальным причинам - быть среди ровесников в учебной среде - это вполне разумно.
> Но будут ли эти навыки нужны в будущем? Скорее всего, нет.
> Мы движемся к обществу без работы. ИИ и робототехника -нас ждет самое радикальное изменение в истории.
> Если что-то действительно то что вам интересно. Изучайте широкий спектр курсов. Но идти в колледж не обязательно.

Маск говорит, что даже его собственные сыновья понимают: их навыки могут стать ненужными, но они всё равно хотят пройти через сам опыт обучения и студенческой жизни.
🔥 AI-исследователи сегодня стоят слишком дорого.

По данным СМИ, OpenAI осенью 2025 года зарезервировала пул акций на 50 млрд долларов для будущих опционов и RSU.
Это примерно 10% компании при оценке около 500 млрд долларов.

Уже выдано акций примерно на 80 млрд.
Вместе с новым пулом это около 26% всей компании.

Вывод простой: рынок ИИ полностью перестраивает компенсации и фонды под сотрудников. Компании борются не за сервера, а за людей, которые умеют тренировать модели мирового уровня.

Подробнее: reuters.com/technology/openai-reserves-50-billion-stock-grant-pool-information-reports-2026-01-08/
Forwarded from Machinelearning
⚡️ DeepSeek Engram: условная память LLM через поиск.

DeepSeek опять шатают устои архитектуры трансформеров свежайшим пейпером, который доказывает, что новое — это хорошо и очень хитро забытое старое.

Пока все пытаются запихнуть в LLM как можно больше слоев и параметров, DeepSeek задались вопросом: зачем тратить дорогой компьют на запоминание фактов, если их можно просто подсмотреть? Знакомьтесь:

🟡Engram — модуль, который возвращает нас к дедам с N-грамами.

DeepSeek предлагает разделить "думалку" (MoE-слои) и "хранилище знаний" (Engram):

🟢Hashed N-grams: модуль смотрит на входящий текст и нарезает его на N-грамы (последовательности токенов).

🟢O(1) Lookup: система делает мгновенный запрос в гигантскую хэш-таблицу эмбеддингов - это чисто статический поиск.

🟢Context-Aware Gating: самый сок. Модель не просто слепо берет данные из "хранилища знаний" - специальный гейтинг-механизм решает: "Нам сейчас нужен факт из памяти или будем думать сами?". Если найденный N-грам релевантен контексту, он подмешивается в скрытое состояние.

🟢Tokenizer Compression: чтобы хранилище знаний не лопнуло от мусора, похожие токены в нем схлопывают в один ID, например, "Apple" и "apple".

🟡Баланс распределения ресурсов.

Чтобы правильно поделить бюджет параметров между MoE и Engram посчитали сценарии масштабирования. График лосса от соотношения этих частей выглядит как буква U:

🟠Перекос в MoE (100% вычислений): модель тратит дорогие слои внимания на запоминание статики. Это неэффективно, лосс высокий.

🟠Перекос в Память (0% вычислений): модель превращается в гигантскую википедию. Она помнит факты, но у нее напрочь атрофируется ризонинг. Лосс тоже высокий.

🟢Золотая середина (дно U-кривой): 80% MoE и ~20% Engram.

🟡Тесты и результаты.

DeepSeek обучили модель Engram-27B и сравнили ее с классической MoE-27B при одинаковом бюджете параметров и FLOPs. Итоги:

Общее качество подросло: MMLU +3.4 пункта, HumanEval (код) +3.0.

На длинном контексте - разнос. В тесте на поиск иголки (NIAH) точность выросла с 84.2 до 97.0. Модель разгрузила слои внимания от запоминания локальных паттернов, и оно сфокусировалось на глобальном контексте.

Модель быстрее сходится. Engram берет на себя рутину в ранних слоях, тем самым позволяя модели сразу учиться сложным вещам.


🟡Архитектурный нюанс.

Таблица эмбеддингов для Engram может быть запредельно огромной (в пейпере разгоняли до 100B параметров) и, очевидно, в VRAM это не влезает.

Решили так: раз ID токенов известен до прогона слоя, то эти данные можно хранить в RAM и асинхронно подтягивать. В реале, оверхед от этой механики показал меньше 3%., т.е. мы получаем модель, которая знает больше, чем влезает в GPU, используя оперативку сервера.

🟡DeepSeek фактически легализовала подобие шпаргалок для LLM.

Вместо того чтобы заставлять модель учить все наизусть, ей дают гигантский справочник. Теоретически, это открывает путь к прекрасному ИИ светлого будущего, который может иметь условно-бесконечную память, ограниченную только объемом оперативки, а не VRAM.

Похоже, в V4 мы увидим как эта схема работает, ведь инсайдеры обещают у нее запредельные скилы.


🟡Техотчет
🖥Github


@ai_machinelearning_big_data

#AI #ML #LLM #Engram #Deepseek
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
✔️ Скандал с суверенным ИИ в Южной Корее.

Госпроект Сеула стоимостью $6,9 млрд, призванный избавить страну от технологической зависимости от США и КНР, оказался в центре скандала: ключевые участники использовали опен-сорс решения китайских конкурентов.

Проверка показала, что 3 из 5 финалистов конкурса, компании Naver Cloud, SK Telecom и стартап Upstage заимствовали компоненты у Alibaba, DeepSeek и Zhipu AI. В частности, выяснилось, что визуальный энкодер флагманской модели Naver HyperCLOVA X на 99,5% совпадает с архитектурой Qwen 2.5.

Разработчики оправдываются инженерной целесообразностью, утверждая, что заимствовали лишь вспомогательные модули и код инференса. Однако, использование компонентов с китайскими копирайтами в проекте, который финансируется государством, вызвало жесткую критику общественности и поставило под угрозу квалификацию участников.

https://www.wsj.com/tech/ai/the-row-over-south-koreas-push-for-a-native-ai-model-chinese-code-4c047a6f

@neural
🚀 3 миллиона рублей за научный прорыв в ИИ

ВТБ и Институт ИИ МГУ открыли приём заявок на конкурс научных статей Data Fusion Awards 2026.

Цель — определить научный прорыв года в ИИ. К участию принимаются статьи, опубликованные в 2025 году, по направлениям:
— математические методы и алгоритмы оптимизации;
— машинное и глубокое обучение;
— нейроморфные вычисления;
— робототехника;
— объяснимый ИИ и смежные области.

Призовой фонд — 3 млн рублей (по 1 млн на трёх победителей).
Подать заявку можно до конца января.
🚨 Andrea Vallone, которая руководила ключевым safety-направлением в OpenAI, ушла в Anthropic.

Её зона ответственности была одной из самых “тонких” в области безопасности ИИ: она определяла, как модель должна отвечать, когда у пользователя появляется эмоциональная зависимость от ИИ или заметны первые признаки психологического дистресса.

За 3 года в OpenAI Vallone также создала и выстроила команду model policy - это исследования и правила поведения моделей: где границы допустимого, как предотвращать вред и как правильно реагировать в рискованных ситуациях.

Теперь этот опыт уходит к Anthropic - компании, которая делает ставку на alignment и безопасность как на основу продукта.

theverge.com/ai-artificial-intelligence/862402/openai-safety-lead-model-policy-departs-for-anthropic-alignment-andrea-vallone