Machine learning Interview

✔️

На OpenRouter появилась модель, которую считают прототипом GPT-5.1.

Без официального анонса стала доступна новая ИИ-модель Polaris Alpha с контекстным окном до 256 тыс. токенов. Она описывается как универсальный инструмент для генерации кода и выполнении инструкций. Модель была запущена для сбора обратной связи от пользователей.

В технических сообществах предполагают, что Polaris Alpha может быть тестовой версией GPT-5.1 от OpenAI. Эту гипотезу подкрепляют отзывы первых пользователей, отмечающих крайне низкий уровень галлюцинаций и стиль ответов, характерный для GPT. Сама Polaris Alpha на прямой вопрос о своей связи с GPT-4 отвечает утвердительно.

По результатам бенчмарка EQ-Bench, производительность модели сопоставима с Claude-3.5-Sonnet. Доступ к Polaris Alpha открыт бесплатно через веб-интерфейс и API на OpenRouter.
openrouter.ai

✔️

Microsoft создает команду для разработки гуманистического сверхинтеллекта.

Мустафа Сулейман, CEO Microsoft AI, анонсировал новую стратегию, основанную на концепции «гуманистического сверхинтеллекта» (HSI). Для работы над этим направлением создается специальное подразделение - MAI Superintelligence Team.

В отличие от идеи AGI, подход Microsoft предполагает создание узкоспециализированных и контролируемых систем для решения конкретных проблем человечества. Стратегия отказывается от гонки за ASI в пользу разработки практических технологий.

Цели HSI — добиться прорывов в медицине, поиск чистой энергии и создание персонализированных ИИ-ассистентов, избегая рисков создания автономных и неконтролируемых систем. По словам Сулеймана, это должно гарантировать, что самые топовые версии ИИ будут создаваться строго в интересах людей.
microsoft.ai

✔️

Google выпустила Magika 1.0: ИИ-систему для определения типов файлов.

Google представила первый стабильный релиз опенсорсной утилиты Magika с полностью переписанным с нуля на Rust движком. Новая версия способна сканировать сотни файлов в секунду на одном ядре процессора, используя ONNX Runtime для инференса и Tokio для асинхронной обработки.

Количество поддерживаемых типов файлов было удвоено и теперь превышает 200. Добавилась поддержка актуальных форматов для Data Science и ML (Jupyter, PyTorch, ONNX), современных языков программирования (Swift, Kotlin, TypeScript, Zig) и DevOps-инструментов (Dockerfile, TOML, HCL). Разработчикам доступны обновленные модули для Python и TypeScript, а также новый нативный клиент командной строки.
opensource.googleblog.com

✔️

Foxconn внедрит человекоподобных роботов на производстве ИИ-серверов.

Крупнейший в мире контрактный производитель электроники в течение 6 месяцев начнет использовать человекоподобных роботов на своем заводе в Техасе. Роботы будут задействованы в сборке серверов для ИИ-систем. По словам CEO Янг Лю, это первый подобный опыт за более чем 50-летнюю историю Foxconn.

Этот шаг является частью стратегии по агрессивному расширению производства в Северной Америке. Компания, являясь ключевым поставщиком Nvidia, считает Северную Америку своим главным хабом по выпуску ИИ-серверов на ближайшие 3 года. Решение о роботизации принято для повышения эффективности производства, которое, по словам Лю, критически важно в сфере ИИ.
asia.nikkei.com

✔️

Сооснователь и руководитель PyTorch Сумит Чинтала покидает компанию Марка Цукерберга.

Сумит Чинтала, один из создателей и ключевых руководителей проекта PyTorch, объявил о своем уходе. Его последний рабочий день в компании - 17 ноября. Чинтала, проработавший у Цукерберга 11 лет, возглавлял PyTorch с момента его создания. За это время фреймворк стал индустриальным стандартом, заняв, по оценкам, более 90% рынка ИИ-разработки.

Свой уход он объяснил желанием после долгого отпуска заняться чем-то новым. По его словам, PyTorch достиг зрелости и стабильности, а сильная команда готова продолжать его развитие. Сам Чинтала планирует остаться активным участником open-source сообщества.
Soumith Chintala в сети X

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥12❤5👍3

3.19K views05:52

Machine learning Interview

📘 CocoIndex: Knowledge Graph for Documents

Отличный пример того, как можно создавать граф знаний в реальном времени на основе документов с помощью CocoIndex.

🔍 Основные идеи:
- Используется LLM для извлечения связей между сущностями и построения графа знаний.
- Поддерживается экспорт узлов и отношений в графовые базы данных, такие как Neo4j или Kuzu.
- Пример пайплайна на Python: добавление источников, извлечение сущностей, формирование связей и экспорт.
- После построения можно выполнять графовые запросы вроде MATCH p=()-->() RETURN p.

📎 Подробнее:
https://cocoindex.io/docs/examples/knowledge-graph-for-docs

#AI #KnowledgeGraph #RAG #CocoIndex

❤3👍2🔥2

3.8K views19:02

Machine learning Interview

Forwarded from Machinelearning

⚡️

ChatGPT-5.1

OpenAI выпустила GPT-5.1, сделав основной упор на интеллект и качество диалога.

🟢GPT-5.1 Instant - модель с функцией адаптивного мышления. Она способна самостоятельно «задумываться» над сложными задачами, что позволило выбивать более высокие баллы по математическим задачам AIME 2025 и задачам по программированию Codeforces. Модель стала лучше следовать инструкциям и получила более «теплый» стиль общения по умолчанию.

🟢GPT-5.1 Thinking тоже была улучшена: она быстрее справляется с простыми запросами и выдает более четкие ответы с меньшим количеством жаргона.

Вместе с моделями OpenAI расширила возможности кастомизации тона ответов, добавив новые стили: «Профессиональный», «Откровенный» и «Необычный».

Обновление уже раскатывают на платных подписчиков, а доступ через API появится в ближайшие дни. Предыдущие версии GPT-5 останутся доступны в течение трех месяцев.

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6👍3🗿2🔥1

2.89K views06:00

Machine learning Interview

Google запустил 5-дневный курс по AI-агентам на Kaggle. Их прошлый курс прошли более 420 000 человек.

В новом курсе будут темы:

Агенты и их архитектуры
Интеграция инструментов и MCP
Контекстная инженерия
Оценка качества агентов
От прототипа к продакшну

📅 Даты: 10–14 ноября
🔗 Регистрация: hkaggle.com/learn-guide/5-day-genai

#AI #Agents #Google #Kaggle #Learning

❤13👍9😁4

4.15K views10:01

Machine learning Interview

Forwarded from Machinelearning

🌟

LLM Council: на ваши запросы отвечает совет из языковых моделей.

Андрей Карпаты опять выходит на связь опубликовал очередной vibecode проект.

Его идея в том, что вместо того, чтобы задавать вопрос одной LLM, вы можете объединить их в «Совет моделей».

LLM Council - это простое локальное веб-приложение, с интерфейсом как у ChatGPT, но с той разницей, что запрос отправляется через Openrouter нескольким LLM. Полученные ответы перекрестно оцениваются и ранжируются, и, наконец, «модель-председатель совета» формирует окончательный ответ.

Более подробно процесс выглядит так:

🟢

Этап 1: Сбор мнений.
Запрос отправляется всем моделям по отдельности, и их ответы собираются. Ответы каждой модели отображаются в отдельной вкладке, чтобы можно было их посмотреть вручную.

🟢

Этап 2: Рецензирование.
Каждая модель получает ответы других моделей. При этом идентификаторы анонимизированы, чтобы исключить «игру в любимчиков» при оценке чужих результатов. На этом этапе ответы ранжируются их по точности и глубине анализа.

🟢Этап 3: Итоговый ответ.
Модель-председатель принимает все ответы моделей и компилирует их в единый окончательный ответ.

⚠️ Для использования нужен API-ключ OpenRouter. На платформе есть бесплатные модели

🖥

Github

@ai_machinelearning_big_data

#AI #ML #LLMCouncil #Github

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥16❤3👍3🙈2🫡1

2.81K views06:01

Machine learning Interview

1:25

Media is too big

VIEW IN TELEGRAM

⚡️ Hunyuan 3D Engine

Новый высокоточный ИИ-движок сокращает производство коммерческих 3D-ассетов с недель до нескольких минут.

Платформа поддерживает создание объектов из текста, изображений с мультивидовой реконструкцией и даже из простых скетчей. Это делает процесс максимально гибким и доступным как художникам, так и командам в индустрии.

Качество отвечает профессиональному уровню. Новый 3D-DiT модельный стек обеспечивает трёхкратный прирост точности и выдаёт ультра-HD разрешение. Форматы OBJ и GLB легко подключаются к Unreal Engine, Unity и Blender.

Модель также доступна через Tencent Cloud International.

Платформа даёт новым авторам 20 бесплатных генераций в день. Корпоративные клиенты получают 200 бесплатных кредитов при регистрации.

Попробовать движок можно на 3d.hunyuanglobal.com
API: tencentcloud.com/products/ai3d

#AI #3D #Hunyuan3D #Tencent #AItools #3Dgeneration

👍6❤3🔥3😁1

3.56K views10:01

Machine learning Interview

🚀 AWS представила новое поколение AI-инструментов: Amazon Nova 2 и Agentic-AI

✔️ Nova 2 - семейство мощных моделей для текста, изображений, видео и мультимодальных задач
✔️ Nova Act - AI-агенты, которые могут работать в браузере: кликать, заполнять формы, навигироваться по UI
✔️ Nova Forge — сервис для создания собственных моделей на базе Nova: пред-тренировка, дообучение, кастомизация

Почему это важно
- Универсальность: от чат-ботов до анализа видео и документов
- Автоматизация: агенты заменяют рутинные действия и ручные процессы
- Кастомизация: компании могут строить модели под свои данные
- Оптимальная цена-производительность: конкурент на рынке крупных моделей

#AI #AWS #AmazonNova #GenerativeAI #AgenticAI #Automation

https://www.aboutamazon.com/news/aws/aws-agentic-ai-amazon-bedrock-nova-models

❤6👍3

3.54K views10:04

Machine learning Interview

Forwarded from Machinelearning

🖥

NVIDIA представила новое открытое семейство моделей Nemotron 3

✔️ Nemotron 3 Nano - это универсальная модель для рассуждений и чата, ориентированная на локальный запуск.

Ключевые характеристики:
- MoE-архитектура: 30B параметров всего, ~3.5B активных
- Контекст до 1 миллиона токенов
- Гибридная архитектура:
- 23 слоя Mamba-2 + MoE
- 6 attention-слоёв
- Баланс между скоростью и качеством рассуждений

Требования:
- необходимо около 24 ГБ видеопамяти для локального запуска

Модель хорошо подходит для длинных диалогов, анализа документов и reasoning-задач

Интересный пример того, как MoE и Mamba начинают реально снижать требования к железу, сохраняя масштаб контекста и качество.

✔️ Nemotron 3 Super и Nemotron 3 Ultra значительно превосходят Nano по масштабу - примерно в 4 раза и 16 раз соответственно. Но ключевой момент здесь не просто в размере моделей, а в том, как NVIDIA удалось увеличить мощность без пропорционального роста стоимости инференса.

Для обучения Super и Ultra используется NVFP4 и новая архитектура Latent Mixture of Experts. Она позволяет задействовать в четыре раза больше экспертов при той же стоимости инференса. По сути, модель становится «умнее» за счёт более гибкого выбора экспертов, а не за счёт постоянной активации всех параметров.

Дополнительно применяется Multi-Token Prediction, что ускоряет обучение и улучшает качество рассуждений на длинных последовательностях. Это особенно важно для agentic и multi-agent сценариев, где модели работают с длинным контекстом и сложными цепочками решений.

NVIDIA публикует не только веса, но и данные для предобучения и постобучения, а также технические детали, которые объясняют, почему эти модели одновременно быстрые и сильные.

Такой уровень открытости - редкость для моделей этого масштаба и хороший сигнал для индустрии.

🟡

Release: https://developer.nvidia.com/blog/inside-nvidia-nemotron-3-techniques-tools-and-data-that-make-it-efficient-and-accurate/

🟡

Guide: https://docs.unsloth.ai/models/nemotron-3

🟡

GGUF: https://huggingface.co/unsloth/Nemotron-3-Nano-30B-A3B-GGUF

🟡

lmstudio: https://lmstudio.ai/models/nemotron-3

@ai_machinelearning_big_data

#AI #LLM #NVIDIA #Nemotron3 #OpenSource #MachineLearning

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥9❤6👍5

2.71K views16:07

Machine learning Interview

🎉 MiMo-V2-Flash - бесплатный API доступен на ModelScope

Первый крупный релиз Xiaomi после прихода Fuli Luo — и сразу ставка на реальные agentic-сценарии, а не «лабораторные» демо.

⚡ MiMo-V2-Flash - открытая высокопроизводительная MoE-модель:
- 309B параметров всего / 15B активных
- Контекст 256K токенов
- 150+ токенов в секунду благодаря нативному Multi-Token Prediction

🔥 Ключевые преимущества для разработчиков:
- Гибридное внимание (5:1 SWA + Global)
→ в 6 раз меньше KV-кэша без потери длинного контекста
- 73.4% на SWE-Bench Verified — новый SOTA среди open-source моделей
- Качество рассуждений на уровне DeepSeek-V3.2, но заметно выше скорость в реальных задачах

✨ API-ready
Отлично подходит для:
- агентных систем
- длинных reasoning-пайплайнов
- быстрых и отзывчивых AI-ассистентов

Модель доступна на ModelScope:
https://modelscope.cn/models/XiaomiMiMo/MiMo-V2-Flash

#AI #LLM #MoE #OpenSource #AgenticAI #Xiaomi #ModelScope

❤12👍5🥰2🤣2

3.51K views10:04

Machine learning Interview

6:28

Media is too big

VIEW IN TELEGRAM

🚨 DeepSeek уже в первый день года выкатывает сильное обновление: важное улучшение архитектуры трансформеров.

Китайцы предложили способ сделать shortcut-путь ( это когда выход слоя прибавляется к его же входу, то есть сеть не «заменяет» информацию, а добавляет к ней улучшенную версию) в трансформерах гибче, но при этом сохранить стабильность даже у очень больших моделей.

В обычном трансформере каждый блок что-то считает, а потом просто добавляет результат к исходному сигналу.

Это помогает информации проходить через много слоёв, не теряясь.

Hyper-Connections меняют shortcut-путь.
Был один поток, а стало несколько.

Перед блоком модель выбирает, какие потоки подать на вычисления.

Во время блока часть сигнала идёт «в обход»,
чтобы ничего не потерять.

После блока всё снова аккуратно объединяется.

То есть shortcut превращается из простого «input + output» в умный маршрутизатор сигналов.

Проблема в том, что без ограничений такие смешивания могут усиливать сигнал слишком сильно или, наоборот, гасить его и большие модели начинают вести себя нестабильно.

mHC решает это так:
потоки остаются, но каждое смешивание работает как аккуратное усреднение.

Сигнал не может «взорваться» или исчезнуть - он остаётся под контролем.

Что это даёт на практике:

- модели остаются стабильными даже на масштабе 27B, дают лучшее качество и не страдают от скачков лосса.

Там, где обычные Hyper-Connections раздували сигнал до 3000×, mHC держат его примерно на уровне 1.6×.

Если коротко: был один shortcut,. сделали несколько, но заставили их смешиваться безопасно.

И трансформеры стали гибче и стабильнее.

Статья: https://arxiv.org/abs/2512.24880

Видео: https://www.youtube.com/watch?v=gT-0Qryi5KA

#AI #DeepSeek #MachineLearning #NeuralNetworks #Research

❤29🔥8👍4🤔2

5.23K views15:31

About

Blog

Apps

Platform