🚀 Как обучать LLM с Unsloth + Docker
Unsloth — это open-source фреймворк, который упрощает и ускоряет fine-tuning и RL для больших языковых моделей.
🧰 Основные шаги
1. Использование Docker-образа Unsloth
Вместо ручной установки всех зависимостей можно запустить подготовленный контейнер
2. Запуск внутри контейнера
Внутри контейнера вы загружаете модель (например, LLaMA, Phi, Mistral и др.) и применяете Unsloth для обучения или дообучения (fine-tuning).
3. Конфигурация fine-tuning
Используются подходы вроде LoRA / QLoRA, gradient checkpointing, quantization и др., которые минимизируют потребление памяти и ускоряют обучение.
4. Запуск обучения и оптимизация
После настройки данных, модели и конфигурации запускается процесс обучения, при этом Unsloth оптимизирует внутренние операции, используя свои ядра и ускорение.
✅ Почему стоит попробовать
- Упрощённый workflow: Docker избавляет от проблем с зависимостями
- Эффективность: меньше затрат по памяти и времени благодаря оптимизациям
- Совместимость: работает с популярными моделями, quantization, адаптирует существующие пайплайны
#LLM #Docker #AI #Unsloth
https://docs.unsloth.ai/new/how-to-train-llms-with-unsloth-and-docker
Unsloth — это open-source фреймворк, который упрощает и ускоряет fine-tuning и RL для больших языковых моделей.
🧰 Основные шаги
1. Использование Docker-образа Unsloth
Вместо ручной установки всех зависимостей можно запустить подготовленный контейнер
unsloth/unsloth, где уже настроены все инструменты. 2. Запуск внутри контейнера
Внутри контейнера вы загружаете модель (например, LLaMA, Phi, Mistral и др.) и применяете Unsloth для обучения или дообучения (fine-tuning).
3. Конфигурация fine-tuning
Используются подходы вроде LoRA / QLoRA, gradient checkpointing, quantization и др., которые минимизируют потребление памяти и ускоряют обучение.
4. Запуск обучения и оптимизация
После настройки данных, модели и конфигурации запускается процесс обучения, при этом Unsloth оптимизирует внутренние операции, используя свои ядра и ускорение.
✅ Почему стоит попробовать
- Упрощённый workflow: Docker избавляет от проблем с зависимостями
- Эффективность: меньше затрат по памяти и времени благодаря оптимизациям
- Совместимость: работает с популярными моделями, quantization, адаптирует существующие пайплайны
#LLM #Docker #AI #Unsloth
https://docs.unsloth.ai/new/how-to-train-llms-with-unsloth-and-docker
🔥5❤2
Forwarded from Machinelearning
Модель объединяет понимание, генерацию и редактирование аудио без привязки к таймстампам. Основой стал новый токенайзер MingTok-Audio, на котором построен единый Speech LLM. Одновременно выпущен бенчмарк для свободного редактирования речи.
GitHub / Tokenizer / Model / Benchmark
Основатель Coursera Эндрю Ын выпустил бесплатный курс по нейросетям.
В курсе: базовые основы Deep Learning, практические задания и советы по построению карьеры в AI.
Первая лекция уже доступна, все материалы и расписание — открыты. Отличный шанс провести выходные с пользой и глубже разобраться в мире нейросетей.
Первая лекция / Расписание
Почти 40% роста ВВП США за последний квартал обеспечили капитальные вложения в технологии, главным образом связанные с AI.
UBS прогнозирует, что расходы компаний на AI-инфраструктуру достигнут $375 млрд в 2025 году и вырастут до $500 млрд в 2026-м. Но основной рост идёт не от самого AI, а от строительства «фабрик мощности» - дата-центров и инфраструктуры. По оценке Brookfield Asset Management, за ближайшие 10 лет в эту сферу уйдёт $7 трлн.
По данным Минторга США, инвестиции в софт и компьютерное оборудование (без учёта зданий дата-центров) дали четверть всего экономического роста за квартал.
Этот всплеск трат меняет и фондовый рынок: как отмечает Deutsche Bank, индекс S&P 500 вырос на 13.81% с начала года, тогда как равновзвешенный вариант прибавил лишь 7.65%. То есть рост обеспечивают в основном «Великолепная семёрка» технологических гигантов.
X
Дети 4–5 классов учатся два часа утром по индивидуальным программам в науке, математике и чтении, а после обеда занимаются проектами и жизненными навыками.
Учителей здесь называют «гидами» - они мотивируют, а не преподают, получая шестизначные зарплаты. Школа утверждает, что её ученики входят в топ-1% по тестам, хотя педагоги скептически относятся к роли ИИ.
Обучение стоит от $40 000 в год, но основатели считают модель примером будущего образования.
cbsnews
Один из величайших математиков современности, Теренс Тао, использовал искусственный интеллект, чтобы решить задачу на MathOverflow о последовательности наименьших общих кратных.
У него было теоретическое подозрение, что ответ отрицательный, но требовались конкретные числовые параметры для построения контрпримера. Сначала Тао просил ИИ сгенерировать Python-код для поиска, но из-за неверных параметров и долгого времени выполнения этот путь оказался неэффективным.
Затем он перешёл к пошаговому алгоритму: ИИ выполнял эвристические расчёты, помогая сузить диапазон параметров. В итоге удалось получить рабочие значения, которые Тао проверил самостоятельно с помощью короткого Python-скрипта, также созданного ИИ.
Такая стратегия позволила сэкономить часы ручного кодирования и отладки: ИИ не только ускорил поиск, но и выявил несколько ошибок в начальных рассуждениях. Этот случай показывает, как современные системы могут становиться реальными ассистентами даже в фундаментальной математике.
mathstodon
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2👍2
Forwarded from Machinelearning
🔥 Сенсей Карпаты выложил новый репозиторий - полный пайплайн обучения LLM с нуля
В проекте есть всё, чтобы собрать свой ChatGPT-клон за $100 и 4 часа:
> • токенизатор
> • pretraining
> • SFT (supervised fine-tuning)
> • RL (reinforcement learning)
> • оценка модели (eval)
Всего 8 000 строк кода, без лишних зависимостей - идеальный учебный пример, чтобы понять, как реально устроено обучение больших языковых моделей.
💡 Это проект из его нового курса Карпаты LLM101n, и отличная возможность прокачать свои ML-навыки на практике.
Можно арендовать GPU в облаке и запустить всё самому - код уже готов к запуску.
Если запустить обучение модели nanochat на облачном GPU-сервере (например, 8×H100), то примерно через 12 часов обучения (стоимость ~300–400 $) модель достигает уровня GPT-2 по качеству на тестовых наборах (CORE-score).
А если тренировать около 40 часов (затраты ~1000 $), решает простые задачи по математике и коду, набирая:
- 40+ на MMLU
- 70+ на ARC-Easy
- 20+ на GSM8K
🧠 Это бесплатная практика топ уровня от мастера, которую не стоит упускать.
🟠 GitHub:https://github.com/karpathy/nanochat
🟠 Технические детали: https://github.com/karpathy/nanochat/discussions/1
@ai_machinelearning_big_data
#LLM #nanochat #MachineLearning #DeepLearning #AI #GPT
В проекте есть всё, чтобы собрать свой ChatGPT-клон за $100 и 4 часа:
> • токенизатор
> • pretraining
> • SFT (supervised fine-tuning)
> • RL (reinforcement learning)
> • оценка модели (eval)
Всего 8 000 строк кода, без лишних зависимостей - идеальный учебный пример, чтобы понять, как реально устроено обучение больших языковых моделей.
💡 Это проект из его нового курса Карпаты LLM101n, и отличная возможность прокачать свои ML-навыки на практике.
Можно арендовать GPU в облаке и запустить всё самому - код уже готов к запуску.
Если запустить обучение модели nanochat на облачном GPU-сервере (например, 8×H100), то примерно через 12 часов обучения (стоимость ~300–400 $) модель достигает уровня GPT-2 по качеству на тестовых наборах (CORE-score).
А если тренировать около 40 часов (затраты ~1000 $), решает простые задачи по математике и коду, набирая:
- 40+ на MMLU
- 70+ на ARC-Easy
- 20+ на GSM8K
🧠 Это бесплатная практика топ уровня от мастера, которую не стоит упускать.
@ai_machinelearning_big_data
#LLM #nanochat #MachineLearning #DeepLearning #AI #GPT
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9❤4👍1
Microsoft запустила ExCyTIn-Bench - открытую платформу, которая тестирует, как ИИ справляется с реальными инцидентами безопасности, а не просто отвечает на теоретические вопросы.
Что делает ExCyTIn-Bench
- Имитация настоящего SOC (Security Operations Center) с логами, инцидентами и хаосом реальных атак.
- Проверяет не только ответы, но и логику рассуждений ИИ: шаги, объяснения, приоритизацию угроз.
- Включает 57 таблиц логов из Microsoft Sentinel — максимально приближено к практике.
- Поддерживает сравнение разных моделей и метрик, включая reasoning-оценку (пошаговое мышление).
Зачем это нужно
Обычные тесты “вопрос-ответ” не отражают реальную сложность киберугроз.
ExCyTIn-Bench поднимает планку: теперь модели должны мыслить как аналитики SOC.
Microsoft уже использует этот бенчмарк для проверки своих продуктов — Security Copilot, Defender и Sentinel.
Первые результаты показывают, что продвинутые LLM вроде GPT-5 уже уверенно анализируют инциденты и выстраивают цепочку атак.
🔗 Подробнее: https://www.microsoft.com/en-us/security/blog/2025/10/14/microsoft-raises-the-bar-a-smarter-way-to-measure-ai-for-cybersecurity/
#Microsoft #CyberSecurity #AI #SecurityCopilot
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2❤1
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
ByteDance выпустила модель Wan2.1-14B, специализирующуюся на задаче *
video-as-prompt*, то есть использование видео или комбинации изображений и текста как входных данных для генерации нового видео. - Работает в режимах «видео → видео» или «изображения/текст → видео».
- 14 млрд параметров — высокая детализация, плавная динамика, реалистичные движения.
- Использует исходное видео как шаблон стиля и композиции.
⚠️ Что стоит учитывать
- Модель требует мощных GPU и большого объёма памяти.
- Качество результата зависит от сложности запроса и длины видео.
@ai_machinelearning_big_data
#AI #VideoGeneration #ByteDance #Wan2 #HuggingFace
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1👍1
Компании всё чаще переносят ИИ-модели в облако
В России растет тренд на использование генеративных нейросетей в облачной инфраструктуре. Облака дают больше инструментов для интеграции ИИ, упрощают масштабирование и делают внедрение экономически выгодным.
Yandex AI Studio — пример этой тенденции: платформа объединяет более 20 моделей и позволяет запускать AI-агентов и RAG-сценарии без программирования. С начала 2025 года спрос на генеративные модели на платформе вырос в 5 раз, ежемесячно там тратят десятки миллиардов токенов — показатель общего роста доверия бизнеса к облачным AI-решениям. Что характерно – на первом месте по потреблению YandexGPT, но около 30% трафика уже занимает Qwen3-235b, которую используют для агентских сценариев.
🔗 Подробнее здесь: https://www.vedomosti.ru/technology/news/2025/10/27/1150016-godovaya-viruchka
#AI #GenerativeAI #Agents #RAG
В России растет тренд на использование генеративных нейросетей в облачной инфраструктуре. Облака дают больше инструментов для интеграции ИИ, упрощают масштабирование и делают внедрение экономически выгодным.
Yandex AI Studio — пример этой тенденции: платформа объединяет более 20 моделей и позволяет запускать AI-агентов и RAG-сценарии без программирования. С начала 2025 года спрос на генеративные модели на платформе вырос в 5 раз, ежемесячно там тратят десятки миллиардов токенов — показатель общего роста доверия бизнеса к облачным AI-решениям. Что характерно – на первом месте по потреблению YandexGPT, но около 30% трафика уже занимает Qwen3-235b, которую используют для агентских сценариев.
🔗 Подробнее здесь: https://www.vedomosti.ru/technology/news/2025/10/27/1150016-godovaya-viruchka
#AI #GenerativeAI #Agents #RAG
😁3❤2👍1
Mental Models — тогда и сейчас 🧠
В 2007-м нейросети только учились подражать мозгу.
В 2025-м — учёные уже *буквально* создают его цифрового двойника.
1️⃣ E11 Bio сегодня баркодирует *каждую клетку мозга*, определяя тип нейрона и его форму по экспрессируемым белкам.
С помощью expansion microscopy — они “раздувают” мозговые ткани изнутри, чтобы легче проследить связи под микроскопом.
👉 Цель — создать точную 3D-карту мозга, где видно не только нейроны, но и химические градиенты, каннабиноиды, вирусоподобные частицы и внеклеточный матрикс, который становится более гибким под действием психоделиков (работа Gul Dolen).
Вопрос остаётся открытым: *сколько сложности нужно, чтобы реально смоделировать состояние мозга?*
2️⃣ 2007 год.
Тогда энтузиасты строили нейромодели на первых NVIDIA GPU. Один из них создал самодельный суперкомпьютер за $2000, чтобы моделировать рост дендритов и формирование связей в коре мозга.
Каждая точка — сотни потенциальных соединений, каждая ветвь — вычислительный узел.
3️⃣ На старых схемах — RC-цепочки, дифференциальные уравнения и дендрит как *коаксиальный кабель*:
ионы внутри, липидная оболочка снаружи, мембранная ёмкость, сопротивление, ионные каналы, создающие нелинейную динамику.
Сигнал передаётся не потоком электронов, а *каскадом открывающихся каналов*, как пальцы на длинной флейте.
🧩 Вывод: дендрит — это не просто «провод», а самостоятельный вычислительный элемент.
И даже спустя почти 20 лет, мозг всё ещё остаётся самым загадочным суперкомпьютером из всех.
#neuroscience #AI #mentalmodels #brainmapping #E11Bio #LLM
В 2007-м нейросети только учились подражать мозгу.
В 2025-м — учёные уже *буквально* создают его цифрового двойника.
1️⃣ E11 Bio сегодня баркодирует *каждую клетку мозга*, определяя тип нейрона и его форму по экспрессируемым белкам.
С помощью expansion microscopy — они “раздувают” мозговые ткани изнутри, чтобы легче проследить связи под микроскопом.
👉 Цель — создать точную 3D-карту мозга, где видно не только нейроны, но и химические градиенты, каннабиноиды, вирусоподобные частицы и внеклеточный матрикс, который становится более гибким под действием психоделиков (работа Gul Dolen).
Вопрос остаётся открытым: *сколько сложности нужно, чтобы реально смоделировать состояние мозга?*
2️⃣ 2007 год.
Тогда энтузиасты строили нейромодели на первых NVIDIA GPU. Один из них создал самодельный суперкомпьютер за $2000, чтобы моделировать рост дендритов и формирование связей в коре мозга.
Каждая точка — сотни потенциальных соединений, каждая ветвь — вычислительный узел.
3️⃣ На старых схемах — RC-цепочки, дифференциальные уравнения и дендрит как *коаксиальный кабель*:
ионы внутри, липидная оболочка снаружи, мембранная ёмкость, сопротивление, ионные каналы, создающие нелинейную динамику.
Сигнал передаётся не потоком электронов, а *каскадом открывающихся каналов*, как пальцы на длинной флейте.
🧩 Вывод: дендрит — это не просто «провод», а самостоятельный вычислительный элемент.
И даже спустя почти 20 лет, мозг всё ещё остаётся самым загадочным суперкомпьютером из всех.
#neuroscience #AI #mentalmodels #brainmapping #E11Bio #LLM
❤4👍2
🤖 WorldVLA - объединение VLA и World Model в единое автогенеративное ядро
Alibaba представила WorldVLA, новый шаг к созданию *авторегрессионной модели мира действий*
где одна архитектура одновременно предсказывает следующие кадры и действия агента.
🧠 Ключевая идея
WorldVLA объединяет Vision-Language-Action (VLA) и World Model в одном трансформере:
- Вход: *(image + language + action)*
- Выход: *(image + language + action)*
То есть модель не только «понимает» физику мира, но и «учится действовать» в нём.
⚙️ Как это работает
- Архитектура: единый Transformer, обучаемый одновременно на данных action-моделей и world-моделей.
- Лосс: комбинированная функция, объединяющая предсказание действий и состояния мира.
- Трюк с attention mask: маскируются предыдущие действия при генерации текущих —
этот приём значительно улучшает качество «action-chunk» генерации.
📊 Результаты
Тестировалось в симуляции (LIBERO benchmark):
WorldVLA превзошла отдельно обученные action-модели и world-модели.
💬 По сути, Alibaba делает следующий шаг к AGI-агентам с реальным пониманием физики,
где одно ядро может предсказывать, воспринимать и действовать — как единая система.
📄 Paper: https://arxiv.org/abs/2506.21539
💻 Code: https://github.com/alibaba-damo-academy/WorldVLA
#AI #WorldModel #VLA #DeepLearning #Alibaba #Transformers
Alibaba представила WorldVLA, новый шаг к созданию *авторегрессионной модели мира действий*
где одна архитектура одновременно предсказывает следующие кадры и действия агента.
🧠 Ключевая идея
WorldVLA объединяет Vision-Language-Action (VLA) и World Model в одном трансформере:
- Вход: *(image + language + action)*
- Выход: *(image + language + action)*
То есть модель не только «понимает» физику мира, но и «учится действовать» в нём.
⚙️ Как это работает
- Архитектура: единый Transformer, обучаемый одновременно на данных action-моделей и world-моделей.
- Лосс: комбинированная функция, объединяющая предсказание действий и состояния мира.
- Трюк с attention mask: маскируются предыдущие действия при генерации текущих —
этот приём значительно улучшает качество «action-chunk» генерации.
📊 Результаты
Тестировалось в симуляции (LIBERO benchmark):
WorldVLA превзошла отдельно обученные action-модели и world-модели.
💬 По сути, Alibaba делает следующий шаг к AGI-агентам с реальным пониманием физики,
где одно ядро может предсказывать, воспринимать и действовать — как единая система.
📄 Paper: https://arxiv.org/abs/2506.21539
💻 Code: https://github.com/alibaba-damo-academy/WorldVLA
#AI #WorldModel #VLA #DeepLearning #Alibaba #Transformers
❤4🔥2
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
Облачный стартап Lambda объявил о многомиллиардном соглашении с Microsoft на создание новой инфраструктуры для ИИ. Она будет оснащена десятками тысяч чипов Nvidia, в частности системами NVIDIA GB300 NVL72. Точная сумма сделки не раскрывается.
Lambda была основана в 2012 году и специализируется на облачных сервисах для обучения и развертывания ИИ-моделей. Новое соглашение позволит ей значительно нарастить мощности на фоне растущего спроса на ИИ. В планах не только аренда дата-центров, но и строительство собственной инфраструктуры.
lambda.ai
Китайский техногигант выпустил предварительную ризонинг-версию своей топовой модели Qwen3-Max, которая все еще находится на стадии обучения. Модель показала в тестах стопроцентный результат на сложных бенчмарках для оценки логического мышления (AIME 2025 и HMMT).
Под капотом - 1 трлн. параметров на архитектуре MoE, так же как и в родительской Max, Alibaba обещает, что обучение будет продолжено. Попробовать превью уже можно в Qwen Chat и через API Alibaba Cloud.
Qwen в сети X
IBM опубликовала новое семейство открытых моделей Granite 4.0 Nano, которые созданы для работы в составе ИИ-агентов. Версия на 350 млн. параметров может работать на обычном CPU с 8–16 ГБ ОЗУ, а для варианта на 1,5 млрд. хватит GPU с 6-8 ГБ видеопамяти.
Семейство построено на гибридной архитектуре Mamba-2+Transformer, что позволило снизить потребление памяти на 70% и удвоить скорость инференса по сравнению с аналогами. По словам IBM, Granite 4.0 Nano показывают SOTA в следовании инструкциям и использовании инструментов. Все модели под Apache 2.0 и доступны на HuggingFace.
huggingface.co
В Университете KAUST создали ИИ-агента Huxley-Gödel Machine (HGM), который может самосовершенствоваться, изменяя собственный код. Система не затрагивает ядро языковой модели, а переписывает окружающую ее инфраструктуру: управляющую логику, скрипты и инструменты.
Главное отличие от конкурентов в фокусе на долгосрочной продуктивности, а не на результатах в бенчах. Для этого был создан показатель Clade Metaproductivity (CMP), который мониторит совокупную эффективность всех потомков агента.
В тесте SWE-Bench Verified, HGM-агент на базе GPT-5-mini решил 61.4% проблем. Это лучше, чем существующие агенты с той же моделью. Код агента доступен на Github.
arxiv.org
Skyfall-GS способна создавать детализированные и проходимые 3D-модели городов, используя только стандартные спутниковые изображения. В отличие от старых методов, которые могут воссоздать лишь крыши, Skyfall-GS генерирует недостающие элементы, что на выходе дает фотореалистичные городские пространства.
Пайплайн состоит из 3D Gaussian splatting (базовый 3D-каркас города) и диффузионных моделей, которые дорисовывают недостающие элементы (стены зданий и текстуры на уровне земли).
Skyfall-GS работает с 11 FPS на потребительском GPU и, по тестам, лучше аналогичных методик. Код проекта опубликован на GitHub.
skyfall-gs.jayinnn.dev
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7👍2👏1
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
Президент США подписал указ о создании единой государственной ИИ-платформы. Проект, реализация которого поручена Министерству энергетики, должен радикально ускорить научные исследования и сократить циклы открытий в биотехнологиях и энергетике с нескольких лет до дней.
Инициатива мобилизует инфраструктуру 17 федеральных исследовательских центров. Их суперкомпьютеры и накопленные за десятилетия массивы научных данных будут использованы для обучения специализированных моделей. Новая платформа позволит ИИ-агентам автономно планировать эксперименты, проверять гипотезы и генерировать прогнозы в области химии, биологии и инженерии.
whitehouse.gov
ChatGPT получил обновление, которое устраняет барьер между способами ввода: голосовой чат теперь интегрирован непосредственно в основное окно переписки. Это позволяет пользователям бесшовно переключаться между речью и набором текста, не переходя в отдельный режим.
Теперь во время голосовой сессии можно свободно просматривать историю сообщений, сгенерированные изображения или карты, а ответы ассистента автоматически дублируются в текстовом виде.
Функция уже доступна в мобильных приложениях и веб-версии. Для тех, кто хочет пользоваться голосовым интерфейсом отдельно, OpenAI оставила возможность вернуть его через настройки в разделе Voice Mode.
OpenAi в сети Х
Fara-7B — компактная агентная модель от Microsoft Research на базе Qwen2.5-VL для автономной работы с интерфейсами. Модель умеет анализировать скриншоты, генерировать команды для мыши и клавиатуры, предсказывая точные пиксельные координаты.
В бенчмарках Fara-7B обошла существующие решения и выполняет задачи в разы дешевле крупных моделей - средняя стоимость сессии составляет меньше 3-х центов. Веса модели опубликованы на Hugging Face под лицензией MIT.
microsoft.com
Гарвардская медшкола представила popEVE - нейросеть, способную с высокой точностью выявлять патогенные мутации в геноме для решения проблем диагностики редких наследственных болезней, причины которых врачи зачастую не могут найти годами.
PopEVE объединяет генеративный ИИ с языковой моделью для белков и статистикой человеческих популяций. Система умеет корректно сравнивать опасность мутаций, расположенных в абсолютно разных генах, и выдавать унифицированный клинический рейтинг риска. Предыдущие модели не справлялись с такой кросс-генной калибровкой.
Эффективность системы подтвердили на выборке из 30 000 пациентов. Модель успешно определила причину болезни в трети случаев и попутно обнаружила 123 гена, ранее не связывавшихся с развитием патологий.
harvard.edu
Илон Маск анонсировал амбициозный эксперимент: в 2026 году следующая версия модели xAI бросит вызов сильнейшим киберспортивным командам мира. Матч планируется не просто как шоу, а как критический тест на пути к AGI.
Для чистоты эксперимента инженеры введут жесткие технические ограничения, уравнивающие шансы. Модель не будет подключаться к API игры — она должна «смотреть» на монитор через камеру с имитацией обычного человеческого зрения. Скорость реакции и частоту кликов также лимитируют до физических возможностей человека. Предполагается, что Grok 5 освоит сложные механики MOBA-стратегии с нуля, опираясь только на чтение документации и самостоятельные эксперименты в ходе игры.
Elon Musk в сети Х
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍3🔥3
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
В Школе анализа данных, где готовят специалистов по ИИ, началось обучение по применению ИИ в естественно-научных исследованиях. На программу подали заявки ученые из 37 регионов - больше всего запросов получили от экспертов в областях физики, медицины и химии. В итоге зачислили 50 молодых исследователей: от магистрантов до кандидатов наук из Москвы, Петербурга, Уфы, Иркутска, Владивостока и Екатеринбурга.
Участники изучают основы ИИ и сразу применяют инструменты в своих задачах. С каждой командой работает эксперт ШАДа: помогает выбрать методы и спланировать эксперимент. Если проекту нужны тяжелые вычисления, подключаются мощности Yandex Cloud.
Команда из Institute of Science Tokyo анонсировала фреймворк PianoKPM Net, способный с высокой точностью определять активность мышц рук без использования нательных датчиков. Обычно для этого требуется инвазивная и дорогая электромиография, но новая архитектура реконструирует паттерны мышечных сокращений, анализируя только видеозапись.
В основе системы - уникальный датасет, собранный на базе 12 часов игры профессиональных пианистов, где визуальные данные синхронизированы с реальными сигналами мышц. Технология превращает обычную камеру в диагностический инструмент, что важно для реабилитационной медицины, спортивной аналитики и создания продвинутых интерфейсов «человек-компьютер». Авторы планируют выложить датасет и модель в открытый доступ.
techxplore.com
Project Prometheus поглотил разработчика агентного ИИ General Agents. Сделка прошла в закрытом режиме еще летом и сопровождалась переходом команды инженеров из DeepMind и Tesla в структуру Prometheus. Цель Prometheus: создание ИИ-систем для поддержки сложных производств автомобилестроения и космической отрасли.
Главный актив General Agents - технология Ace для автономного управления интерфейсами и приложениями. Хотя изначально Ace создавался для автоматизации рутинны на ПК, в рамках Prometheus эти наработки, судя по всему, будут масштабированы для индустриальных сценариев.
wired.com
Глава направления Sora в OpenAI Билл Пиблз сообщил, что бесплатные аккаунты теперь ограничены всего 6 видеогенерациями в сутки, так как текущие графические процессоры буквально плавятся от запросов. Это ограничение не выглядит временным: компания прямо предлагает докупать генерации по мере необходимости, хотя условия для подписчиков ChatGPT Plus и Pro пока остались прежними.
Google приняла аналогичные меры, урезав бесплатный доступ к инструменту Nano Banana Pro до 2 изображений в день. Техгигант предупредил, что лимиты могут меняться динамически и без уведомлений. Кроме того, под ограничения попал и доступ бесплатных пользователей к модели Gemini 3 Pro.
theverge.com
ИИ-поисковик получил функцию "persistent memory", которая позволяет запоминать предпочтения, интересы и детали предыдущих диалогов. Теперь система автоматически создает "постоянный контекст" пользователя, а ответы становятся персонализированными и требуют меньше уточняющих запросов.
Perplexity извлекает факты из хранилища памяти и напрямую использует их при формировании ответа. Этот контекстный слой работает поверх любой выбранной модели без потери накопленных знаний о пользователе. Функция полностью управляема: сбор данных можно отключить в настройках, а в режиме инкогнито история не сохраняется.
perplexity.ai
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍1🔥1
🚀 AWS представила новое поколение AI-инструментов: Amazon Nova 2 и Agentic-AI
✔️ Nova 2 - семейство мощных моделей для текста, изображений, видео и мультимодальных задач
✔️ Nova Act - AI-агенты, которые могут работать в браузере: кликать, заполнять формы, навигироваться по UI
✔️ Nova Forge — сервис для создания собственных моделей на базе Nova: пред-тренировка, дообучение, кастомизация
Почему это важно
- Универсальность: от чат-ботов до анализа видео и документов
- Автоматизация: агенты заменяют рутинные действия и ручные процессы
- Кастомизация: компании могут строить модели под свои данные
- Оптимальная цена-производительность: конкурент на рынке крупных моделей
#AI #AWS #AmazonNova #GenerativeAI #AgenticAI #Automation
https://www.aboutamazon.com/news/aws/aws-agentic-ai-amazon-bedrock-nova-models
✔️ Nova 2 - семейство мощных моделей для текста, изображений, видео и мультимодальных задач
✔️ Nova Act - AI-агенты, которые могут работать в браузере: кликать, заполнять формы, навигироваться по UI
✔️ Nova Forge — сервис для создания собственных моделей на базе Nova: пред-тренировка, дообучение, кастомизация
Почему это важно
- Универсальность: от чат-ботов до анализа видео и документов
- Автоматизация: агенты заменяют рутинные действия и ручные процессы
- Кастомизация: компании могут строить модели под свои данные
- Оптимальная цена-производительность: конкурент на рынке крупных моделей
#AI #AWS #AmazonNova #GenerativeAI #AgenticAI #Automation
https://www.aboutamazon.com/news/aws/aws-agentic-ai-amazon-bedrock-nova-models
Forwarded from Machinelearning
Компания представила сразу 2 версии модели для кодинга: флагманскую Devstral 2 (123 млрд. параметров) и облегченную Devstral Small 2 (24 млрд).
Старшая модель выбила 72,2% в бенчмарке SWE-bench Verified, закрепив за собой статус одного из лучших инструментов с открытыми весами.
Благодаря контекстному окну в 256k токенов, алгоритм способен удерживать в памяти структуру больших проектов и корректно управлять зависимостями.
Для локального запуска на GPU или CPU подойдет версия Small 2, опубликованная под лицензией Apache 2.0.
Старшая версия требует серьезного железа (от 4-х H100), но обещает быть до 7 раз экономичнее проприетарных аналогов уровня Claude Sonnet.
Вместе с моделями разработчики анонсировали утилиту Mistral Vibe CLI, которая позволяет внедрять ИИ-агентов непосредственно в терминал для автоматизации рефакторинга и оркестрации изменений сразу в нескольких файлах.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2👍2
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
Шанхайская лаборатория ИИ выложила в опенсорс спецификации SCP — протокола, созданного для формирования глобальной сети автономных исследовательских систем. Новинка развивает идеи стандарта MCP от Anthropic, добавляя к нему критически важный слой для взаимодействия с физическим миром науки.
В отличие от MCP, ориентированного на подключение данных, SCP поддерживает подключение лабораторного оборудования, расширенные метаданные экспериментов и API для оркестрации сложных рабочих процессов.
Фактически это позволяет ИИ-агентам напрямую управлять приборами и обмениваться результатами между различными институтами. Технология уже обкатана на платформе Internal Discovery, где доступно более 1600 инструментов, преимущественно для биологии, физики и химии.
arxiv.org
Компания Сэма Альтмана меняет стратегию выпуска дебютного аппаратного устройства под кодовым именем «Gumdrop». По данным Economic Daily News, OpenAI отказалась от услуг китайской Luxshare и передала контракт тайваньскому гиганту Foxconn, чтобы исключить материковый Китай из цепочки поставок - сборка будет развернута на мощностях во Вьетнаме или США.
Gumdrop находится на стадии проектирования и, вероятно, это будет умная ручка или носимый аудио-гаджет. Устройство получит камеру и микрофон, а его киллер-фичей станет нативная интеграция с ChatGPT для оцифровки и анализа рукописных заметок.
Релиз устройства запланирован на 2026–2027 годы.
money.udn.com
Сатья Наделла непреднамеренно спровоцировал имиджевый кризис, опубликовав в конце 2025 года призыв к обществу «перерасти» использование термина «slop» в отношении генеративного контента. Реакция сообщества оказалась мгновенной: эффект Стрейзанд вывел в тренды тег «Microslop», ставший символом отторжения агрессивной политики компании по повсеместному внедрению ИИ.
Пользователи выражают недовольство тем, что Microsoft принудительно встраивает Copilot в каждый продукт, игнорируя реальные потребности аудитории. Пока руководство Big Tech обещает глобальные прорывы, рынок фиксирует негативные побочные эффекты: от дефицита и удорожания памяти и сокращения рабочих мест до засорения экосистемы бесполезными функциями.
windowscentral.com
Илон Маск подтвердил планы компании начать массовый выпуск интерфейсов «мозг-компьютер» в 2026 году. Технологический процесс станет полностью автономной хирургической процедурой: роботы будут устанавливать импланты без прямого участия людей-нейрохирургов.
Проект уже вышел за рамки лабораторных экспериментов - база пациентов с активными имплантами достигла 12 человек. Устройства позволяют людям с тяжелыми нарушениями моторики управлять цифровыми интерфейсами и игровыми контроллерами напрямую через нейронную активность.
reuters.com
С 5 января Пентагон официально открыл прием заявок на новую специализацию, позволяющую офицерам строить карьеру в ИИ и ML. Приоритет при отборе отдается кандидатам с профильным образованием и опытом разработки.
Офицеры пройдут углубленную подготовку, после чего займутся созданием, развертыванием и поддержкой военных ИИ-систем. Инициатива реализуется на фоне жестких дедлайнов по внедрению ИИ-управления в штабах к 2027 году и обеспечению армии автономными системами до конца 2026 года.
Параллельно Минобороны США запустило платформу GenAi.mil с Gemini for Government на борту, чтобы предоставить армии доступ к передовым языковым моделям. Таким образом, ИИ перестает быть экспериментальным направлением и становится штатной функцией офицерского состава.
federalnewsnetwork.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2❤1🔥1