Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
Команда Tencent Hunyuan представила модель, способную создавать полноценные трёхмерные сцены всего по одному описанию — тексту или изображению.
— Генерация 3D-сред из текста или картинки
— Поддержка редактирования и симуляций в стандартных CG-пайплайнах (Blender, Unity, Unreal)
— Подходит для игр, VR, цифрового контента и прототипирования живых миров
Вы просто пишете: "Japanese garden at sunset" — и модель генерирует трёхмерную сцену с деревьями, прудом и мягким освещением.
Эта модель может серьёзно повлиять на будущее генеративного 3D — от геймдева до виртуальных миров.
@ai_machinelearning_big_data
#3DGeneration #GenerativeAI #TextTo3D #Hunyuan3D #TencentAI #GameDev #VirtualReality
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3🔥3👍1🥰1
📌 ModelDB — система управления версиями ML-моделей. Этот open-source инструмент помогает отслеживать весь жизненный цикл моделей машинного обучения — от экспериментов до продакшена.
Инструмент поддерживает метаданных, включая гиперпараметры, метрики и окружение. Интегрируется с популярными фреймворками (TensorFlow, PyTorch) и предлагает удобные дашборды для анализа результатов. Подходит командой, которые хотят сделать свои ML-эксперименты воспроизводимыми.
🤖 GitHub
@machinelearning_ru
Инструмент поддерживает метаданных, включая гиперпараметры, метрики и окружение. Интегрируется с популярными фреймворками (TensorFlow, PyTorch) и предлагает удобные дашборды для анализа результатов. Подходит командой, которые хотят сделать свои ML-эксперименты воспроизводимыми.
🤖 GitHub
@machinelearning_ru
👍4❤2
🚀 Анализ текстов задерживает скорость разработки?
Разбираемся, как классический трансформер BERT справляется с миллионами документов за доли секунды!
На открытом уроке «Решаем задачи текстовой классификации с помощью BERT» мы расскажем:
🔹 Внутреннее устройство BERT
🔹 Методы дообучения и интеграции в реальные проекты
🔹 Практические примеры от эксперта OTUS
📅 Когда: 30 июля, 18:00 МСК
🎟 Регистрация бесплатная — зарегистрируйтесь сейчас и получите скидку на программу обучения «NLP / Natural Language Processing» https://otus.pw/CDpD/?erid=2W5zFHR4QDN
Не пропустите шанс повысить свою экспертизу в области NLP!
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
Разбираемся, как классический трансформер BERT справляется с миллионами документов за доли секунды!
На открытом уроке «Решаем задачи текстовой классификации с помощью BERT» мы расскажем:
🔹 Внутреннее устройство BERT
🔹 Методы дообучения и интеграции в реальные проекты
🔹 Практические примеры от эксперта OTUS
📅 Когда: 30 июля, 18:00 МСК
🎟 Регистрация бесплатная — зарегистрируйтесь сейчас и получите скидку на программу обучения «NLP / Natural Language Processing» https://otus.pw/CDpD/?erid=2W5zFHR4QDN
Не пропустите шанс повысить свою экспертизу в области NLP!
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
🧪 DeePMD-kit — инструмент для молекулярного моделирования с ИИ. Этот open-source проект использует глубокое обучение для предсказания межмолекулярных взаимодействий, сочетая точность квантовых расчетов с производительностью классической молекулярной динамики.
Инструмент интегрируется с популярными симуляторами и оптимизация для GPU. Полезен для исследований в химии, биологии и материаловедении. Поддерживает TensorFlow, PyTorch и другие фреймворки.
🤖 GitHub
@machinelearning_ru
Инструмент интегрируется с популярными симуляторами и оптимизация для GPU. Полезен для исследований в химии, биологии и материаловедении. Поддерживает TensorFlow, PyTorch и другие фреймворки.
🤖 GitHub
@machinelearning_ru
❤3🔥3👍2
📌 Habitat-Lab — фреймворк от Facebook Research для разработки ИИ-агентов, способных взаимодействовать с виртуальными и реальными окружениями. Проект позволяет обучать агентов выполнять различные задачи: от навигации в помещениях до взаимодействия с людьми и перестановки объектов.
Фреймворк поддерживает обучение через имитацию и reinforcement learning, а также интеграцию с ROS для робототехники. Инструмент обладает модульностью: можно настраивать сенсоры агентов, создавать новые задачи и тестировать их в реалистичных 3D-сценах.
🤖 GitHub
Фреймворк поддерживает обучение через имитацию и reinforcement learning, а также интеграцию с ROS для робототехники. Инструмент обладает модульностью: можно настраивать сенсоры агентов, создавать новые задачи и тестировать их в реалистичных 3D-сценах.
🤖 GitHub
🔥4👍2
🧠 Seqeval — специализированная библиотека для оценки моделей последовательностной разметки. Она поддерживает различные схемы аннотации (IOB2, IOE1, BILOU) и предоставляет стандартные метрики качества для задач NER и POS-разметки.
Библиотека предлагает два режима оценки — стандартный и строгий, учитывающий специфику выбранной схемы разметки. Простота интеграции и MIT-лицензия делают её удобным инструментом для NLP-разработчиков.
🤖 GitHub
@machinelearning_ru
Библиотека предлагает два режима оценки — стандартный и строгий, учитывающий специфику выбранной схемы разметки. Простота интеграции и MIT-лицензия делают её удобным инструментом для NLP-разработчиков.
🤖 GitHub
@machinelearning_ru
🔥3❤2👍2
Forwarded from Machinelearning
В основе технологического стека - семейство моделей Codestral, с обновленной моделью Codestral 25.08.
Эта версия показала измеримые улучшения, подтвержденные на реальных кодовых базах: на 30% увеличилось количество принятых автодополнений, на 10% вырос объем сохраняемого после подсказки кода, а число генераций, когда модель производит слишком длинный и некорректный код, сократилось на 50%.
В режиме чата модель также стала лучше: ее способность следовать инструкциям выросла на 5% по метрике IF Eval v8, а общие возможности в программировании улучшились в среднем на 5% по тесту MultiplE.
За это отвечает Codestral Embed, модель для создания векторных представлений, специально спроектированная для кода, а не для обычного текста. По заявлениям Mistral, она превосходит эмбеддинг-решения от OpenAI и Cohere в реальных задачах по извлечению кода.
Ключевое преимущество - возможность настройки размерности эмбеддингов (до 256 измерений с квантованием до INT8), что позволяет балансировать между качеством поиска и хранением данных, сохраняя высокую производительность.
Они реализованные через Devstral - агентскую систему на базе фреймворка OpenHands. Система ориентирована на задачи рефакторинга, генерации тестов и создание pull-реквестов.
На бенче SWE-Bench Verified модель Devstral Small 1.1 выбивает 53.6%, а Devstral Medium - 61.6%, значительно опережая Claude 3.5 и GPT-4.1-mini.
Devstral Small (24 млрд параметров) может работать на одной Nvidia RTX 4090 или Mac с 32 ГБ ОЗУ, что идеально для локальных или изолированных сред.
Все эти возможности объединяются в плагине Mistral Code для IDE от JetBrains и VS Code. Он автодополняет код с помощью Codestral 25.08 и автоматизирует рутину: написание коммитов или docstring’ов через Devstral, и семантический поиск на базе Codestral Embed.
Плагин учитывает контекст из
Git diffs, истории терминала и инструментов статического анализа.Для корпоративных клиентов предусмотрено развертывание в облаке, VPC или полностью on-prem, а также интеграция с SSO, ведение логов аудита и отсутствие обязательной телеметрии.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍2
🧠 Horizon (возможно, GPT‑5) — новый уровень "интелелкта" у AI
Новая модель OpenAI с кодовым именем Horizon пробивается на вершины EQ‑лидербордов — оценок эмоционального интеллекта и креативного письма.
💬 По словам Сэма Альтмана, одна из внутренних моделей вызвала у него “AGI‑момент” — настолько она была человечной, творческой и умной.
⚡ Что известно:
— Horizon показывает выдающийся результат в творческом письме и диалогах
— Лидирует в тестах на эмоциональное понимание и эмпатию
— Возможно, это и есть GPT‑5, готовящийся к релизу
Если это так — нас ждёт ИИ, который не просто "понимает", а чувствует и создаёт почти как человек.
Следим за обновлениями.
Подпишись, чтобы не пропустить настоящую гонку AG
Новая модель OpenAI с кодовым именем Horizon пробивается на вершины EQ‑лидербордов — оценок эмоционального интеллекта и креативного письма.
💬 По словам Сэма Альтмана, одна из внутренних моделей вызвала у него “AGI‑момент” — настолько она была человечной, творческой и умной.
⚡ Что известно:
— Horizon показывает выдающийся результат в творческом письме и диалогах
— Лидирует в тестах на эмоциональное понимание и эмпатию
— Возможно, это и есть GPT‑5, готовящийся к релизу
Если это так — нас ждёт ИИ, который не просто "понимает", а чувствует и создаёт почти как человек.
Следим за обновлениями.
Подпишись, чтобы не пропустить настоящую гонку AG
👍7❤4😁4🥰1
🖼️ FLUX.1 Krea [dev] — новое качество генерации изображений с открытыми весами
🔥 Представлено сегодня в рамках совместной разработки Black Forest Labs и Krea AI
✨ Особенности:
• Самая продвинутая открытая FLUX-модель для текст-в-изображение
• Эстетика без «перенасыщенного AI look», фотореализм и богатая детализация
• Готова к донастройке: легко адаптируется под ваши стили и задачи
• Полная совместимость с экосистемой FLUX.1 [dev]
🔧 Почему это важно:
• Новая планка среди open-weight моделей — по качеству приближается к FLUX.1 [pro] и превосходит её по многим параметрам восприятия человеком
• Уникальная «opinionated» стилистика, никакого пресного AI-эффекта
🚀 Доступность:
• Весовые файлы уже опубликованы на Hugging Face под лицензией Dev Non‑Commercial
• Интеграция через API-фреймворк: включён в платформы Replicate, FAL.ai, Together.ai и саму Krea
🌐 Встраиваем в рабочий процесс:
• Используйте как базовую модель для генерации, дальнейшего обучения и fine-tuning
• Подходит для создания кастомных приложений с визуальным стилем
• Доступна для исследований и проектов с ограничениями использования
🎯 FLUX.1 Krea [dev] — это шаг вперёд в мире открытых моделей, сочетающий эстетику, гибкость и высокое качество.
🔗 Поробовать : https://krea.ai
🔗 HF: https://huggingface.co/black-forest-labs/FLUX.1-Krea-dev
🔗Comfy Workflow - https://docs.comfy.org/tutorials/flux/flux1-krea-dev
🔥 Представлено сегодня в рамках совместной разработки Black Forest Labs и Krea AI
✨ Особенности:
• Самая продвинутая открытая FLUX-модель для текст-в-изображение
• Эстетика без «перенасыщенного AI look», фотореализм и богатая детализация
• Готова к донастройке: легко адаптируется под ваши стили и задачи
• Полная совместимость с экосистемой FLUX.1 [dev]
🔧 Почему это важно:
• Новая планка среди open-weight моделей — по качеству приближается к FLUX.1 [pro] и превосходит её по многим параметрам восприятия человеком
• Уникальная «opinionated» стилистика, никакого пресного AI-эффекта
🚀 Доступность:
• Весовые файлы уже опубликованы на Hugging Face под лицензией Dev Non‑Commercial
• Интеграция через API-фреймворк: включён в платформы Replicate, FAL.ai, Together.ai и саму Krea
🌐 Встраиваем в рабочий процесс:
• Используйте как базовую модель для генерации, дальнейшего обучения и fine-tuning
• Подходит для создания кастомных приложений с визуальным стилем
• Доступна для исследований и проектов с ограничениями использования
🎯 FLUX.1 Krea [dev] — это шаг вперёд в мире открытых моделей, сочетающий эстетику, гибкость и высокое качество.
🔗 Поробовать : https://krea.ai
🔗 HF: https://huggingface.co/black-forest-labs/FLUX.1-Krea-dev
🔗Comfy Workflow - https://docs.comfy.org/tutorials/flux/flux1-krea-dev
❤5👍3🔥3
🚀 X-Omni – универсальная дискретная авторегрессивная модель для изображений и текста, прокачанная через Reinforcement Learning!
✅ Единая архитектура для генерации и изображений, и языковых модальностей
✅ Идеальное выполнение инструкций даже самых сложных
✅ Точный рендер текста на английском и китайском
✅ Любые разрешения: красивые картинки без потери качества
🔍 В процессе RL-марафона эстетика растёт, способность следовать инструкциям и рендерить длинные надписи улучшаются с каждой итерацией.
📄 Paper: https://arxiv.org/pdf/2507.22058
💻 GitHub: https://github.com/X-Omni-Team/X-Omni
🌐 Проект: https://x-omni-team.github.io
#AI #XOmni #ReinforcementLearning #ImageGen #Multimodal
✅ Единая архитектура для генерации и изображений, и языковых модальностей
✅ Идеальное выполнение инструкций даже самых сложных
✅ Точный рендер текста на английском и китайском
✅ Любые разрешения: красивые картинки без потери качества
🔍 В процессе RL-марафона эстетика растёт, способность следовать инструкциям и рендерить длинные надписи улучшаются с каждой итерацией.
📄 Paper: https://arxiv.org/pdf/2507.22058
💻 GitHub: https://github.com/X-Omni-Team/X-Omni
🌐 Проект: https://x-omni-team.github.io
#AI #XOmni #ReinforcementLearning #ImageGen #Multimodal
❤3🔥3👍2🤔1
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
ByteDance показала экспериментальную языковую модель Seed Diffusion Preview, основанную на дискретной диффузии, которая работает в 5.4 раза быстрее аналогов того же размера, достигая скорости 2146 токенов в секунду. При этом качество генерации кода на ключевых бенчмарках остается сопоставимым.
Для достижения такого результата команда применила двухэтапное обучение и оптимизированный параллельный декодинг. В задачах редактирования кода, диффузионный подход показал явное преимущество над авторегрессионными моделями. ByteDance рассматривает эту технологию как возможную основу для языковых моделей нового поколения. Модель уже доступна для тестирования.
seed.bytedance.com
Manus добавил новую функцию Wide Research, которая позволяет одним кликом задействовать до сотни ИИ-агентов для параллельного выполнения сложных исследовательских задач. Система автоматически определяет, когда требуется расширенный поиск, и запускает множество копий Manus, каждая из которых работает над своей частью задачи в отдельной виртуальной машине.
Архитектура Wide Research вдохновлена парадигмой MapReduce от Google. В отличие от традиционных мультиагентных систем с ролевым разделением, здесь каждый суб-агент является полной копией Manus.
Функция уже доступна для Pro-пользователей, Plus и Basic подписчики получат доступ позже .
Ji Yichao (Co-founder of Manus) в сети Х.
Nvidia анонсировала дебют своей новой модели Queen для создания и стриминга объемного видео. Презентация состоится на конференции по компьютерной графике SIGGRAPH 2025 в Лос-Анджелесе. Демонстрации будут проходить на стенде Dell, где покажут, как Queen в связке с профессиональными видеокартами Nvidia RTX обеспечивает работу телеприсутствия в расширенной реальности и решает другие задачи по созданию контента.
Кроме того, 12 августа Nvidia проведет мероприятие «RTX Rendering Day». На нем исследователи компании расскажут о последних достижениях в области нейронного рендеринга, генерации синтетических данных и интеллектуального создания контента. Посетить сессии смогут все участники конференции.
research.nvidia.com
Command A Vision предназначена для анализа изображений, диаграмм, PDF-файлов и других визуальных данных. По заявлению разработчиков, на стандартных бенчмарках для компьютерного зрения она превосходит GPT-4.1, Llama 4 и Mistral Medium 3.
Модель способна не только считывать текст с документов, но и понимать их структуру, выдавая результат в формате JSON. Кроме того, Command A Vision может анализировать и реальные изображения, например, для выявления потенциальных рисков на промышленных объектах.
Модель уже доступна на платформе Cohere и в репозитории Hugging Face для исследовательских целей. Для запуска понадобятся 2 GPU A100 или один H100 под квантованную 4-битную версию.
cohere.com
В Anthropic обнаружили специфические паттерны нейронной активности - "векторы персоны", которые отвечают за устойчивые черты поведения LLM: склонность к лести, галлюцинациям или откровенно злому поведению.
Выделив эти нейронные сигнатуры, ученые научились предсказывать появление проблемных личностей и, что более важно, "вакцинировать" модели от них. В ходе обучения они намеренно активируют нежелательный вектор, а затем удаляют его перед развертыванием. Это позволяет сохранить общую производительность модели, но при этом значительно снизить риск токсичных или ложных ответов.
Исследование легло в основу новой инициативы Anthropic по так называемой "ИИ-психиатрии", цель которой - мониторинг и управление поведением моделей в больших масштабах. Хотя эксперименты проводились на небольших системах, в Anthropic считают, что эта техника поможет коммерческим чат-ботам избегать непредсказуемых изменений личности.
anthropic.com
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍3🥰1🤔1
🚂 Trax — библиотека для глубокого обучения от Google Brain. Проект предлагает чистый и производительный код для работы с нейросетями, включая Transformer и Reformer.
Проект имеет встроенную поддержку TPU/GPU и готовые реализации современных архитектур с возможностью тонкой настройки. Библиотека подходит как для обучения с нуля, так и для использования предобученных моделей, например, можно развернуть переводчик с английского на немецкий всего в несколько строк кода.
🤖 GitHub
@machinelearning_ru
Проект имеет встроенную поддержку TPU/GPU и готовые реализации современных архитектур с возможностью тонкой настройки. Библиотека подходит как для обучения с нуля, так и для использования предобученных моделей, например, можно развернуть переводчик с английского на немецкий всего в несколько строк кода.
🤖 GitHub
@machinelearning_ru
😁5👍3🔥3🥰2
😱 WHAT THE HECK
Очередная открытая модель уделала закрытые!
XBai o4 обходит OpenAI o3-mini и *уверенно* превосходит Claude Opus от Anthropic.
•Parameter: 32,8 B
•Training: Long‑CoT RL + Process Reward Learning (SPRM)
•Benchmarks (High‑Modus):
•AIME24: 86,5
•AIME25: 77,9
•LiveCodeBench v5: 67,2
•C‑EVAL: 89,7
🔥 Открытый ИИ снова на коне.
🔗Open-source weights: https://huggingface.co/MetaStoneTec/XBai-o4
Очередная открытая модель уделала закрытые!
XBai o4 обходит OpenAI o3-mini и *уверенно* превосходит Claude Opus от Anthropic.
•Parameter: 32,8 B
•Training: Long‑CoT RL + Process Reward Learning (SPRM)
•Benchmarks (High‑Modus):
•AIME24: 86,5
•AIME25: 77,9
•LiveCodeBench v5: 67,2
•C‑EVAL: 89,7
🔥 Открытый ИИ снова на коне.
🔗Open-source weights: https://huggingface.co/MetaStoneTec/XBai-o4
🔥7❤6👍2🥰2👎1
Forwarded from Machinelearning
🚀 Tencent расширяет экосистему Hunyuan LLM и выкладывают в открытый доступ еще 4 компактных моделей — 0.5B, 1.8B, 4B и 7B!
Эти модели заточены под low-power устройства: ПК, смартфоны, авто, умные дома и пользовательские GPU.
Модели легко настраиваются под вертикальные задачи и запускаются даже на одной карте.
💡 Особенности:
✅ Fast/slow thinking режимы: лаконичные или глубокие ответы
✅ 256K контекст и продвинутые агентные способности (tool use, планирование, reasoning)
✅ Хорошие метрики на тестах по языку, математике и логике
✅ Модели готовы к продакшену — работают с SGLang, vLLM, TensorRT-LLM
🖥 GitHub:
- 0.5B: https://github.com/Tencent-Hunyuan/Hunyuan-0.5B
- 1.8B: https://github.com/Tencent-Hunyuan/Hunyuan-1.8B
- 4B: https://github.com/Tencent-Hunyuan/Hunyuan-4B
- 7B: https://github.com/Tencent-Hunyuan/Hunyuan-7B
🤗 Hugging Face:
- 0.5B: https://huggingface.co/tencent/Hunyuan-0.5B-Instruct
- 1.8B: https://huggingface.co/tencent/Hunyuan-1.8B-Instruct
- 4B: https://huggingface.co/tencent/Hunyuan-4B-Instruct
- 7B: https://huggingface.co/tencent/Hunyuan-7B-Instruct
🔗 Подробнее: https://hunyuan.tencent.com/modelSquare/home/list
@ai_machinelearning_big_data
#Tencent #Hunyuan #ml #llm #ai #opensource
Эти модели заточены под low-power устройства: ПК, смартфоны, авто, умные дома и пользовательские GPU.
Модели легко настраиваются под вертикальные задачи и запускаются даже на одной карте.
💡 Особенности:
✅ Fast/slow thinking режимы: лаконичные или глубокие ответы
✅ 256K контекст и продвинутые агентные способности (tool use, планирование, reasoning)
✅ Хорошие метрики на тестах по языку, математике и логике
✅ Модели готовы к продакшену — работают с SGLang, vLLM, TensorRT-LLM
- 0.5B: https://github.com/Tencent-Hunyuan/Hunyuan-0.5B
- 1.8B: https://github.com/Tencent-Hunyuan/Hunyuan-1.8B
- 4B: https://github.com/Tencent-Hunyuan/Hunyuan-4B
- 7B: https://github.com/Tencent-Hunyuan/Hunyuan-7B
🤗 Hugging Face:
- 0.5B: https://huggingface.co/tencent/Hunyuan-0.5B-Instruct
- 1.8B: https://huggingface.co/tencent/Hunyuan-1.8B-Instruct
- 4B: https://huggingface.co/tencent/Hunyuan-4B-Instruct
- 7B: https://huggingface.co/tencent/Hunyuan-7B-Instruct
🔗 Подробнее: https://hunyuan.tencent.com/modelSquare/home/list
@ai_machinelearning_big_data
#Tencent #Hunyuan #ml #llm #ai #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍3🔥2
🧠 Секрет крутых AI‑агентов — не в коде, а в контексте
Наткнулся на интересный разбор по построению LLM-агентов.
Главный вывод: context engineering — это всё.
Вот в чём магия:
🔥 Как сделать агента умнее и стабильнее:
- Пишите промпты максимально статичным → больше KV-cache попаданий, меньше затрат
- Prefill: заранее задавай структуру ответа — модель будет вызывать нужные инструменты
- Используй файлы как память: сохраняй пути, а не сами данные
- Повторяй цели → LLM не забудет, зачем она вообще тут
- Не удаляй ошибки: проваленные tool-calls помогают модели адаптироваться
- Разнообразь few-shot-примеры: одинаковые шаблоны делают агента тупым
📈 Это не просто лайфхаки — это реально меняет эффективность агента в проде.
📌 Подробнее
Наткнулся на интересный разбор по построению LLM-агентов.
Главный вывод: context engineering — это всё.
Вот в чём магия:
🔥 Как сделать агента умнее и стабильнее:
- Пишите промпты максимально статичным → больше KV-cache попаданий, меньше затрат
- Prefill: заранее задавай структуру ответа — модель будет вызывать нужные инструменты
- Используй файлы как память: сохраняй пути, а не сами данные
- Повторяй цели → LLM не забудет, зачем она вообще тут
- Не удаляй ошибки: проваленные tool-calls помогают модели адаптироваться
- Разнообразь few-shot-примеры: одинаковые шаблоны делают агента тупым
📈 Это не просто лайфхаки — это реально меняет эффективность агента в проде.
📌 Подробнее
👍5❤4🔥3
💻 Transformer Engine — библиотека от NVIDIA для ускорения работы Transformer-моделей на GPU, включая поддержку 8-битной точности на архитектурах Hopper и Blackwell. Проект предлагает оптимизированные компоненты для популярных архитектур вроде BERT и GPT, упрощая mixed-precision обучение без потери точности.
Вместо стандартного FP32 обучение можно проводить в FP8, что значительно снижает потребление памяти и ускоряет процесс. Библиотека интегрируется с PyTorch и JAX, а также поддерживает FlashAttention для эффективного вычисления внимания. Подходит для работы с крупными языковыми моделями.
🤖 GitHub
@machinelearning_ru
Вместо стандартного FP32 обучение можно проводить в FP8, что значительно снижает потребление памяти и ускоряет процесс. Библиотека интегрируется с PyTorch и JAX, а также поддерживает FlashAttention для эффективного вычисления внимания. Подходит для работы с крупными языковыми моделями.
🤖 GitHub
@machinelearning_ru
❤5🔥3🥰1
🏆 Кремний получил конкурента!
Китайские исследователи вырастили 2-дюймовую пластину из индия селенидa — и транзисторы на ней уже обгоняют кремний по будущим бенчмаркам.
🔬 Индий селенид (InSe) — «золотой полупроводник»: лёгкие носители заряда, хороший запрещённый диапазон и сверхбыстрые электроны. Проблема: элементы испаряются с разной скоростью, и раньше удавалось получить только микрофлейки.
Теперь команда Пекинского университета решила это: напылили аморфный InSe на сапфир, покрыли жидким индий и нагрели до 550 °C. Получились крупные кристаллы с идеальной химией.
📉 Ключ: метрика energy-delay product (энергия × время переключения) у новых транзисторов уже лучше, чем ожидаемые показатели кремния на 2037 год!
Это может изменить всё: быстрее, меньше энергии, дешевле.
🔗 https://science.org/doi/10.1126/science.adu3803
Китайские исследователи вырастили 2-дюймовую пластину из индия селенидa — и транзисторы на ней уже обгоняют кремний по будущим бенчмаркам.
🔬 Индий селенид (InSe) — «золотой полупроводник»: лёгкие носители заряда, хороший запрещённый диапазон и сверхбыстрые электроны. Проблема: элементы испаряются с разной скоростью, и раньше удавалось получить только микрофлейки.
Теперь команда Пекинского университета решила это: напылили аморфный InSe на сапфир, покрыли жидким индий и нагрели до 550 °C. Получились крупные кристаллы с идеальной химией.
📉 Ключ: метрика energy-delay product (энергия × время переключения) у новых транзисторов уже лучше, чем ожидаемые показатели кремния на 2037 год!
Это может изменить всё: быстрее, меньше энергии, дешевле.
🔗 https://science.org/doi/10.1126/science.adu3803
❤12🔥5👍3