Машинное обучение digest – Telegram

Машинное обучение digest

@machinelearnindigest

47 subscribers

1.51K photos

203 videos

785 links

Download Telegram

About

Blog

Apps

Platform

Машинное обучение digest

Машинное обучение digest

Forwarded from Machinelearning

⚡️ MobileLLM: набор SLM от Facebookresearch.

MobileLLM — семейство авторегрессионных языковых моделей на оптимизированной архитектуре трансформера для использования на устройствах с ограниченными ресурсами.

В создании MobileLLM были использованы: функция активации SwiGLU, шэринг эмбединга и grouped-query attention. Модели обучались на датасете в 1 трлн. токенов

MobileLLM-125M/350M более точны на 2,7%/4,3% по сравнению с другими моделями SoTA 125M/350M в задачах zero-shot рассуждений.

В открытый доступ опубликованы 4 модели c контекстом 2 тыс. токенов:

🟢

MobileLLM-125M. 30 Layers, 9 Attention Heads, 3 KV Heads. 576 Token Dimension;

🟢

MobileLLM-350M. 32 Layers, 15 Attention Heads, 5 KV Heads. 960 Token Dimension;

🟢

MobileLLM-600M. 40 Layers, 18 Attention Heads, 6 KV Heads. 1152 Token Dimension;

🟢

MobileLLM-1B. 54 Layers, 20 Attention Heads, 5 KV Heads. 1280 Token Dimension;

▶️ Инференс моделей возможен на HF Transformers или с использованием MobileLLM от facebookresearch.

▶️ Код для файнтюна и тренировки семейства MobileLLM доступен в репозитории MobileLLM.

📌Лицензирование: CC-BY-NC-4.0 License.

🟡

Коллекция моделей на HF

🟡

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #SLM #MobileLLM

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

1 view15:13

Машинное обучение digest

⚡️ MobileLLM: набор SLM от Facebookresearch.

MobileLLM — семейство авторегрессионных языковых моделей на оптимизированной архитектуре трансформера для использования на устройствах с ограниченными ресурсами.

В создании MobileLLM были использованы: функция активации SwiGLU, шэринг эмбединга и grouped-query attention. Модели обучались на датасете в 1 трлн. токенов

MobileLLM-125M/350M более точны на 2,7%/4,3% по сравнению с другими моделями SoTA 125M/350M в задачах zero-shot рассуждений.

В открытый доступ опубликованы 4 модели c контекстом 2 тыс. токенов:

🟢

MobileLLM-125M. 30 Layers, 9 Attention Heads, 3 KV Heads. 576 Token Dimension;

🟢

MobileLLM-350M. 32 Layers, 15 Attention Heads, 5 KV Heads. 960 Token Dimension;

🟢

MobileLLM-600M. 40 Layers, 18 Attention Heads, 6 KV Heads. 1152 Token Dimension;

🟢

MobileLLM-1B. 54 Layers, 20 Attention Heads, 5 KV Heads. 1280 Token Dimension;

▶️ Инференс моделей возможен на HF Transformers или с использованием MobileLLM от facebookresearch.

▶️ Код для файнтюна и тренировки семейства MobileLLM доступен в репозитории MobileLLM.

📌Лицензирование: CC-BY-NC-4.0 License.

🟡

Коллекция моделей на HF

🟡

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #SLM #MobileLLM

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

1 view15:13

Машинное обучение digest

✔️

ORCA Computing представила квантовую систему PT-2.

PT-2 - новейшая система фотонных квантовых систем. Она создана на основе PT-1, которая была успешно развёрнута в 7 локальных средах, и предназначена для коммерческих решений, интегрируемых с высокопроизводительными вычислительными инфраструктурами.

PT-2 обладает улучшенными квантовыми возможностями машинного обучения, согласованными с платформой разработки NVIDIA CUDA-Q, что позволяет интегрироваться с моделями генеративного ИИ. Эта разработка поможет организациям более эффективно внедрять квантовые вычисления в свои рабочие процессы ИИ.
techerati.com

✔️ GitHub выпустили свой ежегодный отчет об индустрии опенсорса.
— В связи с развитием ИИ-ассистентов разработчики активно переходят с JavaScript на Python;
— За 2024 год команды внесли 5,2 миллиарда изменений в 518 миллионов проектов;
— Ожидается, что к 2028 году Индия превзойдет США по числу разработчиков;
— Благодаря доминированию Python использование Jupyter Notebooks увеличилось почти вдвое (+92%).
github.blog/news-insights/

✔️

Google запускает новую функцию поиска в интернете для Gemini API и Google AI Studio.

Google представил функцию "Grounding with Google Search" для Gemini API и Google AI Studio, позволяющую разработчикам получать более точные и актуальные ответы от моделей Gemini, опираясь на данные поиска Google.

Эта функция уменьшает вероятность галлюцинаций и обеспечивает доступ к информации в режиме реального времени, делая приложения ИИ более релевантными. "Grounding" предоставляет ссылки на источники информации и направляет пользователей к соответствующим результатам поиска.

Функция доступна для платных тарифов в Google AI Studio и в API. используя платный уровень.
developers.googleblog.com

✔️

Claude теперь доступен в виде десктопного приложения.

Anthropic выпустила десктопное приложение Claude для Mac и Windows. Приложение практически не отличается от веб-версии и позволяет задавать вопросы, просматривать предыдущие чаты и избранные беседы.

Преимуществом является более удобный доступ к Claude прямо с рабочего стола, без необходимости открывать веб-сайт. Функция “computer use”, позволяющая Claude 3.5 Sonnet управлять компьютером, пока недоступна в приложении.

Anthropic также добавила поддержку диктовки в мобильные приложения Claude для Android и iOS.
theverge.com

✔️

Nvidia потребуется одобрение ЕС для покупки стартапа Run:ai.

Производителю чипов потребуется получить одобрение антимонопольных органов ЕС для приобретения стартапа в области ИИ Run:ai, поскольку сделка может угрожать конкуренции на рынках, где работают обе компании.

Nvidia объявила о покупке израильской компании Run:ai в апреле, сумма сделки составит около 700 миллионов долларов. Хотя сделка не достигает порога оборота ЕС, требующего запроса одобрения, она была направлена в итальянское антимонопольное ведомство, которое, в свою очередь, обратилось в Еврокомиссию.

Технология Run:ai позволяет разработчикам управлять и оптимизировать свою инфраструктуру ИИ.
reuters.com

✔️

Международная группа ученых разрабатывает методы мониторинга безопасности аккумуляторов с помощью ML.

Учёные из Технического университета Дармштадта (Германия) и MIT (США) разработали новые методы анализа безопасности литий-ионных аккумуляторов, используемых в электромобилях и системах хранения энергии.

Метод, сочетающий физические техники с машинным обучением, позволяет обнаруживать зависящие от времени и эксплуатационные изменения в аккумуляторных элементах. Для исследования учёные использовали уникальный набор данных, предоставленный анонимным партнёром: данные 28 аккумуляторных систем, возвращённых производителю из-за проблем. Набор данных включает более 133 миллионов строк данных из 224 аккумуляторных элементов и является одним из первых подобных, ставших общедоступными.

Результаты исследований подтверждают, что часто только одна ячейка в аккумуляторной системе демонстрирует аномальное поведение, которое может повлиять на всю систему.
batteriesnews.com

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

1 view12:49

Машинное обучение digest

This media is not supported in your browser

VIEW IN TELEGRAM

🌟 InkSight: Преобразование рукописных заметок в цифровой формат с анимацией почерка.

InkSight - модель, разработанная в Google Research, для конвертации изображений рукописных заметок в цифровой формат, воспроизводящий процесс написания. Эта технология, "derendering", позволяет преобразовать физический почерк в цифровую форму, сохраняя его индивидуальность и динамику.

InkSight в отличие от OCR , выполняет захват рукописного текста в виде набора штрихов, а не просто преобразует его в текст.

Процесс преобразования входного изображения с рукописным текстом разбит на три этапа: OCR для извлечения слов, обработка каждого слова по отдельности и замена пиксельного представления слов штрихами.

Для обучения модели используются пары изображений текста и соответствующих цифровых штрихов. Штрихи, полученные из траекторий письма в реальном времени, представляются в виде последовательности точек, а соответствующее изображение создается путем рендеринга этих штрихов.

Уникальный этап в обучении модели - "ink tokenizer", преобразующий точки в формат, удобный для обработки LLM.

Архитектура InkSight вдохновлена моделью Pali и состоит из кодера ViT и кодер-декодера mT5. Были обучены три варианта модели:

🟠

Small-i - 340M (ViT B/16 + mT5-base), обучена на датасете JFT-300M;

🟢

Small-p - 340М (ViT B/16 + mT5-base), обучена на датасете ImageNet-21k;

🟠

Large-i - 1B (ViT L/16 + mT5-large), обучена на датасете JFT-300M.

Все модели используют контекст длиной 1024 для инференса и 128 для ввода.

Результаты качественной оценки с базовым методом GVS (General Virtual Sketching) показали, что модели InkSight более точно воспроизводят текстовое содержимое, игнорируя нерелевантный фон, и лучше справляются с окклюзиями по сравнению с GVS.

Количественная оценка показала, что большинство штрихов, сгенерированных моделью Large-i, сопоставимы по качеству с результатами, полученными вручную.

⚠️ В открытый доступ опубликована модель InkSight small-p в вариантах для запуска на CPU\GPU и TPU, дополнительные материалы, упомянутые в техническом отчете и ноутбук с инфренсом модели на нескольких примерах + пример кода для выполнения инференса.

▶️Локальный запуск клонированием InkSight Demo HF :

# Clone the huggingface space
git clone https://huggingface.co/spaces/Derendering/Model-Output-Playground

# Install the dependencies (skip if you have them already)
pip install gradio gdown

# Run the Gradio Playground
python app.py

📌Лицензирование: Apache 2.0 License.

🟡

Страница проекта

🟡

🟡

🟡

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #InkSight #GoogleResearch

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

1 view13:33

Машинное обучение digest

✔️

Китайские военные используют ИИ-модель Llama для создания военного ИИ.

В исследовательской статье, опубликованной в июне, 6 китайских ученых из 3 учреждений, связанных с Академией военных наук (AMS) НОАК, описали процесс адаптации версии Llama для создания ChatBIT.

Инструмент был разработан с использованием модели Llama-13B и дополнительных параметров для сбора и обработки разведданных, а также предоставления информации для принятия оперативных решений.

ChatBIT был настроен для «диалога и ответов на вопросы в военной области» и показал производительность, превосходящую некоторые другие модели ИИ, достигая уровня 90% возможностей ChatGPT-4 от OpenAI.

Официальные представители компании-разработчика Llama заявили, что любое использование ее моделей НОАК является несанкционированным и противоречит политике компании.
reuters.com

✔️

ИИ создаёт виртуальный мир Minecraft в режиме реального времени.

Компании Decart и Etched представили версию игры Minecraft, полностью сгенерированную ИИ, без написания кода. Модель Oasis обучалась на миллионах часов игрового процесса Minecraft, изучая физику, окружение и управление игрой.

Демонстрация, созданная с использованием метода предсказания следующего кадра, позволяет пользователям взаимодействовать с виртуальным миром в режиме реального времени, но имеет ограничения: низкое разрешение, кратковременные сеансы игры и "галлюцинации", когда элементы игрового мира внезапно меняются.

Компании планируют улучшить качество генерации с помощью нового чипа Sohu, который, как утверждается, увеличит производительность в 10 раз. В будущем разработчики видят потенциал технологии в создании виртуальных помощников и обучающих программ в режиме реального времени.
technologyreview.com

✔️

ИИ вытесняет фэшн-моделей из индустрии рекламы.

Бренд Mango, один из первых внедривших ИИ-моделей в свою рекламу, сообщил о рекордных доходах. Генеральный директор Mango Тони Руис отметил, что использование ИИ позволяет создавать контент быстрее. Компания планирует использовать виртуальных моделей для всех своих коллекций в будущем.

Согласно Bloomberg, Nike, Louis Vuitton и Levi Strauss & Co. также рассматривают возможность использования ИИ-аватаров. Стоимость их использования значительно ниже, чем оплата услуг реальной модели: $29 в месяц против $35 в час.
nypost.com

✔️

Компания Марка Цукерберга продолжит наполнять свои платформы сгенерированным ИИ контентом.

В ходе конференции с инвесторами, Цукерберг рассказал, что компания планирует добавить "совершенно новую категорию контента", которая будет сгенерирована, обобщена или скомпилирована ИИ. Он подчеркнул, что этот подход основан на успехе рекомендательных алгоритмов, которые уже сейчас продвигают в ленты пользователей контент от незнакомых им авторов.

По словам Марка, ИИ поможет создавать контент, который сделает ленты пользователей "более интересными и увлекательными". В то же время, его компания признает, что рост времени, проведенного пользователями на платформах, достигается за счет снижения качества контента и уменьшения человеческого взаимодействия.
404media.co

✔️

Использование LLM может ухудшить творческие способности человека.

В Университете Торонто исследовали влияние LLM на творческие способности человека. В ходе экспериментов участники выполняли задания на дивергентное и конвергентное мышление, используя GPT-4o для получения идей или структурированного руководства.

Результаты показали, что хотя LLM повышают производительность во время использования, в долгосрочной перспективе они снижают способность человека мыслить творчески самостоятельно. Участники, не использовавшие LLM, продемонстрировали лучшие результаты в тестовой фазе, выполняя задания без помощи модели.

Кроме того, исследование подтвердило, что использование LLM приводит к гомогенизации идей, то есть снижению их разнообразия.
techxplore.com

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

1 view09:01

Машинное обучение digest

Media is too big

VIEW IN TELEGRAM

🌟 D-FINE: метод регрессии bounding box в детекторах объектов на основе DETR.

D-FINE - детектор объектов в режиме реального времени, который предлагает улучшение регрессии bounding box в моделях DETR . D-FINE обладает высокой точностью локализации, определяя регрессию рамок как процесс итеративного уточнения распределений вероятностей.

D-FINE состоит из двух компонентов:

🟠Мелкозернистое уточнение распределения (Fine-grained Distribution Refinement, FDR).

FDR преобразует процесс регрессии из предсказания фиксированных координат в итеративное уточнение распределений вероятностей. Эта техника дает более детальное промежуточное представление, что повышает точность локализации.

🟠Глобальная оптимальная локализованная самодистилляция (Global Optimal Localization Self-Distillation, GO-LSD).

GO-LSD - двунаправленная стратегия оптимизации, которая передает знания о локализации из уточненных распределений в более ранние слои модели через самодистилляцию.

Старшие версии D-FINE-L и D-FINE-X достигают 54,0% и 55,8% AP на наборе данных COCO соответственно, работая со скоростью 124 и 78 FPS на GPU NVIDIA T4.

При предварительном обучении на Objects365 D-FINE-L и D-FINE-X показывают 57,1% и 59,3% AP, что выше всех существующих детекторов реального времени.

Разработчики D-FINE предлагают несколько предобученных моделей на датасетах Objects365 и COCO под разные задачи и мощности. Все модели поддерживают инференс на изображениях и видео с использованием ONNX Runtime, TensorRT и PyTorch:

🟢

D-FINE-S: Самая компактная и быстрая модель (3.49 мс на T4 GPU);

🟢

D-FINE-M: Модель среднего размера, баланс между точностью и скоростью (5.62 мс на T4 GPU);

🟢

D-FINE-L: Модель высокой точности (8.07 мс на T4 GPU);

🟢

D-FINE-X: Самая крупная и точная модель (12.89 мс на T4 GPU).

D-FINE предоставляет инструменты для обучения, бенчмаркинга, визуализации с помощью FiftyOne и инструкции по организации наборов данных.

▶️Локальный инференс на примере ONNX:

# Create env via conda
conda create -n dfine python=3.11.9
conda activate dfine

# Install requirements for inference
pip install -r tools/inference/requirements.txt

# Install ONNX
pip install onnx onnxsim

# Choose a model
export model=l # s, m, x

# Inference 
python tools/inference/onnx_inf.py --onnx model.onnx --input image.jpg # video.mp4

📌Лицензирование: Apache 2.0 License.

🟡

🖥

Github

@ai_machinelearning_big_data

#AI #ML #DETR #DFine #Detection

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

1 view08:32

Машинное обучение digest

⚡️ Hunyuan-Large: MoE-модель с 389 млрд. параметров.

Hunyuan-Large - самая большая на сегодняшний день открытая модель на основе Transformer с архитектурой MoE. Модель мультиязычна и имеет 389 млрд. параметров, из которых 52 млрд. активных, контекстное окно в 256 тыс. токенов (128 тыс. токенов у instruct-версии). В открытый доступ опубликованы 3 версии:

🟢

🟢

Hunyuan-Large-Instruct

🟢

Hunyuan-Large-Instruct-FP8

Архитектура Hunyuan-Large основана на классическом Transformer с использованием MoE. Модель состоит из 64 слоев, 80 attention heads и 16 специализированных экспертов, из которых для каждого токена активируется только один эксперт.

Для оптимизации использования памяти во время инференса в Hunyuan-Large используется сжатие KV-кэша с помощью GQA и CLA.

GQA группирует attention heads, а CLA шэрит KV-кэш между соседними слоями, тем самым сокращая использование KV-кэша почти на 95% по сравнению с оригинальным MHA.

Активации экспертов происходит с помощью смешанной стратегии маршрутизации: все токены обрабатываются одним общим экспертом, а специализированные эксперты выбираются с помощью top-k маршрутизации. Чтобы не терять информацию из-за перегрузки экспертов, была разработана стратегия «рециркуляционной маршрутизации», которая рероутит токены от перегруженных экспертов к свободным.

Перед обучением Hunyuan-Large разработчики провели исследования законов масштабирования для моделей MoE. Оптимальное количество активных параметров (52 млрд) и объем обучающих данных (7 трлн. токенов) были определены на основе анализа isoFLOPs кривой.

Hunyuan-Large превосходит по производительности LLama3.1-70B, LLama3.1-405B, Mixtral-8x22B и DeepSeek-V2 в в агрегированных бенчмарках (MMLU, MMLU-Pro), рассуждении CommonsenseQA, PIQA, WinoGrande и HellaSwag), программировании (HumanEval и MBPP), математике (GSM8K и MATH) и классических NLP-задачах (TriviaQA, NaturalQuestions, DROP и ARC-C).

🟡

Набор моделей

🟡

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #LLM #MoE #HunyuanLarge #Tencent

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

2 views16:13

Машинное обучение digest

🌟 Hunyuan3D-1.0: генерации 3D-моделей по тексту и изображению.

Hunyuan3D-1.0 - двухэтапная система для быстрой генерации 3D-моделей по текстовым запросам или изображениям. Модель представлена в трех версиях:

🟢

Hunyuan3D-1 Lite - облегченная версия многовидовой генерации;

🟢

Hunyuan3D-1 Standard - стандартная версия многовидовой генерации;

🟢

Hunyuan3D-1 Sparse view reconstruction - модель реконструкции с ограниченным набором видов.

▶️

Ключевые особенности Hunyuan3D-1.0:

🟠Генерация 3D-модели занимает всего 10 секунд для облегченной версии и 25 секунд для стандартной версии;

🟠Высокая детализация текстур и геометрии;

🟠Динамическая регулировка CFG в процессе генерации;

🟠Модуль суперразрешения повышает разрешение трехплоскостных карт для создания детализированных аспектов 3D-формы;

🟠Использование функции знаковых расстояний (SDF) позволяет преобразовать неявную репрезентацию 3D-формы в явную сетку с помощью алгоритма Marching Cubes.

▶️

Пайплайн Hunyuan3D-1.0:

Первый этап Hunyuan3D-1.0 основан на многовидовой диффузионной модели, которая генерирует набор RGB-изображений с разных ракурсов. Эти изображения, фиксирующие детали 3D-объекта с различных точек зрения, поступают на вход во второй этап - модель реконструкции.

Модель реконструкции преобразует многовидовые изображения в готовую 3D-модель. Она обучена обрабатывать шумы и несоответствия, присущие многовидовой диффузии, и использовать информацию из входного изображения или текста для восстановления 3D-структуры.

▶️

Как обучалась Hunyuan3D-1.0:

Обучение многовидовой диффузионной модели и модели реконструкции осуществляется раздельно. Lite-версия многовидовой модели использует SD-2.1 в качестве основы, a standard-версия основана на SDXL.

Модель реконструкции сначала обучалась на многовидовых изображениях разрешением 256x256, а затем донастраивалась на изображениях разрешением 512x512. Весь процесс обучения проводился на 64 графических процессорах A100.

▶️ Оценка Hunyuan3D-1.0:

Для оценки Hunyuan3D-1.0 использовались датасеты GSO и OmniObject3D с выборкой около 70 объектов. В качестве метрик использовались расстояние Чамфера (CD) и F-мера, которые являются стандартными показателями точности реконструкции 3D-форм.

Standard-версия модели показала лучшие результаты по метрикам CD и F-score на обоих датасетах. Hunyuan3D-1.0 достигла оптимального баланса между качеством и скоростью по результаты сравнения с другими моделями.

Инференс Hunyuan3D-1.0 доступен в CLI и с Gradio UI. Описание ключей запуска для CLI и список преднастроенных скриптов для запуска можно найти в репозитории проекта на Github.

⚠️ Позиции камеры на инференсе зафиксированы на азимуте (относительно позиции камеры на входе) +0, +60, +120, +180, +240, +300.

⚠️ Рекомендованная VRAM - 40GB, но по неподтвержденным данным из issue - запускается c 20 GB на 3090.

▶️Локальный запуск с GradioUI:

# Cloning the repository
git clone https://github.com/tencent/Hunyuan3D-1
cd Hunyuan3D-1

# Create conda env
conda create -n hunyuan3d-1 python=3.9
conda activate hunyuan3d-1
bash env_install.sh

# Run Gradio UI with Hunyuan3D-1.0 Lite
python app.py --use_lite 

# Open in browser link http://127.0.0.1:8080/

📌Лицензирование: Tencent Hunyuan Non-Commercial License.

🟡

🟡

Техотчет

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #TextTo3D #ImgTo3D #Hunyuan3D #Tencent

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

3 views11:36