Машинное обучение digest
47 subscribers
1.49K photos
201 videos
774 links
Download Telegram
⚡️ Machine Learning: Медицинский дайджест за период 7.09 - 14.09 2024 года

🟩 GP-GPT: LLM для сопоставления генов и фенотипов.

Результаты показывают, что GP-GPT превосходит по производительности Llama2/3 и GPT-4, в задачах, связанных с извлечением информации о генах и заболеваниях.

🟩 GMISeg: сегментация медицинских изображений без переобучения.


GMISeg (General Medical Image Segmentation) - модель для решения задач сегментации медицинских изображений без необходимости переобучения. Модель использует предварительно обученный на ImageNet энкодер изображений ViT и low-rank стратегию тонкой настройки к энкодеру подсказок и декодеру маски для эффективного обучения.

🟦 CoD: повышение интерпретируемости медицинских LLM.

Chain of Diagnoses (CoD) — это метод, который направлен на повышение прозрачности и объяснимости процесса диагностики с помощью больших языковых моделей. CoD разбивает процесс постановки диагноза на пять этапов, имитируя действия врача.

🔸Arxiv 🔸Github 🔸DiagnosisGPT-7B 🔸DiagnosisGPT-34B

🟦 AI Virtual Cell: Как создать виртуальную клетку с помощью ИИ.

AIVC — концепция модели, которая способна имитировать поведение молекул, клеток и тканей. Эта модель обучается на огромном количестве биологических данных, включая геномную информацию, изображения и результаты экспериментов.

Главная особенность AIVC — универсальные представления (UR). Они располагают биологические данные в многомерном пространстве, сохраняя при этом важные связи и закономерности.

🟦 Диагностика кожных заболеваний: интерпретируемое визуальное обнаружение концепций с SAM.

В исследовании рассматривается проблема диагностики кожных заболеваний на основе анализа клинических фотографий, полученных с помощью смартфонов. Авторы предлагают методику, основанную на использовании модели сегментации изображений SAM и cross-attention архитектуры.

🟦 Explicd:объяснимый диагноз на основе классификации медицинских изображений.


Explicd — модель, разработанная для объяснимой классификации медицинских изображений. Она способна не только делать точные описания, но и предоставлять обоснование своих решений, понятное для человека.

В основе архитектуры Explicd лежит интеграция диагностических критериев, сформулированных на естественном языке, с визуальными концепциями, извлеченными из изображений. Вначале Explicd запрашивает соответствующие знания из LLM (GPT-4) или получает их от экспертов. Эти знания преобразуются в текстовые диагностические критерии: цвет, форму, текстуру или специфические паттерны, характерные для анализируемого заболевания.

🟦 ReXErr: генерация клинических ошибок в отчетах по диагностической радиологии.

ReXErr продемонстрировал способность создавать различные типы ошибок в одном отчете с вариациями в пределах каждого подтипа ошибки. В выборке из 100 исходных отчетов с ошибками, рассмотренных клиницистом, 83 модифицированных отчета были признаны правдоподобными, в то время как только 17 содержали ошибки, которые были неправдоподобны в отчетах, сгенерированных LLM, или в отчетах, написанных врачом.

🟦 Тонкая настройка LLM для медицины: роль DPO.

В исследовании Стэнфордского университета изучается важность точной настройки LLM для задач клинической обработки естественного языка. Авторы сравнивают две распространенные методики: контролируемую точную настройку (SFT) и прямую оптимизацию параметров (DPO).

Результаты показали, что для простой классификации текста SFT достаточно, в то время как для более сложных задач - клиническое рассуждение, суммирование и сортировка, DPO значительно улучшает производительность. Авторы связывают это с тем, что DPO позволяет модели обучаться на контрасте между желательными и нежелательными ответами, что способствует более глубокому пониманию контекста.

📌 Подробности

#news #ai #ml #medtech

@ai_machinelearning_big_data
🌟 PDLP: метод быстрого решения задач линейного программирования.

PDLP (PDHG для LP) - это метод быстрого решения задач линейного программирования с высокой точностью, что важно для многих областей применения - от машинного обучения до оптимизации бизнес-процессов.

PDLP ориентирован на решение крупномасштабных задач, где традиционные методы, такие как симплекс-метод и метод внутренних точек, становятся неэффективными из-за необходимости факторизации матриц.

В основе PDLP лежит принцип primaldual hybrid gradient (PDHG), примененный к задаче седловой точки, эквивалентной исходной задаче ЛП. Для повышения эффективности PDHG в PDLP реализован ряд усовершенствований:

🟢адаптивный выбор шага;
🟢адаптивный перезапуск;
🟢динамическое обновление весов первичных переменных;
🟢предварительное решение;
🟢диагональное предобуславливание.

Алгоритм PDLP начинает работу с предварительного решения и диагонального предобуславливания. Предварительное решение упрощает задачу путем выявления и устранения избыточных ограничений, переменных и других упрощений.

Диагональное предобуславливание масштабирует матрицу ограничений для улучшения сходимости алгоритма. После выполнения этих операций запускается основной итерационный процесс PDHG с адаптивным выбором шага и перезапусками.

Для оценки эффективности алгоритма PDLP использовались три набора данных: MIP Relaxations, LP benchmark и Netlib. Результаты сравнивались с baseline PDHG и с другими методами первого порядка: SCS (в прямом и матрично-свободном режимах) и улучшенной реализацией метода экстраградиента.

Эксперименты показали, что PDLP значительно превосходит baseline PDHG по скорости решения задач и количеству решенных задач. При этом PDLP на некоторых задачах показывает производительность, сопоставимую с коммерческим решателем линейного программирования Gurobi.

Важным результатом является успешное применение PDLP для решения задачи ранжирования веб-страниц PageRank, где традиционные методы не справляются из-за больших размеров задачи.

Тестирование проводилось на случайных графах типа Barabási-Albert с макс. количеством узлов до 10^7.

PDLP успешно решил задачи PageRank за 5.4 часа (граф 10^7 узлов с точностью 10^-8), в то время как Gurobi столкнулся с ошибками нехватки памяти.

▶️ Экспериментальная реализация для решения задач линейного программирования методами PDLP на графических процессорах NVIDIA в среде языка программирования Julia:

# set up the necessary packages:
$ julia --project -e 'import Pkg; Pkg.instantiate()'

# run solve.jl script
$ julia --project scripts/solve.jl \
--instance_path=INSTANCE_PATH --output_directory=OUTPUT_DIRECTORY \
--tolerance=TOLERANCE --time_sec_limit=TIME_SEC_LIMIT

# The results are written to JSON and text files
# in is the working directory.


📌Лицензирование : MIT и Apache 2.0 License.


🟡Arxiv
🖥Github


@ai_machinelearning_big_data

#AI #ML #LP #PDLP
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Новостной дайджест

✔️ Cloudflare позволит сайтам взимать плату с AI-ботов за скрапинг.

В следующем году Cloudflare планирует запустить торговую площадку, на которой владельцы веб-сайтов смогут продавать разработчикам моделей ИИ доступ к своему контенту для обучения. Это решение является частью стратегии компании, направленной на предоставление владельцам сайтов большего контроля над ИИ-ботами.

Новая торговая площадка предложит различные варианты оплаты: от фиксированной платы до модели, основанной на количестве запросов.

Многие разработчики ИИ используют контент небольших веб-сайтов без соответствующей компенсации, что негативно отражается на бизнес-моделях этих сайтов, а также приводит к увеличению нагрузки на серверы и росту расходов.
techcrunch.com

✔️ AnySkin - универсальный сменный тактильный датчик для роботов.

AnySkin - это новый сенсорный датчик для роботов, который легко собирается, совместим с различными манипуляторами и может быть использован на разных типах поверхностей.

Датчик работает за счет измерения искажений магнитного поля, создаваемого намагниченными железными частицами на сенсорной поверхности.

Благодаря гибкой и легко заменяемой конструкции AnySkin решает проблему долговечности и универсальности, которая долгое время препятствовала развитию эффективных тактильных сенсоров для роботов.
any-skin.github.io

✔️ В Китае открылась первая в мире больница с AI - врачами.

«Agent Hospital» - детище Tsinghua University открылся в Пекине. В клинике "работают" 14 ИИ-врачей и 4 виртуальные медсестры. Agent Hospital может обслуживать 10 000 пациентов всего за несколько дней, в то время как у врачей-людей на это ушло бы до двух лет.

Интеграция ИИ в медицинское обслуживание должна повысить доступность, скорость и оперативность реагирования на потребности пациентов.

С ростом спроса на медицинские услуги и увеличением нагрузки на медицинских работников, решения по типу такой клиники может снизить нагрузку на врачей и медсестер, предоставляя при этом быстрый и точный уход за пациентами.
thedailycpec.com

✔️ Intel Gaudi 3 выйдет на следующей неделе.

Intel готовится выпустить на следующей неделе свой новый ИИ-ускоритель Gaudi 3, который, по заявлению компании, превосходит по энергоэффективности своего предшественника более чем в два раза и способен запускать ИИ-модели в 1,5 раза быстрее, чем GPU Nvidia H100.

Ускоритель был протестирован на Llama от Meta и Falcon от TII, и продемонстрировал способность эффективно обучать и развертывать языковые и мультимодальные модели.

В 2025 году Intel планирует выпустить Falcon Shores – преемника Gaudi 3, который объединит ИИ-возможности Gaudi с мощными GPU Intel в одном корпусе.
analyticsindiamag.com

✔️ В Калифорнии принят закон, защищающий наследие умерших артистов.

Сенат Калифорнии принял законопроект №1836, который запрещает использование "цифровых копий" умерших артистов без согласия их наследников.

Закон распространяется на фильмы, телепередачи, видеоигры, аудиокниги, звукозаписи и другие медиа. Эта инициатива стала результатом протестов профсоюза актеров SAG-AFTRA против использования ИИ без контроля со стороны артистов.

Закон определяет «цифровую копию» как созданное компьютером, очень реалистичное электронное медиа, которое легко идентифицируется как голос или образ человека.

Новая правовая мера направлена на то, чтобы помочь наследникам умерших артистов контролировать использование их наследия. Ожидается, что закон в ближайшее время подпишет губернатор Гэвин Ньюсом.
miamarket.it

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🌟 CUTLASS Tutorial: Быстрое матричное умножение с WGMMA на GPU NVIDIA Hopper.

Большой, подробный и лаконичный туториал в 2-х частях по оптимизации матричного умножения на микроархитектуре Hopper (H100) с использованием библиотеки CUTLASS.

CUTLASS - это набор реализаций алгоритмов линейной алгебры (шаблонов) для использования на CUDA в задачах глубокого обучения, инженерных расчетах и научных исследованиях.

▶️Первая часть посвящена инструкции WGMMA (asynchronous warpgroup matrix-multiply and accumulate) - как она работает, какие ограничения имеет на размер и расположение данных в памяти и как использовать синхронизацию для правильного выполнения операций.

В этой части подробно рассматривается концепция «ядерных матриц» и «матричных дескрипторов», которые нужны для эффективной работы с WGMMA.

✔️ Вторая часть про умножение матриц(GEMM) и методы повышения эффективности GEMM-ядра путем конвейеризации. Рассматриваются две стратегии пайплайна : многоступенчатую и warp-specialization, с подробным описанием их концепции, применением CUTLASS для их построения и сравнивается производительность стратегий.

В конце туториала кратко описывается реализация конвейеризации в GEMM-ядрах для архитектуры Ampere.


@ai_machinelearning_big_data

#AI #ML #CUTLASS #Tutorial
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
✔️ Лаборатория NASA SPAR Lab представила ИИ для космических аппаратов.

Инженеры NASA разработали OnAIR, который делает космические аппараты более автономными и отказоустойчивыми. OnAIR — это программный комплекс с открытым исходным кодом на платформе GitHub для разработки и развертывания алгоритмов ИИ.

Прототип OnAIR был протестирован в миссии NASA NAMASTE, где дроны измеряли выбросы метана в районах вечной мерзлоты на Аляске. Он позволил дронам оптимизировать сбор данных, обрабатывая информацию с датчиков и корректируя маршрут в реальном времени.

OnAIR также был протестирован на Международной космической станции (МКС) с использованием платформы SpaceCube.

Инженеры NASA интегрировали его с основной системой управления SpaceCube, преодолев технические сложности - ограниченная вычислительная мощность и адаптация ПО к архитектуре процессора.
spacenews.com

✔️ AI-чатбот от команды Facebook начнет говорить голосами Джуди Денч, Джона Сины и других знаменитостей.

Разработчики готовится представить на этой неделе голосовой чат-бот с голосами известных актеров, включая Джуди Денч, Кристен Белл и Джона Сину. Пользователи смогут выбирать голос знаменитости для взаимодействия с цифровым помощником Meta, аналогичным ChatGPT.

Запуск функции запланирован в США и других англоязычных странах и будет доступен в приложениях компании, включая Facebook, Instagram и WhatsApp.

В прошлом году Meta уже экспериментировала с добавлением элементов звездности в чат-бот, запустив текстовые версии с образами Пэрис Хилтон и Снуп Дога, но они не получили большой популярности.
reuters.com


✔️ ruMorpheme: реализация метода морфемного анализа для русского языка.

Проект на Github представляет собой программную реализацию метода "Deep Convolutional Networks for Supervised Morpheme Segmentation of Russian Language" для проведения морфемного анализа и сегментации слов русского языка.

Обученная модель проекта способна сегментировать слова на приставки, корни, соединительные гласные, дефисы, суффиксы, постфиксы и окончания.

Проект, помимо инференса, укомплектован скриптами для самостоятельной тренировки и валидации модели.
ruMorpheme

✔️ Customer Engagement Suite with Google AI: клиентский офис как сервис.

Customer Engagement Suite (CES) с Google AI — комплексное решение, которое сочетает в себе функции ИИ (Gemini Flash 1.5) для контакт-центров. CES формирует целостный и последовательный подход к обслуживанию клиентов с широким спектром сторонних решений: телефонию, CRM и HR.

Customer Engagement Suite включает в себя : Conversational Agents для создания виртуальных агентов с детерминированной (основанной на правилах) и GenAI функциональностью, Agent Assist для оказания поддержки в реальном времени, Conversational Insights для анализа данных о взаимодействии с клиентами и выявления областей для улучшения.

Платформа поддерживает многоканальное взаимодействие через веб-интерфейсы, мобильные устройства, голосовые каналы, электронную почту и приложения, и работает с текстовой, голосовой и визуальной информацией.
cloud.google.com


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ Llama 3.1-Nemotron-51B-Instruct: модель от NVIDIA по методу Neural Architecture Search.

Llama 3.1-Nemotron-51B-Instruct основана на Llama 3.1-70B и предназначена для NLP-задач генерации текста, чата, рассуждения и обобщения. Мультиязычность наследована от родительская модель. Llama 3.1-Nemotron-51B-Instruct также умеет обрабатывать языки программирования.

Архитектура модели построена с использованием методологии Neural Architecture Search (NAS) и блочной дистилляции.

NAS позволяет отобрать наиболее эффективные блоки трансформера для каждого слоя модели, а блочная дистилляция обеспечивает перенос знаний от исходной модели Llama 3.1-70B к более компактной Llama 3.1-Nemotron-51B-Instruct.

Полученная архитектура имеет нерегулярную структуру блоков с уменьшенным количеством операций внимания и полносвязных слоев, что существенно снижает вычислительную сложность и объем используемой памяти.

В процессе обучения модели использовались бенчмаркиMT-Bench и MMLU. Тестирование проводилось на задачах генерации текста, перевода и ответов на вопросы.

Результаты показали, что инференс Llama 3.1-Nemotron-51B-Instruct в 2.2 раза быстрее "родительской" модели (Llama 3.1-70B) при сохранении практически той же точности.

Благодаря сниженным требованиям к памяти, модель может обрабатывать в 4 раза большие объемы данных на одном GPU.


▶️Рекомендованные аппаратные конфигурации:

🟠FP8 - H100-80GB (версии FP8 пока нет в открытом доступе);

🟢BF16 - 2x H100-80GB GPU или 2x A100-80GB GPU.

▶️Пример инференса на Transformers (версия 4.44.2 или выше):

import torch
import transformers

model_id = "nvidia/Llama-3_1-Nemotron-51B-Instruct"
model_kwargs = {"torch_dtype": torch.bfloat16, "trust_remote_code": True, "device_map": "auto"}
tokenizer = transformers.AutoTokenizer.from_pretrained(model_id)
tokenizer.pad_token_id = tokenizer.eos_token_id

pipeline = transformers.pipeline(
"text-generation",
model=model_id,
tokenizer=tokenizer,
max_new_tokens=20,
**model_kwargs
)
print(pipeline([{"role": "user", "content": "Hey how are you?"}]))


📌Лицензирование : NVIDIA AI Foundation Models Community License.


🟡Страница проекта
🟡Модель
🟡Demo


@ai_machinelearning_big_data

#AI #ML #LLM #Nemotron
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ Выпущена мультимодальная Llama 3.2 — с упором на vision задачи.

- Доступны версии на 1B и 3B параметров. Версия с 3 миллиардами превосходит такие модели, как Gemma 2 и Phi-3.5 – Mini.
- Доступна маленькая версия имеет 11 миллиардов параметров.
- Средний вариант обладает 90 миллиардами параметров и превосходит GPT-4o-mini по тестам на визуальное понимание.

https://huggingface.co/collections/meta-llama/llama-32-66f448ffc8c32f949b04c8cf

@data_analysis_ml
✔️ Джеймс Кэмерон присоединился к совету директоров Stability AI.

Stability AI объявила о том, что легендарный режиссер Джеймс Кэмерон вошел в совет директоров компании. Это следующий шаг в реализации миссии Stability AI по трансформации визуальных медиа после назначения Hanno Basse на позицию CTO в августе этого года .

"Опыт Кэмерона в сочетании с его деловыми и техническими скиллами поможет Stability AI продолжить открывать новые возможности, позволяющие создателям рассказывать истории такими способами, которые раньше были немыслимы" (с) .
stability.ai

✔️ Google снизила цены на Gemini и представила обновление моделей.

Google выпускает две обновленные модели Gemini: Gemini-1.5-Pro-002 и Gemini-1.5-Flash-002. Разработчики могут бесплатно получить доступ к последним моделям через Google AI Studio и API Gemini. Для крупных организаций и клиентов Google Cloud модели также доступны на Vertex AI.

Обновления включают в себя снижение цены на 1.5 Pro на 50%, увеличение лимитов скорости в 2 раза для 1.5 Flash и примерно в 3 раза для 1.5 Pro, увеличение скорости вывода в 2 раза и снижение задержки в 3 раза, а также обновленные настройки фильтра по умолчанию.

1.5 Pro и Flash теперь стали лучше, быстрее и экономичнее. Google наблюдает увеличение примерно на 7% в MMLU-Pro. В бенчмарках MATH и HiddenMath обе модели добились значительного улучшения примерно на 20%.
developers.googleblog.com

✔️ Warner Bros. Discovery будет использовать ИИ Google для субтитров.

Warner Bros. Discovery заключила партнерство с Google Cloud, чтобы использовать инструмент на основе ИИ для создания субтитров для своих контент-платформ.

Caption AI использует платформу Vertex AI от Google Cloud и будет развернут в первую очередь для несценарийных программ (спортивных и реалити-шоу), чтобы сократить время и производственные затраты на создание субтитров .

WBD добавил, что реальные люди по-прежнему будут следить за использованием Caption AI для обеспечения качества на студийных каналах Max, CNN и Discovery+.
hollywoodreporter.com

✔️ Intel представила новые серверные процессоры Xeon 6900P.

Серия Xeon 6900P обещает обеспечить примерно вдвое большую производительность на ватт по сравнению с предыдущим поколением. Согласно Intel, серия Xeon 6900P также значительно лучше справляется с рабочими нагрузками искусственного интеллекта. Чипы в линейке могут выполнять некоторые задачи логического вывода в 2,3 раза быстрее, чем их предшественники.

В процессорах Xeon 6900P используются только ядра, оптимизированные для повышения производительности. Флагманский процессор серии, Xeon 6980P, поставляется с кэшем L3 объемом 504 МБ и 128 ядрами, работающими на базовой частоте 2 ГГц. При выполнении ресурсоемких рабочих нагрузок они могут почти удваивать эту скорость до 3,9 ГГц в течение коротких периодов времени.
siliconangle.com

✔️AutoToS cделает планирование LLM быстрым, точным и недорогим.

Исследователи из Корнельского университета и IBM Research представили AutoToS, новую методику, которая сочетает в себе возможности LLM по планированию со скоростью и точностью алгоритмов поиска на основе правил. AutoToS устраняет необходимость вмешательства человека и значительно снижает вычислительные затраты на решение задач планирования.

AutoToS работает в несколько этапов. Сначала он предоставляет LLM описание проблемы и предлагает сгенерировать код для функций-преемников и целевых функций. Затем он запускает модульные тесты целевой функции и предоставляет модели обратную связь в случае сбоя.

Далее модель использует эту обратную связь для исправления своего кода. После того как целевая функция проходит тесты, алгоритм запускает ограниченный поиск в ширину, чтобы проверить, являются ли функции надежными и полными. Этот процесс повторяется до тех пор, пока сгенерированные функции не пройдут все тесты. Наконец, проверенные функции подключаются к классическому алгоритму поиска для эффективного выполнения полного поиска.
venturebeat.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ Molmo: семейство state-of-art MMLM.

Molmo (Multimodal Open Language Model) - это семейство VLM, разработанных в Институте искусственного интеллекта Аллена, для решения задач обработки изображений и текста - создание подробных описаний изображений и выполнение комплексных визуальных операций, например:

🟢ответы на вопросы;
🟢обнаружение и сегментация по текстовому запросу;
🟢подсчет объектов или элементов;
🟢использование в сфере робототехники для изображений или видео;
🟢расширение возможностей VR.

▶️Molmo 72B - флагманская модель на базе Qwen2-72B в роли LLM и ViT-L/14 336px CLIP в роли visial-энкодера. Molmo-72B достигает наивысшего балла в бенчмарках и занимает второе место по человеческой оценке, лишь немного уступая GPT-4o.

▶️Molmo 7B-D и Molmo 7B-O - более утилитарные модели с разницей в исходных LLM (Qwen2-7B и OLMo-7B-1124 соответственно) и все тем же ViT-L/14 336px в качестве энкодера.

▶️ MolmoE 1B - компактная модель на архитектуре Mixture-of-Experts, основанная на OLMoE-1B-7B с 1.5B активных и 7.2B общих параметров, с производительностью, сравнимой с GPT-4V.

Обучение семейства выполнялось в 2 этапа: предварительное обучение на наборе данных PixMo-Cap для генерации аннотаций к изображениям и этап SFT с использованием комбинации академических наборов данных и наборов данных PixMo (PixMo-AskModelAnything, PixMo-Points, PixMo-CapQA, PixMo-Docs, PixMo-Clocks).

Тестирование модели проводилось на 11 бенчмарках: AI2D, ChartQA, VQA v2, DocVQA, InfographicVQA, TextVQA, RealWorldQA, MMMU, Math-Vista, CountBenchQA и Flickr Count.

Результаты показали, что Molmo, особенно модель Molmo-72B, демонстрирует производительность на уровне GPT-4o, превосходя Gemini 1.5 Pro, Flash и Claude 3.5 Sonnet.

⚠️ Модели Molmo могут испытывать трудности с прозрачными изображениями. В качестве решения, разработчики рекомендуют добавлять белый или темный фон к изображениям перед передачей их в модель, например, с помощью библиотеки PIL.


📌Лицензирование : Apache 2.0


🟡Страница проекта
🟡Коллекция моделей на HF
🟡Arxiv
🟡Demo


@ai_machinelearning_big_data

#AI #ML #Molmo #MoE #MMLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM