Новый пакет на Python, который превращает "Рецепт обучения нейронных сетей" от Андрея Карпати.
в простой в использовании код! 🔧
Больше не нужно беспорядочно копаться в вашем PyTorch DNN для его отладки.
Вы можете просто поставить себе этот пакет:
и использовать пакет
📌 Github
@machinelearning_ru
в простой в использовании код! 🔧
Больше не нужно беспорядочно копаться в вашем PyTorch DNN для его отладки.
Вы можете просто поставить себе этот пакет:
pip intall neural_net_checklist и использовать пакет
torch_diagnostic для проверки кода на наличие ошибок.📌 Github
@machinelearning_ru
👍9❤4🔥4
модель, которая позволяет создавать детализированные изображения, которые точно соответствуют текстовому промнут, комбинируя методы визуальной авторегрессии с CLIP!
Обучена на очень большом дотаяете данных изображения-текст.
📌 Github
@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7❤2🔥2
🔥 Создание изображения с высоким разрешением 16к, с использованием модели Flux-Dev + промыты для обучения Controlnet.
Датасет: https://huggingface.co/datasets/kadirnar/fluxdev_controlnet_16k
Датасет промптов: https://huggingface.co/datasets/gokaygokay/prompt-enhancer-dataset
@machinelearning_ru
Датасет: https://huggingface.co/datasets/kadirnar/fluxdev_controlnet_16k
Датасет промптов: https://huggingface.co/datasets/gokaygokay/prompt-enhancer-dataset
@machinelearning_ru
👍4❤3🔥2
Forwarded from Machinelearning
DeepSeek-Prover-V1.5 - набор из языковых моделей для доказательства теорем в Lean 4.
"V1.5" означает обновление DeepSeek-Prover-V1 с некоторыми ключевыми нововведениями.
Во-первых, процесс обучения: предварительная подготовка на базе DeepSeekMath, затем контрольная работа с набором данных, включающим логические комментарии на естественном языке и код Lean 4. Это устраняет разрыв между рассуждениями на естественном языке и формальным доказательством теоремы. В набор данных также входит информация о промежуточном тактическом состоянии, которая помогает модели эффективно использовать обратную связь с компилятором.
Во-вторых, проводится обучение с подкреплением, используя алгоритм GRPO для изучения обратной связи с помощником по проверке. Тут выравнивается соответствие модели формальным спецификациям системы проверки.
В-третьих, RMaxTS, варианте поиска в дереве по методу Монте-Карло. Он присваивает встроенные вознаграждения на основе изучения тактического пространства состояний, побуждая модель генерировать различные пути доказательства. Это приводит к более обширному исследованию пространства доказательств.
В результате получился набор моделей с абсолютной точностью генерации в 46,3% на тестовом наборе miniF2F. Этот показатель лучше, чем у GPT-4 и моделей RL, специализирующихся на доказательстве теорем.
Набор DeepSeek-Prover:
# Clone the repository:
git clone --recurse-submodules git@github.com:deepseek-ai/DeepSeek-Prover-V1.5.git
cd DeepSeek-Prover-V1.5
# Install dependencies:
pip install -r requirements.txt
# Build Mathlib4:
cd mathlib4
lake build
# Run paper experiments:
python -m prover.launch --config=configs/RMaxTS.py --log_dir=logs/RMaxTS_results
@ai_machinelearning_big_data
#AI #LLM #Math #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤2🔥2
Forwarded from Machinelearning
Llama-3.1-Minitron-4B-Width-Base - это базовая текстовая модель, которая может быть адаптирована для различных задач генерации естественного языка.
Она получена путем обрезки (pruning) Llama-3.1-8B за счет сокращения размера эмбеддинга, количества attention heads и промежуточной размерности MLP.
После было выполнено продолженное обучение с дистилляцией, используя набор данных размером 94 миллиарда токенов.
Корпус обучения (набор данных) модели Llama-3.1-Minitron-4B-Width-Base включает английские и многоязычные тексты, код и другие письменные материалы.
Источники данных охватывают различные области: право, математика, наука, финансы. Для улучшения производительности режима "чата", в процессе обучения были добавлены данные в формате вопрос-ответ.
Дата актуальности корпуса обучения - июнь 2023 года.
При создании были использованы техники Grouped-Query Attention (GQA) и Rotary Position Embeddings (RoPE).
Архитектурные характеристики:
⚠️ На момент публикации, поддержка Llama-3.1-Minitron-4B-Width-Base в Hugging Face Transformers находится на рассмотрении.
Для использования модели выполните рекомендованные разработчиками инструкции или запустите модель в NeMo v.24.05
Есть неофициальные квантованные GGUF - версии модели в семи разрядностях, от 2-bit (1. 84Gb) до 16-bit (9.03 Gb).
@ai_machinelearning_big_data
#AI #NVIDIA #LLM #ML #Minitron
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤5🔥3
⚡️ TurboEdit: Instant text-based image editing
Инверсионная сеть основана на входном изображении и восстановленном изображении с предыдущего этапа, что позволяет корректировать следующую реконструкцию в соответствии с входным изображением.
huggingface.co/papers/2408.08332
@machinelearning_ru
Инверсионная сеть основана на входном изображении и восстановленном изображении с предыдущего этапа, что позволяет корректировать следующую реконструкцию в соответствии с входным изображением.
huggingface.co/papers/2408.08332
@machinelearning_ru
👍3❤2
⚡️ LongVILA: Масштабирование моделей визуального языка с большим контекстом для создания длинных видеороликов
abs: https://arxiv.org/abs/2408.10188
код: https://github.com/NVlabs/VILA/blob/main/LongVILA.md
В новых статьях от NVIDIA предлагается мультимодальный параллелизм последовательностей (MM-SP), первая реализация параллелизма последовательностей с открытым исходным кодом, поддерживающая обучение и логический вывод многомодальных языковых моделей с длинным контекстом.
@machinelearning_ru
abs: https://arxiv.org/abs/2408.10188
код: https://github.com/NVlabs/VILA/blob/main/LongVILA.md
В новых статьях от NVIDIA предлагается мультимодальный параллелизм последовательностей (MM-SP), первая реализация параллелизма последовательностей с открытым исходным кодом, поддерживающая обучение и логический вывод многомодальных языковых моделей с длинным контекстом.
@machinelearning_ru
👍4🔥3❤2
⚡️ Обновление Алисы: технология эмоционального синтеза
Яндекс представил новую возможность своего виртуального помощника Алисы. Обновление уже доступно в Станциях Лайт 2, а позже появится на других умных устройствах. Алису научили передавать голосом целый диапазон эмоций, учитывая ситуацию общения. Для этого разработали нейросетевую модель, которая выбирает эмоцию для каждой реплики.
https://habr.com/ru/companies/yandex/articles/835528/
@machinelearning_ru
Яндекс представил новую возможность своего виртуального помощника Алисы. Обновление уже доступно в Станциях Лайт 2, а позже появится на других умных устройствах. Алису научили передавать голосом целый диапазон эмоций, учитывая ситуацию общения. Для этого разработали нейросетевую модель, которая выбирает эмоцию для каждой реплики.
https://habr.com/ru/companies/yandex/articles/835528/
@machinelearning_ru
👍7🔥4❤3
⚡️ MegaFusion: Расширяет возможности диффузионных моделей для получения изображений с более высоким разрешением без дополнительной настройки
▪abs:
https://arxiv.org/abs/2408.11001 страница ▪проект: https://haoningwu3639.github.io/MegaFusion/
@machinelearning_ru
▪abs:
https://arxiv.org/abs/2408.11001 страница ▪проект: https://haoningwu3639.github.io/MegaFusion/
@machinelearning_ru
👍4❤1🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Скрипт полностью автономно выполнил 633 задачи за 24 часа.
Алгоритм набрал 86%, а стоимость использования API составила 9 долларов.
⚡️ Тред
@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥15👍6🤔3❤1
⚡ Complete AI — канал о трендах в ИИ, разработках лаборатории FusionBrain Института искусственного интеллекта AIRI, выступлениях на конференциях, подкрепленные авторским мнением.
В канале можно найти информацию о ведущихся исследованиях лаборатории по генеративному и мультимодальному ИИ, задать интересующие вопросы об актуальных проблемах ИИ, послушать выступления Андрея на различных конференциях и подкастах.
👉Подписывайтесь на канал Complete AI и будьте в курсе свежих научных релизов
В канале можно найти информацию о ведущихся исследованиях лаборатории по генеративному и мультимодальному ИИ, задать интересующие вопросы об актуальных проблемах ИИ, послушать выступления Андрея на различных конференциях и подкастах.
👉Подписывайтесь на канал Complete AI и будьте в курсе свежих научных релизов
Telegram
Complete AI
Меня зовут Андрей Кузнецов
Руковожу лабораторией FusionBrain в AIRI, один из создателей семейства моделей Kandinsky, к.т.н., 15+ лет опыта в Computer Vision, выступаю с лекциями и пишу о событиях в AI и ML
Tg: @kuznetsoff87
Руковожу лабораторией FusionBrain в AIRI, один из создателей семейства моделей Kandinsky, к.т.н., 15+ лет опыта в Computer Vision, выступаю с лекциями и пишу о событиях в AI и ML
Tg: @kuznetsoff87
❤6👍1🔥1
Forwarded from Machinelearning
⚡️ Новостной МЛ дайджест 22 августа 2024.
✔️ Epic Systems создает более 100 новых функций ИИ для врачей и пациентов.
Epic Systems, ведущий поставщик программного обеспечения в сфере здравоохранения, интегрирует более 100 новых функций ИИ в свои платформы MyChart и Cosmos.
✔️ Новый веб-бот Werth,thuf незаметно собирает в интернете данные для обучения ИИ.
Новый веб-сканер под названием External Agent для сбора данных из интернета с целью обучения своих моделей. Бот начал свою работу в прошлом месяце, он сканирует открытые данные на сайтах, тексты новостных статей и обсуждения в онлайн-группах. External Agent пока блокируется лишь на 2% популярных сайтов, в то время как аналогичный по назначению бот OpenAI, GPTBot — на 25%.
✔️ Запущен Ideogram 2.0.
Новая txt-2-img модель превосходит предыдущие по качеству, точнее следуют промпту и корректней генерирует тест на изображениях.
✔️ Опубликован регулярный рейтинг "Top 100 Gen AI Consumer Apps" венчурного фонда Andreessen Horowitz.
четом за март 2024 г.
В первую десятку рейтинга веб-продуктов вошли : ChatGPT, character.ai, perplexity, Claude, SUNO, JanitorAI, QuillBot, Poe, liner и Civitai.
Десятка лучших мобильных приложений с ИИ: ChatGPT, Microsoft Edge, photomath, NOVA, Bing, Remini, Chat&Ask AI, BRAINLY, meitu и character.ai.
✔️ Neuroplatform: "Живые компьютеры", созданные из человеческих нейронов.
Органоиды, размером 0,5 миллиметра, соединены с электродами, которые стимулируют нейроны и имитируют естественные процессы, например, выделение дофамина.
FinalSpark предоставляет доступ к своим "биокомпьютерам" для исследователей из 34 университетов.
✔️ Skyfire запускает систему, позволяющую автономным агентам ИИ тратить деньги от вашего имени.
Компания, получившая 8,5 миллиона долларов в рамках начального раунда финансирования, стремится стать "Visa для ИИ", предоставляя ИИ-агентам возможность управлять балансами счетов, отправляя и принимая платежи.
Платформа уже доступна для разработчиков агентного ИИ и интеграции с различными сервисами.
✔️ Виртуальная fashion-модель Mango, созданная с помощью ИИ, стала вирусной в социальных сетях.
Модель "Mango AI", демонстрирующая коллекцию осень-зима 2024 года испанского бренда Mango привлекла внимание пользователей благодаря своей реалистичности и стилю.
✔️ D-ID запустила перевод видео с помощью ИИ, включающий Voice Clone и Lipsync.
Новый инструмент, доступный для подписчиков D-ID, представлен в D-ID Studio и по API, он поддерживает 30 языков, включая русский, мандаринский, японский, хинди, испанский и французский. Технология основана на собственных разработках D-ID.
✔️ Игровой ИИ-стартап анонсировал инструменты для gamedev на базе GenAI.
ИИ-стартап Exists анонсировал платформу "text-to-game", которая позволяет создавать компьютерные 3D-игры на основе текстовых подсказок, не требуя навыков в написании кода.
Анонсированный сервис использует запатентованные модели генеративного GenAI Exists для создания игрового окружения, персонажей и механики. Интегрируя архитектуру нейронных сетей с возможностями игрового движка, компания стремится упростить процесс создания игр.
✔️ Napkin AI: дешевая и простая альтернатива Adobe и Canva.
Napkin AI - это инструмент для заметок и генерации визуальных материалов из текста, который можно использовать для презентаций, статей, отчетов. Сервис быстро создает уникальные графические элементы за 10-30 секунд и поддерживает несколько языков - английский, немецкий, французский, японский и китайский.
📌 Подробнее
@ai_machinelearning_big_data
#news #ai #ml #tech
✔️ Epic Systems создает более 100 новых функций ИИ для врачей и пациентов.
Epic Systems, ведущий поставщик программного обеспечения в сфере здравоохранения, интегрирует более 100 новых функций ИИ в свои платформы MyChart и Cosmos.
✔️ Новый веб-бот Werth,thuf незаметно собирает в интернете данные для обучения ИИ.
Новый веб-сканер под названием External Agent для сбора данных из интернета с целью обучения своих моделей. Бот начал свою работу в прошлом месяце, он сканирует открытые данные на сайтах, тексты новостных статей и обсуждения в онлайн-группах. External Agent пока блокируется лишь на 2% популярных сайтов, в то время как аналогичный по назначению бот OpenAI, GPTBot — на 25%.
✔️ Запущен Ideogram 2.0.
Новая txt-2-img модель превосходит предыдущие по качеству, точнее следуют промпту и корректней генерирует тест на изображениях.
✔️ Опубликован регулярный рейтинг "Top 100 Gen AI Consumer Apps" венчурного фонда Andreessen Horowitz.
четом за март 2024 г.
В первую десятку рейтинга веб-продуктов вошли : ChatGPT, character.ai, perplexity, Claude, SUNO, JanitorAI, QuillBot, Poe, liner и Civitai.
Десятка лучших мобильных приложений с ИИ: ChatGPT, Microsoft Edge, photomath, NOVA, Bing, Remini, Chat&Ask AI, BRAINLY, meitu и character.ai.
✔️ Neuroplatform: "Живые компьютеры", созданные из человеческих нейронов.
Органоиды, размером 0,5 миллиметра, соединены с электродами, которые стимулируют нейроны и имитируют естественные процессы, например, выделение дофамина.
FinalSpark предоставляет доступ к своим "биокомпьютерам" для исследователей из 34 университетов.
✔️ Skyfire запускает систему, позволяющую автономным агентам ИИ тратить деньги от вашего имени.
Компания, получившая 8,5 миллиона долларов в рамках начального раунда финансирования, стремится стать "Visa для ИИ", предоставляя ИИ-агентам возможность управлять балансами счетов, отправляя и принимая платежи.
Платформа уже доступна для разработчиков агентного ИИ и интеграции с различными сервисами.
✔️ Виртуальная fashion-модель Mango, созданная с помощью ИИ, стала вирусной в социальных сетях.
Модель "Mango AI", демонстрирующая коллекцию осень-зима 2024 года испанского бренда Mango привлекла внимание пользователей благодаря своей реалистичности и стилю.
✔️ D-ID запустила перевод видео с помощью ИИ, включающий Voice Clone и Lipsync.
Новый инструмент, доступный для подписчиков D-ID, представлен в D-ID Studio и по API, он поддерживает 30 языков, включая русский, мандаринский, японский, хинди, испанский и французский. Технология основана на собственных разработках D-ID.
✔️ Игровой ИИ-стартап анонсировал инструменты для gamedev на базе GenAI.
ИИ-стартап Exists анонсировал платформу "text-to-game", которая позволяет создавать компьютерные 3D-игры на основе текстовых подсказок, не требуя навыков в написании кода.
Анонсированный сервис использует запатентованные модели генеративного GenAI Exists для создания игрового окружения, персонажей и механики. Интегрируя архитектуру нейронных сетей с возможностями игрового движка, компания стремится упростить процесс создания игр.
✔️ Napkin AI: дешевая и простая альтернатива Adobe и Canva.
Napkin AI - это инструмент для заметок и генерации визуальных материалов из текста, который можно использовать для презентаций, статей, отчетов. Сервис быстро создает уникальные графические элементы за 10-30 секунд и поддерживает несколько языков - английский, немецкий, французский, японский и китайский.
📌 Подробнее
@ai_machinelearning_big_data
#news #ai #ml #tech
👍7❤2🔥2
🌟 Только что вышла модель Jamba 1.5.
✨ Архитектура SSM-Transformer сочетает в себе качество Transformer и эффективность Mamba, меньший объем занимаемой памяти, более легкую тонкую настройку в длинных контекстах.
🚀 Jamba 1.5: новое открытое семейство LLM от AI21
- Варианты Mini и Large
- Новая архитектура SSM-трансформатора e
- Гибридная модель SSM-трансформера на основе смеси экспертов (MoE)
📏 Контекстное окно:
- 256K лексем (самое длинное среди открытых моделей)
- Поддерживает качество на протяжении всего контекста
⚡ Скорость:
- До 2,5 раз быстрее на длинных контекстах
- Jamba 1.5 Mini: Самый быстрый на 10K контекстах (тест искусственного анализа)
🏆 Производительность:
- Jamba 1.5 Mini: 46,1 в бенчмарке Arena Hard
- Jamba 1.5 Large: 65.4 в бенчмарке Arena Hard (превосходит Llama 3.1 70B и 405B)
💾 Новая техника квантования: ExpertsInt8
- Предназначена для моделей MoE
- Квантует веса MoE/MLP в INT8
- Самая низкая задержка среди техник квантования vLLM
- Mini позволяет разместить до 140K контекстов в одном A100
🌐 Особенности:
- Многоязыковая поддержка
- Вывод JSON, вызов функций, объекты документов, цитаты
🔧 Примеры использования:
- Анализ документов, рабочие процессы RAG, поддержка клиентов
🖥️ Доступность:
- Несколько платформ: AI21 Studio, Google Cloud, Azure, Hugging Face, NVIDIA NIM.
Поддерживается в трансформаторах и VLLM
Официальное объявление - https://ai21.com/blog/announcing-jamba-model-family
Модель - https://huggingface.co/collections/ai21labs/jamba-15-66c44befa474a917fcf55251
@machinelearning_ru
✨ Архитектура SSM-Transformer сочетает в себе качество Transformer и эффективность Mamba, меньший объем занимаемой памяти, более легкую тонкую настройку в длинных контекстах.
🚀 Jamba 1.5: новое открытое семейство LLM от AI21
- Варианты Mini и Large
- Новая архитектура SSM-трансформатора e
- Гибридная модель SSM-трансформера на основе смеси экспертов (MoE)
📏 Контекстное окно:
- 256K лексем (самое длинное среди открытых моделей)
- Поддерживает качество на протяжении всего контекста
⚡ Скорость:
- До 2,5 раз быстрее на длинных контекстах
- Jamba 1.5 Mini: Самый быстрый на 10K контекстах (тест искусственного анализа)
🏆 Производительность:
- Jamba 1.5 Mini: 46,1 в бенчмарке Arena Hard
- Jamba 1.5 Large: 65.4 в бенчмарке Arena Hard (превосходит Llama 3.1 70B и 405B)
💾 Новая техника квантования: ExpertsInt8
- Предназначена для моделей MoE
- Квантует веса MoE/MLP в INT8
- Самая низкая задержка среди техник квантования vLLM
- Mini позволяет разместить до 140K контекстов в одном A100
🌐 Особенности:
- Многоязыковая поддержка
- Вывод JSON, вызов функций, объекты документов, цитаты
🔧 Примеры использования:
- Анализ документов, рабочие процессы RAG, поддержка клиентов
🖥️ Доступность:
- Несколько платформ: AI21 Studio, Google Cloud, Azure, Hugging Face, NVIDIA NIM.
Поддерживается в трансформаторах и VLLM
Официальное объявление - https://ai21.com/blog/announcing-jamba-model-family
Модель - https://huggingface.co/collections/ai21labs/jamba-15-66c44befa474a917fcf55251
@machinelearning_ru
👍6❤4🔥4
⚡️ FLoD
Интеграция гибкого уровня детализации в 3D Gaussian Splatting для настраиваемого рендеринга
3D Gaussian Splatting (3DGS) позволяет добиться быстрой и качественной визуализации за счет использования множества мелких гауссианов, что приводит к значительному расходу памяти. Такая зависимость от большого количества гауссианов ограничивает применение моделей на основе 3DGS на слабых устройствах из-за нехватки памяти.
Однако простое уменьшение числа гауссианов для работы с устройствами с меньшим объемом памяти приводит к ухудшению качества по сравнению с качеством, которое может быть достигнуто на высокопроизводительном оборудовании.
Чтобы решить эту проблему нехватки масштабируемости, в данном методе предлагается интегрировать в 3DGS гибкий уровень детализации (FLoD), который позволит визуализировать сцену с разным уровнем детализации в зависимости от возможностей оборудования.
В то время как существующие 3DGS с LoD сосредоточены на детальной реконструкции, данный метод обеспечивает реконструкцию с использованием небольшого числа гауссианов для снижения требований к памяти и большего числа гауссианов для повышения детализации сцен.
Эксперименты демонстрируют различные варианты рендеринга с компромиссами между качеством рендеринга и использованием памяти, что позволяет осуществлять рендеринг в реальном времени при различных ограничениях памяти. Кроме того, здесь показано, что метод обобщается на различные фреймворки 3DGS, что указывает на его потенциал для интеграции в будущие современные разработки.
https://huggingface.co/papers/2408.12894
@machinelearning_ru
Интеграция гибкого уровня детализации в 3D Gaussian Splatting для настраиваемого рендеринга
3D Gaussian Splatting (3DGS) позволяет добиться быстрой и качественной визуализации за счет использования множества мелких гауссианов, что приводит к значительному расходу памяти. Такая зависимость от большого количества гауссианов ограничивает применение моделей на основе 3DGS на слабых устройствах из-за нехватки памяти.
Однако простое уменьшение числа гауссианов для работы с устройствами с меньшим объемом памяти приводит к ухудшению качества по сравнению с качеством, которое может быть достигнуто на высокопроизводительном оборудовании.
Чтобы решить эту проблему нехватки масштабируемости, в данном методе предлагается интегрировать в 3DGS гибкий уровень детализации (FLoD), который позволит визуализировать сцену с разным уровнем детализации в зависимости от возможностей оборудования.
В то время как существующие 3DGS с LoD сосредоточены на детальной реконструкции, данный метод обеспечивает реконструкцию с использованием небольшого числа гауссианов для снижения требований к памяти и большего числа гауссианов для повышения детализации сцен.
Эксперименты демонстрируют различные варианты рендеринга с компромиссами между качеством рендеринга и использованием памяти, что позволяет осуществлять рендеринг в реальном времени при различных ограничениях памяти. Кроме того, здесь показано, что метод обобщается на различные фреймворки 3DGS, что указывает на его потенциал для интеграции в будущие современные разработки.
https://huggingface.co/papers/2408.12894
@machinelearning_ru
👍6❤2🔥2
Яндекс, НМИЦ Кулакова и фонд "Спина бифида" представили нейросеть для диагностики редкой патологии
Яндекс, при поддержке НМИЦ Кулакова и фонда "Спина бифида", разработал инновационную нейросеть, которая помогает врачам обнаруживать признаки spina bifida — редкого врожденного заболевания центральной нервной системы у плода. Ранняя диагностика этого заболевания критична для успешного лечения.
Какие технологии и типы нейросетей применили специалисты:
Диагностика патологии по изображению — сложный многоэтапный процесс, ребята воплотили клиническое мышление врача в технический алгоритм, хотя бы в упрощённой форме.
Получилось такое решение: врач загружает ультразвуковой снимок через веб‑интерфейс, после чего модель обрезает изображение до зоны интереса и в зависимости от плоскости передаёт его в соответствующие модели классификации для оценки корректности и наличия патологии. Если врач не согласен с выводом, он может оставить обратную связь, которую мы будем использовать для дообучения алгоритма.
Чтобы реализовать этот план спецы Yandex Cloud и студенты ШАДа обучили сразу несколько моделей:
_ YOLOv10 для поиска зоны интереса и категоризации её плоскости;
- по две модели DenseNet121 для определения корректности изображения и поиска патологии отдельно для аксиальной и сагиттальной плоскости.
Весь процесс, включая аугментацию данных, обучение модели, инференс и интерпретацию результатов через GradCAM был реализован с помощью библиотеки MONAI, что значительно ускорило эксперименты и разработку прототипа. В результате модели по качеству распознавания превзошли остальные специализированные решения. Они эффективно выделяли ключевые зоны и проводили классификацию.
Зачем в проекте облако:
- Облачные решения дают возможность:
- собирать и размечать данные;
- обучать модели;
- разрабатывать веб‑приложения;
- развёртывать приложения и модели, масштабировать их при увеличении нагрузки;
- собирать обратную связь, дообучать модели и развёртывать обновления в эксплуатацию.
Это позволяет системе совершенствоваться и становиться более эффективной со временем.
Участники проекта выложили код разработки в опенсорс, чтобы привлечь к работе активных участников IT‑сообщества. Это позволит им использовать технологии для создания других сервисов поддержки принятия медицинских решений.
Следующий шаг — доработка моделей на основе отзывов от врачей и экспертов. Участники проекта планируют расширить набор данных и привлечь больше разработчиков для проверки и дообучения нейросети.
Яндекс, при поддержке НМИЦ Кулакова и фонда "Спина бифида", разработал инновационную нейросеть, которая помогает врачам обнаруживать признаки spina bifida — редкого врожденного заболевания центральной нервной системы у плода. Ранняя диагностика этого заболевания критична для успешного лечения.
Какие технологии и типы нейросетей применили специалисты:
Диагностика патологии по изображению — сложный многоэтапный процесс, ребята воплотили клиническое мышление врача в технический алгоритм, хотя бы в упрощённой форме.
Получилось такое решение: врач загружает ультразвуковой снимок через веб‑интерфейс, после чего модель обрезает изображение до зоны интереса и в зависимости от плоскости передаёт его в соответствующие модели классификации для оценки корректности и наличия патологии. Если врач не согласен с выводом, он может оставить обратную связь, которую мы будем использовать для дообучения алгоритма.
Чтобы реализовать этот план спецы Yandex Cloud и студенты ШАДа обучили сразу несколько моделей:
_ YOLOv10 для поиска зоны интереса и категоризации её плоскости;
- по две модели DenseNet121 для определения корректности изображения и поиска патологии отдельно для аксиальной и сагиттальной плоскости.
Весь процесс, включая аугментацию данных, обучение модели, инференс и интерпретацию результатов через GradCAM был реализован с помощью библиотеки MONAI, что значительно ускорило эксперименты и разработку прототипа. В результате модели по качеству распознавания превзошли остальные специализированные решения. Они эффективно выделяли ключевые зоны и проводили классификацию.
Зачем в проекте облако:
- Облачные решения дают возможность:
- собирать и размечать данные;
- обучать модели;
- разрабатывать веб‑приложения;
- развёртывать приложения и модели, масштабировать их при увеличении нагрузки;
- собирать обратную связь, дообучать модели и развёртывать обновления в эксплуатацию.
Это позволяет системе совершенствоваться и становиться более эффективной со временем.
Участники проекта выложили код разработки в опенсорс, чтобы привлечь к работе активных участников IT‑сообщества. Это позволит им использовать технологии для создания других сервисов поддержки принятия медицинских решений.
Следующий шаг — доработка моделей на основе отзывов от врачей и экспертов. Участники проекта планируют расширить набор данных и привлечь больше разработчиков для проверки и дообучения нейросети.
yandex.cloud
Как нейросети помогают врачам выявлять редкую патологию spina bifida при беременности
Рассказываем, как фонд «Спина бифида» поддерживает людей с заболеванием, чем НМИЦ АГП им. В. И. Кулакова занимается в области лечения патологии и как технологии и экспертиза Yandex Cloud и ШАД помогают выявлять spina bifida на ранних сроках беременности.
❤9👍4🔥3
Forwarded from Machinelearning
🚀 Новостной дайджест.
✔️ Появилось определение, что такое ИИ с открытым исходным кодом.
Open Source Initiative (OSI) представила определение, разработанное группой из 70 экспертов, включая ученых и представителей крупных технологических компаний. Согласно этому определению, открытый ИИ может использоваться без разрешения авторов, его компоненты подлежат инспекции создателями, а система может модифицироваться и не иметь ограничения на передачу от от одного лица другому.
OSI планирует создать механизм контроля, который будет выявлять модели, не соответствующие новому определению и публиковать список соответствующих моделей, среди которых ожидаются Pythia от Eleuther, OLMo от Ai2 и модели от коллектива LLM360.
technologyreview.com
✔️ Google запустила бесплатную "Галерею промптов" в AI Studio.
Функциональное бновление AI Studio, анонсированное Логаном Килпатриком, предлагает предустановленные промпты, которые демонстрируют возможности моделей семейства Gemini.
В "Prompt Gallery" уже доступны: генератор рецептов на основе схемы JSON, математический репетитор для квадратных уравнений, генератор рабочих листов для начальных классов, а также инструменты для тестирования кода на Python и анализа временной сложности функций.
venturebeat.com
✔️ Ресечеры борются с галлюцинациями ИИ в математике.
Исследователи из Беркли работают над проблемой "галлюцинаций" ИИ в математике, когда модели, такие как ChatGPT, генерируют неверные или вымышленные ответы. В экспериментах они обнаружили, что ChatGPT ошибался в решении алгебраических задач в одной трети случаев, но после применения метода "самосогласованности" (self-consistency) точность возросла до 70%. В статистике ошибки снизились с 29% до 13%, что все еще слишком много.
В другом исследовании 274 участника, использовавшие решения ChatGPT в качестве подсказок, показали прирост в 17% на тестах, в то время как группа с подсказками от людей улучшилась лишь на 12%. Исследование привело к прогнозам о возможности создания эффективных репетиторов на основе ИИ, однако необходимо больше данных о реальном использовании таких систем учащимися
hechingerreport.org
✔️ Путь к эффективным вычислениям в эпоху ИИ: охлаждение теплой водой.
Lenovo представила 6-е поколение технологии жидкостного охлаждения Neptune™, которая позволяет запускать серверные стойки мощностью более 100 кВт без необходимости в специализированном кондиционировании. Эта система обеспечивает до 40% снижение потребления энергии и 3,5-кратное улучшение термальной эффективности по сравнению с традиционными воздушными системами охлаждения. Технология использует теплую воду для охлаждения компонентов, уменьшая потребность в мощных вентиляторах.
csrwire.com
✔️ SyncWaveX: сервис автоматического липсинка для видео.
SyncWaveX автоматически синхронизирует движения губ и лица с аудио, позволяя создавать реалистичные видео с минимальными усилиями. Технология прямого синтеза аудио в видео позволяет генерировать контент, основываясь на аудиопотоке, без необходимости в 3D-моделировании.
SyncWaveX использует интеллектуальные технологии синтеза голоса и распознавания речи, которые позволяют генерировать новые треки, имитирующие оригинальный голос. Пользователи сервиса могут создавать неограниченное количество видео из одного шаблона. В ходе предзапуска уже было создано более 10,000 видео, попробовать можно тут
globenewswire.com
@ai_machinelearning_big_data
#news #ai #ml
Open Source Initiative (OSI) представила определение, разработанное группой из 70 экспертов, включая ученых и представителей крупных технологических компаний. Согласно этому определению, открытый ИИ может использоваться без разрешения авторов, его компоненты подлежат инспекции создателями, а система может модифицироваться и не иметь ограничения на передачу от от одного лица другому.
OSI планирует создать механизм контроля, который будет выявлять модели, не соответствующие новому определению и публиковать список соответствующих моделей, среди которых ожидаются Pythia от Eleuther, OLMo от Ai2 и модели от коллектива LLM360.
technologyreview.com
Функциональное бновление AI Studio, анонсированное Логаном Килпатриком, предлагает предустановленные промпты, которые демонстрируют возможности моделей семейства Gemini.
В "Prompt Gallery" уже доступны: генератор рецептов на основе схемы JSON, математический репетитор для квадратных уравнений, генератор рабочих листов для начальных классов, а также инструменты для тестирования кода на Python и анализа временной сложности функций.
venturebeat.com
Исследователи из Беркли работают над проблемой "галлюцинаций" ИИ в математике, когда модели, такие как ChatGPT, генерируют неверные или вымышленные ответы. В экспериментах они обнаружили, что ChatGPT ошибался в решении алгебраических задач в одной трети случаев, но после применения метода "самосогласованности" (self-consistency) точность возросла до 70%. В статистике ошибки снизились с 29% до 13%, что все еще слишком много.
В другом исследовании 274 участника, использовавшие решения ChatGPT в качестве подсказок, показали прирост в 17% на тестах, в то время как группа с подсказками от людей улучшилась лишь на 12%. Исследование привело к прогнозам о возможности создания эффективных репетиторов на основе ИИ, однако необходимо больше данных о реальном использовании таких систем учащимися
hechingerreport.org
Lenovo представила 6-е поколение технологии жидкостного охлаждения Neptune™, которая позволяет запускать серверные стойки мощностью более 100 кВт без необходимости в специализированном кондиционировании. Эта система обеспечивает до 40% снижение потребления энергии и 3,5-кратное улучшение термальной эффективности по сравнению с традиционными воздушными системами охлаждения. Технология использует теплую воду для охлаждения компонентов, уменьшая потребность в мощных вентиляторах.
csrwire.com
SyncWaveX автоматически синхронизирует движения губ и лица с аудио, позволяя создавать реалистичные видео с минимальными усилиями. Технология прямого синтеза аудио в видео позволяет генерировать контент, основываясь на аудиопотоке, без необходимости в 3D-моделировании.
SyncWaveX использует интеллектуальные технологии синтеза голоса и распознавания речи, которые позволяют генерировать новые треки, имитирующие оригинальный голос. Пользователи сервиса могут создавать неограниченное количество видео из одного шаблона. В ходе предзапуска уже было создано более 10,000 видео, попробовать можно тут
globenewswire.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥5🥰2