📸 Omni Aggregation Networks for Lightweight Image Super-Resolution
Omni Self-attention paradigm for simultaneous spatial and channel interactions,mining all the potential correlations across omni-axis.
Omni-SR, легковесный фреймворк для получения высокого разрешения изображений.
🖥 Github: https://github.com/francis0625/omni-sr
⏩ Paper: https://arxiv.org/abs/2304.10244v1
⭐️ Dataset: https://paperswithcode.com/dataset/manga109
ai_machinelearning_big_data
Omni Self-attention paradigm for simultaneous spatial and channel interactions,mining all the potential correlations across omni-axis.
Omni-SR, легковесный фреймворк для получения высокого разрешения изображений.
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6🔥5👍3🏆1
Count anything
An empirical study on few-shot counting using segment anything
Исследование использования метода SAM для сложной задачи подсчета объектов по нескольким снимкам.
🖥 Github: https://github.com/vision-intelligence-and-robots-group/count-anything
⏩ Paper: https://arxiv.org/abs/2304.10817v1
🤗 Hugging face: https://huggingface.co/spaces/nebula/counting-anything
📌 Dataset: https://drive.google.com/file/d/1ymDYrGs9DSRicfZbSCDiOu0ikGDh5k6S/view?usp=sharing
ai_machinelearning_big_data
An empirical study on few-shot counting using segment anything
Исследование использования метода SAM для сложной задачи подсчета объектов по нескольким снимкам.
🤗 Hugging face: https://huggingface.co/spaces/nebula/counting-anything
📌 Dataset: https://drive.google.com/file/d/1ymDYrGs9DSRicfZbSCDiOu0ikGDh5k6S/view?usp=sharing
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥18❤3👍3
Collaborative Diffusion for Multi-Modal Face Generation and Editing
Multi-modal controls, framework synthesizes high-quality images consistent with the input conditions.
Проект, который позволяет использовать несколько модальностей для управления созданием и редактированием лица.
🖥 Github: https://github.com/ziqihuangg/collaborative-diffusion
⏩ Project: https://ziqihuangg.github.io/projects/collaborative-diffusion.html
⏩ Paper: https://arxiv.org/abs/2304.10530v1
⭐️ Dataset: https://paperswithcode.com/dataset/celeba-dialog
ai_machinelearning_big_data
Multi-modal controls, framework synthesizes high-quality images consistent with the input conditions.
Проект, который позволяет использовать несколько модальностей для управления созданием и редактированием лица.
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍3🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Track anything
Project developed upon Segment Anything, can specify anything to track and segment via user clicks only.
Track-Anything - это гибкий и интерактивный инструмент для отслеживания и сегментации видео.
🖥 Github: https://github.com/gaomingqi/track-anything
⏩ Paper: https://arxiv.org/abs/2304.11968v1
🤗 Hugging face: https://huggingface.co/spaces/watchtowerss/Track-Anything
📌 Dataset: https://paperswithcode.com/dataset/davis-2017
ai_machinelearning_big_data
Project developed upon Segment Anything, can specify anything to track and segment via user clicks only.
Track-Anything - это гибкий и интерактивный инструмент для отслеживания и сегментации видео.
🤗 Hugging face: https://huggingface.co/spaces/watchtowerss/Track-Anything
📌 Dataset: https://paperswithcode.com/dataset/davis-2017
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍25🔥6❤4🥰1
🔊 AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking Head
Multi-modal AI system named AudioGPT, which complements LLMs (i.e., ChatGPT) with 1) foundation models to process complex audio information and solve numerous understanding and generation tasks
AudioGPT: Генерирование речи, музыки, звука и говорящих аватаров.
🖥 Github: https://github.com/aigc-audio/audiogpt
⏩ Paper: https://arxiv.org/abs/2304.12995v1
🤗 Hugging face: https://huggingface.co/spaces/AIGC-Audio/AudioGPT
📌 Dataset: https://paperswithcode.com/dataset/c4
ai_machinelearning_big_data
Multi-modal AI system named AudioGPT, which complements LLMs (i.e., ChatGPT) with 1) foundation models to process complex audio information and solve numerous understanding and generation tasks
AudioGPT: Генерирование речи, музыки, звука и говорящих аватаров.
🤗 Hugging face: https://huggingface.co/spaces/AIGC-Audio/AudioGPT
📌 Dataset: https://paperswithcode.com/dataset/c4
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍24🔥6❤2
🔍 Unleashing Infinite-Length Input Capacity for Large-scale Language Models with Self-Controlled Memory System
Self-Controlled Memory (SCM) system to unleash infinite-length input capacity for large-scale language models.
SCM может быть интегрирована с любыми LLM для обработки сверхдлинных текстов без каких-либо изменений или тонкой настройки.
🖥 Github: https://github.com/toufunao/SCM4LLMs
⏩ Paper: https://arxiv.org/abs/2304.13343v1
📌 Tasks: https://paperswithcode.com/task/language-modelling
ai_machinelearning_big_data
Self-Controlled Memory (SCM) system to unleash infinite-length input capacity for large-scale language models.
SCM может быть интегрирована с любыми LLM для обработки сверхдлинных текстов без каких-либо изменений или тонкой настройки.
📌 Tasks: https://paperswithcode.com/task/language-modelling
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9❤3🔥2
🖌 Edit Everything: A Text-Guided Generative System for Images Editing
A text-guided generative system without any finetuning (zero-shot).
Edit Everything позволяет пользователям редактировать изображения с помощью простых текстовых инструкций.
🖥 Github: https://github.com/defengxie/edit_everything
⏩ Paper: https://arxiv.org/abs/2304.14006v1
🚀 Dataset: https://paperswithcode.com/dataset/wukong
ai_machinelearning_big_data
A text-guided generative system without any finetuning (zero-shot).
Edit Everything позволяет пользователям редактировать изображения с помощью простых текстовых инструкций.
🚀 Dataset: https://paperswithcode.com/dataset/wukong
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🔥3❤1
Running IF with 🧨 diffusers on a Free Tier Google Colab
IF is better at generating images with high-frequency details (e.g., human faces and hands) and is the first open-source image generation model that can reliably generate images with text.
Инструкция, как запустить одну из самых мощных моделей преобразования текста в изображение с открытым исходным кодом IF на бесплатном Google Colab.
🤗 Hugging face: https://huggingface.co/blog/if
🖥 Github: https://github.com/deep-floyd/IF
⏩ Paper: https://arxiv.org/pdf/2205.11487.pdf
📌 Demo:https://huggingface.co/spaces/DeepFloyd/IF
ai_machinelearning_big_data
IF is better at generating images with high-frequency details (e.g., human faces and hands) and is the first open-source image generation model that can reliably generate images with text.
Инструкция, как запустить одну из самых мощных моделей преобразования текста в изображение с открытым исходным кодом IF на бесплатном Google Colab.
🤗 Hugging face: https://huggingface.co/blog/if
📌 Demo:https://huggingface.co/spaces/DeepFloyd/IF
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍27🔥6❤5🦄2
TaskPrompter: Spatial-Channel Multi-Task Prompting for Dense Scene Understanding
Novel spatial-channel multi-task prompting transformer framework to achieve this target.
Две мощные модели многозадачных трансформеров для пониманияк контекста на видео.
🖥 Github: https://github.com/prismformore/multi-task-transformer
⏩ Paper: https://openreview.net/forum?id=-CwPopPJda
📌 Dataset: https://paperswithcode.com/dataset/cityscapes-3d
ai_machinelearning_big_data
Novel spatial-channel multi-task prompting transformer framework to achieve this target.
Две мощные модели многозадачных трансформеров для пониманияк контекста на видео.
📌 Dataset: https://paperswithcode.com/dataset/cityscapes-3d
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16❤1🔥1
Полное погружение в машинное обучение с онлайн-материалами Школы анализа данных
Чтобы разложить знания по полочкам или ликвидировать мелкие пробелы, ML-специалистам важно иметь источник, в котором можно найти ответы на любые вопросы. Именно такой учебник и решили сделать в ШАДе.
Эксперты Яндекса собрали теоретические материалы, решения задач, примеры из индустрии и мнения практиков в одном хендбуке. Онлайн-материалы помогут начинающим специалистам сформировать целостное и системное представление о машинном обучении, а профессионалам — оставаться в тонусе, постоянно развивая свои скилы.
С этим учебником вы сможете получить представление о самых свежих тенденциях в машинном обучении и разобраться в темах, которые поднимаются в последних научных статьях. Важный бонус: все материалы бесплатны.
Сохраняйте ссылку на учебник и прокачивайтесь в машинном обучении: https://clck.ru/33t5Fa
Чтобы разложить знания по полочкам или ликвидировать мелкие пробелы, ML-специалистам важно иметь источник, в котором можно найти ответы на любые вопросы. Именно такой учебник и решили сделать в ШАДе.
Эксперты Яндекса собрали теоретические материалы, решения задач, примеры из индустрии и мнения практиков в одном хендбуке. Онлайн-материалы помогут начинающим специалистам сформировать целостное и системное представление о машинном обучении, а профессионалам — оставаться в тонусе, постоянно развивая свои скилы.
С этим учебником вы сможете получить представление о самых свежих тенденциях в машинном обучении и разобраться в темах, которые поднимаются в последних научных статьях. Важный бонус: все материалы бесплатны.
Сохраняйте ссылку на учебник и прокачивайтесь в машинном обучении: https://clck.ru/33t5Fa
👍19❤4🔥4
Caption-Anything is a versatile tool combining image segmentation, visual captioning, and ChatGPT, generating tailored captions with diverse controls for user preferences.
Универсальный инструмент для работы с изображениями, сочетающий в себе возможности, Visual Captioning, SAM, ChatGPT. Модель генерирует описательные подписи для любого объекта на изображении.
📌 Dataset: https://paperswithcode.com/dataset/cityscapes-3d
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍19🔥4❤2
ZipIt! Merging Models from Different Tasks without Training
ZipIt allows to combine completely distinct models with different initializations, each solving a separate task, into one multi-task model without any additional training.
"ZipIt!", новый метод объединения двух произвольных моделей одной архитектуры.
🖥 Github: https://github.com/gstoica27/zipit
⏩ Paper: https://arxiv.org/abs/2305.03053v1
📌 Dataset: https://paperswithcode.com/dataset/nabirds
ai_machinelearning_big_data
ZipIt allows to combine completely distinct models with different initializations, each solving a separate task, into one multi-task model without any additional training.
"ZipIt!", новый метод объединения двух произвольных моделей одной архитектуры.
📌 Dataset: https://paperswithcode.com/dataset/nabirds
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥24👍4🦄4✍1❤1
In this post, we covered the constraints, unique challenges and the current state of text-to-video generation models
Текст в видео: Задачи, проблемы и текущее состояние. В этом посте мы обсудим прошлое, настоящее и будущее моделей "текст в видео".
🤗 Hugging face: https://huggingface.co/blog/text-to-video
📌 Dataset: https://m-bain.github.io/webvid-dataset/
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥4❤3💘1
VK Cloud Conf: как перенести лучшие практики разработки ИТ-компаний в классический бизнес
Каждая крупная российская компания, которая стремится к росту, вынуждена развивать собственную разработку. Для многих это новое направление. В то же время большинство вопросов современной разработки — инструментарий, ресурсы, процессы — общие для разных отраслей.
⏰ Когда: 8 июня, 12:00
📍Где: Москва и онлайн
⚡️ Регистрация
На VK Cloud Conf эксперты VK и крупнейших российских компаний поделятся опытом организации процессов разработки, работы с данными и информационной безопасности в облаке.
Вы узнаете, какими инструментами и подходами можно сократить время вывода новых разработок на рынок. Спикеры обсудят архитектуру современных аналитических систем — от сбора и структурирования данных до визуализации и разработки моделей машинного обучения.
В программе:
🔹 Как повысить эффективность разработки ИТ-решений с помощью облачных сервисов
🔹Подходы к работе с данными: примеры масштабных дата-решений, особенности и результаты проектов
🔹 Тренды и примеры миграции на российские базы данных
🔹 Лучшие практики облачной безопасности в условиях требований к конфиденциальности данных
Конференция будет полезна руководителям компаний и ИТ-специалистам разных направлений.
Каждая крупная российская компания, которая стремится к росту, вынуждена развивать собственную разработку. Для многих это новое направление. В то же время большинство вопросов современной разработки — инструментарий, ресурсы, процессы — общие для разных отраслей.
⏰ Когда: 8 июня, 12:00
📍Где: Москва и онлайн
⚡️ Регистрация
На VK Cloud Conf эксперты VK и крупнейших российских компаний поделятся опытом организации процессов разработки, работы с данными и информационной безопасности в облаке.
Вы узнаете, какими инструментами и подходами можно сократить время вывода новых разработок на рынок. Спикеры обсудят архитектуру современных аналитических систем — от сбора и структурирования данных до визуализации и разработки моделей машинного обучения.
В программе:
🔹 Как повысить эффективность разработки ИТ-решений с помощью облачных сервисов
🔹Подходы к работе с данными: примеры масштабных дата-решений, особенности и результаты проектов
🔹 Тренды и примеры миграции на российские базы данных
🔹 Лучшие практики облачной безопасности в условиях требований к конфиденциальности данных
Конференция будет полезна руководителям компаний и ИТ-специалистам разных направлений.
👍11❤4🫡2💊2😨1
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 ImageBind: One Embedding Space To Bind Them All
ImageBind, an approach to learn a joint embedding across six different modalities - images, text, audio, depth, thermal, and IMU data.
ImageBind, новый подход к обучению совместному встраиванию шести различных модальностей - текста,изображений, аудио, глубины, тепловых данных и данных IMU.
🖥 Github: https://github.com/facebookresearch/imagebind
Ⓜ️ Meta blog: https://ai.facebook.com/blog/imagebind-six-modalities-binding-ai/
⏩ Paper: https://arxiv.org/pdf/2305.05665v1.pdf
⭐️ Demo: https://imagebind.metademolab.com/
📌 Dataset: https://paperswithcode.com/dataset/msr-vtt
ai_machinelearning_big_data
ImageBind, an approach to learn a joint embedding across six different modalities - images, text, audio, depth, thermal, and IMU data.
ImageBind, новый подход к обучению совместному встраиванию шести различных модальностей - текста,изображений, аудио, глубины, тепловых данных и данных IMU.
Ⓜ️ Meta blog: https://ai.facebook.com/blog/imagebind-six-modalities-binding-ai/
📌 Dataset: https://paperswithcode.com/dataset/msr-vtt
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍19❤6🔥2
VideoChat: Chat-Centric Video Understanding
Currently, Ask-Anything is a simple yet interesting tool for chatting with video.
Набор данных, ориентированный на видео, состоящий из тысяч видеороликов, сопровождаемых подробными описаниями и субтитрами.
🖥 Github: https://github.com/OpenGVLab/Ask-Anything
⭐️ Demo: https://huggingface.co/spaces/ynhe/AskAnything
⏩ Paper: https://arxiv.org/pdf/2305.06355v1.pdf
📌 Dataset: https://paperswithcode.com/dataset/webvid
ai_machinelearning_big_data
Currently, Ask-Anything is a simple yet interesting tool for chatting with video.
Набор данных, ориентированный на видео, состоящий из тысяч видеороликов, сопровождаемых подробными описаниями и субтитрами.
📌 Dataset: https://paperswithcode.com/dataset/webvid
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11❤2🌭2🔥1