370K subscribers
4.51K photos
892 videos
17 files
4.95K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
📸 Omni Aggregation Networks for Lightweight Image Super-Resolution

Omni Self-attention paradigm for simultaneous spatial and channel interactions,mining all the potential correlations across omni-axis.

Omni-SR, легковесный фреймворк для получения высокого разрешения изображений.


🖥 Github: https://github.com/francis0625/omni-sr

Paper: https://arxiv.org/abs/2304.10244v1

⭐️ Dataset: https://paperswithcode.com/dataset/manga109

ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
6🔥5👍3🏆1
Count anything

An empirical study on few-shot counting using segment anything

Исследование использования метода
SAM для сложной задачи подсчета объектов по нескольким снимкам.

🖥 Github: https://github.com/vision-intelligence-and-robots-group/count-anything

Paper: https://arxiv.org/abs/2304.10817v1

🤗 Hugging face: https://huggingface.co/spaces/nebula/counting-anything

📌 Dataset: https://drive.google.com/file/d/1ymDYrGs9DSRicfZbSCDiOu0ikGDh5k6S/view?usp=sharing

ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥183👍3
Collaborative Diffusion for Multi-Modal Face Generation and Editing

Multi-modal controls, framework synthesizes high-quality images consistent with the input conditions.

Проект, который позволяет использовать несколько модальностей для управления созданием и редактированием лица.

🖥 Github: https://github.com/ziqihuangg/collaborative-diffusion

Project: https://ziqihuangg.github.io/projects/collaborative-diffusion.html

Paper: https://arxiv.org/abs/2304.10530v1

⭐️ Dataset: https://paperswithcode.com/dataset/celeba-dialog

ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍3🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Track anything

Project developed upon Segment Anything, can specify anything to track and segment via user clicks only.

Track-Anything - это гибкий и интерактивный инструмент для отслеживания и сегментации видео.


🖥 Github: https://github.com/gaomingqi/track-anything

Paper: https://arxiv.org/abs/2304.11968v1

🤗 Hugging face: https://huggingface.co/spaces/watchtowerss/Track-Anything

📌 Dataset: https://paperswithcode.com/dataset/davis-2017

ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍25🔥64🥰1
🔊 AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking Head

Multi-modal AI system named AudioGPT, which complements LLMs (i.e., ChatGPT) with 1) foundation models to process complex audio information and solve numerous understanding and generation tasks

AudioGPT: Генерирование речи, музыки, звука и говорящих аватаров.

🖥 Github: https://github.com/aigc-audio/audiogpt

Paper: https://arxiv.org/abs/2304.12995v1

🤗 Hugging face: https://huggingface.co/spaces/AIGC-Audio/AudioGPT

📌 Dataset: https://paperswithcode.com/dataset/c4

ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍24🔥62
🔍 Unleashing Infinite-Length Input Capacity for Large-scale Language Models with Self-Controlled Memory System

Self-Controlled Memory (SCM) system to unleash infinite-length input capacity for large-scale language models.

SCM может быть интегрирована с любыми LLM для обработки сверхдлинных текстов без каких-либо изменений или тонкой настройки.


🖥 Github: https://github.com/toufunao/SCM4LLMs

Paper: https://arxiv.org/abs/2304.13343v1

📌 Tasks: https://paperswithcode.com/task/language-modelling

ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍93🔥2
🖌 Edit Everything: A Text-Guided Generative System for Images Editing

A text-guided generative system without any finetuning (zero-shot).

Edit Everything позволяет пользователям редактировать изображения с помощью простых текстовых инструкций.


🖥 Github: https://github.com/defengxie/edit_everything

Paper: https://arxiv.org/abs/2304.14006v1

🚀 Dataset: https://paperswithcode.com/dataset/wukong

ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🔥31
Running IF with 🧨 diffusers on a Free Tier Google Colab

IF is better at generating images with high-frequency details (e.g., human faces and hands) and is the first open-source image generation model that can reliably generate images with text.

Инструкция, как запустить одну из самых мощных моделей преобразования текста в изображение с открытым исходным кодом IF на бесплатном Google Colab.

🤗 Hugging face: https://huggingface.co/blog/if

🖥 Github: https://github.com/deep-floyd/IF

Paper: https://arxiv.org/pdf/2205.11487.pdf

📌 Demo:https://huggingface.co/spaces/DeepFloyd/IF

ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍27🔥65🦄2
TaskPrompter: Spatial-Channel Multi-Task Prompting for Dense Scene Understanding

Novel spatial-channel multi-task prompting transformer framework to achieve this target.

Две мощные модели многозадачных трансформеров для пониманияк контекста на видео.

🖥 Github: https://github.com/prismformore/multi-task-transformer

Paper: https://openreview.net/forum?id=-CwPopPJda

📌 Dataset: https://paperswithcode.com/dataset/cityscapes-3d

ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍161🔥1
Полное погружение в машинное обучение с онлайн-материалами Школы анализа данных

Чтобы разложить знания по полочкам или ликвидировать мелкие пробелы, ML-специалистам важно иметь источник, в котором можно найти ответы на любые вопросы. Именно такой учебник и решили сделать в ШАДе.

Эксперты Яндекса собрали теоретические материалы, решения задач, примеры из индустрии и мнения практиков в одном хендбуке. Онлайн-материалы помогут начинающим специалистам сформировать целостное и системное представление о машинном обучении, а профессионалам — оставаться в тонусе, постоянно развивая свои скилы.

С этим учебником вы сможете получить представление о самых свежих тенденциях в машинном обучении и разобраться в темах, которые поднимаются в последних научных статьях. Важный бонус: все материалы бесплатны.

Сохраняйте ссылку на учебник и прокачивайтесь в машинном обучении: https://clck.ru/33t5Fa
👍194🔥4
🔄 Caption Anything: Interactive Image Description with Diverse Multimodal Controls


Caption-Anything is a versatile tool combining image segmentation, visual captioning, and ChatGPT, generating tailored captions with diverse controls for user preferences.


Универсальный инструмент для работы с изображениями, сочетающий в себе возможности, Visual Captioning, SAM, ChatGPT. Модель генерирует описательные подписи для любого объекта на изображении.

🖥 Github: https://github.com/ttengwang/caption-anything

Paper: https://arxiv.org/abs/2305.02677v1

📌 Dataset: https://paperswithcode.com/dataset/cityscapes-3d

🖥 Colab: https://colab.research.google.com/github/ttengwang/Caption-Anything/blob/main/notebooks/tutorial.ipynb

ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍19🔥42
ZipIt! Merging Models from Different Tasks without Training

ZipIt allows to combine completely distinct models with different initializations, each solving a separate task, into one multi-task model without any additional training.

"ZipIt!", новый метод объединения двух произвольных моделей одной архитектуры.

🖥 Github: https://github.com/gstoica27/zipit

Paper: https://arxiv.org/abs/2305.03053v1

📌 Dataset: https://paperswithcode.com/dataset/nabirds

ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥24👍4🦄411
🔈Text-to-Video: The Task, Challenges and the Current State

In this post, we covered the constraints, unique challenges and the current state of text-to-video generation models


Текст в видео: Задачи, проблемы и текущее состояние. В этом посте мы обсудим прошлое, настоящее и будущее моделей "текст в видео".

🤗 Hugging face: https://huggingface.co/blog/text-to-video

🖥 Github: https://github.com/huggingface/blog/blob/main/text-to-video.md

Damo-vilab: https://huggingface.co/damo-vilab

📌 Dataset: https://m-bain.github.io/webvid-dataset/

ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥43💘1
VK Cloud Conf: как перенести лучшие практики разработки ИТ-компаний в классический бизнес

Каждая крупная российская компания, которая стремится к росту, вынуждена развивать собственную разработку. Для многих это новое направление. В то же время большинство вопросов современной разработки — инструментарий, ресурсы, процессы — общие для разных отраслей.

Когда: 8 июня, 12:00
📍Где: Москва и онлайн
⚡️ Регистрация

На VK Cloud Conf эксперты VK и крупнейших российских компаний поделятся опытом организации процессов разработки, работы с данными и информационной безопасности в облаке.
Вы узнаете, какими инструментами и подходами можно сократить время вывода новых разработок на рынок. Спикеры обсудят архитектуру современных аналитических систем — от сбора и структурирования данных до визуализации и разработки моделей машинного обучения.

В программе:

🔹 Как повысить эффективность разработки ИТ-решений с помощью облачных сервисов
🔹Подходы к работе с данными: примеры масштабных дата-решений, особенности и результаты проектов
🔹 Тренды и примеры миграции на российские базы данных
🔹 Лучшие практики облачной безопасности в условиях требований к конфиденциальности данных
Конференция будет полезна руководителям компаний и ИТ-специалистам разных направлений.
👍114🫡2💊2😨1
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 ImageBind: One Embedding Space To Bind Them All

ImageBind, an approach to learn a joint embedding across six different modalities - images, text, audio, depth, thermal, and IMU data.

ImageBind, новый подход к обучению совместному встраиванию шести различных модальностей - текста,изображений, аудио, глубины, тепловых данных и данных IMU.

🖥 Github: https://github.com/facebookresearch/imagebind

Ⓜ️ Meta blog: https://ai.facebook.com/blog/imagebind-six-modalities-binding-ai/

Paper: https://arxiv.org/pdf/2305.05665v1.pdf

⭐️ Demo: https://imagebind.metademolab.com/

📌 Dataset: https://paperswithcode.com/dataset/msr-vtt

ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍196🔥2
VideoChat: Chat-Centric Video Understanding

Currently, Ask-Anything is a simple yet interesting tool for chatting with video.

Набор данных, ориентированный на видео, состоящий из тысяч видеороликов, сопровождаемых подробными описаниями и субтитрами.


🖥 Github: https://github.com/OpenGVLab/Ask-Anything

⭐️ Demo: https://huggingface.co/spaces/ynhe/AskAnything

Paper: https://arxiv.org/pdf/2305.06355v1.pdf

📌 Dataset: https://paperswithcode.com/dataset/webvid

ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍112🌭2🔥1