Аналитик данных
6.02K subscribers
215 photos
27 videos
2 files
199 links
Аналитика данных, Дата Сеанс

@workakkk - по всем вопросам
Download Telegram
Нарезка митапа Яндекса ML-Party, которая прошла 17 октября 2024 года в Белграде. Вырезаны перерывы и длинные панчи ведущего в начале и в конце.

▶️ Всего было 4 доклада:

🟡Илья Ирхин, руководитель подразделения аналитики в Яндекс Еде. Подробно рассказал про рекламу ресторанов в сервисе: аукцион, ранжирование, ценообразование.

🟡Дмитрий Солодуха, руководитель группы в Алисе и Умных устройствах Яндекса.
Показал, как Яндекс учил Алису откликаться без имени.

🟡Антон Клочков, руководитель подгруппы распознавания текста в VLM в Яндекс Поиске.
Рассказал о развитии навыков распознавания текста в VLM.

🟡Пётр Вытовтов, руководитель группы в Яндекс Погоде.
Показал трансформеры сервиса и рассказал, как прогнозировать до миллиметра осадков.

@dataanlitics
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥41
🔥 Научитесь использовать Claude AI для создания сокращателей текста, описывателей изображений и многого другого!

🌟 LLM могут помочь вам во многих задачах и сэкономить массу времени. В этом курсе вы узнаете, как использовать Claude AI вместе с API Anthropic. В ходе курса вы создадите резюматор текста, описателя изображений и другие проекты

🕞 Продолжительность: 47:49

🔗 Ссылка: *клик*

#курс #ai #claude

@dataanlitics
Please open Telegram to view this post
VIEW IN TELEGRAM
👍61
🖥 awesome-ai-agents — полезный репозиторий, который содержит список различных автономных ИИ-агентов, таких как AutoGPT, BabyAGI, GPT Engineer и других!

🌟 Здесь представлены библиотеки и инструменты для работы с искусственным интеллектом, включая автономные агенты и разработки на основе GPT. Репозиторий служит полезным ресурсом для тех, кто хочет исследовать или создавать ИИ-агентов для различных задач!

150+ ИИ-агентов и фреймворков.
Фильтр по сценариям использования.
Фильтр по открытому/закрытому исходному коду.
Фильтр новых продуктов ИИ
Возможность получать обновления о конкретном агенте ИИ.

▪️Github
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ Data Formulator

Фреймворк от Microsoft, предназначенный для создания сложных визуализаций данных:

Он позволяет трансформировать данные и создавать визуализации с использованием искусственного интеллекта;
Доступен непосредственно в среде GitHub Codespaces;
Поддерживает комбинацию командных интерфейсов и текстовых подсказок для настройки параметров графиков.

▪️Github
👍41
🖥 SQL для Junior Data Engineers: примеры бизнес-задач!

🌟 Вход в профессию Data Engineer требует не только владения инструментами для построения данных, но и уверенного знания SQL для решения задач различной сложности. Несмотря на то, что многие SQL-запросы могут казаться «аналитическими», на практике именно Data Engineers часто отвечают за их написание и оптимизацию. Ведь аналитикам и специалистам по продукту требуется быстрый и точный доступ к данным для их анализа, а это означает, что DE должны обеспечить доступ к нужным данным и помочь в создании запросов для обработки больших объемов информации. В этой статье автор предлагает восемь разных задач по SQL для подготовки к карьере в Data Engineering!

🔗 Ссылка: *клик*
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6🥰2👍1
Forwarded from Machinelearning
⚡️ BRIA Background Removal v2.0 Model.

RMBG v2.0 - новая модель удаления фона, предназначенная для эффективного отделения переднего плана от фона в различных категориях и типах изображений. Точность, эффективность и универсальность RMBG v2.0 конкурирует с ведущими SOTA-моделями.

RMBG-2.0 разработана на основе архитектуры BiRefNet и обучена на более чем 15 000 высококачественных, высокого разрешения, вручную маркированных (с точностью до пикселя), полностью лицензированных изображений.

Модель доступна на HF в двух версиях : pytorch и safetensors. Демо можно попробовать на HF Space.

▶️Пример кода запуска на Transformers:

from PIL import Image
import matplotlib.pyplot as plt
import torch
from torchvision import transforms
from transformers import AutoModelForImageSegmentation

model = AutoModelForImageSegmentation.from_pretrained('briaai/RMBG-2.0', trust_remote_code=True)
torch.set_float32_matmul_precision(['high', 'highest'][0])
model.to('cuda')
model.eval()

# Data settings
image_size = (1024, 1024)
transform_image = transforms.Compose([
transforms.Resize(image_size),
transforms.ToTensor(),
transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
])

image = Image.open(input_image_path)
input_images = transform_image(image).unsqueeze(0).to('cuda')

# Prediction
with torch.no_grad():
preds = model(input_images)[-1].sigmoid().cpu()
pred = preds[0].squeeze()
pred_pil = transforms.ToPILImage()(pred)
mask = pred_pil.resize(image.size)
image.putalpha(mask)

image.save("no_bg_image.png")


📌Лицензирование:

🟢Некоммерческое использование: Creative Commons license
🟠Коммерческое использование: на основании коммерческого соглашения с BRIA


🟡Модель
🟡Demo


@ai_machinelearning_big_data

#AI #ML #BiRefNet #RMBG #BRIAAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍31
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Крутая шпаргалка по стратегиям для обучения на GPU
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3
✔️ OpenAI запускает бесплатный учебный курс по искусственному интеллекту для учителей.

OpenAI совместно с некоммерческой организацией Common Sense Media запустила бесплатный обучающий курс для учителей, посвященный ИИ и промпт-инжинирингу. Курс должен помочь учителям разобраться в возможностях чат-бота ChatGPT.

Обучение демонстрирует, как использовать ChatGPT для создания учебных материалов и оптимизации рабочих процессов. Курс доступен на сайте Common Sense Media. OpenAI создала специальную команду под руководством бывшего руководителя Coursera Лии Белски, чтобы поддержать ответственное использование ИИ в образовании.

Белски отметила высокий уровень использования ChatGPT среди учеников и поддержку со стороны родителей, которые считают навыки работы с ИИ необходимыми для будущей карьеры.

reuters.com
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21
👩‍💻 Курс по анализу и визуализации данных на Python с астрономическими данными!

💡 Этот курс — путешествие по вселенной анализа и визуализации данных, специально разработанный для астрономических данных. Курс охватывает все: от основ программирования на Python до продвинутых методов обработки изображений.

🕞 Продолжительность: 6:31:57

🔗 Ссылка: *клик*

#курс #python #dataanalysis

@dataanlitics
Please open Telegram to view this post
VIEW IN TELEGRAM
👍71
Forwarded from Machinelearning
🌟 Hymba-1.5B: Базовая и инструктивная модели от NVIDIA.

Hymba-1.5B-Base имеет embedding size 1600, 25 attention heads, MLP 5504, 32 слоя, 16 состояний SSM, 3 слоя полного внимания, остальные - внимания со скользящим окном.

В отличие от стандартного трансформера, каждый слой внимания в Hymba имеет гибридную комбинацию стандартных attention heads и Mamba heads в параллельном исполнении. Hymba использует технологии Grouped-Query Attention (GQA) и Rotary Position Embeddings (RoPE).

Hymba обучалась на 1.5 трлн токенах в 2 этапа предварительного обучения и 3 этапами посттренининга.

Hymba-1.5B-Instruct - файнтон Hymba-1.5B-Base на комбинации открытых наборов данных инструкций и собранных собственными силами синтетических датасетов.

Эта модель настраивалась с помощью SFT и DPO и способна как в математические рассуждения и вызов функций, так и в ролевые сценарии.

⚠️ В Hymba-1.5B-Instruct используется кастомный шаблон промпта, который был интегрирован в токенизатор и может быть применен с помощью tokenizer.apply_chat_template.

▶️Пример инференса Hymba-1.5B-Base:

from transformers import LlamaTokenizer, AutoModelForCausalLM, AutoTokenizer, AutoModel
import torch

# Load the tokenizer and model
repo_name = "nvidia/Hymba-1.5B-Base"

tokenizer = AutoTokenizer.from_pretrained(repo_name, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(repo_name, trust_remote_code=True)
model = model.cuda().to(torch.bfloat16)

# Chat with Hymba
prompt = input()
inputs = tokenizer(prompt, return_tensors="pt").to('cuda')
outputs = model.generate(**inputs, max_length=64, do_sample=False, temperature=0.7, use_cache=True)
response = tokenizer.decode(outputs[0][inputs['input_ids'].shape[1]:], skip_special_tokens=True)

print(f"Model response: {response}")


📌 Лицензирование: NVIDIA Open Model License Agreement


🟡Набор моделей на HF

@ai_machinelearning_big_data

#AI #ML #SLM #Hymba #Nvidia
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
⚡️ Cotype Nano - русскоязычная SLM от МТС.

MTS AI опубликовала в открытый доступ легковесную модель генерации текста C otype Nano и ее квантованные вариации.

Cotype Nano построена на базе Qwen2.5-1.5B и обучалась методом SFT на датасете объемом 1 млн. инструкций из областей: математика, программирование, обобщение текста и текстовые диалоги. В создании датасета использовалась большая модель Cotype Pro 32k.

На первой стадии обучался слой MLP с LoRa на датасетах по математике и программированию. На второй стадии обучалась вся модель на инструктивных датасетах. Завершающим этапом стал alignment (DPO) на отдельно сгенерированном датасете.

Оценка модели проводилась автоматическим side-by-side с gpt-3.5-turbo и gpt-4 на внутреннем датасете и в бенчмарках RuGeneralArena, где Cotype-Nano показала лучший результат в своей весовой категории.

▶️Набор моделей:

🟢Cotype-Nano - 1.54 млрд. параметров;

🟠Cotype‑Nano-4bit - 403 млн. параметров, квантованная методом AWQ версия;

🟠Cotype‑Nano‑CPU - оптимизированная с помощью openVINO версия под CPU Intel;

🟠Cotype Nano GGUF - 1.54 млрд параметров, две версии в разрядности 16-bit (3. 09 Gb) и 8-bit (1.65 GB) под llama.cpp.


📌Лицензирование: Apache 2.0 License.


🟡Статья на Habr
🟡Набор моделей на HF


@dataanlitics

#AI #ML #SLM #RuLLM #MTSAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍52
🔥 Создание ИИ-генератора изображений с помощью Python!

🌟 Узнайте, как генерировать изображения AI бесплатно с помощью Google Collab и локально на вашем компьютере. Изучите различные модели и подсказки для создания высококачественных изображений без усилий.

🕞 Продолжительность: 17:19

🔗 Ссылка: *клик*

#курс #python

@dataanlitics
Please open Telegram to view this post
VIEW IN TELEGRAM
👍41🔥1
Forwarded from Machinelearning
📎 ML в медицине: дайджест за 1 - 7 декабря 2024 г.


▶️Модели, бенчмарки и датасеты

🔘SOAR: бенчмарк для оценки LLM в задачах аннотации типов клеток.
Тест, который проверяет, насколько хорошо модели могут понимать и анализировать сложные данные о клетках.

🔘Повышение точности диагностики рентгенограмм грудной клетки с помощью анализа направления взгляда врачей.
Система 2-х нейросетей, которая помогает диагностировать заболевания по рентгенограммам грудной клетки и предсказывает, на какие области изображения врачи обращают внимание.

🔘EchoONE: унифицированная модель для сегментации множества плоскостей эхокардиографии.
Модель, которая помогает врачам более точно анализировать снимки сердца, сделанные с помощью ультразвука, даже если снимки сделаны под разными углами.


▶️Фреймворки и методологии

🔘RARE: RAG-ризонинг.
Метод для улучшения способности рассуждать и давать точные ответы, используя комбинацию генерации и поиска информации для обогащения своих знаний.

🔘STORM: cтратегия организации модальностей для классификации редких событий.
Алгоритм, который помогает выбрать лучшие источники информации для решения сложных медицинских задач.

🔘TransFair: прогноз прогрессирования глазных заболеваний.
Модель классификации, которая помогает сделать прогнозы о глазных заболеваниях более справедливыми и точными.

🔘PePR: оценка эффективности моделей с учетом потребления ресурсов.
Показатель, который помогает оценить, насколько эффективно модель использует ресурсы.

🔘Оценка качества рентгенологических заключений с помощью сопоставления клинических данных с изображением.
Метод оценки качества автоматически сгенерированных рентгенологических отчетов, который учитывает точность описания патологических изменений, их локализации и степени выраженности.


▶️Медицинские LLM-приложения

🔘MedChain: LLM-агент и бенчмарк для принятия клинических решений.
Набор данных и система для имитации реальной клинической практики, где каждый случай включает подробную информацию о пациенте и требует активного сбора информации и принятия решений на основе предыдущих шагов.

🔘QG-Summ: автореферирование медицинских записей с самоконтролем, управляемое запросами.
Метод, который помогает создавать краткие и точные отчеты о состоянии пациентов в электронных медкартах, используя запросы, связанные с пациентом, для руководства процессом.

🔘CLINICSUM: генерация медицинских заключений из диалогов врача и пациента.
Фреймворк, который может автоматически создавать медицинские заключения на основе разговоров между врачом и пациентом, используя специальную архитектуру.


▶️Исследования и обзоры

*️⃣Проблемы производительности LLM для здравоохранения с учетом демографической справедливости.
Исследование проблемы демографической предвзятости популярных современных LLM в различных медицинских задачах.

*️⃣Применение эмбединг-моделей для классификации медицинских текстов.
Статья о том, как использовать эмбединги для классификации медицинских текстов без необходимости обучения на медицинских данных.

*️⃣BlockMedCare: блокчейн, ИИ и IoT для здравоохранения будущего.
Концепция системы для безопасного и эффективного управления электронными медицинскими картами, позволяя пациентам, врачам и администраторам взаимодействовать с системой на различных устройствах.


🔜 Читать полный дайджест
🔜Telegraph


@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍41
Media is too big
VIEW IN TELEGRAM
Машинное обучение на JavaScript

Заняться машинным обучением можно даже, если вы не знакомы с Python. Для этого у JS есть библиотека ml5.js, которая построена на основе TensorFlow.js.

В этом уроке вы познакомитесь с основами использования ml5.js для создания интерактивных и интеллектуальных веб-приложений. Ролик подойдёт даже тем, у кого ещё нет опыта работы с машинным обучением.

#javascript #ml #видео
Media is too big
VIEW IN TELEGRAM
🔥 Бесплатный Курс: Математика машинного обучения. Тензоры

📌 Видео

@data_math
👍31🔥1