Аналитик данных – Telegram

Аналитик данных

6.02K subscribers

215 photos

27 videos

2 files

199 links

Аналитика данных, Дата Сеанс

@workakkk - по всем вопросам

Download Telegram

About

Blog

Apps

Platform

Аналитик данных

6.02K subscribers

Аналитик данных

Media is too big

VIEW IN TELEGRAM

Media is too big

VIEW IN TELEGRAM

Media is too big

VIEW IN TELEGRAM

Media is too big

VIEW IN TELEGRAM

Нарезка митапа Яндекса ML-Party, которая прошла 17 октября 2024 года в Белграде. Вырезаны перерывы и длинные панчи ведущего в начале и в конце.

▶️ Всего было 4 доклада:

🟡Илья Ирхин, руководитель подразделения аналитики в Яндекс Еде. Подробно рассказал про рекламу ресторанов в сервисе: аукцион, ранжирование, ценообразование.

🟡Дмитрий Солодуха, руководитель группы в Алисе и Умных устройствах Яндекса.
Показал, как Яндекс учил Алису откликаться без имени.

🟡Антон Клочков, руководитель подгруппы распознавания текста в VLM в Яндекс Поиске.
Рассказал о развитии навыков распознавания текста в VLM.

🟡Пётр Вытовтов, руководитель группы в Яндекс Погоде.
Показал трансформеры сервиса и рассказал, как прогнозировать до миллиметра осадков.

@dataanlitics

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5🔥4❤1

2.7K views19:26

Аналитик данных

🔥

Научитесь использовать Claude AI для создания сокращателей текста, описывателей изображений и многого другого!

🌟 LLM могут помочь вам во многих задачах и сэкономить массу времени. В этом курсе вы узнаете, как использовать Claude AI вместе с API Anthropic. В ходе курса вы создадите резюматор текста, описателя изображений и другие проекты

🕞 Продолжительность: 47:49

🔗 Ссылка: *клик*

#курс #ai #claude

@dataanlitics

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6❤1

2.49K viewsedited 13:29

Аналитик данных

🖥

awesome-ai-agents — полезный репозиторий, который содержит список различных автономных ИИ-агентов, таких как AutoGPT, BabyAGI, GPT Engineer и других!

🌟 Здесь представлены библиотеки и инструменты для работы с искусственным интеллектом, включая автономные агенты и разработки на основе GPT. Репозиторий служит полезным ресурсом для тех, кто хочет исследовать или создавать ИИ-агентов для различных задач!

▪ 150+ ИИ-агентов и фреймворков.
▪ Фильтр по сценариям использования.
▪ Фильтр по открытому/закрытому исходному коду.
▪ Фильтр новых продуктов ИИ
▪ Возможность получать обновления о конкретном агенте ИИ.

▪️Github

Please open Telegram to view this post

VIEW IN TELEGRAM

1.71K viewsedited 18:29

Аналитик данных

⚡️ Data Formulator

Фреймворк от Microsoft, предназначенный для создания сложных визуализаций данных:

▪Он позволяет трансформировать данные и создавать визуализации с использованием искусственного интеллекта;
▪ Доступен непосредственно в среде GitHub Codespaces;
▪ Поддерживает комбинацию командных интерфейсов и текстовых подсказок для настройки параметров графиков.

▪️Github

👍4❤1

1.69K viewsedited 11:52

Аналитик данных

🖥 SQL для Junior Data Engineers: примеры бизнес-задач!

🌟 Вход в профессию Data Engineer требует не только владения инструментами для построения данных, но и уверенного знания SQL для решения задач различной сложности. Несмотря на то, что многие SQL-запросы могут казаться «аналитическими», на практике именно Data Engineers часто отвечают за их написание и оптимизацию. Ведь аналитикам и специалистам по продукту требуется быстрый и точный доступ к данным для их анализа, а это означает, что DE должны обеспечить доступ к нужным данным и помочь в создании запросов для обработки больших объемов информации. В этой статье автор предлагает восемь разных задач по SQL для подготовки к карьере в Data Engineering!

🔗 Ссылка: *клик*

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥6🥰2👍1

1.9K viewsedited 11:25

Аналитик данных

Forwarded from Machinelearning

⚡️ BRIA Background Removal v2.0 Model.

RMBG v2.0 - новая модель удаления фона, предназначенная для эффективного отделения переднего плана от фона в различных категориях и типах изображений. Точность, эффективность и универсальность RMBG v2.0 конкурирует с ведущими SOTA-моделями.

RMBG-2.0 разработана на основе архитектуры BiRefNet и обучена на более чем 15 000 высококачественных, высокого разрешения, вручную маркированных (с точностью до пикселя), полностью лицензированных изображений.

Модель доступна на HF в двух версиях : pytorch и safetensors. Демо можно попробовать на HF Space.

▶️Пример кода запуска на Transformers:

from PIL import Image
import matplotlib.pyplot as plt
import torch
from torchvision import transforms
from transformers import AutoModelForImageSegmentation

model = AutoModelForImageSegmentation.from_pretrained('briaai/RMBG-2.0', trust_remote_code=True)
torch.set_float32_matmul_precision(['high', 'highest'][0])
model.to('cuda')
model.eval()

# Data settings
image_size = (1024, 1024)
transform_image = transforms.Compose([
    transforms.Resize(image_size),
    transforms.ToTensor(),
    transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
])

image = Image.open(input_image_path)
input_images = transform_image(image).unsqueeze(0).to('cuda')

# Prediction
with torch.no_grad():
    preds = model(input_images)[-1].sigmoid().cpu()
pred = preds[0].squeeze()
pred_pil = transforms.ToPILImage()(pred)
mask = pred_pil.resize(image.size)
image.putalpha(mask)

image.save("no_bg_image.png")

📌Лицензирование:

🟢Некоммерческое использование: Creative Commons license
🟠Коммерческое использование: на основании коммерческого соглашения с BRIA

🟡

🟡

Demo

@ai_machinelearning_big_data

#AI #ML #BiRefNet #RMBG #BRIAAI

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3❤1

1.5K views15:34

Аналитик данных

This media is not supported in your browser

VIEW IN TELEGRAM

⚡️

Крутая шпаргалка по стратегиям для обучения на GPU

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3

2.3K viewsedited 16:06

Аналитик данных

✔️

OpenAI запускает бесплатный учебный курс по искусственному интеллекту для учителей.

OpenAI совместно с некоммерческой организацией Common Sense Media запустила бесплатный обучающий курс для учителей, посвященный ИИ и промпт-инжинирингу. Курс должен помочь учителям разобраться в возможностях чат-бота ChatGPT.

Обучение демонстрирует, как использовать ChatGPT для создания учебных материалов и оптимизации рабочих процессов. Курс доступен на сайте Common Sense Media. OpenAI создала специальную команду под руководством бывшего руководителя Coursera Лии Белски, чтобы поддержать ответственное использование ИИ в образовании.

Белски отметила высокий уровень использования ChatGPT среди учеников и поддержку со стороны родителей, которые считают навыки работы с ИИ необходимыми для будущей карьеры.

reuters.com

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2❤1

1.83K views10:15

Аналитик данных

👩‍💻 Курс по анализу и визуализации данных на Python с астрономическими данными!

💡 Этот курс — путешествие по вселенной анализа и визуализации данных, специально разработанный для астрономических данных. Курс охватывает все: от основ программирования на Python до продвинутых методов обработки изображений.

🕞 Продолжительность: 6:31:57

🔗 Ссылка: *клик*

#курс #python #dataanalysis

@dataanlitics

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7❤1

1.74K viewsedited 21:10

Аналитик данных

Forwarded from Machinelearning

🌟 Hymba-1.5B: Базовая и инструктивная модели от NVIDIA.

Hymba-1.5B-Base имеет embedding size 1600, 25 attention heads, MLP 5504, 32 слоя, 16 состояний SSM, 3 слоя полного внимания, остальные - внимания со скользящим окном.

В отличие от стандартного трансформера, каждый слой внимания в Hymba имеет гибридную комбинацию стандартных attention heads и Mamba heads в параллельном исполнении. Hymba использует технологии Grouped-Query Attention (GQA) и Rotary Position Embeddings (RoPE).

Hymba обучалась на 1.5 трлн токенах в 2 этапа предварительного обучения и 3 этапами посттренининга.

Hymba-1.5B-Instruct - файнтон Hymba-1.5B-Base на комбинации открытых наборов данных инструкций и собранных собственными силами синтетических датасетов.

Эта модель настраивалась с помощью SFT и DPO и способна как в математические рассуждения и вызов функций, так и в ролевые сценарии.

⚠️ В Hymba-1.5B-Instruct используется кастомный шаблон промпта, который был интегрирован в токенизатор и может быть применен с помощью tokenizer.apply_chat_template.

▶️Пример инференса Hymba-1.5B-Base:

from transformers import LlamaTokenizer, AutoModelForCausalLM, AutoTokenizer, AutoModel
import torch

# Load the tokenizer and model
repo_name = "nvidia/Hymba-1.5B-Base"

tokenizer = AutoTokenizer.from_pretrained(repo_name, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(repo_name, trust_remote_code=True)
model = model.cuda().to(torch.bfloat16)

# Chat with Hymba
prompt = input()
inputs = tokenizer(prompt, return_tensors="pt").to('cuda')
outputs = model.generate(**inputs, max_length=64, do_sample=False, temperature=0.7, use_cache=True)
response = tokenizer.decode(outputs[0][inputs['input_ids'].shape[1]:], skip_special_tokens=True)

print(f"Model response: {response}")

📌 Лицензирование: NVIDIA Open Model License Agreement

🟡

Набор моделей на HF

@ai_machinelearning_big_data

#AI #ML #SLM #Hymba #Nvidia

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2

1.65K views09:05

Аналитик данных

⚡️ Cotype Nano - русскоязычная SLM от МТС.

MTS AI опубликовала в открытый доступ легковесную модель генерации текста C otype Nano и ее квантованные вариации.

Cotype Nano построена на базе Qwen2.5-1.5B и обучалась методом SFT на датасете объемом 1 млн. инструкций из областей: математика, программирование, обобщение текста и текстовые диалоги. В создании датасета использовалась большая модель Cotype Pro 32k.

На первой стадии обучался слой MLP с LoRa на датасетах по математике и программированию. На второй стадии обучалась вся модель на инструктивных датасетах. Завершающим этапом стал alignment (DPO) на отдельно сгенерированном датасете.

Оценка модели проводилась автоматическим side-by-side с gpt-3.5-turbo и gpt-4 на внутреннем датасете и в бенчмарках RuGeneralArena, где Cotype-Nano показала лучший результат в своей весовой категории.

▶️Набор моделей:

🟢

Cotype-Nano - 1.54 млрд. параметров;

🟠

Cotype‑Nano-4bit - 403 млн. параметров, квантованная методом AWQ версия;

🟠

Cotype‑Nano‑CPU - оптимизированная с помощью openVINO версия под CPU Intel;

🟠

Cotype Nano GGUF - 1.54 млрд параметров, две версии в разрядности 16-bit (3. 09 Gb) и 8-bit (1.65 GB) под llama.cpp.

📌Лицензирование: Apache 2.0 License.

🟡

Статья на Habr

🟡

Набор моделей на HF

@dataanlitics

#AI #ML #SLM #RuLLM #MTSAI

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤2

1.95K views20:38

Аналитик данных

🔥 Создание ИИ-генератора изображений с помощью Python!

🌟 Узнайте, как генерировать изображения AI бесплатно с помощью Google Collab и локально на вашем компьютере. Изучите различные модели и подсказки для создания высококачественных изображений без усилий.

🕞 Продолжительность: 17:19

🔗 Ссылка: *клик*

#курс #python

@dataanlitics

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤1🔥1

1.76K views12:00

Аналитик данных

Forwarded from Machinelearning

📎

ML в медицине: дайджест за 1 - 7 декабря 2024 г.

▶️

Модели, бенчмарки и датасеты

🔘

SOAR: бенчмарк для оценки LLM в задачах аннотации типов клеток.
Тест, который проверяет, насколько хорошо модели могут понимать и анализировать сложные данные о клетках.

🔘

Повышение точности диагностики рентгенограмм грудной клетки с помощью анализа направления взгляда врачей.
Система 2-х нейросетей, которая помогает диагностировать заболевания по рентгенограммам грудной клетки и предсказывает, на какие области изображения врачи обращают внимание.

🔘

EchoONE: унифицированная модель для сегментации множества плоскостей эхокардиографии.
Модель, которая помогает врачам более точно анализировать снимки сердца, сделанные с помощью ультразвука, даже если снимки сделаны под разными углами.

▶️

Фреймворки и методологии

🔘

RARE: RAG-ризонинг.
Метод для улучшения способности рассуждать и давать точные ответы, используя комбинацию генерации и поиска информации для обогащения своих знаний.

🔘

STORM: cтратегия организации модальностей для классификации редких событий.
Алгоритм, который помогает выбрать лучшие источники информации для решения сложных медицинских задач.

🔘

TransFair: прогноз прогрессирования глазных заболеваний.
Модель классификации, которая помогает сделать прогнозы о глазных заболеваниях более справедливыми и точными.

🔘

PePR: оценка эффективности моделей с учетом потребления ресурсов.
Показатель, который помогает оценить, насколько эффективно модель использует ресурсы.

🔘

Оценка качества рентгенологических заключений с помощью сопоставления клинических данных с изображением.
Метод оценки качества автоматически сгенерированных рентгенологических отчетов, который учитывает точность описания патологических изменений, их локализации и степени выраженности.

▶️

Медицинские LLM-приложения

🔘

MedChain: LLM-агент и бенчмарк для принятия клинических решений.
Набор данных и система для имитации реальной клинической практики, где каждый случай включает подробную информацию о пациенте и требует активного сбора информации и принятия решений на основе предыдущих шагов.

🔘

QG-Summ: автореферирование медицинских записей с самоконтролем, управляемое запросами.
Метод, который помогает создавать краткие и точные отчеты о состоянии пациентов в электронных медкартах, используя запросы, связанные с пациентом, для руководства процессом.

🔘

CLINICSUM: генерация медицинских заключений из диалогов врача и пациента.
Фреймворк, который может автоматически создавать медицинские заключения на основе разговоров между врачом и пациентом, используя специальную архитектуру.

▶️

Исследования и обзоры

*️⃣

Проблемы производительности LLM для здравоохранения с учетом демографической справедливости.
Исследование проблемы демографической предвзятости популярных современных LLM в различных медицинских задачах.

*️⃣

Применение эмбединг-моделей для классификации медицинских текстов.
Статья о том, как использовать эмбединги для классификации медицинских текстов без необходимости обучения на медицинских данных.

*️⃣

BlockMedCare: блокчейн, ИИ и IoT для здравоохранения будущего.
Концепция системы для безопасного и эффективного управления электронными медицинскими картами, позволяя пациентам, врачам и администраторам взаимодействовать с системой на различных устройствах.

🔜

Читать полный дайджест

🔜

Telegraph

@ai_machinelearning_big_data

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤1

1.86K views07:30

Аналитик данных

Media is too big

VIEW IN TELEGRAM

Машинное обучение на JavaScript

Заняться машинным обучением можно даже, если вы не знакомы с Python. Для этого у JS есть библиотека ml5.js, которая построена на основе TensorFlow.js.

В этом уроке вы познакомитесь с основами использования ml5.js для создания интерактивных и интеллектуальных веб-приложений. Ролик подойдёт даже тем, у кого ещё нет опыта работы с машинным обучением.

#javascript #ml #видео

2.07K views13:29

Аналитик данных

Media is too big

VIEW IN TELEGRAM

🔥 Бесплатный Курс: Математика машинного обучения. Тензоры

📌 Видео

@data_math

👍3❤1🔥1

2.15K views10:58

Аналитик данных

⚡️ Курс: Математика Машинного обучения Урок 2 Инвариантность

📌 Видео
📌 Урок 1
📌 Colab

Курс: Математика Машинного обучения. Инвариантность. Урок 2

🔥 https://xn--r1a.website/+mweO6x5UIXJjMTJi - мой авторский телеграм канал, где собрана вся база по ИИ и машинному обучению, разбор кода и лучшие уроки для вас, подписывайтесь!
🔥 https://xn--r1a.website/addlist/2Ls-snqEeytkMDgy - для всех кто любит машинное обучение я собрал…

👍2🔥2😐1

2.42K viewsedited 09:15