Машинное обучение RU
17.7K subscribers
1.58K photos
209 videos
11 files
2.04K links
Все о машинном обучении

админ - @workakkk

@data_analysis_ml - анализ даннных

@ai_machinelearning_big_data - Machine learning

@itchannels_telegram -лучшие ит-каналы

@pythonl - Python

@pythonlbooks- python 📚

@datascienceiot - 📚

РКН: clck.ru/3FmrUw
Download Telegram
📖 Mastering Data Preprocessing for Machine Learning in Python: Исчерпывающее руководство

Предварительная обработка данных является важным шагом в процессе интеллектуального анализа данных. Фраза «мусор на входе — мусор на выходе» применима, в частности, и для проектов интеллектуального анализа данных и машинного обучения. Здесь имеется в виду то, что даже самый изощренный анализ не принесет пользы, если за основу взяты сомнительные данные.

1. Обработка недостающих данных: *рисунок 1.

2. Масштабирование признаков: *рисунок 2.

3. Кодирование категориальных переменных: *рисунок 3.

4. Преобразование и сокращение данных: *рисунок 4.

Все вместе: Комплексный конвейер подготовки данных: *рисунок 5.

Подготовка данных является краеугольным камнем для создания исключительных моделей машинного обучения. Вооружившись Python Pandas, NumPy и Scikit-learn, вы теперь обладаете кулинарным опытом, чтобы умело подготовить данные к пиршеству машинного обучения.

Помните, что понимание данных – это ключ к успешной предварительной обработке.
Экспериментируйте с различными методами, подбирая их в соответствии с уникальными характеристиками вашего набора данных. Итеративный характер подготовки данных позволяет точно настроить подход и добиться оптимальной производительности модели.

📌 Полная статья

@machinelearning_ru
👍6🔥53
🐍 Clickhouse DB в Python

Clickhouse – это высокопроизводительная, ориентированная на столбцы SQL СУБД для OLAP-процессов. Мечта инженера по обработке данных.

Что такое рабочий процесс OLAP?

Аббревиатура OLAP расшифровывается как online analytical processing. Рабочие процессы OLAP – это процессы, требующие ответов в реальном времени поверх больших наборов данных для аналитических целей.

Clickhouse работает на macOS, FreeBSD и Linux, а также может поддерживаться на Windows с помощью WSL.

Вы можете установить сервер clickhouse на свою систему локально, используя следующую команду в терминале:
curl https://clickhouse.com/ | sh

Настройка клиентов:
Существует несколько способов настройки клиентов для выполнения запросов к БД clickhouse. Здесь мы рассмотрим три основных:

1. Сервер Clickhouse представляет собой http-клиент, позволяющий пользователям выполнять запросы с помощью удобного пользовательского интерфейса. Доступ к нему можно получить по адресу http://localhost:8123/play. Он выглядит следующим образом: *в изображении.
2. Мы также можем настроить собственный клиент на базе SQL, выполнив в терминале следующую команду:
./clickhouse client
3. Если вы являетесь поклонником VSCode, то для начала работы с clickhouse есть очень полезное расширение. С помощью SQLTools можно устанавливать соединения с сервером clickhouse и выполнять на нем SQL-запросы.
4. Для этих же целей можно использовать tabix, если вы являетесь поклонником докеризованных сервисов.
docker build -t tabix .
docker run -d -p 8080:80 tabix


Подключимся к Clickhouse с помощью python

@machinelearning_ru
🔥6👍21
This media is not supported in your browser
VIEW IN TELEGRAM
Запуск FreeWilly2 70B на GPU A100 (40 ГБ) с использованием Lit-GPT за 3 простых шага.

📌 FreeWilly2: https://huggingface.co/stabilityai/FreeWilly1-Delta-SafeTensor

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥31
Как создавать качественные ML-системы

Каждый проект надо начинать с плана, потому что ML-системы слишком сложны, чтобы внедрять их спонтанно. Команда VK Cloud перевела серию из двух статей о жизненном цикле ML-проекта. Из 1 части вы узнаете, каков жизненный цикл ML-проекта и ценность для бизнеса, как собирать требования, начинать с малого и отказываться от плохих идей.

Во второй части поговорили о Data-centric ИИ, данных для обучения, разметке и очистке, синтетических данных и еще немного о Data Engineering и ETL.

▪️ Читать 1 часть
▪️ Читать 2 часть

@machinelearning_ru
👍32🔥1
🐍Решение дифференциальных уравнений с Python

Дифференциальные уравнения — это мощный инструмент, который используется во многих областях науки и техники. От физики и химии до экономики и биологии, они предоставляют основу для моделирования различных процессов.

Дифференциальные уравнения описывают динамику системы, позволяя нам понять, как система меняется со временем или в ответ на различные воздействия.

Одной из ключевых библиотек, которую мы будем использовать, является SymPy.

SymPy — это библиотека Python для символьных математических вычислений, которая позволяет нам проводить аналитическое решение дифференциальных уравнений.

Для численного решения дифференциальных уравнений мы будем использовать библиотеку SciPy.

SciPy — это основная библиотека для научных вычислений в Python, которая предоставляет множество функций для численного решения дифференциальных уравнений, включая различные методы, такие как метод Эйлера и метод Рунге-Кутты.

Чтобы начать работу с этими библиотеками, вам нужно их установить. Это можно сделать, используя менеджер пакетов Python pip:

pip install sympy scipy fipy matplotlib

Читать дальше

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍83🔥1
⚡️Маст-хэв список для программистов, каналы с последними книжными новинками, библиотеками, разбором кода и актуальной информацией, связанной с вашим языком программирования.
Лучший способ получать свежие обновлении и следить за трендами в разработке.

Машинное обучение: t.me/ai_machinelearning_big_data
Python: t.me/pythonl
C#: t.me/csharp_ci
C/C++/ t.me/cpluspluc
Data Science: t.me/data_analysis_ml
Devops: t.me/devOPSitsec
Go: t.me/Golang_google
Базы данных: t.me/sqlhub
Rust: t.me/rust_code
Javascript: t.me/javascriptv
React: t.me/react_tg
PHP: t.me/phpshka
Android: t.me/android_its
Мобильная разработка: t.me/mobdevelop
Linux: t.me/+A8jY79rcyKJlYWY6
Big Data: t.me/bigdatai
Хакинг: t.me/linuxkalii
Тестирование: https://xn--r1a.website/+F9jPLmMFqq1kNTMy
Java: t.me/javatg

💼 Папка с вакансиями: t.me/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: t.me/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.me/addlist/eEPya-HF6mkxMGIy

Папка машинное обучение: https://xn--r1a.website/addlist/_FjtIq8qMhU0NTYy

📕 Бесплатные Книги для программистов: https://xn--r1a.website/addlist/YZ0EI8Ya4OJjYzEy

🎞 YouTube канал: https://www.youtube.com/@uproger

😆ИТ-Мемы: t.me/memes_prog

🇬🇧Английский: t.me/english_forprogrammers
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥1🥰1
🟡 Дайджест полезных материалов из мира Machine Learning за неделю

Почитать:
Рутина vs эмпатия: каким мы видим шаг в сторону автоматизации первичного приема пациентов
Прогнозирование цен на акции с помощью моделирования методом Монте-Карло
Запускаем Stable Diffusion на Raspberry PI Zero 2 (или на 260 МБ ОЗУ)
Пишем модуль прогнозирования погоды на Python.
Как использовать нейросети в финансах и аналитике
Ликбез по LLM, новинки от Nvidia и видеокейс по внедрению MLOps
Физически информированное машинное обучение, или Как я перестал бояться и полюбил искусственный интеллект
Заходит утка в бар: понимает ли ИИ юмор?
Наступает закат эпохи смартфонов
Как сделать контекстное окно на 100K в большой языковой модели: обо всех фокусах в одном посте
Генерация текстов, кластеризация и определение E-A-T и коммерческости запросов на нейросети OpenAI (GPT-3)
Создаем конвейер машинного обучения с помощью DBT

How can i start studying AI & ML
Image Processing With NodeJS
Building the Bedrock: Employing SOLID Principles in Data Science
A quick introduction to language models
7 Best Advanced Data Science Online Courses
Mi biblioteca de MLOps
Machine monitoring
Exploring the Diversity of Machine Learning: 10 Essential Branches Beyond NLP and Computer Vision
Introduction to LLMFlows
Academic research: How organisations keep records about their algorithmic systems

Посмотреть:
🌐 NVIDIA's New AI: Text To Image Supercharged! ( 06:37)
🌐 NVIDIA’s New Video AI: Game Changer! ( 07:01)
🌐 Даниил Бурлаков | Внедрение трансформеров в Яндекс Музыку ( 42:41)
🌐 Демид Гаибов | Нейросетевые модели на последовательностях чеков ОФД - DL in finance ( 12:04)

Хорошего дня!

@machinelearning_ru
👍7🔥21👎1
📡Prithvi: новая модель и датасет NASA для анализа экологических явлений

NASA и IBM выпустили open-source модель Prithvi, которая позволит ученым отслеживать последствия изменения климата, осуществлять мониторинг вырубки лесов, прогнозировать урожайность сельскохозяйственных культур и анализировать выбросы парниковых газов.

Составив карту последствий, можно сделать прогноз будущих проблемных зон и помогает разрабатывать стратегию адаптационных мер.

Опубликовано около 250 000 терабайт данных NASA.
Модель позволяет анализировать геопространственные данные в 4 раза быстрее, чем другие модели мо, используя при этом вдвое меньший объем данных.

🛰 Модель

@machinelearning_ru
👍95🔥2
👆 Рост производительности машинного обучения с Rust

Создадим с нуля небольшой фреймворк машинного обучения на Rust.

Цели
1. Выяснить, заметен ли рост скорости при переходе с Python и PyTorch на Rust и LibTorch, серверную библиотеку PyTorch на C++, особенно в процессе обучения модели. ML-модели становятся крупнее, для их обучения требуется больше вычислительных возможностей, для обычного человека порой нереальных. Один из способов уменьшить рост аппаратных требований — понять, как сделать алгоритмы вычислительно эффективнее. Python в PyTorch — это лишь слой поверх LibTorch. Вопрос в том, стоит ли менять его на Rust. Планировалось использовать крейт Tch-rs для доступа к тензорам и функционалу Autograd DLL-библиотеки LibTorch как «калькулятору градиентов», а затем разработать с нуля на Rust остальное.
2. Сделать код достаточно простым для четкого понимания всех вычислений линейной алгебры и с возможностью легко его расширить при необходимости.
3. Во фреймворке ML-модели должны определяться, насколько это возможно, по аналогичной структуре стандартных Python/PyTorch.
4. Поизучать Rust и не скучать.

Но статья посвящена скорее преимуществам применения Rust в машинном обучении.

Переходим сразу к конечному результату — вот как маленьким фреймворком создаются нейросетевые модели.

Листинг 1. Определение нейросетевой модели
struct MyModel {
l1: Linear,
l2: Linear,
}

impl MyModel {
fn new (mem: &mut Memory) -> MyModel {
let l1 = Linear::new(mem, 784, 128);
let l2 = Linear::new(mem, 128, 10);
Self {
l1: l1,
l2: l2,
}
}
}

impl Compute for MyModel {
fn forward (&self, mem: &Memory, input: &Tensor) -> Tensor {
let mut o = self.l1.forward(mem, input);
o = o.relu();
o = self.l2.forward(mem, &o);
o
}
}


Затем модель инстанцируется и обучается.

Листинг 2. Инстанцирование и обучение нейросетевой модели
fn main() {
let (x, y) = load_mnist();

let mut m = Memory::new();
let mymodel = MyModel::new(&mut m);
train(&mut m, &x, &y, &mymodel, 100, 128, cross_entropy, 0.3);
let out = mymodel.forward(&m, &x);
println!("Training Accuracy: {}", accuracy(&y, &out));
}


Для пользователей PyTorch это интуитивно понятная аналогия определения и обучения нейросети на Python. В примере выше показана модель нейросети, используемая затем для классификации. Модель применяется к набору данных Mnist тестов производительности для сравнения двух версий модели: Rust и Python.

В первом блоке кода создается структура MyModel с двумя слоями типа Linear.

Второй блок — ее реализация, где определяется ассоциированная функция new, которой инициализируются два слоя и возвращается новый экземпляр структуры.

В третьем блоке реализуется типаж Compute для MyModel, им определяется метод forward. Затем в функции main загружается набор данных Mnist, инициализируется память, инстанцируется MyModel, а после она обучается в течение 100 эпох с размером пакета 128, потерями перекрестной энтропии и скоростью обучения 0,3.

Очень даже понятно: это то, что потребуется для создания и обучения новых моделей на Rust с помощью маленького фреймворка. Теперь копнем поглубже и разберемся, как это все возможно.

Если вы привыкли создавать ML-модели в PyTorch, то наверняка, глядя на код выше, зададитесь вопросом: «Зачем здесь ссылка на Memory?». Объясним ниже. 👇

Читать
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍2🔥1
🖥 Задачи из интервью Google Data Science

Простые, интуитивно понятные объяснения некоторых вопросов Google по решению проблем

Помимо задач по программированию, работодатель обязательно проверяет знание математики, и особенно решение задач в области статистики и теории вероятности. Ниже мы приводим разбор вопросов из интервью Google.

Читать

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
9👍3🔥1
Тренировки по алгоритмам 3.0

1. Как и зачем изучать алгоритмы
2. Стеки
3. Очереди, деки и приоритетные очереди
4. Динамическое программирование с одним параметром
5. Динамическое программирование с двумя параметрами
6. Обход графов в ширину
7. Разбор ДЗ (практика)
8. Разбор ДЗ (практика)
9. Разбор ДЗ (практика)
10. Разбор ДЗ (практика)

#video #algorithm

https://www.youtube.com/watch?v=5QqVZJ8bA5o&list=PL6Wui14DvQPz_vzmNVOYBRqML6l51lP0G&ab_channel=%D0%90%D0%BA%D0%B0%D0%B4%D0%B5%D0%BC%D0%B8%D1%8F%D0%AF%D0%BD%D0%B4%D0%B5%D0%BA%D1%81%D0%B0

@machinelearning_ru
👍102🥰1
Best_Python_Tools_for_Building_Generative_AI_Applications_KDnuggets.pdf
153 KB
Шпаргалка по лучшим инструментам Python для создания приложений генеративного ИИ

@machinelearning_ru
👍61
LabML сайт, где собран код многих популярных ИИ-моделей , вроде GPT или Stable Diffusion.

Все это с комментариями почти в каждой строке, а также математическими формулами.

📌 Сайт

@machinelearning_ru
👍82🔥2
🟡 Дайджест полезных материалов из мира : Машинное обучение за неделю

Почитать:
Дайджест новостей искусственного интеллекта и машинного обучения за лето
Простая нейронная сеть без библиотек и матриц. Эволюционный алгоритм
10 ресурсов, посвященных тенденциям и лучшим практикам управления данными
Дропаем ранжирующие метрики в рекомендательной системе, часть 2: двухэтапные модели
Как найти задачу, которую можно решить с помощью машинного обучения
Что особенного в прогнозировании спроса на перевозки по ж/д
Что такое CLTV и как мы в билайне с ним работаем
Теперь наш синтез на 22 языках с кириллицей и ещё в 4 раза быстрее
Простая нейронная сеть без библиотек и матриц. Обучение с учителем
LlamaIndex: создаем чат-бота без боли и страданий. Часть 2
ML для ускорения работы картографов
How to create virtual environment from terminal (command line)
Todo App - Project Idea - Flask/PostgreSQL/Docker
Introduction to Sets in Python
How to Add Color to Old Black and White Movies and Images | using DeOldify
A way to (actually) run Python code in ChatGPT
What is Machine Learning?
Webhook and Ansible
Navigating Databases with Python: A Beginner-Friendly Guide
Send Automated Emails (smtplib & Python) Through Lambda
Benefits of hybrid search

Посмотреть:
🌐 Lightning Interview "Hands-On Generative AI Applications" ( 57:29)
🌐 Vector Search - A gentle introduction - Zain Hasan ( 44:27)
🌐 Lightning Interview "Confident Data Science" ( 00:00)
🌐 Toward Robust, Knowledge-Rich Natural Language Processing - Hannaneh Hajishirzi, PhD ( 34:14)
🌐 Lightning Interview "Generative AI and the Law" ( 56:21)

Хорошего дня!

@machinelearning_ru
👍9🔥1🥰1
👨‍🎓 CS224u: Natural Language Understanding

Стэнфордский университет только что открыл полный доступ к курсу CS224U. Это один из чрезвычайно популярных курсов по пониманию естественного языка для выпускников, который читает профессор Кристофер Поттс.

GitHub
Видео

@machinelearning_ru
🔥11👍42
📢SeamlessM4T

Meta выпустила самый мощный нейропереводчик на сегодняшний день. SeamlessM4T понимает более 100 языков и умеет осуществлять все типы переводов: из текста в текст, из речи в текст, из текста в речь и даже из речи в речь.

Github
Статья
Demo
Hugging face

@machinelearning_ru
👍14🔥42🤔1