Машинное обучение RU
17.7K subscribers
1.58K photos
209 videos
11 files
2.04K links
Все о машинном обучении

админ - @workakkk

@data_analysis_ml - анализ даннных

@ai_machinelearning_big_data - Machine learning

@itchannels_telegram -лучшие ит-каналы

@pythonl - Python

@pythonlbooks- python 📚

@datascienceiot - 📚

РКН: clck.ru/3FmrUw
Download Telegram
🔥 100 датасетов для скачивания

Огромный набор датасетов, которые вы можете скачать и начать пользоваться прямо сейчас.

📌Список

@machinelearning_ru
9👍2🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
🖥 DragGAN

Выпущен код DragGAN, который позволяет преобразовать изображения простым перетаскиванием.

🖥 Github: https://github.com/XingangPan/DragGAN

🖥 Colab: https://colab.research.google.com/drive/1-WH-DMgE0dFJ3Q_bkAJX7iSe1DvLooul?usp=sharing

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥85👍5
⭐️ Код в картинках: визуализация кода

Граф управления потоком (Control Flow Graph, CFG) – это граф, где узлы представляют базовые блоки кода, а ребра представляют переходы между ними. В статическом анализе кода, CFG может быть использован для обнаружения потенциальных проблем в коде. Например, CFG может помочь выявить «мертвый» код (код, который может быть исполнен, но результаты его вычислений не влияют на дальнейшую программу) или недостижимые части программы. CFG также может быть использован для оптимизации кода. Например, CFG может помочь выявить повторяющиеся участки кода, которые могут быть заменены на вызов функции. CFG используется во многих языках программирования, в том числе в C, C++, Java, Python и других. Они могут быть созданы вручную или автоматически с помощью инструментов, таких как библиотека Staticfg на языке Python.

Staticfg — это Python библиотека, которая позволяет создавать графы управления потоком, или простыми словами, схемы взаимодействия блоков кода. Использование staticfg может быть полезно для: исследования кода, разработки инструментов для статического анализа кода, анализа производительности кода, анализа безопасности кода. Она поддерживает большинство основных конструкций языка, таких как условные операторы, циклы и вызовы функций.

pip install staticfg

Staticfg визуализирует граф с помощью Graphviz. Поэтому не забудьте его установить, и путь до него добавить в переменную среды. Это можно сделать следующим кодом:

import os
os.environ["PATH"] += os.pathsep + r'C:\Program Files (x86)\Graphviz2.38\bin'
Одним из примеров использования Staticfg может быть следующий код:

#импортируем нужный модуль
from staticfg import CFGBuilder
#создаем объект класса CFGBuilder
cfg = CFGBuilder().build_from_file('example','example.py')
#сохраняем визуализацию
cfg.build_visual('example','png')


Этот код создаст граф потока управления для файла example.py и сохранит его в формате png с названием example.

На рисунке представлены граф тестовой программы (слева) и граф функции факториал (справа в прямоугольнике). Овалом выделены блоки кода, стрелками обозначено взаимодействие между ними, а маленьким прямоугольником выделена стандартная функция print, стрелка с прерывистой линией обозначает вызов стандартной функции.

Граф программы демонстрирует, что сначала объявляется функция factorial, затем в цикле по i от 0 до 9 вызывается стандартная функция print, которая выводит пары: число i+1 и результат работы функции factorial, которой подается на вход число i+1.

📌 Подробнее

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🔥32
🖥 Data Science

Коллекция полезных материалов по Data Science вместе со статьями, видео и кодом.

git clone https://github.com/khuyentran1401/Data-science

Github

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5👍41
➡️ DATA VISUALISATION RESOURCES

Здесь собраны немногочисленных инструменты, приложения, датасеты, библиотеки, платформы и пакеты для визуализации данных.

308 постов
52 примера графиков
68 примеров с кодом

и многое другое

Смотреть

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍83🔥3
🖥 MAGVIT:генеративный видео-трансформер 10 в 1

Исследователи из института Карнеги-Меллон, Google Research и Университета Джорджии представили модель MAGVIT (Masked Generative Video Transformer) для генерации видео.

MAGVIT - это единая модель, которая может улучшать частоту кадров видео, создавать кадры вне границ кадров, заполнять пропущенные участки видео и генерировать видео в соответствии с заданными условиями. MAGVIT показал значительное улучшение результатов по сравнению с последними достижениями на трех бенчмарках по генерации видео. В частности, на датасете Kinetics-600 MAGVIT улучшил результаты на 39%.


🖥 Github: https://github.com/google-research/magvit

📕 Paper: https://arxiv.org/pdf/2212.05199.pdf

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍83🔥1
🔗 CodeBert для автогенерации комментариев к коду

Код программ отличается от естественного языка из-за его формализма и строгости, однако ничто не мешает воспринимать его как последовательность токенов и работать с ним, как с обычным языком. Существуют исследования, которые показали, что модель BERT, обученная на большом наборе данных, неплохо справляется с некоторыми задачами, связанными с обработкой программного кода.

В этом посте я буду решать задачу автогенерации комментариев к нему.
Вы узнаете, как подготовить данные для обучения, настроить нейросеть и получить результат.

Данные
Данные представлены в виде набора пар [функция — комментарий] для различных языков программирования (awesome Code Search Net Challenge dataset). Кстати говоря, этот набор изначально был создан не для этой задачи, однако его можно легко перепрофилировать под свои нужды.

Мы не будем очищать данные, это описано здесь. Мы же буду использовать уже предварительно обработанные данные в объеме 1 % от общего количества образцов в наборе, так как обучение модели занимает довольно много времени. Но, как можно будет убедиться в будущем, генерация комментариев даже на 1 % данных выглядит неплохо. Если у вас есть время и ресурсы, можете обучить модель на всём наборе и получить результаты получше.

Читать

@machinelearning_ru
👍21
📌 10 основных диаграмм для анализа данных

Я работаю аналитиком данных уже более десяти лет. На протяжении всего своего пути я пришел к выводу, что диаграммы играют решающую роль в понимании и эффективной передаче данных. Они способны раскрыть идеи, скрытые в сложных наборах данных, и представить их в визуально привлекательной форме.

Сегодня я хочу поделиться с вами десятью наиболее важными видами диаграмм для анализа данных. Это диаграммы, которые я использую чаще всего, и я считаю, что они являются строительными блоками для любого проекта анализа данных.

Читать

@machinelearning_ru
👍7🔥31
Введение для Python-разработчиков в Prompt Engineering GPT-4

Это пошаговое руководство, использующее примеры, представляет собой введение в Prompt Engineering в этих трех областях.

Цель состоит в том, чтобы помочь вам понять, как эффективно управлять GPT-4 для достижения оптимальных результатов в процессе разработки Python.

Читать

@machinelearning_ru
👍8🔥21
This media is not supported in your browser
VIEW IN TELEGRAM
🧠 NEURAL NETWORKS A VISUAL INTRODUCTION

Интерактивная визуализация нейросетей, которая представляет интерактивное устройство нейросети, где все элементы описываются простым и последовательным образом, включая структуру, вычислительные элементы, нейроны и слои.

Анимация в проекте на очень высоком уровне, а объяснения основных терминов, понятны любому.


https://mlu-explain.github.io/neural-networks/

@machinelearning_ru
👍7🔥53
Пугающее противостояние: утечка данных в машинном обучении

Все знают общее значение утечки данных: ситуация, когда без разрешения или соблюдения мер безопасности передают конфиденциальную информацию третьим лицам. Попросту говоря, сливают. Но в машинном обучении при утечке информация из тестового датасета ошибочно попадает в обучающий.

Нашел на Хабре статью о том, какими могут быть подобные утечки и как с ними бороться. Спойлер – метода всего три: проверка вручную, пайплайны, перекрёстный контроль.

▪️ Читать

@machinelearning_ru
👍42🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
✈️ SkyPilot для LLaMA 2

SkyPilot - платформа для запуска LLM и ИИ в облаке.

Задачи могут быть описаны в YAML или на Python и запущены в любом облаке. Инструкции для новой модели LLaMA 2 уже подготовлены авторами.
С помощью одной команды пользователи могут развернуть частного чат-бота LLaMA 2 со SkyPilot в своем облаке.

SkyPilot для LLaMA 2

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥21
Собрание бесплатных курсов по Python и машинному обучению.

1. Основы Python для анализа данных — программирование на Python.

2. Ускоренный курс по машинному обучению — видеолекции от исследователей Google содержат основы машинного обучения.

3. Основы R — как обрабатывать, анализировать и визуализировать данные.

4. Введение в Data Science и аналитику — все основы Data Science и Data Science Life Cycle.

5. Линейная регрессия — как применять R для осуществления линейной регрессии, одного из популярных методов статистического моделирования.

6. Визуализация — принципы визуализации данных и применение ggplot2 для них вкратце.

7. Введение CS50 в программирование на Python, май 2023 г.

8. Python для всех: Getting Started with Python - предлагаемый на Coursera, этот курс для начинающих знакомит с программированием на Python через пошаговые учебные пособия и практические упражнения. Курс ведет известный преподаватель доктор Чарльз Северанс.

@machinelearning_ru
9👍4🔥2
13 Бесплатных курсов по изучению генеративного ИИ

Список

@machinelearning_ru
👍5🔥31
📖 Mastering Data Preprocessing for Machine Learning in Python: Исчерпывающее руководство

Предварительная обработка данных является важным шагом в процессе интеллектуального анализа данных. Фраза «мусор на входе — мусор на выходе» применима, в частности, и для проектов интеллектуального анализа данных и машинного обучения. Здесь имеется в виду то, что даже самый изощренный анализ не принесет пользы, если за основу взяты сомнительные данные.

1. Обработка недостающих данных: *рисунок 1.

2. Масштабирование признаков: *рисунок 2.

3. Кодирование категориальных переменных: *рисунок 3.

4. Преобразование и сокращение данных: *рисунок 4.

Все вместе: Комплексный конвейер подготовки данных: *рисунок 5.

Подготовка данных является краеугольным камнем для создания исключительных моделей машинного обучения. Вооружившись Python Pandas, NumPy и Scikit-learn, вы теперь обладаете кулинарным опытом, чтобы умело подготовить данные к пиршеству машинного обучения.

Помните, что понимание данных – это ключ к успешной предварительной обработке.
Экспериментируйте с различными методами, подбирая их в соответствии с уникальными характеристиками вашего набора данных. Итеративный характер подготовки данных позволяет точно настроить подход и добиться оптимальной производительности модели.

📌 Полная статья

@machinelearning_ru
👍6🔥53