Машинное обучение RU
17.7K subscribers
1.58K photos
209 videos
11 files
2.04K links
Все о машинном обучении

админ - @workakkk

@data_analysis_ml - анализ даннных

@ai_machinelearning_big_data - Machine learning

@itchannels_telegram -лучшие ит-каналы

@pythonl - Python

@pythonlbooks- python 📚

@datascienceiot - 📚

РКН: clck.ru/3FmrUw
Download Telegram
🖥 Pandas AI — это библиотека Python, которая использует генеративные модели ИИ для расширения возможностей панд. Он был создан в дополнение к библиотеке pandas, широко используемому инструменту для анализа и обработки данных.

В редакторе кода задаете любой запрос про данные на естественном языке и без написания кода получаете готовый ответ по вашим данным.

Установка:
pip install pandasai

Например, вы можете попросить PandasAI найти все строки в DataFrame, где значение столбца больше 5, и он вернет DataFrame, содержащий только эти строки:

import pandas as pd
from pandasai import PandasAI


df = pd.DataFrame({
"country": ["United States", "United Kingdom", "France", "Germany", "Italy", "Spain", "Canada", "Australia", "Japan", "China"],
"gdp": [19294482071552, 2891615567872, 2411255037952, 3435817336832, 1745433788416, 1181205135360, 1607402389504, 1490967855104, 4380756541440, 14631844184064],
"happiness_index": [6.94, 7.16, 6.66, 7.07, 6.38, 6.4, 7.23, 7.22, 5.87, 5.12]
})

# Instantiate a LLM
from pandasai.llm.openai import OpenAI
llm = OpenAI(api_token="YOUR_API_TOKEN")

pandas_ai = PandasAI(llm)
pandas_ai(df, prompt='Which are the 5 happiest countries?')


Вывод:

6 Canada
7 Australia
1 United Kingdom
3 Germany
0 United States
Name: country, dtype: object

Конечно, вы также можете попросить PandasAI выполнить более сложные запросы. Например, вы можете попросить PandasAI найти сумму ВВП двух самых несчастливых стран:

pandas_ai(df, prompt='What is the sum of the GDPs of the 2 unhappiest countries?')

Вывод:
19012600725504

Вы также можете попросить PandasAI нарисовать график:

pandas_ai(
df,
"Plot the histogram of countries showing for each the gdp, using different colors for each bar",
)


Вот еще один пример использования библиотеки Pandas AI в Google Colab.

Github

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥14👍4👎21
Прекратите использовать Google Translator! Создайте собственное приложение с ИИ

В современном глобализированном мире общение с людьми из разных стран и культур становится всё более важным. Однако языковые барьеры часто могут мешать эффективному общению. Хотя Google Translate стал популярным инструментом для преодоления этого разрыва, у него есть свои ограничения, особенно когда речь идёт о точном переводе длинных текстов.

В связи с этим я решил предоставить возможность каждому из вас создать собственное приложение с ИИ, с помощью которого вы сможете обеспечить конфиденциальность и безопасность своих данных, а также добиться достаточно точного перевода длинных текстов.

Читать

@machinelearning_ru
👍92🔥2👏1
🖥 JupyterLab 4.0 — свежее обновление IDE .

Новое обновленеи принесло много интересных изменений. Благодаря этому обновлению стало ещё приятнее использовать инструмент.

JupyterLab теперь работает быстрее и имеет улучшенный редактор кода .

Улучшенный редактор CodeMirror в JupyterLab
CodeMirror, текстовый редактор, был обновлен до версии CodeMirror 6. В новой версии редактора улучшены его доступность и производительность, а также добавлены гибкие возможности настройки.

Функция совместной работы RTC перенесена в отдельный пакет jupytercollaboration. Он включает отображение нескольких курсоров и выделений, а также поддерживает регистрацию новых типов общих моделей.

Новый менеджер расширений в JupyterLab 4

В JupyterLab 4 Менеджер расширений включает как заранее созданные расширения Python, так и расширения с pypi.org. Расширения из PyPI не нуждаются в сборке при установке через Менеджер.

Разработчики могут добавить альтернативный репозиторий пакетов для отображения своего набора расширений.

Улучшенный поиск документов
Поиск и замена контента улучшены новыми возможностями.

Среди них подсветка совпадений в отформатированных ячейках markdown, поиск в текущем выделении, поиск по нескольким строкам, замена с сохранением регистра, и так далее.

Улучшения UI-интерфейса JupyterLab
Дизайнеры JupyterLab переработали секцию активных ядер, кнопку «Добавить новую ячейку», диалоговое окно для сочетаний клавиш и отображение первой строки в свернутых ячейках ввода и вывода.

Обновления средств разработки
Средства разработки обновились до TypeScript v5, Yarn v3, React v18 и Lumino v2.

Исправление багов
Были исправлены более 100 ошибок в JupyterLab, улучшены стабильность и производительность. Полный список исправлений можно найти на GitHub.

https://github.com/jupyterlab/jupyterlab/releases/tag/v4.0.0rc0

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥21
⭐️ 19 самых элегантных трюков Sklearn, которые я нашёл после 3 лет использования

После трёх лет использования и работы справочником по API Sklearn я понял, что самые популярные и часто используемые модели и функции — это лишь малая часть того, что может сделать библиотека. Несмотря на то, что некоторые функции чрезвычайно узконаправлены и используются в редких случаях, я обнаружил множество интересных функций, которые являются элегантными вариантами решения для различных типичаных операций, которые датасаентисты обычно выполняют вручную.

Итак, я решил составить список самых элегантных и важных функций и кратко объяснить их, чтобы вы могли значительно расширить свой набор инструментов Sklearn. Наслаждайтесь!

Читать

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🔥42🤔1
Как я улучшил производительность своего кода Python на 371%?

Вам надоело, что производительность вашего кода не показывает каких-либо высоких результатов? Вам не нравится, что ваш код долго работает? В таком случае мной была написана статья, в которой я делюсь несколькими способами, позволяющими улучшить производительность кода на Python. К тому же, всё это я делаю на собственном примере, чтобы вам было проще усвоить все процессы.

В итоге мне удалось ускорить код с 29,3 секунд до 6,3 без какой-либо внешней библиотеки!

Читать

@machinelearning_ru
👍6🔥21👎1
🔥 100 датасетов для скачивания

Огромный набор датасетов, которые вы можете скачать и начать пользоваться прямо сейчас.

📌Список

@machinelearning_ru
9👍2🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
🖥 DragGAN

Выпущен код DragGAN, который позволяет преобразовать изображения простым перетаскиванием.

🖥 Github: https://github.com/XingangPan/DragGAN

🖥 Colab: https://colab.research.google.com/drive/1-WH-DMgE0dFJ3Q_bkAJX7iSe1DvLooul?usp=sharing

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥85👍5
⭐️ Код в картинках: визуализация кода

Граф управления потоком (Control Flow Graph, CFG) – это граф, где узлы представляют базовые блоки кода, а ребра представляют переходы между ними. В статическом анализе кода, CFG может быть использован для обнаружения потенциальных проблем в коде. Например, CFG может помочь выявить «мертвый» код (код, который может быть исполнен, но результаты его вычислений не влияют на дальнейшую программу) или недостижимые части программы. CFG также может быть использован для оптимизации кода. Например, CFG может помочь выявить повторяющиеся участки кода, которые могут быть заменены на вызов функции. CFG используется во многих языках программирования, в том числе в C, C++, Java, Python и других. Они могут быть созданы вручную или автоматически с помощью инструментов, таких как библиотека Staticfg на языке Python.

Staticfg — это Python библиотека, которая позволяет создавать графы управления потоком, или простыми словами, схемы взаимодействия блоков кода. Использование staticfg может быть полезно для: исследования кода, разработки инструментов для статического анализа кода, анализа производительности кода, анализа безопасности кода. Она поддерживает большинство основных конструкций языка, таких как условные операторы, циклы и вызовы функций.

pip install staticfg

Staticfg визуализирует граф с помощью Graphviz. Поэтому не забудьте его установить, и путь до него добавить в переменную среды. Это можно сделать следующим кодом:

import os
os.environ["PATH"] += os.pathsep + r'C:\Program Files (x86)\Graphviz2.38\bin'
Одним из примеров использования Staticfg может быть следующий код:

#импортируем нужный модуль
from staticfg import CFGBuilder
#создаем объект класса CFGBuilder
cfg = CFGBuilder().build_from_file('example','example.py')
#сохраняем визуализацию
cfg.build_visual('example','png')


Этот код создаст граф потока управления для файла example.py и сохранит его в формате png с названием example.

На рисунке представлены граф тестовой программы (слева) и граф функции факториал (справа в прямоугольнике). Овалом выделены блоки кода, стрелками обозначено взаимодействие между ними, а маленьким прямоугольником выделена стандартная функция print, стрелка с прерывистой линией обозначает вызов стандартной функции.

Граф программы демонстрирует, что сначала объявляется функция factorial, затем в цикле по i от 0 до 9 вызывается стандартная функция print, которая выводит пары: число i+1 и результат работы функции factorial, которой подается на вход число i+1.

📌 Подробнее

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🔥32
🖥 Data Science

Коллекция полезных материалов по Data Science вместе со статьями, видео и кодом.

git clone https://github.com/khuyentran1401/Data-science

Github

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5👍41
➡️ DATA VISUALISATION RESOURCES

Здесь собраны немногочисленных инструменты, приложения, датасеты, библиотеки, платформы и пакеты для визуализации данных.

308 постов
52 примера графиков
68 примеров с кодом

и многое другое

Смотреть

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍83🔥3
🖥 MAGVIT:генеративный видео-трансформер 10 в 1

Исследователи из института Карнеги-Меллон, Google Research и Университета Джорджии представили модель MAGVIT (Masked Generative Video Transformer) для генерации видео.

MAGVIT - это единая модель, которая может улучшать частоту кадров видео, создавать кадры вне границ кадров, заполнять пропущенные участки видео и генерировать видео в соответствии с заданными условиями. MAGVIT показал значительное улучшение результатов по сравнению с последними достижениями на трех бенчмарках по генерации видео. В частности, на датасете Kinetics-600 MAGVIT улучшил результаты на 39%.


🖥 Github: https://github.com/google-research/magvit

📕 Paper: https://arxiv.org/pdf/2212.05199.pdf

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍83🔥1
🔗 CodeBert для автогенерации комментариев к коду

Код программ отличается от естественного языка из-за его формализма и строгости, однако ничто не мешает воспринимать его как последовательность токенов и работать с ним, как с обычным языком. Существуют исследования, которые показали, что модель BERT, обученная на большом наборе данных, неплохо справляется с некоторыми задачами, связанными с обработкой программного кода.

В этом посте я буду решать задачу автогенерации комментариев к нему.
Вы узнаете, как подготовить данные для обучения, настроить нейросеть и получить результат.

Данные
Данные представлены в виде набора пар [функция — комментарий] для различных языков программирования (awesome Code Search Net Challenge dataset). Кстати говоря, этот набор изначально был создан не для этой задачи, однако его можно легко перепрофилировать под свои нужды.

Мы не будем очищать данные, это описано здесь. Мы же буду использовать уже предварительно обработанные данные в объеме 1 % от общего количества образцов в наборе, так как обучение модели занимает довольно много времени. Но, как можно будет убедиться в будущем, генерация комментариев даже на 1 % данных выглядит неплохо. Если у вас есть время и ресурсы, можете обучить модель на всём наборе и получить результаты получше.

Читать

@machinelearning_ru
👍21
📌 10 основных диаграмм для анализа данных

Я работаю аналитиком данных уже более десяти лет. На протяжении всего своего пути я пришел к выводу, что диаграммы играют решающую роль в понимании и эффективной передаче данных. Они способны раскрыть идеи, скрытые в сложных наборах данных, и представить их в визуально привлекательной форме.

Сегодня я хочу поделиться с вами десятью наиболее важными видами диаграмм для анализа данных. Это диаграммы, которые я использую чаще всего, и я считаю, что они являются строительными блоками для любого проекта анализа данных.

Читать

@machinelearning_ru
👍7🔥31
Введение для Python-разработчиков в Prompt Engineering GPT-4

Это пошаговое руководство, использующее примеры, представляет собой введение в Prompt Engineering в этих трех областях.

Цель состоит в том, чтобы помочь вам понять, как эффективно управлять GPT-4 для достижения оптимальных результатов в процессе разработки Python.

Читать

@machinelearning_ru
👍8🔥21
This media is not supported in your browser
VIEW IN TELEGRAM
🧠 NEURAL NETWORKS A VISUAL INTRODUCTION

Интерактивная визуализация нейросетей, которая представляет интерактивное устройство нейросети, где все элементы описываются простым и последовательным образом, включая структуру, вычислительные элементы, нейроны и слои.

Анимация в проекте на очень высоком уровне, а объяснения основных терминов, понятны любому.


https://mlu-explain.github.io/neural-networks/

@machinelearning_ru
👍7🔥53
Пугающее противостояние: утечка данных в машинном обучении

Все знают общее значение утечки данных: ситуация, когда без разрешения или соблюдения мер безопасности передают конфиденциальную информацию третьим лицам. Попросту говоря, сливают. Но в машинном обучении при утечке информация из тестового датасета ошибочно попадает в обучающий.

Нашел на Хабре статью о том, какими могут быть подобные утечки и как с ними бороться. Спойлер – метода всего три: проверка вручную, пайплайны, перекрёстный контроль.

▪️ Читать

@machinelearning_ru
👍42🔥2