Машинное обучение RU
17.7K subscribers
1.58K photos
209 videos
11 files
2.04K links
Все о машинном обучении

админ - @workakkk

@data_analysis_ml - анализ даннных

@ai_machinelearning_big_data - Machine learning

@itchannels_telegram -лучшие ит-каналы

@pythonl - Python

@pythonlbooks- python 📚

@datascienceiot - 📚

РКН: clck.ru/3FmrUw
Download Telegram
📊 История путешествий вместе с Plotly Express

В данном проекте Quick Success Data Science раскроем секрет визуализации путешествий. Для этого потребуется помощь Python, pandas и Plotly Express.

Библиотека Plotly Express
Прежде чем погрузиться в мир интерактивных карт, проверим наличие необходимых инструментов. На компьютере должны быть установлены: Python, популярная библиотека для обработки данных pandas и высокоэффективная библиотека для визуализации данных Plotly Express.

Plotly Express — это высокоуровневая версия графической библиотеки Plotly. Она абстрагирует большую часть трудоемкой работы по построению графиков и позволяет легко создавать привлекательные изображения посредством множества встроенных функциональностей.

Plotly Express требует Plotly в качестве зависимости. Ее можно установить с помощью conda или pip.

Установка с conda: conda install -c plotly plotly_express.

Установка с pip: pip install plotly.

Для установки pandas используем conda install pandas или pip install pandas.

Код запускается в JupyterLab, представлен и описан ячейками. Три ячейки выполняют следующие задачи:

Импорт библиотек и установка цвета для элементов карты, таких как страны и океаны.
Создание списка посещенных стран и преобразование его в датафрейм pandas.
Отображение датафрейма в виде картограммы посредством Plotly Express.
Импорт библиотек и установка цветов
Для удобства и гибкости при настройки карты присваиваем цвета четырем переменным. Одна предназначена для посещенных стран, другая — для непосещенных, третья — для границ стран и четвертая — для океанов.

import plotly.express as px
import pandas as pd

# Определение цвета для элементов карты:
visited_color = 'tan'
unvisited_color = 'white'
border_color = 'darkgray'
ocean_color = 'lightblue'

Статья
Plotly Express

@machinelearning_ru
👍5🔥5🥰2
This media is not supported in your browser
VIEW IN TELEGRAM
📌 Машинное обучение на рекламных платформах

Для специалистов важно знать практическое применение ML. Например, как устроены механизмы CPA-продвижения на поиске маркеплейса.

Руководитель группы машинного обучения рекламной платформы Александр Воронцов расскажет, как устроено продвижение в поиске Яндекс Маркета, рассмотрит классический tradeoff «качество — покрытие» и покажет, как выглядит размен продуктовых метрик при внедрении в продакшн новых факторов.

Доклад прозвучит 7 сентября на конференции для экспертов ML — Practical ML Conf. Основные темы конференции: Генеративные модели, Research, NLP, Hardware, CV, RecSys, MLOps, Ecomm. Найдётся то, что вам интересно. Регистрация уже началась вот здесь.

@machinelearning_ru
🔥2
📋Состояние инфраструктуры данных на 2023 год — ключевые тренды ландшафта MAD от Мэтта Терка

Основные изменения в инфраструктуре данных на 2023 год
Hadoop
Несмотря на то, что некоторые компоненты экосистемы Hadoop до сих пор используются (например, Hive), их популярность снизилась настолько, что эта экосистема больше не попадает в ландшафт индустрии данных, что также подтверждается последними статьями из разряда “Big Data is Dead”.

Data lakes стали относиться к одной категории с Lakehouse
Сюда, среди прочих, относятся следующие инструменты (где это актуально, в скобках также указаны год основания и общий объем финансирования):

Cloudera (2008, $1041 млн) — корпоративный дата-хаб, построенный на базе Apache Hadoop.
Databricks (2013, $3497 млн) — их платформа lakehouse используется для сервисов интеграции и аналитики. Эта компания ввела парадигму lakehouse и выступает лидером в этой категории.
Dremio (2015, $405 млн) — платформа аналитики данных, позволяющая компаниям запрашивать данные с любого источника и ускоряющая аналитическую обработку с помощью инструментов бизнес-аналитики, машинного обучения и клиентов SQL.
Onehouse (2021, $33 млн) — облачный управляемый сервис формата lakehouse, помогающий создавать озера данных, обрабатывать данные и владеть данными в опенсорсных форматах.
Azure Data Lake Storage  — подобный S3 сервис объектного хранилища, обычно называемый ADLS Gen 2
Azure HD Insight  — аналогичен вышеназванному сервису, но для экосистемы Hadoop.
GCP Google BigLake  — позволяет создавать таблицы BigLake в Google Cloud Storage (GCS), Amazon S3 и ADLS Gen 2 в поддерживаемых открытых форматах файлов, таких как Parquet, ORC и Avro.
GCP Google Cloud Dataproc  — аналогичен сервису выше, но для экосистемы Hadoop.
AWS Lake Formation  — упрощает управление озером данных на базе S3 с интеграцией каталога метаданных Glue, механизма запросов Athena и так далее.
AWS Amazon EMR  — аналогичен сервису выше, но для экосистемы Hadoop.

📌Продолжение

@machinelearning_ru
👍62🔥1
🖥 GPT-3.5 Turbo теперь можно дообучать самостоятельно для конкретных задач

GPT-3.5 Turbo от OpenAI получил обновление, позволяющее самостоятельно дообучать модель для использования в своих приложениях, что позволит разработчикам возможность максимально раскрыть потенциал GPT-3.5.

Теперь разработки могут делать файнтюнинг параметров модели для совершенствования производительности и точности работы модели в своих сферах применения. Первые тесты показывают, что тонко настроенный GPT-3.5 Turbo соответствует или превосходит базовые метрики GPT-4 для конкретных задач.

На тестах выяснилось, что дообучение позволит компаниям сократить длину запросов при сохранении аналогичной эффективности: тестировщики смогли сократить размер запросов на 90%, внедряя инструкции непосредственно в модель, что ускоряет каждый вызов API и сокращает затраты. Дообученные модели обрабатывают контексты из 4 тыс. токенов, вдвое увеличивая предыдущую емкость, что также ускоряет вызовы и снижает затраты на использование API.

📌 Подробнее

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🔥31
🚀Arthur Bench: инструмент для оценки языковых моделей

Arthur Bench содержит метрики для сравнения моделей по точности ответов, легкости их чтения, хеджированию и другим критериям.

Хеджирование является очень актуальной проблемой при использовании языковых моделей в приложениях: модели включают в ответ предложения, указывающие на существующие ограничения их использования («как языковая модель, я не могу…»), что обычно вызывает проблемы.

Bench значительно упрощает ручной анализ моделей.


Можно использовать 100 релевантных конкретной задаче запросов, а инструмент сам сравнит ответы разных моделей между собой и выделит те ответы, которые сильно отличались друг от друга.

pip install 'arthur-bench[server]'

from arthur_bench.run.testsuite import TestSuite
suite = TestSuite(
"bench_quickstart",
"exact_match",
input_text_list=["What year was FDR elected?", "What is the opposite of down?"],
reference_output_list=["1932", "up"]
)
suite.run("quickstart_run", candidate_output_list=["1932", "up is the opposite of down"])

@machinelearning_ru
🔥53👍3
🔥Google VRDU

Google опубликовали в открытом доступе VRDU – датасет и модель, которая понимает документы.

Модель, которая может автоматически извлекать данные из документов, например, квитанций, страховых полисов и финансовых отчетов, потенциально может значительно повысить эффективность бизнес-процессов, избегая ручной работы, подверженной ошибкам.

Но академические датасеты не в состоянии охватить проблемы, наблюдаемые в реальных примерах использования. Как следствие, академические тесты показывают высокую точность существующих моделей, но плохо работают в реальных приложениях.

Исследователи Google сформулировали список особенностей задачи извлечения содержания из документов. Этот список включает использование различных форматов данных, которые могут являться обязательными или необязательными для заполнения в документе определенного шаблона, а также наличие различных форматов оформления, структур и связей между данными.

Датасет и бенчмарк Google VRDU (Visually-rich Document Understanding) были разработаны с учетом данных особенностей.

Датасет VRDU состоит из документов двух типов: регистрационных форм и форм для покупки рекламы. Датасет содержит более 2 000 документов, таких как счета-фактуры и квитанции. Документы являются текстовыми файлами, полученными путем преобразования в текст с помощью Google Cloud изображений, собранных в открытом доступе в Интернете. Затем документы были размечены вручную для сопоставления значений, встречающихся в данных, с их аннотацией (например, числового значения величины налога с названием поля «Налог»).

Github
Датасет

@machinelearning_ru
👍54🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
📊Diagramming AI — полезный инструмент для автоматизация создания UML и рабочих процессов с помощью ИИ

Это отличный помощник в мгновенном создании и обновлении диаграмм с использованием интуитивных ИИ-команд

Бесплатный сервис предлагает хранение и управление проектами, а также возможности для динамического редактирования.

#ИИ #UML

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍53🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Shell-AI: Your Intelligent Command-Line Companion

Shell-AI (shai) - это утилита CLI, которая позволяет использовать возможности понимания естественного языка в командной строке. Просто введите на естественном языке то, что вы хотите сделать, и shai предложит однострочные команды, которые реализуют ваш запрос.

pip install shell-ai

Github

@machinelearning_ru
👍8🔥32
Повысьте уровень своих навыков в области ИИ: Список бесплатных курсов Google Top 8.

1. Introduction to Generative AI - введение в генеративный ИИ Этот курс погрузит вас в основаы генеративного ИИ,

2. Introduction to Large Language Models
- в курсе вы узнаете о больших языковых моделях (LLM), которые представляют собой разновидность искусственного интеллекта, способного генерировать текст, переводить языки, писать различные виды креативного контента и информативно отвечать на ваши вопросы.

3. Introduction to Responsible AI - этот курс расскажет вам об этичном и ответственном использовании искусственного интеллекта. Вы узнаете о различных этических проблемах ИИ, таких как предвзятость, конфиденциальность и безопасность. Вы также узнаете о некоторых лучших практиках разработки ИИ.

4. Introduction to Image Generation - этот курс расскажет вам о генерации изображений, разновидности искусственного интеллекта, способного создавать изображения на основе текстовых описаний. Вы узнаете о различных типах алгоритмов генерации изображений, о том, как они работают, и о некоторых из их наиболее распространенных применений.

5. Encoder-Decoder Architecture -
этот курс расскажет вам об архитектуре модели кодера-декодера, которые представляют собой тип архитектуры нейронной сети, широко используемой для задач обработки естественного языка, таких как машинный перевод и резюмирование текста. Вы узнаете о различных компонентах архитектур энкодер-декодер, о том, как они работают, и о некоторых наиболее распространенных областях их применения.

6. Attention Mechanism - В этом курсе вы узнаете о механизме attention - технике, которая используется для повышения производительности нейронных сетей в задачах обработки естественного языка.

7. Transformer Models and BERT Model - В этом курсе вы изучите архитектуру трансформеров, которые представляют собой тип архитектуры нейронной сети, показавшей свою эффективность при решении задач обработки естественного языка.

8. Create Image Captioning Models -
Этот курс научит вас создавать модели автоматического описания изображений, которые представляют собой разновидность искусственного интеллекта, способного генерировать подписи к изображениям.

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
10🔥5👍1
🔥Бесплатные сертификационные курсы по анализу данных, которые можно попробовать пройти в 2023 году:

🔸Data Analysis with Python (University of Helsinki)
https://classcentral.com/course/independent-data-analysis-with-python-204189

🔸Google Data Analytics
https://classcentral.com/course/google-data-analytics-36441

🔸Data Analyst Bootcamp
https://classcentral.com/course/youtube-data-analyst-bootcamp-204971

🔸The Analytics Edge (MIT University)
https://classcentral.com/course/mit-opencourseware-the-analytics-edge-spring-2017-40989

🔸Data Analysis with Python: Zero to Pandas
https://classcentral.com/course/jovian-data-analysis-with-python-zero-to-pandas-80422

🔸Data Analyst with Python
https://app.datacamp.com/learn/career-tracks/data-analyst-with-python

🔸Full Excel Data Analysis Basics
https://classcentral.com/course/youtube-full-excel-data-analysis-basics-class-e-dab-data-analysis-bi-made-easy-with-excel-power-tools-10-videos-204970

🔸Julia for Data Analysis
https://manning.com/books/julia-for-data-analysis

🔸Data Analysis with Python
https://classcentral.com/course/freecodecamp-data-analysis-with-python-34066

🔸Data Analysis (Harvard University)
http://pll.harvard.edu/course/data-analysis-life-sciences-4-high-dimensional-data-analysis

🔸PowerBI (Microsoft)
http://learn.microsoft.com/users/collinschedler-0717/collections/m14nt4rdwnwp04

🔸Excel (Microsoft)
http://learn.microsoft.com/training/paths/modern-analytics/

@machinelearning_ru
👍83🔥3🥰1
🔥 Дайджест полезных материалов из мира : Машинное обучение за неделю

Почитать:
Пережевывая Матрицу Несоответствий — Confusion Matrix
Устранение галлюцинаций в LLM
Раскладываем по полочкам тезисы из видео «Из голоса банка — в фильмы 18+»
YandexGPT тоже провалил тест на ручник
Шпаргалка по Seaborn. Делаем матрицы красивыми
7 советов, как сделать чат-бота похожим на настоящего человека
Генерация паспортных данных для обучения моделей
Классификация грибов методами ML
Наш опыт внедрения платформы чат-ботов в помощь команде поддержки
Определение токсичности комментариев с помощью глубокого обучения
Simple Weather notification project built with python in mobile.
Why Java Is an Object-Oriented Programming Language?
Elastic D&D - Week 2 - Streamlit & the Login Page
Supervised Learning
Understand the request - response cycle of Django.
Guide to Data Cleaning and Preparation for Analysis using Pandas library in Python
Unveiling the Power of the Proxy Design Pattern with a Remote API Example in Python
"Which job sectors are witnessing a surge in demand for AI and Data Science professionals?"
Data Science with Python and Java: A Dynamic Duo for Modern Analytics
Comment ajouter des hyperliens à Excel avec Python

Посмотреть:
🌐 AI in a Minefield: Learning from Poisoned Data - Johnathan Roy Azaria ( 37:07)
🌐 Orchestrating Data Assets instead of Tasks, with Dagster - Sandy Ryza ( 31:06)

Хорошего дня!

@machinelearning_ru
👍52🥰1
🖥 Полный курс по библиотеке Numpy. Матрицы.

Видео
Код из видео
Упражнения по Numpy

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
8👍4🔥1
🖥 Полный курс по библиотеке Numpy. Урок 2 Полезные функции.

Видео
Упражнения

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍82🔥1
🖥 Полный курс по библиотеке Numpy. Урок 3. Практика

Видео
Код из видео

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍72🔥1
🖥 Полный курс по библиотеке Numpy. Урок 4: Создание матриц из файла.

Видео
Код из видео

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍52👎1🔥1
Примите участие в AI Challenge - международном конкурсе по искусственному интеллекту для молодежи от Сбера

Это отличная возможность для школьников и выпускников до 18 лет получить знания и навыки в области искусственного интеллекта, а также приобрести друзей со всего мира.

Участники будут соревноваться в пяти направлениях: от медицины до креативных индустрий.

Отбор пройдет в 4 этапа: регистрация, командная работа, финальный этап с защитой перед экспертами и награждение. Призовой фонд разделят победители в каждом направлении.

Зарегистрироваться можно прямо сейчас на сайте конкурса.
🦙TinyLlama-1.1B

Проект TinyLlama для предварительно обученых моделей Llama 1,1 млрд- 3 трлн. токенов.

TinyLlama использует точно такую же архитектуру и токенизатор, как и в Llama 2. Это означает, что TinyLlama может быть подключена и работать во открытых проектах, построенных на базе Llama. Ее компактность позволяет использовать модель во множестве приложений, с ограниченным объемом вычислений и памяти.

Github

@machinelearning_ru
🔥102👍1
🖥 Python анализ данных с Pandas.Урок 1: Введение.

Видео
Код из видео

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍1🔥1