Машинное обучение с использованием
Python
Автор: Кайл Галлатин
Год издания: 2024
#ml #python #ru
Скачать книгу
Python
Автор: Кайл Галлатин
Год издания: 2024
#ml #python #ru
Скачать книгу
Machine Learning For Network Traffic
and Video Quality Analysis
Автор: Lavesh Babooram
Год издания: 2024
#ml #en
Скачать книгу
and Video Quality Analysis
Автор: Lavesh Babooram
Год издания: 2024
#ml #en
Скачать книгу
Random Matrix Methods for Machine Learning
Автор: Romain Couillet
Год издания: 2022
#ml #en
Скачать книгу
Автор: Romain Couillet
Год издания: 2022
#ml #en
Скачать книгу
🧑🏻💻16 июля в 18:00 МСК OTUS проводит открытый вебинар: «Random Forest — мощный метод ансамблирования в ML».
Вы узнаете, как работает один из самых надёжных и понятных алгоритмов машинного обучения — Random Forest. Поговорим о принципах его работы, вариантах применения, особенностях настройки и, конечно, попрактикуемся на Python прямо на занятии.
Это отличный шанс для тех, кто:
— делает первые шаги в Data Science;
— хочет разобраться в ключевых алгоритмах ML;
— рассматривает переход в IT;
— выбирает курс и направление для старта карьеры.
📢 Спикер Мария Тихонова – PhD Computer Science, Senior Data Scientist.
➡️ Вебинар проходит в преддверии старта курса «Специализация Machine Learning». Все участники получат скидку на обучение. Регистрация открыта: https://vk.cc/cNzxc8
Вы узнаете, как работает один из самых надёжных и понятных алгоритмов машинного обучения — Random Forest. Поговорим о принципах его работы, вариантах применения, особенностях настройки и, конечно, попрактикуемся на Python прямо на занятии.
Это отличный шанс для тех, кто:
— делает первые шаги в Data Science;
— хочет разобраться в ключевых алгоритмах ML;
— рассматривает переход в IT;
— выбирает курс и направление для старта карьеры.
📢 Спикер Мария Тихонова – PhD Computer Science, Senior Data Scientist.
➡️ Вебинар проходит в преддверии старта курса «Специализация Machine Learning». Все участники получат скидку на обучение. Регистрация открыта: https://vk.cc/cNzxc8
Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576Azure Machine Learning Engineering
Автор: Balamurugan Balakreshnan
Год издания: 2023
#ml #azure #en
Скачать книгу
Автор: Balamurugan Balakreshnan
Год издания: 2023
#ml #azure #en
Скачать книгу
Python and R for the Modern
Data Scientist
Автор: Boyan Angelov, Rick J. Scavetta
Год издания: 2021
#python #ds #en
Скачать книгу
Data Scientist
Автор: Boyan Angelov, Rick J. Scavetta
Год издания: 2021
#python #ds #en
Скачать книгу
👍1
Software Engineering for Data Scientists
Автор: Catherine Nelson
Год издания: 2024
#ds #en
Скачать книгу
Автор: Catherine Nelson
Год издания: 2024
#ds #en
Скачать книгу
❤2🔥1
🧾 Чек-лист. Основные этапы создания Корпоративного Хранилища данных
В зависимости от компании, подход к созданию КХД может различаться: одни видят его как монолитную систему, другие — как распределенную архитектуру. Мы под КХД будем понимать как ядровую БД, так и все дополнительные инструменты для переливки информации, базы данных, BI, утилиты для мониторинга и алертинга и многое другое.
1. Определение целей и задач
Рекомендуется не отталкиваться от технических возможностей, а начинать с бизнес-контекста.
- Четко сформулируйте цели хранилища (аналитика, отчетность, оптимизация процессов и т.д.)
- Определите ключевых заинтересованных лиц (stakeholders) и их ожидания
- Изучите нюансы бизнеса
2. Анализ источников данных
В зависимости от свойств источника происходит различная работа по “вытаскиванию” необходимой информации. Активный/пассивный, имеющий дубли и вложенность хранения, типизация и эволюция схемы, а также многое другое.
- Проведите инвентаризацию всех источников данных (CRM, ERP, веб-приложения, файлы, БД, API и т.д.)
- Определите форматы данных (структурированные, неструктурированные)
- Выясните объем и частоту обновления данных и т.д.
3. Определение архитектуры хранилища
Самый сложный и важный этап.
- Выберите подход (ETL или ELT)
- Решите, будет ли хранилище on-premise, облачным или гибридным
- Определите слои хранилища: staging (сырые данные), ODS (операционные данные), DWH (исторические данные)
- Обозначьте, где будут содержаться витрины данных и “сырая” информация
- Уточните, как будет предоставляться информация конечным пользователям и т.д.
4. Выбор технологий
- Определите, нужны ли вам БД отдельно для OLAP и OLTP?
- Выберите СУБД (Greenplum, Snowflake, PosgtreSQL, ClickHouse и т.д.)
- Подберите инструменты интеграции данных (Apache NiFi, Dagster, Airflow)
- Подумайте о Вl-инструментах (Tableau, Superset, Looker)
- А так же не забывайте об инструментах мониторинга, бекапирования и алертинга
5. Проектирование модели данных
- Определите уровень нормализации данных (3NF, звездная или снежинка — или более продвинутые, Data Vault)
- Создайте ЕR-диаграммы и схемы таблиц
- Проработайте “узкие места” и слепые зоны, подумайте о связи модели данных и пользовательских ролей и доступов
6. Реализация ETL/ELT процессов
- Настройте коннекторы к источникам данных
- Создайте пайплайны для извлечения, трансформации и загрузки данных
- Автоматизируйте обновление данных
7. Управление качеством данных
- Внедрите процессы проверки данных (data validation)
- Реализуйте контроль на дубликаты, пропуски и несоответствия форматов
8. Обеспечение безопасности
- Настройте роли и права доступа. Подумайте о внедрении Active Directory для унифицирования доступа ко всем текущим инструментам
- Реализуйте шифрование данных (в покое и в процессе передачи)
- Подготовьте план аварийного восстановления
9. Тестирование и валидация
- Проведите нагрузочное тестирование (stress test)
- Убедитесь в корректности обработки данных на всех этапах
- Проверьте интеграцию с BI и всеми другими инструментами
10. Документация и обучение
- Подготовьте документацию: схемы данных, описания ETL-процессов, инструкции для пользователей
- Изучите представленные на рынке инструменты для автоматизации сбора документации
- Проведите обучение сотрудников, которые будут работать с хранилищем
11. Запуск и эксплуатация
Убедитесь, что у вас настроены как минимум области DEV, Stage, Prom
Подготовьтесь к автоматизированной раскатке в production
Настройте мониторинг производительности
Определите процессы для обновления, расширения и поддержки хранилища
12. Постоянное улучшение
- Анализируйте обратную связь от пользователей
- Оптимизируйте процессы обработки данных
- Добавляйте новые источники данных по мере необходимости
Для системного обучения рекомендуем профессиональный курс по DWH от Otus, где вы получите хорошую базу и практику.
➡️ Регистрируйтесь прямо сейчас, чтобы воспользоваться 10% скидкой на курс и учиться по 🏖 летним ценам! Условия актуальны только до 31.07.2025: https://vk.cc/cNXy5l
В зависимости от компании, подход к созданию КХД может различаться: одни видят его как монолитную систему, другие — как распределенную архитектуру. Мы под КХД будем понимать как ядровую БД, так и все дополнительные инструменты для переливки информации, базы данных, BI, утилиты для мониторинга и алертинга и многое другое.
1. Определение целей и задач
Рекомендуется не отталкиваться от технических возможностей, а начинать с бизнес-контекста.
- Четко сформулируйте цели хранилища (аналитика, отчетность, оптимизация процессов и т.д.)
- Определите ключевых заинтересованных лиц (stakeholders) и их ожидания
- Изучите нюансы бизнеса
2. Анализ источников данных
В зависимости от свойств источника происходит различная работа по “вытаскиванию” необходимой информации. Активный/пассивный, имеющий дубли и вложенность хранения, типизация и эволюция схемы, а также многое другое.
- Проведите инвентаризацию всех источников данных (CRM, ERP, веб-приложения, файлы, БД, API и т.д.)
- Определите форматы данных (структурированные, неструктурированные)
- Выясните объем и частоту обновления данных и т.д.
3. Определение архитектуры хранилища
Самый сложный и важный этап.
- Выберите подход (ETL или ELT)
- Решите, будет ли хранилище on-premise, облачным или гибридным
- Определите слои хранилища: staging (сырые данные), ODS (операционные данные), DWH (исторические данные)
- Обозначьте, где будут содержаться витрины данных и “сырая” информация
- Уточните, как будет предоставляться информация конечным пользователям и т.д.
4. Выбор технологий
- Определите, нужны ли вам БД отдельно для OLAP и OLTP?
- Выберите СУБД (Greenplum, Snowflake, PosgtreSQL, ClickHouse и т.д.)
- Подберите инструменты интеграции данных (Apache NiFi, Dagster, Airflow)
- Подумайте о Вl-инструментах (Tableau, Superset, Looker)
- А так же не забывайте об инструментах мониторинга, бекапирования и алертинга
5. Проектирование модели данных
- Определите уровень нормализации данных (3NF, звездная или снежинка — или более продвинутые, Data Vault)
- Создайте ЕR-диаграммы и схемы таблиц
- Проработайте “узкие места” и слепые зоны, подумайте о связи модели данных и пользовательских ролей и доступов
6. Реализация ETL/ELT процессов
- Настройте коннекторы к источникам данных
- Создайте пайплайны для извлечения, трансформации и загрузки данных
- Автоматизируйте обновление данных
7. Управление качеством данных
- Внедрите процессы проверки данных (data validation)
- Реализуйте контроль на дубликаты, пропуски и несоответствия форматов
8. Обеспечение безопасности
- Настройте роли и права доступа. Подумайте о внедрении Active Directory для унифицирования доступа ко всем текущим инструментам
- Реализуйте шифрование данных (в покое и в процессе передачи)
- Подготовьте план аварийного восстановления
9. Тестирование и валидация
- Проведите нагрузочное тестирование (stress test)
- Убедитесь в корректности обработки данных на всех этапах
- Проверьте интеграцию с BI и всеми другими инструментами
10. Документация и обучение
- Подготовьте документацию: схемы данных, описания ETL-процессов, инструкции для пользователей
- Изучите представленные на рынке инструменты для автоматизации сбора документации
- Проведите обучение сотрудников, которые будут работать с хранилищем
11. Запуск и эксплуатация
Убедитесь, что у вас настроены как минимум области DEV, Stage, Prom
Подготовьтесь к автоматизированной раскатке в production
Настройте мониторинг производительности
Определите процессы для обновления, расширения и поддержки хранилища
12. Постоянное улучшение
- Анализируйте обратную связь от пользователей
- Оптимизируйте процессы обработки данных
- Добавляйте новые источники данных по мере необходимости
Для системного обучения рекомендуем профессиональный курс по DWH от Otus, где вы получите хорошую базу и практику.
➡️ Регистрируйтесь прямо сейчас, чтобы воспользоваться 10% скидкой на курс и учиться по 🏖 летним ценам! Условия актуальны только до 31.07.2025: https://vk.cc/cNXy5l
Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576❤1👍1🙉1
Нейросети на Python.
Основы ИИ и машинного обучения
Автор: Куликова И. В.
Год издания: 2024
#ml #python #ru
Скачать книгу
Основы ИИ и машинного обучения
Автор: Куликова И. В.
Год издания: 2024
#ml #python #ru
Скачать книгу
👎1
Analytical Skills for AI and Data Science
Автор: Daniel Vaughan
Год издания: 2020
#ds #ai #en
Скачать книгу
Автор: Daniel Vaughan
Год издания: 2020
#ds #ai #en
Скачать книгу
Introduction to Python and Large
Language Models
Автор: Dilyan Grigorov
Год издания: 2024
#python #ml #en
Скачать книгу
Language Models
Автор: Dilyan Grigorov
Год издания: 2024
#python #ml #en
Скачать книгу
Простым языком разбираем:
Singleton и где его лучше не трогатьDecorator, и как его написать самому"Best Practices", SOLID, KISS и DRYКанал поможет:
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2❤1
Прикладная линейная алгебра
для исследователей данных
Автор: Коэн Майк Икс
Год издания: 2023
#python #ds #ru
Скачать книгу
для исследователей данных
Автор: Коэн Майк Икс
Год издания: 2023
#python #ds #ru
Скачать книгу
❤1