Big Data Science [RU] – Telegram

Big Data Science [RU]

1.67K subscribers

72 photos

9 videos

539 links

Big Data Science [RU] — канал о жизни Data Science.
Для сотрудничества: a.chernobrovov@gmail.com
🌏 — https://xn--r1a.website/bdscience — Big Data Science channel (english version)
💼 — https://xn--r1a.website/bds_job — channel about Data Science jobs and career

Download Telegram

About

Blog

Apps

Platform

Big Data Science [RU]

1.67K subscribers

Big Data Science [RU]

👣AutoML и не только с PyCaret
PyCaret – AutoML-библиотека с открытым исходным кодом на Python и низкоуровневым подходом к автоматизации большинства MLOps-задач. В PyCaret есть специальные функции для анализа, развертывания и объединения моделей, которых нет во многих других ML-фреймворках. Она позволяет перейти от подготовки данных к развертыванию ML-модели за считанные минуты в выбранной пользователем среде разработки.
По сути, PyCaret – это Python-оболочка для нескольких библиотек и ML-фреймворков: scikit-learn, XGBoost, LightGBM, CatBoost, spaCy, Optuna, Hyperopt, Ray и пр. Простота PyCaret позволяет использовать его не только опытным DS-специалистам, но и обычным пользователям, которые умеют выполнять простые сложные аналитические задачи. Библиотека доступна для свободного скачивания и использования под лицензией MIT. Пакет содержит несколько модулей, функции в которых сгруппированы по основным сценариям использования: от простой классификации до NLP-задач и определения аномалий.
https://pycaret.org/
https://github.com/pycaret/pycaret

Low-code ML for Python.

442 views06:48

Big Data Science [RU]

Специалисты Школы анализа данных Яндекса сделали настоящий подарок для начинающих ML- и Data-специалистов, выложив в открытый доступ онлайн-учебник по машинному обучению.

• как работают технологии, которыми пользуются миллионы людей;
• какие практические задачи решает ML и какие еще предстоит решить;
• какая теоретическая база необходима для работы, связанной с ML.

На все эти вопросы и отвечает онлайн-пособие, разъясняя как основные методы и алгоритмы машинного обучения, так и практические вопросы об их реализации и работе с данными.

Приступить можно прямо сейчас — с глав «Классические методы обучения с учителем» и «Оценка качества моделей». В будущем учебник пополнится новыми разделами.

673 views06:55

Big Data Science [RU]

🐻‍❄️В преддверии Нового года ускоряем DS: встречайте Polars
Polars – быстрая библиотека подготовки данных к ML-моделированию для Python и Rust. Она в 15 раз быстрее Pandas, распараллеливая обработку датафреймов и запросов в памяти. Будучи написанным на Rust, Polars использует все ядра компьютера. Также библиотека оптимизирована под специфику процессов обработки данных и поддерживает Python. Богатый API позволяет не только работать с огромными объемами данных на этапе их предподготовки, но и строить рабочие конвейеры. Бенчмаркинговое сравнение показало, что Polars опережает не только Pandas, но и другие инструменты, включая популярные в Big Data вычислительные движки типа Apache Spark, Dask и пр.

Установить и попробовать Polars очень просто с помощью менеджера пакетов pip:
pip install polars
import polars as pl
https://www.pola.rs/
https://betterprogramming.pub/this-library-is-15-times-faster-than-pandas-7e49c0a17adc

903 viewsedited 06:11

Big Data Science [RU]

Forwarded from Deep Dive 2 Deep Learning

🔥Онлайн-встреча для CV-специалистов: про DL и не только на площадке Яндекса. 28 декабря с 12:00 до 17:30 (GMT+3).
Бесплатно, но нужна регистрация https://events.yandex.ru/events/christmas-colloquium-on-cv-2021

Седьмой рождественский коллоквиум по компьютерному зрению

Рождественский коллоквиум — ежегодное мероприятие, на котором выступают молодые исследователи ведущих лабораторий России и мира. Коллоквиум пройдет в онлайн формате 28 декабря с 12:00 до 17:30.

492 views07:19

Big Data Science [RU]

🚀Ускоряем scikit learn: новое расширение старой доброй Python-библиотеки для DS
Популярная Python-библиотека Scikit-learn знакома каждому Data Scientist’у. У нее много достоинств, но в отличие от мощных ML-фреймворков PyTorch и TensorFlow, Scikit-learn не позволяет быстро обучать модели на графических процессорах. Этот недостаток устраняет sklearnex (Extension for Scikit-learn) – расширение Sci-Kit Learn от корпорации Intel®. Sklearnex - это бесплатный программный AI-модуль, который обеспечивает ускорение в 10–100 раз для различных приложений. Он полностью поддерживает все API и алгоритмы Scikit-Learn, ускоряя код за счет замены стандартных алгоритмов их оптимизированными версиями. Расширение поддерживает Python 3.6 и новее, а установить его можно с помощью типовых менеджеров пакетов pip или conda:
pip install scikit-learn-intelex
conda install scikit-learn-intelex -c conda-forge
https://intel.github.io/scikit-learn-intelex/
https://medium.com/@vamsik23/boost-sklearn-using-intels-sklearnex-cf2669f425bd

Speed up sklearn model training

Sci-Kit Learn is a machine learning library for Python. This library contains ML tools which are required for the daily usage of data…

552 views05:26

Big Data Science [RU]

Forwarded from Алексей Чернобровов

🔝TOP-25 International Data Science events 2022:

1. WAICF - World Artificial Intelligence Cannes Festival https://worldaicannes.com/ February 10-12, Cannes, France
2. Deep and Reinforcement Learning Summit https://www.re-work.co/events/deep-learning-summit-2022 February 17-18, San Francisco, USA
3. Reinforce https://reinforceconf.com/ March 8-10, Budapest, Hungary
4. MLconf https://mlconf.com/event/mlconf-nyc/ March 31, New York City, USA
5. Open Data Science Conference EAST https://odsc.com/boston/ April 19-21, Boston, USA
6. ICLR - International Conference on Learning Representations https://iclr.cc/ April 25–29, online
7. SDM - SIAM International Conference on Data Mining https://www.siam.org/conferences/cm/conference/sdm22 April 28–30, Westin Alexandria Old Town, Virginia, USA
8. World Summit AI Americas https://americas.worldsummit.ai/ May 4-5, Montreal, Canada
9. The Data Science Conference https://www.thedatascienceconference.com/ May 12-13, Chicago, USA
10. World Data Summit https://worlddatasummit.com/ May 18-22, Amsterdam, The Netherlands
11. Machine Learning Prague https://mlprague.com/ May 27-29, Prague, Czech Republic
12. The AI Summit London https://london.theaisummit.com/ June 15-16, London, UK
13. Machine Learning Week https://www.predictiveanalyticsworld.com/machinelearningweek/ June 19-24, Las Vegas, USA
14. Enterprise AI Summit https://www.re-work.co/events/enterprise-ai-summit-berlin-2022 June 29–30, Berlin, Germany
15. DELTA - International Conference on Deep Learning Theory and Applications https://delta.scitevents.org/ July 12-14, Lisbon, Portugal
16. ICML - International Conference on Machine Learning https://icml.cc/ July 17-23, online
17. KDD - Knowledge Discovery and Data Mining https://kdd.org/kdd2022/ August 14-18, Washington, DC, USA
18. Open Data Science Conference APAC https://odsc.com/apac/ September 7-8, online
19. RecSys – ACM Conference on Recommender Systems https://recsys.acm.org/recsys22/ September 18-23, Seattle, USA
20. INTERSPEECH https://interspeech2022.org/ September 18-22, Incheon, Korea
21. BIG DATA CONFERENCE EUROPE https://bigdataconference.eu/ November 21-24, Vilnius, Lithuania
22. EMNLP - Conference on Empirical Methods in Natural Language Processing https://2021.emnlp.org/ November, TBA
23. Data Science Conference https://datasciconference.com/ November, Belgrade, Serbia
24. Data Science Summit http://dssconf.pl/ December, Warsaw, Poland
25. NeurIPS https://nips.cc/ December, TBA

417 views07:55

Big Data Science [RU]

🏂Как выбрать меру валидации ML-моделей: подход Яндекса
В каждой практической задаче машинного обучения есть проблема с измерением результатов. Разные меры могут привести к разным результатам оценки и, следовательно, к разным выбранным алгоритмам. Поэтому найти подходящую меру качества очень важно. Исследователи из Яндекса сравнивают различные подходы к решению типовых ML-задач, от классификации до кластеризации, чтобы сформулировать универсальный метод выбора наиболее оптимальной меры качества. Ключевые тезисы и основные результаты изложены в статьях на конференциях В недавних статьях, опубликованных на ICML 2021 и NeurIPS 2021, а краткий пересказ доступен прямо на сайте Яндекса https://research.yandex.com/news/how-to-validate-validation-measures.
http://proceedings.mlr.press/v139/gosgens21a/gosgens21a.pdf
https://papers.nips.cc/paper/2021/file/8e489b4966fe8f703b5be647f1cbae63-Paper.pdf

528 views06:45

Big Data Science [RU]

Forwarded from Аналитика больших данных (Very Big Anal)

Zee - это картина, которая написана на Javascript посредством полностью сгенерированного кода, который написал художник Лукас С. Ривил. Одна функция генерирует волны, другая облака, третья чаек и так далее. В каждой функции используются случайные числа, результат предсказуем, но до конца неизвестен.

453 views12:10

Big Data Science [RU]

😎Как читать таблицы из PDF: tabula-py
Иногда исходные данные для анализа хранятся в pdf-документах. Чтобы автоматически извлечь данные из этого формата сразу в датафрейм, попробуйте tabula-py. Это простая Python-оболочка для tabula-java, которая может читать таблицы PDF и конвертировать в датафрейм pandas, а также файлы CSV/TSV/JSON.
Просто сначала установите ее через менеджер пакетов pip: pip install tabula-py
А затем импортируйте в свой Python-скрипт:
import tabula as tb
И можно пользоваться:
file='DataFile.pdf'
data = tb.read_pdf(file, pages = '12')
df = pd.DataFrame(data)
Примеры на английском языке: https://medium.com/codestorm/how-to-read-and-scrape-data-from-pdf-file-using-python-2f2a2fe73ae7
Русскоязычные примеры: https://nuancesprog.ru/p/13614/
Документация: https://tabula-py.readthedocs.io/en/latest/

How to Read and Scrape Data From PDF File Using Python

In this post, I will show you how to read and scrape data from PDF File using Python.

821 viewsedited 08:16

Big Data Science [RU]

💥5 главных трендов инженерии данных в 2022 году: исследование Astronomer
Компания Astronomer, которая занимается коммерциализацией и продвижением популярного инструмента автоматизации пакетных процессов работы с данными, Apache AirFlow, подготовила провела ряд интервью с экспертами в области дата-инженерии, чтобы выявить наиболее актуальные тенденции в этой ИТ-области. Ключевые направления наступившего года:
• Происхождение и обеспечение качества данных (data lineage, data provenance и Data Quality)
• Децентрализация данных по разным контекстам и командам, но в рамках единой согласованной инфраструктуры с централизацией ресурсов
• Консолидация инструментов работы с данными, включая оркестровку конвейеров обработки
• Сетки данных (Data Mesh), устраняющие разрозненность между командами обработки через соединение используемых платформ
• взаимная интеграция DataOps, MLOps, AIOps для более эффективного и быстрого использования согласованных друг с другом данных и инструментов бесшовной работы с ними.
https://www.astronomer.io/blog/top-data-management-trends-2022

www.astronomer.io

What Are the Top Data Management Trends for 2022?

Learn about emerging trends that are revolutionizing the world of data from the leading Apache Airflow® experts. See how to efficiently manage data in 2022.

502 views04:27

Big Data Science [RU]

🗣SQL-запросы к CSV-файлу с csvkit
csvkit — это набор инструментов командной строки для преобразования и работы с CSV-файлами. Эта утилита позволяет на простом Python выполнить следующие операции:
• Преобразовать файлы Excel и JSON в CSV
• Отобразить только имена столбцов
• Нарезать данные
• изменить порядок столбцов
• найти строки с совпадающими ячейками
• преобразовать CSV в JSON
• генерировать сводную статистику
• обратиться к CSV с помощью SQL-запросов
• импортировать данные в базы данных и извлекать из них
• выполнить парсинг данных CSV
• поработать с разделителями столбцов
Установить csvkit поможет менеджер пакетов pip: pip install csvkit
А синтаксис обращения к CSV-файлу через SQL-запрос в командной строке будет выглядеть так:
csvsql --query "SQL Query Here -- source file name as table name (without .CSV)" source_filename > target_filename
Чтобы использовать это в своем Python-скрипте следует
1) сперва импортировать CSVSQL из утилиты csvkit
from csvkit.utilities.csvsql import CSVSQL
2) далее определить аргументы как список значений, например:
args = ['--query','select distinct manufacturer from playground','payground.csv']
3) затем вызвать CSVSQL с аргументами
result = CSVSQL(args)
3) наконец, можно показать результаты
print(result.main())
https://csvkit.readthedocs.io/en/latest/index.html
https://medium.com/data-engineering-ramstkp/sql-queries-on-csv-using-python-24a472fe53b1

SQL Queries on CSV Using Python

Python’s smart way of firing SQL queries on CSV files directly (In memory)

503 views02:33

Big Data Science [RU]

🚀Ускоряем аналитику Big Data: кейс Expedia Group с Apache Druid and DataSketches
При анализе больших данных часто возникают проблемные запросы, которые не масштабируются, поскольку требуют огромных вычислительных ресурсов и времени для получения точных результатов. Например, подсчет отдельных элементов, квантили, наиболее частые элементы, соединения таблиц в SQL-запросах, матричные вычисления и анализ графов. Если приблизительные результаты для таких вычислений приемлемы, есть специальные потоковые алгоритмы или эскизы (скетчи), которые выполняются на несколько порядков быстрее с допустимыми погрешностями. Скетчи помогли Yahoo успешно сократить время обработки данных с дней или часов до минут или секунд. Одним из таких инструментов является open-source библиотека Apache DataSketches.
Именно ее использует крупная туристическая компания Expedia Group, чтобы ускорить анализ временных рядов в Apache Druid, где соединения таблиц ограниченно поддерживаются, требуя помещения одного набора данных в память. DataSketches поддерживает операции с множествами, включая соединение, пересечение и разность, с небольшой потерей точности. Это полезно при поиске и бронировании билетов. С DataSketches можно запросить каждый набор данных независимо от Druid, чтобы получить нужный объект для каждого набора данных с целью предварительного, а затем и окончательного расчета. Поскольку изначально Druid не поддерживал слияние объектов DataSketches, инженерам Expedia Group пришлось написать собственный код на Java. Причем объект DataSketches занимает очень мало места в памяти, несмотря на большой размер множества. В итоге Apache Druid, колоночная СУБД для быстрого приема огромных объемов данных о событиях и предоставления запросов с малой задержкой, стала работать еще быстрее.
https://datasketches.apache.org/
https://medium.com/expedia-group-tech/fast-approximate-counting-using-druid-and-datasketch-f5f163131acd

datasketches.apache.org

491 views02:47

Big Data Science [RU]

Forwarded from Artificial Intelligence & Tech Space

NVIDIA выпустила обновление для программы NVIDIA Canvas — графического редактора, создающего с помощью ИИ реалистичные пейзажи на основе схематичных рисунков.
https://youtu.be/wKztRskmsig

NVIDIA Canvas: New Update | 4x Higher Resolution & 5 New Materials

The NVIDIA Canvas update released today, powered by the GauGAN2 AI model and NVIDIA RTX GPU Tensor Cores, generates backgrounds with increased quality and 4x higher resolution, and adds five new materials to paint with. 🎨

Learn more 👉 https://blogs.nvid…

487 views16:59

Big Data Science [RU]

🌏5 главных компонентов технологической платформы цифрового правительства от Gartner
Технологическая платформа цифрового правительства (DGTP, Digital Government Technology Platform) делает цифровую трансформацию реальностью, но требует целенаправленного руководства. Согласно исследованию Gartner, к 2023 году более 80% правительственных цифровых внедрений, не основанных на технологической платформе, не будут соответствовать поставленным задачам.
DGTP — это набор сквозных, интегрированных, горизонтальных возможностей, которые координируют государственных услуг в нескольких областях путем интеграции пяти платформ:
• платформа гражданского опыта (Citizen Experience) предоставляет интерфейсы и технологии, реализует политики и процедуры взаимодействия граждан и бизнеса и измеряет опыт своих пользователей;
• платформа экосистемы (Ecosystem platform) – набор цифровых интерфейсов, которые реализуют политики и процедуры для правительств и партнеров по экосистеме для обмена данными и услугами.
• платформа Интернета вещей (IoT) предоставляет интерфейсы, управление данными и контекст, а также реализует политики и процедуры для сбора и обработки данных с датчиков IoT
• платформа информационных систем (Information System) - корпоративные информационные системы сегодня являются сердцевиной усилий правительства в области ИТ. Платформа информационной системы предоставляет технологии, политики и процедуры для интеграции этих бэк-офисных систем в DGTP
• интеллектуальная платформа (Intelligence) обеспечивает расширенную аналитику, геопространственную аналитику и аналитику местоположения, роботизированную автоматизацию процессов (RPA) и возможности ИИ для обработки данных, собранных или сохраненных в любой области платформы.
Ключевыми повторно используемыми компонентами в DGTP являются приложения и службы, способные обеспечить беспрепятственное сочетание данных, услуг и возможностей, которые работают вместе в рамках DGTP и доступны через сети и устройства. DGTP не является готовым решением, но она предоставляет государственным учреждениям возможность внедрять инновации, сокращать затраты и предоставлять новые возможности быстро и гибко.
https://www.gartner.com/en/articles/government-cios-here-s-an-essential-piece-of-the-digital-transformation-puzzle

Government CIOs: Here’s an Essential Piece of the Digital Transformation Puzzle

A digital government technology platform (DGTP) allows for true digital transformation, resulting in simplified processes, improved citizen interactions and ultimately a more resilient future 💡 Learn more. #GartnerSYM #DigitalTransformation

517 viewsedited 02:41

Big Data Science [RU]

Компоненты технологической платформы цифрового правительства от Gartner

906 views02:42

Big Data Science [RU]

🍏Байесовская статистика с PyMC3: краткий ликбез
Частотная статистика опирается на долгосрочную частоту событий (точки данных) для вычисления нужной переменной. Байесовский метод также может работать без большого количества событий, даже с одной точкой данных. Частотный анализ дает точечную оценку, тогда как байесовский анализ дает распределение, которое можно интерпретировать как уверенность в том, что среднее значение распределения является хорошей оценкой для переменной. Однако, существует неопределенность в форме стандартного отклонения.
Байесовский подход полезен в ML-задачах, где важны оценки и достоверность. Например, сегодня может пойти дождь с вероятностью 60%». Основной формулой, лежащей в основе байесовского подхода, является теорема Байеса, которая позволяет вычислить апостериорную вероятность P(A|B) события А в зависимости от события B.
• P(B|A) называется вероятностью того, что если событие A произошло, насколько вероятно, что произойдет событие B?
• P(A) – вероятность события А, априорное (начальное) предположение об интересующей переменной.
• P(B) вероятность события B (свидетельство), которое обычно это трудно вычислить при оценке апостериорной вероятности.
Быстро вычислить баейсовскую вероятность можно с помощью Python-библиотеки PyMC3 https://docs.pymc.io/en/v3/. Она позволяет записывать модели, используя интуитивно понятный синтаксис для описания процесса генерации данных. PyMC3 позволяет настроить ML-модель с помощью алгоритмов MCMC на основе градиента, таких как NUTS, с помощью ADVI для быстрого приближенного вывода, включая мини-пакетный ADVI для масштабирования до больших наборов данных, или с помощью гауссовых процессов для построения байесовских непараметрических моделей. PyMC3 включает полный набор предопределенных статистических распределений, которые можно использовать в качестве строительных блоков байесовской модели.
Этот пакет вероятностного программирования для Python позволяет пользователям подбирать байесовские модели с использованием различных численных методов, в первую очередь метода Монте-Карло с использованием цепи Маркова (MCMC) и вариационного вывода (VI). Вместо с базовой спецификацией модели и функциями подбора, PyMC3 включает функции для суммирования выходных данных и диагностики модели.
PyMC3 стремится сделать байесовское моделирование максимально простым и безболезненным, позволяя пользователям сосредоточиться на своей научной проблеме, а не на методах, используемых для ее решения. Пакет использует Theano в качестве вычислительного бэкэнда, чтобы быстро оценивать выражение, автоматически вычислять градиент и выполнять вычисления на графическом процессоре.
Также PyMC3 имеют встроенную поддержку моделирования гауссовых процессов, позволяя обобщать модели и строить графики. Есть проверка модели и обнаружение сходимости, пользовательские пошаговые методы и необычные распределения вероятностей. Полученные с помощью PyMC3 байесовские модели можно встраивать в более крупные программы, а результаты анализировать любыми средствами Python.
https://medium.com/@akashkadel94/bayesian-statistics-overview-and-your-first-bayesian-linear-regression-model-ba566676c5a7

Bayesian Statistics Overview and your first Bayesian Linear Regression Model

A brief recap of Bayesian Learning followed by implementation of a Bayesian Linear Regression Model on NYC Airbnb open dataset

🔥2

645 viewsedited 03:21

Big Data Science [RU]

Forwarded from Алексей Чернобровов

🥳 Все ждали и это свершилось!

🚨Я продолжаю серию митапов про Data Science в городских и геосервисах, логистике, и технологиях умных городов.

🗓 25 января в 18:30 МСК состоится первая в этом году онлайн-встреча Citymobil Data Meetup!

Вас ждут новые гости и новые интересные доклады.

🚕 Олег Стрельников Руководитель команды Data Quality в Ситимобил «Как мы качество данных проверяем»

Расскажет про выбор фреймворка для DataQuality, что от него ждали и почему остановились на GreatExpectations. Покажет, как встроили его в архитектуру DWH, с какими проблемами столкнулись и как их побороли.

☎️ Максим Шевченко Ведущий ML разработчик в МТС BigData «Проверка гипотезы валидности таргетинга в наружной рекламе»

Маркетологи часто таргетируют наружную рекламу не только по геопризнаку, но и по социально-демографическим сегментам и интересам. При этом, исходят из предположения, что, например, по разным дорогам ездят разные люди – есть дороги, по которым в большей степени ездят высокодоходные клиенты, люди более старшего возраста и т.д. Действительно ли это так? Слушатели узнают про интересный и одновременно простой способ проверки некоторых гипотез и о том, как его можно использовать в других реальных задачах.

После докладов спикеры ответят на все ваши вопросы.

Регистрация для бесплатного участия

https://citymobil.timepad.ru/event/1904978/

citymobil.timepad.ru

Citymobil Data Meetup №6 / События на TimePad.ru

Ситимобил каждый месяц проводит митапы о применении Data science в городских и геосервисах, логистике и технологиях умных городов.

Добавляйтесь в наш телеграм-канал, чтобы быть в курсе новостей https://xn--r1a.website/citymobiltech .

719 views12:48

Big Data Science [RU]

💥5 англоязычных YOUTUBE-каналов для дата-инженера от популярных DS-блогеров
• Ken Jee https://www.youtube.com/c/KenJee1/videos - 183 тысячи подписчиков и около 200 видео про Data Science, инженерию больших данных, ML и аналитику в спорте
• Karolina Sowinska https://www.youtube.com/c/KarolinaSowinska/videos 30+ тысяч подписчиков и почти 60 отличных роликов про AirFlow, ИИ, ETL и карьеру дата-инженера;
• Shashank Mishra https://www.youtube.com/c/LearningBridge/video 40+ тысяч подписчиков и более 150 видео о буднях дата-инженеры, отзывы о DS-курсах, рекомендации по прохождению интервью и личный опыт автора, работавшего в Amazon, McKinsey&Company, PayTm и других крупных корпорациях, а также в стартапах.
• Seattle Data Guy https://www.youtube.com/c/SeattleDataGuy/videos почти 20 тысяч подписчиков и более 100 видео про soft и hard skills дата-инженера, лайфхаки для решения ежедневных задач по сбору и агрегации данных с помощью Python и не только, лучшие практики SQL, введение в R и еще много всего интересного/
• Andreas Kretz https://www.youtube.com/c/andreaskayy/videos около 27 тысяч подписчиков и более 500 роликов ванильные и проприетарные Hadoop, Spark, Kafka, сервисы AWS и другие облачные платформы, основы ETL, тонкости установки и практического использования разных технологий Big Data и особенности профессии дата-инженера.

👍1

790 views02:46

Big Data Science [RU]

🏸Комбо Zingg + TigerGraph для удаления дублей и графовой аналитики больших данных
Графовые базы данных со встроенными шаблонами связей отлично подходят для устранения неоднозначности записей и разрешения сущностей. Например, TigerGraph – мощная система графовой аналитики. А если дополнить ее открытым ML-инструментом Zingg (https://github.com/zinggAI/zingg), можно найти дублированные и неоднозначные записи еще быстрее.
Например, один и тот же человек в разных системах записан по-разному. Поэтому проанализировать его пользовательское поведение, например, для генерации персонального маркетингового предложения или включения в программы лояльности, очень сложно. Zingg, имеют встроенные механизмы блокировки, которые вычисляют попарное сходство только для выбранных записей. Это сокращает время вычислений и помогает масштабироваться на большие наборы данных. Не нужно беспокоиться об связывании-группировке записей вручную: об этом позаботится внутренняя структура разрешения сущностей. Так с Zingg и TigerGraph можно объединить лучшее простое и масштабируемое разрешение сущностей и дальнейший анализ графа.
https://towardsdatascience.com/entity-resolution-with-tigergraph-add-zingg-to-the-mix-95009471ca02

GitHub - zinggAI/zingg: Scalable identity resolution, entity resolution, data mastering and deduplication using ML

Scalable identity resolution, entity resolution, data mastering and deduplication using ML - zinggAI/zingg

616 views03:51

Big Data Science [RU]

🙌🏻LaMDA: безопасная, объективная и высококачественная языковая модель от Google AI
LaMDA создается путем точной настройки семейства нейронных языковых моделей на основе Transformer, специализированных для диалога, с параметрами модели до 137B и обучения моделей использованию внешних источников знаний. LaMDA преследует три ключевые цели:
• Качество (Quality), которое измеряется через Разумность (Sensibleness), Специфичность (Specificity) и Интересность (Interestingness). Эти показатели оцениваются людьми. Разумность говорит о наличии смысла в контексте диалога, например, отсутствие со стороны ML-модели абсурдных ответов и противоречий с более ранними ответами. Специфичность показывает, является ли ответ системы специфичным для контекста предыдущего диалога. Интересность измеряет эмоциональную реакцию собеседника на ответы ML-модели.
• Безопасность (Safety), чтобы ответы модели не содержали оскорбительных и опасных высказываний.
• Объективность (Groundedness) – современные языковые модели часто генерирует утверждения, которые кажутся правдоподобными, но на самом деле противоречат истинным фактам во внешних источниках. Объективность определяется как процент ответов с утверждениями о внешнем мире, которые могут быть подтверждены авторитетными внешними источниками. Родственная метрика, Информативность (Informativeness), определяется как процент ответов с информацией о внешнем мире, которая может быть подтверждена известными источниками.
Модели LaMDA проходят двухэтапное обучение: предварительное обучение и тонкая настройка. Первый этап выполнен на наборе данных из 1,56 тыс. слов из общедоступных данных диалогов и публичных веб-документов. После токенизации набора данных в 2,81T токенов модель была обучена предсказывать каждый следующий токен в предложении с учетом предыдущих. Предварительно обученная модель LaMDA также широко использовалась для NLP-исследований в Google, включая синтез программ, обучение с нулевым выстрелом и пр.
На этапе тонкой настройки LaMDA обучается комбинировать выполнение генеративных задач для создания ответов на естественном языке в заданных контекстах и задач классификации чтобы определить безопасность и качество модели. Так получается единая многозадачная модель: генератор LaMDA обучен прогнозировать следующий токен в наборе данных диалога, а классификаторы обучены прогнозировать оценки безопасности и качества ответа в контексте с использованием аннотированных данных.
Результаты тестирования показали, что LaMDA значительно превосходит предварительно обученную модель в каждом измерении и любом масштабе. Показатели качества улучшаются с увеличением количества параметров модели, с тонкой настройкой и даже без нее. Безопасность не улучшается только за счет масштабирования модели, но компенсируется при точной настройке. Объективность улучшается по мере роста размера модели, благодаря способности запоминать необычные знания. А точная настройка позволяет модели получать доступ к внешним источникам и эффективно переносить на них часть нагрузки по запоминанию знаний. С помощью точной настройки разрыв качества с человеческим уровнем может быть сокращен, хотя производительность модели остается ниже человеческого уровня в плане безопасности и объективности.
https://ai.googleblog.com/2022/01/lamda-towards-safe-grounded-and-high.html

research.google

LaMDA: Towards Safe, Grounded, and High-Quality Dialog Models for Everything

Posted by Heng-Tze Cheng, Senior Staff Software Engineer and Romal Thoppilan, Senior Software Engineer, Google Research, Brain Team Language models...

562 views02:29

Big Data Science [RU]

сравнение метрик LAMDA с человеческими оценками

1.05K views02:30