Big Data Science [RU]
1.67K subscribers
72 photos
9 videos
539 links
Big Data Science [RU] — канал о жизни Data Science.
Для сотрудничества: a.chernobrovov@gmail.com
🌏https://xn--r1a.website/bdscience — Big Data Science channel (english version)
💼https://xn--r1a.website/bds_job — channel about Data Science jobs and career
Download Telegram
👻4 простых совета для эффективной дата-инженерии
Чтобы проекты дата-инженерии с сотнями артефактов, включая файлы зависимостей, задания, модульные тесты, shell-файлы и блокноты Jupyter, не превратились в хаос, соблюдайте следующие правила:
управляйте зависимостями, например, через менеджер зависимостей типа Poetry
помните про юнит-тесты - внедрение модульных тестов в проект убережет от неприятностей и улучшит качество кода
разделяй и властвуй - храните все преобразования данных в отдельном модуле
документируйте, чтобы помнить о коде и решаемой им бизнес-задаче самому и делиться знаниями с коллегами
https://blog.devgenius.io/keeping-your-data-pipelines-organized-fa387247d59e
👣AutoML и не только с PyCaret
PyCaret
– AutoML-библиотека с открытым исходным кодом на Python и низкоуровневым подходом к автоматизации большинства MLOps-задач. В PyCaret есть специальные функции для анализа, развертывания и объединения моделей, которых нет во многих других ML-фреймворках. Она позволяет перейти от подготовки данных к развертыванию ML-модели за считанные минуты в выбранной пользователем среде разработки.
По сути, PyCaret – это Python-оболочка для нескольких библиотек и ML-фреймворков: scikit-learn, XGBoost, LightGBM, CatBoost, spaCy, Optuna, Hyperopt, Ray и пр. Простота PyCaret позволяет использовать его не только опытным DS-специалистам, но и обычным пользователям, которые умеют выполнять простые сложные аналитические задачи. Библиотека доступна для свободного скачивания и использования под лицензией MIT. Пакет содержит несколько модулей, функции в которых сгруппированы по основным сценариям использования: от простой классификации до NLP-задач и определения аномалий.
https://pycaret.org/
https://github.com/pycaret/pycaret
Специалисты Школы анализа данных Яндекса сделали настоящий подарок для начинающих ML- и Data-специалистов, выложив в открытый доступ онлайн-учебник по машинному обучению
 
• как работают технологии, которыми пользуются миллионы людей;
• какие практические задачи решает ML и какие еще предстоит решить;
• какая теоретическая база необходима для работы, связанной с ML. 
 
На все эти вопросы и отвечает онлайн-пособие, разъясняя как основные методы и алгоритмы машинного обучения, так и практические вопросы об их реализации и работе с данными.

Приступить можно прямо сейчас — с глав «Классические методы обучения с учителем» и «Оценка качества моделей». В будущем учебник пополнится новыми разделами.
🐻‍❄️В преддверии Нового года ускоряем DS: встречайте Polars
Polars
– быстрая библиотека подготовки данных к ML-моделированию для Python и Rust. Она в 15 раз быстрее Pandas, распараллеливая обработку датафреймов и запросов в памяти. Будучи написанным на Rust, Polars использует все ядра компьютера. Также библиотека оптимизирована под специфику процессов обработки данных и поддерживает Python. Богатый API позволяет не только работать с огромными объемами данных на этапе их предподготовки, но и строить рабочие конвейеры. Бенчмаркинговое сравнение показало, что Polars опережает не только Pandas, но и другие инструменты, включая популярные в Big Data вычислительные движки типа Apache Spark, Dask и пр.

Установить и попробовать Polars очень просто с помощью менеджера пакетов pip:
pip install polars
import polars as pl
https://www.pola.rs/
https://betterprogramming.pub/this-library-is-15-times-faster-than-pandas-7e49c0a17adc
🚀Ускоряем scikit learn: новое расширение старой доброй Python-библиотеки для DS
Популярная Python-библиотека Scikit-learn знакома каждому Data Scientist’у. У нее много достоинств, но в отличие от мощных ML-фреймворков PyTorch и TensorFlow, Scikit-learn не позволяет быстро обучать модели на графических процессорах. Этот недостаток устраняет sklearnex (Extension for Scikit-learn) – расширение Sci-Kit Learn от корпорации Intel®. Sklearnex - это бесплатный программный AI-модуль, который обеспечивает ускорение в 10–100 раз для различных приложений. Он полностью поддерживает все API и алгоритмы Scikit-Learn, ускоряя код за счет замены стандартных алгоритмов их оптимизированными версиями. Расширение поддерживает Python 3.6 и новее, а установить его можно с помощью типовых менеджеров пакетов pip или conda:
pip install scikit-learn-intelex
conda install scikit-learn-intelex -c conda-forge
https://intel.github.io/scikit-learn-intelex/
https://medium.com/@vamsik23/boost-sklearn-using-intels-sklearnex-cf2669f425bd
🔝TOP-25 International Data Science events 2022:

1. WAICF - World Artificial Intelligence Cannes Festival https://worldaicannes.com/ February 10-12, Cannes, France
2. Deep and Reinforcement Learning Summit https://www.re-work.co/events/deep-learning-summit-2022 February 17-18, San Francisco, USA
3. Reinforce https://reinforceconf.com/ March 8-10, Budapest, Hungary
4. MLconf https://mlconf.com/event/mlconf-nyc/ March 31, New York City, USA
5. Open Data Science Conference EAST https://odsc.com/boston/ April 19-21, Boston, USA
6. ICLR - International Conference on Learning Representations https://iclr.cc/ April 25–29, online
7. SDM - SIAM International Conference on Data Mining https://www.siam.org/conferences/cm/conference/sdm22 April 28–30, Westin Alexandria Old Town, Virginia, USA
8. World Summit AI Americas https://americas.worldsummit.ai/ May 4-5, Montreal, Canada
9. The Data Science Conference https://www.thedatascienceconference.com/ May 12-13, Chicago, USA
10. World Data Summit https://worlddatasummit.com/ May 18-22, Amsterdam, The Netherlands
11. Machine Learning Prague https://mlprague.com/ May 27-29, Prague, Czech Republic
12. The AI Summit London https://london.theaisummit.com/ June 15-16, London, UK
13. Machine Learning Week https://www.predictiveanalyticsworld.com/machinelearningweek/ June 19-24, Las Vegas, USA
14. Enterprise AI Summit https://www.re-work.co/events/enterprise-ai-summit-berlin-2022 June 29–30, Berlin, Germany
15. DELTA - International Conference on Deep Learning Theory and Applications https://delta.scitevents.org/ July 12-14, Lisbon, Portugal
16. ICML - International Conference on Machine Learning https://icml.cc/ July 17-23, online
17. KDD - Knowledge Discovery and Data Mining https://kdd.org/kdd2022/ August 14-18, Washington, DC, USA
18. Open Data Science Conference APAC https://odsc.com/apac/ September 7-8, online
19. RecSys – ACM Conference on Recommender Systems https://recsys.acm.org/recsys22/ September 18-23, Seattle, USA
20. INTERSPEECH https://interspeech2022.org/ September 18-22, Incheon, Korea
21. BIG DATA CONFERENCE EUROPE https://bigdataconference.eu/ November 21-24, Vilnius, Lithuania
22. EMNLP - Conference on Empirical Methods in Natural Language Processing https://2021.emnlp.org/ November, TBA
23. Data Science Conference https://datasciconference.com/ November, Belgrade, Serbia
24. Data Science Summit http://dssconf.pl/ December, Warsaw, Poland
25. NeurIPS https://nips.cc/ December, TBA
🏂Как выбрать меру валидации ML-моделей: подход Яндекса
В каждой практической задаче машинного обучения есть проблема с измерением результатов. Разные меры могут привести к разным результатам оценки и, следовательно, к разным выбранным алгоритмам. Поэтому найти подходящую меру качества очень важно. Исследователи из Яндекса сравнивают различные подходы к решению типовых ML-задач, от классификации до кластеризации, чтобы сформулировать универсальный метод выбора наиболее оптимальной меры качества. Ключевые тезисы и основные результаты изложены в статьях на конференциях В недавних статьях, опубликованных на ICML 2021 и NeurIPS 2021, а краткий пересказ доступен прямо на сайте Яндекса https://research.yandex.com/news/how-to-validate-validation-measures.
http://proceedings.mlr.press/v139/gosgens21a/gosgens21a.pdf
https://papers.nips.cc/paper/2021/file/8e489b4966fe8f703b5be647f1cbae63-Paper.pdf
Zee - это картина, которая написана на Javascript посредством полностью сгенерированного кода, который написал художник Лукас С. Ривил. Одна функция генерирует волны, другая облака, третья чаек и так далее. В каждой функции используются случайные числа, результат предсказуем, но до конца неизвестен.
😎Как читать таблицы из PDF: tabula-py
Иногда исходные данные для анализа хранятся в pdf-документах. Чтобы автоматически извлечь данные из этого формата сразу в датафрейм, попробуйте tabula-py. Это простая Python-оболочка для tabula-java, которая может читать таблицы PDF и конвертировать в датафрейм pandas, а также файлы CSV/TSV/JSON.
Просто сначала установите ее через менеджер пакетов pip: pip install tabula-py
А затем импортируйте в свой Python-скрипт:
import tabula as tb
И можно пользоваться:
file='DataFile.pdf'
data = tb.read_pdf(file, pages = '12')
df = pd.DataFrame(data)
Примеры на английском языке: https://medium.com/codestorm/how-to-read-and-scrape-data-from-pdf-file-using-python-2f2a2fe73ae7
Русскоязычные примеры: https://nuancesprog.ru/p/13614/
Документация: https://tabula-py.readthedocs.io/en/latest/
💥5 главных трендов инженерии данных в 2022 году: исследование Astronomer
Компания Astronomer, которая занимается коммерциализацией и продвижением популярного инструмента автоматизации пакетных процессов работы с данными, Apache AirFlow, подготовила провела ряд интервью с экспертами в области дата-инженерии, чтобы выявить наиболее актуальные тенденции в этой ИТ-области. Ключевые направления наступившего года:
Происхождение и обеспечение качества данных (data lineage, data provenance и Data Quality)
Децентрализация данных по разным контекстам и командам, но в рамках единой согласованной инфраструктуры с централизацией ресурсов
Консолидация инструментов работы с данными, включая оркестровку конвейеров обработки
Сетки данных (Data Mesh), устраняющие разрозненность между командами обработки через соединение используемых платформ
взаимная интеграция DataOps, MLOps, AIOps для более эффективного и быстрого использования согласованных друг с другом данных и инструментов бесшовной работы с ними.
https://www.astronomer.io/blog/top-data-management-trends-2022
🗣SQL-запросы к CSV-файлу с csvkit
csvkit
— это набор инструментов командной строки для преобразования и работы с CSV-файлами. Эта утилита позволяет на простом Python выполнить следующие операции:
• Преобразовать файлы Excel и JSON в CSV
• Отобразить только имена столбцов
• Нарезать данные
• изменить порядок столбцов
• найти строки с совпадающими ячейками
• преобразовать CSV в JSON
• генерировать сводную статистику
• обратиться к CSV с помощью SQL-запросов
• импортировать данные в базы данных и извлекать из них
• выполнить парсинг данных CSV
• поработать с разделителями столбцов
Установить csvkit поможет менеджер пакетов pip: pip install csvkit
А синтаксис обращения к CSV-файлу через SQL-запрос в командной строке будет выглядеть так:
csvsql --query "SQL Query Here -- source file name as table name (without .CSV)" source_filename > target_filename
Чтобы использовать это в своем Python-скрипте следует
1) сперва импортировать CSVSQL из утилиты csvkit
from csvkit.utilities.csvsql import CSVSQL
2) далее определить аргументы как список значений, например:
args = ['--query','select distinct manufacturer from playground','payground.csv']
3) затем вызвать CSVSQL с аргументами
result = CSVSQL(args)
3) наконец, можно показать результаты
print(result.main())
https://csvkit.readthedocs.io/en/latest/index.html
https://medium.com/data-engineering-ramstkp/sql-queries-on-csv-using-python-24a472fe53b1
🚀Ускоряем аналитику Big Data: кейс Expedia Group с Apache Druid and DataSketches
При анализе больших данных часто возникают проблемные запросы, которые не масштабируются, поскольку требуют огромных вычислительных ресурсов и времени для получения точных результатов. Например, подсчет отдельных элементов, квантили, наиболее частые элементы, соединения таблиц в SQL-запросах, матричные вычисления и анализ графов. Если приблизительные результаты для таких вычислений приемлемы, есть специальные потоковые алгоритмы или эскизы (скетчи), которые выполняются на несколько порядков быстрее с допустимыми погрешностями. Скетчи помогли Yahoo успешно сократить время обработки данных с дней или часов до минут или секунд. Одним из таких инструментов является open-source библиотека Apache DataSketches.
Именно ее использует крупная туристическая компания Expedia Group, чтобы ускорить анализ временных рядов в Apache Druid, где соединения таблиц ограниченно поддерживаются, требуя помещения одного набора данных в память. DataSketches поддерживает операции с множествами, включая соединение, пересечение и разность, с небольшой потерей точности. Это полезно при поиске и бронировании билетов. С DataSketches можно запросить каждый набор данных независимо от Druid, чтобы получить нужный объект для каждого набора данных с целью предварительного, а затем и окончательного расчета. Поскольку изначально Druid не поддерживал слияние объектов DataSketches, инженерам Expedia Group пришлось написать собственный код на Java. Причем объект DataSketches занимает очень мало места в памяти, несмотря на большой размер множества. В итоге Apache Druid, колоночная СУБД для быстрого приема огромных объемов данных о событиях и предоставления запросов с малой задержкой, стала работать еще быстрее.
https://datasketches.apache.org/
https://medium.com/expedia-group-tech/fast-approximate-counting-using-druid-and-datasketch-f5f163131acd
NVIDIA выпустила обновление для программы NVIDIA Canvas — графического редактора, создающего с помощью ИИ реалистичные пейзажи на основе схематичных рисунков.
https://youtu.be/wKztRskmsig
🌏5 главных компонентов технологической платформы цифрового правительства от Gartner
Технологическая платформа цифрового правительства (DGTP, Digital Government Technology Platform) делает цифровую трансформацию реальностью, но требует целенаправленного руководства. Согласно исследованию Gartner, к 2023 году более 80% правительственных цифровых внедрений, не основанных на технологической платформе, не будут соответствовать поставленным задачам.
DGTP — это набор сквозных, интегрированных, горизонтальных возможностей, которые координируют государственных услуг в нескольких областях путем интеграции пяти платформ:
платформа гражданского опыта (Citizen Experience) предоставляет интерфейсы и технологии, реализует политики и процедуры взаимодействия граждан и бизнеса и измеряет опыт своих пользователей;
платформа экосистемы (Ecosystem platform) – набор цифровых интерфейсов, которые реализуют политики и процедуры для правительств и партнеров по экосистеме для обмена данными и услугами.
платформа Интернета вещей (IoT) предоставляет интерфейсы, управление данными и контекст, а также реализует политики и процедуры для сбора и обработки данных с датчиков IoT
платформа информационных систем (Information System) - корпоративные информационные системы сегодня являются сердцевиной усилий правительства в области ИТ. Платформа информационной системы предоставляет технологии, политики и процедуры для интеграции этих бэк-офисных систем в DGTP
интеллектуальная платформа (Intelligence) обеспечивает расширенную аналитику, геопространственную аналитику и аналитику местоположения, роботизированную автоматизацию процессов (RPA) и возможности ИИ для обработки данных, собранных или сохраненных в любой области платформы.
Ключевыми повторно используемыми компонентами в DGTP являются приложения и службы, способные обеспечить беспрепятственное сочетание данных, услуг и возможностей, которые работают вместе в рамках DGTP и доступны через сети и устройства. DGTP не является готовым решением, но она предоставляет государственным учреждениям возможность внедрять инновации, сокращать затраты и предоставлять новые возможности быстро и гибко.
https://www.gartner.com/en/articles/government-cios-here-s-an-essential-piece-of-the-digital-transformation-puzzle
Компоненты технологической платформы цифрового правительства от Gartner
🍏Байесовская статистика с PyMC3: краткий ликбез
Частотная статистика опирается на долгосрочную частоту событий (точки данных) для вычисления нужной переменной. Байесовский метод также может работать без большого количества событий, даже с одной точкой данных. Частотный анализ дает точечную оценку, тогда как байесовский анализ дает распределение, которое можно интерпретировать как уверенность в том, что среднее значение распределения является хорошей оценкой для переменной. Однако, существует неопределенность в форме стандартного отклонения.
Байесовский подход полезен в ML-задачах, где важны оценки и достоверность. Например, сегодня может пойти дождь с вероятностью 60%». Основной формулой, лежащей в основе байесовского подхода, является теорема Байеса, которая позволяет вычислить апостериорную вероятность P(A|B) события А в зависимости от события B.
P(B|A) называется вероятностью того, что если событие A произошло, насколько вероятно, что произойдет событие B?
P(A) – вероятность события А, априорное (начальное) предположение об интересующей переменной.
P(B) вероятность события B (свидетельство), которое обычно это трудно вычислить при оценке апостериорной вероятности.
Быстро вычислить баейсовскую вероятность можно с помощью Python-библиотеки PyMC3 https://docs.pymc.io/en/v3/. Она позволяет записывать модели, используя интуитивно понятный синтаксис для описания процесса генерации данных. PyMC3 позволяет настроить ML-модель с помощью алгоритмов MCMC на основе градиента, таких как NUTS, с помощью ADVI для быстрого приближенного вывода, включая мини-пакетный ADVI для масштабирования до больших наборов данных, или с помощью гауссовых процессов для построения байесовских непараметрических моделей. PyMC3 включает полный набор предопределенных статистических распределений, которые можно использовать в качестве строительных блоков байесовской модели.
Этот пакет вероятностного программирования для Python позволяет пользователям подбирать байесовские модели с использованием различных численных методов, в первую очередь метода Монте-Карло с использованием цепи Маркова (MCMC) и вариационного вывода (VI). Вместо с базовой спецификацией модели и функциями подбора, PyMC3 включает функции для суммирования выходных данных и диагностики модели.
PyMC3 стремится сделать байесовское моделирование максимально простым и безболезненным, позволяя пользователям сосредоточиться на своей научной проблеме, а не на методах, используемых для ее решения. Пакет использует Theano в качестве вычислительного бэкэнда, чтобы быстро оценивать выражение, автоматически вычислять градиент и выполнять вычисления на графическом процессоре.
Также PyMC3 имеют встроенную поддержку моделирования гауссовых процессов, позволяя обобщать модели и строить графики. Есть проверка модели и обнаружение сходимости, пользовательские пошаговые методы и необычные распределения вероятностей. Полученные с помощью PyMC3 байесовские модели можно встраивать в более крупные программы, а результаты анализировать любыми средствами Python.
https://medium.com/@akashkadel94/bayesian-statistics-overview-and-your-first-bayesian-linear-regression-model-ba566676c5a7
🔥2
🥳 Все ждали и это свершилось!

🚨Я продолжаю серию митапов про Data Science в городских и геосервисах, логистике, и технологиях умных городов.

🗓 25 января в 18:30 МСК состоится первая в этом году онлайн-встреча Citymobil Data Meetup!

Вас ждут новые гости и новые интересные доклады.

🚕 Олег Стрельников Руководитель команды Data Quality в Ситимобил «Как мы качество данных проверяем»

Расскажет про выбор фреймворка для DataQuality, что от него ждали и почему остановились на GreatExpectations. Покажет, как встроили его в архитектуру DWH, с какими проблемами столкнулись и как их побороли.

☎️ Максим Шевченко Ведущий ML разработчик в МТС BigData «Проверка гипотезы валидности таргетинга в наружной рекламе»

Маркетологи часто таргетируют наружную рекламу не только по геопризнаку, но и по социально-демографическим сегментам и интересам. При этом, исходят из предположения, что, например, по разным дорогам ездят разные люди – есть дороги, по которым в большей степени ездят высокодоходные клиенты, люди более старшего возраста и т.д. Действительно ли это так? Слушатели узнают про интересный и одновременно простой способ проверки некоторых гипотез и о том, как его можно использовать в других реальных задачах.

После докладов спикеры ответят на все ваши вопросы.

Регистрация для бесплатного участия

https://citymobil.timepad.ru/event/1904978/
💥5 англоязычных YOUTUBE-каналов для дата-инженера от популярных DS-блогеров
Ken Jee https://www.youtube.com/c/KenJee1/videos - 183 тысячи подписчиков и около 200 видео про Data Science, инженерию больших данных, ML и аналитику в спорте
Karolina Sowinska https://www.youtube.com/c/KarolinaSowinska/videos 30+ тысяч подписчиков и почти 60 отличных роликов про AirFlow, ИИ, ETL и карьеру дата-инженера;
Shashank Mishra https://www.youtube.com/c/LearningBridge/video 40+ тысяч подписчиков и более 150 видео о буднях дата-инженеры, отзывы о DS-курсах, рекомендации по прохождению интервью и личный опыт автора, работавшего в Amazon, McKinsey&Company, PayTm и других крупных корпорациях, а также в стартапах.
Seattle Data Guy https://www.youtube.com/c/SeattleDataGuy/videos почти 20 тысяч подписчиков и более 100 видео про soft и hard skills дата-инженера, лайфхаки для решения ежедневных задач по сбору и агрегации данных с помощью Python и не только, лучшие практики SQL, введение в R и еще много всего интересного/
Andreas Kretz https://www.youtube.com/c/andreaskayy/videos около 27 тысяч подписчиков и более 500 роликов ванильные и проприетарные Hadoop, Spark, Kafka, сервисы AWS и другие облачные платформы, основы ETL, тонкости установки и практического использования разных технологий Big Data и особенности профессии дата-инженера.
👍1
🏸Комбо Zingg + TigerGraph для удаления дублей и графовой аналитики больших данных
Графовые базы данных со встроенными шаблонами связей отлично подходят для устранения неоднозначности записей и разрешения сущностей. Например, TigerGraph – мощная система графовой аналитики. А если дополнить ее открытым ML-инструментом Zingg (https://github.com/zinggAI/zingg), можно найти дублированные и неоднозначные записи еще быстрее.
Например, один и тот же человек в разных системах записан по-разному. Поэтому проанализировать его пользовательское поведение, например, для генерации персонального маркетингового предложения или включения в программы лояльности, очень сложно. Zingg, имеют встроенные механизмы блокировки, которые вычисляют попарное сходство только для выбранных записей. Это сокращает время вычислений и помогает масштабироваться на большие наборы данных. Не нужно беспокоиться об связывании-группировке записей вручную: об этом позаботится внутренняя структура разрешения сущностей. Так с Zingg и TigerGraph можно объединить лучшее простое и масштабируемое разрешение сущностей и дальнейший анализ графа.
https://towardsdatascience.com/entity-resolution-with-tigergraph-add-zingg-to-the-mix-95009471ca02
🙌🏻LaMDA: безопасная, объективная и высококачественная языковая модель от Google AI
LaMDA
создается путем точной настройки семейства нейронных языковых моделей на основе Transformer, специализированных для диалога, с параметрами модели до 137B и обучения моделей использованию внешних источников знаний. LaMDA преследует три ключевые цели:
Качество (Quality), которое измеряется через Разумность (Sensibleness), Специфичность (Specificity) и Интересность (Interestingness). Эти показатели оцениваются людьми. Разумность говорит о наличии смысла в контексте диалога, например, отсутствие со стороны ML-модели абсурдных ответов и противоречий с более ранними ответами. Специфичность показывает, является ли ответ системы специфичным для контекста предыдущего диалога. Интересность измеряет эмоциональную реакцию собеседника на ответы ML-модели.
Безопасность (Safety), чтобы ответы модели не содержали оскорбительных и опасных высказываний.
Объективность (Groundedness) – современные языковые модели часто генерирует утверждения, которые кажутся правдоподобными, но на самом деле противоречат истинным фактам во внешних источниках. Объективность определяется как процент ответов с утверждениями о внешнем мире, которые могут быть подтверждены авторитетными внешними источниками. Родственная метрика, Информативность (Informativeness), определяется как процент ответов с информацией о внешнем мире, которая может быть подтверждена известными источниками.
Модели LaMDA проходят двухэтапное обучение: предварительное обучение и тонкая настройка. Первый этап выполнен на наборе данных из 1,56 тыс. слов из общедоступных данных диалогов и публичных веб-документов. После токенизации набора данных в 2,81T токенов модель была обучена предсказывать каждый следующий токен в предложении с учетом предыдущих. Предварительно обученная модель LaMDA также широко использовалась для NLP-исследований в Google, включая синтез программ, обучение с нулевым выстрелом и пр.
На этапе тонкой настройки LaMDA обучается комбинировать выполнение генеративных задач для создания ответов на естественном языке в заданных контекстах и задач классификации чтобы определить безопасность и качество модели. Так получается единая многозадачная модель: генератор LaMDA обучен прогнозировать следующий токен в наборе данных диалога, а классификаторы обучены прогнозировать оценки безопасности и качества ответа в контексте с использованием аннотированных данных.
Результаты тестирования показали, что LaMDA значительно превосходит предварительно обученную модель в каждом измерении и любом масштабе. Показатели качества улучшаются с увеличением количества параметров модели, с тонкой настройкой и даже без нее. Безопасность не улучшается только за счет масштабирования модели, но компенсируется при точной настройке. Объективность улучшается по мере роста размера модели, благодаря способности запоминать необычные знания. А точная настройка позволяет модели получать доступ к внешним источникам и эффективно переносить на них часть нагрузки по запоминанию знаний. С помощью точной настройки разрыв качества с человеческим уровнем может быть сокращен, хотя производительность модели остается ниже человеческого уровня в плане безопасности и объективности.
https://ai.googleblog.com/2022/01/lamda-towards-safe-grounded-and-high.html