Машинное обучение RU
17.7K subscribers
1.58K photos
209 videos
11 files
2.04K links
Все о машинном обучении

админ - @workakkk

@data_analysis_ml - анализ даннных

@ai_machinelearning_big_data - Machine learning

@itchannels_telegram -лучшие ит-каналы

@pythonl - Python

@pythonlbooks- python 📚

@datascienceiot - 📚

РКН: clck.ru/3FmrUw
Download Telegram
Forwarded from Machinelearning
🌟 Common Corpus: обновление большого набора данных.

Common Corpus - обширный открытый текстовый набор данных на 2 трлн. токенов. Набор разработан PleIAs в сотрудничестве с рядом партнёров и отличается от других датасетов высоким уровнем открытости и возможностью отслеживания происхождения данных.

В обновленную версию были включены материалы, не защищенные авторским правом или распространяемые на основе открытых лицензий.

Common Corpus содержит информацию объемом 10 млрд. токенов для каждого из 8 основных языков (английский, немецкий, французский, испанский, итальянский, польский, греческий и латынь) и 1 млрд. токенов для каждого из 33 дополнительных языка.

В состав Common Corpus входят научные публикации, правительственные и юридические документы, программный код и материалы культурного наследия - книги и газеты.

Все исходные данные для датасетов Common Corpus прошли тщательную модерацию, строгий отбор, коррекцию орфографических ошибок и удаление нежелательного или недостоверного контента.

Common Corpus соответствует положениям AI Act и предоставляет возможность обучения моделей, совместимых с принципами открытого ИИ и может быть использован в коммерческих и некоммерческих целях.

📌Набор данных структурирован в виде 6 коллекций:

🟢OpenCulture - материалы, находящиеся в общественном достоянии, архивные газетные публикации и ресурсы проектов Wikisource и Gutenberg (886 млрд. токенов);

🟢OpenGovernment - финансовая и юридическая документациия из SEC, WTO, Europarl и Caselaw Access Project (406 млрд. токенов);

🟢OpenSource - программный код из репозиториев GitHub, прошедший отбор с использованием системы ArmoRM (283 млрд. токенов);

🟢OpenScience - академические материалы из баз данных Open Alex и других открытых научных хранилищ (281 млрд токенов);

🟢OpenWeb - данные из Wikipedia, YouTube Commons и платформы Stack Exchange (73 млрд. токенов);

🟢Open Semantic - семантические данные из Wikidata, обработанные при участии Wikidata и Wikimedia Germany (67 млрд. токенов).

📌Каждый документ в Common Corpus сопровождается метаданными:

identifier - уникальный идентификатор текстового документа;
collection - название коллекции, к которой относится документ;
license - информация о лицензии;
date - дата создания документа;
title - заголовок документа;
creator - автор или источник публикации;
language - язык документа;
word_count, token_count - количественные показатели: число слов и токенов;
text - текстовое содержание документа.


@ai_machinelearning_big_data

#AI #ML #Dataset #PlelAs #CommonCorpus
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
5🔥3👍1