Forwarded from DL in NLP (nlpcontroller_bot)
mT5: A massively multilingual pre-trained text-to-text transformer
Xue et al. [Google]
arxiv.org/abs/2010.11934
Продолжение идей T5, но теперь не только для английского. Напомним, что T5 это seq2seq моделька обученная на вариации MLM (SpanBERT), которая при файнтюнинге всё ещё остаётся seq2seq даже для задач классификации (моделька учится предсказывать слово, обозначающее класс). Ещё она огромная, до этого уже можно было догадаться.
Так вот для mT5 - мультиязычной версии T5 собрали датасет mC4 размером в 6 триллионов слов, что вроде бы должно весить около 12Tb (а помните, когда One Billion Words считался большим датасетом?). Что важно, это то, что в этом датасете содержится более 100 языков и что там на удивление много неанглийского, а русский вообще стоит на втором месте. В результате на всём этом обучается новая моделька в 13 миллиардов параметров и она обходит все текущие модели на мультиязычных датасетах, даже включая XLM(-R), при тренировке которых использовались параллельные данные и обходит довольно значительно (в среднем на 2-3 пункта).
Сама статья довольно скучная, по сути в этом TL;DR она вся и описана. Зато код выложен и модельки тоже, жалко что не в 🤗-формате. Где вы правда будете их запускать - это отдельный вопрос.
За наводку на статью спасибо @someotherusername
Xue et al. [Google]
arxiv.org/abs/2010.11934
Продолжение идей T5, но теперь не только для английского. Напомним, что T5 это seq2seq моделька обученная на вариации MLM (SpanBERT), которая при файнтюнинге всё ещё остаётся seq2seq даже для задач классификации (моделька учится предсказывать слово, обозначающее класс). Ещё она огромная, до этого уже можно было догадаться.
Так вот для mT5 - мультиязычной версии T5 собрали датасет mC4 размером в 6 триллионов слов, что вроде бы должно весить около 12Tb (а помните, когда One Billion Words считался большим датасетом?). Что важно, это то, что в этом датасете содержится более 100 языков и что там на удивление много неанглийского, а русский вообще стоит на втором месте. В результате на всём этом обучается новая моделька в 13 миллиардов параметров и она обходит все текущие модели на мультиязычных датасетах, даже включая XLM(-R), при тренировке которых использовались параллельные данные и обходит довольно значительно (в среднем на 2-3 пункта).
Сама статья довольно скучная, по сути в этом TL;DR она вся и описана. Зато код выложен и модельки тоже, жалко что не в 🤗-формате. Где вы правда будете их запускать - это отдельный вопрос.
За наводку на статью спасибо @someotherusername
GitHub
GitHub - google-research/multilingual-t5
Contribute to google-research/multilingual-t5 development by creating an account on GitHub.
Forwarded from addmeto (Grigory Bakunov)
Мессенжер Kik и SEC подтвердили все же подписали мировую, она подтверждена. Теперь Kik обязан выплатить 5 млн долларов, а так же в следующие 3 года он будет утверждать все свои новые продукты, связанные с финансами.
Напомню, Kik попытались выпустить свою криптовалюту для обращения внутри мессенжера. SEC возмутился и потребовал прекратить безобразия по созданию собственных денег. Я в канале про это много писал, если любопытно - поищите. Но мораль у всего этого простая: SEC и государство вцелом боятся выпуска криптовалют на широкий рынок https://betakit.com/court-approves-kiks-settlement-with-sec-ending-years-long-battle/
Напомню, Kik попытались выпустить свою криптовалюту для обращения внутри мессенжера. SEC возмутился и потребовал прекратить безобразия по созданию собственных денег. Я в канале про это много писал, если любопытно - поищите. Но мораль у всего этого простая: SEC и государство вцелом боятся выпуска криптовалют на широкий рынок https://betakit.com/court-approves-kiks-settlement-with-sec-ending-years-long-battle/
BetaKit
Court approves Kik's settlement with SEC, ending years-long battle | BetaKit
A court has approved the settlement between Kitchener-Waterloo messenger app Kik and the US Securities Exchange Commission proposed earlier this week.
Forwarded from Deleted Account
Никак - их не было. Смиритесь, цивилизация существовала и до появления государств, тогда организующую (столичную) роль выполняли религиозные культы. Теперь на место государств приходят корпорации, цивилизация от этого не исчезнет, это будет такая же интенсификация прогресса как и переход от религиозной цивилизации (где всё строилась на приношениях и обмене - жрецы меняли принесенное им за агрокалендарные рекомендации зерно и другую агропродукцию на предметы ремесла, чьё производство развивалось вокруг храмов - в столицах) к государственной, когда столицы (храмы) захватывали банды дикарей (вождества), которую устанавливали свою монархию, где правитель провозглашался божеством, а его власть (государство) священным - деньги ведь начинались как налоги, их давали в обмен на принесёное зерно и другую агропродукцию, они понадобились, чтоб контролировать уплату налогов, потому что вместо добровольного приношения оно стало полудобравольным - жрицы по-прежнему давали астрономическо-агрономические консультации, но требовалось уже больше ресурсов, потому что нужно было кроме жрецов и их ритуалов обеспечивать и царя с его приспешниками, да и расходы возросли, они воины вели, поэтому нужно было проконтролировать, что все заплатили, да и предметы ремесла стали не выменивать на зерно, а забирать, в обмен давалось что-то, что подтверждало приношение - так и появились деньги (торговля и финансы), что интенсифицировало прогресс
Forwarded from TJ
PayPal разрешит пользователям из США покупать, хранить, продавать криповалюту и расплачиваться ей. В 2021 году сервис расширят и на другие страны. Продавцы не будут получать платежи в криптовалюте, так как они будут производиться с использованием обычных валют.
Сервис рассказал, что получил первую лицензию на работу с криптовалютами, выданную Департаментом финансовых услуг штата Нью-Йорк.
https://tjournal.ru/news/225668
Сервис рассказал, что получил первую лицензию на работу с криптовалютами, выданную Департаментом финансовых услуг штата Нью-Йорк.
https://tjournal.ru/news/225668
Ещё одна мера для изгания сайтов из зоны .ru https://tjournal.ru/news/227159-mincifry-predlozhilo-privyazat-registraciyu-saytov-k-gosuslugam-chtoby-effektivnee-borotsya-s-moshennikami
TJ
Минцифры предложило привязать регистрацию сайтов к Госуслугам, чтобы эффективнее бороться с мошенниками
Полиции так будет проще получить информацию об администраторах, считают в ведомстве, но пока такую регистрацию не планируют делать обязательной.
Forwarded from TJ
«Яндекс» впервые опубликовал статистику по выдаче данных россиян: 15 тысяч запросов за шесть месяцев, из которых 2,4 тысячи — отказы.
Органы власти чаще всего запрашивали информацию по пользователям сервисов «Паспорт» и «Почта».
https://tjournal.ru/news/227189
Органы власти чаще всего запрашивали информацию по пользователям сервисов «Паспорт» и «Почта».
https://tjournal.ru/news/227189
Forwarded from TJ
Если выложить в инстаграм фото лимона с подписью «яблоко», то пост признают фейком с соответствующим предупреждением. Такой вот фактчекинг у соцсети!
На самом деле и тут виноват коронавирус (и, вероятно, неразборчивость алгоритмов).
https://tjournal.ru/internet/227606
На самом деле и тут виноват коронавирус (и, вероятно, неразборчивость алгоритмов).
https://tjournal.ru/internet/227606
Роскомнадзор заявил об ограничении доступа к 20 российским СМИ на YouTube, Facebook и Twitter. Ведомство подготовило ответные меры
https://tvrain.ru/news/roskomnadzor_zajavil_ob_ogranichenii_dostupa_k_20_rossijskim_smi_na_youtube_facebook_i_twitter_vedomstvo_podgotovilo_otvetnye_mery-518329/
YouTube, Facebook и Twitter ограничивают доступ примерно к 20 российским СМИ, в том числе к агентствам РИА Новости, Sputnik и телеканалам RT и «Россия-1». Об этом сообщает ТАСС со ссылкой на пресс-службу Роскомнадзора.
В ведомстве заявили, что американские интернет-компании «игнорируют обращения с требованиями прекратить цензуру российских СМИ». «Попытки иностранного контроля российского медийного пространства приводят, в первую очередь, к неполучению гражданами России объективной информации», — считает Роскомнадзор.
В связи с этим ведомство подготовило изменения в законодательство в качестве ответных мер в отношении соцсетей. Их уже направили в Госдуму и Совет Федерации.
https://tvrain.ru/news/roskomnadzor_zajavil_ob_ogranichenii_dostupa_k_20_rossijskim_smi_na_youtube_facebook_i_twitter_vedomstvo_podgotovilo_otvetnye_mery-518329/
YouTube, Facebook и Twitter ограничивают доступ примерно к 20 российским СМИ, в том числе к агентствам РИА Новости, Sputnik и телеканалам RT и «Россия-1». Об этом сообщает ТАСС со ссылкой на пресс-службу Роскомнадзора.
В ведомстве заявили, что американские интернет-компании «игнорируют обращения с требованиями прекратить цензуру российских СМИ». «Попытки иностранного контроля российского медийного пространства приводят, в первую очередь, к неполучению гражданами России объективной информации», — считает Роскомнадзор.
В связи с этим ведомство подготовило изменения в законодательство в качестве ответных мер в отношении соцсетей. Их уже направили в Госдуму и Совет Федерации.
Телеканал Дождь
Роскомнадзор заявил об ограничении доступа к 20 российским СМИ на YouTube, Facebook и Twitter. Ведомство подготовило ответные меры
YouTube, Facebook и Twitter ограничивают доступ примерно к 20 российским СМИ, в том числе к агентствам РИА Новости, Sputnik и телеканалам RT и «Россия-1». Об этом сообщает ТАСС со ссылкой на пресс-службу Роскомнадзора.
Forwarded from addmeto (Grigory Bakunov)
Аппеляционный суд в Сан Франциско опять отказал администрации Трампа в требовании удалить WeChat из аппстора. По сути сейчас AppStore это огромное поле боя - и антимонопольные дела, и политические и даже вопросы блокировок - это все вокруг аппсторов.
Не удивительно, что разные государства хотят его контроллировать. Вообще, кстати, почему ни одно государство еще не потребовало сделать им их собственный магазин приложений? https://www.bloomberg.com/news/articles/2020-10-26/halt-on-wechat-ban-stays-in-place-during-appeal-court-says
Не удивительно, что разные государства хотят его контроллировать. Вообще, кстати, почему ни одно государство еще не потребовало сделать им их собственный магазин приложений? https://www.bloomberg.com/news/articles/2020-10-26/halt-on-wechat-ban-stays-in-place-during-appeal-court-says
Bloomberg
Tencent Surges After U.S. Court Upholds Stay on WeChat Ban
The Trump administration lost a bid to enforce its prohibitions against the Chinese-owned “super app” WeChat in the U.S. after appealing a judge’s ruling that the ban probably violates the free-speech rights of its users.
Forwarded from TJ
Нескольких московских полицейских уволили за финансовую поддержку проекта «Омбудсмен полиции», узнала «Медиазона».
Сотрудников спрашивали, зачем они перечисляли деньги основателю паблика, а потом предлагали уволиться по собственному желанию. В случае отказа им грозили неприятностями на работе.
https://tjournal.ru/news/228042
Сотрудников спрашивали, зачем они перечисляли деньги основателю паблика, а потом предлагали уволиться по собственному желанию. В случае отказа им грозили неприятностями на работе.
https://tjournal.ru/news/228042
Forwarded from addmeto (Grigory Bakunov)
Я обычно не реагирую на темы вроде "ИИ для найма игнорировал афроамериканцев", но вы наверное уже заметили - я неравнодушен к ИИ в медицине. И вот такой случай: исследование 57 тысяч пациентов с заболеваниями почек в Бостоне выявили. что алгоритм, используемый для вычисления уровня важности пересадки почки довольно сильно занижает показатели для черных пациентов. Т.е. да, есть алгоритм, который подсказывает кому надо пересадить почку сейчас, а кто может еще подождать в очереди, и опять W.E.I.R.D. оказались в приоритете и почки пересаживали именно им.
Почему это важно: на самом деле это результат искажения обучающей выборки, алгоритм ведет себя так, как ведут люди, которые его обучали. Так же очевидно, что белое население США куда чаще прибегали к скринингу и обследованиям, как следствие данных для них банально больше. И я уверен, ровно такие же проблемы есть и в других областях, не в почках дело. Человечеству предстоит научиться, как пополнять и корректировать обучающие выборки, если мы хотим применять ИИ в медицине https://www.wired.com/story/how-algorithm-blocked-kidney-transplants-black-patients
Почему это важно: на самом деле это результат искажения обучающей выборки, алгоритм ведет себя так, как ведут люди, которые его обучали. Так же очевидно, что белое население США куда чаще прибегали к скринингу и обследованиям, как следствие данных для них банально больше. И я уверен, ровно такие же проблемы есть и в других областях, не в почках дело. Человечеству предстоит научиться, как пополнять и корректировать обучающие выборки, если мы хотим применять ИИ в медицине https://www.wired.com/story/how-algorithm-blocked-kidney-transplants-black-patients
Wired
How an Algorithm Blocked Kidney Transplants to Black Patients
A formula for assessing the gravity of kidney disease is one of many that is adjusted for race. The practice can exacerbate health disparities.
Я, конечно, потресён тем, что происходит в Америке, вернее не происходит - демократы не снимают Байдана с выборов, СМИ молчат. Даже Трамп молчит))) Мне вот прямо интересно, какая часть народа, в "эпоху Интернета", когда практически все американские СМИ замалчивают тему, в курсе, что в истории США случился, наверно, самый грандиозный скандал. Это, конечно, в первую очередь не про банкротство американской прессы, с этим и так всё понятно, а про то, что соцсети блокируют эту информацию. Интересно, в Сенате у глав Google, Facebook и Twitter об этом спросили? Я не в курсе, не смотрел трансляцию, не видел в новостях
Это в какой-то степени гамлетовский сюжет - американские IT-компании, если не в лице своих руководителей/владельцев, то в лице основной части их персонала, которая давит на своих руководителей/владельцев, левые - всячески поддерживают Демократическую партию, топят Трампа и республиканцев, но Демократическая партия стала фактически филиалом КПК и по указке своих китайских хозяев топит американские IT-компании. Сначала вы закрываете глаза на коррупцию по каким-то своим соображениям идеологической близости (в случае IT-компаний ещё и занимаетесь цензурой в пользу коррупционеров), а потом коррупционеров покупают ваши враги и заказывают кампанию против вас. Точнее не потом, Хиллари Клинтон интернет-компании так не спасали, как сейчас спасают Байдена, в тот самый момент, когда выдвенувшая его партия ведёт войну с американскими IT-компаниями
Forwarded from TJ
Роскомнадзор внёс «Пикабу» и «ЯПлакалъ» в реестр организаторов распространения информации.
Их обязали хранить и передавать данные пользователей спецслужбам.
https://tjournal.ru/news/230523
Их обязали хранить и передавать данные пользователей спецслужбам.
https://tjournal.ru/news/230523
Forwarded from TJ
Утро пятницы, TJ.
На фото — люди гуляют по парку в Китае. Снимок Getty Images.
Новости такие:
— Американские телеканалы прервали трансляцию выступления Трампа из-за его заявлений о махинациях с голосами https://tjournal.ru/news/231808
— Facebook заблокировал группу и хэштег теории заговора, утверждающей, что демократы пытаются украсть победу у Трампа https://tjournal.ru/internet/231818
На фото — люди гуляют по парку в Китае. Снимок Getty Images.
Новости такие:
— Американские телеканалы прервали трансляцию выступления Трампа из-за его заявлений о махинациях с голосами https://tjournal.ru/news/231808
— Facebook заблокировал группу и хэштег теории заговора, утверждающей, что демократы пытаются украсть победу у Трампа https://tjournal.ru/internet/231818
На самом деле, это очень забавно, потому единственное из-за чего до сих пор существует Twitter - им продолжают пользоваться, это то, что эту платформу любит Трамп. Twitter умирает - в США он взрослую аудиторию проиграл Instagram, молодую Snapchat, за пределами США он вообще нахуй никому не нужен, и только присутствие Трампа делало его влиятельной площадкой, заставляя оставаться в нем журналистов, политиков и чиновников
Forwarded from Кухня Яндекс.Дзена (Настя Голицына)
Bytedance заработает в 2020 году $27,2 млрд
Bytedance заработает в этом году $27,2 млрд и займет второе место на рынке онлайн-рекламы в Китае. Около 60% этих денег принесет приложение с короткими видео Douyin (китайская версия TikTok), 20% – ньюсфид Toutiao, 3% – видеоплатформа Xigua.
В прошлом году Bytedance заработала $17 млрд и обогнала по рекламной выручке поисковик Baidu. Сокращается разрыв и с Alibaba, которая в прошлом году заработала на рекламе $16 млрд (это неофициальные данные Reuters).
Как раз сейчас Bytedance ведет переговоры о привлечении $2 млрд по оценке $180 млрд.
Bytedance заработает в этом году $27,2 млрд и займет второе место на рынке онлайн-рекламы в Китае. Около 60% этих денег принесет приложение с короткими видео Douyin (китайская версия TikTok), 20% – ньюсфид Toutiao, 3% – видеоплатформа Xigua.
В прошлом году Bytedance заработала $17 млрд и обогнала по рекламной выручке поисковик Baidu. Сокращается разрыв и с Alibaba, которая в прошлом году заработала на рекламе $16 млрд (это неофициальные данные Reuters).
Как раз сейчас Bytedance ведет переговоры о привлечении $2 млрд по оценке $180 млрд.
Forwarded from TJ
Власти Тувы запретили использовать название республики в наименованиях сайтов и групп в соцсетях, если те не согласованы с местными властями. Администраторы до 9 декабря должны направить заявки в комиссию, которая оценит контент страницы и его название, а потом решит, удовлетворить ли ходатайство.
Как всё будет работать на практике, непонятно, но тувинские власти пообещали штрафовать нарушителей.
https://tjournal.ru/news/235054
Как всё будет работать на практике, непонятно, но тувинские власти пообещали штрафовать нарушителей.
https://tjournal.ru/news/235054