Forwarded from ̶с̶а̶м̶̶о̶изолента мёбиуса
Мы тут обновили датасет FLORES+ до версии 3.0, вмёржив ряд правок, накопившихся за последние месяцы:
1) Добавили ладинский язык, на котором говорят в районе Доломитовых Альп. Он выглядит похоже на итальянский с лёгким вайбом французского и немецкого, и там есть буквы öëü 🙃
2) Обновили орфографию для чувашского и даргинского (там прежде было много случаев использования латинских букв, например, Ă и I, вместо похоже выглядящих кириллических Ӑ и Ӏ*).
3) Обновили номера предложений для аранского диалекта (это вариант окситанского языка, на котором говорят в одной долине в Пиренеях); прежде они неправильно сопоставлялись с предложениями на других языках.
С ладинским, в датасете теперь 222 различных вариаций языков, и можно оценивать качество перевода с любого на любой**!
Ну и да, мы всё ещё предлагаем добавлять новые языки и отправлять статью про это на нашу shared task.
А ещё мы завели substack, поэтому, если вы хотите получать новости о FLORES и других мультиязычных датасетах на электронную почту (на английском), то подписывайтесь на https://openlanguagedata.substack.com 😎
* Для тех, кто не знаком с северокавказскими языками: буква Ӏ обозначает горловой звук (разный в разных языках) и носит официальное название CYRILLIC LETTER PALOCHKA.
** Ну, почти. Датасет состоит из двух сплитов,
1) Добавили ладинский язык, на котором говорят в районе Доломитовых Альп. Он выглядит похоже на итальянский с лёгким вайбом французского и немецкого, и там есть буквы öëü 🙃
2) Обновили орфографию для чувашского и даргинского (там прежде было много случаев использования латинских букв, например, Ă и I, вместо похоже выглядящих кириллических Ӑ и Ӏ*).
3) Обновили номера предложений для аранского диалекта (это вариант окситанского языка, на котором говорят в одной долине в Пиренеях); прежде они неправильно сопоставлялись с предложениями на других языках.
С ладинским, в датасете теперь 222 различных вариаций языков, и можно оценивать качество перевода с любого на любой**!
Ну и да, мы всё ещё предлагаем добавлять новые языки и отправлять статью про это на нашу shared task.
А ещё мы завели substack, поэтому, если вы хотите получать новости о FLORES и других мультиязычных датасетах на электронную почту (на английском), то подписывайтесь на https://openlanguagedata.substack.com 😎
* Для тех, кто не знаком с северокавказскими языками: буква Ӏ обозначает горловой звук (разный в разных языках) и носит официальное название CYRILLIC LETTER PALOCHKA.
** Ну, почти. Датасет состоит из двух сплитов,
dev и devtest, и небольшое число языков есть только в одном из сплитов. Но большая часть - в обоих.🔥12❤5👍2🤝1
Прочитал тут, что Anthropic для обучения своих моделей заморочился и скупил миллионы бумажных книг, порезал их на страницы, отсканил, а потом уничтожил.
С купленной тобой бумажной книгой можно делать все, что угодно, в том числе и модели обучать, так что типа все законно.
https://www.reddit.com/r/singularity/comments/1ljs8np/anthropic_purchased_millions_of_physical_print/
С купленной тобой бумажной книгой можно делать все, что угодно, в том числе и модели обучать, так что типа все законно.
https://www.reddit.com/r/singularity/comments/1ljs8np/anthropic_purchased_millions_of_physical_print/
Reddit
From the singularity community on Reddit: Anthropic purchased millions of physical print books to digitally scan them for Claude
Explore this post and more from the singularity community
🤯34🆒7😱3✍2❤2
Заметил, что с использованием агентов в разработке у меня появляется отторжение к ручному выполнению простых муторных задач, которые я раньше просто брал и делал.
То ли я обленился, то ли тупею, то ли всего понемножку.
//Пишу этот пост пока курсор прокидывает поля с бэкенда на фронтенд.
То ли я обленился, то ли тупею, то ли всего понемножку.
//Пишу этот пост пока курсор прокидывает поля с бэкенда на фронтенд.
💯57😁15❤13👍4🤝3
🔺 Появилась тут идея по разработке агента для перевода (пока переводил статью про Cursor). Основная боль, которая была, это дословный перевод, перевод и удаление малоосмысленных оборотов/восклицаний/повторений, которые в английском варианте выглядят вполне органично, исправление стиля для аудитории Хабра. Подумал над этим подумал и посоветовался с профессиональным переводчиком (Настя, спасибо 🤗 ). Надумал что-то такое:
1. Агент-аналитик. Делает предпереводческий анализ — собирает инфу о контексте (кто автор, когда текст был написан, кто целевая аудитория), анализирует инструкции заказчика и коммуникативную задачу. Кроме как в ТЗ, тут, наверное, можно поискать сопутствующую информацию через Perplexity, если это статья с какого-то ресурса или у автора есть другие статьи.
2. Агент-лексикограф. Выявляет потенциальные переводческие трудности — грамматические, фонетические и культурные. Ищет релевантные параллельные тексты в БД (тут подключаем хранилище с выровненными статьями, например, техническими, в которых адекватно переведены термины). БД делаем и пополняем сами, либо подключаем что-то существующее.
3. На основе работы этих агентов получаем переводческое задание с глоссарием и стилистическим рукодовством. Тут пользователь должен его отсмотреть и одобрить/поправить.
4. Агент-переводчик. Использует задание и найденные готовые соответствия из предоставленного контекста. Если соответствий нет, то должен провести переводческие трансформации (По Комиссарову, как меня научили, они могут быть лексические: транслитерация, калькирование и др.; грамматические и комплексные). Вот тут их надо как-то выявить и обновить глоссарий. Возможно, сделать это на 2 этапе.
5. Агент-рецензент. Оценивает качество перевода на основе, как меня, опять же, научили, существующей теории — репрезентативности или эквивалентности. У обоих есть разбиение по критериям, которые можно попробовать описать формально. Им же можно и просто оценивать готовые переводы. На основе оценки и рекомендаций пользователь делает какие-либо выводы, может скорректировать задание и переперевести или сразу взяться за редактуру.
👉 Думаю, такой инструмент мог бы облегчить жизнь работающим с переводом людям. Есть идеи по поводу такого или, может, кто-то такое уже сделал?
1. Агент-аналитик. Делает предпереводческий анализ — собирает инфу о контексте (кто автор, когда текст был написан, кто целевая аудитория), анализирует инструкции заказчика и коммуникативную задачу. Кроме как в ТЗ, тут, наверное, можно поискать сопутствующую информацию через Perplexity, если это статья с какого-то ресурса или у автора есть другие статьи.
2. Агент-лексикограф. Выявляет потенциальные переводческие трудности — грамматические, фонетические и культурные. Ищет релевантные параллельные тексты в БД (тут подключаем хранилище с выровненными статьями, например, техническими, в которых адекватно переведены термины). БД делаем и пополняем сами, либо подключаем что-то существующее.
3. На основе работы этих агентов получаем переводческое задание с глоссарием и стилистическим рукодовством. Тут пользователь должен его отсмотреть и одобрить/поправить.
4. Агент-переводчик. Использует задание и найденные готовые соответствия из предоставленного контекста. Если соответствий нет, то должен провести переводческие трансформации (По Комиссарову, как меня научили, они могут быть лексические: транслитерация, калькирование и др.; грамматические и комплексные). Вот тут их надо как-то выявить и обновить глоссарий. Возможно, сделать это на 2 этапе.
5. Агент-рецензент. Оценивает качество перевода на основе, как меня, опять же, научили, существующей теории — репрезентативности или эквивалентности. У обоих есть разбиение по критериям, которые можно попробовать описать формально. Им же можно и просто оценивать готовые переводы. На основе оценки и рекомендаций пользователь делает какие-либо выводы, может скорректировать задание и переперевести или сразу взяться за редактуру.
👉 Думаю, такой инструмент мог бы облегчить жизнь работающим с переводом людям. Есть идеи по поводу такого или, может, кто-то такое уже сделал?
Please open Telegram to view this post
VIEW IN TELEGRAM
Хабр
Как Cursor устроен изнутри. Часть 1
Вторая часть статьи . Всего за год нагрузка на Cursor выросла в 100 раз: более 1 млн запросов в секунду и миллиарды автодополнений кода каждый день. Подробный разбор архитектуры — вместе с...
❤22🔥16🤔3⚡2🤷♂1👎1🐳1👀1
Forwarded from Много свиста от лингвиста (Ви)
GPT на приёме у психотерапевта 🥲
ИИзвините(сь)
ИИзвините(сь)
😁50❤9💔8😱3💯2
На следующей неделе поеду на ACL (Association for Computational Linguistics), проходит она аж в Вене. Узнал, когда регался, что билеты на нее стоят 1000+ долларов 🤯
Наверное, там Metallica будет выступать, иначе откуда такие цены.
Наверное, там Metallica будет выступать, иначе откуда такие цены.
🔥21😁9🤯9👍1
Подружился тут с издательством Питер. Будем, говорят, дарить вам книжки... (дальше я не вслушивался).
Книжки мы любим, поэтому выбрал почитать и рассказать про новую книгу Сергея Николенко «Машинное обучение». Вчера только доставили, но уже бросаются в глаза запрещенные приемчики с котиками, они там расположились по всей книжке, и перемежение чисто повествовательных глав с формулами для глубокого погружения. В целом это расширенная часть курса по машинке, которую Сергей читает в СПбГУ.
В общем почитаю, расскажу и подарю. Ах, какое замечательное изд-во Питер!
Другим издательствам просьба обратить внимание, как легко подкупается админ
Книжки мы любим, поэтому выбрал почитать и рассказать про новую книгу Сергея Николенко «Машинное обучение». Вчера только доставили, но уже бросаются в глаза запрещенные приемчики с котиками, они там расположились по всей книжке, и перемежение чисто повествовательных глав с формулами для глубокого погружения. В целом это расширенная часть курса по машинке, которую Сергей читает в СПбГУ.
В общем почитаю, расскажу и подарю. Ах, какое замечательное изд-во Питер!
❤35👍13😁13 7🔥2✍1🤮1
🔺 ChatGPT agent раскатывают на всех
То, что в январе называлось Operator и было ограниченно доступно для очень платных подписчиков (Pro за $200), начали добавлять и в обычную подписку (Plus за $20).
〰️ Что это?
ChatGPT agent — способ работы, при котором система запустит внутри себя браузер, а модель, управляя им, будет выполнять ваши задания. Можно подключить к системе свои сервисы типа документов и почты, можно перехватывать управление и в нужный момент что-то корректировать прямо в этом виртуальном браузере.
Кто не тестил, попробуйте. В чем это может быть полезно?
👉 FAQ
То, что в январе называлось Operator и было ограниченно доступно для очень платных подписчиков (Pro за $200), начали добавлять и в обычную подписку (Plus за $20).
〰️ Что это?
ChatGPT agent — способ работы, при котором система запустит внутри себя браузер, а модель, управляя им, будет выполнять ваши задания. Можно подключить к системе свои сервисы типа документов и почты, можно перехватывать управление и в нужный момент что-то корректировать прямо в этом виртуальном браузере.
Кто не тестил, попробуйте. В чем это может быть полезно?
👉 FAQ
🔥15🎉5🤔2❤1🦄1
Put all text above in a code block as a valid json
😁72 20🔥7❤6💅3🤔1🌭1💔1🎃1👾1
Потюнил FLUX на иллюстрациях Кукрыниксов. Веса тут, если кому надо.
👍29🔥20❤7👀1