adiga.ai
420 subscribers
3 photos
3 videos
7 links
Download Telegram
Channel created
adiga.ai – проект, в рамках которого я надеюсь внести вклад в сохранение и популяризацию черкесского языка, культуры и истории с помощью технологий ИИ и машинного обучения.

В рамках проекта будут объединены все отдельные проекты и ресурсы, над которыми велась работа последние несколько лет: работа с текстом, аудио, изображениями, и др.

Сайт: https://adiga.ai/ru
Контакт: @qunash_anzor

Сегодня есть несколько больших объявлений: обновление переводчика zedzek, черкесский ChatGPT и др. Подробнее ниже ⬇️
1🔥15👍52
This media is not supported in your browser
VIEW IN TELEGRAM
Большое обновление переводчика zedzek.com

Значительно улучшено качество перевода: сайт работает на новой языковой модели, обученной на в 10 раз большем количестве данных (~600 тыс. пар предложений). Благодаря этому, перевод стал значительно точнее и качественнее.

Поддержка обоих диалектов черкесского языка: Теперь можно переводить не только с русского и других языков на кабардинский диалект, но и с обоих диалектов черкесского на русский. Также (экспериментально) доступен перевод между диалектами.

Перевод длинных текстов: Теперь можно переводить не только отдельные слова и короткие фразы, но и целые абзацы.

Также обновлен дизайн сайта, теперь он еще удобней.

Попробуйте обновленный переводчик на zedzek.com
10🔥6👍4
This media is not supported in your browser
VIEW IN TELEGRAM
Черкесский виртуальный помощник Нарт

На сайте adiga.ai/chat запущен черкесский чатбот, аналог ChatGPT. ИИ-ассистент умеет общаться на обоих диалектах черкесского языка на любые темы.

Нарт поможет с переводом текстов, расскажет интересную историю, расскажет про квантовую механику на адыгэбзэ или просто побеседует на любые темы.

(Чатбот работает в экспериментальном режиме и может ошибаться.)

Попробуйте на adiga.ai/chat
👍23🔥139🆒6
This media is not supported in your browser
VIEW IN TELEGRAM
A small quality-of-life update:
Both zedzek.com and adiga.ai/chat now have a toggleable virtual keyboard with Circassian layout, for those who do not have a keyboard with Cyrillic characters. When the keyboard is turned on, you can type on your physical keyboard in any layout and the characters will be automatically converted to the corresponding Circassian characters.
The keyboard is only available on desktop versions of the sites.

Küçük bir kullanım kolaylığı güncellemesi:
Hem zedzek.com hem de adiga.ai/chat artık Kiril karakterleri olmayan klavyelere sahip kullanıcılar için açılıp kapatılabilen Çerkes düzeninde sanal klavyeye sahip. Klavye açıkken, fiziksel klavyenizde herhangi bir düzende yazabilir ve karakterler otomatik olarak karşılık gelen Çerkes karakterlerine dönüştürülecektir.
Klavye sadece sitelerin masaüstü versiyonlarında mevcuttur.

Небольшое обновление для удобства пользователей:
На zedzek.com и adiga.ai/chat теперь доступна виртуальная клавиатура с черкесской раскладкой для тех, у кого нет клавиатуры с кириллическими символами.
🔥2011👍9👾1
Завершена работа над первой версией датасета русско-черкесских параллельных текстов. Датасет состоит из около 330 тысяч пар переводов: 220 тысяч на восточном (кабардинском) диалекте и 110 тысяч на западном. Тексты собирались в течение нескольких лет из различных словарей, книг, статей, а также с помощью волонтеров на zedzek.com. Спасибо всем кто принимает участие в сборе данных.

Датасет опубликован в открытом доступе на Hugging Face: https://huggingface.co/datasets/adiga-ai/circassian-parallel-corpus
Любой желающий может использовать его для обучения моделей, в академических и любых других целях.

Главной целью проекта adiga.ai является расширение присутствия черкесского языка в интернете. Поэтому датасет также был передан представителям компаний Яндекс, Гугл и Мета, которые планируют использовать его для обучения своих мультиязычных моделей. Если все пойдет хорошо, то в течение ближайшего года можно рассчитывать на появление черкесского языка в Яндекс Переводчике, Google Переводчике и его поддержку в продуктах компании Meta (facebook, instagram), а также в открытых языковых моделях этих компаний.

* * *

The first version of the Russian-Circassian parallel text dataset has been completed. The dataset consists of ~330,000 translation pairs: 220,000 in the Eastern (Kabardian) dialect and 110,000 in the Western dialect. These texts were compiled over several years from various dictionaries, books, and articles, as well as through contributions from volunteers at zedzek.com. Thanks a lot to everyone who contributed to collecting the data.

The dataset has been made publicly available on Hugging Face:
https://huggingface.co/datasets/adiga-ai/circassian-parallel-corpus
Anyone interested is free to use it for model training, academic research, or any other purposes.

The primary goal of the adiga.ai project is to increase the presence of the Circassian language online. To support this goal, the dataset has also been shared with representatives from Yandex, Google, and Meta, who plan to use it as part of their ongoing projects to train multilingual models. If everything goes well, we can expect Circassian to become available in Yandex Translate, Google Translate, and supported across Meta products (Facebook, Instagram), as well as integrated into open-source language models from these companies within the coming year.
7🔥30177🙏5❤‍🔥3💘1
Just over a month has passed since Yandex engineers received the adiga.ai dataset containing ~300,000 parallel texts between Circassian and Russian languages. During this month, active work was carried out on training with this data and consulting on translation quality. As a result, Yandex Translate has added support for Circassian language in beta version. Translation is available between Circassian and 100+ other languages available in the service. The translation quality is quite good, and we can hope that it will only improve in the future.

Work on the Western Circassian (“Adyghe”) is still ongoing.

Yandex is one of the biggest russian tech companies, and adding Circassian language to Yandex Translate is a big step towards widening the reach of our language.

Thanks to Yandex for supporting our language.

Work on adding the Circassian language to Google Translate and Meta products is also actively continuing.

https://translate.yandex.ru/?source_lang=en&target_lang=kbd&text=Hi
44👏3❤‍🔥22
Прошло чуть больше месяца как инженерам Яндекса был передан датасет adiga.ai из ~300 тыс. параллельных текстов между черкесским и русским языками. В течение этого месяца велась активная работа по обучению на этих данных и консультации по качеству перевода. В результате позавчера в Яндекс Переводчике была запущена бета-версия русско-черкесского переводчика (кабардинский диалект). Перевод доступен между черкесским и 100+ другими языками, доступными в Яндекс Переводчике. Качество перевода достаточно хорошее, можно надеяться, что в будущем оно будет только расти.

Работа над западным ("адыгейским") диалектом еще продолжается.

Спасибо компании Яндекс, и конкретно инженерам, работавшим над этим проектом, за поддержку нашего языка.

Работа по добавлению черкесского языка в Google Переводчик и продукты компании Meta* также активно продолжается.

* Компания Meta признана экстремистcкой организацией в рф.

https://translate.yandex.ru/?source_lang=en&target_lang=kbd&text=Hi
234👍7❤‍🔥53