Контент -_-
fv.py
fv2.py
16.9 KB
Я сильно доработал программу fv например для того что бы можно было анализировать по 2.5 гигабайт файлы за несколько секунд (требует 20 гигабайт опиративной памяти) используя 4 потока сразу
А так же сделал несколько нововведений
• -p, --pearson
– Использовать хеширование по алгоритму Персона вместо оригинальных функций.
• -b, --bits
– Задать размер таблицы хешей в битах (16, 20, 24, 28 или 32; по умолчанию — 24).
• -s, --skip
– При проходах с длиной блока ½ байта обрабатывать каждый 4-й блок и умножать «силу» на 4.
• -ss, --super-skip
– При всех проходах обрабатывать каждый 8-й блок и умножать «силу» на 8.
• -F, --full_analys
– Включить полную скользящую (оконную) аналитику (1, 2, 4, 8 байт). Отменяет флаги --skip и --super-skip.
Так же при CRTL+C программа завершится сохранив то что успела обработать
А так же сделал несколько нововведений
• -p, --pearson
– Использовать хеширование по алгоритму Персона вместо оригинальных функций.
• -b, --bits
– Задать размер таблицы хешей в битах (16, 20, 24, 28 или 32; по умолчанию — 24).
• -s, --skip
– При проходах с длиной блока ½ байта обрабатывать каждый 4-й блок и умножать «силу» на 4.
• -ss, --super-skip
– При всех проходах обрабатывать каждый 8-й блок и умножать «силу» на 8.
• -F, --full_analys
– Включить полную скользящую (оконную) аналитику (1, 2, 4, 8 байт). Отменяет флаги --skip и --super-skip.
Так же при CRTL+C программа завершится сохранив то что успела обработать
Контент -_-
#Юзя Удивительный Цифровой Цирк (2023) серия 5
Media is too big
VIEW IN TELEGRAM
#Юзя
Район Газовых Фонарей (2025) серия 1
Район Газовых Фонарей (2025) серия 1
This media is not supported in your browser
VIEW IN TELEGRAM
На фестивале Comic Con в Сан-Диего показали 1-минутный отрывок грядущей 6-й серии удивительного цифрового цирка
Контент -_-
значально не создаются именно для перевода
Решив понять как конкретно делают оценки для нейросетей переводчиков, провалился в бездну ноунейм метрик, но самое главное что я случайно наткнулся на NINTH CONFERENCE ON
MACHINE TRANSLATION (WMT24) — Конференция нейросетей машинного перевода, на котором каждый год ноунейм задроты презентуют свои нейросети, которые многократно превосходят обычные нейросети даже если те в десятки раз больше.
С кучей документов докладов на каждый чих
https://www2.statmt.org/wmt24/pdf/2024.wmt-1.1.pdf
Но конкретно меня зацепил этот доклад про нейросеть Tower которая обучена на стандартных LLM но имеет только одну цель - перевод текста
https://aclanthology.org/2024.wmt-1.12.pdf
Неплохие результаты, по результатам лучших метрик, перевод 7B модели даже лучше чем тот самый DeepL. Но месяц назад эти ноунеймы дропнули модель размером 2B для WMT25 и это уже то что нужно! На данный момент это лучшая модель перевода такого размера. А после сжатия в GGUF ещё и работает на скорости T5 при намного более высоком качестве перевода
MACHINE TRANSLATION (WMT24) — Конференция нейросетей машинного перевода, на котором каждый год ноунейм задроты презентуют свои нейросети, которые многократно превосходят обычные нейросети даже если те в десятки раз больше.
С кучей документов докладов на каждый чих
https://www2.statmt.org/wmt24/pdf/2024.wmt-1.1.pdf
Но конкретно меня зацепил этот доклад про нейросеть Tower которая обучена на стандартных LLM но имеет только одну цель - перевод текста
https://aclanthology.org/2024.wmt-1.12.pdf
Неплохие результаты, по результатам лучших метрик, перевод 7B модели даже лучше чем тот самый DeepL. Но месяц назад эти ноунеймы дропнули модель размером 2B для WMT25 и это уже то что нужно! На данный момент это лучшая модель перевода такого размера. А после сжатия в GGUF ещё и работает на скорости T5 при намного более высоком качестве перевода