Контент -_-
Интернет завтра В Калининграде видимо сделали испытательный полигон для будущих блокировок. Поскольку последние 2 недели я наблюдаю только закручивание гаек. Вчера был пик 1984. Поскольку я был в гуще событий, а возможно и был самим событием, для людей у…
Ж̾̓д̌ͦё̈ͫм̈̈
Жͦ͑ дͮ̚ё̈́̈ мͣͤ҉̷̸
О̉ͧ҈͏҈̣̣сͨ̌҈̴͘҈҉̠̬т̾ͨ҈̢͠а̂ͮ҈͟͠҉͘͝л ҈҈̵̕о͆ͯс̓̽҉҉̕͞ ь̃͑ 5ͫ̚҉͜͠҉̧͠ д̓̄҈͍͝нͤ̎҉̸̸ ӗ͐҈͝҈̨҈́͠й͗͗҈̴̨
вͤ̄ сͪ͌ё́ͪ гͤ̔о̐̒҈̨̀тͮ̑҈̀͘о ҉̀͝ в̋ͧ҉҈͏̡҉̭͘ыͦ̅҉͘͡?̃̽
Иͫ̅҉̨͞н͒ͯ҉͘͞ тͪ͐҈̧͏҉͏͍еͥ͌ р̐́҉̧̀нͮͧ҈̶͎е͋ͪт͒̚҈͢͡ зͣͭ҈̵̛а͗̔҈҉̢͠҈͔͢в͑͆т̅͋҉̀͡ р͆ͬ҉͘͟аͣ̄
Жͦ͑ дͮ̚ё̈́̈ мͣͤ҉̷̸
О̉ͧ҈͏҈̣̣сͨ̌҈̴͘҈҉̠̬т̾ͨ҈̢͠а̂ͮ҈͟͠҉͘͝л ҈҈̵̕о͆ͯс̓̽҉҉̕͞ ь̃͑ 5ͫ̚҉͜͠҉̧͠ д̓̄҈͍͝нͤ̎҉̸̸ ӗ͐҈͝҈̨҈́͠й͗͗҈̴̨
вͤ̄ сͪ͌ё́ͪ гͤ̔о̐̒҈̨̀тͮ̑҈̀͘о ҉̀͝ в̋ͧ҉҈͏̡҉̭͘ыͦ̅҉͘͡?̃̽
Иͫ̅҉̨͞н͒ͯ҉͘͞ тͪ͐҈̧͏҉͏͍еͥ͌ р̐́҉̧̀нͮͧ҈̶͎е͋ͪт͒̚҈͢͡ зͣͭ҈̵̛а͗̔҈҉̢͠҈͔͢в͑͆т̅͋҉̀͡ р͆ͬ҉͘͟аͣ̄
Контент -_-
OPUS отрезки частотных блоков
В удивительное время живём, когда большая программа на 400 строк кода, которая делает сверх точный блочную показ полной структуры файла, и никаких подобных программ никогда не выходило нигде, а она делается путём ctrl-c ctrl-v из документации в нейросеть и ожиданием 2 минут
Демонстрация libopus (-b:a 16k) -frame_duration 60 который я использую всегда, так как он склеивает 3 блока в 1, уменьшая количество служебных данных, которых на пару часов видео натекает на пару сотен бесполезных килобайт. Но если это очень сильное сжатие звука, то эффект от них будет пропорционален
Демонстрация libopus (-b:a 16k) -frame_duration 60 который я использую всегда, так как он склеивает 3 блока в 1, уменьшая количество служебных данных, которых на пару часов видео натекает на пару сотен бесполезных килобайт. Но если это очень сильное сжатие звука, то эффект от них будет пропорционален
В автоматическим режиме opus уже давно есть такой баг что кодек slik используется в начале файла, что портит такие файлы как например сжатые звуки в битрейте до 64 кбит (когда slik используется) для фалов размерами например 1 секунда (звуковой эффект)
Контент -_-
fv.py
fv2.py
16.9 KB
Я сильно доработал программу fv например для того что бы можно было анализировать по 2.5 гигабайт файлы за несколько секунд (требует 20 гигабайт опиративной памяти) используя 4 потока сразу
А так же сделал несколько нововведений
• -p, --pearson
– Использовать хеширование по алгоритму Персона вместо оригинальных функций.
• -b, --bits
– Задать размер таблицы хешей в битах (16, 20, 24, 28 или 32; по умолчанию — 24).
• -s, --skip
– При проходах с длиной блока ½ байта обрабатывать каждый 4-й блок и умножать «силу» на 4.
• -ss, --super-skip
– При всех проходах обрабатывать каждый 8-й блок и умножать «силу» на 8.
• -F, --full_analys
– Включить полную скользящую (оконную) аналитику (1, 2, 4, 8 байт). Отменяет флаги --skip и --super-skip.
Так же при CRTL+C программа завершится сохранив то что успела обработать
А так же сделал несколько нововведений
• -p, --pearson
– Использовать хеширование по алгоритму Персона вместо оригинальных функций.
• -b, --bits
– Задать размер таблицы хешей в битах (16, 20, 24, 28 или 32; по умолчанию — 24).
• -s, --skip
– При проходах с длиной блока ½ байта обрабатывать каждый 4-й блок и умножать «силу» на 4.
• -ss, --super-skip
– При всех проходах обрабатывать каждый 8-й блок и умножать «силу» на 8.
• -F, --full_analys
– Включить полную скользящую (оконную) аналитику (1, 2, 4, 8 байт). Отменяет флаги --skip и --super-skip.
Так же при CRTL+C программа завершится сохранив то что успела обработать
Контент -_-
#Юзя Удивительный Цифровой Цирк (2023) серия 5
Media is too big
VIEW IN TELEGRAM
#Юзя
Район Газовых Фонарей (2025) серия 1
Район Газовых Фонарей (2025) серия 1
This media is not supported in your browser
VIEW IN TELEGRAM
На фестивале Comic Con в Сан-Диего показали 1-минутный отрывок грядущей 6-й серии удивительного цифрового цирка
Контент -_-
значально не создаются именно для перевода
Решив понять как конкретно делают оценки для нейросетей переводчиков, провалился в бездну ноунейм метрик, но самое главное что я случайно наткнулся на NINTH CONFERENCE ON
MACHINE TRANSLATION (WMT24) — Конференция нейросетей машинного перевода, на котором каждый год ноунейм задроты презентуют свои нейросети, которые многократно превосходят обычные нейросети даже если те в десятки раз больше.
С кучей документов докладов на каждый чих
https://www2.statmt.org/wmt24/pdf/2024.wmt-1.1.pdf
Но конкретно меня зацепил этот доклад про нейросеть Tower которая обучена на стандартных LLM но имеет только одну цель - перевод текста
https://aclanthology.org/2024.wmt-1.12.pdf
Неплохие результаты, по результатам лучших метрик, перевод 7B модели даже лучше чем тот самый DeepL. Но месяц назад эти ноунеймы дропнули модель размером 2B для WMT25 и это уже то что нужно! На данный момент это лучшая модель перевода такого размера. А после сжатия в GGUF ещё и работает на скорости T5 при намного более высоком качестве перевода
MACHINE TRANSLATION (WMT24) — Конференция нейросетей машинного перевода, на котором каждый год ноунейм задроты презентуют свои нейросети, которые многократно превосходят обычные нейросети даже если те в десятки раз больше.
С кучей документов докладов на каждый чих
https://www2.statmt.org/wmt24/pdf/2024.wmt-1.1.pdf
Но конкретно меня зацепил этот доклад про нейросеть Tower которая обучена на стандартных LLM но имеет только одну цель - перевод текста
https://aclanthology.org/2024.wmt-1.12.pdf
Неплохие результаты, по результатам лучших метрик, перевод 7B модели даже лучше чем тот самый DeepL. Но месяц назад эти ноунеймы дропнули модель размером 2B для WMT25 и это уже то что нужно! На данный момент это лучшая модель перевода такого размера. А после сжатия в GGUF ещё и работает на скорости T5 при намного более высоком качестве перевода