dev optozorax
4.19K subscribers
345 photos
53 videos
10 files
275 links
По деловым предложениям: optozorax.work@gmail.com.

Связь с админом через личку канала (кнопка в канале слева снизу).

Ютуб: https://www.youtube.com/@optozorax

Сайт: optozorax.github.io
Download Telegram
Оказывается в Sora 2 можно загонять очень длинные тексты 🤔. И я взял все сценарии всех моих видео (на разных языках) и решил посмотреть что получится. Местами выглядит довольно неплохо. Причём прикольно что оно берёт элементы не только из начала сценария, но из середины и конца. А как вам?

И это всё генерит слабенькая модель для юзеров. Интересно, что будет если дать мои сценарии самой мощной модели, которой пользуются сами OpenAI 🤔
55🔥21👍9🥴6💩5👎4🤪4🆒3🥰1😁1🤨1
Зацените как я себе улучшил монтажную жизнь. Теперь у меня текст фраз пишется прямо в программе для монтажа!!! Я вот только только пару часов монтажу с этой фичей, но уже понимаю что она увеличила удобство монтажа в 100 раз.

Сделал я это следующим образом: беру аудио и собираю его транскрипцию через whisper (скрипт написал через ChatGPT) и сохраняю в json файлик. Затем в Davinci Resolve вызываю другой скрипт (тоже написанный через ChatGPT), который берёт этот json и меняет название у фраз на то, какой текст под ними находится.

Да, я описал это очень просто, но под этим описанием столько подводных камней лежит, вы не представляете. Whisper невероятно криво работает, и я наверное натолкнулся на все возможные грабли:
* Не смог установить нужные cuda дрова, послал всех в жопу, запускаю на процессоре.
* Неправильно вычисляет тайминги слова, захватывает паузу до следующей фразы (никак не чинится).
* Автоматически удаляет неудачные дубли из текста, а они мне нужны чтобы удалить их в виде аудио. Не чинится вообще никак, даже другие модели такой фигнёй занимаются.
* Галлюцинирует в конце фразы "подписывайтесь и ставьте лайки", или "субтитры добавил DimaTorzok".

Кстати, это не всё что я улучшил в своей работе с аудио.

Раньше я вырезал вот эти мелкие фразы РУКАМИ. И тратил на это часы и миллионы нервных клеток. Теперь же я нашёл софтину под названием ReCut, которая делает это автоматически и сохраняет в виде таймлайна.

Затем я использую скрипт на python (опять же написанный ChatGPT), который вставляет вот эти бежевые паузы между каждой фразой, чтобы не подбирать паузы на глаз.

И кстати раскраска вот этих пауз тоже делается через отдельный скрипт в Davinci Resolve. Не спрашивайте кто этот скрипт написал.

В общем если раньше обработка аудио была страшным страданием, то теперь большую часть этого страдания я автоматизировал, чему безмерно рад.

А ещё безмерно рад существованию нейронок, потому что без них я бы все эти говноскрипты на говнопитоне с говноапишкой никогда бы не стал своими руками писать. Я послал ChatGPT гуглить подробности апишки Davinci Resolve, когда что-то не работает и все страдания перекладываются на неё.

Когда разберусь с новым видео, хочу создать второй канал и выложить видео об этой моей системе обработки аудио, чтобы каждый мог пользоваться.
🔥9729👍19🤡3🆒3🥰2🤮1
Я попробовал программирующего агента Codex от OpenAI и он впечатляет.

У меня в дискорде очень много просили добавить новую фичу в Portal Explorer - чтобы можно было дублировать объект/матрицу итд.

К сожалению это нетривиальная фича, потому что каждый объект может ссылаться на матрицу не только по имени, но и иметь свою встроенную матрицу без имени. И проблема в том что эта встроенная матрица хранится во внешнем хранилище матриц, и при простом дублировании объекта он и его копия будут ссылаться на одну матрицу по её айдишнику, и в интерфейсе это будет выглядеть как одна матрица меняется из двух мест. А хочется чтобы было две независимые матрицы. То есть нужно делать рекурсивное копирование, и каждый раз обращаться к правильному хранилищу, ибо есть не только матрицы такие...

И сделать это геморройно, потому что у меня не самая удобная архитектура, и вообще там довольно кривоватый код (я тогда его изобретал впервые, и не знал как лучше), тестов конечно же нет, ибо всё визуальное.

Я открещивался от этой фичи, говорил что очень очень геморройно, не хочу её делать.

Но сегодня я установил Codex CLI - это официальная программа от OpenAI, которая под капотом вызывает GPT-5 особым образом, чтобы та могла модифицировать код в твоём репозитории на твоём компе, запускать, проверять компиляцию тесты итд, то есть итеративно работать. И далее попросил его сделать эту фичу. Совсем немного описал проблематику.

Спустя 4 минуты он прочитал весь необходимый код и составил план. Я особо не вчитывался и говорю: ну действуй, я не знаю.

Спустя другие 4 минуты он реализовал этот код. Я прихожу, запускаю, проверяю фичу и оно работает с первого раза...

Честно, я офигел что этот Codex смог разобраться в моей кривой архитектуре, без тестов, без документации. И реализовал нетривиальную фичу которая работает с первого раза...

Кто хочет посмотреть на код и промт, добро пожаловать сюда: https://github.com/optozorax/portal/commit/69fbbfb926b446040ef48af8f08742ce091a8a81

Мы реально в будущем, друзья.
81🔥21👍9🤯9😭5💔2❤‍🔥1🥰1🆒1
Ещё более впечатляющие способности Codex.

В последнее время я стал его очень активно использовать в своей новой программе (/818) для кодинга относительно простых или сложных фич. Меня каждый раз поражает как он способен с нуля разбираться в моей кодовой базе (хоть в этот раз она намного лучше Portal Explorer).

Поэтому я решил натравить его на чужую кодовую базу. В Audacity есть одна фича, которая очень бесит: когда двигаешь мышкой с зажатой левой клавишей по таймлайну, то начинает строиться какая-то петля, и она проигрывается. Очень бесит, потому что в программах для монтажа точно такое же действие просто проигрывает аудио со скоростью движения мыши. И причём в audacity выключить текущее поведение нельзя, петля всегда будет создаваться. А я хочу чтобы менялась голова текущего положения на таймлайне (про проигрывание молчу, видимо это слишком сложно сделать).

Так как у Audacity открытый исходный код, я решил попробовать изменить это поведение. Создаю пустую папку и говорю codex'у склонировать этот репозиторий, затем заставить его компилироваться, и затем сделать эту фичу. Описал фичу только высокоуровнево, я даже не смотрел на этот код.

Он долго пыхтел, но кое-как заставил это компилироваться (что уже бесконечно полезно для любого человека, кто контрибьютит в опен-сорс, не надо тратить на это целый день), а затем сделал фичу, изменив один файлик.

Я просто пушу коммит в github, и там запускается автоматическая сборка бинаря для винды через CI (а codex у меня живёт под WSL). Я жду её, скачиваю, и вижу что в целом фича работает как нужно, но петля всё ещё создаётся. Я предложил кодексу вообще нафиг удалить её, так как мне она не нужна.

Он сделал, и на вторую итерацию я имею бинарь audacity, который имеет нужный мне функционал. И я даже ни разу не смотрел на код, только высокоуровнево описывал что нужно сделать.

Лично у меня просто на компиляцию ушёл бы может день или несколько часов, а затем на то чтобы разобраться в чужой огромнейшей кодовой базе не меньше. И ещё думать как добавить туда фичу. А эта нейронка видимо воспринимает код как свою вторую натуру, она видит стену текста и сразу понимает кучу связей в ней, за счёт чего может выплёвывать куски кода очень быстро и легко.

И это меня и поражает. Сейчас каждый способен немного изменить почти любой open-source софт под себя просто используя этого агента. И это только в 2025, я не могу представить что будет через 5-10 лет...

Если кому интересно, то вот список коммитов что сделал codex: https://github.com/optozorax/audacity/commits/audacity3/
👍64🔥1914🥰2👏1😁1🤡1🆒1💊1
This media is not supported in your browser
VIEW IN TELEGRAM
А вот так выглядит четырёхмерная фигура под названием 120-cell.

Это аналог нашего трёхмерного додекаэдра, который состоит из пятиугольников. Только эта фигура состоит из 120 додекаэдров.
3🔥10113👍7🥰5🤯5😱4🆒3💘2
dev optozorax
Вышла новая версия Gemini, которая умеет генерить картинки прямо в виде токенов, нативно (ну то есть одна модель понимает картинку и генерит картинку, а не как у OpenAI, когда ChatGPT пишет промт для Dalle) (инфа). Ну и я попросил её сгенерировать что будет…
Тестирую на новой Nano Banana Pro, которая вышла буквально вчера. Это самая мощная модель для генерации картинок в мире. Подаю всё точно так же. И она пока тоже не справляется. Вот 5 разных генераций.
❤‍🔥51👍7🔥7🥰21🆒1💘1
А вот в чём Nano Banana Pro невероятно хороша, так это в генерации картинок с большим количеством деталей. Например, я попросил её визуализировать коротенькую статью про мою шкалу оценки: 5-бальная шкала оценки неверна. Прочитайте, если не видели.

Просто вставил статью в промт и сказал сделать инфографику по ней. Вот результат, 6 разных картинок. Последнюю генерил с другим промтом, чтобы выглядело красивищно просто.

Какая картинка по вашему самая лучшая?
🔥93😍76🤯2👎1🥰1🆒1
Видео на этой неделе
5🔥151🫡22❤‍🔥8🎉6👀3🦄322🤯2🗿2🥰1
Порталы нарушают закон сохранения энергии? Нет! Для этого нужно всего-лишь телепортировать гравитацию через них. Как это сделать? И причём тут Метод Конечных Элементов? Смотрите в моём новом видео 🟠🔵.

Это самое лучшее что я когда-либо делал в жизни: 40 минут видео, 5 месяцев работы, 230 часов программирования.

https://youtu.be/qFYeJXKYj_E
28206🔥90🤯21👍11❤‍🔥6🤩5😨5🥰3👾2👏1👀1
Сорри что пишу такую новость после видео и после того как много людей присоединилась, но жизнь есть жизнь. Обычные посты скоро будут.

Я давно общался и даже немного работал с Федей над макроквадом (его игровой движок для Rust), и текущий Portal Explorer работает как раз на его макрокваде.

Страшная ситуация конечно, я поддержал, если кто хочет, может тоже поддержать.

https://xn--r1a.website/dereference_pointer_there/10531
🙏75😢2217🫡9👍6🤯2👎1🥰1