dev optozorax

Оказывается в Sora 2 можно загонять очень длинные тексты 🤔. И я взял все сценарии всех моих видео (на разных языках) и решил посмотреть что получится. Местами выглядит довольно неплохо. Причём прикольно что оно берёт элементы не только из начала сценария, но из середины и конца. А как вам?

И это всё генерит слабенькая модель для юзеров. Интересно, что будет если дать мои сценарии самой мощной модели, которой пользуются сами OpenAI 🤔

❤55🔥21👍9🥴6💩5👎4🤪4🆒3🥰1😁1🤨1

5.55K views15:11

dev optozorax

Зацените как я себе улучшил монтажную жизнь. Теперь у меня текст фраз пишется прямо в программе для монтажа!!! Я вот только только пару часов монтажу с этой фичей, но уже понимаю что она увеличила удобство монтажа в 100 раз.

Сделал я это следующим образом: беру аудио и собираю его транскрипцию через whisper (скрипт написал через ChatGPT) и сохраняю в json файлик. Затем в Davinci Resolve вызываю другой скрипт (тоже написанный через ChatGPT), который берёт этот json и меняет название у фраз на то, какой текст под ними находится.

Да, я описал это очень просто, но под этим описанием столько подводных камней лежит, вы не представляете. Whisper невероятно криво работает, и я наверное натолкнулся на все возможные грабли:
* Не смог установить нужные cuda дрова, послал всех в жопу, запускаю на процессоре.
* Неправильно вычисляет тайминги слова, захватывает паузу до следующей фразы (никак не чинится).
* Автоматически удаляет неудачные дубли из текста, а они мне нужны чтобы удалить их в виде аудио. Не чинится вообще никак, даже другие модели такой фигнёй занимаются.
* Галлюцинирует в конце фразы "подписывайтесь и ставьте лайки", или "субтитры добавил DimaTorzok".

Кстати, это не всё что я улучшил в своей работе с аудио.

Раньше я вырезал вот эти мелкие фразы РУКАМИ. И тратил на это часы и миллионы нервных клеток. Теперь же я нашёл софтину под названием ReCut, которая делает это автоматически и сохраняет в виде таймлайна.

Затем я использую скрипт на python (опять же написанный ChatGPT), который вставляет вот эти бежевые паузы между каждой фразой, чтобы не подбирать паузы на глаз.

И кстати раскраска вот этих пауз тоже делается через отдельный скрипт в Davinci Resolve. Не спрашивайте кто этот скрипт написал.

В общем если раньше обработка аудио была страшным страданием, то теперь большую часть этого страдания я автоматизировал, чему безмерно рад.

А ещё безмерно рад существованию нейронок, потому что без них я бы все эти говноскрипты на говнопитоне с говноапишкой никогда бы не стал своими руками писать. Я послал ChatGPT гуглить подробности апишки Davinci Resolve, когда что-то не работает и все страдания перекладываются на неё.

Когда разберусь с новым видео, хочу создать второй канал и выложить видео об этой моей системе обработки аудио, чтобы каждый мог пользоваться.

🔥97❤29👍19🤡3🆒3🥰2🤮1

5.24K views17:05

dev optozorax

Я попробовал программирующего агента Codex от OpenAI и он впечатляет.

У меня в дискорде очень много просили добавить новую фичу в Portal Explorer - чтобы можно было дублировать объект/матрицу итд.

К сожалению это нетривиальная фича, потому что каждый объект может ссылаться на матрицу не только по имени, но и иметь свою встроенную матрицу без имени. И проблема в том что эта встроенная матрица хранится во внешнем хранилище матриц, и при простом дублировании объекта он и его копия будут ссылаться на одну матрицу по её айдишнику, и в интерфейсе это будет выглядеть как одна матрица меняется из двух мест. А хочется чтобы было две независимые матрицы. То есть нужно делать рекурсивное копирование, и каждый раз обращаться к правильному хранилищу, ибо есть не только матрицы такие...

И сделать это геморройно, потому что у меня не самая удобная архитектура, и вообще там довольно кривоватый код (я тогда его изобретал впервые, и не знал как лучше), тестов конечно же нет, ибо всё визуальное.

Я открещивался от этой фичи, говорил что очень очень геморройно, не хочу её делать.

Но сегодня я установил Codex CLI - это официальная программа от OpenAI, которая под капотом вызывает GPT-5 особым образом, чтобы та могла модифицировать код в твоём репозитории на твоём компе, запускать, проверять компиляцию тесты итд, то есть итеративно работать. И далее попросил его сделать эту фичу. Совсем немного описал проблематику.

Спустя 4 минуты он прочитал весь необходимый код и составил план. Я особо не вчитывался и говорю: ну действуй, я не знаю.

Спустя другие 4 минуты он реализовал этот код. Я прихожу, запускаю, проверяю фичу и оно работает с первого раза...

Честно, я офигел что этот Codex смог разобраться в моей кривой архитектуре, без тестов, без документации. И реализовал нетривиальную фичу которая работает с первого раза...

Кто хочет посмотреть на код и промт, добро пожаловать сюда: https://github.com/optozorax/portal/commit/69fbbfb926b446040ef48af8f08742ce091a8a81

Мы реально в будущем, друзья.

❤81🔥21👍9🤯9😭5💔2❤‍🔥1🥰1🆒1

4.9K viewsedited 02:51

dev optozorax

Ещё более впечатляющие способности Codex.

В последнее время я стал его очень активно использовать в своей новой программе (/818) для кодинга относительно простых или сложных фич. Меня каждый раз поражает как он способен с нуля разбираться в моей кодовой базе (хоть в этот раз она намного лучше Portal Explorer).

Поэтому я решил натравить его на чужую кодовую базу. В Audacity есть одна фича, которая очень бесит: когда двигаешь мышкой с зажатой левой клавишей по таймлайну, то начинает строиться какая-то петля, и она проигрывается. Очень бесит, потому что в программах для монтажа точно такое же действие просто проигрывает аудио со скоростью движения мыши. И причём в audacity выключить текущее поведение нельзя, петля всегда будет создаваться. А я хочу чтобы менялась голова текущего положения на таймлайне (про проигрывание молчу, видимо это слишком сложно сделать).

Так как у Audacity открытый исходный код, я решил попробовать изменить это поведение. Создаю пустую папку и говорю codex'у склонировать этот репозиторий, затем заставить его компилироваться, и затем сделать эту фичу. Описал фичу только высокоуровнево, я даже не смотрел на этот код.

Он долго пыхтел, но кое-как заставил это компилироваться (что уже бесконечно полезно для любого человека, кто контрибьютит в опен-сорс, не надо тратить на это целый день), а затем сделал фичу, изменив один файлик.

Я просто пушу коммит в github, и там запускается автоматическая сборка бинаря для винды через CI (а codex у меня живёт под WSL). Я жду её, скачиваю, и вижу что в целом фича работает как нужно, но петля всё ещё создаётся. Я предложил кодексу вообще нафиг удалить её, так как мне она не нужна.

Он сделал, и на вторую итерацию я имею бинарь audacity, который имеет нужный мне функционал. И я даже ни разу не смотрел на код, только высокоуровнево описывал что нужно сделать.

Лично у меня просто на компиляцию ушёл бы может день или несколько часов, а затем на то чтобы разобраться в чужой огромнейшей кодовой базе не меньше. И ещё думать как добавить туда фичу. А эта нейронка видимо воспринимает код как свою вторую натуру, она видит стену текста и сразу понимает кучу связей в ней, за счёт чего может выплёвывать куски кода очень быстро и легко.

И это меня и поражает. Сейчас каждый способен немного изменить почти любой open-source софт под себя просто используя этого агента. И это только в 2025, я не могу представить что будет через 5-10 лет...

Если кому интересно, то вот список коммитов что сделал codex: https://github.com/optozorax/audacity/commits/audacity3/

👍64🔥19❤14🥰2👏1😁1🤡1🆒1💊1

4.13K viewsedited 23:51

dev optozorax

This media is not supported in your browser

VIEW IN TELEGRAM

А вот так выглядит четырёхмерная фигура под названием 120-cell.

Это аналог нашего трёхмерного додекаэдра, который состоит из пятиугольников. Только эта фигура состоит из 120 додекаэдров.

3🔥101❤13👍7🥰5🤯5😱4🆒3💘2

4.66K views14:24

dev optozorax

Вышла новая версия Gemini, которая умеет генерить картинки прямо в виде токенов, нативно (ну то есть одна модель понимает картинку и генерит картинку, а не как у OpenAI, когда ChatGPT пишет промт для Dalle) (инфа). Ну и я попросил её сгенерировать что будет…

Тестирую на новой Nano Banana Pro, которая вышла буквально вчера. Это самая мощная модель для генерации картинок в мире. Подаю всё точно так же. И она пока тоже не справляется. Вот 5 разных генераций.

❤‍🔥51👍7🔥7🥰2✍1🆒1💘1

4.55K viewsedited 23:30

dev optozorax

А вот в чём Nano Banana Pro невероятно хороша, так это в генерации картинок с большим количеством деталей. Например, я попросил её визуализировать коротенькую статью про мою шкалу оценки: 5-бальная шкала оценки неверна. Прочитайте, если не видели.

Просто вставил статью в промт и сказал сделать инфографику по ней. Вот результат, 6 разных картинок. Последнюю генерил с другим промтом, чтобы выглядело красивищно просто.

Какая картинка по вашему самая лучшая?

🔥93😍7❤6🤯2👎1🥰1🆒1

6.91K views23:41

dev optozorax

Видео на этой неделе

5🔥151🫡22❤‍🔥8🎉6👀3🦄3✍2⚡2🤯2🗿2🥰1

4.85K views10:29

dev optozorax

Порталы нарушают закон сохранения энергии? Нет! Для этого нужно всего-лишь телепортировать гравитацию через них. Как это сделать? И причём тут Метод Конечных Элементов? Смотрите в моём новом видео 🟠🔵.

Это самое лучшее что я когда-либо делал в жизни: 40 минут видео, 5 месяцев работы, 230 часов программирования.

https://youtu.be/qFYeJXKYj_E

YouTube

Порталы не создают вечный двигатель, если телепортировать гравитацию

Порталы нарушают закон сохранения энергии? На самом деле нет. Просто нужно разрешить гравитации телепортироваться через порталы. Как только мы это сделаем, порталы начинают сохранять энергию и приобретают физический смысл. Но как это сделать? Как это меняет…

28❤206🔥90🤯21👍11❤‍🔥6🤩5😨5🥰3👾2👏1👀1

7.24K views18:49

dev optozorax

Сорри что пишу такую новость после видео и после того как много людей присоединилась, но жизнь есть жизнь. Обычные посты скоро будут.

Я давно общался и даже немного работал с Федей над макроквадом (его игровой движок для Rust), и текущий Portal Explorer работает как раз на его макрокваде.

Страшная ситуация конечно, я поддержал, если кто хочет, может тоже поддержать.

https://xn--r1a.website/dereference_pointer_there/10531

Блог*

Народ, Фёдор Логачев — известная личность в Rust gamedev комьюнити, автор macroquad — упал во время параглайдинга на камни и серьёзно пострадал. Сейчас, насколько я понимаю, нет угрозы его жизни, но ему пришлось перенести несколько крайне дорогостоящих операций.…

🙏75😢22❤17🫡9👍6🤯2👎1🥰1

4.36K views18:08

About

Blog

Apps

Platform