Метаверсище и ИИще

0:15

После DevDay OpenAI бахнули Whisper Turbo: аудио в текст. Работает в 8+ раз быстрее, точность выше. Ибо WebGPU.

Берет ссылку на файл или прямо с микрофона, а экспортировать умеет в TXT и JSON.

2 минуты речи требуют 12 секунд обработки.

А теперь внимание - это опен-сорс!

GitHub тут,
демо https://huggingface.co/spaces/webml-community/whisper-large-v3-turbo-webgpu

@cgevent

👍54🔥39❤10

8.18K viewsSergey Tsyptsyn ️️, edited 13:05

Я очень, прям очень переживаю и одновременно хочу выпить за всех этих супер-героев. Не без удовольствия

Точнее за конские бюджеты на их производство.
Многие уже выросли на них и не замечают бессмысленности происходящего на экране, ибо новая насмотренность, коды и все такое. Но когда-то трава была зеленая, а кино осмысленным, но с 2009 года и чуть раньше, что-то пошло не так. Ну точнее так, с точки зрения заработка, а не осмысленности.
Еще 15 лет назад, великолепный Женя Вендровский делал пророческий доклад "Комикс рулит Голливудом"
https://cgevent.ru/archives/724
С тех пор стало только .. сильнее.
Это я к тому, что производить комиксоподобные истории с минимумом смыслов будет все проще. Их будет все больше, они будут все проще. И тут ИИ будет несложно спуститься на уровень кожаной культуры потребления и дать им то, что они хотят.

Просто исторгнув вот такой вот промпт:
"Close-up of the Hulk seated at a tiny café table, his massive hands holding delicate tweezers. In front of him is a small, elegant plate of pastel macaroons. With extreme precision, he uses the tweezers to delicately place a macaroon in his gigantic mouth, pleasure as he chews each one delicately."

Это Minmax, если что.

@cgevent

👍24🔥13😁4❤2👎1

8.54K viewsSergey Tsyptsyn ️️, 13:17

А знаете, кто скрывался под загадочным названием blueberry - модели, которая в клочья разорвала Image Arena? (я писал тут)

Это FLUX1.1 [pro]!!

Срочно читаем про Announcing FLUX1.1 [pro] and the BFL API тут:

https://blackforestlabs.ai/announcing-flux-1-1-pro-and-the-bfl-api/

Это доступ только по API.
Никаких новый Flux Dev или Schnell, кодов, весов и прочая - не анонсированно.

Я проверил, на Glif.app пока не завезли.

"FLUX1.1 [pro] генерирует в шесть раз быстрее, чем его предшественник FLUX.1 [pro], при этом улучшая качество изображения, оперативность и разнообразие. В то же время мы обновили FLUX.1 [pro], чтобы генерировать тот же результат, что и раньше, но в два раза быстрее." - тут я запуталсо.

1🔥29👍7😱7

8.02K viewsSergey Tsyptsyn ️️, edited 13:56

Forwarded from Psy Eyes

2:50

Media is too big

Небольшой тест MIDIJourney.

Suno и Udio вам при упоминании конкретных артистов и треков откажутся что-либо генерить. А вот языковым моделям (LLM) всё-равно.

Попросил Perplexity (будет работать и с другими, имхо) расписать промты на кик, бас, синты, итд. Дальше просто закидывал их в MIDIjourney внутри Ableton и генерил миди.

Не все инструменты звучат сразу годно, да и это не Prodigy как в промте, но так как мы в DAW, то тут можно детально отредактировать звук в отличие от музыкальных генераторов.

Для голоса можно дорожки экспортировать в Suno и сгенерить его поверх. Скачать вокальный стэм, и, если нужно, вправить слова через Udio.

Дальше, чтобы всё собрать гармонично всё также нужны ручки и скиллы.

Гитхаб

2👍34😁5🔥3

6.06K viewsSergey Tsyptsyn ️️, 14:27

1:10

1:30

Тут OpenAI сделал AI Notebook++. Нет, скорее Wordpad.

Подписчики мне пишут, что это типа аналог Курсора, но давайте немного разберемся.

Я тут часто поругиваю OpenAI за то, что технологии космические, а продуктовые упаковки - ну такое.
Плагины, не взлетевший магазин джипитишек, сам интерфейс chatGPT - все это похоже на "давайте быстро сделаем вебморду" и поглядим.

В общем к chatGPT прикрутили возможность редактировать его ответы примерно как в любом текстовом редакторе.
Но "редактировать" не тыкая пальчиком в букафки (хотя и это тоже), а промптами, то есть указаниями типа "перепиши кусок", "напиши что думаешь по этому поводу", "убери воду, графоман".
А обновления будут прямо в тексте!

Да, для кодинга это тоже работает и по идее для кода это здорово, когда можно работать с выделенными кусками. Но я вот не уверен, что это прям конкурент курсора - тут замысел более широкий и менее нишевый - редактирование текста беседой с автором текста (chatGPT).

В общем поглядите два видоса, все сами поймете.

P.S. У Гугла и Микрософта продуктовая экспертиза примерно в 1000 раз лучше, чем у openAI, поэтому я думаю, что интеграция в продуктах Гугла или в Офисе будет на порядок.. ловчее.
Но мы же любим chatGPT не за это..
А за красоту и за идею.

У меня еще не появилось...

@cgevent

5❤38👍14🔥8

6.77K viewsSergey Tsyptsyn ️️, 18:55

К вопросу о генерации контента. Причем хорошего контента.

Моя ранняя риторика состояла в том, что сейчас ИИ засрет весь интернет среднего и шлакового уровня контентом, а мы будем платить деньги за просеивание и доступ к нормальному контенту.

Похоже ИИ засрет интернет хорошим контентом. Основательно притом. Ибо уже умеет.

Смотрите, вот последний твит Адрея Карпатого:

За последние ~2 часа я подготовил новый подкаст из 10 эпизодов под названием "Histories of Mysteries".
Найти его на Spotify можно здесь

10 эпизодов этого сезона:
Эп 1: Затерянный город Атлантида
Эп 2: Багдадская батарея
Эп 3: Колония Roanoke
Эп 4: Антикитерский механизм
Эп 5: Манускрипт Войнича
Эп 6: Крах позднего бронзового века
Эп 7: Ого! сигнал
Эп 8: Мария Целеста
Эп 9: Гöбекли-Тепе
Эп 10: LUCA: Last Universal Common Ancestor

Процесс:
- Я исследовал крутые темы, используя ChatGPT, Claude, Google
- Я связал NotebookLM с записью в Википедии по каждой теме и сгенерировал аудио подкаста
- Я использовал NotebookLM для написания описаний подкаста/эпизодов
- Ideogram для создания всех цифровых артов для эпизодов и самого подкаста
- Spotify для загрузки и размещения подкаста

Я сделал это как исследование пространства возможностей, открываемых генеративным ИИ, и механизмов, доступных при использовании ИИ. Тот факт, что я, как один человек, могу за 2 часа создать подкаст, кажется мне просто невероятным. Я также полностью понимаю и признаю потенциальную и непосредственную опасность, когда сгенерированные ИИ помои захватывают интернет. Думаю, послушайте подкаст, когда пойдете гулять/ездить в следующий раз, и поглядите, что вы думаете об этом.

А теперь просто послушайте, это не просто слушабельно, это интересно.

Ну и про засирание интернета. Как только вышел OmniGen, я облазил весь твиттор, реддит и гитхаб (код в октябре) и потом оказался по ссылкам на Youtube. Так вот, там оказалось (через пару дней после анонса) тьма подкастов про OmniGen! Я, алкая, полез слушать, и понял, что инфоцыгане, набивающие трафик, тупо берут хайповые бумаги или новости, фигачат это в подкасты и заливают ютюб таким вот добром.

Куда это все прикатится, я уже не понимаю..

https://open.spotify.com/show/3K4LRyMCP44kBbiOziwJjb

@cgevent

👍32🔥13😱7👎5❤1

6.92K viewsSergey Tsyptsyn ️️, edited 19:34

На Глифченко завезли Флюксенко 1.1 Про

Короче, на glif.app появился Flux 1.1 Pro

Причем дают 20 генераций в день и они быстрые. И в отличие от остальных платформ, тут дают порулить и сидом, и, что важно, Steps. А то на каком-нибудь Freepik или Replicate ничего нарулить нельзя.

Go Glif!

@cgevent

🔥22👍7❤4

7.16K viewsSergey Tsyptsyn ️️, 20:04

0:30

0:17

0:11

ИИ-люди, астанавитесь!

Новый апдейт Хедры:

Character-2 - новая foundation model для генерации
Вертикальные видео (Тикток ликуэ)
Нет ограничения на соотношения сторон
Ну и самое главное, приподзатащили качество наконец-то!
Мылит точно меньше.
Ну и в отличие от Хейгена Хедра умеет приподдать эмоций, даже когда в аудиотреке тишина.
Ну и 4 минуты!

В демо-ролике у них, конечно, все сладчайше, но мы-то сразу видим пост.
Поэтому вот вам пара новоиспеченных роликов прям из Хедры.
Да, качество подтянули, но видно, что сильно зависит от исходника, и, мне кажется, от освещения на исходнике.
Ну и в отличие от Хейгена на вход можно присовывать любые генерации-фантазии, а не только фото.

Пластилиновый перс на демо - огненный конечно.

И у них до фига бесплатных кредитов и они не падают!
https://www.hedra.com/

@cgevent

👍50❤9👎5😁4🔥3

8.58K viewsSergey Tsyptsyn ️️, 20:06

Утренняя разминка с визуализацией.

Сегодня на завтрак ряды Фурье божественно представленные в лаконичном виде.
И да, в пределе нужно бесконечное количество окружностей.

P.S. Чтобы приукрасить пост и сделать его менее скучным, попросил chatGPT написать промпт, иллюстрирующий природу рядов Фурье. Потом сгенерил эти картинки в DALL·E 3 и Flux 1.1

@cgevent

2👍46❤8👎2🔥1😱1

6.47K viewsSergey Tsyptsyn ️️, 09:38