Метаверсище и ИИще
47K subscribers
5.97K photos
4.41K videos
45 files
6.86K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
Ну, за промпт-инженеров.
Помните шквал инфоцыганских курсов по промпт-инжинирингу? Типа "мы научим вас вязать лыко", то есть формулировать мысли словами из головы, точнее пальцами по клавиатуре. Особенно мне приглянулся курс "Как создавать курсы по chatGPT с помощью chatGPT".

Первыми были генераторы картинок. Помните все эти скобочки, веса, междометия типа OctaneRender или "best of artstation". А еще были первые UI-попытки сделать тучу кнопочек с этим самыми междометиями, стилями, разрешениями, конструкторы шаманских промптов.

Потом пришел Fooocus, там перед финальным промптом стоял GPT-2 и превращал краткий промпт в кучерявый. То есть llm-ка улучшала промпт. Потом DALL·E 3 показал всем, кто в доме хозяин в части понимания промпта. А там уже подтянулись и остальные. Грубо говоря, ИИ стал писать (дописывать, расписывать) промпты за вас. Сейчас это уже стандарт. Промпт-инжиниринг для картинок превратился в здравый смысл и знание письменности.

Вторыми пришли LLM. Помните все эти Убабуги, ну и первое пришествие chatGPT. Тут на нас обрушились курсы "chatGPT для бизнеса" и перепродажа идей "chain of thoghts" и "role assignment" на все лады. Задорого.
Да, для LLM пришлось писать портянки текста, все это запаковывалось списки промптов на разные случаи жизни (платные и бесплатные), системные промпты, в общем стало понятно, что туда, где надо много шевелить ручками, придет автоматизация, то есть ИИ.
И да, теперь взрослые мальчики пишут промпты для LLM с помощью .. да, LLM. Как для картинок. Вы пишете замысел, LLM его превращает в жирный и умный промпт и кормит его на вход другой LLM (может и самой себе).

Это подводка к новости про Антропик, но я еще чуть кивну в сторону ИИ-музыки. Она пришла на поляну третьей. У (например) меня в коментах полно вопросов, а как сделать так чтобы Suno ...? Ну то есть как написать промпт. Думаю, что частично LLM подтянутся и в музыку, но я вижу там идеальный интерфейс, как дорожки, над которым идет текст, и над которым идет "инпайтинг"-трек и промпт-трек. Которые можно редактировать. В общем монтажка с дорожками эффектов.

А теперь новость.
Антропик на базе своего Клода сделал универсальный промпт-генератор для .. всего.
Теперь вы можете генерировать production-ready prompts в консоли Anthropic Console.

Вы просто пишете, чего вы хотите добиться, и Клод воспользуется всеми этим техниками промпт-инжиниринга, типа та самая цепочка мыслей, чтобы создать более эффективные, точные и надежные подсказки. И сделает это лучше кожаных.

Тут я бы налил за промпт-инженеров и передал слово Денису. Почитайте следующий пост о том, как взрослые мальчики теперь пишут промпты.
🔥35👍7👎2
Forwarded from Denis Sexy IT 🤖
В Antropic (это конкурент OpenAI и авторы модели Claude 3 Opus) на днях запустили свой промпт генератор (доступен тут) и там какой-то дикий по объему инструкций промпт, я его вставил сюда, можете почитать. Если коротко, при генерации промпта сразу подставляются переменные которые будут нужны, чтобы максимально облегчить разработчику работу, добавляются «Chain Of Thougths» приемы и тп.

Только возникшая индустрия промпт-инженеринга уже двигается к своей автоматизации и это нормально, потому что намного быстрее «промпт-инженерить» языковую модель чтобы она, на основе уже готовых, одинаковых правил, написала какой-то промпт — потому что самому вычитывать 100 раз один и тот же текст абсолютно унылое занятие, поверьте мне.

Последние месяца три, все системные промпты которые я пишу для GPT / локальных моделей, я пишу с Claude 3 Opus или GPT4. Это правда хорошо работает — запускаешь какую-то новую модель и хочешь протестировать ее на предмет написания рассказов во вселенной «Ведьмака» или «Властелина Колец», а самому писать эти постоянные «Ты самый лучший в мире писатель фанфиков по вселенной...» и тп и тд, очень утомляет.

Поэтому, я собрал новую GPT задача которой промпт-инженирить за вас, создавая LLM-агентов на основе ваших предпочтений. В эту GPT сразу включены какие-то хаки которые хорошо работают по моему опыту, включая «Chain Of Thougths», негативный промптинг, выделение капсом нужных частей и тп. И если вы знаете размер языковой модели (например 8B, 30B, 70B) модель адаптирует сложность промпта, так как маленькие модели в больших инструкциях путаются.

Ссылка:
Agent Prompt Generator for LLM's

Прошлая версия промпта промпт-генератора доступна тут (я ее уже постил), в GPT более новая и сложная.

P.S. Шутка агента кринжовых-анекдотов со скриншота выше:
Путешественник во времени решает поехать в прошлое, чтобы предотвратить создание популярного мема «Forever Alone». Возвращается обратно и обнаруживает, что стал главным героем этого мема.


Чтож, оно справилось
🔥26👍3
This media is not supported in your browser
VIEW IN TELEGRAM
Вот это уже похоже на нормальный интерактив.

Осталось весь этот зоопарк присунуть в какой-то 3Д-пакет.
А пока на арене цирка Adobe Substance Modeler вьюпорт которого оправляется в Krea ai, Magnific потом используется для детализации, а Leonardo AI для движения в конце(но может быть любой видео генератор).
За кого накатим?
https://twitter.com/MartinNebelong/status/1789414810624418301
🔥26👍7👎2
Трансляция началась:
Новая модель - GPT-4o!
Быстрая и мультимодальная.
Omnimodel
👍28👎10🔥3
Быстрее, дешевле
👍23👎11🔥5
Показывают голосового ассистента - главное отличие - его можно прерывать на ходу, задержка ОЧЕНЬ маленькая. Эмоции на мой взгляд Очень преувеличенные, но они прям ЭМОЦИИ. И чувство юмора!!!
Полноценный стендап

Оно поет! Если его попросит.

Озвучка просто космос. Такое ощущение, что за сценой сидит актриса.
🔥46👍7👎6
Выглядит как Сири величиной с Юпитер
🔥51👍6👎2
И теперь это отдельное десктопное приложение, а не в браузере, как раньше. в телефоне - тоже приложение.
🔥48👎2
Оно детектит эмоции на камере и умеет переводить разные языки голосом, то есть у вас есть карманный переводчик. Надо попробовать для синхрона
🔥29👎1
На итоге: новая мультимодальная модель GPT-4o, дико быстрая, умеющая в текст и видео. Про DALL·E 3 - ничего.
Главный хит: атомный голосовой помощник в виде отдельного приложения. Которого можно прерывать на полуслове. Он может переводит в режиме полудуплекс - ПОСЛЕ того как вы завершили, он переведет это на другой язык и озвучит. И он теперь может разговаривать с камерой - то есть комментировать все, что происходит вокруг.
Обещают, через две недели. Подробнее тут:
https://xn--r1a.website/denissexy/8142
👍46🔥6👎1
Ну и у меня сразу вопрос: если я попрошу ея напеть мне веселую песню - у кого будут права на песню?
Если я попрошу ея напеть мне Мадонну, она сможет? Если да, могу я это выложить на свой ютюб и что скажет ютюб?
В общем с пением сразу много вопросов, тут акулы музыкальной индустрии сделают стойку. И я думаю, она очень быстро откажется петь известные песни или песни в духе кого-то известного. Как сейчас отказыввется Суно. Или DALL·E 3 отказывается слышать про известных художников.
👍24
Так, для тех, кто любит почитать и вникнуть, а также узнать про саму новую модель GPT-ФО, идем вот по такой ссылке и вникаем:
https://openai.com/index/hello-gpt-4o/
Почему она такая быстрая в ответах и зовут ея ОМНИ:

До появления GPT-4o вы могли использовать голосовой режим для общения с ChatGPT с задержками в среднем 2,8 секунды (GPT-3.5) и 5,4 секунды (GPT-4).

GPT-4o ("o" - "omni") принимает на вход любую комбинацию текста, звука и изображения и генерирует на выходе любую комбинацию текста, звука и изображения. Он может реагировать на аудиовход всего за 232 миллисекунды, а в среднем за 320 миллисекунд, что аналогично реакции человека.

Для достижения этой цели Voice Mode представляет собой конвейер из трех отдельных моделей: одна простая модель транскрибирует аудио в текст, GPT-3.5 или GPT-4 принимает текст и выдает его, а третья простая модель преобразует текст обратно в аудио. Этот процесс означает, что основной источник интеллекта, GPT-4, теряет много информации - он не может напрямую наблюдать за тоном, несколькими говорящими или фоновыми шумами, не может выводить смех, пение или выражение эмоций.

В GPT-4o мы обучили единую новую модель для работы с текстом, зрением и аудио, то есть все входы и выходы обрабатываются одной и той же нейронной сетью. Поскольку GPT-4o - наша первая модель, объединяющая все эти модальности, мы еще только начинаем изучать возможности модели и ее ограничения.
🔥62
Media is too big
VIEW IN TELEGRAM
Держите еще 18 видео-примеров использования GPT-4o:
https://vimeo.com/openai

Почти каждый заслуживает отдельного поста. И половина из них гораздо круче, чем то, что было в презентации
🔥38👍21👎1
Возможности GPT-4o будут внедряться итеративно

"Возможности текста и изображений(?!) GPT-4o начинают внедряться сегодня в ChatGPT. Мы делаем GPT-4o доступным на бесплатном уровне, а для пользователей Plus лимит сообщений увеличивается до 5 раз. В ближайшие недели мы выпустим новую альфа-версию голосового режима с GPT-4o в ChatGPT Plus.

Разработчики также теперь могут получить доступ к GPT-4o в API как к текстовой и визуальной модели. GPT-4o в 2 раза быстрее, вдвое дешевле и имеет в 5 раз более высокие ограничения скорости по сравнению с GPT-4 Turbo. В ближайшие недели мы планируем запустить поддержку новых аудио- и видеовозможностей GPT-4o для небольшой группы доверенных партнеров по API."
🔥54👍1👎1
Так, похоже завтра весь день будем разбираться с тем, что на НЕ показали в презентации GPT-4o.

С картинками и 3Д в особенности.
И там похоже Клондайк.
👍22🔥4
This media is not supported in your browser
VIEW IN TELEGRAM
Просят ее сгенерить 6 (консистентных) ракурсов одного и того же промпта.

A sea lion sculpture. On the circular base of the sculpture, the word "OpenAI" is etched out


А потом "а теперь давай 3д модель по 6ти картинкам".
👍28🔥15