Ну, за промпт-инженеров.
Помните шквал инфоцыганских курсов по промпт-инжинирингу? Типа "мы научим вас вязать лыко", то есть формулировать мысли словами из головы, точнее пальцами по клавиатуре. Особенно мне приглянулся курс "Как создавать курсы по chatGPT с помощью chatGPT".
Первыми были генераторы картинок. Помните все эти скобочки, веса, междометия типа OctaneRender или "best of artstation". А еще были первые UI-попытки сделать тучу кнопочек с этим самыми междометиями, стилями, разрешениями, конструкторы шаманских промптов.
Потом пришел Fooocus, там перед финальным промптом стоял GPT-2 и превращал краткий промпт в кучерявый. То есть llm-ка улучшала промпт. Потом DALL·E 3 показал всем, кто в доме хозяин в части понимания промпта. А там уже подтянулись и остальные. Грубо говоря, ИИ стал писать (дописывать, расписывать) промпты за вас. Сейчас это уже стандарт. Промпт-инжиниринг для картинок превратился в здравый смысл и знание письменности.
Вторыми пришли LLM. Помните все эти Убабуги, ну и первое пришествие chatGPT. Тут на нас обрушились курсы "chatGPT для бизнеса" и перепродажа идей "chain of thoghts" и "role assignment" на все лады. Задорого.
Да, для LLM пришлось писать портянки текста, все это запаковывалось списки промптов на разные случаи жизни (платные и бесплатные), системные промпты, в общем стало понятно, что туда, где надо много шевелить ручками, придет автоматизация, то есть ИИ.
И да, теперь взрослые мальчики пишут промпты для LLM с помощью .. да, LLM. Как для картинок. Вы пишете замысел, LLM его превращает в жирный и умный промпт и кормит его на вход другой LLM (может и самой себе).
Это подводка к новости про Антропик, но я еще чуть кивну в сторону ИИ-музыки. Она пришла на поляну третьей. У (например) меня в коментах полно вопросов, а как сделать так чтобы Suno ...? Ну то есть как написать промпт. Думаю, что частично LLM подтянутся и в музыку, но я вижу там идеальный интерфейс, как дорожки, над которым идет текст, и над которым идет "инпайтинг"-трек и промпт-трек. Которые можно редактировать. В общем монтажка с дорожками эффектов.
А теперь новость.
Антропик на базе своего Клода сделал универсальный промпт-генератор для .. всего.
Теперь вы можете генерировать production-ready prompts в консоли Anthropic Console.
Вы просто пишете, чего вы хотите добиться, и Клод воспользуется всеми этим техниками промпт-инжиниринга, типа та самая цепочка мыслей, чтобы создать более эффективные, точные и надежные подсказки. И сделает это лучше кожаных.
Тут я бы налил за промпт-инженеров и передал слово Денису. Почитайте следующий пост о том, как взрослые мальчики теперь пишут промпты.
Помните шквал инфоцыганских курсов по промпт-инжинирингу? Типа "мы научим вас вязать лыко", то есть формулировать мысли словами из головы, точнее пальцами по клавиатуре. Особенно мне приглянулся курс "Как создавать курсы по chatGPT с помощью chatGPT".
Первыми были генераторы картинок. Помните все эти скобочки, веса, междометия типа OctaneRender или "best of artstation". А еще были первые UI-попытки сделать тучу кнопочек с этим самыми междометиями, стилями, разрешениями, конструкторы шаманских промптов.
Потом пришел Fooocus, там перед финальным промптом стоял GPT-2 и превращал краткий промпт в кучерявый. То есть llm-ка улучшала промпт. Потом DALL·E 3 показал всем, кто в доме хозяин в части понимания промпта. А там уже подтянулись и остальные. Грубо говоря, ИИ стал писать (дописывать, расписывать) промпты за вас. Сейчас это уже стандарт. Промпт-инжиниринг для картинок превратился в здравый смысл и знание письменности.
Вторыми пришли LLM. Помните все эти Убабуги, ну и первое пришествие chatGPT. Тут на нас обрушились курсы "chatGPT для бизнеса" и перепродажа идей "chain of thoghts" и "role assignment" на все лады. Задорого.
Да, для LLM пришлось писать портянки текста, все это запаковывалось списки промптов на разные случаи жизни (платные и бесплатные), системные промпты, в общем стало понятно, что туда, где надо много шевелить ручками, придет автоматизация, то есть ИИ.
И да, теперь взрослые мальчики пишут промпты для LLM с помощью .. да, LLM. Как для картинок. Вы пишете замысел, LLM его превращает в жирный и умный промпт и кормит его на вход другой LLM (может и самой себе).
Это подводка к новости про Антропик, но я еще чуть кивну в сторону ИИ-музыки. Она пришла на поляну третьей. У (например) меня в коментах полно вопросов, а как сделать так чтобы Suno ...? Ну то есть как написать промпт. Думаю, что частично LLM подтянутся и в музыку, но я вижу там идеальный интерфейс, как дорожки, над которым идет текст, и над которым идет "инпайтинг"-трек и промпт-трек. Которые можно редактировать. В общем монтажка с дорожками эффектов.
А теперь новость.
Антропик на базе своего Клода сделал универсальный промпт-генератор для .. всего.
Теперь вы можете генерировать production-ready prompts в консоли Anthropic Console.
Вы просто пишете, чего вы хотите добиться, и Клод воспользуется всеми этим техниками промпт-инжиниринга, типа та самая цепочка мыслей, чтобы создать более эффективные, точные и надежные подсказки. И сделает это лучше кожаных.
Тут я бы налил за промпт-инженеров и передал слово Денису. Почитайте следующий пост о том, как взрослые мальчики теперь пишут промпты.
🔥35👍7👎2
Forwarded from Denis Sexy IT 🤖
В Antropic (это конкурент OpenAI и авторы модели Claude 3 Opus) на днях запустили свой промпт генератор (доступен тут) и там какой-то дикий по объему инструкций промпт, я его вставил сюда, можете почитать. Если коротко, при генерации промпта сразу подставляются переменные которые будут нужны, чтобы максимально облегчить разработчику работу, добавляются «Chain Of Thougths» приемы и тп.
Только возникшая индустрия промпт-инженеринга уже двигается к своей автоматизации и это нормально, потому что намного быстрее «промпт-инженерить» языковую модель чтобы она, на основе уже готовых, одинаковых правил, написала какой-то промпт — потому что самому вычитывать 100 раз один и тот же текст абсолютно унылое занятие, поверьте мне.
Последние месяца три, все системные промпты которые я пишу для GPT / локальных моделей, я пишу с Claude 3 Opus или GPT4. Это правда хорошо работает — запускаешь какую-то новую модель и хочешь протестировать ее на предмет написания рассказов во вселенной «Ведьмака» или «Властелина Колец», а самому писать эти постоянные «Ты самый лучший в мире писатель фанфиков по вселенной...» и тп и тд, очень утомляет.
Поэтому, я собрал новую GPT задача которой промпт-инженирить за вас, создавая LLM-агентов на основе ваших предпочтений. В эту GPT сразу включены какие-то хаки которые хорошо работают по моему опыту, включая «Chain Of Thougths», негативный промптинг, выделение капсом нужных частей и тп. И если вы знаете размер языковой модели (например 8B, 30B, 70B) модель адаптирует сложность промпта, так как маленькие модели в больших инструкциях путаются.
Ссылка:
Agent Prompt Generator for LLM's
Прошлая версия промпта промпт-генератора доступна тут (я ее уже постил), в GPT более новая и сложная.
P.S. Шутка агента кринжовых-анекдотов со скриншота выше:
Чтож, оно справилось
Только возникшая индустрия промпт-инженеринга уже двигается к своей автоматизации и это нормально, потому что намного быстрее «промпт-инженерить» языковую модель чтобы она, на основе уже готовых, одинаковых правил, написала какой-то промпт — потому что самому вычитывать 100 раз один и тот же текст абсолютно унылое занятие, поверьте мне.
Последние месяца три, все системные промпты которые я пишу для GPT / локальных моделей, я пишу с Claude 3 Opus или GPT4. Это правда хорошо работает — запускаешь какую-то новую модель и хочешь протестировать ее на предмет написания рассказов во вселенной «Ведьмака» или «Властелина Колец», а самому писать эти постоянные «Ты самый лучший в мире писатель фанфиков по вселенной...» и тп и тд, очень утомляет.
Поэтому, я собрал новую GPT задача которой промпт-инженирить за вас, создавая LLM-агентов на основе ваших предпочтений. В эту GPT сразу включены какие-то хаки которые хорошо работают по моему опыту, включая «Chain Of Thougths», негативный промптинг, выделение капсом нужных частей и тп. И если вы знаете размер языковой модели (например 8B, 30B, 70B) модель адаптирует сложность промпта, так как маленькие модели в больших инструкциях путаются.
Ссылка:
Agent Prompt Generator for LLM's
Прошлая версия промпта промпт-генератора доступна тут (я ее уже постил), в GPT более новая и сложная.
P.S. Шутка агента кринжовых-анекдотов со скриншота выше:
Путешественник во времени решает поехать в прошлое, чтобы предотвратить создание популярного мема «Forever Alone». Возвращается обратно и обнаруживает, что стал главным героем этого мема.
Чтож, оно справилось
🔥26👍3
This media is not supported in your browser
VIEW IN TELEGRAM
Вот это уже похоже на нормальный интерактив.
Осталось весь этот зоопарк присунуть в какой-то 3Д-пакет.
А пока на арене цирка Adobe Substance Modeler вьюпорт которого оправляется в Krea ai, Magnific потом используется для детализации, а Leonardo AI для движения в конце(но может быть любой видео генератор).
За кого накатим?
https://twitter.com/MartinNebelong/status/1789414810624418301
Осталось весь этот зоопарк присунуть в какой-то 3Д-пакет.
А пока на арене цирка Adobe Substance Modeler вьюпорт которого оправляется в Krea ai, Magnific потом используется для детализации, а Leonardo AI для движения в конце(но может быть любой видео генератор).
За кого накатим?
https://twitter.com/MartinNebelong/status/1789414810624418301
🔥26👍7👎2
Трансляция OpenAI Spring Update будет тут:
https://www.youtube.com/watch?v=DQacCB9tDaw
https://www.youtube.com/watch?v=DQacCB9tDaw
YouTube
Introducing GPT-4o
OpenAI Spring Update – streamed live on Monday, May 13, 2024.
Introducing GPT-4o, updates to ChatGPT, and more.
Introducing GPT-4o, updates to ChatGPT, and more.
🔥15👍7👎3
Трансляция началась:
Новая модель - GPT-4o!
Быстрая и мультимодальная.
Omnimodel
Новая модель - GPT-4o!
Быстрая и мультимодальная.
Omnimodel
👍28👎10🔥3
Показывают голосового ассистента - главное отличие - его можно прерывать на ходу, задержка ОЧЕНЬ маленькая. Эмоции на мой взгляд Очень преувеличенные, но они прям ЭМОЦИИ. И чувство юмора!!!
Полноценный стендап
Оно поет! Если его попросит.
Озвучка просто космос. Такое ощущение, что за сценой сидит актриса.
Полноценный стендап
Оно поет! Если его попросит.
Озвучка просто космос. Такое ощущение, что за сценой сидит актриса.
🔥46👍7👎6
И теперь это отдельное десктопное приложение, а не в браузере, как раньше. в телефоне - тоже приложение.
🔥48👎2
Оно детектит эмоции на камере и умеет переводить разные языки голосом, то есть у вас есть карманный переводчик. Надо попробовать для синхрона
🔥29👎1
На итоге: новая мультимодальная модель GPT-4o, дико быстрая, умеющая в текст и видео. Про DALL·E 3 - ничего.
Главный хит: атомный голосовой помощник в виде отдельного приложения. Которого можно прерывать на полуслове. Он может переводит в режиме полудуплекс - ПОСЛЕ того как вы завершили, он переведет это на другой язык и озвучит. И он теперь может разговаривать с камерой - то есть комментировать все, что происходит вокруг.
Обещают, через две недели. Подробнее тут:
https://xn--r1a.website/denissexy/8142
Главный хит: атомный голосовой помощник в виде отдельного приложения. Которого можно прерывать на полуслове. Он может переводит в режиме полудуплекс - ПОСЛЕ того как вы завершили, он переведет это на другой язык и озвучит. И он теперь может разговаривать с камерой - то есть комментировать все, что происходит вокруг.
Обещают, через две недели. Подробнее тут:
https://xn--r1a.website/denissexy/8142
Telegram
Denis Sexy IT 🤖
– Показали GPT4o, самую мощную новую модель: она будет доступна для платных и ДЛЯ БЕСПЛАТНЫХ пользователей ChatGPT (даже без регистрации). Модель сейчас на первом месте по тестам сравнивая с другими лучшими моделями — и в коде и в других задачах.
– GPT4o…
– GPT4o…
👍46🔥6👎1
Ну и у меня сразу вопрос: если я попрошу ея напеть мне веселую песню - у кого будут права на песню?
Если я попрошу ея напеть мне Мадонну, она сможет? Если да, могу я это выложить на свой ютюб и что скажет ютюб?
В общем с пением сразу много вопросов, тут акулы музыкальной индустрии сделают стойку. И я думаю, она очень быстро откажется петь известные песни или песни в духе кого-то известного. Как сейчас отказыввется Суно. Или DALL·E 3 отказывается слышать про известных художников.
Если я попрошу ея напеть мне Мадонну, она сможет? Если да, могу я это выложить на свой ютюб и что скажет ютюб?
В общем с пением сразу много вопросов, тут акулы музыкальной индустрии сделают стойку. И я думаю, она очень быстро откажется петь известные песни или песни в духе кого-то известного. Как сейчас отказыввется Суно. Или DALL·E 3 отказывается слышать про известных художников.
👍24
Так, для тех, кто любит почитать и вникнуть, а также узнать про саму новую модель GPT-ФО, идем вот по такой ссылке и вникаем:
https://openai.com/index/hello-gpt-4o/
https://openai.com/index/hello-gpt-4o/
Openai
Hello GPT-4o
We’re announcing GPT-4 Omni, our new flagship model which can reason across audio, vision, and text in real time.
Почему она такая быстрая в ответах и зовут ея ОМНИ:
До появления GPT-4o вы могли использовать голосовой режим для общения с ChatGPT с задержками в среднем 2,8 секунды (GPT-3.5) и 5,4 секунды (GPT-4).
GPT-4o ("o" - "omni") принимает на вход любую комбинацию текста, звука и изображения и генерирует на выходе любую комбинацию текста, звука и изображения. Он может реагировать на аудиовход всего за 232 миллисекунды, а в среднем за 320 миллисекунд, что аналогично реакции человека.
Для достижения этой цели Voice Mode представляет собой конвейер из трех отдельных моделей: одна простая модель транскрибирует аудио в текст, GPT-3.5 или GPT-4 принимает текст и выдает его, а третья простая модель преобразует текст обратно в аудио. Этот процесс означает, что основной источник интеллекта, GPT-4, теряет много информации - он не может напрямую наблюдать за тоном, несколькими говорящими или фоновыми шумами, не может выводить смех, пение или выражение эмоций.
В GPT-4o мы обучили единую новую модель для работы с текстом, зрением и аудио, то есть все входы и выходы обрабатываются одной и той же нейронной сетью. Поскольку GPT-4o - наша первая модель, объединяющая все эти модальности, мы еще только начинаем изучать возможности модели и ее ограничения.
До появления GPT-4o вы могли использовать голосовой режим для общения с ChatGPT с задержками в среднем 2,8 секунды (GPT-3.5) и 5,4 секунды (GPT-4).
GPT-4o ("o" - "omni") принимает на вход любую комбинацию текста, звука и изображения и генерирует на выходе любую комбинацию текста, звука и изображения. Он может реагировать на аудиовход всего за 232 миллисекунды, а в среднем за 320 миллисекунд, что аналогично реакции человека.
Для достижения этой цели Voice Mode представляет собой конвейер из трех отдельных моделей: одна простая модель транскрибирует аудио в текст, GPT-3.5 или GPT-4 принимает текст и выдает его, а третья простая модель преобразует текст обратно в аудио. Этот процесс означает, что основной источник интеллекта, GPT-4, теряет много информации - он не может напрямую наблюдать за тоном, несколькими говорящими или фоновыми шумами, не может выводить смех, пение или выражение эмоций.
В GPT-4o мы обучили единую новую модель для работы с текстом, зрением и аудио, то есть все входы и выходы обрабатываются одной и той же нейронной сетью. Поскольку GPT-4o - наша первая модель, объединяющая все эти модальности, мы еще только начинаем изучать возможности модели и ее ограничения.
🔥62
Media is too big
VIEW IN TELEGRAM
Держите еще 18 видео-примеров использования GPT-4o:
https://vimeo.com/openai
Почти каждый заслуживает отдельного поста. И половина из них гораздо круче, чем то, что было в презентации
https://vimeo.com/openai
Почти каждый заслуживает отдельного поста. И половина из них гораздо круче, чем то, что было в презентации
🔥38👍21👎1
Возможности GPT-4o будут внедряться итеративно
"Возможности текста и изображений(?!) GPT-4o начинают внедряться сегодня в ChatGPT. Мы делаем GPT-4o доступным на бесплатном уровне, а для пользователей Plus лимит сообщений увеличивается до 5 раз. В ближайшие недели мы выпустим новую альфа-версию голосового режима с GPT-4o в ChatGPT Plus.
Разработчики также теперь могут получить доступ к GPT-4o в API как к текстовой и визуальной модели. GPT-4o в 2 раза быстрее, вдвое дешевле и имеет в 5 раз более высокие ограничения скорости по сравнению с GPT-4 Turbo. В ближайшие недели мы планируем запустить поддержку новых аудио- и видеовозможностей GPT-4o для небольшой группы доверенных партнеров по API."
"Возможности текста и изображений(?!) GPT-4o начинают внедряться сегодня в ChatGPT. Мы делаем GPT-4o доступным на бесплатном уровне, а для пользователей Plus лимит сообщений увеличивается до 5 раз. В ближайшие недели мы выпустим новую альфа-версию голосового режима с GPT-4o в ChatGPT Plus.
Разработчики также теперь могут получить доступ к GPT-4o в API как к текстовой и визуальной модели. GPT-4o в 2 раза быстрее, вдвое дешевле и имеет в 5 раз более высокие ограничения скорости по сравнению с GPT-4 Turbo. В ближайшие недели мы планируем запустить поддержку новых аудио- и видеовозможностей GPT-4o для небольшой группы доверенных партнеров по API."
🔥54👍1👎1
Так, похоже завтра весь день будем разбираться с тем, что на НЕ показали в презентации GPT-4o.
С картинками и 3Д в особенности.
И там похоже Клондайк.
С картинками и 3Д в особенности.
И там похоже Клондайк.
👍22🔥4
This media is not supported in your browser
VIEW IN TELEGRAM
Просят ее сгенерить 6 (консистентных) ракурсов одного и того же промпта.
A sea lion sculpture. On the circular base of the sculpture, the word "OpenAI" is etched out
А потом "а теперь давай 3д модель по 6ти картинкам".
A sea lion sculpture. On the circular base of the sculpture, the word "OpenAI" is etched out
А потом "а теперь давай 3д модель по 6ти картинкам".
👍28🔥15