Метаверсище и ИИще

На итоге: новая мультимодальная модель GPT-4o, дико быстрая, умеющая в текст и видео. Про DALL·E 3 - ничего.
Главный хит: атомный голосовой помощник в виде отдельного приложения. Которого можно прерывать на полуслове. Он может переводит в режиме полудуплекс - ПОСЛЕ того как вы завершили, он переведет это на другой язык и озвучит. И он теперь может разговаривать с камерой - то есть комментировать все, что происходит вокруг.
Обещают, через две недели. Подробнее тут:
https://xn--r1a.website/denissexy/8142

Denis Sexy IT 🤖

– Показали GPT4o, самую мощную новую модель: она будет доступна для платных и ДЛЯ БЕСПЛАТНЫХ пользователей ChatGPT (даже без регистрации). Модель сейчас на первом месте по тестам сравнивая с другими лучшими моделями — и в коде и в других задачах.

– GPT4o…

👍46🔥6👎1

5.86K viewsSergey Tsyptsyn ️️, 17:37

Метаверсище и ИИще

Ну и у меня сразу вопрос: если я попрошу ея напеть мне веселую песню - у кого будут права на песню?
Если я попрошу ея напеть мне Мадонну, она сможет? Если да, могу я это выложить на свой ютюб и что скажет ютюб?
В общем с пением сразу много вопросов, тут акулы музыкальной индустрии сделают стойку. И я думаю, она очень быстро откажется петь известные песни или песни в духе кого-то известного. Как сейчас отказыввется Суно. Или DALL·E 3 отказывается слышать про известных художников.

👍24

5.32K viewsSergey Tsyptsyn ️️, 17:43

Метаверсище и ИИще

Так, для тех, кто любит почитать и вникнуть, а также узнать про саму новую модель GPT-ФО, идем вот по такой ссылке и вникаем:
https://openai.com/index/hello-gpt-4o/

OpenAI

Hello GPT-4o

We’re announcing GPT-4 Omni, our new flagship model which can reason across audio, vision, and text in real time.

5.2K viewsSergey Tsyptsyn ️️, 17:50

Метаверсище и ИИще

Почему она такая быстрая в ответах и зовут ея ОМНИ:

До появления GPT-4o вы могли использовать голосовой режим для общения с ChatGPT с задержками в среднем 2,8 секунды (GPT-3.5) и 5,4 секунды (GPT-4).

GPT-4o ("o" - "omni") принимает на вход любую комбинацию текста, звука и изображения и генерирует на выходе любую комбинацию текста, звука и изображения. Он может реагировать на аудиовход всего за 232 миллисекунды, а в среднем за 320 миллисекунд, что аналогично реакции человека.

Для достижения этой цели Voice Mode представляет собой конвейер из трех отдельных моделей: одна простая модель транскрибирует аудио в текст, GPT-3.5 или GPT-4 принимает текст и выдает его, а третья простая модель преобразует текст обратно в аудио. Этот процесс означает, что основной источник интеллекта, GPT-4, теряет много информации - он не может напрямую наблюдать за тоном, несколькими говорящими или фоновыми шумами, не может выводить смех, пение или выражение эмоций.

В GPT-4o мы обучили единую новую модель для работы с текстом, зрением и аудио, то есть все входы и выходы обрабатываются одной и той же нейронной сетью. Поскольку GPT-4o - наша первая модель, объединяющая все эти модальности, мы еще только начинаем изучать возможности модели и ее ограничения.

🔥62

6.02K viewsSergey Tsyptsyn ️️, 17:56

Держите еще 18 видео-примеров использования GPT-4o:
https://vimeo.com/openai

Почти каждый заслуживает отдельного поста. И половина из них гораздо круче, чем то, что было в презентации

🔥38👍21👎1

6.87K viewsSergey Tsyptsyn ️️, edited 18:04

Метаверсище и ИИще

Возможности GPT-4o будут внедряться итеративно

"Возможности текста и изображений(?!) GPT-4o начинают внедряться сегодня в ChatGPT. Мы делаем GPT-4o доступным на бесплатном уровне, а для пользователей Plus лимит сообщений увеличивается до 5 раз. В ближайшие недели мы выпустим новую альфа-версию голосового режима с GPT-4o в ChatGPT Plus.

Разработчики также теперь могут получить доступ к GPT-4o в API как к текстовой и визуальной модели. GPT-4o в 2 раза быстрее, вдвое дешевле и имеет в 5 раз более высокие ограничения скорости по сравнению с GPT-4 Turbo. В ближайшие недели мы планируем запустить поддержку новых аудио- и видеовозможностей GPT-4o для небольшой группы доверенных партнеров по API."

🔥54👍1👎1

5.7K viewsSergey Tsyptsyn ️️, 18:10

Метаверсище и ИИще

Так, похоже завтра весь день будем разбираться с тем, что на НЕ показали в презентации GPT-4o.

С картинками и 3Д в особенности.
И там похоже Клондайк.

👍22🔥4

5.56K viewsSergey Tsyptsyn ️️, 20:10

Метаверсище и ИИще

This media is not supported in your browser

VIEW IN TELEGRAM

Просят ее сгенерить 6 (консистентных) ракурсов одного и того же промпта.

A sea lion sculpture. On the circular base of the sculpture, the word "OpenAI" is etched out

А потом "а теперь давай 3д модель по 6ти картинкам".

👍28🔥15

5.62K viewsSergey Tsyptsyn ️️, edited 20:10

Метаверсище и ИИще

This media is not supported in your browser

VIEW IN TELEGRAM

👍14🔥10

5.39K viewsSergey Tsyptsyn ️️, 20:11

Метаверсище и ИИще

Дай, думаю, лягу спать пораньше. И тут хрясь!, и мне выдают доступ.
Ишотеперьделать?

👍47🔥23

5.48K viewsSergey Tsyptsyn ️️, 20:22

Метаверсище и ИИще

Там по ходу свой ControlNet вшит прямо в мозг, поглядите на Canny и определение edges!(Одна из картинок)

Точнее там библиотека openCV под капотом.

Зд модель она мне пока не сделала, но я с телефона не очень-то и старался.
Так, ещё 5 минут и спать.

P.S.

import numpy as np import cv2 import matplotlib.pyplot as plt # Convert images to grayscale front_gray = cv2.cvtColor(np.array(front_view), cv2.COLOR_RGB2GRAY) side_gray = cv2.cvtColor(np.array(side_view), cv2.COLOR_RGB2GRAY) top_gray = cv2.cvtColor(np.array(top_view), cv2.COLOR_RGB2GRAY) back_gray = cv2.cvtColor(np.array(back_view), cv2.COLOR_RGB2GRAY) # Detect edges using Canny edge detector edges_front = cv2.Canny(front_gray, 100, 200) edges_side = cv2.Canny(side_gray, 100, 200) edges_top = cv2.Canny(top_gray, 100, 200) edges_back = cv2.Canny(back_gray

🔥34👍5

5.97K viewsSergey Tsyptsyn ️️, 20:39

About

Blog

Apps

Platform