Показывают голосового ассистента - главное отличие - его можно прерывать на ходу, задержка ОЧЕНЬ маленькая. Эмоции на мой взгляд Очень преувеличенные, но они прям ЭМОЦИИ. И чувство юмора!!!
Полноценный стендап
Оно поет! Если его попросит.
Озвучка просто космос. Такое ощущение, что за сценой сидит актриса.
Полноценный стендап
Оно поет! Если его попросит.
Озвучка просто космос. Такое ощущение, что за сценой сидит актриса.
🔥46👍7👎6
И теперь это отдельное десктопное приложение, а не в браузере, как раньше. в телефоне - тоже приложение.
🔥48👎2
Оно детектит эмоции на камере и умеет переводить разные языки голосом, то есть у вас есть карманный переводчик. Надо попробовать для синхрона
🔥29👎1
На итоге: новая мультимодальная модель GPT-4o, дико быстрая, умеющая в текст и видео. Про DALL·E 3 - ничего.
Главный хит: атомный голосовой помощник в виде отдельного приложения. Которого можно прерывать на полуслове. Он может переводит в режиме полудуплекс - ПОСЛЕ того как вы завершили, он переведет это на другой язык и озвучит. И он теперь может разговаривать с камерой - то есть комментировать все, что происходит вокруг.
Обещают, через две недели. Подробнее тут:
https://xn--r1a.website/denissexy/8142
Главный хит: атомный голосовой помощник в виде отдельного приложения. Которого можно прерывать на полуслове. Он может переводит в режиме полудуплекс - ПОСЛЕ того как вы завершили, он переведет это на другой язык и озвучит. И он теперь может разговаривать с камерой - то есть комментировать все, что происходит вокруг.
Обещают, через две недели. Подробнее тут:
https://xn--r1a.website/denissexy/8142
Telegram
Denis Sexy IT 🤖
– Показали GPT4o, самую мощную новую модель: она будет доступна для платных и ДЛЯ БЕСПЛАТНЫХ пользователей ChatGPT (даже без регистрации). Модель сейчас на первом месте по тестам сравнивая с другими лучшими моделями — и в коде и в других задачах.
– GPT4o…
– GPT4o…
👍46🔥6👎1
Ну и у меня сразу вопрос: если я попрошу ея напеть мне веселую песню - у кого будут права на песню?
Если я попрошу ея напеть мне Мадонну, она сможет? Если да, могу я это выложить на свой ютюб и что скажет ютюб?
В общем с пением сразу много вопросов, тут акулы музыкальной индустрии сделают стойку. И я думаю, она очень быстро откажется петь известные песни или песни в духе кого-то известного. Как сейчас отказыввется Суно. Или DALL·E 3 отказывается слышать про известных художников.
Если я попрошу ея напеть мне Мадонну, она сможет? Если да, могу я это выложить на свой ютюб и что скажет ютюб?
В общем с пением сразу много вопросов, тут акулы музыкальной индустрии сделают стойку. И я думаю, она очень быстро откажется петь известные песни или песни в духе кого-то известного. Как сейчас отказыввется Суно. Или DALL·E 3 отказывается слышать про известных художников.
👍24
Так, для тех, кто любит почитать и вникнуть, а также узнать про саму новую модель GPT-ФО, идем вот по такой ссылке и вникаем:
https://openai.com/index/hello-gpt-4o/
https://openai.com/index/hello-gpt-4o/
OpenAI
Hello GPT-4o
We’re announcing GPT-4 Omni, our new flagship model which can reason across audio, vision, and text in real time.
Почему она такая быстрая в ответах и зовут ея ОМНИ:
До появления GPT-4o вы могли использовать голосовой режим для общения с ChatGPT с задержками в среднем 2,8 секунды (GPT-3.5) и 5,4 секунды (GPT-4).
GPT-4o ("o" - "omni") принимает на вход любую комбинацию текста, звука и изображения и генерирует на выходе любую комбинацию текста, звука и изображения. Он может реагировать на аудиовход всего за 232 миллисекунды, а в среднем за 320 миллисекунд, что аналогично реакции человека.
Для достижения этой цели Voice Mode представляет собой конвейер из трех отдельных моделей: одна простая модель транскрибирует аудио в текст, GPT-3.5 или GPT-4 принимает текст и выдает его, а третья простая модель преобразует текст обратно в аудио. Этот процесс означает, что основной источник интеллекта, GPT-4, теряет много информации - он не может напрямую наблюдать за тоном, несколькими говорящими или фоновыми шумами, не может выводить смех, пение или выражение эмоций.
В GPT-4o мы обучили единую новую модель для работы с текстом, зрением и аудио, то есть все входы и выходы обрабатываются одной и той же нейронной сетью. Поскольку GPT-4o - наша первая модель, объединяющая все эти модальности, мы еще только начинаем изучать возможности модели и ее ограничения.
До появления GPT-4o вы могли использовать голосовой режим для общения с ChatGPT с задержками в среднем 2,8 секунды (GPT-3.5) и 5,4 секунды (GPT-4).
GPT-4o ("o" - "omni") принимает на вход любую комбинацию текста, звука и изображения и генерирует на выходе любую комбинацию текста, звука и изображения. Он может реагировать на аудиовход всего за 232 миллисекунды, а в среднем за 320 миллисекунд, что аналогично реакции человека.
Для достижения этой цели Voice Mode представляет собой конвейер из трех отдельных моделей: одна простая модель транскрибирует аудио в текст, GPT-3.5 или GPT-4 принимает текст и выдает его, а третья простая модель преобразует текст обратно в аудио. Этот процесс означает, что основной источник интеллекта, GPT-4, теряет много информации - он не может напрямую наблюдать за тоном, несколькими говорящими или фоновыми шумами, не может выводить смех, пение или выражение эмоций.
В GPT-4o мы обучили единую новую модель для работы с текстом, зрением и аудио, то есть все входы и выходы обрабатываются одной и той же нейронной сетью. Поскольку GPT-4o - наша первая модель, объединяющая все эти модальности, мы еще только начинаем изучать возможности модели и ее ограничения.
🔥62
Media is too big
VIEW IN TELEGRAM
Держите еще 18 видео-примеров использования GPT-4o:
https://vimeo.com/openai
Почти каждый заслуживает отдельного поста. И половина из них гораздо круче, чем то, что было в презентации
https://vimeo.com/openai
Почти каждый заслуживает отдельного поста. И половина из них гораздо круче, чем то, что было в презентации
🔥38👍21👎1
Возможности GPT-4o будут внедряться итеративно
"Возможности текста и изображений(?!) GPT-4o начинают внедряться сегодня в ChatGPT. Мы делаем GPT-4o доступным на бесплатном уровне, а для пользователей Plus лимит сообщений увеличивается до 5 раз. В ближайшие недели мы выпустим новую альфа-версию голосового режима с GPT-4o в ChatGPT Plus.
Разработчики также теперь могут получить доступ к GPT-4o в API как к текстовой и визуальной модели. GPT-4o в 2 раза быстрее, вдвое дешевле и имеет в 5 раз более высокие ограничения скорости по сравнению с GPT-4 Turbo. В ближайшие недели мы планируем запустить поддержку новых аудио- и видеовозможностей GPT-4o для небольшой группы доверенных партнеров по API."
"Возможности текста и изображений(?!) GPT-4o начинают внедряться сегодня в ChatGPT. Мы делаем GPT-4o доступным на бесплатном уровне, а для пользователей Plus лимит сообщений увеличивается до 5 раз. В ближайшие недели мы выпустим новую альфа-версию голосового режима с GPT-4o в ChatGPT Plus.
Разработчики также теперь могут получить доступ к GPT-4o в API как к текстовой и визуальной модели. GPT-4o в 2 раза быстрее, вдвое дешевле и имеет в 5 раз более высокие ограничения скорости по сравнению с GPT-4 Turbo. В ближайшие недели мы планируем запустить поддержку новых аудио- и видеовозможностей GPT-4o для небольшой группы доверенных партнеров по API."
🔥54👍1👎1
Так, похоже завтра весь день будем разбираться с тем, что на НЕ показали в презентации GPT-4o.
С картинками и 3Д в особенности.
И там похоже Клондайк.
С картинками и 3Д в особенности.
И там похоже Клондайк.
👍22🔥4
This media is not supported in your browser
VIEW IN TELEGRAM
Просят ее сгенерить 6 (консистентных) ракурсов одного и того же промпта.
A sea lion sculpture. On the circular base of the sculpture, the word "OpenAI" is etched out
А потом "а теперь давай 3д модель по 6ти картинкам".
A sea lion sculpture. On the circular base of the sculpture, the word "OpenAI" is etched out
А потом "а теперь давай 3д модель по 6ти картинкам".
👍28🔥15
Там по ходу свой ControlNet вшит прямо в мозг, поглядите на Canny и определение edges!(Одна из картинок)
Точнее там библиотека openCV под капотом.
Зд модель она мне пока не сделала, но я с телефона не очень-то и старался.
Так, ещё 5 минут и спать.
P.S.
import numpy as np import cv2 import matplotlib.pyplot as plt # Convert images to grayscale front_gray = cv2.cvtColor(np.array(front_view), cv2.COLOR_RGB2GRAY) side_gray = cv2.cvtColor(np.array(side_view), cv2.COLOR_RGB2GRAY) top_gray = cv2.cvtColor(np.array(top_view), cv2.COLOR_RGB2GRAY) back_gray = cv2.cvtColor(np.array(back_view), cv2.COLOR_RGB2GRAY) # Detect edges using Canny edge detector edges_front = cv2.Canny(front_gray, 100, 200) edges_side = cv2.Canny(side_gray, 100, 200) edges_top = cv2.Canny(top_gray, 100, 200) edges_back = cv2.Canny(back_gray
Точнее там библиотека openCV под капотом.
Зд модель она мне пока не сделала, но я с телефона не очень-то и старался.
Так, ещё 5 минут и спать.
P.S.
import numpy as np import cv2 import matplotlib.pyplot as plt # Convert images to grayscale front_gray = cv2.cvtColor(np.array(front_view), cv2.COLOR_RGB2GRAY) side_gray = cv2.cvtColor(np.array(side_view), cv2.COLOR_RGB2GRAY) top_gray = cv2.cvtColor(np.array(top_view), cv2.COLOR_RGB2GRAY) back_gray = cv2.cvtColor(np.array(back_view), cv2.COLOR_RGB2GRAY) # Detect edges using Canny edge detector edges_front = cv2.Canny(front_gray, 100, 200) edges_side = cv2.Canny(side_gray, 100, 200) edges_top = cv2.Canny(top_gray, 100, 200) edges_back = cv2.Canny(back_gray
🔥34👍5