Метаверсище и ИИще
50.8K subscribers
6.36K photos
5.06K videos
48 files
7.37K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
На итоге: новая мультимодальная модель GPT-4o, дико быстрая, умеющая в текст и видео. Про DALL·E 3 - ничего.
Главный хит: атомный голосовой помощник в виде отдельного приложения. Которого можно прерывать на полуслове. Он может переводит в режиме полудуплекс - ПОСЛЕ того как вы завершили, он переведет это на другой язык и озвучит. И он теперь может разговаривать с камерой - то есть комментировать все, что происходит вокруг.
Обещают, через две недели. Подробнее тут:
https://xn--r1a.website/denissexy/8142
👍46🔥6👎1
Ну и у меня сразу вопрос: если я попрошу ея напеть мне веселую песню - у кого будут права на песню?
Если я попрошу ея напеть мне Мадонну, она сможет? Если да, могу я это выложить на свой ютюб и что скажет ютюб?
В общем с пением сразу много вопросов, тут акулы музыкальной индустрии сделают стойку. И я думаю, она очень быстро откажется петь известные песни или песни в духе кого-то известного. Как сейчас отказыввется Суно. Или DALL·E 3 отказывается слышать про известных художников.
👍24
Так, для тех, кто любит почитать и вникнуть, а также узнать про саму новую модель GPT-ФО, идем вот по такой ссылке и вникаем:
https://openai.com/index/hello-gpt-4o/
Почему она такая быстрая в ответах и зовут ея ОМНИ:

До появления GPT-4o вы могли использовать голосовой режим для общения с ChatGPT с задержками в среднем 2,8 секунды (GPT-3.5) и 5,4 секунды (GPT-4).

GPT-4o ("o" - "omni") принимает на вход любую комбинацию текста, звука и изображения и генерирует на выходе любую комбинацию текста, звука и изображения. Он может реагировать на аудиовход всего за 232 миллисекунды, а в среднем за 320 миллисекунд, что аналогично реакции человека.

Для достижения этой цели Voice Mode представляет собой конвейер из трех отдельных моделей: одна простая модель транскрибирует аудио в текст, GPT-3.5 или GPT-4 принимает текст и выдает его, а третья простая модель преобразует текст обратно в аудио. Этот процесс означает, что основной источник интеллекта, GPT-4, теряет много информации - он не может напрямую наблюдать за тоном, несколькими говорящими или фоновыми шумами, не может выводить смех, пение или выражение эмоций.

В GPT-4o мы обучили единую новую модель для работы с текстом, зрением и аудио, то есть все входы и выходы обрабатываются одной и той же нейронной сетью. Поскольку GPT-4o - наша первая модель, объединяющая все эти модальности, мы еще только начинаем изучать возможности модели и ее ограничения.
🔥62
Media is too big
VIEW IN TELEGRAM
Держите еще 18 видео-примеров использования GPT-4o:
https://vimeo.com/openai

Почти каждый заслуживает отдельного поста. И половина из них гораздо круче, чем то, что было в презентации
🔥38👍21👎1
Возможности GPT-4o будут внедряться итеративно

"Возможности текста и изображений(?!) GPT-4o начинают внедряться сегодня в ChatGPT. Мы делаем GPT-4o доступным на бесплатном уровне, а для пользователей Plus лимит сообщений увеличивается до 5 раз. В ближайшие недели мы выпустим новую альфа-версию голосового режима с GPT-4o в ChatGPT Plus.

Разработчики также теперь могут получить доступ к GPT-4o в API как к текстовой и визуальной модели. GPT-4o в 2 раза быстрее, вдвое дешевле и имеет в 5 раз более высокие ограничения скорости по сравнению с GPT-4 Turbo. В ближайшие недели мы планируем запустить поддержку новых аудио- и видеовозможностей GPT-4o для небольшой группы доверенных партнеров по API."
🔥54👍1👎1
Так, похоже завтра весь день будем разбираться с тем, что на НЕ показали в презентации GPT-4o.

С картинками и 3Д в особенности.
И там похоже Клондайк.
👍22🔥4
This media is not supported in your browser
VIEW IN TELEGRAM
Просят ее сгенерить 6 (консистентных) ракурсов одного и того же промпта.

A sea lion sculpture. On the circular base of the sculpture, the word "OpenAI" is etched out


А потом "а теперь давай 3д модель по 6ти картинкам".
👍28🔥15
Дай, думаю, лягу спать пораньше. И тут хрясь!, и мне выдают доступ.
Ишотеперьделать?
👍47🔥23
Там по ходу свой ControlNet вшит прямо в мозг, поглядите на Canny и определение edges!(Одна из картинок)

Точнее там библиотека openCV под капотом.

Зд модель она мне пока не сделала, но я с телефона не очень-то и старался.
Так, ещё 5 минут и спать.

P.S.

import numpy as np import cv2 import matplotlib.pyplot as plt # Convert images to grayscale front_gray = cv2.cvtColor(np.array(front_view), cv2.COLOR_RGB2GRAY) side_gray = cv2.cvtColor(np.array(side_view), cv2.COLOR_RGB2GRAY) top_gray = cv2.cvtColor(np.array(top_view), cv2.COLOR_RGB2GRAY) back_gray = cv2.cvtColor(np.array(back_view), cv2.COLOR_RGB2GRAY) # Detect edges using Canny edge detector edges_front = cv2.Canny(front_gray, 100, 200) edges_side = cv2.Canny(side_gray, 100, 200) edges_top = cv2.Canny(top_gray, 100, 200) edges_back = cv2.Canny(back_gray
🔥34👍5