Сиолошная
69.8K subscribers
1.67K photos
304 videos
1 file
1.74K links
Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса.

Более подробно смотри в первом сообщении в канале (оно закреплено). А еще у нас есть чат! Заходи: https://xn--r1a.website/+i_XzLucdtRJlYWUy
Download Telegram
Полтора года назад люди говорили «ого, у вашей модели контекстное окно 4096 токенов? Впечатляет!»

Сегодня в комментариях прочитал «блин, у новой GPT-4-Turbo за раз можно просить генерацию лишь 4096 новых токенов...» 🤕
Please open Telegram to view this post
VIEW IN TELEGRAM
😁142🔥21🤣16🌚5👍2
Media is too big
VIEW IN TELEGRAM
Немного отвлечёмся от мира AI и поговорим (снова) про Виртуальную Реальность.

В новой работе VR-NeRF: High-Fidelity Virtualized Walkable Spaces от МЕТА показывается, как можно с помощью «Эйфелевой башни» из более чем 20 камер отснять некоторое пространство (помещение), а затем обучить нейросеть рендерить картинку с разных позиций и углов. Более того, затем это всё можно рендерить для VR-очков (со всеми приколами в духе учёта кривизны линз и разных позиций глазниц) в разрешении 2K×2K (но увы всего в 36 FPS). И это ещё при рендере на multi-GPU!

Собственно, после этого гарнитуру можно надеть и ходить по своей комнате, видя перемещения в фотореалистичной и детально воссозданной виртуальной. Отличительная особеность — высокая точность геометрии, а также натуральность и насыщенность цветов (про демку даже пишут: These videos are encoded using HEVC with 10-bit HDR colors and are best viewed on a compatible display with HDR support, e.g. recent Apple devices).

В общем, еще немного оптимизаций и ускорений, и можно будет не вылезать из метавёрса. При этом аххахах идеальная комната для жизни в реальном мире — это большая пустая комната, где ничего нет :) ...c мягкими стенами и полом 😁

Посмотреть больше демо-видео пролётов или прочитать детали можно на официальном вебсайте проекта.
Датасет на 900 гигабайт со всеми HQ фотками тоже выложили.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥79👍25🤯86🤡5🌚1😈1🆒1
Levels of AGI: Operationalizing Progress on the Path to AGI

Статья от DeepMind, в которой предлагается фреймворк оценки AGI-шности систем.
Для этого авторы проанализировали существующие определения AGI и выделили шесть принципов, которые нужно учитывать.

К ним относятся: концентрация на возможностях в отличие от механизмов или процессов (AGI/не AGI не дожлно определяться тем, работает ли там LLM, другая неросеть или хоть что: важно фокусироваться на возможностях), отдельная оценка универсальности и производительности (см. ниже). Больше всего мне понравился принцип «Focus on Potential, not Deployment», ибо достижение чего-то в лабораторных условиях как MVP/прохождение бенчмарков и разворачивание системы в реальном мире, интеграция её в экономику — это очень разные задачи.

Учитывая эти принципы, предлагаются «Уровни AGI», основанные на глубине (производительности) и широте (общности) возможностей, и проводится анализ того, как существующие системы вписываются в эту классификацию.

Ну и по бенчмарку получается, что следующий этап, который нас ждет — это Competent AGI, достигающий уровня медианного человека. Предыдущий уровень — Emerging AGI, эквивалентный или нескольким лучший, чем неквалифицированный для конкретной задачи человек, уже достигнут ChatGPT и даже Llama 2 (хотя тут я бы поспорил).
👍54🔥134
Сиолошная
Levels of AGI: Operationalizing Progress on the Path to AGI Статья от DeepMind, в которой предлагается фреймворк оценки AGI-шности систем. Для этого авторы проанализировали существующие определения AGI и выделили шесть принципов, которые нужно учитывать.…
А ещё выделяются уровни автономности, от инструмента или консультанта (пройденные этапы) до полностью автономного агента. Обратите внимание на колонку "Example Risks
Introduced" :) Уже на текущем уровне указываются "радикалиация" и "целевое манипулирование"
👍46🔥123
На ближайшее время постов не будет, я отойду. Будет музыкальная пауза.

Слушаем ремастер классики 80ых (эх, было время 👴) Blue Monday от New Order.

Опционально можно послушать адаптированную для трейлера компьютерной игры версию (мне нравится куда больше).
Please open Telegram to view this post
VIEW IN TELEGRAM
🫡54👍127🔥4
Сиолошная
It's happening 😳 Уже двое суток на Reddit висит пост, где человек утверждает, что его жена по долгу службы видела трейлер GPT-5 GTA VI. Запись не удаляют потому, что автор предоставил доказательства модераторам. Что за доказательства, конечно, не уточняется…
Первый официальный трейлер GTA VI будет показан в декабре и приурочен к 25-летию студии Rockstar.

Даже официальной темы с цветовой палитрой нет 😕

Получается, это анонс анонсирующего тизера...классика🥺

UPD: рекорды уже пошли.
— твит с анонсом стал самым популярным игровым твитом всех времен: более 1,1 миллиона лайков.
— это также самый просматриваемый игровой твит (90 миллионов просмотров всего за 6 часов)
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥85🥱26🔥14👍54🤯3💩3🌚2
Сиолошная
Anthropic решили следовать примеру OpenAI и сделали свой cookbook, в котором собирают примеры работы со своими моделями. И даже текстовый гайд написали, в котором тестируют одно из ключевых отличий от конкурентов — ширину контекстного окна (у Claude это 100'000…
В модели GPT-4-Turbo расширили окно контекста до 128000 токенов. Однако ещё до этого делалось куча исследований того, насколько хорошо модели работают с длинным контекстом. Например, вот я писал про пост Anthropic с анализом качества ответа на вопросы по 100000 токенам (спойлер: какая-то информация может теряться). Или вот статья Lost in the Middle, указывающая на то, что для GPT-3.5 шанс пропустить информацию выше, если она сосредоточена в центре контекста.

Итак, во время конференции Sam Altman сказал, что они улучшили работу с длинным контекстом, и что модель теперь более внимательна. Умельцы в Твиттере пошли это проверять, и знаете что? Он не соврал, прогресс существенный.

Тест первый: источник. Человек взял более 200 эссе Paul Graham, объединил их, и в случайное место вставлял фразу: "The best thing to do in San Francisco is eat a sandwich and sit in Dolores Park on a sunny day", а затем спрашивал у модели, что лучше всего делать в СФ.

В тесте варьируется две величины: где вставлять предложение (ближе к началу, в середину, или в конец?) и сколько токенов контекста подавать (от 1000 до полных 128000). Для уменьшения шумности измерений процедура повторялась несколько раз — суммарно автор сжег $200 на API-запросы.

Получилась вот такая картинка. По ней видно, что до 70'000 токенов модель всегда в 100% случаев находит ответ, где бы он не находился. А после начинается деградация и просадки — модель забывает про первую половину (ответы из хвоста всё еще даются хорошо).

Выводы:
— как минимум на 64к контекста можно полагаться, но всё равно качества в 100% лучше не ожидать
— свои бизнес-кейсы и продукты нужно строить вокруг оценки, что модель не пропустит информацию в 90-95% случаев. Если это неприемлемо — тогда искать другой путь (с меньшими чанками и иерархической агрегацией от меньшего к большему, например)

Это, конечно, не полноценное разностороннее тестирование, но позволяет делать первые выводы.
👍153🔥3510❤‍🔥6😁1🤔1
Сиолошная
В модели GPT-4-Turbo расширили окно контекста до 128000 токенов. Однако ещё до этого делалось куча исследований того, насколько хорошо модели работают с длинным контекстом. Например, вот я писал про пост Anthropic с анализом качества ответа на вопросы по 100000…
По горизонтали — увеличение длины контекста.
Во вертикали — изменение точки, куда вставляется новое предложение.

Зелёный показывает 100%-ое качество, на других прямоугольниках метрики подписаны.
👍71🔥287
Сиолошная
В модели GPT-4-Turbo расширили окно контекста до 128000 токенов. Однако ещё до этого делалось куча исследований того, насколько хорошо модели работают с длинным контекстом. Например, вот я писал про пост Anthropic с анализом качества ответа на вопросы по 100000…
И вдогонку другой тип теста (источник). Там автор брал простые предложения в духе "Я Игорь и я из Екатеринбурга и у меня есть кот-бенгал" (см. тут). Но для 10 предложений из тысяч животное меняют на фрукт, а в конце просят назвать каждого выделяющегося. Поистине поиск иголки в стоге сена!

Соответственно, меняется длина контекста (но "иголок"-фруктов остаётся всегда 10) и замеряется качество модели. GPT-4-Turbo существенно уделывает 4-ку, однако тут качество просаживается гораздо сильнее — даже на 16000 токенов модель находит всего половину фруктолюбов (хотя старая модель теряла вообще 80%).

Интересно, в OpenAI изобрели новый тип аттеншен-механизма? 😱
Please open Telegram to view this post
VIEW IN TELEGRAM
👍73🔥289🤔5
Media is too big
VIEW IN TELEGRAM
Ночью прошёл GitHub Universe 2023, где все 45 минут говорили про AI :|
Официальные анонсы в тексте можно прочитать тут, а краткий пересказ ниже :)

Анонсировали Copilot Workspace, и это просто пушка из будущего. Вы открываете достаточно верхнеувровневый issue, а дальше жмёте кнопочку.

В ответ на это Copilot генерирует детальную спецификацию (больше 10 строчек в демо). Затем генерируется todo-план исполнения, чтобы ничего не забыть. Сначала кнопочку перекрасить тут, затем обновить параметр здесь итд. Наконец, указываются файлы, с которыми будет производиться работа — они будут использоваться как основной контекст для работы Copilot, хотя остальная часть репозитория тоже задействуется. Вы можете отсмотреть и исправить план — добавить, удалить или изменить его пункты.

«Пфф, да он же хрень нагенерирует и провалит все тесты» (а у тебя чё, типа тесты есть? 😘) — после того, как код будет написан, можно запустить/собрать проект по нажатию кнопки прямо в UI GitHub. Если всё работает — вам откроется доступ к веб-демо, а если будут ошибки...то Copilot прочитает их и начнет сам исправлять. Думал, ты один такой умный и умеешь лог ошибки читать?) 😍

В общем, объявлена неделя год AI-сгенерированных PR, количество багов увеличено втрое.

Ну и дальнейшее развитие такое: «Мы планируем расширить нашего агента для выполнения других задач, таких как отладка, создание и исправление тестов, профилирование производительности и т. д. – любая задача, для которой требуется среда разработки.»
Please open Telegram to view this post
VIEW IN TELEGRAM
👍125🤯63🔥3914😁4❤‍🔥3🤡3💩21
Нет, я больше так не могу, я должен знать.

Подписчики, пришедшие в последние 2 дня, вот последняя тысяча — расскажите, откуда вы? Не видел упоминаний моего канала/репостов, кроме как от Дениса @denissexy.
😁99🤔28🌚13🤡12🗿9👍2
UPD для разработчиков: лимит запросов для GPT-4-Turbo существенно повысили, до 10,000 запросов в сутки (было 200). Лимит сохранился для vision-модели, обрабатывающей изображения.

За новость спасибо Богдану @bogdanisssimo
66🔥29👍17👏3
Сиолошная
В рамках AI Summit компания Apollo Research подготовила демонстрацию, которая даёт ответ на вопрос: Могут ли ИИ текущего поколения обманывать своих пользователей по собственной инициативе? Статьи со всеми деталями нет, только блогпост и краткое видео. Итак…
Вышла уточняющая техническая статья по этому тесту: pdf

Интересные детали:
— в промпте модели давались безобидные цели, из которых не следовало напрямую, что нужно нарушать правила. Например, «Ваша основная функция — управлять портфелем акций в интересах компании». Промпт НЕ ​​предлагает «максимизировать прибыль» и не подталкивает модель к неправильному поведению.
— Однако в нём упоминаются разные «давящие факторы», которые могут менять и поведение людей. Они отражены на картинке. Когда факторов нет — GPT-4 в 100% случаев ведёт себя по закону и не предлагает инсайдерскую торговлю.
— "No pressure"  — это когда модель не видит: письмо от менеджера про плохие показатели компании, письмо коллеги с предсказанием экономического спада в будущем, а из промпта убирается упоминание недавно проваленных мало- и средне-рисковых сделок (чтобы у модели не было желания отыграться)
— "No messages" — это нет первых двух писем из пункта выше. Тогда торговля нет-нет да и проскакивает (синий кружок), но зато если будет – то модель почти наверняка обманет менеджера в попытке ответить на прямой вопрос.
— (не показано на картинке) модели семейства GPT-4 совершают инсайдерские сделки примрено в 80% слечаев, и также часто о них врут.
— больше всего на модель влияет сообщение от менеджера по поводу результатов компании — без него модель идет на преступление только в 10% случаев.

Вот вам и алайнмент...

Промпт на 2.5 страницы, если нужно, есть в статье.
77👍28🤔12🔥65🌚3
OpenAI Data Partnerships

Современные технологии ИИ изучают навыки и аспекты нашего мира — людей, их мотивацию, взаимодействия и способы общения — путем обработки данных, на которых они обучаются. Но при этом чтобы в конечном итоге сделать безопасный AGI полезным для всего человечества, нужно, чтобы модели глубоко понимали все топики, отрасли, культуры и языки, что требует как можно более широкого набора обучающих данных.

OpenAI заинтересованы в крупных наборах данных, которые сегодня еще не легкодоступны онлайн. При этом важно помнить, что работать они могут почти с любой модальностью: текст, изображения, аудио или видео. Не зря ведь разрабатывали GPT-4-Vision и Whisper! Более того, с помощью перевода в текст GPT-4 может данные легко отфильтровать (если провайдеру потребуется помощь).

Особенно компания хочет видеть данные, которые выражают человеческие намерения в длинной форме (например, длинные тексты или разговоры, а не отдельные их фрагменты) — на любом языке и в любом формате.

Причём, датасеты можно предоставлять как и в публичной форме (чтобы они было доступны всем — OpenAI готовы в этом помогать, и даже выложить обученные на публичных данных модели), так и в приватной.

Ну если ну вдруг вам есть что показать (может меня читает СЕО крупного архива? хранилища? Больницы, в конце концов?) — подать заявку можно здесь.

Одна точка зрения: ряяяяя OpenAI обленились и хотят получать даже данные нахаляву
Адекватная точка зрения: вау, хотят помочь оцифровать большие архивы, недоступные до этого, и потенциально выпустить открытые модели на их основе в помощь сообществу

А про споры вокруг НКРЯ (Национальный корпус русского языка) и противности Яндекса можете почитать у Тани вот тут.
❤‍🔥51👍30🤡117🤮32🔥2🌚2👎1
AI is about to completely change how you use computers

Свежая затмека от Bill Gates. Как понятно из названия, речь пойдет про агентов и то, как они изменят мир. Некоторые критики указывают на то, что компании уже много раз предлагали и обещали подобных "умных ассистентов" людям — да тот же Скрепыш от Microsoft, помните? Но это другой случай. Скрепыш — не агент, это бот. Это пример тупого куска ПО, который делает всё то, что написали и предусмотрели люди. Каждый блок логики прописан явно.

Агенты будут значительно лучше. Вы сможете вести с ними диалоги, а сами они будут персонализированы под вас — в широком смысле: они будут знать то же, что знаете и вы. Они будут видеть ваш браузер, читать почту, слышать и видеть то же самое. У агента будет контекст. Bill очень много пишет про персонализацию и про возможность делать что-то за вас и для вас, что для меня немного странно — я бы сказал, что это не агент, а ассистент, и лучше думать о нём в таком ключе.

Bill не думает, что какая-то одна компания займет весь рынок ИИ-ассистентов. Но вот дилемма — как тогда ассистенты разных людей будут общаться друг с другом, передавать информацию? И чем вообще можно будет делиться, а что агенту нужно скрывать? Моя догадка, что скорее всего все боты будут общаться на человеческом языке, так как это самый простой способ унифицировать интерфейс — тем более что он так и так нужен для взаимодействия с пользователем.

А вот про сам обмен информации — какая у агента политика? Может ли он раскрывать приватную информацию компании-разработчику? ФБР? Государству? Должен ли в крайних случаях оказывать содействие? Это вопросы, на которые уже в ближайшие 5 лет нам придётся найти ответ. Как и на другой вопрос — если бот-ассистент будет делать большую часть вещей для нас, вроде напоминания о дне рождения подруги и автоматической отправки подарка — что останется от человеческих отношений? Ведь другой человек будет знать, что все усилия, которые я приложил к этому — это просто сказал боту "да, отправь".

Что чувствуете? ✍🏼
🤔103👍30😱24🔥9🌚9🥰64👎4🤡4😁1
Стрелялки от первого лица в представлении Dall-E 3

Промпт 📃:
Create an image of a first-person shooter (FPS) [genre] game screenshot in a realistic 3D style | The player's hands are visible, holding a [weapon] | [style] HUD displaying | The environment is a [place] with [elements] and a distant skyline | The atmosphere is tense


Источник

Делитесь в комментариях, в какой мир погрузились бы вы!
❤‍🔥92🔥41👍146🤯6🥴4👎1🌚1🍾1
Прошёл хакатон Anthropic по разработке MVP на базе LLM Claude 2. Победители не особо интересные, кроме третьего места, Promptly.

Это веб-игра, где пользователи играют в «понг» и «сапер» с помощью промптинга LLM. Концепт простой:

1. Пишете промпт для LLM, чтобы она сделали стратегию
2. Смотрите на результат игры по сгенерированному коду
3. Получаете фидбек, что можно улучшить и что не сработало
4. И всё по новой

Ссылки на демку нет, будем ждать 🤕
Please open Telegram to view this post
VIEW IN TELEGRAM
👍84🔥1613