Все о блокчейн/мозге/space/WEB 3.0 в России и мире
18.9K subscribers
2.03K photos
358 videos
123 files
6.81K links
Области интересов канала: блокчейн, мозг(BCI), space tech, цифровая экономика, WEB 3.0 в России и мире.

Основатель @AniAslanyan

English channel https://tttttt.me/alwebbci

Регистрация в перечне РКН https://knd.gov.ru/license?id=67374142772bb113f528001c&regis
Download Telegram
Общее view по итогам анонсов #Google и #OpenAI на этой неделе, что же они нам говорят о том, что будет дальше в ИИ.

1. Представленный Gemini 1.5 Flash стал 🚀 Google. Небольшая модель с 1МБ контекста и производительностью Flash просто невероятна.

А у OpenAI теперь лучшая большая модель с GPT-4o, а у Google — лучшая маленькая модель с Gemini 1.5 Flash.

Гонка продолжается.

2. Несмотря на это, уровень конвергенции впечатляет — сходство между GPT4o и Astra(Google), Veo(Google) и Sora(OpenAI) и тд.

Похоже, что Google и OpenAI следуют одинаковым техническим траекториям.

Для отрасли лучше дивергенция, чем конвергенция. Увы.

3. Огромные успехи в оценке GPT-4o, которые ошеломляют, по-видимому, почти полностью обусловлены отличными ПОСТ-ТРЕНИРОВКАМИ.

Сравнение GPT-4 при запуске с GPT - 4o, которые работают круглосуточно, показывает силу отличного пост-тренинга с отличными данными.

4. По факту большинство различий между топовыми моделями сегодня (#Claude3, #Llama3, #GPT-4o, #Gemini1.5), похоже, полностью обусловлены пост-обучением, а не предварительным обучением.

Это может быть из-за проблем с цепочкой поставок на этапе предварительного обучения — подготовка вычислительных ресурсов + нехватка данных.

5. Тем не менее, это указывает на то, чего нам, возможно, следует ожидать и в отношении будущего развития:

Дальнейшее развитие постобучения, которое требует большого количества пограничных данных.

Дальнейший прогресс может быть полностью ограничен из-за обилия данных после обучения.

6. Все это сходится к тому, что рассматривать все области передовых исследований:

агенты, мультимодальность, многоязычие, экспертная цепочка мыслей, рабочие процессы предприятия и т.д.

Все это зависит от данных, которых сегодня просто не существует, и нам нужны средства производства.

7. Данные ИИ — ОЧЕНЬ сложная проблема, и простого пути ее решения нет.

Чисто синтетические данные не являются спасением: синтетические данные не могут раздвинуть границы моделей за пределы текущих возможностей. Это инструмент, а не панацея.

Это сложная проблема симбиоза #ИИ и человека-эксперта.

8. Нужны кардинальные изменения. Каждый крупный прорыв в области #искусственногоинтеллекта за последние 20 лет был обусловлен улучшением качества и увеличением объема данных, начиная с оригинальной глубокой нейронной сети #AlexNet на #ImageNet.

Законы масштабирования ясно показывают, куда мы движемся: нам нужно больше данных.
Китайские данные по обучению токенов GPT-4o загрязнены спамом и порносайтами

У
#GPT -4o есть проблема: его самые длинные китайские токены состоят из порно и азартных игр

Эта проблема с грязными данными, вероятно, произошла из-за недостаточной их очистки.

Из-за этого модель будет галлюцинировать или генерировать небезопасные ответы.

Токены — это то, что большая языковая модель ИИ использует для синтаксического анализа и обработки текстов.

Чем больше и длиннее токен, особенно в языках, отличных от английского, эффективность модели может быть повышена, а цена за генерацию ответов может быть ниже.

GPT-4o использует новый токенизатор(состоящий из 200тыс токенов), у которого больше неанглийских токенов, но, когда дело доходит до китайского, он вводит большое количество спам-контента.

Пользователи также обнаружили, что эти токены могут быть использованы для взлома LLM, либо для того, чтобы он нашел совершенно несвязанные ответы, либо, в редких случаях, для создания ответов, которые не разрешены в соответствии со стандартами безопасности OpenAI.
Это чистый эпизод из «Черного зеркала»: Сатья #Наделла говорит, что новые ПК #Microsoft будут иметь функцию фотографической памяти под названием #Recall, которая будет запоминать и понимать все, что вы делаете на своем компьютере, постоянно делая снимки экрана.

Обязательно отключите эту «функцию».

Вчера Microsoft представили Copilot Plus PC — новый бренд, которым будут обозначаться ноутбуки на Windows от разных производителей, оснащённые аппаратным обеспечением для работы ИИ и поддерживающие функции ИИ во всей операционной системе.

Все основные партнёры Microsoft из числа производителей ноутбуков - Dell, Lenovo, Samsung, HP, Acer и Asus.

Microsoft представит и 2 собственных решения в рамках линейки Surface. Портативные компьютеры Copilot Plus PC будут предлагаться с процессорами Intel и AMD, а также с Arm-процессорами.

За работу ИИ будут отвечать нейронные процессоры. Одна из флагманских функций, которую будут поддерживать Copilot Plus PC, называется Recall. Это своего рода фотографическая память для вашего компьютера — ИИ будет запоминать всё, что вы делали и видели на своём ПК, и при необходимости позволит вспомнить или найти нужную информацию.

Всего в ноутбуках Copilot Plus PC будет использоваться более 40 моделей ИИ. Они войдут в состав Windows 11. Встроенный ИИ-ассистент Microsoft Copilot также получит поддержку модели OpenAI #GPT-4o, которая была представлена на прошлой неделе.