Общее view по итогам анонсов #Google и #OpenAI на этой неделе, что же они нам говорят о том, что будет дальше в ИИ.
1. Представленный Gemini 1.5 Flash стал 🚀 Google. Небольшая модель с 1МБ контекста и производительностью Flash просто невероятна.
А у OpenAI теперь лучшая большая модель с GPT-4o, а у Google — лучшая маленькая модель с Gemini 1.5 Flash.
Гонка продолжается.
2. Несмотря на это, уровень конвергенции впечатляет — сходство между GPT4o и Astra(Google), Veo(Google) и Sora(OpenAI) и тд.
Похоже, что Google и OpenAI следуют одинаковым техническим траекториям.
Для отрасли лучше дивергенция, чем конвергенция. Увы.
3. Огромные успехи в оценке GPT-4o, которые ошеломляют, по-видимому, почти полностью обусловлены отличными ПОСТ-ТРЕНИРОВКАМИ.
Сравнение GPT-4 при запуске с GPT - 4o, которые работают круглосуточно, показывает силу отличного пост-тренинга с отличными данными.
4. По факту большинство различий между топовыми моделями сегодня (#Claude3, #Llama3, #GPT-4o, #Gemini1.5), похоже, полностью обусловлены пост-обучением, а не предварительным обучением.
Это может быть из-за проблем с цепочкой поставок на этапе предварительного обучения — подготовка вычислительных ресурсов + нехватка данных.
5. Тем не менее, это указывает на то, чего нам, возможно, следует ожидать и в отношении будущего развития:
Дальнейшее развитие постобучения, которое требует большого количества пограничных данных.
Дальнейший прогресс может быть полностью ограничен из-за обилия данных после обучения.
6. Все это сходится к тому, что рассматривать все области передовых исследований:
агенты, мультимодальность, многоязычие, экспертная цепочка мыслей, рабочие процессы предприятия и т.д.
Все это зависит от данных, которых сегодня просто не существует, и нам нужны средства производства.
7. Данные ИИ — ОЧЕНЬ сложная проблема, и простого пути ее решения нет.
Чисто синтетические данные не являются спасением: синтетические данные не могут раздвинуть границы моделей за пределы текущих возможностей. Это инструмент, а не панацея.
Это сложная проблема симбиоза #ИИ и человека-эксперта.
8. Нужны кардинальные изменения. Каждый крупный прорыв в области #искусственногоинтеллекта за последние 20 лет был обусловлен улучшением качества и увеличением объема данных, начиная с оригинальной глубокой нейронной сети #AlexNet на #ImageNet.
Законы масштабирования ясно показывают, куда мы движемся: нам нужно больше данных.
1. Представленный Gemini 1.5 Flash стал 🚀 Google. Небольшая модель с 1МБ контекста и производительностью Flash просто невероятна.
А у OpenAI теперь лучшая большая модель с GPT-4o, а у Google — лучшая маленькая модель с Gemini 1.5 Flash.
Гонка продолжается.
2. Несмотря на это, уровень конвергенции впечатляет — сходство между GPT4o и Astra(Google), Veo(Google) и Sora(OpenAI) и тд.
Похоже, что Google и OpenAI следуют одинаковым техническим траекториям.
Для отрасли лучше дивергенция, чем конвергенция. Увы.
3. Огромные успехи в оценке GPT-4o, которые ошеломляют, по-видимому, почти полностью обусловлены отличными ПОСТ-ТРЕНИРОВКАМИ.
Сравнение GPT-4 при запуске с GPT - 4o, которые работают круглосуточно, показывает силу отличного пост-тренинга с отличными данными.
4. По факту большинство различий между топовыми моделями сегодня (#Claude3, #Llama3, #GPT-4o, #Gemini1.5), похоже, полностью обусловлены пост-обучением, а не предварительным обучением.
Это может быть из-за проблем с цепочкой поставок на этапе предварительного обучения — подготовка вычислительных ресурсов + нехватка данных.
5. Тем не менее, это указывает на то, чего нам, возможно, следует ожидать и в отношении будущего развития:
Дальнейшее развитие постобучения, которое требует большого количества пограничных данных.
Дальнейший прогресс может быть полностью ограничен из-за обилия данных после обучения.
6. Все это сходится к тому, что рассматривать все области передовых исследований:
агенты, мультимодальность, многоязычие, экспертная цепочка мыслей, рабочие процессы предприятия и т.д.
Все это зависит от данных, которых сегодня просто не существует, и нам нужны средства производства.
7. Данные ИИ — ОЧЕНЬ сложная проблема, и простого пути ее решения нет.
Чисто синтетические данные не являются спасением: синтетические данные не могут раздвинуть границы моделей за пределы текущих возможностей. Это инструмент, а не панацея.
Это сложная проблема симбиоза #ИИ и человека-эксперта.
8. Нужны кардинальные изменения. Каждый крупный прорыв в области #искусственногоинтеллекта за последние 20 лет был обусловлен улучшением качества и увеличением объема данных, начиная с оригинальной глубокой нейронной сети #AlexNet на #ImageNet.
Законы масштабирования ясно показывают, куда мы движемся: нам нужно больше данных.
Google DeepMind
Gemini 2.0 Flash Experimental
Gemini 2.0 Flash Experimental is our workhorse model with low latency and enhanced performance, built to power agentic experiences.
Китайские данные по обучению токенов GPT-4o загрязнены спамом и порносайтами
У #GPT -4o есть проблема: его самые длинные китайские токены состоят из порно и азартных игр
Эта проблема с грязными данными, вероятно, произошла из-за недостаточной их очистки.
Из-за этого модель будет галлюцинировать или генерировать небезопасные ответы.
Токены — это то, что большая языковая модель ИИ использует для синтаксического анализа и обработки текстов.
Чем больше и длиннее токен, особенно в языках, отличных от английского, эффективность модели может быть повышена, а цена за генерацию ответов может быть ниже.
GPT-4o использует новый токенизатор(состоящий из 200тыс токенов), у которого больше неанглийских токенов, но, когда дело доходит до китайского, он вводит большое количество спам-контента.
Пользователи также обнаружили, что эти токены могут быть использованы для взлома LLM, либо для того, чтобы он нашел совершенно несвязанные ответы, либо, в редких случаях, для создания ответов, которые не разрешены в соответствии со стандартами безопасности OpenAI.
У #GPT -4o есть проблема: его самые длинные китайские токены состоят из порно и азартных игр
Эта проблема с грязными данными, вероятно, произошла из-за недостаточной их очистки.
Из-за этого модель будет галлюцинировать или генерировать небезопасные ответы.
Токены — это то, что большая языковая модель ИИ использует для синтаксического анализа и обработки текстов.
Чем больше и длиннее токен, особенно в языках, отличных от английского, эффективность модели может быть повышена, а цена за генерацию ответов может быть ниже.
GPT-4o использует новый токенизатор(состоящий из 200тыс токенов), у которого больше неанглийских токенов, но, когда дело доходит до китайского, он вводит большое количество спам-контента.
Пользователи также обнаружили, что эти токены могут быть использованы для взлома LLM, либо для того, чтобы он нашел совершенно несвязанные ответы, либо, в редких случаях, для создания ответов, которые не разрешены в соответствии со стандартами безопасности OpenAI.
Это чистый эпизод из «Черного зеркала»: Сатья #Наделла говорит, что новые ПК #Microsoft будут иметь функцию фотографической памяти под названием #Recall, которая будет запоминать и понимать все, что вы делаете на своем компьютере, постоянно делая снимки экрана.
Обязательно отключите эту «функцию».
Вчера Microsoft представили Copilot Plus PC — новый бренд, которым будут обозначаться ноутбуки на Windows от разных производителей, оснащённые аппаратным обеспечением для работы ИИ и поддерживающие функции ИИ во всей операционной системе.
Все основные партнёры Microsoft из числа производителей ноутбуков - Dell, Lenovo, Samsung, HP, Acer и Asus.
Microsoft представит и 2 собственных решения в рамках линейки Surface. Портативные компьютеры Copilot Plus PC будут предлагаться с процессорами Intel и AMD, а также с Arm-процессорами.
За работу ИИ будут отвечать нейронные процессоры. Одна из флагманских функций, которую будут поддерживать Copilot Plus PC, называется Recall. Это своего рода фотографическая память для вашего компьютера — ИИ будет запоминать всё, что вы делали и видели на своём ПК, и при необходимости позволит вспомнить или найти нужную информацию.
Всего в ноутбуках Copilot Plus PC будет использоваться более 40 моделей ИИ. Они войдут в состав Windows 11. Встроенный ИИ-ассистент Microsoft Copilot также получит поддержку модели OpenAI #GPT-4o, которая была представлена на прошлой неделе.
Обязательно отключите эту «функцию».
Вчера Microsoft представили Copilot Plus PC — новый бренд, которым будут обозначаться ноутбуки на Windows от разных производителей, оснащённые аппаратным обеспечением для работы ИИ и поддерживающие функции ИИ во всей операционной системе.
Все основные партнёры Microsoft из числа производителей ноутбуков - Dell, Lenovo, Samsung, HP, Acer и Asus.
Microsoft представит и 2 собственных решения в рамках линейки Surface. Портативные компьютеры Copilot Plus PC будут предлагаться с процессорами Intel и AMD, а также с Arm-процессорами.
За работу ИИ будут отвечать нейронные процессоры. Одна из флагманских функций, которую будут поддерживать Copilot Plus PC, называется Recall. Это своего рода фотографическая память для вашего компьютера — ИИ будет запоминать всё, что вы делали и видели на своём ПК, и при необходимости позволит вспомнить или найти нужную информацию.
Всего в ноутбуках Copilot Plus PC будет использоваться более 40 моделей ИИ. Они войдут в состав Windows 11. Встроенный ИИ-ассистент Microsoft Copilot также получит поддержку модели OpenAI #GPT-4o, которая была представлена на прошлой неделе.
YouTube
Microsoft vs. Apple: Satya Nadella Says AI-Focused Copilot+ PCs Beat Macs | WSJ
Microsoft’s new Copilot+ PCs with Qualcomm chips and AI Windows features aim to beat Apple’s MacBooks.
WSJ’s Joanna Stern tried out the new laptops and sat down with Microsoft CEO Satya Nadella to ask all about it.
Chapters:
0:00 Microsoft’s Copilot+…
WSJ’s Joanna Stern tried out the new laptops and sat down with Microsoft CEO Satya Nadella to ask all about it.
Chapters:
0:00 Microsoft’s Copilot+…