Технозаметки Малышева

Prometheus называется конкурентом GPT-4

Prometheus – языковая модель с 13 миллиардами параметров.
Цель – соответствовать способностям GPT-4 по оценке длинных текстов.
Запущен как открытый проект, обученный на уникальном датасете.
Корреляция с оценками человека – 0.897, выше, чем у ChatGPT.
Превзошёл другие модели по предпочтениям пользователей.
Преимущества: доступность исходного кода, воспроизводимость, экономичность.

Прорыв в оценке текстов: Prometheus может стать универсальной моделью за счёт своей точности и открытости.

#Prometheus #LanguageModel #OpenSource

44 views05:44

Самообучение языковых ИИ

Метод Self-Play Fine-Tuning (SPIN) улучшает языковые модели, не требуя новых данных от людей.

Модели применяют SPIN для соревнований с предыдущими версиями, полностью используя существующие данные.

Применение SPIN заметно повышает производительность моделей на различных наборах данных.

Эффективность SPIN доказана математически, включая леммы и теоремы в статье.

Возможно это тот самый нелинейный прорыв, которого мы ждём от 2024го - Саморазвитие.

#SPIN #LanguageModel #SelfPlay

200 views10:02

Технозаметки Малышева

Stability AI представляет Stable LM 2 на 12 млрд параметров и обновленный вариант на 1.6 млрд

Обучение производилось на 2 трлн токенов и 7 языках.
Версия на 12 млрд нацелена на баланс производительности, эффективности, требований к памяти и скорости.
Апдейт 1.6B улучшил диалоговые способности модели при сохранении низких системных требований.
Stable LM 2 12B способна решать задачи, доступные только более крупным моделям, требующим больших вычислительных ресурсов.
Инструктированная версия подходит для различных применений, включая системы извлечения RAG.
В тестах Open LLM и MT Bench Stable LM 2 12B обогнала практически всех, кроме Мистраля 8х7B.

https://stability.ai/news/introducing-stable-lm-2-12b

Пробовать тут:
https://huggingface.co/spaces/stabilityai/stablelm-2-chat

Ссылка на модель на HF

CUDA out of memory. :(

#StabilityAI #LanguageModel #StableLM2
-------
@tsingular

103 viewsedited 18:11

Технозаметки Малышева

1:02

This media is not supported in your browser

VIEW IN TELEGRAM

Reka Core: еще одна мультимодальная модель

Компания Reka AI представила свою самую крупную и высокопроизводительную мультимодальную модель - Reka Core. 🚀
Ключевые характеристики Reka Core:
- Близка по уровню к: GPT-4, Claude-3 Opus и Gemini Ultra
- Превосходные возможности распознавания изображений, видео и аудио 📷🎥🎧
- Контекстное окно - 128K.
- Способности к рассуждению в том числе в математическом анализе и написании кода.
- Предобучена на 32 языках, свободно владеет английским и несколькими азиатскими и европейскими языками 🌍
Доступна по API или локально (через подтверждение у разработчиков в ручном режиме).

Пробовать можно тут без VPN:
https://chat.reka.ai/chat

+1 игрок в копилку.

#RekaAI #MultimodalAI #LanguageModel
-------
@tsingular

114 viewsedited 05:00

Технозаметки Малышева

Microsoft представила новое семейство языковых моделей Phi-3

Microsoft анонсировала релиз Phi-3 - нового семейства компактных, но мощных языковых моделей, превосходящих аналоги благодаря уникальному подходу к обработке данных и процедурам безопасности.
Phi-3-mini с 3.8 млрд параметров демонстрирует впечатляющие результаты на тестах MMLU (68.8%), GSM-8K (82.5%) и других, соперничая с гораздо более крупными GPT-3.5 и Mixtral 8x7B.
Модель тренировалась на тщательно отфильтрованных веб-данных и синтетических данных, сгенерированных другими большими языковыми моделями.
Более крупные варианты Phi-3-small (7B) и Phi-3-medium (14B) показывают еще более высокую производительность.

Релиз Phi-3 следом за Llama 3 - очень вовремя.
Интересно будет сравнить, но пока на HF нет, есть только папир:
https://arxiv.org/pdf/2404.14219.pdf

#Microsoft #Phi-3 #LanguageModel
-------
@tsingular

104 viewsedited 05:51

About

Blog

Apps

Platform