Neural Networks | Нейронные сети

🚀 julius.ai | Новая степень автоматизации EDA!

Условно бесплатная нейронка на видео демонстрирует потрясающие возможности: обрабатывает таблицу с 6,5K (!) кандидатами с HeadHunter, фильтрует неразработчиков и создает группированные столбчатые диаграммы по грейдам (Junior, Middle, Senior) и языкам (Go, PHP, Python и др.).

👉 Хотите увидеть это в действии?
https://www.youtube.com/@Julius-AI
#llm #gpt

YouTube

Julius AI

Analyze your data with computational AI ⚡️

268 views06:00

Neural Networks | Нейронные сети

Факт-чекинг для LLM: Может ли дообучение на новых данных вызвать галлюцинации?

📚 Основные моменты:
- Дообучение больших языковых моделей (LLM) на новых фактических данных может привести к генерации фактически неверных ответов, известных как галлюцинации.
- Контролируемые исследования в задачах вопросов и ответов (QA) показывают, что LLM сложно быстро усваивать новую информацию через дообучение.
- Примеры новых данных усваиваются значительно медленнее, чем те, которые соответствуют уже известным модели знаниям.

🔍 Результаты:
- По мере постепенного усвоения новой информации через дообучение, склонность LLM к галлюцинациям линейно возрастает.
- Лучшие результаты достигаются, когда модель усваивает большинство известных примеров, но только несколько новых.
- Введение слишком большого количества новой информации во время дообучения может снизить общую точность модели.

⚠️ Выводы:
- Необходимо тщательно балансировать количество новых данных при дообучении, чтобы предотвратить галлюцинации.
- LLM в основном приобретают фактические знания через предобучение, а дообучение оптимизирует использование этих знаний.

🤖 Детали исследования:
- Исследование включает смесь известных и новых примеров во время дообучения.
- Точная категоризация примеров на известные и новые с помощью структуры SliCK помогает оценить поведение модели при обучении.

#LLM #МашинноеОбучение #AIResearch #Дообучение #Галлюцинации

🔗 Читать полную статью

325 views06:00

Neural Networks | Нейронные сети

Forwarded from Machinelearning

🌟 OpenCoder - модели для кодинга, cookbook обучения и датасеты.

OpenCoder - это открытое и воспроизводимое семейство LLM для программирования, включающее 1,5B и 8B базовые и instruct версии, поддерживающее английский и китайский языки.

Семейство моделей OpenCoder обучалось с нуля на 2,5 трлн. лексем, состоящих на 90 % из сырого кода и на 10 % из веб-данных, связанных с кодом, и прошло отладку на более чем 4,5 млн. высококачественных примеров SFT, в итоге достигнув производительности топовых LLM с похожей специализацией.

В открытый доступ опубликованы не только веса моделей и код для инференса, но и датасеты, полный цикл обработки данных, результаты экспериментальной абляции и подробные протоколы обучения.

OpenCoder тщательно протестирован с помощью исследований абляции на различных стратегиях очистки данных и процессах обучения, включая эксперименты по дедупликации на уровне файлов и репозиториев, что обеспечило семейству тщательную проверку производительности моделей.

OpenCoder достигает высокой производительности в различных бенчмарках, что ставит их в ряд SOTA-моделей с открытым исходным кодом для задач программирования.

▶️ Семейство моделей OpenCoder :

🟢

OpenCoder-1.5B-Base, 4 тыс. токенов контекста;

🟢

OpenCoder-8B-Base, 8 тыс. токенов контекста;

🟠

OpenCoder-1.5B-Instruct, 4 тыс. токенов контекста;

🟠

OpenCoder-8B-Instruct, 8 тыс. токенов контекста;

▶️ Датасеты:

🟢

OpenCoder-SFT-Stage1, 4.21 млн. строк;

🟠

OpenCoder-SFT-Stage2, 375 тыс.строк.

▶️ Пример инференса на HF Transformers:

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

model_name = "infly/OpenCoder-8B-Instruct"
model = AutoModelForCausalLM.from_pretrained(model_name,
                                             torch_dtype=torch.bfloat16,
                                             device_map="auto",
                                             trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)

messages=[
    { 'role': 'user', 'content': "write a quick sort algorithm in python."}
]

inputs = tokenizer.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt")

outputs = model.generate(inputs, max_new_tokens=512, do_sample=False)

result = tokenizer.decode(outputs[0][len(inputs[0]):], skip_special_tokens=True)