Love. Death. Transformers.
22.5K subscribers
4.27K photos
499 videos
76 files
2.79K links
❤️☠️🤗

Указанные действия не являются ресерчем, поскольку:
а) Мы не ученые;
б) Оно работает.
@transformerslovedeatch по всем вопросам
Все ситуации вымышлены, любые совпадения с реальности плот вашей фантазии.
Download Telegram
Model I’d Like to Finetune
😁642715🥴8
Forwarded from Labrats
7627😁18💊7🔥2🥴2😨2🤷‍♂1👍1
Forwarded from Сиолошная
Что-то все модели выпускают, а от Mistral🇫🇷давно новостей не было. Сегодня они выпустили две модели, одна заточена на математику, другая — на написание кода.

MathΣtral — компактная модель размера 7B, по архитектуре эквивалентная ранним релизам компании. Её доучили на решение сложных математических задач, требующих комплексных, многосутпенчатых логических рассуждений.

На MMLU модель показывает прирост более чем в 10% в отдельных под-категориях, и целых 15% в элементарной математике, физических задачах старшей школы/колледжей и, внезапно, машинном обучении.

Модель справилась с 2мя задачами из 30 на American Invitational Mathematics Examination (AIME). Это второй из трёх этапов отбора команды на международную олимпиаду по математике в США — тут задачки уже поинтереснее, но всё ещё не как на финалах. Кажется, что 2 задачи это мало, но из моделей сопоставимого размера лишь китайский Qwen 2 7B тоже решает 2; большинство остальных — нуль.

Проценты решений задач других олимпиад можете увидеть на картинке

Модель уже доступна на HF (не торрент!). Её, кстати, делали совместно с Project Numina — это проект, члены которого также недавно выиграли соревнование AIMO по решению олимпиадных задач LLMками (писал тут). Там победное решение использовало DeepSeek Math 7B (вторая строчка в таблице). Так что при следующем запуске соревнования можно ожидать, что результат первого места ещё подскочит вверх — просто за счёт смены одной модели на другую, чуть более мощную.

Для справки: maj@16 означает, что модель независимо генерирует 16 решений на задачу, после чего проводится голосование большинством, и выбирается тот ответ, который чаще попадался. Важно понимать, что это не означает, что система даёт 16 ответов с 16 попыток — попытка одна, а maj позволяет выбрать один ответ, который модели кажется наиболее правильным.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍163💊2
😁59😍6👍42
Forwarded from whargarbl
ColorfulXL v7 is out!

https://huggingface.co/recoilme/colorfulxl

https://civitai.com/models/185258/colorfulxl

Ничего необычного, просто файнтюн обычного SDXL
🔥16👍6
Соре, мы не сможем больше общатся, ваше увлечение RL оказалось не пост иронией
😍57🤷‍♂12😁85💊4🥴3👏21
https://mccme.ru/dubna/2024/

приближается ЛШСМ-2024 (доступно расписание, анонсы курсов; планируются прямые трансляции большинства пленарных лекций)

утром в субботу всё начнется с лекции А.А.Разборова про арифметическую комбинаторику и лекции С.К.Смирнова про замощения
🔥193💩2👍1
Love. Death. Transformers.
https://www.reddit.com/r/LocalLLaMA/comments/1ceh5cp/gpt2chatbot_at_lmsys_chatbot_arena/
После ухода Ильи суцкевера в опен АИ разучились рисовать график роста параматров и вышла gpt4o-mini.
Дешевле всего что есть на рынке(15c,60с) на вход и выход за 1м токенов, подозреваю что сопоставима со страшим опенсурсом по качеству.

Blog
👍385😢2👎11
😁13727101👍1
Forwarded from NLP Wanderer
GrandMaster-PRO-MAX - Первый крупный высококачественный русскоязычный SFT датасет

Совместно с Vikhrmodels, представляю вам датасет для инструктивного обучения LLM полученный не с помощью переводов ответов моделей с английского языка. Он диверсифицирован по темам и позволяет моделям следовать самым разным инструкциям на разных языках (в основном на русском) и отвечать, так же, в основном на русском языке.

Ответы за ассистента в этом датасете полностью сгенерированы GPT-4-Turbo-1106 с нуля по исходным инструкциям от пользователя. Это позволило получить очень качественный русский язык в ответах без артефактов перевода. Исходные инструкции были взяты из различных источников, в том числе синтетических для подкрепления отдельных способностей вроде математики, программирования, следования формату и тд.

Кроме того, характерной особенностью является то, что модели обученные на этом датасете будут иметь уже "вшитую" способность к Chaint-Of-Thought (CoT), за счет использования более сложного промпта для генерации большинства ответов (подробнее в карточке датасета).

Содержит примерно 142 тысячи уникальных пар инструкция - ответ. Денежный эквивалент генерации такого датасета с нуля - около 4к долларов.
🔥6812👍11🤡2🥴2🤔1