Love. Death. Transformers.

Forwarded from еба́ные идеи для резерча

Model I’d Like to Finetune

😁642715🥴8

6.1K views14:19

Love. Death. Transformers.

Forwarded from Labrats

7627😁18💊7🔥2🥴2😨2🤷‍♂1👍1

6.15K views13:43

Love. Death. Transformers.

Forwarded from Сиолошная

Что-то все модели выпускают, а от Mistral🇫🇷давно новостей не было. Сегодня они выпустили две модели, одна заточена на математику, другая — на написание кода.

MathΣtral — компактная модель размера 7B, по архитектуре эквивалентная ранним релизам компании. Её доучили на решение сложных математических задач, требующих комплексных, многосутпенчатых логических рассуждений.

На MMLU модель показывает прирост более чем в 10% в отдельных под-категориях, и целых 15% в элементарной математике, физических задачах старшей школы/колледжей и, внезапно, машинном обучении.

Модель справилась с 2мя задачами из 30 на American Invitational Mathematics Examination (AIME). Это второй из трёх этапов отбора команды на международную олимпиаду по математике в США — тут задачки уже поинтереснее, но всё ещё не как на финалах. Кажется, что 2 задачи это мало, но из моделей сопоставимого размера лишь китайский Qwen 2 7B тоже решает 2; большинство остальных — нуль.

Проценты решений задач других олимпиад можете увидеть на картинке

Модель уже доступна на HF (не торрент!). Её, кстати, делали совместно с Project Numina — это проект, члены которого также недавно выиграли соревнование AIMO по решению олимпиадных задач LLMками (писал тут). Там победное решение использовало DeepSeek Math 7B (вторая строчка в таблице). Так что при следующем запуске соревнования можно ожидать, что результат первого места ещё подскочит вверх — просто за счёт смены одной модели на другую, чуть более мощную.

Для справки: maj@16 означает, что модель независимо генерирует 16 решений на задачу, после чего проводится голосование большинством, и выбирается тот ответ, который чаще попадался. Важно понимать, что это не означает, что система даёт 16 ответов с 16 попыток — попытка одна, а maj позволяет выбрать один ответ, который модели кажется наиболее правильным.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍16❤3💊2

4.83K views17:31

Love. Death. Transformers.

😁59😍6👍4❤2

6.33K views23:56

Love. Death. Transformers.

И на последок минутка world modelling_а

0:09

This media is not supported in your browser

VIEW IN TELEGRAM

🌚58😁16❤6🗿3

6.88K views00:20

Love. Death. Transformers.

Forwarded from whargarbl

ColorfulXL v7 is out!

https://huggingface.co/recoilme/colorfulxl

https://civitai.com/models/185258/colorfulxl

Ничего необычного, просто файнтюн обычного SDXL

🔥16👍6

6.5K views08:27

Love. Death. Transformers.

Соре, мы не сможем больше общатся, ваше увлечение RL оказалось не пост иронией

😍57🤷‍♂12😁85💊4🥴3👏2❤1

6.63K views10:29

Love. Death. Transformers.

Denis Sexy IT 🤖

Apple на WWDC показал совершенно шикарный концепт: Берем все ваши Apple устройства подключенные по сети и объединяем их вычислительные мощности в «одну большую видеокарту» — такой подход, в теории, позволит запускать даже большие модели без покупки дополнительного…

1:48

This media is not supported in your browser

VIEW IN TELEGRAM

Слава опенсурсу!
Увидел в твиттере реп + видос с демкой multi device инференса и это выглядит вау как круто!

github
twi

🔥38💩7🤡4❤1👍1👏1

6.6K views10:14

Love. Death. Transformers.

Forwarded from Непрерывное математическое образование

https://mccme.ru/dubna/2024/

приближается ЛШСМ-2024 (доступно расписание, анонсы курсов; планируются прямые трансляции большинства пленарных лекций)

утром в субботу всё начнется с лекции А.А.Разборова про арифметическую комбинаторику и лекции С.К.Смирнова про замощения

🔥19❤3💩2👍1

6.29K views10:22

Love. Death. Transformers.

https://www.reddit.com/r/LocalLLaMA/comments/1ceh5cp/gpt2chatbot_at_lmsys_chatbot_arena/

После ухода Ильи суцкевера в опен АИ разучились рисовать график роста параматров и вышла gpt4o-mini.
Дешевле всего что есть на рынке(15c,60с) на вход и выход за 1м токенов, подозреваю что сопоставима со страшим опенсурсом по качеству.

Blog

👍38❤5😢2👎11

6.99K viewsedited 17:11

Love. Death. Transformers.

😁1372710❤1👍1

7.17K views17:42

Love. Death. Transformers.

Forwarded from NLP Wanderer

GrandMaster-PRO-MAX - Первый крупный высококачественный русскоязычный SFT датасет

Совместно с Vikhrmodels, представляю вам датасет для инструктивного обучения LLM полученный не с помощью переводов ответов моделей с английского языка. Он диверсифицирован по темам и позволяет моделям следовать самым разным инструкциям на разных языках (в основном на русском) и отвечать, так же, в основном на русском языке.

Ответы за ассистента в этом датасете полностью сгенерированы GPT-4-Turbo-1106 с нуля по исходным инструкциям от пользователя. Это позволило получить очень качественный русский язык в ответах без артефактов перевода. Исходные инструкции были взяты из различных источников, в том числе синтетических для подкрепления отдельных способностей вроде математики, программирования, следования формату и тд.

Кроме того, характерной особенностью является то, что модели обученные на этом датасете будут иметь уже "вшитую" способность к Chaint-Of-Thought (CoT), за счет использования более сложного промпта для генерации большинства ответов (подробнее в карточке датасета).

Содержит примерно 142 тысячи уникальных пар инструкция - ответ. Денежный эквивалент генерации такого датасета с нуля - около 4к долларов.

huggingface.co

Vikhrmodels/GrandMaster-PRO-MAX · Datasets at Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

🔥68❤12👍11🤡2🥴2🤔1

6.13K views19:07

About

Blog

Apps

Platform