Love. Death. Transformers.
22.5K subscribers
4.27K photos
499 videos
76 files
2.79K links
❤️☠️🤗

Указанные действия не являются ресерчем, поскольку:
а) Мы не ученые;
б) Оно работает.
@transformerslovedeatch по всем вопросам
Все ситуации вымышлены, любые совпадения с реальности плот вашей фантазии.
Download Telegram
Live stream finished (1 hour)
Forwarded from Labrats
Сидят научник и аспирант, название для статьи придумывают. Научник записывает:

Foundation multi-agent multiscale multimodal multitask language model

Аспирант: У нас в название статьи место есть, может чет про ai safety добавим?

Научник, прикидывая:
— Да не, хуйня какая-то получится
😁144🔥15🥱96
Симпатичная open source книжка DevOps for Data Science полезная для всех кто сисадминит и хочет развиваться в сторону дата инфраструктуры. Не охватывает платформы, охватывает большую часть фундаментальных вопросов. Полезное и для дата инженеров тоже.
👍30😐96🤔2
Кхм

КОД КРАСНЫЙ, КОД КРАСНЫЙ, AGI ACHIEVED EXTERNALY
🔥6024😁10🥴64👎3👍1🍌1😨1
This media is not supported in your browser
VIEW IN TELEGRAM
И на последок минутка world modelling_а
😐78😁38🥴1584🤡4
Forwarded from Denis Sexy IT 🤖
This media is not supported in your browser
VIEW IN TELEGRAM
Если бы не ML-модели стоимостью в миллионы долларов, мы никогда бы не узнали как хотдог ест еду в китайском ресторане

Ave AI 🇻🇦
Please open Telegram to view this post
VIEW IN TELEGRAM
😁78🥴18🤮66🦄4👍2🤡1💯1
🥴56🤔3520👍5💩54🤡1
honey, new mteb sota just dropped

MTEBen разнесли китайцы со своей stella на 1.5b параметров(чо там, декодер лучший энкодер нуну)

Учили с матрешкой(можно обрезать эмбеды) и с инструкциями.

папиры и данных нет, но есть модель и гитхаб с обещаниями
👍15🔥43
Новый Вихрь 5.4

Базовый Вихрь 5той версии (мистраль) обученный на переведенных инструкциях и ответах GPT-4 и улучшенный с помощью ORPO на нашем внутреннем датасете.
Модель имеет довольно высокое разннобразие ответов, поэтому рекомендуется использовать temperature в рендже [0.1, 0.4].


HF PyTorch
HF GGUF
👍26🔥41🤡1
Love. Death. Transformers.
Привет! Мы в лабараторию ебаного ресерча Vikhr models открываем летние стажировки Что по задачам: - Мержинг, стакинг, замеринг, эволюционка поверх LLM cтакинга - собирать крутые инструкт сеты, у нас много gpt4 токенов, если хочется трогать руками RAG, агентность…
Привет!

Немного цифр:
- 230 кандидаток и кандидатов
- 17 человек отобрали по итогу

Мы закончили летний набор стажеров, если вам написали - поздравляю!

К сожалению у нас нет физической возможности написать всем кого не выбрали, пока что это нулевой батч стажеров-контрибьюторов, но когда нибудь будет и второй.
👍53🤡17😢6👎3🔥2👏1🤔1😨1
Model I’d Like to Finetune
😁642715🥴8
Forwarded from Labrats
7627😁18💊7🔥2🥴2😨2🤷‍♂1👍1
Forwarded from Сиолошная
Что-то все модели выпускают, а от Mistral🇫🇷давно новостей не было. Сегодня они выпустили две модели, одна заточена на математику, другая — на написание кода.

MathΣtral — компактная модель размера 7B, по архитектуре эквивалентная ранним релизам компании. Её доучили на решение сложных математических задач, требующих комплексных, многосутпенчатых логических рассуждений.

На MMLU модель показывает прирост более чем в 10% в отдельных под-категориях, и целых 15% в элементарной математике, физических задачах старшей школы/колледжей и, внезапно, машинном обучении.

Модель справилась с 2мя задачами из 30 на American Invitational Mathematics Examination (AIME). Это второй из трёх этапов отбора команды на международную олимпиаду по математике в США — тут задачки уже поинтереснее, но всё ещё не как на финалах. Кажется, что 2 задачи это мало, но из моделей сопоставимого размера лишь китайский Qwen 2 7B тоже решает 2; большинство остальных — нуль.

Проценты решений задач других олимпиад можете увидеть на картинке

Модель уже доступна на HF (не торрент!). Её, кстати, делали совместно с Project Numina — это проект, члены которого также недавно выиграли соревнование AIMO по решению олимпиадных задач LLMками (писал тут). Там победное решение использовало DeepSeek Math 7B (вторая строчка в таблице). Так что при следующем запуске соревнования можно ожидать, что результат первого места ещё подскочит вверх — просто за счёт смены одной модели на другую, чуть более мощную.

Для справки: maj@16 означает, что модель независимо генерирует 16 решений на задачу, после чего проводится голосование большинством, и выбирается тот ответ, который чаще попадался. Важно понимать, что это не означает, что система даёт 16 ответов с 16 попыток — попытка одна, а maj позволяет выбрать один ответ, который модели кажется наиболее правильным.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍163💊2
😁59😍6👍42
Forwarded from whargarbl
ColorfulXL v7 is out!

https://huggingface.co/recoilme/colorfulxl

https://civitai.com/models/185258/colorfulxl

Ничего необычного, просто файнтюн обычного SDXL
🔥16👍6