Forwarded from Labrats
Сидят научник и аспирант, название для статьи придумывают. Научник записывает:
Foundation multi-agent multiscale multimodal multitask language model
Аспирант: У нас в название статьи место есть, может чет про ai safety добавим?
Научник, прикидывая:
— Да не, хуйня какая-то получится
Foundation multi-agent multiscale multimodal multitask language model
Аспирант: У нас в название статьи место есть, может чет про ai safety добавим?
Научник, прикидывая:
— Да не, хуйня какая-то получится
😁144🔥15🥱9❤6
Labrats
Сидят научник и аспирант, название для статьи придумывают. Научник записывает: Foundation multi-agent multiscale multimodal multitask language model Аспирант: У нас в название статьи место есть, может чет про ai safety добавим? Научник, прикидывая: — Да…
Cо стороны подвала раздался крик postdoc_a - А как же, Ai safety for foundation multi-agent multiscale multimodal multitask language models !!!
😁46👏6💯5👍1
Симпатичная open source книжка DevOps for Data Science полезная для всех кто сисадминит и хочет развиваться в сторону дата инфраструктуры. Не охватывает платформы, охватывает большую часть фундаментальных вопросов. Полезное и для дата инженеров тоже.
Do4Ds
DevOps for Data Science
👍30😐9❤6🤔2
This media is not supported in your browser
VIEW IN TELEGRAM
И на последок минутка world modelling_а
😐78😁38🥴15 8❤4🤡4
Forwarded from Denis Sexy IT 🤖
This media is not supported in your browser
VIEW IN TELEGRAM
Если бы не ML-модели стоимостью в миллионы долларов, мы никогда бы не узнали как хотдог ест еду в китайском ресторане
Ave AI🇻🇦
Ave AI
Please open Telegram to view this post
VIEW IN TELEGRAM
😁78🥴18🤮6 6🦄4👍2🤡1💯1
honey, new mteb sota just dropped
MTEBen разнесли китайцы со своей stella на 1.5b параметров(чо там, декодер лучший энкодер нуну)
Учили с матрешкой(можно обрезать эмбеды) и с инструкциями.
папиры и данных нет, но есть модель и гитхаб с обещаниями
MTEBen разнесли китайцы со своей stella на 1.5b параметров(чо там, декодер лучший энкодер нуну)
Учили с матрешкой(можно обрезать эмбеды) и с инструкциями.
папиры и данных нет, но есть модель и гитхаб с обещаниями
👍15🔥4❤3
Новый Вихрь 5.4
HF PyTorch
HF GGUF
Базовый Вихрь 5той версии (мистраль) обученный на переведенных инструкциях и ответах GPT-4 и улучшенный с помощью ORPO на нашем внутреннем датасете.
Модель имеет довольно высокое разннобразие ответов, поэтому рекомендуется использовать temperature в рендже [0.1, 0.4].
HF PyTorch
HF GGUF
👍26🔥4❤1🤡1
Love. Death. Transformers.
Привет! Мы в лабараторию ебаного ресерча Vikhr models открываем летние стажировки Что по задачам: - Мержинг, стакинг, замеринг, эволюционка поверх LLM cтакинга - собирать крутые инструкт сеты, у нас много gpt4 токенов, если хочется трогать руками RAG, агентность…
Привет!
Немного цифр:
- 230 кандидаток и кандидатов
- 17 человек отобрали по итогу
Мы закончили летний набор стажеров, если вам написали - поздравляю!
К сожалению у нас нет физической возможности написать всем кого не выбрали, пока что это нулевой батч стажеров-контрибьюторов, но когда нибудь будет и второй.
Немного цифр:
- 230 кандидаток и кандидатов
- 17 человек отобрали по итогу
Мы закончили летний набор стажеров, если вам написали - поздравляю!
К сожалению у нас нет физической возможности написать всем кого не выбрали, пока что это нулевой батч стажеров-контрибьюторов, но когда нибудь будет и второй.
👍53🤡17😢6👎3🔥2👏1🤔1😨1
Forwarded from Сиолошная
Что-то все модели выпускают, а от Mistral🇫🇷 давно новостей не было. Сегодня они выпустили две модели, одна заточена на математику, другая — на написание кода.
MathΣtral — компактная модель размера 7B, по архитектуре эквивалентная ранним релизам компании. Её доучили на решение сложных математических задач, требующих комплексных, многосутпенчатых логических рассуждений.
На MMLU модель показывает прирост более чем в 10% в отдельных под-категориях, и целых 15% в элементарной математике, физических задачах старшей школы/колледжей и, внезапно, машинном обучении.
Модель справилась с 2мя задачами из 30 на American Invitational Mathematics Examination (AIME). Это второй из трёх этапов отбора команды на международную олимпиаду по математике в США — тут задачки уже поинтереснее, но всё ещё не как на финалах. Кажется, что 2 задачи это мало, но из моделей сопоставимого размера лишь китайский Qwen 2 7B тоже решает 2; большинство остальных — нуль.
Проценты решений задач других олимпиад можете увидеть на картинке
Модель уже доступна на HF (не торрент!). Её, кстати, делали совместно с Project Numina — это проект, члены которого также недавно выиграли соревнование AIMO по решению олимпиадных задач LLMками (писал тут). Там победное решение использовало DeepSeek Math 7B (вторая строчка в таблице). Так что при следующем запуске соревнования можно ожидать, что результат первого места ещё подскочит вверх — просто за счёт смены одной модели на другую, чуть более мощную.
Для справки: maj@16 означает, что модель независимо генерирует 16 решений на задачу, после чего проводится голосование большинством, и выбирается тот ответ, который чаще попадался. Важно понимать, что это не означает, что система даёт 16 ответов с 16 попыток — попытка одна, а maj позволяет выбрать один ответ, который модели кажется наиболее правильным.
MathΣtral — компактная модель размера 7B, по архитектуре эквивалентная ранним релизам компании. Её доучили на решение сложных математических задач, требующих комплексных, многосутпенчатых логических рассуждений.
На MMLU модель показывает прирост более чем в 10% в отдельных под-категориях, и целых 15% в элементарной математике, физических задачах старшей школы/колледжей и, внезапно, машинном обучении.
Модель справилась с 2мя задачами из 30 на American Invitational Mathematics Examination (AIME). Это второй из трёх этапов отбора команды на международную олимпиаду по математике в США — тут задачки уже поинтереснее, но всё ещё не как на финалах. Кажется, что 2 задачи это мало, но из моделей сопоставимого размера лишь китайский Qwen 2 7B тоже решает 2; большинство остальных — нуль.
Проценты решений задач других олимпиад можете увидеть на картинке
Модель уже доступна на HF (не торрент!). Её, кстати, делали совместно с Project Numina — это проект, члены которого также недавно выиграли соревнование AIMO по решению олимпиадных задач LLMками (писал тут). Там победное решение использовало DeepSeek Math 7B (вторая строчка в таблице). Так что при следующем запуске соревнования можно ожидать, что результат первого места ещё подскочит вверх — просто за счёт смены одной модели на другую, чуть более мощную.
Для справки: maj@16 означает, что модель независимо генерирует 16 решений на задачу, после чего проводится голосование большинством, и выбирается тот ответ, который чаще попадался. Важно понимать, что это не означает, что система даёт 16 ответов с 16 попыток — попытка одна, а maj позволяет выбрать один ответ, который модели кажется наиболее правильным.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16❤3💊2
Forwarded from whargarbl
ColorfulXL v7 is out!
https://huggingface.co/recoilme/colorfulxl
https://civitai.com/models/185258/colorfulxl
Ничего необычного, просто файнтюн обычного SDXL
https://huggingface.co/recoilme/colorfulxl
https://civitai.com/models/185258/colorfulxl
Ничего необычного, просто файнтюн обычного SDXL
🔥16👍6