Love. Death. Transformers.
22.5K subscribers
4.27K photos
499 videos
76 files
2.79K links
❤️☠️🤗

Указанные действия не являются ресерчем, поскольку:
а) Мы не ученые;
б) Оно работает.
@transformerslovedeatch по всем вопросам
Все ситуации вымышлены, любые совпадения с реальности плот вашей фантазии.
Download Telegram
https://mccme.ru/dubna/2024/

приближается ЛШСМ-2024 (доступно расписание, анонсы курсов; планируются прямые трансляции большинства пленарных лекций)

утром в субботу всё начнется с лекции А.А.Разборова про арифметическую комбинаторику и лекции С.К.Смирнова про замощения
🔥193💩2👍1
Love. Death. Transformers.
https://www.reddit.com/r/LocalLLaMA/comments/1ceh5cp/gpt2chatbot_at_lmsys_chatbot_arena/
После ухода Ильи суцкевера в опен АИ разучились рисовать график роста параматров и вышла gpt4o-mini.
Дешевле всего что есть на рынке(15c,60с) на вход и выход за 1м токенов, подозреваю что сопоставима со страшим опенсурсом по качеству.

Blog
👍385😢2👎11
😁13727101👍1
Forwarded from NLP Wanderer
GrandMaster-PRO-MAX - Первый крупный высококачественный русскоязычный SFT датасет

Совместно с Vikhrmodels, представляю вам датасет для инструктивного обучения LLM полученный не с помощью переводов ответов моделей с английского языка. Он диверсифицирован по темам и позволяет моделям следовать самым разным инструкциям на разных языках (в основном на русском) и отвечать, так же, в основном на русском языке.

Ответы за ассистента в этом датасете полностью сгенерированы GPT-4-Turbo-1106 с нуля по исходным инструкциям от пользователя. Это позволило получить очень качественный русский язык в ответах без артефактов перевода. Исходные инструкции были взяты из различных источников, в том числе синтетических для подкрепления отдельных способностей вроде математики, программирования, следования формату и тд.

Кроме того, характерной особенностью является то, что модели обученные на этом датасете будут иметь уже "вшитую" способность к Chaint-Of-Thought (CoT), за счет использования более сложного промпта для генерации большинства ответов (подробнее в карточке датасета).

Содержит примерно 142 тысячи уникальных пар инструкция - ответ. Денежный эквивалент генерации такого датасета с нуля - около 4к долларов.
🔥6812👍11🤡2🥴2🤔1
Я впервые с начала войны двигаю на конфу, если вы будете на icml - присоединяйтесь к чату сходки
https://xn--r1a.website/+QfAm2S9Ll_FjZTYy


Слушаем охуительный "за границей" от "второй ка"
👍40🤡238❤‍🔥3🔥2
🚀 Если Вам интересно машинное обучение и/или математика - приглашаем Вас принять участие в проекте по применению методов МЛ/RL к теории групп/графов Кэли - напишите @alexander_v_c - если хотите принять участие, а также заходите на вводный вебинар (знаний теории групп не требуется):

👨‍🔬 Александр Червов (к.ф.-м.н) "Методы МЛ в теории групп - введение и обзор достигнутого"
⌚️ Понедельник 22 июля, 18.00 (по Москве)

Методы машинного обучения могут быть применены к ряду классических задач теории групп - разложение элемента по образующим, оценки диаметра. Мы приглашаем принять всех участие в данном проекте. Предварительное требование - знание Питона и наличие нескольких свободных часов в неделю. Если вы хотите улучшить свои знания по МЛ/RL и внести вклад в развитие науки - это отличный шанс .

В данном докладе мы простым языком объясним формулировки основных задач, и как задачи теории групп переводятся на язык машинного обучения. Предварительных знаний не требуется. Также, мы дадим обзор уже достигнутых результатов - в частности для группы порядка 4*10^19 (Rubik cube) нам уже удается находить решение задачи за минуты , а не 40 часов ГПУ как было в предыдущей работе "DeepCube".

План доклада:

1 Переформулировка основной задачи на простом языке матриц

2 Матрицы перестановок и группы типа кубика Рубика (см. ноутбук "Visualize allowed moves": https://www.kaggle.com/code/marksix/visualize-allowed-moves )

3 Графы Кэли и переформулировка основной задачи как поиск пути на графе

4 Случайные блуждания по графам - создание трейн сета для МЛ-модели

5 Подход к решению задач теории групп через машинное обучение. Оценка дистанции до цели через МЛ-модель и проблема наличия множественных локальных минимумов у этой оценки

6 Beam search. (Один из вариантов борьбы с застреваниями в локальных минимумах)

7 Бейзлайн реализация: МЛ+ Beam search - ноутбук: https://www.kaggle.com/code/alexandervc/baseline-1-for-permutations - решение кубика Рубика за пару минут

8 Cледующие шаги: RL-часть, улучшение нейросеток, улучшение трейн сета, улучшение beam search

Добавляйтесь в группу проекта: https://xn--r1a.website/sberlogasci/10989 и пишите @alexander_v_c - если Вам интересно !

PS

См. также предыдущий вводный доклад:
https://xn--r1a.website/sberlogasci/10989/15283 "Введение в методы поиска короткого пути на больших графах" (Кирилл Хоружий )

Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe !
🔥23👍76
This media is not supported in your browser
VIEW IN TELEGRAM
Новый робот от китайцев из unitree теперь и с колесами!!
🔥6894👾1
Forwarded from Kali Novskaya (Tatiana Shavrina)
Завтра выступаю на воркшопе ICML в 12:30 по мск, можно зарегистрироваться послушать бесплатно.
Towards Full Linguistic Diversity in Language Models
The 7th workshop on Neural Scaling Laws
🟣Расписание
🟣Регистрация на воркшоп
Please open Telegram to view this post
VIEW IN TELEGRAM
👍40🤡30🥴63👎3
Почему в России до сих пор нет Research Z?

Что за omutai(типа топится?)
🤡75😁16🔥5🤔5👍2
💊52😁194