Сингулярность, которую мы заслужили
Тут Snapchat Тян оседлала волну хайпа вокруг LLM и сделала свой аватар, разговоры с которым продаёт за шекели.
Прекрасный пример, когда можно скормить свои записи в chatGPT и voice сервис и получить дёшево и сердито доп заработок.
А я напомню ещё кейс с Клавдией и реддитом. Где чуваки создали нейротянку и продавали её нюдсы.
Ох не тем я занимаюсь. Рецепт успехаБлиновой прост: LLM+text2speech+ cool body/voice + не/много мозгов = $.
🦾🫦🍌
Тут Snapchat Тян оседлала волну хайпа вокруг LLM и сделала свой аватар, разговоры с которым продаёт за шекели.
Прекрасный пример, когда можно скормить свои записи в chatGPT и voice сервис и получить дёшево и сердито доп заработок.
А я напомню ещё кейс с Клавдией и реддитом. Где чуваки создали нейротянку и продавали её нюдсы.
Ох не тем я занимаюсь. Рецепт успеха
🦾🫦🍌
Telegram
4chan
Использование технологий там, где мы не ожидали…хотя, нет, вполне ожидали.
23-летняя Кэрин Марджори, имеющая 1,8 миллиона подписчиков в Snapchat, продавала там услуги «подруги на 10 минут» — в течении 10 минут, любой мог за бабосики пообщаться с девушкой…
23-летняя Кэрин Марджори, имеющая 1,8 миллиона подписчиков в Snapchat, продавала там услуги «подруги на 10 минут» — в течении 10 минут, любой мог за бабосики пообщаться с девушкой…
🌭11❤4⚡3❤🔥3🍌2🖕2
Картина пятничная - философская.
А задумывались ли вы, когда придёт предел данных для обучения LLM?
На минуточку, по состоянию на май 2023 модели потребляют для предобучения от 0.5 до 1.4 трлн токенов.
Насколько это много?)
Средне статистическая книга содержит около 50к слов или 67к токенов, 1 триллион токенов это 15 млн книг!
При этом, скорость генерации сообществом интернета данных может оказаться меньше скорости потребления этих данных /роста сетов потребляемых для обучения (Villalobos et al, 2022)
Также, стоит отметить, что растёт объем данных генерируемый уже GPTlike моделями и в какой-то момент ( и уже видим сейчас) новые и новые генерации LLM не только будут содержать весь допустимый контент, но и тексты полученные из иных моделей.
В такой парадигме, где мы кормим больше и больше знаний о мире в LLM, можем прийти к моменту, когда владельцы закрытых данных смогут выйти на арену и иметь своё преимущество.
Поэтому, видимо, кто владеет информацией - владеет миром. Будет ещё долго не пустым звуком.
А что думаете об этом Вы?
А задумывались ли вы, когда придёт предел данных для обучения LLM?
На минуточку, по состоянию на май 2023 модели потребляют для предобучения от 0.5 до 1.4 трлн токенов.
Насколько это много?)
Средне статистическая книга содержит около 50к слов или 67к токенов, 1 триллион токенов это 15 млн книг!
При этом, скорость генерации сообществом интернета данных может оказаться меньше скорости потребления этих данных /роста сетов потребляемых для обучения (Villalobos et al, 2022)
Также, стоит отметить, что растёт объем данных генерируемый уже GPTlike моделями и в какой-то момент ( и уже видим сейчас) новые и новые генерации LLM не только будут содержать весь допустимый контент, но и тексты полученные из иных моделей.
В такой парадигме, где мы кормим больше и больше знаний о мире в LLM, можем прийти к моменту, когда владельцы закрытых данных смогут выйти на арену и иметь своё преимущество.
Поэтому, видимо, кто владеет информацией - владеет миром. Будет ещё долго не пустым звуком.
А что думаете об этом Вы?
👍11❤4🖕1
Forwarded from что-то на DL-ском
Мы тут с @lovedeathtransformers подсобрали датасетик с диалогами из жизни.
Мотивация следующая: стало чет очень много инструктивных и Мега-helpful сетов на просторах hf. Но при попытке докинуть чуть человечности в модельку, оказалось, что все сеты диалоговые не такие уж и чистые((. Поэтому вдохновившись генерацией датасетов для ft на LLaMA, мы побежали к API ChatGPT генерировать затравки, а к ним диалоги, их суммаризацию и персону.
🧹 После почистили регулярными выражениями и проверили на верность формата данных каждого столбца. Персона содержит в себе «первый собеседник», чтобы было понятно чья именно, всегда можете заменить или удалить при желании.
Хотелось сделать multi task dataset, опираясь на диалоги, надеюсь у нас это получилось. Если у вас есть предложения, какие бы задачи еще можно было докинуть, welcome в комментарии
А вот и сама репа 🤗
Мотивация следующая: стало чет очень много инструктивных и Мега-helpful сетов на просторах hf. Но при попытке докинуть чуть человечности в модельку, оказалось, что все сеты диалоговые не такие уж и чистые((. Поэтому вдохновившись генерацией датасетов для ft на LLaMA, мы побежали к API ChatGPT генерировать затравки, а к ним диалоги, их суммаризацию и персону.
Хотелось сделать multi task dataset, опираясь на диалоги, надеюсь у нас это получилось. Если у вас есть предложения, какие бы задачи еще можно было докинуть, welcome в комментарии
А вот и сама репа 🤗
Please open Telegram to view this post
VIEW IN TELEGRAM
huggingface.co
zjkarina/matreshka · Datasets at Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
🔥14❤2
Больше GPT богу GPT. Ну и конечно конкуренции..
Надеюсь это не новое название Балабобы или YaLM
Говорят, YandexGPT "вышло" или нет?
UPD. Разные люди из Ya говорят, что это не тот GPT, что аналог ChatGPT. Поэтому расходимся. :(
https://yandex.ru/company/press_releases/2023/17-05-2
Надеюсь это не новое название Балабобы или YaLM
Говорят, YandexGPT "вышло" или нет?
UPD. Разные люди из Ya говорят, что это не тот GPT, что аналог ChatGPT. Поэтому расходимся. :(
https://yandex.ru/company/press_releases/2023/17-05-2
🔥4🖕1
Интересная пресс-заметка. Во-первых, YaGPT получается аналог ruGPT-3 как на Джой Sber. Далее, видимо она SFT, возможно не только диалоги/поиск/qa, но и инструкции only? Ещё замечаем, что мол, якобы, не умеет пока в контекст (см в что дальше). Крч, кому-то в PR Yandex сегодня прилетит. Ждём статьи, где будут расставлены точки над Ya..
❤3😁1🖕1
Решение алго задачек. Неплохо. Особенно порадовал локальный поиск. Собесы А секции на джуна в Ya пройти думаю можно)
🔥21❤2👍2👎2🤔1
А я напоминаю, что вчера начался датафест 2023.
Прямая трансляция индастриал секции, к примеру, по ссылке. Там же можно найти и другие.
https://xn--r1a.website/ods_habr/24
Прямая трансляция индастриал секции, к примеру, по ссылке. Там же можно найти и другие.
https://xn--r1a.website/ods_habr/24
Telegram
ODS Habr blog 🦜
Далее огненные доклады из секции "ML в производстве"!
https://www.youtube.com/live/wi4Fo6rO2vU?feature=share
https://www.youtube.com/live/wi4Fo6rO2vU?feature=share
👍4🗿1
В одном из рабочих чатов по DL NLP идёт интересная беседа.
-Половина говорит, что батч надо увеличивать при продвижении по трейну, половина, что батч надо уменьшать...
-Отсюда вывод: батч надо шатать!
Улыбнуло очень , сразу вспомнил мем для олдов:
Я твой батч труба шатал(с)
За ситуацию и мудрость спасибо: @oulenspiegel, @dayyass
-Половина говорит, что батч надо увеличивать при продвижении по трейну, половина, что батч надо уменьшать...
-Отсюда вывод: батч надо шатать!
Улыбнуло очень , сразу вспомнил мем для олдов:
Я твой батч труба шатал(с)
За ситуацию и мудрость спасибо: @oulenspiegel, @dayyass
😁25🤡5❤3
Готовится, что-то интересное. Естественно про NLP, конечно же с retrieval , ну и куда без RLHF.
Картинка - база. Расскажу офк не что-то с HuggingFace)
Ждём Вас завтра в 18-00 на трансляции DataFest2023. Трек InstructModels and RLHF для NLP.
https://youtube.com/@ODSAIRu
Картинка - база. Расскажу офк не что-то с HuggingFace)
Ждём Вас завтра в 18-00 на трансляции DataFest2023. Трек InstructModels and RLHF для NLP.
https://youtube.com/@ODSAIRu
🔥17❤2👍1
Други сегодня был крутой день. #DataFest2023 Секция InstructModels удалась.
Выступили мои хорошие знакомые и друзья. Да и сам рядом постоял, чет побухтел) надеюсь Вам понравилось.
Презентация ниже.
https://www.youtube.com/live/pgIH51zc0l4?feature=share&t=26749
Выступили мои хорошие знакомые и друзья. Да и сам рядом постоял, чет побухтел) надеюсь Вам понравилось.
Презентация ниже.
https://www.youtube.com/live/pgIH51zc0l4?feature=share&t=26749
YouTube
Data Fest 2023, день 9: online из spatial.chat
Сегодня в spatial.chat участников Феста ждет насыщенная программа нескольких секций и активностей:
Computer Vision: с 11:30 до 13:00
Practical ML Yandex: с 12:00 до 15:45
Career: с 12:30 до 18:00 (с перерывом на On-site-test)
DS Talks: с 13:00 до 14:00
MLOps:…
Computer Vision: с 11:30 до 13:00
Practical ML Yandex: с 12:00 до 15:45
Career: с 12:30 до 18:00 (с перерывом на On-site-test)
DS Talks: с 13:00 до 14:00
MLOps:…
🔥13