Data Secrets

Ставь 🗿, если тоже плакал в конце

😻

#memes

Please open Telegram to view this post

VIEW IN TELEGRAM

🗿236😁36🔥25🍌8😐4👍3🌚3🤯2🙈2🤗2💅1

7.33K views07:24

Data Secrets

Кодирование категориальных переменных: Frequency Encoding

Люди умеют разговаривать на языке категорий: мы понимаем, что такое, например, “синий” и “красный”. А машины различают только числа. Чтобы найти общий язык, нам нужен переводчик. Рассказываем про кодирование категориальных переменных и один из вариантов “перевода”.

😻

#train

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍40❤4

6.19K views13:08

Data Secrets

Вышла статья, в которой авторы придумали, как прикрутить GPT-4 к модели генерации изображений по тексту

Идеальный мир: берём GPT-4, получаем эмбеддинги текста, отдаём их модели, которая генерирует текст. Зачем? Потому что чем круче такой энкодер, тем круче в итоге генерации. А GPT-4 – наш state of the art.

Но есть проблема: GPT-4 не открытая модель. Казалось бы, на этом моменте мечты рушатся. Но нет.

Авторы статьи предлагают подойти к проблеме с другой стороны. Они говорят: зачем нам эмбеддинги, если можно сразу генерировать с помощью GPT-4 векторную картинку формата TikZ по запросу (и при этом отличного качества)? А потом просто отправляем промпт и TikZ в ControlNet и радуемся!

Гениально, не правда ли?

😻

#news

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍30❤7😐3🤯2🙈2

6.49K views17:16

Data Secrets

Центральная предельная теорема и почему она так важна

Сначала объясним интуитивно, потом добавим щепотку математики, приправим примером, а на десерт объясним, почему ЦПТ так важна.

😻

#math

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍72❤‍🔥14❤6🤯1

6.87K views10:27

Data Secrets

0:22

This media is not supported in your browser

VIEW IN TELEGRAM

В Нью-Йорке на улицу выпустили робота, который работал на базе ChatGPT, чтобы он мог поговорить с людьми. Но один из прохожих оказался к такому явно не готов и геройски остановил восстание машин...

😻

#memes

Please open Telegram to view this post

VIEW IN TELEGRAM

😁53😨21😐9👍5❤4😈3🗿2

8.44K views14:37

Data Secrets

Бесплатные курсы по нейронкам с Hugging Face

Для тех, кто грокает нейросети (особенно трансформеры), на платформе Hugging Face есть несколько классных бесплатных курсов.

Например, совсем недавно вышел курс по работе с аудио (задачи распознавания, генерации, классификации).

Кроме того, есть курс по диффузионным нейросеткам и курс по NLP. А самое интересное – это их Deep RL Course. Советуем!

😻

#advice

Please open Telegram to view this post

VIEW IN TELEGRAM

👍50❤10

8.45K viewsedited 17:08

Data Secrets

Препарируем TF-IDF

TF-IDF – это статистическая мера, используемая для оценки важности слова в контексте одного документа из корпуса. TF-IDF часто используют для получения эмбеддингов в поисковиках и иногда даже полномасштабных NLP задачах.

С частью TF все понятно – это отношение числа вхождений некоторого слова к общему числу слов документа. Ничего не предвещает беды, но тут появляется IDF – инверсия частоты, с которой некоторое слово встречается в документах. Что за инверсия? Откуда там логарифм? Что происходит? Объясняем.

P.S. Кстати, вот статья, где впервые был предложен IDF: "A statistical interpretation of term specificity and its application in retrieval" (Spärck Jones, 1972).

😻

#train #NN

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍29❤5🔥4🤯1

6.65K views09:11

Data Secrets

Разработчики компании Wayve выкатили интересную нейросеть для автопилота в машинах

Она генерирует реалистичные видео с дорог используя видео, промпт и ввод действий. Подход похож на тот, что используют LLM: последующие кадры генерируются авторегрессионно. Особенно они хвастаются своими генеративными правилами реального мира. То есть ребята зашили в модельку не просто стандартный генеративный подход, а еще и правила вождения, габариты разных машин и так далее, и это делает модель очень гибкой. Кроме того, модель генерирует не единственный возможный исход, а несколько.

Разработчики обещают больше новостей в ближайшие месяцы, так что следим внимательно.

😻

#news

Please open Telegram to view this post

VIEW IN TELEGRAM

👍20❤7🔥4

6.17K views14:21

Data Secrets