Препарируем TF-IDF
TF-IDF – это статистическая мера, используемая для оценки важности слова в контексте одного документа из корпуса. TF-IDF часто используют для получения эмбеддингов в поисковиках и иногда даже полномасштабных NLP задачах.
С частью TF все понятно – это отношение числа вхождений некоторого слова к общему числу слов документа. Ничего не предвещает беды, но тут появляется IDF – инверсия частоты, с которой некоторое слово встречается в документах. Что за инверсия? Откуда там логарифм? Что происходит? Объясняем.
P.S. Кстати, вот статья, где впервые был предложен IDF: "A statistical interpretation of term specificity and its application in retrieval" (Spärck Jones, 1972).
😻 #train #NN
TF-IDF – это статистическая мера, используемая для оценки важности слова в контексте одного документа из корпуса. TF-IDF часто используют для получения эмбеддингов в поисковиках и иногда даже полномасштабных NLP задачах.
С частью TF все понятно – это отношение числа вхождений некоторого слова к общему числу слов документа. Ничего не предвещает беды, но тут появляется IDF – инверсия частоты, с которой некоторое слово встречается в документах. Что за инверсия? Откуда там логарифм? Что происходит? Объясняем.
P.S. Кстати, вот статья, где впервые был предложен IDF: "A statistical interpretation of term specificity and its application in retrieval" (Spärck Jones, 1972).
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍29❤5🔥4🤯1
Разработчики компании Wayve выкатили интересную нейросеть для автопилота в машинах
Она генерирует реалистичные видео с дорог используя видео, промпт и ввод действий. Подход похож на тот, что используют LLM: последующие кадры генерируются авторегрессионно. Особенно они хвастаются своими генеративными правилами реального мира. То есть ребята зашили в модельку не просто стандартный генеративный подход, а еще и правила вождения, габариты разных машин и так далее, и это делает модель очень гибкой. Кроме того, модель генерирует не единственный возможный исход, а несколько.
Разработчики обещают больше новостей в ближайшие месяцы, так что следим внимательно.
😻 #news
Она генерирует реалистичные видео с дорог используя видео, промпт и ввод действий. Подход похож на тот, что используют LLM: последующие кадры генерируются авторегрессионно. Особенно они хвастаются своими генеративными правилами реального мира. То есть ребята зашили в модельку не просто стандартный генеративный подход, а еще и правила вождения, габариты разных машин и так далее, и это делает модель очень гибкой. Кроме того, модель генерирует не единственный возможный исход, а несколько.
Разработчики обещают больше новостей в ближайшие месяцы, так что следим внимательно.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍20❤7🔥4
Лучшие мемы за 2023 год
по нашему мнению
1. https://xn--r1a.website/data_secrets/436
2. https://xn--r1a.website/data_secrets/455
3. https://xn--r1a.website/data_secrets/530
4. https://xn--r1a.website/data_secrets/919
5. https://xn--r1a.website/data_secrets/1528
😻 #memes
по нашему мнению
1. https://xn--r1a.website/data_secrets/436
2. https://xn--r1a.website/data_secrets/455
3. https://xn--r1a.website/data_secrets/530
4. https://xn--r1a.website/data_secrets/919
5. https://xn--r1a.website/data_secrets/1528
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍39🔥11❤🔥4🤩3
Разбираем еще два антипаттерна pandas
Для этого решим одну и ту же задачу тремя разными способами. Они будут, как в сказке:
– старший умный был детина:
– средний сын и так и сяк:
– младший вовсе был дурак:
😻 #python
Для этого решим одну и ту же задачу тремя разными способами. Они будут, как в сказке:
– старший умный был детина:
использование np.where() и np.isin()
– средний сын и так и сяк:
использование apply()
– младший вовсе был дурак:
решение в цикле
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍61🔥24
Чит-лист по теории вероятности и статистике
Им поделился с нами подписчик в предложке (@data_secrets_bot), и тут есть почти все, от определения вероятности до характеристических функций распределений и ЦПТ. Основные распределения, теоремы, определения, формулы – одним словом прелесть.
В общем, мы уже печатаем и вешаем на стенку, а вы?
😻 #advice
Им поделился с нами подписчик в предложке (@data_secrets_bot), и тут есть почти все, от определения вероятности до характеристических функций распределений и ЦПТ. Основные распределения, теоремы, определения, формулы – одним словом прелесть.
В общем, мы уже печатаем и вешаем на стенку, а вы?
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍45🔥14👏5❤2
Про неочевидные тонкости обучения для несбалансированных классов
В задаче классификации данные называются несбалансированными (Imbalanced Data), если в обучающей выборке доли объектов разных классов существенно различаются, также говорят, что «классы не сбалансированы». Вопрос вот какой: что делать в такой ситуации?
Такой вопрос часто задают на собеседованиях, есть блог-заметки и ютуб-ролики на эту тему, почти все они дают ложное представление о дисбалансе. Обычно рекомендуют давать такой ответ – надо сделать перебалансировку данных. Сейчас поговорим о том, что подобный ответ не учитывает теорию и практику классификации.
😻 #train
В задаче классификации данные называются несбалансированными (Imbalanced Data), если в обучающей выборке доли объектов разных классов существенно различаются, также говорят, что «классы не сбалансированы». Вопрос вот какой: что делать в такой ситуации?
Такой вопрос часто задают на собеседованиях, есть блог-заметки и ютуб-ролики на эту тему, почти все они дают ложное представление о дисбалансе. Обычно рекомендуют давать такой ответ – надо сделать перебалансировку данных. Сейчас поговорим о том, что подобный ответ не учитывает теорию и практику классификации.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍33❤4