Data Secrets – Telegram

Data Secrets

77.4K subscribers

6.04K photos

593 videos

20 files

2.43K links

Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN

Download Telegram

About

Blog

Apps

Platform

77.4K subscribers

Разбор задачи об игле Бюффона

Задача была сложной, но в комментах даже удалось получить верный ответ. А теперь вашему вниманию: разбор. Объяснили подробно, чтобы точно-точно было понятно.

😻

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍43🤯13❤7

5.12K views11:53

Черт побери, Git?!

Git сложен: легко всё испортить, и нереально понять как исправить. Мы нашли сайт, на котором автор изложил несколько распространенных операций, с которыми вам (скорее всего) придется столкнуться, если вы крутитесь где-то около программирования. В комплекте:

– где у git волшебная машина времени!?!
– я закоммитил и вспомнил, что кое-что забыл!
– я случайно закоммитил что-то в мастер, хотя это должно быть в новой ветке!
– и многое другое…

Есть дипломатичная версия и не очень. Советуем второе!

😻

Please open Telegram to view this post

VIEW IN TELEGRAM

👍45🔥8❤4

6.01K viewsedited 18:29

Keep calm and use boosting

😻

Please open Telegram to view this post

VIEW IN TELEGRAM

👍85😁41🔥1

5.12K views08:46

❓

Что такое NLP и как с этим работать

NLP - эта область Data Science, которая изучает методы для автоматической работы с текстами, среди которых такие вещи как большие языковые модели и векторные представления слов. Освоить NLP сейчас – отличная инвестиция в будущее для любого IT-специалиста.

💡 Начните с бесплатного открытого урока «Прикладные методы автоматической обработки естественного языка» от OTUS.

В результате урока вы узнаете:

— основные NLP-задачи: от простой классификации спама до сложных диалоговых систем и моделей типа ChatGPT
— как обучать самые разные NLP-модели, чтобы они показывали state-of-the-art результат
— как меньше чем за час можно дообучить предобученную модель так, что она покажет результат лучше человека для некоторых NLP-задач

🎙️ Урок пройдёт 18 сентября в 18:00 мск в рамках курса «Natural Language Processing».

➡️ Пройдите бесплатное вступительное тестирование и зарегистрируйтесь на мероприятие

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, www.otus.ru

Please open Telegram to view this post

VIEW IN TELEGRAM

🗿5👍2🤔1🌚1🌭1🤪1

5.07K views13:44

Распространенное заблуждение про стандартизацию

Звучит оно так: стандартизацией можно пользоваться, чтобы устранить ассиметрию/сделать распределение нормальным. Как бы не так.

Любые данные после применения этого преобразования останутся распределенными так же, как и до этого. Нормальное распределение останется нормальным, равномерное равномерным, и так далее.

Стандартизация способна повлиять только на масштаб данных. То же самое можно сказать и про Scaling. Это нужно для того, чтобы модель была устойчивее и чувствительнее.

😻

Please open Telegram to view this post

VIEW IN TELEGRAM

👍40❤3

4.87K views15:49

Google улучшил построение маршрутов на Картах

Люди, в среднем, двигаются оптимально. На этом факте основана одна из техник построения маршрутов – обратное обучение с подкреплением. Алгоритм анализирует реальные маршруты людей и извлекает скрытые критерии, которыми народ руководствуется при выборе пути. Однако применение такого подхода в масштабах планеты затруднительно: слишком много маршрутов.

Но в Google придумали, как это пофиксить. Там изобрели новый масштабируемый алгоритм Receding Horizon Inverse Planning. Он позволил впервые применить IRL в масштабах Земли и предугадывать путь, максимально похожий на тот, который юзер выбрал бы сам.

Точность маршрутов в Google Maps в итоге выросла на 24%.

😻

Please open Telegram to view this post

VIEW IN TELEGRAM

👍50❤‍🔥5❤2🤯2

5.09K views07:19

Лемматизация и стемминг текста

Обычно тексты содержат разные грамматические формы одного и того же слова (например, "ученый" и "ученым"), а также в документе могут встречаться однокоренные слова. Как объяснить машине, что это по сути одно и то же? Для этого нужно текст нормализовать, то есть привести все встречающиеся словоформы к одной, нормальной словарной форме. Самые простой варианты это сделать – использовать стемминг и лемматизацию.

😻

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍35🔥7❤4

4.86K views10:39

Хотите выйти на новый уровень в аналитике данных?

Научитесь всему необходимому для решения своих рабочих задач на курсе «Аналитик данных» от школы karpovꓸcourses. Вы не только изучите теорию — на практических кейсах вы сможете отточить навыки работы со всеми актуальными инструментами для анализа данных.

Обучение построено на реальных задачах индустрии и проходит в формате буткемпа, когда максимум знаний даётся за минимальный срок. Преподаватели — специалисты с опытом работы в топовых IT-компаниях.

Записывайтесь на следующий поток: https://karpov.courses/analytics

Кстати, сейчас на курс скидка, а по промокоду DATA45SEC для вас действует дополнительная скидка 5% до 27 сентября.

Реклама. ООО "Карпов Курсы". Erid: LjN8K9g3h

❤11🔥5🤨4❤‍🔥2🤔2👍1⚡1

4.85K views14:03

Сегодня день программиста!

Он отмечается традиционно в 256 день года. Число 256 выбрано потому, что это количество различных значений, которые можно выразить с помощью восьмиразрядного байта.

Мы поздравляем наших подписчиков и в честь праздника показываем вам прикольную карту проектов гитхаба. Это выглядит прямо как реальная карта со странами: Питония, Джаваландия и так далее. Каждая точка на карте – это проект. Всего таких точек более чем 400к. ИИландия тоже имеется.

Нашли свой репозиторий?

😻

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍33❤‍🔥7🔥5😁2

5.64K views16:12

Финские заключенные будут размечать данные для моделей

Работа заключается в чтении текста и ответах на вопросы. По факту – это обучение LLM от финского стартапа Metroc. За маркировку данных заключенные будут получать 1,67$ в час.

😻

Please open Telegram to view this post

VIEW IN TELEGRAM

👍58😁26🌭5❤3🔥1

6.34K views07:30

Ошибка 1-го и 2-го рода? А может лучше 7-го и 8-го?

А вы знали, что помимо известных всем ошибок первого и второго рода есть и другие виды статистических ошибок? Их достаточно много: целых 9. Вот они все, ~~справа налево~~ сверху вниз.

😻

Please open Telegram to view this post

VIEW IN TELEGRAM

🤯46😁25👍7❤2🔥1

5.74K views11:23

rules_of_ml.pdf

Что почитать на выходных: руководство от Google "Как делать ML"

Это Best Practices ML System Design бигтеха, священные скрижали «как делать нужно» и «как делать не нужно». Не обращайте внимание на то, что документу много лет. Он все еще как новый. Для тех, кто готов преисполниться.

😻

Please open Telegram to view this post

VIEW IN TELEGRAM

👍43🫡9❤2

8.38K views15:49

Нормальный такой мем

😻

Please open Telegram to view this post

VIEW IN TELEGRAM

👍71😁18🐳9❤6🔥4🌭1

5.75K views07:08