Лемматизация и стемминг текста
Обычно тексты содержат разные грамматические формы одного и того же слова (например, "ученый" и "ученым"), а также в документе могут встречаться однокоренные слова. Как объяснить машине, что это по сути одно и то же? Для этого нужно текст нормализовать, то есть привести все встречающиеся словоформы к одной, нормальной словарной форме. Самые простой варианты это сделать – использовать стемминг и лемматизацию.
😻 #NN #train
Обычно тексты содержат разные грамматические формы одного и того же слова (например, "ученый" и "ученым"), а также в документе могут встречаться однокоренные слова. Как объяснить машине, что это по сути одно и то же? Для этого нужно текст нормализовать, то есть привести все встречающиеся словоформы к одной, нормальной словарной форме. Самые простой варианты это сделать – использовать стемминг и лемматизацию.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍35🔥7❤4
Хотите выйти на новый уровень в аналитике данных?
Научитесь всему необходимому для решения своих рабочих задач на курсе «Аналитик данных» от школы karpovꓸcourses. Вы не только изучите теорию — на практических кейсах вы сможете отточить навыки работы со всеми актуальными инструментами для анализа данных.
Обучение построено на реальных задачах индустрии и проходит в формате буткемпа, когда максимум знаний даётся за минимальный срок. Преподаватели — специалисты с опытом работы в топовых IT-компаниях.
Записывайтесь на следующий поток: https://karpov.courses/analytics
Кстати, сейчас на курс скидка, а по промокоду DATA45SEC для вас действует дополнительная скидка 5% до 27 сентября.
Реклама. ООО "Карпов Курсы". Erid: LjN8K9g3h
Научитесь всему необходимому для решения своих рабочих задач на курсе «Аналитик данных» от школы karpovꓸcourses. Вы не только изучите теорию — на практических кейсах вы сможете отточить навыки работы со всеми актуальными инструментами для анализа данных.
Обучение построено на реальных задачах индустрии и проходит в формате буткемпа, когда максимум знаний даётся за минимальный срок. Преподаватели — специалисты с опытом работы в топовых IT-компаниях.
Записывайтесь на следующий поток: https://karpov.courses/analytics
Кстати, сейчас на курс скидка, а по промокоду DATA45SEC для вас действует дополнительная скидка 5% до 27 сентября.
Реклама. ООО "Карпов Курсы". Erid: LjN8K9g3h
❤11🔥5🤨4❤🔥2🤔2👍1⚡1
Сегодня день программиста!
Он отмечается традиционно в 256 день года. Число 256 выбрано потому, что это количество различных значений, которые можно выразить с помощью восьмиразрядного байта.
Мы поздравляем наших подписчиков и в честь праздника показываем вам прикольную карту проектов гитхаба. Это выглядит прямо как реальная карта со странами: Питония, Джаваландия и так далее. Каждая точка на карте – это проект. Всего таких точек более чем 400к. ИИландия тоже имеется.
Нашли свой репозиторий?
😻 #forfun
Он отмечается традиционно в 256 день года. Число 256 выбрано потому, что это количество различных значений, которые можно выразить с помощью восьмиразрядного байта.
Мы поздравляем наших подписчиков и в честь праздника показываем вам прикольную карту проектов гитхаба. Это выглядит прямо как реальная карта со странами: Питония, Джаваландия и так далее. Каждая точка на карте – это проект. Всего таких точек более чем 400к. ИИландия тоже имеется.
Нашли свой репозиторий?
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍33❤🔥7🔥5😁2
Финские заключенные будут размечать данные для моделей
Работа заключается в чтении текста и ответах на вопросы. По факту – это обучение LLM от финского стартапа Metroc. За маркировку данных заключенные будут получать 1,67$ в час.
😻 #memes
Работа заключается в чтении текста и ответах на вопросы. По факту – это обучение LLM от финского стартапа Metroc. За маркировку данных заключенные будут получать 1,67$ в час.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍58😁26🌭5❤3🔥1
Ошибка 1-го и 2-го рода? А может лучше 7-го и 8-го?
А вы знали, что помимо известных всем ошибок первого и второго рода есть и другие виды статистических ошибок? Их достаточно много: целых 9. Вот они все,справа налево сверху вниз.
😻 #analytics
А вы знали, что помимо известных всем ошибок первого и второго рода есть и другие виды статистических ошибок? Их достаточно много: целых 9. Вот они все,
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯46😁25👍7❤2🔥1
rules_of_ml.pdf
449.5 KB
Что почитать на выходных: руководство от Google "Как делать ML"
Это Best Practices ML System Design бигтеха, священные скрижали «как делать нужно» и «как делать не нужно». Не обращайте внимание на то, что документу много лет. Он все еще как новый. Для тех, кто готов преисполниться.
😻 #advice
Это Best Practices ML System Design бигтеха, священные скрижали «как делать нужно» и «как делать не нужно». Не обращайте внимание на то, что документу много лет. Он все еще как новый. Для тех, кто готов преисполниться.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍43🫡9❤2
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍30❤4🔥4☃3⚡2
Итак, важный вопрос:
Может ли ИИистребить человечество выйти из-под контроля, и если да, то когда? Нам интересно ваше мнение, пишите в коменты 👇
Может ли ИИ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🤔2
This media is not supported in your browser
VIEW IN TELEGRAM
Беспилотные автомобили научили объяснять свои действия с помощью естественного языка
Специалисты из Британского стартапа Wayve обучили модель, которая позволяет спросить машину, почему она приняла то или иное решение, и получить короткое и понятное объяснение.
Компания объединила существующее ПО беспилотных авто с большой языковой моделью, создав гибрид, который они называет LINGO-1. LINGO-1 синхронизирует видеоданные и действия машины с описаниями на естественном языке, которые фиксируют то, что видит автомобиль и что он делает.
😻 #news
Специалисты из Британского стартапа Wayve обучили модель, которая позволяет спросить машину, почему она приняла то или иное решение, и получить короткое и понятное объяснение.
Компания объединила существующее ПО беспилотных авто с большой языковой моделью, создав гибрид, который они называет LINGO-1. LINGO-1 синхронизирует видеоданные и действия машины с описаниями на естественном языке, которые фиксируют то, что видит автомобиль и что он делает.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍29🔥22❤7
Coca-Cola выпустила лимитированную линейку продукции co-created with AI
Вкус этой газировки был придуман с помощью искусственного интеллекта. Конкретный вкус компания не раскрывает, но хвастается, что это «первый футуристический вкус», созданный в сотрудничестве человека с нейросетями.
Так что это за вкус, ваши предположения?
😻 #news
Вкус этой газировки был придуман с помощью искусственного интеллекта. Конкретный вкус компания не раскрывает, но хвастается, что это «первый футуристический вкус», созданный в сотрудничестве человека с нейросетями.
Так что это за вкус, ваши предположения?
Please open Telegram to view this post
VIEW IN TELEGRAM
👍33❤7🌭7🌚1
Numexpr: многопоточная альтернатива Numpy
NumPy, несомненно, бодр и оптимизирован. Тем не менее, он не поддерживает распараллеливание ни в каком виде. А это огромный простор для улучшений. Поэтому придумали Numexpr. По синтаксису он похож на своего старшего товарища, но предлагает две сильные дополнительные фичи:
– многопоточность
– сокращение выделения памяти на промежуточные результаты
На железе с большим количеством ядер и на больших массивах Numexpr может работать в 20 раз быстрее numpy.
👩💻 Документация
😻 #python
NumPy, несомненно, бодр и оптимизирован. Тем не менее, он не поддерживает распараллеливание ни в каком виде. А это огромный простор для улучшений. Поэтому придумали Numexpr. По синтаксису он похож на своего старшего товарища, но предлагает две сильные дополнительные фичи:
– многопоточность
– сокращение выделения памяти на промежуточные результаты
На железе с большим количеством ядер и на больших массивах Numexpr может работать в 20 раз быстрее numpy.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍52🔥18❤2🤔2