5 способов векторизации текста
Машина не понимают человеческого языка. В конечном итоге они работают только с числами. Чтобы заставить машину понять речь, ее тоже надо перевести в набор чисел – векторы. Это называется векторизация или получение эмбеддингов. Способов провести векторизацию много. Сегодня обзорно рассказывает про некоторые опорные в порядке их появления в науке.
😻 #NN #train
Машина не понимают человеческого языка. В конечном итоге они работают только с числами. Чтобы заставить машину понять речь, ее тоже надо перевести в набор чисел – векторы. Это называется векторизация или получение эмбеддингов. Способов провести векторизацию много. Сегодня обзорно рассказывает про некоторые опорные в порядке их появления в науке.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍34❤8🤯3
Gradient Checkpointing: сокращение использования памяти при обучении нейросетей на 60%
Нейронные сети в основном используют память двумя способами:
• Сохранение весов модели.
• Вычисление и сохранения активаций всех слоев при прямом проходе + вычисление градиентов на каждом слое при обратном проходе
То есть чем больше сеть, тем сложнее впихнуть ее в память. Но есть способ это оптимизировать: Gradient Checkpointing (вот он в PyTorch). Рассказываем, что это такое.
😻 #NN
Нейронные сети в основном используют память двумя способами:
• Сохранение весов модели.
• Вычисление и сохранения активаций всех слоев при прямом проходе + вычисление градиентов на каждом слое при обратном проходе
То есть чем больше сеть, тем сложнее впихнуть ее в память. Но есть способ это оптимизировать: Gradient Checkpointing (вот он в PyTorch). Рассказываем, что это такое.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍29❤8🔥6🤯3
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥33👍10🤔3
Любая LSTM – это своего рода RNN. Но не любая RNN – LSTM ☝️
Так в чем же разница и чем LSTM лучше RNN (про эту архитектуру мы говорили тут)? Разбираемся и рассказываем, как работает LSTM.
😻 #NN
Так в чем же разница и чем LSTM лучше RNN (про эту архитектуру мы говорили тут)? Разбираемся и рассказываем, как работает LSTM.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍25❤5
Лемматизация и стемминг текста
Обычно тексты содержат разные грамматические формы одного и того же слова (например, "ученый" и "ученым"), а также в документе могут встречаться однокоренные слова. Как объяснить машине, что это по сути одно и то же? Для этого нужно текст нормализовать, то есть привести все встречающиеся словоформы к одной, нормальной словарной форме. Самые простой варианты это сделать – использовать стемминг и лемматизацию.
😻 #NN #train
Обычно тексты содержат разные грамматические формы одного и того же слова (например, "ученый" и "ученым"), а также в документе могут встречаться однокоренные слова. Как объяснить машине, что это по сути одно и то же? Для этого нужно текст нормализовать, то есть привести все встречающиеся словоформы к одной, нормальной словарной форме. Самые простой варианты это сделать – использовать стемминг и лемматизацию.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍35🔥7❤4
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍30❤4🔥4☃3⚡2