🧩 Высокопроизводительный инструмент для дедупликации текста
Этот репозиторий предлагает оптимизированное решение для удаления дубликатов в больших текстовых наборах. Он сочетает в себе точную дедупликацию с помощью Content-Defined Chunking и обнаружение почти идентичных документов с использованием SimHash и Faiss. Сердце проекта написано на C++ и использует параллельные вычисления для максимальной производительности.
🚀 Основные моменты:
- Многоступенчатая дедупликация: точная и почти идентичная.
- Высокопроизводительный C++ код с параллельной обработкой.
- Интеграция с Python через чистый API.
- Эффективен для очистки данных перед обучением моделей.
📌 GitHub: https://github.com/conanhujinming/text_dedup
#cpp
Этот репозиторий предлагает оптимизированное решение для удаления дубликатов в больших текстовых наборах. Он сочетает в себе точную дедупликацию с помощью Content-Defined Chunking и обнаружение почти идентичных документов с использованием SimHash и Faiss. Сердце проекта написано на C++ и использует параллельные вычисления для максимальной производительности.
🚀 Основные моменты:
- Многоступенчатая дедупликация: точная и почти идентичная.
- Высокопроизводительный C++ код с параллельной обработкой.
- Интеграция с Python через чистый API.
- Эффективен для очистки данных перед обучением моделей.
📌 GitHub: https://github.com/conanhujinming/text_dedup
#cpp
GitHub
GitHub - conanhujinming/text_dedup: High-Performance Text Deduplication Toolkit
High-Performance Text Deduplication Toolkit. Contribute to conanhujinming/text_dedup development by creating an account on GitHub.
❤4🔥3🥰1