Big Data AI
17K subscribers
939 photos
122 videos
19 files
934 links
@haarrp - админ

Вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейроннным сетям

@data_analysis_ml - анализ данных

@ai_machinelearning_big_data

@itchannels_telegram - важное для программиста

РКН: clck.ru/3Fmqxe
Download Telegram
🧩 Высокопроизводительный инструмент для дедупликации текста

Этот репозиторий предлагает оптимизированное решение для удаления дубликатов в больших текстовых наборах. Он сочетает в себе точную дедупликацию с помощью Content-Defined Chunking и обнаружение почти идентичных документов с использованием SimHash и Faiss. Сердце проекта написано на C++ и использует параллельные вычисления для максимальной производительности.

🚀 Основные моменты:
- Многоступенчатая дедупликация: точная и почти идентичная.
- Высокопроизводительный C++ код с параллельной обработкой.
- Интеграция с Python через чистый API.
- Эффективен для очистки данных перед обучением моделей.

📌 GitHub: https://github.com/conanhujinming/text_dedup

#cpp
4🔥3🥰1
🚀 Эффективный фреймворк для сетевых приложений на C++23

asyncio — это фреймворк для создания сетевых компонентов с использованием корутин C++20 и событийного цикла libuv. Он упрощает взаимодействие между задачами через каналы, обеспечивая высокую производительность и простоту в использовании.

🚀 Основные моменты:
- Поддержка корутин для асинхронного программирования.
- Использует события libuv для обработки сетевых операций.
- Легкая интеграция с другими библиотеками через vcpkg.

📌 GitHub: https://github.com/Hackerl/asyncio

#cpp
👍2