📝 Редактирование PDF с помощью ИИ 🚀
Nano PDF - это инструмент командной строки для редактирования PDF-документов с использованием естественного языка. Он позволяет вносить изменения в слайды, добавлять новые и сохранять текстовый слой с помощью OCR. Работает на базе модели Gemini 3 Pro Image.
🚀 Основные моменты:
- Редактирование слайдов по текстовым командам
- Генерация новых слайдов в стиле существующих
- Поддержка многопоточной обработки для повышения скорости
- Сохранение текстового слоя с помощью OCR
📌 GitHub: https://github.com/gavrielc/Nano-PDF
#python
Nano PDF - это инструмент командной строки для редактирования PDF-документов с использованием естественного языка. Он позволяет вносить изменения в слайды, добавлять новые и сохранять текстовый слой с помощью OCR. Работает на базе модели Gemini 3 Pro Image.
🚀 Основные моменты:
- Редактирование слайдов по текстовым командам
- Генерация новых слайдов в стиле существующих
- Поддержка многопоточной обработки для повышения скорости
- Сохранение текстового слоя с помощью OCR
📌 GitHub: https://github.com/gavrielc/Nano-PDF
#python
❤5🔥3
🎤 Инновационная система распознавания речи Fun-ASR
Fun-ASR — мощная модель распознавания речи, обученная на миллионах часов аудиоданных. Она поддерживает 31 язык и обеспечивает высокую точность в сложных условиях, таких как шумные помещения. Модель адаптирована для профессиональных терминов в таких областях, как образование и финансы.
🚀 Основные моменты:
- Высокая точность распознавания до 93% в шумных условиях.
- Поддержка 31 языка с акцентом на восточноазиатские языки.
- Оптимизация для распознавания диалектов и региональных акцентов.
- Способность распознавать текст песен на фоне музыки.
📌 GitHub: https://github.com/FunAudioLLM/Fun-ASR
@pythonl
#python
Fun-ASR — мощная модель распознавания речи, обученная на миллионах часов аудиоданных. Она поддерживает 31 язык и обеспечивает высокую точность в сложных условиях, таких как шумные помещения. Модель адаптирована для профессиональных терминов в таких областях, как образование и финансы.
🚀 Основные моменты:
- Высокая точность распознавания до 93% в шумных условиях.
- Поддержка 31 языка с акцентом на восточноазиатские языки.
- Оптимизация для распознавания диалектов и региональных акцентов.
- Способность распознавать текст песен на фоне музыки.
📌 GitHub: https://github.com/FunAudioLLM/Fun-ASR
@pythonl
#python
❤8🔥8👍1
📄🚀 Qwen-Doc: Открытые проекты по пониманию документов
Qwen-Doc — это репозиторий, посвященный ИИ для работы с документами, разработанный командой Tongyi-Zhiwen. Здесь собраны исследования и практики, направленные на улучшение обработки сложных документов с помощью современных технологий, включая обучение с подкреплением и долгосрочное понимание контекста.
🚀Основные моменты:
- Модели для долгосрочного понимания документов.
- Использование обучения с подкреплением для улучшения ИИ.
- Открытые данные и методологии для сообщества.
- Проекты QwenLong-L1 и QwenLong-L1.5 с передовыми алгоритмами.
- FRAMEWORK SPELL для автономного генерации обучающих данных.
📌 GitHub: https://github.com/Tongyi-Zhiwen/Qwen-Doc
#python
Qwen-Doc — это репозиторий, посвященный ИИ для работы с документами, разработанный командой Tongyi-Zhiwen. Здесь собраны исследования и практики, направленные на улучшение обработки сложных документов с помощью современных технологий, включая обучение с подкреплением и долгосрочное понимание контекста.
🚀Основные моменты:
- Модели для долгосрочного понимания документов.
- Использование обучения с подкреплением для улучшения ИИ.
- Открытые данные и методологии для сообщества.
- Проекты QwenLong-L1 и QwenLong-L1.5 с передовыми алгоритмами.
- FRAMEWORK SPELL для автономного генерации обучающих данных.
📌 GitHub: https://github.com/Tongyi-Zhiwen/Qwen-Doc
#python
❤9👍5🔥4🤩1