MarkItDown - утилита написанная на Python для преобразования различных файлов в формат Markdown для использования с LLM и связанными с ними конвейерами анализа текста. В этом отношении она наиболее близка к
textract, но с акцентом на сохранение важной структуры и содержимого документа в формате Markdown (включая заголовки, списки, таблицы, ссылки и т. д.). Хотя вывод зачастую достаточно презентабелен и удобен для восприятия, он предназначен для использования инструментами анализа текста и может быть не лучшим вариантом для высококачественного преобразования документов для восприятия человеком.В настоящее время
MarkItDown поддерживает конвертацию из:- PowerPoint
- Word
- Exel
- Изображения (метаданные
EXIF и OCR)- Аудио (метаданные
и транскрипция речи)- HTML
- Текстовые форматы (
CSV, JSON, XML)- ZIP-файлы (перебирает содержимое)
- URL-адреса YouTube
- EPubs
- и многое другое!
https://github.com/microsoft/markitdown
опубликовано в @gitgate
#markdown #pdf #xls #doc #ppt #html #zip #epub #converter
🔥11👍7