6 Commits

Author SHA1 Message Date
liunux4odoo
aeb7a7e93f
增加 PDF_OCR_THRESHOLD 配置项,只对宽高超过页面一定比例(图片宽/页面宽,图片高/页面高)的图片进行 OCR。 (#2525)
这样可以避免 PDF 中一些小图片的干扰,提高非扫描版 PDF 处理速度
2024-01-02 16:28:36 +08:00
liunux4odoo
67b7c99d03
ocr 支持 GPU 加速(需要手动安装 rapidocr_paddle[gpu]);知识库支持 MHTML 和 Evernote 文件。 (#2265)
在 requirements 和 Wiki 中增加对可选文档加载器 SDK 的说明 ( close #2264 )
2023-12-04 09:39:56 +08:00
imClumsyPanda
2020f5bb88 merge master 2023-09-12 15:51:28 +08:00
glide-the
b0a9d8f30e 增加显示ocr识别进度 2023-09-08 21:32:41 +08:00
roki1031
196bde3ead
提醒fitz包是来自pyMuPDF (#1407) 2023-09-08 12:20:20 +08:00
imClumsyPanda
6c4ef26e9a
add RapidOCRPDFLoader and RapidOCRLoader (#1275)
* add RapidOCRPDFLoader

* update mypdfloader.py and requirements.txt

* add myimgloader.py

* add test samples

* add TODO to mypdfloader

* add loaders to KnowledgeFile class

* add loaders to KnowledgeFile class
2023-09-01 10:23:57 +08:00