Langchain-Chatchat/test_pdf.py at dd93837343b3e56bb6b7931377dfc4f2472dffee - Langchain-Chatchat - Gitea4PDT

RYDE-WORK/Langchain-Chatchat

mirror of https://github.com/RYDE-WORK/Langchain-Chatchat.git synced 2026-01-19 21:37:20 +08:00

zhenkaivip dd93837343

使用paddleocr实现 (#342 )

* jpg and png ocr

* fix

* write docs to tmp file

* fix

* [BUGFIX] local_doc_qa.py line 172: logging have no end args. (#323)

* image loader

* fix

* fix

* update api.py

* update api.py

* update api.py

* update README.md

* update api.py

* add pdf_loader

* fix

---------

Co-authored-by: RainGather <3255329+RainGather@users.noreply.github.com>
Co-authored-by: imClumsyPanda <littlepanda0716@gmail.com>

2023-05-13 08:45:17 +08:00

13 lines

292 B

Python

Raw Blame History

 from configs.model_config import *
 import nltk
 nltk.data.path = [NLTK_DATA_PATH] + nltk.data.path
 filepath = "docs/test.pdf"
 from loader import UnstructuredPaddlePDFLoader
 loader = UnstructuredPaddlePDFLoader(filepath, mode="elements")
 docs = loader.load()
 for doc in docs:
     print(doc)