使用 ocrmypdf 把 pdf 文件变成可搜索的工具
共计 576 个字符,预计需要花费 2 分钟才能阅读完成。
很多 pdf 是图片导出 pdf 文件,此时如果想要进行搜索和复制是没有办法的。接下要介绍的是 orrcmypdf 工具,这个工具能即将你的 pdf 变成可搜索可复制的工具。
开源项目地址:https://github.com/ocrmypdf/OCRmyPDF
如果你只是想简单试一下效果,将 test.pdf 修改为你的 pdf 文件名,并放在当前目录下。
# 如果文档是中文
docker run -it --rm -v $PWD:/app jbarlow83/ocrmypdf -l chi_sim test.pdf test_orc.pdf
# 如果文档全是英文
docker run -it --rm -v $PWD:/app jbarlow83/ocrmypdf test.pdf test_orc.pdf
# 如果文档有多种语言,-l 参数后面可以加多种语言
docker run -it --rm -v $PWD:/app jbarlow83/ocrmypdf -l eng+deu test.pdf test_orc.pdf
运行这个命令,将在本目录下生成一个 test_orc.pdf 文件,那么这个文件就是可以搜索和复制的啦。
目前该工具默认是识别英文,对英文效果会比较好,中文的话复制会有空格,目前还没有解决方案,有兴趣的可以查看下 issue:https://github.com/ocrmypdf/OCRmyPDF/issues/715
提醒:本文发布于519天前,文中所关联的信息可能已发生改变,请知悉!
Tips:清朝云网络工作室
阅读剩余
THE END