文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

pdf/word/ppt/... 文件读取插件 - 输入步骤

2023-06-03 02:01

关注

最近需要做一个 Common File Reader 的 kettle 插件,希望这个插件可以读取例如 PDF, WORD, PPT, WPS 等常见格式文件的内容,今天已经实现了第一步,读取 PDF 的功能。

该插件是一个输入步骤, 它可以将读取到的 PDF 文件的每一页作为一行输入记录。下面是一个比较典型的应用例子:

[@more@]

pdf/word/ppt/... 文件读取插件 - 输入步骤

这是一个简单的文件检索流程,可以用于小批量的文件检索,检索的输入,输出和规则都可以自定义,在这个例子里,我们可以这样定义:

输入1 是一个目录,通过一个表达式(如 .*.pdf$)来指定只读取一个目录下的所有扩展名是pdf 的文件。

输入2 是一个 excel 文件,只有一列,每行可以指定一个关键字,如下面的格式指定了2个关键字。

keyword

面积

股权转让

在 javascripte步骤 里可以指定简单的规则,返回的上下文的长度。

最后的 excel 输出保存了检索的结果,如下

pdf/word/ppt/... 文件读取插件 - 输入步骤

可以看到检索结果包括,关键字,上下文,文件名,结果所在文档页数等。

对于大规模的文件检索,我们可以把 kettle 和 lucene 结合起来,先给文档建立索引,再在 javascript 里直接使用lucene 的api来进行检索,这样效率会有大幅提高。

不管检索如何实现,所用了 kettle 的流程后,再结合系统的作业调度,整个检索流程就可以每天自动运行了。如果再结合上文档的来源的自动获取,如从ftp 获取,或使用爬虫从网站抓取,整个一套的文档的获取,建索引,检索,重新发布的流程就可以建立起来了。

下载地址:http://www.xgndata.com/download.htm

阅读原文内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯