首 页最新软件下载排行文章资讯投稿发布下载专题
维维软件站
您的位置:首页网络软件网页辅助 → XPath2Doc半自动网页数据采集填充Docx工具1.2绿色版

XPath2Doc半自动网页数据采集填充Docx工具1.2绿色版

平台:Winall 大小:14.8 MB 时间:2019-6-24 18:24:00
  • 智能高速地址
  • 群英网络地址
  • 微子网络地址
  • 各位是否在找半自动的网页数据填充Docx工具呢,那就下载XPath2Doc免费版进行体验吧,这是一款功能实用的半自动采集网页生成Word docx文件工具,它提供了企查查、天眼查采集配置,使用它你还需要在WebBrowser窗口里面手工登录一下,并且找到需要的数据页面,然后点击程序按钮即可进行采集了,那么你想使用的话就来下载XPath2Doc官方版开始采集数据哦。

    XPath2Doc免费版

    工作原理

    网页的每一个元素都能够表示成为XPath语句,因此可读取浏览器打开的网站页面源代码,通过XPath语句获得网页元素中的文本。

    XPath语句的获取办法:一盘我们可使用谷歌Chrome浏览器打开网站页面,按F12调出开发者工具界面,在ELements选项卡下,随着鼠标的移动能够看到网页内容被阴影覆盖,点开三角符号,能够更进一步定位准确的位置,直到找到最终需要的数据位置。在找到的文本上点鼠标右键,在弹出的菜单中,选择Copy-Copy XPath,然后粘贴到记事本就能够获得到需要的XPath语句。

    需要注意的是,假如拷贝出来的XPath语句中有/tbody则会影响到采集,程序内部也对此问题进行了处理,不过可能会在某些特殊情况下仍然会影响数据采集,我们可手工将其去掉。

    配置说明

    1、本程序工作需要3个配置文件:General.ini,自定义.ini,自定义模板.docx。后两个文件名自己定义。

    General.ini文件中定义了INI文件和Docx模板文件的存放目录,可不填,默认是程序所在目录。

    自定义.ini、自定义模板.docx是软件使用者自己创建的网页采集XPath语句以及最后生成文件所用的Docx模板,具体设置方法请看ini文件中的说明。

    需要注意的是,Docx模板文件中的“@<#0001#>@”之类的字符是在INI文件中定义的用于替换网页采集内容的标记字符串。ini文件中定义了替换关键字的前后缀和模板文件名。

    2、使用本程序之前,请一定要先建立好你自己的INI配置文件和Docx模板文件。(具体可参见附带的企查查、天眼查两个配置文件和起诉书模板)

    需要注意的是,模板文件支持对文档的不同部分使用不同的网址进行采集,注意Url的设置。

    使用方法

    启动程序--选择模板--点击采集数据按钮旁边的黑色三角符号,点开下拉菜单,点击需要采集的部分,接着等候浏览器加载网页完毕,手工输入需要查询的内容,点击查询,找到数据的具体页面,接着点击采集数据按钮,观察右侧的列表中是否已经得到需要的数据。继续点开下拉菜单,选择下一个需要采集的部分,要是网址发生了变化要等候浏览器加载完毕,找到需要的数据页面。点击采集数据按钮观察右侧列表中是不是得到了第二部分的数据。如此反复,直到数据全部采集完毕。

    要是前后两部分的网址相同,在点击下一部分的下拉菜单之前,要先在浏览器中重新查询新的数据,等新数据页面出来以后在点击下拉菜单选择下一部分进行采集。(网址相同的情况下,点击下一部分会直接从网页取数据,要是浏览器没有换页面,数据就错了。)要是某个部分需要重新采集,请先点击下拉菜单中的该部分名称,接着点击采集按钮重复采集该部分(这时可随意改变浏览器的数据页面,得到的就是不一样的公司数据)。

    列表中采集得到的数据结果如果有偏差,可单击自行修改。XPath语句要是有什么错误,也能够自己修改看测试结果(XPath语句在修改以后会马上重新抓取浏览器的数据,因此浏览器最好是有效数据页面),在程序中修改的XPath语句,不会保存到INI文件中,请大家手工保存。

    要是列表中数据无误,预览窗口中的Docx模板内容也正确,则可点击创建文档按钮,填写要生成的文件名,该软件会使用抓取到的网页数据替换模板中的索引字符串,自动生成Docx文档。

    需要注意的是,右下角的Docx预览窗口无法完整的支持Word文档,对不标准的文档可能出现文本缺失或者错位现象。遇到此问题可以忽略,或将模板文件改成规范的文本格式(单倍行距)。

      相关软件
      栏目导航
      本类热门阅览