易搜网页数据采集器是一款功能强大的网页数据采集器,号称可以适用采集于所有windows平台的网页数据,操作简单,只需要基本的电脑基础便能操作,操作过程相当智能化可视化,如果你继续一款数据采集器的话,那么它也许就会是一个好选择。
软件特色
软件优势
简单好用
简单易学,通过可视化界面、鼠标点击即可采集数据、向导模式,用户无需任何技术基础,输入网址,一键提取数据。代码小白的福音。
海量采集模板
内置大量网站采集模板,覆盖多个行业,点击模板,即可加载数据,只需简单配置,就可快速准确获取数据,满足各种采集需求.。
自研智能算法
通过自研的智能识别算法,可以自动识别列表数据识别分页,准确率达到95%,可以深入采集多级页面,快速准确的获取数据。
自动导出数据
数据可以自动导出发布,支持多种格式导出,TXT、CSV、Excel、Access、MySQL、SQLServer、SQLite以及发布到网站接口(Api)等。
软件功能
支持浏览器引擎、HTTP引擎和JSON引擎三种模式
支持批量生成起始网址
支持一键生成元素XPath
自动识别列表和分页,自动生成采集字段
支持过滤空值
支持数据处理
支持自定义过滤列表
支持自定义字段值
支持自定义拦截请求
支持自定义浏览器UserAgent、禁止弹窗等设置
支持代 理IP设置
支持浏览器拨号、快速创建路由器拨号脚本
支持ADSL和VP N拨号
支持自定义HTTP HEADER
数据可导出为TXT、html文件
导出数据:支持查看不支持导出
使用说明
首先,字段通过 XPath 定位查找到 Html 元素,然后我们就需要通过取值属性 来确定 Html 元素的哪个部分来作为字段值。
一般情况下,采集器默认使用 InnerText 属性(当前节点以及其子节点的文本)
除了 InnerText,还有其他几个内置属性:
Text ,表示当前节点的文本
InnerHtml,表示当前节点内部的 HTML 语句(不包括当前节点)
OuterHtml,表示当前节点的 HTML 语句
除了内置属性外,用户可以手动填写 HTML 属性。 常见的 HTML 属性比如 A标签的href,IMG标签的src。表示数据的data-*。
特别提示
这里是可以手动输入属性名称,即使下拉选项中没有。比如常见的onclick、value、class。
∨ 展开