火车头采集器(LocoySpider)是一款可以轻松的从网页上抓取文字,图片,文件,视频等任何资源的网络数据/信息挖掘软件。
火车头采集器功能特点
程序支持远程下载图片文件,支持网站登陆后的信息采集,支持探测文件真实地址,支持代理,支持防盗链的采集,支持采集数据直接入库和模仿人手工发布等许多功能特点。
火车采集器支持从任何类型的网站采集获取您所需要的信息,如各种新闻类网站、论坛、电子商务网站、求职招聘网站等。同时具有强大的网站登录采集、多页和分页的采集、网站跨层采集、POST采集、脚本页面采集、动态页面采集等高级采集功能。强大的php和c#插件支持,让您可以通过二次开发实现您所想要的任何更强大的功能。
1、支持所有网站编码:完美支持采集所有编码格式的网页,程序还可以自动识别网页编码。
2、多种发布方式:支持目前所有主流和非主流的CMS,BBS等网站程序,通过系统的发布模块能实现采集器和网站程序间的完美结合。
3、全自动:无人值守工作,配置好程序后,程序将依据您的设置自动运行,完全无需人工干预。
4、本地编辑:本地可视化编辑已采集的数据。
5、采集测试:这是其它任何同类采集软件所不能比的,程序支持直接查看采集结果并测试发布。
6、管理方便:使用站点+任务方式管理采集节点,任务支持批量操作,再多的数据管理也很轻松。
火车头采集器应用范围
垂直搜索(或称为专业搜索)服务
信息汇聚和门户服务
企业网信息汇聚
商业情报采集
论坛或博客迁移
智能信息代理
个人信息检索
信息挖掘
火车头采集器适用群体
1、公司集团
2、政府机关与军队
3、门户网站
4、新闻媒体
5、广告与市场研究机构
6、金融机构
7、电信移动联通
8、科学与技术研究单位
9、网站站长
10、电子商务(如淘宝店长等)
11、其他
更新说明
2015-12-14火车采集器V9.1版
支持多页的分页采集
添加已采字段
采内容进度算法调整
web获取列表使用分类名+id显示
优化实时数据、文件下载数据量显示不全问题
修复php插件被当做C#插件禁止使用问题
修复POST文本文件路径无法保存问题
修复不得包含的多个词的逻辑问题
修复本地数据编辑字段过多时无法查看全的问题
修复url #之后的内容补全问题
修复安装在C盘,管理员权限的问题
修复url #之后的内容补全问题
∨ 展开