蜜蜂采集器是一款出色的网页信息采集工具,能够帮助用户方便快速地从各种网页上抓取大量规范化的数据内容,效果很赞,能够轻松实现数据的自动化采集,效率直线上升,经常需要采集数据的小伙伴快来试试看吧!
软件功能
数据库的连接访问,支持SSH隧道模式。
支持代理,采集更方便。
支持多帐号采集、多帐号发布。
丰富的插件类型。支持PHP、Python、Nodejs、Go四种编程语言的插件。
强大的图片水印功能。
文件下载支持断点续传。
丰富的文件上传方式。FTP、SFTP、插件方式、站点发布模块中的文件上传方式。支持上传文件到阿里云OSS、腾讯云、七牛云。FTP方式支持断点续传。
内置大量小工具。JSON分析工具、表单抓取工具,等等。
各管理器均支持导入导出。
软件特色
极低的资源占用,优异的运行性能,可长期稳定运行
基于QT构建,原生C++编写,程序的资源占用极低,运行速度极快,从而可以支持更多的并发任务。
丰富的管理器,安全的帐号管理
软件有四种管理器:基本管理器、采集管理器、发布管理器、其他管理器。
基本管理器,主要是一些帐号相关的管理器,用于存储软件中需要使用的各种帐号信息,数据均加密存储。包括:Cookie管理、User-Agent管理、数据库连接管理、FTP连接管理、SSH连接管理、SMTP邮箱帐号、代理服务器管理、代理配置管理、外部程序管理。
采集管理器,主要是一些采集相关的管理器,用于采集工作。包括:列表页网址插件、数据处理插件、图片水印管理、中文分词设置、同义词库管理。
发布管理器,主要是一些发布相关的管理器,用于发布工作。包括:发布到站点、站点发布模块、发布到数据库、数据库发布模块、发布到文件、发布到插件、内容发布插件、发布到邮箱、文件上传配置管理、文件上传插件、消息通知配置管理、消息通知插件。
其他管理器,主要是一些杂项。包括:任务运行管理、计划任务、任务运行统计、任务运行日志文件,等等。
软件优势
1、支持文章内容分页采集;
2、支持论坛采集
3、支持UTF-8转换到GB2312,可采集内容字符格式为UTF-8的目标;
4、支持把文章内容保存到本地;
5、支持站点+栏目管理方式,使采集管理一目了然;
6、支持链接替换、分页链接替换,破解某些使用JS/后台程序设置的防采功能;
7、支持采集器设置无限过滤功能;
8、支持图片采集保存到本地,自动替换文件名避免重复;
9、支持FLASH文件采集保存到本地,自动替换文件名避免重复;
10、支持限制PHP FOPEN、FSOCKET函数功能的虚拟主机;
11、支持采集结果人工筛选,并提供“空标题、空内容”的快速过滤删除;
12、支持Flash专业站采集,专门采集flash小游戏,可完美采集缩略图、游戏简介;
13、支持全站配置规则导入、导出;
14、支持栏目配置规则导入、导出,提供规则复制功能简化设置;
15、提供导库规则导入、导出;
16、支持自定义采集间隔时间,避免被误认为DDOS攻击而拒绝响应,可采集设置了防DDOS攻击的网站;
17、支持自定义入库间隔时间,躲避虚拟主机并发数限制;
18、支持自定义内容写入,用户可设置任意内容(如自己的链接、广告代码),写入到所采集内容的:最前面、最后面,或者随机写入;导库时自动带上需要写入的内容,无需修改您WEB系统的模版。
19、支持采集内容替换功能,用户可设置替换规则随意替换;
20、支持html标签过滤,允许采集到的内容仅保留必要的html标签甚至无任何html标签的纯文本;
21、支持多种CMS导库 如:PHPCMS V2/V3、DedeCms(织梦) V2/V3、PHP168 CMS、mephpcms、Mambo CMS、Joomla CMS、多讯(DuoXun) CMS、SupeSite、Cmsware、帝国ECMS、新雨动网(XYDW)CMS、动易CMS、风讯CMS系统导库;用户也可自行设计适合自己系统的导库功能。
22、支持PHPWIND、Discuz论坛导库,程序包内含2大论坛导库规则及操作指南说明;
23、附带数据库优化工具,减少频繁采集数据碎片过多降低数据库性能。
∨ 展开