更新时间:2024-05-11 12:09
视采采集器是一款所见即所得的采集别人网站数据和论坛文章帖子的数据采集软件,它使用非传统的采集先进技术,支持所见即所得、即时预览,网站自动采集,智能化规则匹配,多级过滤,无限深度、无限分页等先进功能,可作为论坛采集器、博客采集器、CMS采集器等网站数据采集工具使用。
互联网应用
随着互联网的发展及普及,互联网用户迅速增长,上网已成为人们生活中的日常内容,人们通过网站阅读,发表,搜索,交流,购物等,所有这些上网行为,由点到线,都将汇聚庞大的商业价值。因此,互联网成为众多人的梦想帝国,淘金之地。不管您是腰缠万贯,还是身无分文,这里只谈信息为王,服务至上。因此信息的创造、收集、组织和再加工是网站的生存基础。信息采集系统可以通过网站管理员指定的网站地址和预定义的抓取规则,自动获取网页内容,自动按照自身网站系统的数据结构抽取数据,并发布到网站系统中,让您不花丝毫心血和金钱,就可以使您的网站一夜之间网罗天下。
信息搜索
由于各种用户群体的网络连接,使得互联网成为一个包罗万象的信息库,商业的、学术的、个体的等等信息都可以在互联网上发布和获取,因此,企业可以通过互联网获取客户资源、市场行情、商业信息等。但在这茫茫的信息大海,我们常常缺少一种工具来发现我们所关心的内容,并有效的组织和储备它们,使之成为企业的内部资源。信息采集系统可以根据数据模式,自动通过搜索引擎检索数据,将匹配的信息显示在您的桌面上。
资料录入
企业管理系统,企业信息管理系统、客户服务系统等各种信息处理系统,它们只能处理结构化的数据,如学生信息包括用户名、性别、年龄等属性,它们必须保存在预定义的结构里。但系统外界会有大量的非结构化数据,如客户提交的材料、公司内部文档等。而这些数据通常是人工统计和人工输入各类信息处理系统中。信息采集系统它能将一篇文档按信息系统的数据结构自动抽取成多个字段,并自动将这些字段导入到企业的各类信息处理系统中。
网站管理员
系统的最终用户群包含网站的管理员们,对一些给目标地址做了隐藏的网站,可能会使他们操作失败,特别有些网站对网页内容作了扰乱处理,使得他们更难准确地定义规则。对于这些问题,系统提供一些范例和匹配通配符,告诉他们的应对方法。并且官方网站提供交流论坛,共享和学习相互之间的经验。
信息采集用户
对于信息采集的用户,系统提供丰富的模板模式供用户使用,如email匹配模式、电话号码匹配模式等,只需要用户选择一个模板,就可以获得他们想要的信息。当然官方网站提供丰富模板资源供以下载。
数据结构化用户
对于数据结构化的应用,会有第三方的技术人员提供支持。
系统预留了输入输出的编程接口,一些用户扩展这些接口,使系统应用到更多的场合下。针对这些用户,系统提供详细的接口说明,扩展示例代码。我们提供开发包,并描述每个类和每个方法的使用方法和功能。
还有一类用户属于商人的范畴,他们仅从事规则的制作,在网上交换或出售自己的规则。他们更关心网站的搜索和内容的质量,他们分两种类型,一种是猎人,他们能够发现各种各样的信息,能够满足各类网管的内容需求,他们从数量上获取大把金钱。当然,对于个别稀有的内容,价格就像黄金一样了。另一种属于黑客,他们精通web技术,机智并执着,在他们手里,都是一些很难发掘到的精品,当然价格都是高昂的。
由于采集系统属于开放式软件,会有很多人去分析和使用采集系统中的组件,扩展和完善采集系统。他们使用的级别不仅是系统的界面上,而是深入到代码的内部上,他们需要参考采集系统的各类技术文档,所以系统除了用户手册,其它的开发文档也是必不可少的。
I/O体系
系统使用统一的输入输出接口对各类外部目标进行读取和发布数据。透明的支持各类外部系统的交互要求。
容器体系
容器管理体系,使系统运行更加高效,并且提供更高的用户交互能力。特性如下:
1. 控制过滤器的并发数,适应不同的目标限制。
2. 过滤器的状态报告,时刻了解内容的采集过程。
3. 采用复用和调度策略,并发更加高效。
缓存体系
缓存区为输出子系统提供全局的数据索引,使输出子系统具备以下几种能力:
1. 可以在全局范围内对数据进行校验和再加工。
2. 可以跨层次地关联单元数据,发布采集的中间数据。
插件体系
采集系统支持丰富的插件类型,插件管理器负责加载插件和索引插件。插件分以下几种类型:
输入插件、输出插件和过滤器插件,功能如下:
1. 输入插件支持不同的外部对象读取。如http服务器、ftp服务器、文件系统等。
2. 采集插件支持不同的数据格式采集以及特殊的信息采集。如网页采集、word采集、电子邮件地址采集等。
3. 输出插件支持各类系统的发布,如bbs系统、信息系统等。
结构化采集
系统对半结构化数据进行语义分析,根据语义规则智能提取数据。
可视化元数据定义
用户在可视化的目标界面上指定所要采集的内容。
插件支持
系统拥有丰富的插件功能,支持各类目标的采集和各类系统的发布。如ftp采集,http采集以及数据库发布,文件发布。
客户端环境模拟
模拟客户端环境,支持客户端和服务器端的基本会话功能。如浏览器的session机制、cookie机制。支持用户登录。
多线程采集
系统多任务并发,多线程采集。支持线程的并发控制和状态监视。
全局发布
系统提供上下文关联的全局缓存区,发布模块可以联合不同层次的单元数据。用户可以检查和编辑缓存区中的单元数据。
分页采集
根据页码规则,自动采集内容的下一页。
关联文件下载
系统可以根据设置自动下载页面包含的其它文件。如flash、图片等。
规则保存
采集对象、过滤规则、发布目标等信息保存在规则文件里,用户可以导入导出规则文件,与它人共享或交换规则文件。系统提供友好的向导页面供用户配置规则文件。
模板修饰
可以按预定义的模板结构发布数据。
结果过滤、替换
自动过滤数据的格式及语法,如过滤html语言,word格式等。支持常量替换和环境变量替换。
重复过滤
自动删除采集结果中的重复数据。