更新时间:2023-11-21 15:24
论坛采集器是论坛站长的辅助工具,论坛在建设初期,需要大量的内容,手工发送费时费力,而且难以形成论坛的互动,论坛采集器主要是帮助论坛站长采集、发送大量帖子内容到指定的板块,辅助功能是模拟成千上万的会员上线、看帖、发帖、回帖、顶贴,形成一定的互动效果,增加人气,从而吸引新游客注册从而成为论坛的常驻会员。
论坛采集器核心技术
论坛采集器核心技术是模式定义和模式匹配。模式属于人工智能的术语,意思为物体前人积累的经验的抽象和升华。简单地说,就是从不断重复出现的事件中发现和抽象出的规律,是解决问题的经验的总结。只要是一再重复出现的事物,就可能存在某种模式。
所以要让论坛采集器能够运行,目标论坛必须具备重复出现的特征。大多论坛都是动态生成的,这样就会让同一模板的页面包含相同的内容,论坛采集器正是利用这些相同的内容来定位采集数据的。
论坛采集器中的模式大多不是程序自动发现的,几乎所有的论坛采集器产品都需要通过人工来定义。但模式本身是个很复杂,很抽象的内容,所以所有的开发者精力都花在怎样让模式定义更简单,更准确,这也是论坛采集器竞争力的衡量标准。
但我们怎样来描述模式呢,技术主要有两种方式:正则表达式定义和文档结构定义。
正则表达式定义
正则表达式定义是主流应用的技术,主要代表为火车头采集器。此技术简单,灵活性高。但用户操作复杂。由于此模式作用于网页的源代码上,因此匹配的结果受代码版面格式影响比较大,并且也不够直观,对比较复杂的页面结构几乎无能为力。 已经有几款产品使用辅助工具来减低用户的操作难度。
文档结构定义
文档结构定义应该说它是目前最先进的技术,已经具备一定的模式学习能力。主要代表为视采采集器。此模式作用于文档这一层,不同于正则表达式作用于页面源代码。所谓文档这一层,指的是源代码运行后所生成的实际对象,即用户在浏览器所看到的内容。所以操作可视化是此技术天生就具备的能力。
由于它是对文档结构进行匹配,所以它不受页面源代码的影响,用户定义比较直观,并且程序能够根据文档对象获取更多的逻辑上的特征信息,匹配更准确,通用性更强。
此技术在学术研究论文上已经呈现过,也在几家实验室开发出此类产品。但真正在商业上应用很少。
常用论坛采集器介绍
视采论坛采集器
视采论坛采集器支持定时抓取,同步跟帖,附件下载,突破防盗链等。系统内置操作向导,手把手教你操作。很好的支持Discuz,PHPWind,动网(Dvbbs)等论坛采集。
一、 主要功能
乐思论坛采集器的主要功能为:根据用户自定义的任务配置,批量而精确地抽取目标论坛栏目中的主题帖与回复帖中的作者,标题,发布时间,内容,栏目等,转化为为结构化的记录,保存在本地数据库中。
二、 系统特点
可以抽取所有主题帖或者最新主题帖内容
可以抽取某个主题帖的所有回复帖或者最新回复帖的内容
支持命令行格式,可以Windows任务计划器配合,定期抽取目标数据
支持记录唯一索引,避免相同信息重复入库
支持数据库表结构完全自定义
保证信息的完整性与准确性
支持各种主流数据库,如MSSQL、Access、MySQL、Oracle、DB2、Sybase等
三、 运行环境
操作系统:Windows XP/NT/2000/2003
内存:最低32M内存,建议128M或以上
硬盘:最少20M空余硬盘空间
四、 行业应用
乐思论坛采集系统主要用于:门户网站的专业论坛集成,市场调研机构的市场分析,竞争情报获取。
门户网站
可以做到:
每天定时抽取目标论坛的信息(标题,作者,内容等)到数据库中
利益:
轻松提供论坛门户
企业应用
可以做到:
实时而准确地采集本企业的品牌以及竞争对手的品牌在各大论坛中的反馈情况
实时而准确地采集各大行业论坛中的信息,从中了解消费者的需求与反馈,从而发现市场趋势与机会
利益:
快速而大量地获取目标商业信息,立刻提高公司的市场营销能力
广告与市场研究机构
可以做到:
快速而大量地获取目标论坛的各种原始信息到数据库中
利益:
快速形成针对传统品牌研究,网络用户研究的的基础数据库
情缘论坛采集器全面的支持了Disucz!、PHPWind、Dvbbs(动网)、bbsxp、6KBBS、VTBBS、DunkBBS、CVCbbs、LeadBBS、LeoBBS(雷傲)、sfbbs四方论坛、PHPBB、bbsgood、vbulletin、Ofstar、乔客、TTsite(天天)、xuntan(迅坛)、5d6d、uu1001、ctb、lunqun等20多种论坛程序,具备了如下实用功能:会员批量注册功能:
可以在你的论坛一次注册成千上万个会员,让你的新论坛一开始就会有大量的会员,还可以用它们在你的论坛发贴、回贴、看贴等。
会员批量上线功能:
刷论坛会员千人在线,让你设置的会员在不同的版块里查看贴子。目的:制造论坛千人在线气氛,更容易吸引论坛新会员留下来。
内容批量采集功能:
可以采集网站/论坛的主题、回复,99%的网站/论坛均可以采集 ,支持把文章内容保存到本地。
屏蔽干扰码功能:
对于含有干扰码的文章、帖子,可以对它们内容中的干扰码进行完全屏蔽。
错误文章、帖子地址替换功能:
对于错误的帖子、文章地址或者JS生成的帖子地址,可以用该功能把错误的部分替换为正确的帖子地址。
防重复采集功能:(情缘采集器独有)
对已经采集的文章链接、附件链接软件不会进行重复采集。
编码转换功能:
支持UTF-8转换到GB2312,可采集内容字符格式为UTF-8的目标。
文章内容批量替换功能:
支持对文章内容中的文字、链接批量替换。
文章内容通配符过滤/替换功能:
支持文章内容中两个关键字A到关键B之间的内容过滤或者替换。
文章内容关键字选取帖子功能:
软件可以按你的要求对含有某某关键字的帖子进行选取。
批量会员随机发贴功能:
软件可以自动用设置的一千个论坛会员随机在你的论坛发表采集下来的帖子/文章,让你的论坛更真实。
文章主题分类功能:
软件支持发贴时选择论坛文章主题分类。
多版块同时发贴功能:
软件可以同时向论坛的几个版块一起批量发贴。
批量内容搬家功能:
可以把别人的论坛的帖子或者网站的文章全部按对方的顺序采集下来发到你的论坛,让你的论坛的帖子的内容和帖子的顺序完全和被采集的论坛/网站的内容和顺序一样,就象是把他的论坛复制到你的空间上。 论坛、网站整站搬迁!
发贴时间延迟功能:
支持自定义发贴、回帖间隔时间。
论坛帖子批量增加人气功能:
增加帖子的查看人数。目的:让你的论坛内容让人感觉浏览的人很多。
增加指定帖子人气功能:
如果你只想增加某一帖子的人气,让此帖子看来很火爆,用该功能。
批量自定义回复功能:
可以在你的论坛的版块里自定义选择帖子随机回复,让别人感觉你的论坛回复的人很多。
指定单帖回复功能:
如果你想只回复你的论坛的某一个特定的帖子,让该帖子看起来很火暴,使用该功能。
批量帖子内容替换功能:
如果采集下来的帖子/文章里面的有些内容你不想要,你可以使用改功能把他替换成你想要的文字。
关键字自动替换、插入功能(搜索引擎优化):
帖子文章内容关键字自动替换、插入。
采集超级连接功能:
可以采集网站/论坛内容里面的超级连接,包括各种附件的下载连接。适合无服务器的中小论坛使用,可以直接把别人各种附件下载连接采集到你的论坛或者超级连接采集到你的论坛而不占论坛空间,用此功能,你只需要少量的空间就可以拥有一个大BT站所有的种子,让你瞬间就可以建立一个大的BT论坛或者软件论坛。
图片 、视频、Flash和附件本地化功能:
可以把被采集网站/论坛的各种附件、图片等下载到本地,然后通过FTP把附件、图片传到你的网站空间,软件会把内容的附件地址或者图片地址替换成你的网站的图片或者附件。用此功能最好有自己的服务器,如果是空间的话传一下附件你的空间就可能满了。不过这样你的论坛的图片和附件功能不存在地址失效的问题。
同步采集更新功能:
让你的网站和被采集的网站/论坛内容同步更新,对方有什么新主题你也有什么新主题