简易信息聚合

更新时间:2022-08-25 12:08

简易信息聚合是“Really Simple Syndication”或“Richsite summary”(网站内容摘要)的中文名字。是站点用来和其他站点之间共享内容的一种简易方式。

相关信息

简易信息聚合是“Really Simple Syndication”或“Richsite summary”(网站内容摘要)的中文名字。是站点用来和其他站点之间共享内容的一种简易方式。英文缩写为RSS技术。

RSS是一种信息聚合的技术,是某一站点和其他站点之间共享内容的一种简易信息发布与传递的方式,使得一个网站可以方便的调用其他提供RSS订阅服务的网站内容,从而形成非常高效的信息聚合,让网站发布的内容在更大的范围内传播。他是一种用于共享新闻和其他WEB内容的数据交换规范,也是使用最广泛的一种扩展性标识语言。

RSS的发展史

RSS可以是Really Simple Syndication(真正的简单聚合),也可以是RDF Site Summary(RDF站点摘要),还可以是RichSite Summary(丰富站点摘要)。这是因为RSS技术在发展过程中不同的技术团体对其做出了不同的解释。结果RSS分化为两大阵营,一个是DaveWiner的UserLand公司推出的RSS 0.9x和RSS 2.0版本,另一个是一个联合小组根据W3C新一代语义网技术RDF(Resource Description Framework)对RSS进行了重新定义,形成了RSS 1.0版本。虽然RSS的版本的不同,但是它们都遵循XML 1.0规范。另外还有一个是美国大型博客服务网站(www.blogger.com)采用了近似于RSS技术的衍生版Atom,它被Google收购后,成为了RSS标准强有力的竞争者。

UserLand公司认为:RSS是ReallySimpleSyndication的首字母简写;RSS是网页内容的聚合格式。而制定RSS1.0版本的联合小组认为:RSS是RDFSiteSummary的首字母简写,它是一种是轻量级、多用途、可扩展的元数据描述和聚合格式,属于XML应用,遵循W3C的RDF规范,可通过XML命名空间进行扩展和(或)基于RDF进行模块化。不管是什么版本的RSS,它们都是将一些网页资源描述为一些频道(Channels)的组合。各个频道包含一系列的消息项(Items),因此把利用频道和消息项等RSS元素去描述网络内容的文件称为RSSfeed。

RSS技术在西方发达国家,尤其是美国,已经达到了相当大的规模。据不完全统计,美国提供RSS内容的网站数目从2001年9月的1千余家激增至2004年9月的19万5千余家,短短的三年中增长了近150倍,市场的飞速发展令人瞩目。随着RSS内容数量的激增,RSS用户数也取得了飞速的发展,从2001年8月的10万用户激增到2004年8月的近9百万。国内提供RSS内容的网站和企业也不下千家,RSS用户数大约在100万左右,由此可见国内RSS市场潜力巨大。在这些RSS内容提供者中,有许多是博客网站和个人,但更多的是认识到RSS技术的先进性、优越性的商业网站,把对RSS技术的支持当作增加网站流量、推广网站品牌、更好地为用户服务的重要手段。

RSS技术及其实现

RSS通过XML标准定义内容的包装和发布格式。对RSS内容提供者来说,RSS技术提供了一种实时、高效、安全、低成本的信息发布渠道;对RSS用户来说,它提供了一种崭新的阅读体验。

RSS技术特点

多来源信息的个性化聚合。RSS作为网站内容的包装格式,所以任何内容提供者都可以采用这种格式来发布信息。在用户端,RSS阅读器软件可以按照用户喜好,有选择性地将用户感兴趣的内容来源进行“聚合”,为用户提供多来源信息的“一站式”服务。

信息发布的高时效和低成本。RSS技术秉承“推(push)”信息的概念,当新内容在服务器数据库中出现时,就可以被“推”到用户端阅读器中,极大地提高了信息的时效性和价值。此外,服务器端内容的RSS包装在技术实现上极为简单,而且是一次性的工作,使长期的信息发布边际成本几乎降为零,这是传统的电子邮件、卫星传输、互联网浏览等发布方式所无法比拟的。无“垃圾”信息、便利的本地内容管理。RSS用户端阅读器软件的特点是完全由用户根据自身喜好以“频道”的形式订阅值得信任的内容来源。RSS阅读器软件可以完全屏蔽掉用户没有订阅的内容以及弹出广告等令人烦扰的内容。此外,对下载到阅读器软件本地的所订阅RSS内容,用户可以进行离线阅读、存档保留、搜索排序、相关分类等多种管理操作,使阅读器成为个人的“资料库”。

RSS是信息传递的重要方式。近年来BLOG作为一种发布个人信息的形式和工具越来越受到人们的瞩目。使用RSS技术可以提取大量现有页面中BLOG的摘要和索引,生成RSS文件供用户使用,可以建立RSSFeed服务器,从而促进信息在网络上传输。

2RSS技术实现

通常,互联网用户是使用RSS阅读器或通过提供RSS服务的网站来在线订阅和管理自己需要的内容。因此,RSS技术的核心在于如何实现RSS阅读器或建立RSS服务网站。对于同一个服务提供商,假如既提供客户端RSS阅读器,也提供门户网站的在线服务,那么两者的功能几乎也是一样的。对于不同的服务提供商,他们提供的服务可能会有差异,但是一些核心的功能是相同的,例如RSS订阅功能、用户管理功能、Feed管理功能等。从技术角度看,实现RSS阅读器和建立RSS服务网站所应用的核心技术是相似的。

数据库后台更新组件。必须及时地更新数据库中的数据,从而给用户提供及时的、最新的信息。这一点非常重要的,是“推”技术的核心内容。通常可以由用户设定更新频率,可以是一个小时、两个小时、半天、一天等,可以根据实际的应用需要设定,例如应用的实时性要求较高,更新频率的值应该较小些。在程序设计中,我们可以用更新线程定时更新数据库。

RSS生成器是RSS应用最重要的扩充组件。一种比较普遍的情况是:许多网站还没有提供RSS服务,所以用户就得不到该网站上感兴趣的信息。因此要解决这个问题,就必须扩充RSS阅读器的功能,使得html页面等可以转换为RSS文件供用户订阅。我们知道一些html文档是不规范的、甚至是错误的。由于客户端浏览器的强大功能,通常对于浏览来说,是不成问题的,但是要把这些html文档解析直接生成RSS文档是困难的。因此,我们要使用一个功能强大的html解析器对那些html文档进行结构重整和错误修正。我们需要一个RSS转换器用来过滤掉页面中的无关信息,提取有用信息。一般可以通过根据页面上的重复模式(如时间,价格等)达到提取信息,生成RSS文件的目的。对于特别的应用,也可以应用其它的Web挖掘技术,进行信息提取。

RSS解析器是RSS阅读器中的核心组件,它用于处理各种不同版本的RSS文件,生成html文档片断嵌入到JSP(JavaServerPages)页面或html文档中供用户使用。XSLT是可以将XML文档转换为html文档的工具。因为RSS文档本质上是XML文档,所以可以把RSS文档经过XSLT工具处理(信息抽取和格式化),转换成html文档,从而使客户端浏览器能够正确的显示用户期望的内容。RSSFeeds分析和统计组件。可以利用Web技术来分析和统计RSSFeeds的订阅数(Circulations)、点击数(Hits)、引用数(Referrers)等;还有消息项(Item)被浏览次数(ItemViews),被点击数(Clickthroughs)等。RSS应用系统主要的处理流程如图1。

RSS应用开发

RSS应用属于Web服务应用,所以可以按照一般的Web应用去设计和开发应用系统。

RSS应用架构分析

通常RSS应用系统采用B/S三层架构,分别是Web服务器、数据库服务器和客户端。从功能分担上可以分为:瘦客户端和肥客户端。瘦客户端,客户端只需要一个浏览器就可以了。肥客户端,客户端通常要安装特定的RSS阅读器。瘦客户端的缺点就是服务器的负担比较重;但是明显的优点就是很好用,不需要附加的软件,在浏览器窗口地址栏输入Web服务器的(URL)就可以实现订阅和管理RSSFeeds,还有信息都保存在数据库服务器中,用户不必担心本地机器存储信息而会丢失信息的情况。肥客户端就是在客户端安装了RSS阅读器软件,优点是减轻了服务器的负担;要是内容更新下载到了本地机器,使得在本地阅读时反应速度快;支持脱机阅读,也许可以节省用户上网的费用。缺点就是占有了用户的硬盘存储空间。本文阐述了瘦客户端的应用开发过程。

网络应用开发框架和MVC设计模式

在Web应用中有一个良好的实践就是使用基于MVC(Model-View-Controller)设计模式的网络应用框架(WebApplicationFramework)。MVC设计模式被认为是设计模式里面最出名的。MVC模式关系如图2所示。MVC模式分为三个组件:模型组件,视图组件和控制器组件。模型组件负责维护后台数据库或远程系统的数据;视图组件负责建立终端用户的显示层;控制器组件负责维护条件逻辑上的视图显示,错误处理和何时、怎样更新数据。Struts就是一个基于MVC模式的网络开发框架,它可以显著加快开发进程。利用Struts提供的标签库和配置文件可以使程序员和系统维护人员摆脱JSP(JavaServerPages)页面管理的困扰,使得程序员能专注于商业逻辑编程。

系统配置综合运用

Java编程技术、JSP技术、XML、XSLT(eXtensible Style sheet Language Tools)、JavaScript和EJB(Enterprise Java Bean)或WebService等就可以完成应用系统开发了。Web服务器软件可以选用Jboss,Weblogic,WebSphere,Tomcat等。应用程序必须配置Struts中的struts-config.xml文件,从而使得M-V-C三个部件有机结合起来工作。数据库服务器软件可以选用Oracle,Sybase,SQLServer,MySQL等。

RSS的特征

(1)个性化信息主题聚合 随着RSS被广泛的采用,提供RSS FEEDS 的网站越来越多,包括专业的新闻站点、电子商务站点、企业站点、,甚至个人站点等。这样,用户可以根据自己的喜好,订阅多个站点,通过一个RSS阅读器,为用户提供多来源信息的“一站式”的个性化服务。

(2)信息获取高时效性 RSS阅读器可以根据用户的设置定时完成与信息源站点元数据的同步。同时,由于RSS技术秉承“信息推送”概念,一旦站点有内容更新,更新内容就在第一时间被“推”到用户端阅读器中,极大的提高了信息的时效性和价值。

(3)信息发布低成本

(4)知识信息过滤与积累 RSS技术提供自定义的技术,信息源的选择与信息内容的过滤由用户自主配置,用户根据自己的喜好以“频道”的形式订阅值得信任的内容来源。

RSS用户端所搜集的信息可以经过用户智能筛选,能屏蔽掉用户没有订阅的内容

以及弹出广告,垃圾邮件等,保证信息的“无垃圾”和“个性化”。

(5)本地信息易于管理

对于下载到阅读器软件本地的订阅RSS内容,用户获取无须任何账号或密码,使用

方便快捷。信息的本地存储与管理功能为用户建立起一个“随身资料库”,用户

可以进行离线阅读,存档保留,搜索排序,相关分类等多种管理操作,简单方便。

免责声明
隐私政策
用户协议
目录 22
0{{catalogNumber[index]}}. {{item.title}}
{{item.title}}