互联网新闻开放协议

更新时间:2023-12-28 21:27

《互联网新闻开放协议》是百度新闻搜索制定搜索引擎新闻源收录标准,网站可将发布的新闻内容制作成遵循此开放协议的XML标准通用标记语言下的一个子集)格式的网页(独立于原有的新闻发布形式)供搜索引擎索引,将网站发布的新闻信息主动、及时地告知百度搜索引擎。采用了互联网新闻开放协议,就相当于网站的新闻被搜索引擎订阅,通过百度——全球最大中文搜索引擎这个平台,网民将有可能在更大范围内更高频率地访问网站的新闻,进而给网站带来潜在的流量。

XML网页示例

XML标签说明: 其中带星号标记的为必选项,未带星号标记为可选项。

*——标记整个XML文件内容的开始和结束。

*——更新周期,单位为分钟。搜索引擎将遵照此周期访问该页面,使页面上的新闻更及时地出现在百度新闻中。

*——标记每篇新闻信息的开始和结束。标记内为单篇新闻信息,不包括新闻专题。

*——新闻标题。</p><p class="text">*<link>——新闻url地址,与单篇新闻一一对应;若分页的新闻存在多个url,相当于多篇新闻。</p><p class="text"><description>——新闻内容简介。</p><p class="text">*<text>——完整的新闻正文(仅包含正文文字,不包含html标记、图片链接等其它字符 )。此项的目的是使该篇新闻更多、更准地出现在搜索结果中。</p></div> <p class="text">*<image>——新闻正文内相关图片;采用绝对地址;若该篇新闻无相关图片,可以为空;若含有多张图片,重复使用该标签。此项的目的是使该篇新闻的相关图片展现在搜索结果中。</p></div><p class="text"><headlineImg>——为有可能成为头条的新闻制作的头条图,采用绝对地址。</p></div><p class="text"><keywords>——反映新闻主题内容的一个或多个关键词,关键词之间以空格隔开。此项仅作为参考,检索结果不会完全依赖于此标签中的内容。</p></div><p class="text"><category>——新闻分类, 可以遵循网站自身的分类体系,最好采用一级分类。</p></div><p class="text"><author>——新闻作者,可以为机构或个人 。</p></div><p class="text"><source>——新闻来源,即原创媒体或其它机构 。</p></div><p class="text">*<pubDate>——新闻发布时间,请精确到分钟;若您网站的发布时间未记录小时分钟,提供年月日即可。</p></div><div class="para-title2" id="paragraph_10">开放协议使用</div><div class="para-container scroll_catalog fold" id="paraContainer1"><p class="text"></p></div><p class="text">开始之前,您需要了解以下几点:</p></div><p class="text">无论您的网站已经成为百度新闻源,还是尚未被百度新闻搜索收录,您都可以使用此开放协议。</p></div><p class="text">您使用开放协议提供的内容应全部为符合下面《新闻源收录标准》的新闻信息。</p></div><p class="text">互联网新闻开放协议只是原始新闻源收录方式的一种协助和有益补充,而不是完全取代。</p></div><div class="para-title2" id="paragraph_10">收录标准</div><div class="para-container scroll_catalog fold" id="paraContainer1"><p class="text"></p></div><p class="text">百度希望新闻源多样化,鼓励原创新闻内容,如果是具有大量有价值的新闻内容并能及时更新的正规、合法<a href="/czkjst/媒体/0">媒体</a>网站,且<a href="/czkjst/网站服务器/8156379">网站服务器</a>稳定、高速,就符合了百度收录新闻源的基本原则。</p></div><p class="text">百度新闻搜索收录的内容包括时政、<a href="/czkjst/娱乐/0">娱乐</a>、<a href="/czkjst/体育/0">体育</a>、<a href="/czkjst/财经/0">财经</a>、科教文化、<a href="/czkjst/社会生活/0">社会生活</a>等各类<a href="/czkjst/新闻报道/0">新闻报道</a>及<a href="/czkjst/媒体评论/0">媒体评论</a>,<a href="/czkjst/数码产品/0">数码产品</a>、<a href="/czkjst/房产/0">房产</a>、<a href="/czkjst/汽车/0">汽车</a>等行情资讯及评测,各行业的动态及行情,<a href="/czkjst/组织机构/0">组织机构</a>的工作动态等;是由专业人士撰写或编辑的中文信息;不包括发布的个人信息、论坛、博客、广告、幽默笑话、情感故事、情色、写真、食谱、<a href="/czkjst/下载/0">下载</a>、<a href="/czkjst/多媒体/0">多媒体</a>等其它类型、其它语言互联网信息。</p></div><div class="para-title2" id="paragraph_10">按照网站</div><div class="para-container scroll_catalog fold" id="paraContainer1"><p class="text"></p></div><p class="text">可收录的网站类型:综合门户网站、专业新闻网站和地方信息港、报刊杂志及广播电视媒体、专业及行业网站、政府及组织网站;</p></div><p class="text">不可收录的网站类型:论坛、博客、公司网站、个人网站、港澳台及海外媒体。</p></div><div class="para-title2" id="paragraph_10">按照频道</div><div class="para-container scroll_catalog fold" id="paraContainer1"><p class="text"></p></div><p class="text">国内、国际、社会、财经、互联网、体育、娱乐:内容包括新闻报道、媒体评论、以及视频新闻报道;不包括敏感类政治新闻报道,反动新闻;</p></div><p class="text">房产:内容包括业界新闻动态,家居;不包括房屋租赁信息;</p></div><p class="text">汽车:内容包括新车导购、试驾;不包括车源信息;</p></div><p class="text">游戏:内容包括业界新闻动态、游戏攻略、官方新闻;不包括游戏下载;</p></div><p class="text">健康:内容包括保健养生、健康新闻、疾病预防;不包括食谱、两性话题;</p></div><p class="text">科技:内容包括手机、数码、电脑产品行情资讯及评测,科普知识,业界新闻;不包括下载、产品报价类信息;</p></div><p class="text">其他不可收录的分类还包括:个人信息、博客、论坛、广告、招标、报价、下载、试题、教程、招聘信息、幽默笑话、情感故事、情色、写真、剧照、明星档案、食谱;</p></div><p class="text">百度新闻搜索希望收录高质量的中文新闻,不收录英文等其它非中文新闻;</p></div><p class="text">您应对提供的全部内容承担一切法律责任,保证您提供内容的真实性、合法性,并不得侵犯任何第三方的权益。</p></div><div class="para-title2" id="paragraph_10">新闻创建步骤</div><div class="para-container scroll_catalog fold" id="paraContainer1"><p class="text"></p></div><div class="para-title2" id="paragraph_10">创建文件</div><div class="para-container scroll_catalog fold" id="paraContainer1"><p class="text"></p></div><p class="text">请按遵照上面公布的开放协议内容制作<a href="/czkjst/XML文件/1994443">XML文件</a>。</p></div><p class="text">其它说明: 支持的编码格式有<a href="/czkjst/GB2312/0">GB2312</a>、UTF-8、<a href="/czkjst/BIG5/0">BIG5</a>。</p></div><p class="text">您可以将你网站某一时间段发布的全部新闻放在一个XML文件中,也可以分频道或栏目放在多个<a href="/czkjst/XML/0">XML</a>文件中。</p></div><p class="text">请保持每个<a href="/czkjst/XML/0">XML</a>文件处于按更新周期持续自动更新状态。</p></div><p class="text">每个XML文件至多存放最新发布的100条新闻,无需保存之前的新闻。</p></div><p class="text">请将发布的新闻按照时间排序,即最新发布的新闻在最上端,否则可能有新闻被遗漏。</p></div><p class="text">XML标签内容中的一些特殊字符必须转换为XML定义的转义字符,否则将发生错误导致搜索引擎不能获取页面上的新闻,具体参见下表。 字符转义后的字符</p></div><p class="text"><a href="/czkjst/HTML/0">HTML</a>字符 字符编码</p></div><p class="text">和(and) & & &</p></div><p class="text">单引号 ' ' '</p></div><p class="text"></p></div><p class="text">大于号 > > ></p></div><p class="text">小于号 < < <</p></div><p class="text"></p></div><div class="para-title2" id="paragraph_10">验证文件</div><div class="para-container scroll_catalog fold" id="paraContainer1"><p class="text"></p></div><p class="text">下面的位置提供了帮助您验证XML文件结构的多种工具:(参见资料)</p></div><p class="text">通过验证的XML文件能够使您提供的信息更加标准化,确保您发布的新闻信息不被搜索引擎遗漏。</p></div><div class="para-title2" id="paragraph_10">提交网址</div><div class="para-container scroll_catalog fold" id="paraContainer1"><p class="text"></p></div><p class="text">提交前请将XML文件上传到您的<a href="/czkjst/网站服务器/8156379">网站服务器</a>,将XML文件的<a href="/czkjst/URL/0">URL</a>地址及其它信息输入下面对应的方框内。搜索引擎将定向访问该URL地址,当URL地址发生变化时需要重新提交。</p></div><p class="text">百度新闻搜索将对你提交的数据进行测试和观察一周,若您按照互联网新闻开放协议的标准进行制作但存在问题,我们会根据XML页面上提供的邮件地址与您联系。</p></div><p class="text">注意: 百度新闻搜索不保证一定能收录您提交的全部内容。</p></div><p class="text">*站点名、地址为必填项。</p></div><p class="text">站点名 地址</p></div><p class="text">如:百度 http://news.baidu.com/news.xml</p></div> </div> </div> <div class="czkjst.org protocol-container" wx:if="{{!partialLoad&&loadLemmaComplete===2}}"> <div bindtap="goToProtocol" class="czkjst.org protocol-item" data-id="0">免责声明</div> <div bindtap="goToProtocol" class="czkjst.org protocol-item" data-id="1">隐私政策</div> <div bindtap="goToProtocol" class="czkjst.org protocol-item" data-id="2">用户协议</div> </div> </div> <div class="czkjst.org bottom-bar"> <div class="czkjst.org border"></div> <div class="czkjst.org botton-flex-container"> <div class="czkjst.org botton-container"> <button bindtap="shareLemmaMessage" class="czkjst.org btn-botbar-share" openType="share"> <div class="czkjst.org ico-share"></div> <span class="czkjst.org txt-share">分享</span> </button> </div> <div class="czkjst.org botton-container"> <div bindtap="showCatalog" class="czkjst.org btn-botbar-catalog"> <div class="czkjst.org ico-catalog"></div> <span class="czkjst.org txt-catalog">目录</span> 22 </div> </div> </div> </div> <div class="czkjst.org catalog-container fake-catalog"> <block wx:for="{{lemmaInfo&&lemmaInfo.paragraphs}}" wx:key="unique"> <block wx:if="{{item.id===-9}}"></block> <div class="czkjst.org catalog-tab twonowrap" wx:elif="{{item.level===1}}"> <span class="czkjst.org catalog-number"> <block wx:if="{{catalogNumber[index]<=9}}">0</block>{{catalogNumber[index]}}. </span>{{item.title}}</div> <div class="czkjst.org catalog-tab2 nowrap {{item.title.length>6?'mini-sub':''}}" wx:elif="{{item.level===2}}">{{item.title}}</div> </block> </div> </body> </html>