搜索引擎技术基础

更新时间:2021-12-04 21:47

《搜索引擎技术基础》是2010年清华大学出版社出版的图书,作者是刘弈群、马少平、洪涛、刘子正。

内容简介

《搜索引擎技术基础》一书,由多人合作编写,是高水平教材编写的又一次有益尝试,其显著特色之一是将清华大学计算机系在搜索技术方面的研究成果与百度公司在搜索应用领域的丰富经验融为一体,既强调原理,也重视实践。《搜索引擎技术基础》从研究实践者的角度角度出介绍了搜索引擎的相关技术及其产业,并试图协助读者成为搜索引擎领域的局内人。与传统的将搜索引擎作为信息检索系统实现的一个特殊实例的做法不同,作者试图把搜索引擎作为一个独立的研究课题,从纷繁复杂的互联网数据现象和搜索引擎工作案例中提炼知识点,对现代商业搜索引擎的体系结构,运行原理,运营机制和核心算法进行总结和讲解。

本书是清华大学计算机系与百度公司合作在清华大学开设的“搜索引擎技术基础”课程教材,适合作为高等院校信息科学技术图书馆学等相关专业本科生与牵相关课程的教材,也可作为相关领域技术人员与搜索引擎技术爱好者的参考资料。

作者简介

刘奕群,2003年本科毕业于清华大学计算机系并免试推荐直接攻读博士学位,2007年获博士学位后留校任教至今,在清华大学计算机系教授“搜索引擎技术基础”与“搜索引擎产品设计与实践”等课程。主要从事与搜索引擎技术相关的互联网应用研究工作,包括网络信息检索、网络用户行为分析、网络产品性能评价等。发表相关领域学术论文40余篇,申请专利7项,并与百度公司搜狐公司、微软亚洲研究院等单位开展多项搜索引擎技术方面的合作研究。

马少平,1982年本科毕业于清华大学计算机系,1984年获清华大学计算机系硕士学位后留校任教,1991-1992年在日本学习,1997年获清华大学计算机系博士学位,1998年晋升为教授,1999年聘为博士生导师。现任清华大学智能技术与系统国家重点实验室主任、中国人工智能学会常务理事、知识工程专业委员会副主任、中国中文信息学会理事、信息检索与内容安全专业委员会副主任。主要从事智能信息处理方面的研究工作,包括汉字识别、文本信息检索、图像信息检索、中文古籍的数字化与检索等。

洪涛,1986年和1989年先后获得北京大学计算机学士学位和心理学硕士学位,1995年在纽约州立布法罗大学计算机系取得博士学位。长期从事自然语言处理、搜索引擎/信息检索、互联网广告技术、数据挖掘、模式识别和金融数据分析建模等方面的研发工作。

教材目录

第1章 搜索引擎概述

1.1 搜索引擎的概念、原理及历史与发展1

1.1.1 搜索引擎的概念1

1.1.2 搜索引擎的原理2

1.2 搜索引擎的历史与发展趋势2

1.2.1 搜索引擎的发展史3

1.2.2 搜索引擎的发展趋势7

1.3 搜索引擎的分类9

1.3.1 全文搜索引擎10

1.3.2 目录索引搜索引擎10

1.3.3 元搜索引擎11

1.3.4 分布式搜索引擎12

1.4 搜索引擎的关键技术12

1.4.1 信息收集和存储技术12

1.4.2 信息预处理技术12

1.4.3 信息索引技术13

1.5 主要搜索引擎介绍14

1.5.1 谷歌搜索14

1.5.2 雅虎搜索17

1.5.3 百度搜索19

1.5.4 北大天网搜索22

1.6 小结24

思考题26

第2章 搜索引擎基础

2.1 搜索引擎的体系结构27

2.1.1 搜索器27

2.1.2 索引器29

2.1.3 检索器30

2.1.4 用户接口30

2.2 搜索引擎的工作原理31

2.2.1 网页搜集31

2.2.2 网页处理32

2.2.3 查询服务34

2.3 搜索引擎的数据结构35

2.3.1 存储结构35

2.3.2 信息库37

2.3.3 文本索引37

2.3.4 词典38

2.3.5 采样表38

2.3.6 前向索引38

2.3.7 后向索引39

2.4 元搜索引擎39

2.4.1 元搜索引擎的基本构成40

2.4.2 元搜索引擎的分类41

2.4.3 常用元搜索引擎介绍42

2.4.4 元搜索引擎的特点45

2.4.5 主要技术指标46

2.5 个性化搜索引擎47

2.5.1 系统模块及其功能48

2.5.2 个性化搜索引擎的关键技术49

2.6 智能搜索引擎50

2.6.1 智能搜索引擎特征50

2.6.2 智能搜索引擎主要技术51

2.7 小结52

思考题54

第3章 网页抓取技术

3.1 搜索引擎爬虫55

3.1.1 网络爬虫工作原理55

3.1.2 开源网络爬虫简介56

3.1.3 网页信息的抓取58

3.2 搜索引擎爬虫的关键技术60

3.2.1 网页抓取优先策略60

3.2.2 深度优先策略61

3.2.3 广度优先策略62

3.2.4 最佳优先策略63

3.2.5 不重复抓取策略64

3.2.6 网页重访策略67

3.2.7 网页抓取提速策略68

3.2.8 Robots协议69

3.3 小结71

思考题72

第4章 网页信息预处理技术

4.1 网页信息结构化73

4.1.1 网页结构化的目标73

4.1.2 建立DOM树74

4.1.3 网页内容的获取76

4.2 文本处理77

4.2.1 词法分析77

4.2.2 中文分词技术78

4.2.3 无用词删除83

4.2.4 词干提取83

4.2.5 索引词选择91

4.2.6 词典91

4.3 PageRank算法93

4.3.1 什么是PageRank93

4.3.2 PageRank的算法94

4.3.3 PageRank的特性95

4.3.4 PageRank的迭代计算96

4.3.5 网页级别的优化97

4.4 小结99

思考题100

第5章 信息索引技术

5.1 顺排检索101

5.1.1 表展开法101

5.1.2 逻辑树展开法104

5.1.3 BF算法110

5.1.4 KMP算法111

5.1.5 BM算法113

5.2 倒排索引116

5.2.1 倒排索引116

5.2.2 倒排文档117

5.2.3 逆波兰表达式118

5.2.4 检索指令表的生成120

5.2.5 检索实施121

5.3 后缀数组索引122

5.3.1 后缀树概念122

5.3.2 后缀树原理122

5.3.3 后缀树存储124

5.3.4 后缀树的构造124

5.3.5 后缀数组126

5.3.6 后缀数组生成算法127

5.4 文本压缩技术128

5.4.1 基本概念128

5.4.2 统计方法128

5.4.3 字典方法134

5.4.4 倒排文档压缩139

5.5 小结142

思考题143

第6章 信息查询与评价技术

6.1 检索模型145

6.1.1 经典模型145

6.1.2 代数模型150

6.2 检索方法153

6.2.1 布尔检索153

6.2.2 加权检索153

6.2.3 全文检索155

6.2.4 超文本检索158

6.3 查询服务161

6.3.1 查询器原理161

6.3.2 搜索引擎检索过程162

6.3.3 检索结果排序165

6.3.4 自动摘要生成168

6.4 相关性171

6.4.1 相关性的特征171

6.4.2 相关性类别172

6.4.3 相关性模型174

6.5 搜索引擎评价指标177

6.5.1 有效性177

6.5.2 查全率和查准率177

6.5.3 其他评价指标179

6.6 小结180

思考题182

第7章 多媒体信息检索技术

7.1 多媒体的基本概念183

7.1.1 多媒体及多媒体技术183

7.1.2 音频信息与检索特征185

7.1.3 图形图像信息与检索特征188

7.1.4 视频信息与检索特征190

7.1.5 多媒体信息检索194

7.2 多媒体数据压缩197

7.2.1 多媒体压缩原理197

7.2.2 多媒体压缩编码199

7.3 多媒体内容的理解200

7.3.1 分割200

7.3.2 特征提取与降维201

7.3.3 分类201

7.4 多媒体信息检索的关键技术202

7.4.1 信息模型202

7.4.2 检索技术202

7.4.3 查询语言203

7.4.4 数据压缩和恢复203

7.4.5 存储管理203

7.4.6 同步技术204

7.5 小结204

思考题206

第8章 搭建基于Lucene的搜索引擎

8.1 实例简介207

8.1.1 搜索引擎的体系结构208

8.1.2 网页搜集208

8.1.3 网页预处理209

8.1.4 查询服务210

8.2 环境搭建与配置210

8.2.1 JDK 1.6的安装与配置212

8.2.2 Eclipse的安装与配置214

8.2.3 Tomcat的安装与配置221

8.2.4 Heritrix的安装与配置223

8.3 网页搜集230

8.3.1 设置Heritrix抓取任务230

8.3.2 修改Heritrix源代码236

8.3.3 抓取网页239

8.4 网页预处理241

8.4.1 原始网页的处理242

8.4.2 建立简单的索引259

8.4.3 为实例建立索引266

8.5 查询服务269

8.5.1 结构设计269

8.5.2 查询设计270

8.5.3 预搜索设计275

8.5.4 页面设计276

8.5.5 网页快照实现283

8.5.6 部署到Tomcat284

8.6 小结286

实验286

第9章 搭建基于Nutch的搜索引擎

9.1 Nutch简介287

9.1.1 爬虫Crawler简介287

9.1.2 Crawler工作流程288

9.2 环境搭建与配置289

9.2.1 开发工具简介289

9.2.2 Tomcat的安装与配置290

9.2.3 Cygwin的安装与配置292

9.2.4 Nutch的安装与配置294

9.2.5 将Nutch导入Eclipse294

9.3 Nutch的初始配置及运行296

9.3.1 修改Nutch基本配置296

9.3.2 配置Eclipse运行参数298

9.3.3 部署到Tomcat301

9.3.4 搜索的实现302

9.4 开发自己的搜索引擎平台304

9.4.1 添加中文分词插件304

9.4.2 网站抓取设置310

9.4.3 网页快照设置311

9.4.4 查询功能优化312

9.4.5 系统部署314

9.4.6 修改Nutch查询界面314

9.5 结果与测试316

9.5.1 测试结果316

9.5.2 结果讨论319

9.6 小结320

实验320

参考文献321

免责声明
隐私政策
用户协议
目录 22
0{{catalogNumber[index]}}. {{item.title}}
{{item.title}}