百度分词 - 知识百科

百度分词

更新时间：2023-08-10 20:07

百度分词技术就是百度针对用户提交查询的关键词串进行的查询处理后根据用户的关键词串用各种匹配方法进行的一种技术。所谓分词就是把字与字连在一起的汉语句子分成若干个相互独立、完整、正确的单词。词是最小的、能独立活动的、有意义的语言成分。计算机的所有语言知识都来自机器词典(给出词的各项信息) 、句法规则(以词类的各种组合方式来描述词的聚合现象) 以及有关词和句子的语义、语境、语用知识库。中文信息处理系统只要涉及句法、语义(如检索、翻译、文摘、校对等应用) ,就需要以词为基本单位。当汉字由句转化为词之后,才能使得句法分析、语句理解、自动文摘、自动分类和机器翻译等文本处理具有可行性。可以说,分词是机器语言学的基础。

字符匹配

百度分词方法

百度分词3种技术：字符串匹配的分词方法、词义分词法、统计分词法。

机械分词方法

字符串匹配这种方法又叫做机械分词方法，它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配，若在词典中找到某个字符串，则匹配成功（识别出一个词）。按照扫描方向的不同，字符串匹配分词方法可以分为正向匹配和逆向匹配；按照不同长度优先匹配的情况，可以分为最大（最长）匹配和最小（最短）匹配；按照是否与词性标注过程相结合，又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械分词方法如下：

1）正向最大匹配法（由左到右的方向）；

首先粗分，按照句子把文本切成一个一个句子。然后把每个句子切成单字。字典按照树形结构存储，比如这句话“春天还会远吗”首先查找“春”字开头的词，然后按照字典树形结构往下走一个节点，查找“春”后面一个字是“天”的词，然后又下沉一个节点，找“还”下面是“会”的词，找不到了，查找就结束。

2）逆向最大匹配法（由右到左的方向）；

就是朝相反的方向发掘可以匹配的文字，比如网上商城这个文字串，那么会向左延伸在网上的前面会出现的结果是区域性的文字，比如上海或者北京等，在商城的前面会出现更精准的定义文字符，比如爱家，女人等专属性强的文字符。

3）最少切分（使每一句中切出的词数最小）。

正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。就是向左右纵深挖掘比较匹配的结果值。

免责声明

隐私政策

用户协议

目录 22

0{{catalogNumber[index]}}. {{item.title}}