非结构化文本数据

更新时间:2023-08-09 16:57

以文本(如字符、数字、标点、各种可打印的符号等)作为数据形式的非结构化的数据;非结构化或半结构化文本数据的典型代表是图书馆数据库中的文档,这些文档可能包含结构字段,如标题、作者、出版日期、长度、分类等,也可能包含大量非结构化文本成分,如摘要和正文内容。

简介

以文本(如字符、数字、标点、各种可打印的符号等)作为数据形式的非结构化的数据;非结构化或半结构化文本数据的典型代表是图书馆数据库中的文档,这些文档可能包含结构字段,如标题、作者、出版日期、长度、分类等,也可能包含大量非结构化文本成分,如摘要和正文内容。

如何快速、准确地从来自非结构化数据源的大规模文本信息资源中提取符合需要的简洁、精炼、可理解的知识,这就涉及到文本挖掘技术。

数据

不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。

数据库

是指其字段长度可变,并且每个字段的记录又可以由可重复或不可重复的子字段构成的数据库,用它不仅可以处理结构化数据(如数字、符号等信息)而且更适合处理非结构化数据(全文文本、图象、声音、影视、超媒体等信息)。

免责声明
隐私政策
用户协议
目录 22
0{{catalogNumber[index]}}. {{item.title}}
{{item.title}}