更新时间:2024-05-21 17:04
数据开采(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。与数据开采相近的同义词有数据融合、数据分析和决策支持等。
数据开采技术从一开始就是面向应用的。它不仅仅要完成面向特定数据库的检索、查询、调用,而且要对这些数据进行统计、分析、综合和推理,以指导实际问题的求解,发现一件事和其他事件的相互关联,甚至利用已有的数据对未来的活动进行预测。
数据开采技术的目标是从大量数据中,发现隐藏于其后的规律或数据间的关系,从而服务于决策。数据挖掘一般有以下四类主要任务:数据总结、分类、关联分析和聚类。
来自各种源的大量数据通常以这种方式进行分析。某个机构通过将其数据库与从其他源中获得的数据库相关联,就可能从它现有的数据中提取新的数据。例如,如果用户的数据库结合另一个源(包含那些相同用户的其他信息)的数据库,则该用户数据库可能提供新的信息。开采可能产生超出合并的数据基本关系的未预料信息。但是数据开采的潜能超出了用户数据库范围。科学数据库是一个主要的候选者。例如,地理信息是可以“开采的”,以找到潜在的矿藏和油田位置!