仪表板(Dashboard): 使用算法分析数据,并将结果用图表方式显示于仪表板中。

数据聚合工具(Data aggregation tools): 将分散于众多数据源的数据转化成一个全新数据源的过程。

数据分析师(Data analyst): 从事数据分析、建模、清理、处理的专业人员。

数据库(Database): 一个以某种特定的技术来存储数据集合的仓库。

数据湖(Data lake): 数据湖是原始格式的企业级数据的大型存储库。与此同时我们可以涉及数据仓库,它在概念上是相似的,也是企业级数据的存储库,但在清理、与其他来源集成之后是以结构化格式。数据仓库通常用于常规数据(但不是专有的)。数据湖使得访问企业级数据更加容易,你需要明确你要寻找什么,以及如何处理它并明智地试用它。

暗数据(Dark Data): 基本上指的是,由企业收集和处理的,但并不用于任何意义性目的的数据,因此它是“暗”的,可能永远不会被分析。它可以是社交网络反馈,呼叫中心日志,会议笔记等等。有很多人估计,所有企业数据中的 60-90% 可能是“暗数据”,但谁又真正知道呢?

数据挖掘(Data mining): 数据挖掘是通过使用复杂的模式识别技术,从而找到有意义的模式,并得出大量数据的见解。

数据中心(Data centre): 一个实体地点,放置了用来存储数据的服务器。

数据清洗(Data cleansing): 对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。

数据质量(Data Quality): 有关确保数据可靠性和实用价值的过程和技术。高质量的数据应该忠实体现其背后的事务进程,并能满足在运营、决策、规划中的预期用途。

数据订阅(Data feed): 一种数据流,例如Twitter订阅和RSS。

数据集市(Data Mart): 进行数据集买卖的在线交易场所。

数据建模(Data modelling): 使用数据建模技术来分析数据对象,以此洞悉数据的内在涵义。

数据集(Data set): 大量数据的集合。

数据虚拟化(Data virtualization): 数据整合的过程,以此获得更多的数据信息,这个过程通常会引入其他技术,例如数据库,应用程序,文件系统,网页技术,大数据技术等等。

判别分析(Discriminant analysis): 将数据分类,按不同的分类方式,可将数据分配到不同的群组,类别或者目录。是一种统计分析法,可以对数据中某些群组或集群的已知信息进行分析,并从中获取分类规则。

分布式文件系统(Distributed File System): 提供简化的,高可用的方式来存储、分析、处理数据的系统。

文件存贮数据库(Document Store Databases): 又称为文档数据库,为存储、管理、恢复文档数据而专门设计的数据库,这类文档数据也称为半结构化数据。