数据分析与挖掘考试题,数据挖掘期末考试试题
数据挖掘的定义:数据挖掘(Data Mining)DM,是从大量的、有噪声的、不完全的、模糊和随机的数据中,提取出隐含在其中的,人们事先不知道的、具有潜在利用价值的信息和知识的过程。
这个定义有几个意思。
数据源必须是真实的、海量的、有噪音的发现,用户感兴趣的知识发现知识是可以接受和理解的,不需要一般知识就可以使用。具体问题
数据挖掘是从数据中发掘知识的过程,在这个过程中,在这个过程中人工智能和数据库技术可以作为挖掘工具,数据可以被看做是土壤,云平台可以看做是承载数据和挖掘算法的基础设施。在数据挖掘中需要用到一些挖掘工具和方法,如机器学习的方法。当挖掘完毕后,数据挖掘还需要对知识进行可视化和展示
数据挖掘是多学科的汇合,是一个交叉性的学科,设计数据库技术、人工智能、数理统计、机器学习、模式识别、高性能计算、知识工程、神经网络、信息检索、信息的可视化等众多领域
典型的数据挖掘包括对象关系数据库、事务数据库和面向对象数据库。
关系数据库是表的集合,每个表都赋予一个唯一的名字
事务数据库由一个文件组成,其中每个记录代表一个事件
数据仓库/多维数据库
数据仓库是通过数据清洗、数据转换、数据集成、数据读取和定期数据更新来构建的。
空间数据(地图信息)
工程数据(关于建筑物和集成电路的信息)。
以及文本和多媒体数据(文本、图像、音频、视频数据)。
与时间相关的数据(历史数据和股票交易数据等。)
Web(结构化HTML、结构化XML和其他网络信息)。
大数据环境下的数据挖掘大数据挖掘:从海量、多样、动态、快速的流量和低价值密度的大数据中挖掘出具有巨大潜在价值的信息和知识,并以服务的形式提供给用户。
大数据挖掘与传统数据挖掘相比:
技术背景差异
处理对象差异
挖掘程度差异
大数据挖掘功能:
在大数据时代,数据的产生和收集是基础,数据挖掘是关键,即数据挖掘是大数据中最关键、最有价值的工作
应用性、工程性、集合性
CRISP-DM数据挖掘生命周期:业务理解、数据理解和收集、数据准备、数据建模、模型评估和部署。
知识发现、数据清洗、数据集成、数据选择、数据转换、数据挖掘模型评估,1995年在加拿大蒙特利尔召开的知识发现和数据挖掘国际学术会议上首次提出了数据挖掘的名称,并将数据挖掘技术应用于科学研究。
数据挖掘研究:热点网站的数据挖掘:从网站的各种数据中获取有价值的信息。
数据挖掘的新挑战重构数据挖掘分析模型:要在大数据背景下低成本、可扩展地处理大数据,需要重构整个IT架构,开发先进的软件平台和算法。
清洗粒度的大小很难把握:由于终端地理位置的复杂性,产生的数据中噪声较多。
开放数据与隐私的权衡:互联网的交互使得人们在各个地方的数据足迹不断积累和关联,隐私暴露的概率增加,这样的隐私数据暴露是可以控制的。
数据挖掘的未来趋势:
数据挖掘语言的标准化描述:标准的数据挖掘语言有助于开发数据挖掘系统,提高各种数据挖掘系统和功能之间的互操作性,促进企业和社会的使用。
数据库系统和以Web查询接口方式访问数据库资源的Web数据库已经成为信息处理系统的主流
数据挖掘工具包括商业工具和开源工具。
Python是一种强大的、开源的、描述性的和面向对象的计算机编程语言。支持多种平台,可扩展。
在数据挖掘中可以做什么:
寻找最有价值的客户
让团体销售更有效率。
维护最有价值的用户。
用更少的成本发现欺诈。