对iris数据集进行聚类分析,加载iris数据集,并划分训练集、测试集
一.虹膜数据集介绍
Iris数据集中文命名为Anderson Alice Flower Dataset,英文命名为Andersonsirisdataset。Iris包含150个示例,对应于数据集中的每一行数据。Iris数据集是一个150行5列的二维表格,因为每行数据包含每个样本的四个特征和样本类别信息。
总的来说,iris数据集是一个用于花卉分类的数据集。每个样本包括四个特征(前四列):花萼长度、花萼宽度、花瓣长度和花瓣宽度。你需要做一个分类器。根据样本的四个特征,分类器可以判断西伯利亚鸢尾、变色鸢尾和弗吉尼亚鸢尾属于哪一种。
iris中的每个样本都包含多样性信息作为目标属性。第五列也称为目标或标签。
示例的部分截图:
构造样本中四个特征的两两组合(任意两个特征分别为横轴和纵轴,不同品种的花用不同的颜色标注),如图,有12个组合(实际只有6个,另外6个与之对称)。
Python的数据挖掘和机器学习库sci toolkit已经包含iris数据集。如果没有安装sci工具包,请参考sci工具包安装教程。
二。scikit中虹膜数据集介绍
在linux上打开终端(ubuntu默认快捷键是ctrl alt T),输入python进入python shell,然后输入代码。
froklearnimportdatasetsiris=datasets . load _ iris(# data对应例子的四个特征。具有10行和4列的打印iris.data.shape#指示样本特征的前五行的打印iris . data[:5]#目标对应于样本类别(目标属性),并且具有150行和1列的打印。
其中iris.target分别用0、1、2三个整数来表示花的三个品种。
对于分类,使用虹膜数据集。sci工具包附带了。只需搜索:pkgs目录中的iris.csv。
froms kle arn . datasetsimportload _ iris
iris=load_iris()