机器学习笔记(一) —— k-近邻算法

##k-近邻算法的一般流程

(1)收集数据:可以使用任何方法。

(2)准备数据:距离计算所需要的数值,最好是结构化的数据格式。

(3)分析数据:可以使用任何方法。

(4)测试算法:计算错误率。

(5)使用算法:首先需要输入样本数据和结构化的输出结果,然后运行女-近邻算法判定输
入数据分别属于哪个分类,最后应用对计算出的分类执行后续的处理。


##k-近邻算法分类器的构造

对未知类别属性的数据集中的每个点依次执行以下操作:

(1)计算已知类别数据集中的点与当前点之间的距离;

(2)按照距离递增次序排序;

(3)选取与当前点距离最小的走个点;

(4)确定前灸个点所在类别的出现频率;

(5)返回前女个点出现频率最高的类别作为当前点的预测分类。


##分类器的检测

通过大量数据检测分类器构造是否准确


##实例 —— 在约会网站上使用&近邻算法

(1)收集数据:提供文本文件。

(2)准备数据: 使用python解析文本文件。

(3)分析数据:使用Matplotlib化画二维扩散图。

(4)训练算法:此步驟不适用于k-近邻算法

(5)测试算法:使用海伦提供的部分数据作为测试样本。

(6)使用算法:产生简单的命令行程序,然后可以输入一些特征数据以判断对方是否为自己喜欢的类型。


##Tips

1.在机器学习中经常会利用矩阵,线性代数等方面知识,一般需要导入numpy包
from numpy import *

2.在图像识别过程中,一般是将图像分为像素点,用1,0来表示,记录矩阵