machine learning in action 中讲解

  1. knn的一般流程
    1. 收集数据
    2. 准备数据:变成结构化的数据格式
    3. 分析数据
    4. 训练算法:此步骤不适用于k近邻算法
    5. 测试算法:计算错误率
    6. 使用算法:输入样本数据和结构化的输出结果,然后运行knn判断输入数据属于哪个分类
  2. 已有样本集,通过计算未知项与已知样本的距离,取最近的k的样本,得到未知项的性质。

eleanor’s notes

  1. 使用knn的前提
    • 要划分的类别是明确的。

  2. 使用knn的缺陷
    • 计算量大
    • 需要正确的选择距离的表达方式以及考虑是否需要归一化。

  3. 我在做字符识别时相当于做了一个k=1的KNN。