sklearn转换器和估计器

一、KNN

K-近邻算法

如果一个样本在特征空间中的k个最相似的样本中的大多数属于一个类别,则该样本也属于这个类别。

k值过小 容易受到异常值影响

k值过大 容易受到样本不均衡的影响

距离公式

数据预处理:标准化

模型选择与调优

交叉验证

训练数据分为训练和验证集,取平均值最好的结果

超参数搜索-网格搜索

需要手动指定的参数叫超参数

使用网格搜索构建估计器,每组参数都使用交叉验证,得到最好的参数组合