sklearn转换器和估计器

转换器
估计器

一、KNN

K-近邻算法

如果一个样本在特征空间中的k个最相似的样本中的大多数属于一个类别，则该样本也属于这个类别。

k值过小容易受到异常值影响

k值过大容易受到样本不均衡的影响

距离公式

欧氏距离
曼哈顿距离绝对值距离
明可夫斯基距离 p=2欧式 1曼哈顿

数据预处理：标准化

模型选择与调优

交叉验证

将训练数据分为训练和验证集，取平均值最好的结果

超参数搜索-网格搜索

需要手动指定的参数叫超参数

使用网格搜索构建估计器，每组参数都使用交叉验证，得到最好的参数组合