KNN算法原理与应用实例解析-从基础到实践

KNN算法原理与应用实例

一、KNN算法原理

1. 基本概念
K-Nearest Neighbors（KNN）是一种监督学习算法，属于实例学习（Instance-based Learning）或惰性学习（Lazy Learning）。其核心思想是：
- 分类问题：给定一个样本，找到训练集中与其距离最近的K个样本，通过多数表决决定样本的类别。
- 回归问题：找到K个最近邻样本，取其目标值的平均值作为预测结果。

2. 关键步骤
1. 选择距离度量：常用欧氏距离（Euclidean Distance），但也可使用曼哈顿距离、余弦相似度等。
- 示例：二维空间中两点 ( (x1, y1) ) 和 ( (x2, y2) ) 的欧氏距离为：
[
d = \sqrt{(x2 - x1)^2 + (y2 - y1)^2}
]
2. 确定K值：K为超参数，通常通过交叉验证选择。较小的K可能导致过拟合，较大的K可能使模型过于平滑。
3. 分类/回归决策：
- 分类：统计K个邻居中各类别的出现次数，选择频率的类别。
- 回归：计算K个邻居目标值的平均值。

3. 优缺点
- 优点：
- 简单易懂，无需训练过程（惰性学习）。
- 适用于多分类问题。
- 缺点：
- 计算复杂度高（需计算所有训练样本的距离）。
- 对特征缩放敏感（需标准化数据）。
- 高维数据下距离度量失效（维度灾难）。

二、KNN应用实例

1. 分类问题：鸢尾花数据集
- 任务：根据花萼长度、宽度等特征，预测鸢尾花的品种（Setosa、Versicolour、Virginica）。
- 实现步骤：
1. 加载数据并划分训练集/测试集。
2. 标准化特征（如使用Z-score标准化）。
3. 选择K值（如K=3）。
4. 计算测试样本与训练样本的距离，找到K个最近邻。
5. 通过多数表决确定类别。
- 代码示例（Python/scikit-learn）：
```python
from sklearn.datasets import loadiris
from sklearn.modelselection import traintestsplit
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

# 加载数据
iris = loadiris()
X, y = iris.data, iris.target
Xtrain, Xtest, ytrain, ytest = traintestsplit(X, y, testsize=0.3, random_state=42)

# 标准化特征
scaler = StandardScaler()
Xtrain = scaler.fittransform(Xtrain)
Xtest = scaler.transform(X_test)

# 训练KNN模型
knn = KNeighborsClassifier(nneighbors=3)
knn.fit(Xtrain, y_train)

# 预测与评估
ypred = knn.predict(Xtest)
print("Accuracy:", accuracyscore(ytest, y_pred))
```

2. 回归问题：房价预测
- 任务：根据房屋面积、卧室数量等特征，预测房价。
- 实现步骤：
1. 加载数据并预处理。
2. 选择K值（如K=5）。
3. 计算测试样本与训练样本的距离，找到K个最近邻。
4. 取K个邻居房价的平均值作为预测结果。
- 代码示例（伪代码）：
```python
from sklearn.neighbors import KNeighborsRegressor
from sklearn.metrics import meansquarederror