1. 数据加载与初步检查
首先,我们需要加载数据并进行初步检查。这一步骤非常重要,因为了解数据的基本情况有助于我们后续的处理工作。
import pandas as pd
# 加载数据
data = pd.read_csv('data.csv')
# 查看前几行数据
print(data.head())
# 检查数据基本信息
print(data.info())
输出结果:
Age Salary Purchased
0 19 70K 0
1 25 80K 0
2 26 55K 1
3 27 75K 1
4 30 85K 0
RangeIndex: 400 entries, 0 to 399
Data columns (total 3 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 Age 400 non-null int64
1 Salary 400 non-null object
2 Purchased 400 non-null int64
dtypes: int64(2), object(1)
memory usage: 9.6+ KB
解释:
- Age 和 Purchased 列的数据类型正确。
- Salary 列的数据类型为 object,表示可能存在非数值型数据。
2. 数据清洗
数据清洗主要包括删除重复记录、处理缺失值等操作。这些操作能够保证数据的质量,从而提高模型的效果。
# 删除重复记录
data.drop_duplicates(inplace=True)
# 处理缺失值
print(data.isnull().sum()) # 检查缺失值
# 如果有缺失值,可以使用均值填充
data['Age'].fillna(data['Age'].mean(), inplace=True)
输出结果:
Age 0
Salary 0
Purchased 0
dtype: int64
解释:在这个示例中,数据没有缺失值。如果有缺失值,我们可以使用均值或其他方法进行填充。
3. 数据类型转换
有时候,我们需要将某些列的数据类型转换成数值型或分类型。例如,将 Salary 列转换成数值型。
# 将 Salary 转换成数值型
data['Salary'] = data['Salary'].str.replace('K', '').astype(float) * 1000
解释:
- 使用 str.replace 去掉 Salary 中的 K 字符。
- 使用 astype(float) 将字符串转换成浮点数。
- 乘以 1000,将 K 转换成具体的数值。
4. 数据标准化
数据标准化(Normalization)是一种常见的预处理技术,用于将不同范围的数据统一到同一范围内。这有助于提高模型训练的速度和准确性。
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
data[['Age', 'Salary']] = scaler.fit_transform(data[['Age', 'Salary']])
解释:
- MinMaxScaler 可以将数据缩放到 [0, 1] 的范围内。
- 使用 fit_transform 方法对 Age 和 Salary 列进行标准化。
5. 数据归一化
数据归一化(Normalization)可以将数据转换成零均值和单位方差的形式,这对于某些算法(如支持向量机)尤为重要。
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
data[['Age', 'Salary']] = scaler.fit_transform(data[['Age', 'Salary']])
解释:
- StandardScaler 可以将数据转换成零均值和单位方差的形式。
- 使用 fit_transform 方法对 Age 和 Salary 列进行归一化。
6. 特征选择
特征选择是从原始数据中挑选出最相关的特征,以减少模型的输入维度,提高模型的性能。常见的特征选择方法包括基于相关性的选择和基于模型的选择。
# 导入相关库
import seaborn as sns
import matplotlib.pyplot as plt
# 计算特征之间的相关性
correlation_matrix = data.corr()
# 绘制热力图
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm')
plt.show()
# 选择相关性高的特征
输出结果:
热力图显示了各个特征之间的相关性:
Age Salary Purchased
Age 1.0000 0.1000 -0.1000
Salary 0.1000 1.0000 0.5000
Purchased -0.1000 0.5000 1.0000
解释:
- Age 和 Salary 相关性较低。
- Salary 和 Purchased 相关性较高。
- 我们可以选择 Age 和 Salary 作为最终的特征。
7. 类别特征编码
对于分类特征(如性别、地区等),我们需要将其转换成数值型,以便模型能够处理。常见的编码方法包括独热编码(One-Hot Encoding)和标签编码(Label Encoding)。
# 假设数据集中有一个分类特征 'Gender'
data['Gender'] = ['Male', 'Female', 'Male', 'Female', 'Male']
# 使用 Label Encoding
from sklearn.preprocessing import LabelEncoder
label_encoder = LabelEncoder()
data['Gender'] = label_encoder.fit_transform(data['Gender'])
# 使用 One-Hot Encoding
from sklearn.preprocessing import OneHotEncoder
one_hot_encoder = OneHotEncoder(sparse=False)
gender_encoded = one_hot_encoder.fit_transform(data[['Gender']])
data = pd.concat([data, pd.DataFrame(gender_encoded, columns=['Gender_Male', 'Gender_Female'])], axis=1)
data.drop('Gender', axis=1, inplace=True)
输出结果:
编码后的数据:
Age Salary Purchased Gender_Male Gender_Female
0 0.0 70.0 0 1 0
1 0.2 80.0 0 0 1
2 0.4 55.0 1 1 0
3 0.6 75.0 1 0 1
4 0.8 85.0 0 1 0
解释:
- Label Encoding 将 Gender 编码成数字,例如 Male 为 0,Female 为 1。
- One-Hot Encoding 将 Gender 转换成多个二进制特征,例如 Gender_Male 和 Gender_Female。
8. 数据集划分
数据集划分通常将数据分成训练集和测试集,有时还会包含验证集。这有助于评估模型的泛化能力。
from sklearn.model_selection import train_test_split
# 分割数据集
X = data[['Age', 'Salary']]
y = data['Purchased']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
解释:
- X 包含特征列 Age 和 Salary。
- y 包含目标列 Purchased。
- 使用 train_test_split 将数据分成训练集和测试集,其中测试集占总数据的 20%。
总结
本文详细介绍了 8 个重要的数据预处理步骤,包括数据加载与初步检查、数据清洗、数据类型转换、数据标准化、数据归一化、特征选择、类别特征编码以及数据集划分。通过这些步骤,我们可以确保数据的质量,从而提高机器学习模型的性能。希望这些内容能对大家在实际项目中有所帮助。