数据 = pd.read_csv('data.csv') # 检查是否有缺失值 print(data.isnull().sum()) # 删除有缺失值的行 data.dropna(inplace=True) # 检查所有缺失值是否已被删除 打印(数据.isnull() 旨在解决。 分类、回归和聚类是机 香港电话号码数据 器学习挑战的三大类。 当您想要预测分类变量(例如电子邮件是否为垃圾邮件)时,您可以使用分类。
当您想要预测连续变量(例如房屋价格)时,可以使用回归。 聚类用于根据可比较的数据项的共性将其分组在一起。
如果我们看看我们的例子; 我们的挑战是根据人们的性别和年龄确定他们最喜欢的音乐风格。 我们将在此示例中使用 18 人的数据集以及有关他们的年龄、性别和偏好音乐风格的信息。
2. 准备数据 指定问题后,您需要准备数据来训练模型。 这包括清理和处理数据。 因此,我们可以确保机器学习算法是可以使用的形式。
这可能包括删除缺失值、将分类数据转换为据以确保所有特征都处于同一尺度等操作。
例如,删除缺失值的方法如下:
将 pandas 导入为 pd # 将数据加载到 pandas DataFrame 中 数据 = pd.read_csv('data.csv') # 检查是否有缺失值 print(data.isnull().sum()) # 删除有缺失值的行 data.dropna(inplace=True) # 检查所有缺失值是否已被删除 print(data.isnull().sum())
|