在构建机器学习模型之前,您需要将数据加载到内存中。
在本文中,您将发现如何使用scikit-learn在Python中为机器学习加载数据。
打包数据集
scikit-learn库与数据集打包在一起。这些数据集对于在自己的工作中使用给定的机器学习算法或库功能之前很有用。
该配方演示了如何加载著名的鸢尾花数据集。
1
2
3
4
|
# Load the packaged iris flowers dataset
# Iris flower dataset (4×150, reals, multi-label classification)
iris = load_iris()
print(iris)
|
从CSV加载
在本地工作站或远程服务器上将数据集作为CSV文件存储是非常常见的。
此食谱向您展示如何从URL(在本例中为Pima Indians糖尿病分类数据集)中加载CSV文件。
您可以在此处了解有关数据集的更多信息:
从准备的X和y变量中,您可以训练机器学习模型。
1
2
3
4
5
6
7
8
9
10
11
12
13
|
# Load the Pima Indians diabetes dataset from CSV URL
import numpy as np
import urllib
# URL for the Pima Indians Diabetes dataset (UCI Machine Learning Repository)
url = “https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv”
# download the file
raw_data = urllib.urlopen(url)
# load the CSV file as a numpy matrix
dataset = np.loadtxt(raw_data, delimiter=“,”)
print(dataset.shape)
# separate the data from the target attributes
X = dataset[:,0:7]
y = dataset[:,8]
|
概括
在本文中,您发现scikit-learn方法附带打包的数据集,包括鸢尾花数据集。这些数据集可以轻松加载,并用于探索和试验不同的机器学习模型。
您还看到了如何使用scikit-learn加载CSV数据。您学习了使用urllib库从Web打开CSV文件的方法,以及如何将数据作为NumPy矩阵读取以在scikit-learn中使用。
版权声明:本文内容由互联网用户贡献,该文观点仅代表作者本人。本站不拥有所有权,不承担相关法律责任。如发现有侵权/违规的内容, 联系QQ1841324605,本站将立刻清除。