python读取mnist数据集方法案例详解-编程学习网

mnist手写数字数据集在机器学习中非常常见，这里记录一下用python从本地读取mnist数据集的方法。

数据集格式介绍

这部分内容网络上很常见，这里还是简明介绍一下。网络上下载的mnist数据集包含4个文件：

在这里插入图片描述

前两个分别是测试集的image和label，包含10000个样本。后两个是训练集的，包含60000个样本。.gz表示这个一个压缩包，如果进行解压的话，会得到.ubyte格式的二进制文件。

在这里插入图片描述

上图是训练集的label和image数据的存储格式。两个文件最开始都有magic number和number of images/items两个数据，有用的是第二个，表示文件中存储的样本个数。另外要注意的是数据的位数，有32位整型和8位整型两种。

读取方法

.gz格式的文件读取

需要import gzip
读取训练集的代码如下：


def load_mnist_train(path, kind='train'): 
'‘'
path:数据集的路径
kind:值为train，代表读取训练集
‘'‘   
    labels_path = os.path.join(path,'%s-labels-idx1-ubyte.gz'% kind)
    images_path = os.path.join(path,'%s-images-idx3-ubyte.gz'% kind)
    #使用gzip打开文件
    with gzip.open(labels_path, 'rb') as lbpath:
	    #使用struct.unpack方法读取前两个数据，>代表高位在前，I代表32位整型。lbpath.read(8)表示一次从文件中读取8个字节
	    #这样读到的前两个数据分别是magic number和样本个数
        magic, n = struct.unpack('>II',lbpath.read(8))
        #使用np.fromstring读取剩下的数据，lbpath.read()表示读取所有的数据
        labels = np.fromstring(lbpath.read(),dtype=np.uint8)
    with gzip.open(images_path, 'rb') as imgpath:
        magic, num, rows, cols = struct.unpack('>IIII',imgpath.read(16))
        images = np.fromstring(imgpath.read(),dtype=np.uint8).reshape(len(labels), 784)
    return images, labels

读取测试集的代码类似。

非压缩文件的读取

如果在本地对四个文件解压缩之后，得到的就是.ubyte格式的文件，这时读取的代码有所变化。


def load_mnist_train(path, kind='train'): 
'‘'
path:数据集的路径
kind:值为train，代表读取训练集
‘'‘   
    labels_path = os.path.join(path,'%s-labels-idx1-ubyte'% kind)
    images_path = os.path.join(path,'%s-images-idx3-ubyte'% kind)
    #不再用gzip打开文件
    with open(labels_path, 'rb') as lbpath:
	    #使用struct.unpack方法读取前两个数据，>代表高位在前，I代表32位整型。lbpath.read(8)表示一次从文件中读取8个字节
	    #这样读到的前两个数据分别是magic number和样本个数
        magic, n = struct.unpack('>II',lbpath.read(8))
        #使用np.fromfile读取剩下的数据
        labels = np.fromfile(lbpath,dtype=np.uint8)
    with gzip.open(images_path, 'rb') as imgpath:
        magic, num, rows, cols = struct.unpack('>IIII',imgpath.read(16))
        images = np.fromfile(imgpath,dtype=np.uint8).reshape(len(labels), 784)
    return images, labels

读取之后可以查看images和labels的长度，确认读取是否正确。

到此这篇关于python读取mnist数据集方法案例详解的文章就介绍到这了,更多相关python读取mnist数据集方法内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

文章详情

python读取mnist数据集方法案例详解

数据集格式介绍

读取方法

.gz格式的文件读取

非压缩文件的读取

软考中级精品资料免费领

相关文章

猜你喜欢

python读取mnist数据集方法案例详解

Python rindex()方法案例详解

pytorch dataset实战案例之读取数据集的代码

python读取nc数据并绘图的方法实例

Python中JSON数据的读取方法

Python读取.py文件的方法详解

详解python读取matlab数据(.mat文件)

Python 循环读取数据内存不足的解决方案

详细解读Python中解析XML数据的方法

python数据XPath使用案例详解

Python文件打开读取写入方法实用案例

pytorch读取csv数据集的方法有哪些

python实现读取excel表格详解方法

PHP实现数据库读取前几条数据的方法详解

python数据分析之文件读取详解

SpringBootyaml语法与数据读取操作详解

Android通过json向MySQL中读写数据的方法详解【读取篇】

C#读取txt文件数据的方法实例

Python threading Local()函数用法案例详解

Python读取Hive数据库实现代码详解