Python产生batch数据的操作-编程学习网

产生batch数据

输入data中每个样本可以有多个特征，和一个标签，最好都是numpy.array格式。

datas = [data1, data2, …, dataN ], labels = [label1, label2, …, labelN]，

其中data[i] = [feature1, feature2,…featureM], 表示每个样本数据有M个特征。

输入我们方法的数据，all_data = [datas, labels] 。

代码实现

通过索引值来产生batch大小的数据，同时提供是否打乱顺序的选择，根据随机产生数据量范围类的索引值来打乱顺序。


import numpy as np
def batch_generator(all_data , batch_size, shuffle=True):
 """
 :param all_data : all_data整个数据集，包含输入和输出标签
 :param batch_size: batch_size表示每个batch的大小
 :param shuffle: 是否打乱顺序
 :return:
 """
 # 输入all_datas的每一项必须是numpy数组，保证后面能按p所示取值
 all_data = [np.array(d) for d in all_data]
 # 获取样本大小
 data_size = all_data[0].shape[0]
 print("data_size: ", data_size)
 if shuffle:
  # 随机生成打乱的索引
  p = np.random.permutation(data_size)
  # 重新组织数据
  all_data = [d[p] for d in all_data]
 batch_count = 0
 while True:
  # 数据一轮循环(epoch)完成，打乱一次顺序
  if batch_count * batch_size + batch_size > data_size:
   batch_count = 0
   if shuffle:
    p = np.random.permutation(data_size)
    all_data = [d[p] for d in all_data]
  start = batch_count * batch_size
  end = start + batch_size
  batch_count += 1
  yield [d[start: end] for d in all_data]

测试数据

样本数据x和标签y可以分开输入，也可以同时输入。


# 输入x表示有23个样本，每个样本有两个特征
# 输出y表示有23个标签，每个标签取值为0或1
x = np.random.random(size=[23, 2])
y = np.random.randint(2, size=[23,1])
count = x.shape[0]
batch_size = 5
epochs = 20
batch_num = count // batch_size
batch_gen = batch_generator([x, y], batch_size)
for i in range(epochs):
 print("##### epoch %s ##### " % i)
 for j in range(batch_num):
  batch_x, batch_y = next(batch_gen)
  print("-----epoch=%s, batch=%s-----" % (i, j))
  print(batch_x, batch_y)

补充：使用tensorflow.data.Dataset构造batch数据集


import tensorflow as tf
import numpy as np
def _parse_function(x):
 num_list = np.arange(10)
 return num_list
def _from_tensor_slice(x):
 return tf.data.Dataset.from_tensor_slices(x)
softmax_data = tf.data.Dataset.range(1000) # 构造一个队列
softmax_data = softmax_data.map(lambda x:tf.py_func(_parse_function, [x], [tf.int32]))# 将数据进行传入
softmax_data = softmax_data.flat_map(_from_tensor_slice) #将数据进行平铺, 将其变为一维的数据，from_tensor_slice将数据可以输出
softmax_data = softmax_data.batch(1) #构造一个batch的数量
softmax_iter = softmax_data.make_initializable_iterator() # 构造数据迭代器
softmax_element = softmax_iter.get_next() # 获得一个batch的数据
sess = tf.Session()
sess.run(softmax_iter.initializer) # 数据迭代器的初始化操作
print(sess.run(softmax_element)) # 实际获得一个数据
print(sess.run(softmax_data))

以上为个人经验，希望能给大家一个参考，也希望大家多多支持编程网。如有错误或未考虑完全的地方，望不吝赐教。

文章详情

Python产生batch数据的操作

产生batch数据

代码实现

测试数据

软考中级精品资料免费领

相关文章

猜你喜欢

Python产生batch数据的操作

python生成器generator:深度学习读取batch图片的操作

常见MongoDB数据库操作产生的锁总结

ELK Stack生产实践——Python操作Elasticsearch

怎么在Python项目中生成一个batch数据

Python的数据库操作

一次生产环境mysql迁移操作（一）数据归档

Python 操作 MariaDB 数据

python操作数据库

记一次恢复误操作删除了生产服务器数据

python操作mysql数据库

python 操作MySQL数据库

Python——操作MySQL数据库

Python 对mysql数据库的操作

Python 操作 MySQL数据库

Python对数据库操作

Python操作redis数据库

python操作 hbase 数据的方法

Python操作PostgreSQL数据库

Python 操作 MySQL 数据库