使用Tensorflow将自己的数据分割成batch训练实例-侯体宗的博客

使用Tensorflow将自己的数据分割成batch训练实例
linux / 管理员发布于 8年前 326

学习神经网络的时候，网上的数据集已经分割成了batch，训练的时候直接使用batch.next()就可以获取batch，但是有的时候需要使用自己的数据集，然而自己的数据集不是batch形式，就需要将其转换为batch形式，本文将介绍一个将数据打包成batch的方法。

一、tf.slice_input_producer（）

首先需要讲解两个函数,第一个函数是：tf.slice_input_producer（），这个函数的作用是从输入的tensor_list按要求抽取一个tensor放入文件名队列，下面解释下各个参数：

tf.slice_input_producer(tensor_list, num_epochs=None, shuffle=True, seed=None,       capacity=32, shared_name=None, name=None)

tensor_list 这个就是输入，格式为tensor的列表；一般为[data, label]，即由特征和标签组成的数据集

num_epochs 这个是你抽取batch的次数，如果没有给定值，那么将会抽取无数次batch（这会导致你训练过程停不下来），如果给定值，那么在到达次数之后就会报OutOfRange的错误

shuffle 是否随机打乱，如果为False，batch是按顺序抽取；如果为True，batch是随机抽取

seed 随机种子

capcity 队列容量的大小，为整数

name 名称

举个例子：我的data的shape为（4000,10），label的shape为（4000,2），运行下面这行代码

input_queue = tf.train.slice_input_producer([data, label], num_epochs=1, shuffle=True, capacity=32 )

结果如图，可以看出返回值为一个包含两组数据的list，每个list的shape与输入的data和label的shape对应

二、tf.train.batch（）& tf.train.shuffle_batch（）

第二个函数为:tf.train.batch()，tf.train.shuffle_batch（）,这个函数的作用为生成大小为batch_size的tensor,下面解释下各个参数：

tf.train.batch([data, label], batch_size=batch_size, capacity=capacity,num_threads=num_thread,allow_smaller_final_batch= True)tf.train.shuffle_batch([example, label], batch_size=batch_size, capacity=capacity,num_threads=num_thread,allow_smaller_final_batch=True)

[data，label] 输入的样本和标签

batch_size batch的大小

capcity 队列的容量

num_threads 线程数，使用多少个线程来控制整个队列

allow_smaller_final_batch 这个是当最后的几个样本不够组成一个batch的时候用的参数，如果为True则会重新组成一个batch

下面给出生成batch的函数，由上面两个函数组成：

def get_Batch(data, label, batch_size): print(data.shape, label.shape) input_queue = tf.train.slice_input_producer([data, label], num_epochs=1, shuffle=True, capacity=32 )  x_batch, y_batch = tf.train.batch(input_queue, batch_size=batch_size, num_threads=1, capacity=32, allow_smaller_final_batch=False) return x_batch, y_batch

还是同样的输入，batch_size设为2000，看下运行后的返回值的shape：

可以发现，返回是样本数目为2000的tensor,也就是达到了将自己的数据打包成batch的功能

三、batch的使用方法

生成batch只完成了一半，后面的使用方法也比较复杂，直接上一个完整的程序来讲解会方便理解一些：下面代码构建了一个单层感知机，对数据进行分类，主要看一下训练过程中如何使用生成好了的batch，具体细节都写在注释里面了。

import tensorflow as tfimport scipy.io as sioimport numpy as np  def get_Batch(data, label, batch_size): print(data.shape, label.shape) input_queue = tf.train.slice_input_producer([data, label], num_epochs=1, shuffle=True, capacity=32 )  x_batch, y_batch = tf.train.batch(input_queue, batch_size=batch_size, num_threads=1, capacity=32, allow_smaller_final_batch=False) return x_batch, y_batch  data = sio.loadmat('data.mat')train_x = data['train_x']train_y = data['train_y']test_x = data['test_x']test_y = data['test_y'] x = tf.placeholder(tf.float32, [None, 10])y = tf.placeholder(tf.float32, [None, 2]) w = tf.Variable(tf.truncated_normal([10, 2], stddev=0.1))b = tf.Variable(tf.truncated_normal([2], stddev=0.1))pred = tf.nn.softmax(tf.matmul(x, w) + b) loss = tf.reduce_mean(-tf.reduce_sum(y * tf.log(pred), reduction_indices=[1]))optimizer = tf.train.AdamOptimizer(2e-5).minimize(loss)correct_prediction = tf.equal(tf.argmax(y, 1), tf.argmax(pred, 1))accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32), name='evaluation') x_batch, y_batch = get_Batch(train_x, train_y, 1000)# 训练with tf.Session() as sess: #初始化参数 sess.run(tf.global_variables_initializer()) sess.run(tf.local_variables_initializer()) # 开启协调器 coord = tf.train.Coordinator() # 使用start_queue_runners 启动队列填充 threads = tf.train.start_queue_runners(sess, coord) epoch = 0 try:  while not coord.should_stop():   # 获取训练用的每一个batch中batch_size个样本和标签   data, label = sess.run([x_batch, y_batch])   sess.run(optimizer, feed_dict={x: data, y: label})   train_accuracy = accuracy.eval({x: data, y: label})   test_accuracy = accuracy.eval({x: test_x, y: test_y})   print("Epoch %d, Training accuracy %g, Testing accuracy %g" % (epoch, train_accuracy, test_accuracy))   epoch = epoch + 1 except tf.errors.OutOfRangeError: # num_epochs 次数用完会抛出此异常  print("---Train end---") finally:  # 协调器coord发出所有线程终止信号  coord.request_stop()  print('---Programm end---') coord.join(threads) # 把开启的线程加入主线程，等待threads结束

总共训练的次数为（样本数目/batch_size）*num_epochs

四、简单生成Batch的方法

最近发现了一种简单生生成batch的方法，实现简单，操作方便，就是时间复杂度可能高了一点，直接上代码。通过np.random.choice方法每次在范围[0, len(all_data))内抽取大小为size的索引。然后通过这部分索引构建batch。

epoch = 150for i in tqdm(range(epoch)): # 在total_train_xs, total_train_ys数据集中随机抽取batch_size个样本出来 # 作为本轮迭代的训练数据batch_xs, batch_ys batch_size = 1000 sample_idxs = np.random.choice(range(len(all_data)), size=batch_size) batch_xs = [] batch_ys = []  val_sample_idxs = np.random.choice(range(len(all_data)), size=batch_size) val_batch_xs = [] val_batch_ys = []  for j in range(batch_size):  train_id = sample_idxs[j]  batch_xs.append(all_data[train_id])  batch_ys.append(all_label[train_id])   val_id = val_sample_idxs[j]  val_batch_xs.append(all_data[val_id])  val_batch_ys.append(all_label[val_id])  batch_xs = np.array(batch_xs) batch_ys = np.array(batch_ys) val_batch_xs = np.array(val_batch_xs) val_batch_ys = np.array(val_batch_ys)   # 喂训练数据进去训练 sess.run(train_step, feed_dict={x: batch_xs, y_: batch_ys}) if i % 50 == 0:  y_train_pred = np.array(sess.run(y, feed_dict={x: batch_xs})).reshape(len(batch_xs))  y_pred = np.array(sess.run(y, feed_dict={x: val_batch_xs})).reshape(len(val_batch_xs))  # draw(y_test, y_pred)  print("Iteration %d, train RMSE %f, val RMSE %f" % (i, calcaulateRMSE(batch_ys, y_train_pred), calcaulateRMSE(val_batch_ys, y_pred)))

以上这篇使用Tensorflow将自己的数据分割成batch训练实例就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持。

上一条：
tensorflow tf.train.batch之数据批量读取方式
下一条：
Mybatis分页插件的实例详解

0条评论 (评论内容有缓存机制,请悉知!)

最新最热

相关文章
在Linux系统中使用Iptables实现流量转发功能流程步骤(0个评论)
vim学习笔记-入门级需要了解的一些快捷键(0个评论)
在centos7系统中实现分区并格式化挂载一块硬盘到/data目录流程步骤(0个评论)
在Linux系统种查看某一个进程所占用的内存命令(0个评论)
Linux中grep命令中的10种高级用法浅析(0个评论)

近期文章
Claude Opus 4.8 正式发布，传闻:"Opus 4.8可能是蒸馏的Mythos!"(0个评论)
OpenAI GPT-5.5正式发布：更会编程和使用计算机的最强模型!(0个评论)
opencode AI智能体自主规划开发游戏:王者荣耀模拟战游戏初体验!英雄角色开发中...(0个评论)
opencode AI智能体自主规划开发游戏:王者荣耀模拟战游戏初体验!(0个评论)
opencode + Oh-my-openagent,我的第一个免费的ai编程智能体管家:Sisyphus(0个评论)
Google AI Studio升级全栈 vibe coding体验，可直接构建带登录和数据库的应用(0个评论)
Apifox桌面端被曝遭供应链投毒：CDN 脚本被篡改，窃取 SSH 密钥与 Git 凭证(0个评论)
在go语言中实现字符串可逆性压缩及解压缩功能(0个评论)
使用go + gin + jwt + qrcode实现网站生成登录二维码在app中扫码登录功能(0个评论)
在windows10中升级go版本至1.24后LiteIDE的Ctrl+左击无法跳转问题解决方案(0个评论)

近期评论
test1 在
opencode + Oh-my-openagent,我的第一个免费的ai编程智能体管家:Sisyphus中评论 test..
122 在
学历：一种延缓就业设计，生活需求下的权衡之选中评论工作几年后，报名考研了，到现在还没认真学习备考，迷茫中。作为一名北漂互联网打工人..
Zita 在
Google AI Studio升级全栈 vibe coding体验，可直接构建带登录和数据库的应用中评论 111222..
123 在
Clash for Windows作者删库跑路了，github已404中评论按理说只要你在国内，所有的流量进出都在监控范围内，不管你怎么隐藏也没用，想搞你分..
原梓番博客在
在Laravel框架中使用模型Model分表最简单的方法中评论好久好久都没看友情链接申请了，今天刚看，已经添加。..

Top