Tensorflow 实现分批量读取数据-侯体宗的博客

Tensorflow 实现分批量读取数据
技术 / 管理员发布于 8年前 192

之前的博客里使用tf读取数据都是每次fetch一条记录，实际上大部分时候需要fetch到一个batch的小批量数据，在tf中这一操作的明显变化就是tensor的rank发生了变化，我目前使用的人脸数据集是灰度图像，因此大小是92*112的，所以最开始fetch拿到的图像数据集经过reshape之后就是一个rank为2的tensor，大小是92*112的（如果考虑通道，也可以reshape为rank为3的，即92*112*1）。

如果加入batch，比如batch大小为5，那么拿到的tensor的rank就变成了3，大小为5*92*112。

下面规则化的写一下读取数据的一般流程，按照官网的实例，一般把读取数据拆分成两个大部分，一个是函数专门负责读取数据和解码数据，一个函数则负责生产batch。

import tensorflow as tfdef read_data(fileNameQue): reader = tf.TFRecordReader() key, value = reader.read(fileNameQue) features = tf.parse_single_example(value, features={'label': tf.FixedLenFeature([], tf.int64),  'img': tf.FixedLenFeature([], tf.string),}) img = tf.decode_raw(features["img"], tf.uint8) img = tf.reshape(img, [92,112]) # 恢复图像原始大小 label = tf.cast(features["label"], tf.int32) return img, labeldef batch_input(filename, batchSize): fileNameQue = tf.train.string_input_producer([filename], shuffle=True) img, label = read_data(fileNameQue) # fetch图像和label min_after_dequeue = 1000 capacity = min_after_dequeue+3*batchSize # 预取图像和label并随机打乱，组成batch，此时tensor rank发生了变化，多了一个batch大小的维度 exampleBatch,labelBatch = tf.train.shuffle_batch([img, label],batch_size=batchSize, capacity=capacity,  min_after_dequeue=min_after_dequeue) return exampleBatch,labelBatchif __name__ == "__main__": init = tf.initialize_all_variables() exampleBatch, labelBatch = batch_input("./data/faceTF.tfrecords", batchSize=10) with tf.Session() as sess:  sess.run(init)  coord = tf.train.Coordinator()  threads = tf.train.start_queue_runners(coord=coord)  for i in range(100):   example, label = sess.run([exampleBatch, labelBatch])   print(example.shape)  coord.request_stop()  coord.join(threads)

读取数据和解码数据与之前基本相同，针对不同格式数据集使用不同阅读器和解码器即可，后面是产生batch，核心是tf.train.shuffle_batch这个函数，它相当于一个蓄水池的功能，第一个参数代表蓄水池的入水口，也就是逐个读取到的记录，batch_size自然就是batch的大小了，capacity是蓄水池的容量，表示能容纳多少个样本，min_after_dequeue是指出队操作后还可以供随机采样出批量数据的样本池大小，显然，capacity要大于min_after_dequeue，官网推荐：min_after_dequeue + (num_threads + a small safety margin) * batch_size,还有一个参数就是num_threads，表示所用线程数目。

min_after_dequeue这个值越大，随机采样的效果越好，但是消耗的内存也越大。

以上这篇Tensorflow 实现分批量读取数据就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持。

上一条：
基于TensorFlow常量、序列以及随机值生成实例
下一条：
Tensorflow的常用矩阵生成方式

0条评论 (评论内容有缓存机制,请悉知!)

最新最热

相关文章
Apifox桌面端被曝遭供应链投毒：CDN 脚本被篡改，窃取 SSH 密钥与 Git 凭证(0个评论)
智能合约Solidity学习CryptoZombie第四课:僵尸作战系统(0个评论)
智能合约Solidity学习CryptoZombie第三课:组建僵尸军队(高级Solidity理论)(0个评论)
智能合约Solidity学习CryptoZombie第二课:让你的僵尸猎食(0个评论)
智能合约Solidity学习CryptoZombie第一课:生成一只你的僵尸(0个评论)

近期文章
Claude Opus 4.8 正式发布，传闻:"Opus 4.8可能是蒸馏的Mythos!"(0个评论)
OpenAI GPT-5.5正式发布：更会编程和使用计算机的最强模型!(0个评论)
opencode AI智能体自主规划开发游戏:王者荣耀模拟战游戏初体验!英雄角色开发中...(0个评论)
opencode AI智能体自主规划开发游戏:王者荣耀模拟战游戏初体验!(0个评论)
opencode + Oh-my-openagent,我的第一个免费的ai编程智能体管家:Sisyphus(0个评论)
Google AI Studio升级全栈 vibe coding体验，可直接构建带登录和数据库的应用(0个评论)
Apifox桌面端被曝遭供应链投毒：CDN 脚本被篡改，窃取 SSH 密钥与 Git 凭证(0个评论)
在go语言中实现字符串可逆性压缩及解压缩功能(0个评论)
使用go + gin + jwt + qrcode实现网站生成登录二维码在app中扫码登录功能(0个评论)
在windows10中升级go版本至1.24后LiteIDE的Ctrl+左击无法跳转问题解决方案(0个评论)

近期评论
test1 在
opencode + Oh-my-openagent,我的第一个免费的ai编程智能体管家:Sisyphus中评论 test..
122 在
学历：一种延缓就业设计，生活需求下的权衡之选中评论工作几年后，报名考研了，到现在还没认真学习备考，迷茫中。作为一名北漂互联网打工人..
Zita 在
Google AI Studio升级全栈 vibe coding体验，可直接构建带登录和数据库的应用中评论 111222..
123 在
Clash for Windows作者删库跑路了，github已404中评论按理说只要你在国内，所有的流量进出都在监控范围内，不管你怎么隐藏也没用，想搞你分..
原梓番博客在
在Laravel框架中使用模型Model分表最简单的方法中评论好久好久都没看友情链接申请了，今天刚看，已经添加。..

Top