TensorFlow实现MLP多层感知机模型-侯体宗的博客

TensorFlow实现MLP多层感知机模型
技术 / 管理员发布于 8年前 404

一、多层感知机简介

Softmax回归可以算是多分类问题logistic回归，它和神经网络的最大区别是没有隐含层。理论上只要隐含节点足够多，即时只有一个隐含层的神经网络也可以拟合任意函数，同时隐含层越多，越容易拟合复杂结构。为了拟合复杂函数需要的隐含节点的数目，基本上随着隐含层的数量增多呈指数下降的趋势，也就是说层数越多，神经网络所需要的隐含节点可以越少。层数越深，概念越抽象，需要背诵的知识点就越少。在实际应用中，深层神经网络会遇到许多困难，如过拟合、参数调试、梯度弥散等。

过拟合是机器学习中的一个常见问题，是指模型预测准确率在训练集上升高，但是在测试集上的准确率反而下降，这通常意味着模型的泛化能力不好，过度拟合了训练集。针对这个问题，Hinton教授团队提出了Dropout的解决办法，在使用CNN训练图像数据时效果尤其有效，其大体思路是在训练时将神经网络某一层的输出节点数据随机丢失一部分。这种做法实质上等于创造出了许多新的随机样本，通过增大样本量、减少特征数量来防止过拟合。

参数调试问题尤其是SGD（StochasticGradient Descent）的参数，对SGD设置不同的学习率learning rate，最后得到的结果可能差异巨大。神经网络的优化通常不是一个简单的凸优化问题，它处处充满了局部最优。有理论表示，神经网络可能有很多个局部最优解都可以达到比较好的分类效果，而全局最优很可能造成过拟合。对SGD，我们希望一开始学习率大一些，加速收敛，在训练的后期又希望学习率小一些，这样可以低速进入一个局部最优解。不同的机器学习问题的学习率设置也需要针对性的调试，像Adagrad、Adam、Adadelta等自适应的方法可以减轻调试参数的负担。对于这些优化算法，通常我们使用其默认的参数设置就可以得到比较好的效果。

梯度弥散（Gradient Vanishment）是另一个影响深层神经网络训练的问题，在ReLU激活函数出现之前，神经网络训练是使用Sigmoid作为激活函数。非线性的Sigmoid函数在信号的特征空间映射上，对中央区的信号增益较大，对两侧区的信号增益小。当神经网络层数较多时，Sigmoid函数在反向传播中梯度值会逐渐减小，到达前面几层的梯度值就变得非常小了，在神经网络训练的时候，前面几层的神经网络参数几乎得不到训练更新。指导ReLU，y = max(0, x)，的出现才比较完美的解决了梯度弥散的问题。信号在超过某个阈值时，神经元才会进入兴奋和激活的状态，否则会处于抑制状态。ReLU可以很好的反向传递梯度，经过多层的梯度反向传播，梯度依旧不会大幅减小，因此非常适合深层神经网络的训练。ReLU对比于Sigmoid的主要特点有以下几点：（1）单侧抑制；（2）相对宽阔的兴奋边界；（3）稀疏激活性。目前，ReLU及其变种EIU、PReLU、RReLU已经成为最主流的激活函数。实践中大部分情况下（包括MLP、CNN、RNN）将隐含层的激活函数从Sigmoid替换为ReLU都可以带来训练速度和模型准确率的提升。当然神经网络的输出层一般都是Sigmoid函数，因为它最接近概率输出分布。

二、TensorFlow实现过程

完整代码：

import tensorflow as tf from tensorflow.examples.tutorials.mnist import input_data  mnist = input_data.read_data_sets("MNIST_data/", one_hot=True) in_units = 784 #输入节点数 h1_units = 300 #隐含层节点数 W1 = tf.Variable(tf.truncated_normal([in_units, h1_units], stddev=0.1)) #初始化隐含层权重W1，服从默认均值为0，标准差为0.1的截断正态分布 b1 = tf.Variable(tf.zeros([h1_units])) #隐含层偏置b1全部初始化为0 W2 = tf.Variable(tf.zeros([h1_units, 10]))  b2 = tf.Variable(tf.zeros([10])) x = tf.placeholder(tf.float32, [None, in_units]) keep_prob = tf.placeholder(tf.float32) #Dropout失活率  #定义模型结构 hidden1 = tf.nn.relu(tf.matmul(x, W1) + b1) hidden1_drop = tf.nn.dropout(hidden1, keep_prob) y = tf.nn.softmax(tf.matmul(hidden1_drop, W2) + b2)  #训练部分 y_ = tf.placeholder(tf.float32, [None, 10]) cross_entropy = tf.reduce_mean(-tf.reduce_sum(y_ * tf.log(y), reduction_indices=[1])) train_step = tf.train.AdagradOptimizer(0.3).minimize(cross_entropy)  #定义一个InteractiveSession会话并初始化全部变量 sess = tf.InteractiveSession() tf.global_variables_initializer().run() correct_prediction = tf.equal(tf.arg_max(y, 1), tf.arg_max(y_, 1)) accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32)) for i in range(3001):   batch_xs, batch_ys = mnist.train.next_batch(100)   train_step.run({x: batch_xs, y_: batch_ys, keep_prob: 0.75})   if i % 200 ==0:     #训练过程每200步在测试集上验证一下准确率，动态显示训练过程     print(i, 'training_arruracy:', accuracy.eval({x: mnist.test.images, y_: mnist.test.labels,     keep_prob: 1.0})) print('final_accuracy:', accuracy.eval({x: mnist.test.images, y_: mnist.test.labels, keep_prob: 1.0}))

在TensorFlow上实现的Softmax回归模型对MNIST数据集取得了92%的正确率，现在我们给神经网络加上一层隐含层，并使用减轻过拟合的Dropout、自适应学习率的Adagrad以及解决梯度弥散问题激活函数ReLU。

首先，载入TensorFlow的并加载MNIST、数据集。指定输入节点数in_units和隐含层节点数h1_units。初始化隐含层的全中W1和偏置b1，因为模型使用的激活函数是ReLU，需要使用正态分布对W1进行初始化，给权重参数增加一些噪声来打破完全对称并避免0梯度。在其它一些模型中，有时还需要给偏置初始化一些非零初始值来避免dead neuron（死亡神经元）。对于输出层Softmax，直接将全中W2和偏置b2全部初始化为0即可。接下来为输入x设置placeholder，并为不同的Dropout设置一个输入placeholder，通常在训练时小于1，预测时等于1。

下面定义模型结构，首先定义一个隐含层hidden1，通过tf.nn.relu(tf.matmul(x,W1) + b1)实现一个激活函数为ReLU的隐含层，这个隐含层的计算公式就是y = relu(W1x + b1)。接下来调用tf.nn.dropout实现Dropout功能，随机将一部分神经元节点置为0，这里的keep_prob参数是保留的数据比例而不是置为0的比例。在训练的时候应该是小于1用以制造随机性，防止过拟合；在预测的时候应该等于1，即全部特征用来预测样本的类别。

在优化器选择上，我们选择Adagrad并把学习率设置为0.3，这里我们直接使用tf.train.AdagradOptimizer(0.3)就可以了。

接下来的训练部分和预测部分以及定义绘画等请参见另一篇博文MNIST在TensorFLow上的Softmax回归模型实现，有详细介绍。

最终，但隐含层MLP模型在测试集上可以达到98%的准确率，相比之前Softmax回归模型的92%的准确率有了飞跃性的提高。

三、其他补充说明

1. tf.truncated_normal

tf.truncated_normal(shape, mean=0.0, stddev=1.0, dtype=tf.float32,seed=None, name=None)

函数功能：返回指定形状的服从指定均值和标准差的截断正态分布的tensor。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持。

上一条：
TensorFlow实现AutoEncoder自编码器
下一条：
TensorFlow实现Softmax回归模型

0条评论 (评论内容有缓存机制,请悉知!)

最新最热

相关文章
Apifox桌面端被曝遭供应链投毒：CDN 脚本被篡改，窃取 SSH 密钥与 Git 凭证(0个评论)
智能合约Solidity学习CryptoZombie第四课:僵尸作战系统(0个评论)
智能合约Solidity学习CryptoZombie第三课:组建僵尸军队(高级Solidity理论)(0个评论)
智能合约Solidity学习CryptoZombie第二课:让你的僵尸猎食(0个评论)
智能合约Solidity学习CryptoZombie第一课:生成一只你的僵尸(0个评论)

近期文章
Claude Opus 4.8 正式发布，传闻:"Opus 4.8可能是蒸馏的Mythos!"(0个评论)
OpenAI GPT-5.5正式发布：更会编程和使用计算机的最强模型!(0个评论)
opencode AI智能体自主规划开发游戏:王者荣耀模拟战游戏初体验!英雄角色开发中...(0个评论)
opencode AI智能体自主规划开发游戏:王者荣耀模拟战游戏初体验!(0个评论)
opencode + Oh-my-openagent,我的第一个免费的ai编程智能体管家:Sisyphus(0个评论)
Google AI Studio升级全栈 vibe coding体验，可直接构建带登录和数据库的应用(0个评论)
Apifox桌面端被曝遭供应链投毒：CDN 脚本被篡改，窃取 SSH 密钥与 Git 凭证(0个评论)
在go语言中实现字符串可逆性压缩及解压缩功能(0个评论)
使用go + gin + jwt + qrcode实现网站生成登录二维码在app中扫码登录功能(0个评论)
在windows10中升级go版本至1.24后LiteIDE的Ctrl+左击无法跳转问题解决方案(0个评论)

近期评论
test1 在
opencode + Oh-my-openagent,我的第一个免费的ai编程智能体管家:Sisyphus中评论 test..
122 在
学历：一种延缓就业设计，生活需求下的权衡之选中评论工作几年后，报名考研了，到现在还没认真学习备考，迷茫中。作为一名北漂互联网打工人..
Zita 在
Google AI Studio升级全栈 vibe coding体验，可直接构建带登录和数据库的应用中评论 111222..
123 在
Clash for Windows作者删库跑路了，github已404中评论按理说只要你在国内，所有的流量进出都在监控范围内，不管你怎么隐藏也没用，想搞你分..
原梓番博客在
在Laravel框架中使用模型Model分表最简单的方法中评论好久好久都没看友情链接申请了，今天刚看，已经添加。..

Top