使用sklearn进行对数据标准化、归一化以及将数据还原的方法-侯体宗的博客

使用sklearn进行对数据标准化、归一化以及将数据还原的方法
技术 / 管理员发布于 8年前 284

在对模型训练时，为了让模型尽快收敛，一件常做的事情就是对数据进行预处理。

这里通过使用sklearn.preprocess模块进行处理。

一、标准化和归一化的区别

归一化其实就是标准化的一种方式，只不过归一化是将数据映射到了[0,1]这个区间中。

标准化则是将数据按照比例缩放，使之放到一个特定区间中。标准化后的数据的均值＝0，标准差＝1，因而标准化的数据可正可负。

二、使用sklearn进行标准化和标准化还原

原理：

即先求出全部数据的均值和方差，再进行计算。

最后的结果均值为0，方差是1，从公式就可以看出。

但是当原始数据并不符合高斯分布的话，标准化后的数据效果并不好。

导入模块

from sklearn.preprocessing import StandardScalerfrom sklearn.preprocessing import MinMaxScalerfrom matplotlib import gridspecimport numpy as npimport matplotlib.pyplot as plt

通过生成随机点可以对比出标准化前后的数据分布形状并没有发生变化，只是尺度上缩小了。

cps = np.random.random_integers(0, 100, (100, 2)) ss = StandardScaler()std_cps = ss.fit_transform(cps) gs = gridspec.GridSpec(5,5)fig = plt.figure()ax1 = fig.add_subplot(gs[0:2, 1:4])ax2 = fig.add_subplot(gs[3:5, 1:4]) ax1.scatter(cps[:, 0], cps[:, 1])ax2.scatter(std_cps[:, 0], std_cps[:, 1]) plt.show()

sklearn.preprocess.StandardScaler的使用：

先是创建对象，然后调用fit_transform()方法，需要传入一个如下格式的参数作为训练集。

X : numpy array of shape [n_samples,n_features]Training set.data = np.random.uniform(0, 100, 10)[:, np.newaxis]ss = StandardScaler()std_data = ss.fit_transform(data)origin_data = ss.inverse_transform(std_data)print('data is ',data)print('after standard ',std_data)print('after inverse ',origin_data)print('after standard mean and std is ',np.mean(std_data), np.std(std_data))

通过invers_tainsform()方法就可以得到原来的数据。

打印结果如下：

可以看到生成的数据的标准差是1，均值接近0。

data is [[15.72836992] [62.0709697 ] [94.85738359] [98.37108557] [ 0.16131774] [23.85445883] [26.40359246] [95.68204855] [77.69245742] [62.4002485 ]]after standard [[-1.15085842] [ 0.18269178] [ 1.12615048] [ 1.22726043] [-1.59881442] [-0.91702287] [-0.84366924] [ 1.14988096] [ 0.63221421] [ 0.19216708]]after inverse [[15.72836992] [62.0709697 ] [94.85738359] [98.37108557] [ 0.16131774] [23.85445883] [26.40359246] [95.68204855] [77.69245742] [62.4002485 ]]after standard mean and std is -1.8041124150158794e-16 1.0

三、使用sklearn进行数据的归一化和归一化还原

原理：

从上式可以看出归一化的结果跟数据的最大值最小值有关。

使用时类似上面的标准化

data = np.random.uniform(0, 100, 10)[:, np.newaxis]mm = MinMaxScaler()mm_data = mm.fit_transform(data)origin_data = mm.inverse_transform(mm_data)print('data is ',data)print('after Min Max ',mm_data)print('origin data is ',origin_data)

结果：

G:\Anaconda\python.exe G:/python/DRL/DRL_test/DRL_ALL/Grammar.pydata is [[12.19502214] [86.49880021] [53.10501326] [82.30089405] [44.46306969] [14.51448347] [54.59806596] [87.87501465] [64.35007178] [ 4.96199642]]after Min Max [[0.08723631] [0.98340171] [0.58064485] [0.93277147] [0.47641582] [0.11521094] [0.59865231] [1.  ] [0.71626961] [0.  ]]origin data is [[12.19502214] [86.49880021] [53.10501326] [82.30089405] [44.46306969] [14.51448347] [54.59806596] [87.87501465] [64.35007178] [ 4.96199642]] Process finished with exit code 0

其他标准化的方法：

上面的标准化和归一化都有一个缺点就是每当来一个新的数据的时候就要重新计算所有的点。

因而当数据是动态的时候可以使用下面的几种计算方法：

1、arctan反正切函数标准化：

2、ln函数标准化

以上这篇使用sklearn进行对数据标准化、归一化以及将数据还原的方法就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持。

上一条：
用pandas中的DataFrame时选取行或列的方法
下一条：
使用sklearn之LabelEncoder将Label标准化的方法

0条评论 (评论内容有缓存机制,请悉知!)

最新最热

相关文章
Apifox桌面端被曝遭供应链投毒：CDN 脚本被篡改，窃取 SSH 密钥与 Git 凭证(0个评论)
智能合约Solidity学习CryptoZombie第四课:僵尸作战系统(0个评论)
智能合约Solidity学习CryptoZombie第三课:组建僵尸军队(高级Solidity理论)(0个评论)
智能合约Solidity学习CryptoZombie第二课:让你的僵尸猎食(0个评论)
智能合约Solidity学习CryptoZombie第一课:生成一只你的僵尸(0个评论)

近期文章
Claude Opus 4.8 正式发布，传闻:"Opus 4.8可能是蒸馏的Mythos!"(0个评论)
OpenAI GPT-5.5正式发布：更会编程和使用计算机的最强模型!(0个评论)
opencode AI智能体自主规划开发游戏:王者荣耀模拟战游戏初体验!英雄角色开发中...(0个评论)
opencode AI智能体自主规划开发游戏:王者荣耀模拟战游戏初体验!(0个评论)
opencode + Oh-my-openagent,我的第一个免费的ai编程智能体管家:Sisyphus(0个评论)
Google AI Studio升级全栈 vibe coding体验，可直接构建带登录和数据库的应用(0个评论)
Apifox桌面端被曝遭供应链投毒：CDN 脚本被篡改，窃取 SSH 密钥与 Git 凭证(0个评论)
在go语言中实现字符串可逆性压缩及解压缩功能(0个评论)
使用go + gin + jwt + qrcode实现网站生成登录二维码在app中扫码登录功能(0个评论)
在windows10中升级go版本至1.24后LiteIDE的Ctrl+左击无法跳转问题解决方案(0个评论)

近期评论
test1 在
opencode + Oh-my-openagent,我的第一个免费的ai编程智能体管家:Sisyphus中评论 test..
122 在
学历：一种延缓就业设计，生活需求下的权衡之选中评论工作几年后，报名考研了，到现在还没认真学习备考，迷茫中。作为一名北漂互联网打工人..
Zita 在
Google AI Studio升级全栈 vibe coding体验，可直接构建带登录和数据库的应用中评论 111222..
123 在
Clash for Windows作者删库跑路了，github已404中评论按理说只要你在国内，所有的流量进出都在监控范围内，不管你怎么隐藏也没用，想搞你分..
原梓番博客在
在Laravel框架中使用模型Model分表最简单的方法中评论好久好久都没看友情链接申请了，今天刚看，已经添加。..

Top