对比散度算法
㈠ 各种编程语言的深度学习库整理大全!
各种编程语言的深度学习库整理大全!
python1. Theano是一个python类库,用数组向量来定义和计算数学表达式。它使得在Python环境下编写深度学习算法变得简单。在它基础之上还搭建了许多类库。
1.Keras是一个简洁、高度模块化的神经网络库,它的设计参考了Torch,用Python语言编写,支持调用GPU和CPU优化后的Theano运算。
2.Pylearn2是一个集成大量深度学习常见模型和训练算法的库,如随机梯度下降等。它的功能库都是基于Theano之上。
3.Lasagne是一个搭建和训练神经网络的轻量级封装库,基于Theano。它遵循简洁化、透明化、模块化、实用化和专一化的原则。
4.Blocks也是一个基于Theano的帮助搭建神经网络的框架。
2. Caffe是深度学习的框架,它注重于代码的表达形式、运算速度以及模块化程度。它是由伯克利视觉和学习中心(Berkeley Vision and Learning Center, BVLC)以及社区成员共同开发。谷歌的DeepDream项目就是基于Caffe框架完成。这个框架是使用BSD许可证的C++库,并提供了Python调用接口。
3. nolearn囊括了大量的现有神经网络函数库的封装和抽象接口、大名鼎鼎的Lasagne以及一些机器学习的常用模块。
4. Genism也是一个用Python编写的深度学习小工具,采用高效的算法来处理大规模文本数据。
5. Chainer在深度学习的理论算法和实际应用之间架起一座桥梁。它的特点是强大、灵活、直观,被认为是深度学习的灵活框架。
6. deepnet是基于GPU的深度学习算法函数库,使用Python语言开发,实现了前馈神经网络(FNN)、受限玻尔兹曼机(RBM)、深度信念网络(DBN)、自编码器(AE)、深度玻尔兹曼机(DBM)和卷积神经网络(CNN)等算法。
7. Hebel也是深度学习和神经网络的一个Python库,它通过pyCUDA控制支持CUDA的GPU加速。它实现了最重要的几类神经网络模型,提供了多种激活函数和模型训练方法,例如momentum、Nesterov momentum、dropout、和early stopping等方法。
8. CXXNET是一个基于MShadow开发的快速、简洁的分布式深度学习框架。它是一个轻量级、易扩展的C++/CUDA神经网络工具箱,提供友好的Python/Matlab接口来进行训练和预测。
9. DeepPy是基于NumPy的深度学习框架。
10. DeepLearning是一个用C++和Python共同开发的深度学习函数库。
11. Neon是Nervana System 的深度学习框架,使用Python开发。
Matlab
1. ConvNet 卷积神经网络是一类深度学习分类算法,它可以从原始数据中自主学习有用的特征,通过调节权重值来实现。
2. DeepLearnToolBox是用于深度学习的Matlab/Octave工具箱,它包含深度信念网络(DBN)、栈式自编码器(stacked AE)、卷积神经网络(CNN)等算法。
3. cuda-convet是一套卷积神经网络(CNN)代码,也适用于前馈神经网络,使用C++/CUDA进行运算。它能对任意深度的多层神经网络建模。只要是有向无环图的网络结构都可以。训练过程采用反向传播算法(BP算法)。
4. MatConvNet是一个面向计算机视觉应用的卷积神经网络(CNN)Matlab工具箱。它简单高效,能够运行和学习最先进的机器学习算法。
CPP
1. eblearn是开源的机器学习C++封装库,由Yann LeCun主导的纽约大学机器学习实验室开发。它用基于能量的模型实现卷积神经网络,并提供可视化交互界面(GUI)、示例以及示范教程。
2. SINGA是Apache软件基金会支持的一个项目,它的设计目标是在现有系统上提供通用的分布式模型训练算法。
3. NVIDIA DIGITS是用于开发、训练和可视化深度神经网络的一套新系统。它把深度学习的强大功能用浏览器界面呈现出来,使得数据科学家和研究员可以实时地可视化神经网络行为,快速地设计出最适合数据的深度神经网络。
4. Intel? Deep Learning Framework提供了Intel?平台加速深度卷积神经网络的一个统一平台。
Java
1. N-Dimensional Arrays for Java (ND4J) 是JVM平台的科学计算函数库。它主要用于产品中,也就是说函数的设计需求是运算速度快、存储空间最省。
2. Deeplearning4j 是第一款商业级别的开源分布式深度学习类库,用Java和Scala编写。它的设计目的是为了在商业环境下使用,而不是作为一款研究工具。
3. Encog是一个机器学习的高级框架,涵盖支持向量机、人工神经网络、遗传编程、贝叶斯网络、隐马可夫模型等,也支持遗传算法。
JavaScript
1. Convnet.js 由JavaScript编写,是一个完全在浏览器内完成训练深度学习模型(主要是神经网络)的封装库。不需要其它软件,不需要编译器,不需要安装包,不需要GPU,甚至不费吹灰之力。
Lua
1. Torch是一款广泛适用于各种机器学习算法的科学计算框架。它使用容易,用快速的脚本语言LuaJit开发,底层是C/CUDA实现。Torch基于Lua编程语言。
Julia
1. Mocha是Julia的深度学习框架,受C++框架Caffe的启发。Mocha中通用随机梯度求解程序和通用模块的高效实现,可以用来训练深度/浅层(卷积)神经网络,可以通过(栈式)自编码器配合非监督式预训练(可选)完成。它的优势特性包括模块化结构、提供上层接口,可能还有速度、兼容性等更多特性。
Lisp
1. Lush(Lisp Universal Shell)是一种面向对象的编程语言,面向对大规模数值和图形应用感兴趣的广大研究员、实验员和工程师们。它拥有机器学习的函数库,其中包含丰富的深度学习库。
Haskell
1. DNNGraph是Haskell用于深度神经网络模型生成的领域特定语言(DSL)。
.NET
1. Accord.NET 是完全用C#编写的.NET机器学习框架,包括音频和图像处理的类库。它是产品级的完整框架,用于计算机视觉、计算机音频、信号处理和统计应用领域。
R
1. darch包可以用来生成多层神经网络(深度结构)。训练的方法包括了对比散度的预训练和众所周知的训练算法(如反向传播法或共轭梯度法)的细调。
2. deepnet实现了许多深度学习框架和神经网络算法,包括反向传播(BP)、受限玻尔兹曼机(RBM)、深度信念网络(DBP)、深度自编码器(Deep autoencoder)等等。
㈡ 双色球散度怎么有两种算法那种正确 – 手机爱问
双色球有哪两种算法正确
双色球有哪两种算法正确
㈢ 如何判断一个矢量函数是静电场还是静磁场
可以通过计算该矢量函数的旋度和散度来判断是静电场还是静磁场。
静电场有源无旋,散度不一定为零(看电荷),旋度一定为零,静磁场相反,静磁场无源有旋,散度一定为零,旋度一定为零。
静电场和静磁场的本质就不同。静电场,指的是观察者与电荷量不随时间发生变化的电荷相对静止时所观察到的电场。静磁场由稳恒电流或永磁体在其周围空间产生的磁场强度(大小和方向)不 随时间变化的磁场。
㈣ 高光谱岩性信息提取
8.5.1 方法与流程
8.5.1.1 岩性信息产品生成业务化流程
采用的高光谱岩性信息分类填图方法:先将成像高光谱数据进行辐射定标、大气校正、光谱重建等过程得到光谱反射率数据,然后根据矿物特征吸收峰分布情况对高光谱反射率数据进行波谱降维,对照已有地质图选取其中的典型岩性并结合像元纯净度指数图在高光谱数据区域中建立感兴趣区,确定岩性分类的先验样区,最后用合适的方法进行岩性信息分类填图,并对结果进行优化操作。岩性信息分类填图流程图如图8.20。
图8.20 高光谱岩性信息分类填图流程
8.5.1.2 岩性分类信息提取的高光谱数据预处理
无论是高光谱成像仪还是传统的多光谱传感器,它们所记录的数据都是地面观测目标的反射或辐射能量的光谱辐射绝对值,与地物目标的光谱反射率或光谱辐亮度值是不一致的。因此,辐射定标和光谱重建是地物识别和定量分析不可缺少的环节。只有经过辐射标定、辐射校正和大气校正,剔除由于大气散射、吸收、地形起伏及传感器本身不稳定带来的各种失真,将记录的图像值转换为地面的反照率值,重建像元地面光谱,才能根据光谱特征,有效地识别地物,反演地物成分。
8.5.1.3 端元选择
对于一个地区的未知岩性分类信息提取,一般要进行岩性端元信息的提取。所谓端元,指的是成分单一的岩性像元。只有提取出端元才能进一步对研究区域进行岩性信息的分类分析。目前端元选择的方式概括起来主要有两种:①根据野外波谱测量或从已有的地物波谱信息库中选择端元。通过这种途径选择的端元称为“参考端元”。②直接从待分类岩性的图像上选择端元,然后不断对其修改、调整,确定端元,这种图像上选择的端元区域称为先验样区。
野外获取岩性端元信息一般要经过实地勘察,先选择好样区,然后选择合适的时间进行量测。一般情况下,要求在获取影像的同时进行地物波谱量测,但这种难度很大,实际应用中很少能做到。通过野外测量方式获取的参考端元理论上比较精确,但遥感图像上地物的波谱曲线受到大气、地形和传感器等的影响,这些与野外实地测量的地物波谱曲线存在很大差别,即使对影像进行各种纠正进一步消除这些因素的影响,也不会与野外测量的地物波谱曲线很好地吻合。对于大部分研究区域而言,有与研究区对应的实际地物波谱库的区域很少,也很少投入大量人力、物力进行野外波谱测量。因此在缺乏野外波谱测量数据情况下,从影像本身获取端元是目前获取端元的主要方式。目前,在端元从影像本身的像元获取方式中,除了对遥感影像像元的色调、波谱特征进行目视解译直接分析外,还可借助以下分析方法进行。
基于图像的端元选择是假定图像中存在有基本上仅反映一种岩性或矿物光谱的“纯像元”或“非混合像元”,用数学方法自动或交互地从图像中提取这些“纯像元”作为端元,用同一类“纯像元”的典型光谱或平均像元光谱作为端元光谱。PPI方法由于推出较早,计算简便直观,并且处理高光谱数据中使用最广泛的遥感图像处理系统ENVI中有该功能,因而得到较广泛的应用。但是在进行PPI之前,需先对高光谱数据进行降维处理。我们常用的降维处理手段主要是最大噪声分离(MNF)变换。
(1)最大噪声分离(MNF)变换
成像光谱的光谱分辨率很高,波段多,数据海量,且波段之间的相关性很强,数据冗余度高,需要在端元选取和矿物识别之前对数据作减维,并弱化噪声。最常用的方法是“最大噪声组分变换”。
MNF变换是利用图像的噪声组分矩阵(∑N∑-1)的特征向量对图像进行变换,使按特征值由大到小排序的变换分量所包含的噪声成分逐渐减小,图像质量顺次提高。∑为图像的总协方差矩阵;∑N为图像噪声的协方差矩阵。MNF有两个重要的性质,一是对图像的任何波段作比例扩展,变换结果不变;二是使图像矢量、信息分量和加性噪声分量互相垂直,达到信息分离的目的。乘性噪声可通过对数变换转换为加性噪声,变换后可针对性地对各分量图像进行去噪,或舍弃噪声占优势的分量,以达到成像光谱数据减维和去噪的目的。
(2)像元纯度指数(PPI)分析
基于上述MNF变换,排序低的MNF波段被暂时忽略,仅选择高序次波段进一步处理。PPI设计指定光谱极值像元,对应为混合光谱端元。通过反复投影n维散点图到随机单元矢量来计算PPI。记录每次投影的极值像元,注记每个像元被标定为极值的总次数。PPI图像产生,其中,每个像元的DN值对应像元被记录为极值的次数。这些图像的直方图显示被PPI“击中”(hit)的分布。从直方图中选择阈值,用于选择最纯的像元以保证被分析的像元数最小。这些像元被输入到分离特定光谱端元的交互式可视化算法中。
(3)N维可视化(n-Dimensional Visualization)
由于PPI算法本身确定的并不是最终的端元,而是从图像众多像元中选出包含所有端元像元的较小像元子集。所以,一般要将PPI的处理结果输入到N维可视化(n-Dimensional Visualization)工具中,选择出最终的端元像元。
在N维可视化中,光谱可视为n维散点图中的一个点,n是波段数。对给定的像元,n维空间中组成n值的点的坐标是每个波段的光谱反射率。这些点在n维空间的分布可用于估计光谱端元数和它们的纯光谱特征。在两维空间,如果只有两个端元混合,混合光谱将落入直方图的线中。纯端元将落入混合线的两端;如果三个端元混合,混合像元将落入四面体中;余类推。混合的端元落在纯端元之间,处在纯端元勾画的多面体中。这种混合光谱的凸面几何特征,可用于确定端元光谱数并估算它们的光谱特征,经过PPI选择出的潜在端元光谱输入n维散点图中进行反复旋转以识别出纯端元。根据前面的分析,较好的端元通常会出现在n维散点图的顶点和拐角处,当一系列的端元点被确定后,就可以将其输入到图像中的感兴趣区(ROI),从图像中提取每个感兴趣区平均反射率光谱曲线作为成像光谱矿物填图的候选端元。
鉴于PPI算法得出的结果是从图像众多像元中选出包含所有端元的较小像元子集(图8.21),在已有的地质图中结合PPI结果图可选取尽量纯净的端元区域作为后期监督分类的感兴趣区(ROI,Region of Interest)。
图8.21 选择出的纯净像元的波谱曲线
8.5.2 结果与分析
目前,从是否需要先验样区可将岩性分类技术分为两大类:非监督分类和监督分类。非监督分类是指人们事先对分类过程不施加任何的先验知识,而仅凭数据遥感影像地物的光谱特征的分布规律,即自然聚类的特性,进行“盲目”的分类;其分类的结果只是对不同类别达到了区分,但并不能确定类别的属性;其类别的属性是通过分类结束后目视判读或实地调查确定的。非监督分类也称聚类分析。一般的聚类算法是先选择若干个模式点作为聚类的中心。每一中心代表一个类别,按照某种相似性度量方法(如最小距离方法)将各模式归于各聚类中心所代表的类别,形成初始分类。然后由聚类准则判断初始分类是否合理,如果不合理就修改分类,如此反复迭代运算,直到合理为止。监督分类又称训练场地法,是以建立统计识别函数为理论基础,依据典型样本训练方法进行分类的技术。即根据已知训练区提供的样本,通过选择特征参数,求出特征参数作为决策规则,建立判别函数以对各待分类影像进行的图像分类,是模式识别的一种方法。要求训练区域具有典型性和代表性。判别准则若满足分类精度要求,则此准则成立;反之,需重新建立分类的决策规则,直至满足分类精度要求为止(图8.22)。
图8.22 地质图
对原始数据的211个波段进行目视解译,去掉其中明显的噪声波段得到剩下的178个波段,对这178个波段的数据信息用上述方法进行分类得到所需的结果,然后结合各种岩性地质特征,得知大多数矿物特征吸收峰均位于1300 nm以后的波段中,故在这178个波段中继续裁剪得93个波段,并对裁剪结果用相同的方法及参数重新分类,将得到的结果与第一次分类结果进行对比。
8.5.2.1 非监督分类填图结果
(1)K-Means
预选待分类数据可分为八类,最大迭代次数为2,且设变化阈值为5%,即当每一类像元数变化小于阈值时结束迭代过程,最大允许标准差和最大允许距离误差不输入,即所有像元都参与分类。从而,当达到阈值5% 或迭代达到两次时则分类结束(图8.23 ,图8.24)。
图8.23 所用数据:dts_178,K-Means填图结果
图8.24 所用数据:resize_dts_93,K-Means填图结果
(2)ISODATA
预选待分类数据可分为5~10类,最大迭代次数为2 ,变化阈值为5%,每一类最少含有像元数为500 ,最大允许标准差为10 ,即如果一类的标准差大于10 ,则该类被拆分为两类。类均值间允许最小距离为5,能够被合并成对的最大对数为5,即当类均值间距离小于5 时,这一类就会被合并,而合并后的成对类的最大值为5(图8.25 ,图8.26)。
图8.25 所用数据:dts_178,ISODATA 填图结果
图8.26 所用数据:resize_dts_93,ISODATA填图结果
8.5.2.2 监督分类填图结果
首先,对照地质图和PPI图像选取两种岩性(Cgammabeta:石炭纪黑云母花岗岩,Cdelta:石炭纪闪长岩)的感兴趣区。
(1)平行六面体
设置最大允许标准差(Max stdev from Mean)为1.4(图8.27,图8.28)。
图8.27 所用数据:dts_178,平行六面体填图结果
图8.28 所用数据:resize_dts_93,平行六面体填图结果
(2)最小距离
设置最大标准差为10 ,最大允许距离误差为2500 ,则分类过程中由两者中较小的一个判定像元是否参与分类,若一旦大于任何一个值则该像元不参与分类,归属为无类别(图8.29 ,图8.30)。
图8.29 所用数据dts_178,最小距离填图结果
图8.30 所用数据resize_dts_93,最小距离填图结果
(3)光谱角制图
设置最大允许角度为0.05°,即当像元波谱与终端端元波谱间夹角大于0.05°时,则不参与分类(图8.31 ,图8.32)。
图8.31 所用数据:dts_178,光谱角制图填图结果
图8.32 所用数据:resize_dts_93,光谱角制图填图结果
(4)光谱信息散度
设置最大散度阈值为0.002(图8.33)。
图8.33 所用数据:dts_178,光谱信息散度填图结果
(5)二值编码
设置最小二进制阈值为0.95 ,决定了哪些像元参与分类(图8.34 ,图8.35)。
图8.34 所用数据:dts_178,二进制编码填图结果
图8.35 所用数据:resize_dts_93,二进制编码填图结果
(6)最小距离(Hymap数据)
该方法需要设置两个阈值:Max stdev from Mean;Max Distance Error。通过不同的尝试,针对两种阈值的设定如图8.36所示。
图8.36 局部填图效果
(7)光谱信息散度(Hymap数据)
该方法需要设置阈值:Maximun Divergence Threshod。通过不同的尝试,参数设置和填图效果如图8.37所示。
图8.37 Threshod=0.005 时的谱信息散度填图结果
8.5.2.3 岩性信息填图结果分析
为了分析高光谱星载模拟数据的岩性填图效果(图8.38),可对比研究区的岩性信息分布图与地质图逐像素进行对比,如果研究区总的点数为N,地质图中与岩性信息分布图的结论相同就认为该点取值1,最后统计结果中1的个数n,这样岩性信息识别精度可定义为
高光谱遥感技术原理及矿产与能源勘查应用
图8.38 岩性提取结果图
笔者发现岩性分类结果与地质图吻合度达到了89%,对出现误差的主要原因分析如下(图8.39):
1)实验中所用数据是高光谱星载模拟数据,其空间分辨率为30m,随着分辨率的降低,单个像元所对应的地面面积将增大,导致每个像元中包含更多的岩性类型,岩性间的影响性也会增加。一方面,由于混合像元的平均效应,目标岩性在像元中的等效丰度会下降,光谱信息减弱。当像元中目标岩性的等效丰度下降到检出限以下时,岩性将不能被识别,而造成岩性分布区的外围含量较低的地段和含量较低分布区填绘面积的减少,点状集群分布区的漏识别,线状分布区的断续分布。这种效应相当于检出限的下降。另一方面,当像元中目标岩性的等效丰度在检出限以上时,会使面状岩性分布区的范围扩大、空洞的充填、相邻小区的连接,点状集群分布区的成片,线状区域的斑点效应。这两种效应的综合作用结果,空间分辨率的减小则会使强异常区(包括高丰度区和光谱反衬度较高的矿物分布区)范围的扩大、小区的相连、点群的结合,而使异常更加醒目,但其细节特征会因此消失;弱异常区(包括低丰度区和光谱反衬度较低的那些岩性分布区)和小异常区面积会缩小或漏检;线状异常可能会形成断续分布的小斑块而使线状特征和其走向变得不清晰。因此,在填图的细致程度上,分辨率越高的数据填图效果越好,这是造成填图效果差异的最主要原因之一。
2)辐射校正的精确程度。无论是高光谱成像仪还是传统的多光谱传感器,它们所记录的数据都是地面观测目标的反射或辐射能量的光谱辐射绝对值,与地物目标的光谱反射率或光谱辐亮度值是不一致的。因此,辐射校正和光谱重建是地物识别不可缺少的环节。但校正后数据必然丢失一定的信息,故再进行后续处理也会有一定的误差。
3)感兴趣区的选取是进行监督分类的一个重要环节,但由于一般情况下并不能得到纯度足够高的感兴趣区,造成选取的样区含有多种岩性,从而对后期处理造成不可避免的误差。
4)在数据一定的情况下,各种分类方法中参数的选取决定了分类效果,但由于无法遍取各种参数进行尝试,实验过程中仅是进行有限尝试后选择了具有较好的结果的参数,但并不能保证所用参数是最适合的参数。
总之,用高光谱星载模拟数据进行矿物填图是可行的,它可以在一定程度上对岩性的种类及分布进行识别。
图8.39 对比地质图(上图是下图黑框中部分)
㈤ 谁能告诉我高斯公式是什么谢谢各位。
高斯定理(Gauss Law)也称为高斯公式(Gauss Formula),或称作散度定理、高斯散度定理、高斯-奥斯特罗格拉德斯基公式、奥氏定理或高-奥公式(通常情况的高斯定理都是指该定理,也有其它同名定理)。
设空间有界闭合区域Ω,其边界∂Ω为分片光滑闭曲面。函数P(x,y,z)、Q(x,y,z)、R(x,y,z)及其一阶偏导数在Ω上连续,那么[1]:
图一(高数上的高斯公式)
图一(高数上的高斯公式)
(由于网络不支持很多格式及字符,故本词条使用一些截图,本公式请见右侧图一)
(如图一)其中∂Ω的正侧为外侧,cos α、cos β、cos γ为∂Ω的外法向量的方向余弦。
高斯投影
高斯投影
称向量场的散度(divergence)。[1]
即矢量穿过任意闭合曲面的通量等于矢量的散度对闭合面所包围的体积的积分。它给出了闭曲面积分和相应体积分的积分变换关系,是矢量分析中的重要恒等式,也是研究场的重要公式之一。
2其它高斯定理
高斯定理2
定理:凡有理整方程至少有一个根。
推论:一元n次方程
有且只有n个根(包括虚根和重根)。
高斯定理3
正整数n可被表示为两整数平方和的充要条件为n的一切形如4k+3形状的质因子的幂次均为偶数。
3物理定义与应用
㈥ 利用微积分的近似公式求y=根号4.02的近似值
由近似公式f(x)≈f(x0)+f'(x0)(x-x0)代入即可得:f(4.02)≈2+1/4*0.02=14.5。
微分学包括求导数的运算,是一套关于变化率的理论。它使得函数、速度、加速度和曲线的斜率等均可用一套通用的符号进行讨论。积分学,包括求积分的运算,为定义和计算面积、体积等提供一套通用的方法。
从广义上说,数学分析包括微积分、函数论等许多分支学科,但是现在一般已习惯于把数学分析和微积分等同起来,数学分析成了微积分的同义词,一提数学分析就知道是指微积分。
积分基本公式介绍
1、牛顿-莱布尼茨公式,又称为微积分基本公式;
2、格林公式,把封闭的曲线积分化为区域内的二重积分,它是平面向量场散度的二重积分;
3、高斯公式,把曲面积分化为区域内的三重积分,它是平面向量场散度的三重积分;
4、斯托克斯公式,与旋度有关。
以上内容参考 网络—微积分
㈦ 正定矩阵因子分解法(PMF)
3.2.4.1 方法建立
就全国范围而言,我国地下水质量总体较好,根据国家《地下水质量标准》(GB/T 14848—93),我国63%的地区地下水可直接饮用,17%经适当处理后可供饮用,12%不宜饮用,剩余8%为天然的咸水和盐水,由此可见,不宜饮用的地下水和天然咸水、盐水占到了20%,对于这些地下水型水源地饮用水指标并不一定受到污染而存在超标现象,其水质可能受到地下水形成演化影响更为明显,因此,考虑选择反映地下水形成、演化的地下水水化学类型常规指标,进行影响因素解析。地下水水质指标在取样与分析过程中,由于取样和样品处理、试剂和水纯度、仪器量度和仪器洁净、采用的分析方法、测定过程以及数据处理等过程均会产生测量误差(系统误差,随机误差,过失误差)。从取样到分析结果计算误差都绝对存在,虽然在各个过程中进行质量控制,但无法完全消除不确定性的影响,为确保分析结果的可靠性,采用PMF法对地下水水质指标考虑一定的不确定性误差,使分析数据能够准确地反映实际情况。
PMF(Positive Matrix Factorization)与主成分分析(PCA)、因子分析(FA)都是利用矩阵分解来解决实际问题的分析方法,在这些方法中,原始的大矩阵被近似分解为低秩的V=WH形式。但PMF与PCA和FA不同,PCA、FA方法中因子W和H中的元素可为正或负,即使输入的初始矩阵元素全是正的,传统的秩削减算法也不能保证原始数据的非负性。在数学上,从计算的观点看,分解结果中存在负值是正确的,但负值元素在实际问题中往往是没有意义的。PMF是在矩阵中所有元素均为非负数约束条件之下的矩阵分解方法,在求解过程中对因子载荷和因子得分均做非负约束,避免矩阵分解的结果中出现负值,使得因子载荷和因子得分具有可解释性和明确的物理意义。PMF使用最小二乘方法进行迭代运算,能够同时确定污染源谱和贡献,不需要转换就可以直接与原始数据矩阵作比较,分解矩阵中元素非负,使得分析的结果明确而易于解释,可以利用不确定性对数据质量进行优化,是美国国家环保局(EPA)推荐的源解析工具。
3.2.4.2 技术原理
PMF:模型是一种基于因子分析的方法,具有不需要测量源指纹谱、分解矩阵中元素非负、可以利用数据标准偏差来进行优化等优点。目前PMF模型此方法成功用于大气气溶胶、土壤和沉积物中持久性有毒物质的源解析,已有成熟的应用模型 PMF1.1,PMF2.0,PMF3.0等。PMF模型基本方程为:
Xnm=GnpFpm+E (3.7)
式中:n——取样点数;
m——各取样点测试的成分数量;
p——污染源个数;
Xnm——取样点各成分含量;
Gnp——主要源的贡献率;
Fpm——源指纹图谱。
基本计算过程如下:
1)样品数据无量纲化,无量纲化后的样品数据矩阵用D表示。
2)协方差矩阵求解,为计算特征值和特征向量,可先求得样品数据的协方差矩阵,用D′为D的转置,算法为:
Z=DD′ (3.8)
3)特征值及特征向量求解,用雅各布方法可求得协方差矩阵Z的特征值矩阵E和特征向量矩阵Q,Q′表示Q的转置。这时,协方差矩阵可表示为:
Z=QEQ′ (3.9)
4)主要污染源数求解,为使高维变量空间降维后能尽可能保留原来指标信息,利用累计方差贡献率提取显着性因子,判断条件为:
地下水型饮用水水源地保护与管理:以吴忠市金积水源地为例
式中:n——显着性因子个数;
m——污染物个数;
λ——特征值。
5)因子载荷矩阵求解,提取显着性因子后,利用求解得到的特征值矩阵E和特征向量矩阵Q进一步求得因子载荷矩阵S和因子得分矩阵C,这时,因子载荷矩阵可表示为:
S=QE1/2 (3.11)
因子得分矩阵可表示为:
C=(S′S)-1S′D (3.12)
6)非负约束旋转,由步骤5求得的因子载荷矩阵S和因子得分矩阵C分别对应主要污染源指纹图谱和主要污染源贡献,为解决其值可能为负的现象,需要做非负约束的旋转。
7)首先利用转换矩阵T1对步骤5求得的因子载荷矩阵S和因子得分矩阵C按下式进行旋转:
地下水型饮用水水源地保护与管理:以吴忠市金积水源地为例
C1=T1C (3.14)
式中:S1——旋转后的因子载荷矩阵;
C1——旋转后的因子得分矩阵;
T1——转换矩阵,且T1=(C∗C′)(C∗C′)-1(其中:C∗为把C中的负值替换为零后的因子得分矩阵)。
8)利用步骤7中旋转得到的因子载荷矩阵S1构建转换矩阵T2对步骤5中旋转得到的因子载荷矩阵S1和因子得分矩阵C1继续旋转:
S2=S1T2 (3.15)
地下水型饮用水水源地保护与管理:以吴忠市金积水源地为例
式中:S2——二次旋转后的因子载荷矩阵;
C2——二次旋转后的因子得分矩阵;
T2——二次转换矩阵,且T2=(S′1+S1)-1(S′1+
9):重复步骤7、8,直到因子载荷中负值的平方和小于某一设定的误差精度e而终止,最终得到符合要求的因子载荷矩阵S,即主要污染源指纹图谱。
3.2.4.3 方法流程
针对受体采样数据直接进行矩阵分解,得到各污染源组分及其贡献率的统计方法(图3.5)。
图3.5 方法流程图
(1)缺失值处理
正定矩阵因子分析是基于多元统计的分析方法,对数据有效性具有一定的要求,因此在进行分析之前首先对数据进行预处理。根据已有数据的特征结合实际情况主要有以下5种处理方法。
1)采样数据量充足的情况下直接丢弃含缺失数据的记录。
2)存在部分缺失值情况下用全局变量或属性的平均值来代替所有缺失数据。把全局变量或是平均值看作属性的一个新值。
3)先根据欧式距离或相关分析来确定距离具有缺失数据样本最近的K个样本,将这K个值加权平均来估计该样本的缺失数据。
4)采用预测模型来预测每一个缺失数据。用已有数据作为训练样本来建立预测模型,如神经网络模型预测缺失数据。该方法最大限度地利用已知的相关数据,是比较流行的缺失数据处理技术。
5)对低于数据检测限的数据可用数据检测限值或1/2检测限以及更小比例检测限值代替。
(2)不确定性处理
计算数据不确定性。
地下水型饮用水水源地保护与管理:以吴忠市金积水源地为例
式中:s——误差百分数;
c——指标浓度值;
l——因子数据检出限。
(3)数据合理性分析
本研究所用数据在放入模型前以信噪比S/N(Signal to Noise)作为标准进行筛选,信噪比S/N为:
地下水型饮用水水源地保护与管理:以吴忠市金积水源地为例
式中:xij——第i采样点第j个样品的浓度;
sij——第i采样点第j个样品的标准偏差。
信噪比小,说明样品的噪声大,信噪比越大则表示样品检出的可能性越大,越适合模型。
(4)数据输入及因子分析
与其他因子分析方法一样,PMF不能直接确定因子数目。确定因子数目的一般方法是尝试多次运行软件,根据分析结果和误差,Q值以及改变因子数目时Q值的相对变化等来确定合理的因子数目。
3.2.4.4 适用范围
PMF对污染源和贡献施加了非负限制,并考虑了原始数据的不确定性,对数据偏差进行了校正,使结果更具有科学的解释。PMF使用最小二乘方法,得到的污染源不需要转换就可以直接与原始数据矩阵作比较,PMF方法能够同时确定污染源和贡献,而不需要事先知道源成分谱。适用于水文地质条件简单,观测数据量较大,污染源和污染种类相对较少的地区,运用简便,可应用分析软件进行计算。
3.2.4.5 NMF 源解析
NMF在实现上较PMF算法简单易行,非负矩阵分解根据目的的不同大致可以分为两种:一是在保证数据某些性质的基础上,将高维空间的样本点映射到某个低维空间上,除去一些不重要的细节,获得原数据的本质信息;二是在从复杂混乱的系统中得到混合前的独立信息的种类和强度。因此,基于非负矩阵分解过程应用领域的不同,分解过程所受的约束和需要保留的性质都不相同。本书尝试性地将NMF算法应用于水质影响因素的分离计算中(表3.2)。
表3.2 RMF矩阵分解权值表
依照非负矩阵分解理论的数学模型,寻找到一个分解过程V≈WH,使WH和V无限逼近,即尽可能缩小二者的误差。在确保逼近的效果,定义一个相应的衡量标准,这个衡量标准就叫作目标函数。目标函数一般采用欧氏距离和散度偏差来表示。在迭代过程中,采用不同的方法对矩阵W和H进行初始化,得到的结果也会不同,算法的性能主要取决于如何对矩阵W和H进行初始化。传统的非负矩阵算法在对矩阵W和H赋初值时采用随机方法,这样做虽然简单并且容易实现,但实验的可重复性以及算法的收敛速度是无法用随机初始化的方法来控制的,所以这种方法并不理想。许多学者提出改进W和H的初始化方法,并发展出专用性比较强的形式众多的矩阵分解算法,主要有以下几种:局部非负矩阵分解(Local Non-negative Matrix Factorization,LNMF)、加权非负矩阵分解(Weighted Non-negative Matrix Factorization,WNMF)、Fisher非负矩阵分解(Fisher Non-negative Matrix Factorization,FNMF)、稀疏非负矩阵分解(Sparse Non-negative Matrix Factorization,SNMF)、受限非负矩阵分解(Constrained Non-negative Matrix Factorization,CNMF)、非平滑非负矩阵分解(Non-smooth Non-negative Matrix Factorization,NSNMF)、稀疏受限非负矩阵分解(Nonnegative Matrix Factorization with Sparseness Constraints,NMF-SC)等理论方法,这些方法针对某一具体应用领域对NMF算法进行了改进。
本书尝试应用MATLAB工具箱中NNMF程序与改进的稀疏非负矩阵分解(SNMF)对研究区11项指标(同PMF数据)进行分解,得到各元素在综合成分中的得分H,初始W0,H0采用随机法取初值。r为分解的基向量个数,合适的r取值主要根据试算法确定,改变r值观察误差值变化情况,本书利用SMNF算法计算时,r分别取2,3,4,采用均方误差对迭代结果效果进行评价,结果显示当r取2,4时误差值为0.034,取3时误差值为0.016,因此r=3是较合理的基向量个数。采用NNMF算法进行计算时,利用MATLAB工具箱提供的两种计算法分别进行计算,乘性法则(Multiplicative Update Algorithm)计算结果误差项比最小二乘法(Alternating Least-squares Algorithm)计算误差值小且稳定,但总体NNMF计算误差较大,改变初始W0,H0取值和增加迭代次数误差均未明显减小,调整r取值,随着r值的增大误差逐渐减小。
对比SNMF和NNMF算法所得权值结果,两种方法所得权值趋势一致,但得分值有所不同,由于SNMF算法对矩阵进行了稀疏性约束,计算结果中较小的权值更趋近于0,两次结果中在三个基向量上总体权值较大的元素项为T-Hard、
㈧ 3D如何运用散度值选号
建议在“3D大赢家”中增加偏度和散度的走势图和过滤设置。我个人认为偏度和散度的指标很好用。比如“排三9097期的”散度度值为2,那么9098期的整体偏度不会大于2,而且百位和个位的个体散度值不等于0(因已连续开出两期)只在1-2之间。但因没有软件帮助无法确定号码。我用“3D大赢家”的“邻期组合”只能过滤掉百位和个位的0。无法整体过滤。非常遗憾。所以建议是否能尽快增加这个功能以方便用户。
在排列三中常规中的中跨度就是散度、上期的中跨度就是偏度。
另可以用定制插件设置一下。附公式
排三号码散度
Max([Min([(R1-r2),(R1-r3)]),Min([(R2-r1),(R2-r3)]),Min([(R3-r1),(R3-r2)])])
排三号码偏度
Max([Min([(R1-hr1(1)),(R1-hr2(1)),(R1-hr3(1))]),
Min([(R2-hr1(1)),(R2-hr2(1)),(R2-hr3(1))]),
Min([(R3-hr1(1)),(R3-hr2(1)),(R3-hr3(1))])])
在散度和偏度的计算上我们之间好像有误差。这并不奇怪,因为现在许多彩票术语没有统一的标准。不去管他了。我们抛开专业术语谈具体的。
我所询问的是如何控制本期开奖号码与上期开奖号码的总体偏移数值。
例如:“排列三”
9097期的开奖号为:591
9098期的开奖号为:867
用9098期开奖号码的百位分别减9097期的百、十、个位数(绝对值相减)得到:
8-5=4、8-9=1、8-1=7、最大号=4、最小号=1、1就是9098期百位的个体偏度。
6-5=1、6-9=3、6-1=5、最大号=5、最小号=1、1就是9098期十位的个体偏度。
7-5=2、7-9=2、7-1=6、最大号=6、最小号=2、2就是9098期个位的个体偏度。
在以上的个体偏度中的最大号是2、2就是9098期与9097期的整体偏度。
这是我对偏度的理解和算法。这个算法对或错,偏度或者散度是多少等等的具体数据,各人的理解算法不同,数据不同。不要管它。
只要可以分别设置本期的百、十、个、位与上期的总体偏移量(如本期的百位数或者十、个位与上期的三个开奖号相减等于几)。以及本期与上期的总体偏移量控制在多少。的过滤插件就行了。具体的数据让用户根据自己的参数设置。
另:你给的两个公式如何设置,设在那个插件。我不明白能否详细讲解。
谢谢
㈨ 求两类曲线积分和两类曲面积分的对比图
我也刚刚复习到这,被这里给纠结了很长一段时间了
在这里跟你探讨探讨,也期待如果有更好的对比资料
能给我也共享一下
两类曲线积分分别是对弧长的积分和对坐标的积分
对弧长的积分是根据求曲线的质量引出来的
方法则是将弧长ds化成根号(1+y导的平方)*dx
说到底,弧长积分最终是将ds转变成dx或者dt的一元定积分
而对坐标的曲线积分则是根据向量F对某一段弧dr做功
向量F是一个关于x,y的二元函数,而dr则是空间的一段弧元素,可以用dx+dy表示
求w时,w=F跟r的向量积=积分号(Pdx+Qdy)
对坐标的曲线积分因为同时含有dx和dy
所以最后运算同样要转成一元定积分进行计算
可以用dx=x(t)导*dt,dy=y(t)导*dt或者dx=dx,dy=y导*dx
两类曲线积分的计算最后都是转成一元定积分的计算
至于格林公式,则是将平面与XOY或者XOZ或者YOZ上的某个闭合的区域的二重积分转成对闭合区域的边界线的曲线积分
条件就是区域必须是闭合的区域
个人认为格林公式的更有意义的应用应该是后面的关于积分路径无关和求全微分
积分路径无关则主要可以简化比方说给定两点,然后求某一个曲线积分可以选择先沿着x轴走然后沿着y轴走来简化计算,另外就是求全微分时也是先在区域D内任意找一个点,然后按照先x轴后y轴的路径,终点是(x,y)。
个人感觉两类曲线积分以及格林公式还是相对比较简单的。
对于曲面积分,也是分为两类,一类是对面积元素ds积分,一类是对坐标积分
对面积元素积分也是由求一个曲面的质量引出
计算方法则主要是根据ds=根号(1+fx^2+fy^2)dxdy,然后将曲面积分转成直角坐标的二重积分
对坐标的曲面积分则是由一个什么什么通量引出,设流速是一个空间向量v,流过某一个面积当方向的ds时,其通量=向量v与向量ds的向量积。ds的则是利用三个坐标面yoz,xoz,xoy与面积元素ds的法向量之间的夹角的余弦来表示,即ds*cosa=dydz,ds*cosb=dzdx,ds*cosr=dxdy,最后,将速度向量v与有相面积元素ds的向量积表示为v向量跟ds的法向量的向量积,得到一个对坐标面进行积分的曲面积分。(这里感觉表述很有问题,可能是个人理解还不够深入)
这里还有一个散度,其实散度很从数学角度很好求
向量A的散度divA=dP/dx+dQ/dy+dR/z。但是其物理意义还是很难更深的体会。
然后就是高斯公式
高斯公式的引出其实跟牛顿莱布尼兹公式和格林公式相类似
牛顿莱布尼兹公式是用两个常数表示定积分,格林公式则是用曲线积分表示一个二重积分,高斯公式则是用一个曲面积分来表示一个三重积分。从表达效果来看,好像每个公式都有优简的作用。(个人理解是如此,也可以帮助你对比的去理解记忆)
高斯公式的应用条件就是必须是一个闭合的域。如果域不是闭合的则需要补全。个人感觉高斯公式的大部分应用都是将一些曲面积分化成三重积分计算,如果将三重积分化成曲面积分的话由于曲面很多,计算起来更麻烦
最后一个就是斯托克斯公式了。斯托克斯公式是格林公式的升级版,格林公式的应用范围只是基于平面区域,而斯托克斯公式则将应用范围扩展到了三维空间。这个虽然是这么理解,但是在那个矩阵算子里面,什么时候用dydz、dzdx、dxdy还是用(cosa、cosb、cosr)*ds,我一直没想明白。如果你搞明白了,有个题目也想跟你探讨探讨。
最后最后就是一个旋度了
对于向量场A的旋度rot(A),其实就是应用那个矩阵算子,数学计算很简单的,
只是对于其物理意义,我无法很深的去理解。
打这么多,不知道能不能帮上你,就当我自己重新复习了一遍吧。
㈩ 对比散度算法为什么只迭代一次就可以得到那么好的效果
是的,全部样本都要算一遍。按照顺序依次抽取样本,代入BP算法,调整权值。也有部分算法是按随机方式,每次样本进来的顺序都不同,但仍然是所有样本都要参与。 唯一可能有点区别的是,标准BP算法中,每输入一个样本,都要回传误差并调整权值