cca算法
‘壹’ CCA分析中的第一排序轴和第二排序轴轴分别代表什么意思
DCCA是目前最先进的植被环境关系多元分析技术之一.
它在去趋势对应分析(DCA)的基础上改进而成. 即在每一轮样方值—物种值的加权平均叠带运算后,用样方环境因子值与样方排序值做一次多元线性回归,用回归系数与环境因子原始值计算出样方分值在用于新一轮叠带计算,这样得出的排序轴代表环境因子的一种线性组合,称此方法为环境约束的对应分析(CCA).然后加入去趋势算法去掉因第一,二排序轴间的相关性产生的"弓形效应"而成为DCCA.它因为结合物种构成和环境因子的信息计算样方排序轴,结果更理想,并可以直观地把环境因子,物种,样方同时表达在排序轴的坐标平面上,已成为上世纪90年代以来植被梯度分析与环境解释的趋势性方法。
‘贰’ 基因测序时otu和 归类操作一样吗
稀释性曲线(Rarefaction Curve)采用对测序序列进行随机抽样的方法,以抽到的序列数与它们所能代表OTU的数目构建曲线,即稀释性曲线。当曲线趋于平坦时,说明测序数据量合理,更多的数据量对发现新OTU的边际贡献很小;反之则表明继续测序还可能产生较多新的OTU。横轴:从某个样品中随机抽取的测序条数;"Label 0.03" 表示该分析是基于OTU 序列差异水平在0.03,即相似度为97% 的水平上进行运算的,客户可以选取其他不同的相似度水平。纵轴:基于该测序条数能构建的OTU数量。曲线解读:? 图1中每条曲线代表一个样品,用不同颜色标记;? 随测序深度增加,被发现OTU 的数量增加。当曲线趋于平缓时表示此时的测序数据量较为合理。2. Shannon-Wiener 曲线反映样品中微生物多样性的指数,利用各样品的测序量在不同测序深度时的微生物多样性指数构建曲线,以此反映各样本在不同测序数量时的微生物多样性。当曲线趋向平坦时,说明测序数据量足够大,可以反映样品中绝大多数的微生物物种信息。横轴:从某个样品中随机抽取的测序条数。纵轴:Shannon-Wiener 指数,用来估算群落多样性的高低。Shannon 指数计算公式:其中,Sobs= 实际测量出的OTU数目;ni= 含有i 条序列的OTU数目;N = 所有的序列数。曲线解读:? 图2每条曲线代表一个样品,用不同颜色标记,末端数字为实际测序条数;? 起初曲线直线上升,是由于测序条数远不足覆盖样品导致;? 数值升高直至平滑说明测序条数足以覆盖样品中的大部分微生物。3.Rank-Abundance 曲线用于同时解释样品多样性的两个方面,即样品所含物种的丰富程度和均匀程度。物种的丰富程度由曲线在横轴上的长度来反映,曲线越宽,表示物种的组成越丰富;物种组成的均匀程度由曲线的形状来反映,曲线越平坦,表示物种组成的均匀程度越高。横轴:OTU 相对丰度含量等级降序排列。纵轴:相对丰度比例。曲线解读:? 图3与图4中每条曲线对应一个样本(参考右上角图标);? 图3与图4中横坐标表示的是OTU(物种)丰度排列顺序,纵坐标对应的是OTU(物种)所占相对丰度比例(图3为相对百分比例,图4为换算后Log值),曲线趋于水平则表示样品中各物种所占比例相似;曲线整体斜率越大则表示样品中各物种所占比例差异较大。4. 样本群落组成分析:多样本柱状图/ 单样本饼状图 根据分类学分析结果,可以得知一个或多个样品在各分类水平上的物种组成比例情况,反映样品在不同分类学水平上的群落结构。柱状图(图5)横轴:各样品的编号。纵轴:相对丰度比例。图标解读:? 颜色对应此分类学水平下各物种名称,不同色块宽度表示不同物种相对丰度比例;? 可以在不同分类学水平下作图分析。饼状图(图6)在某一分类学水平上,不同菌群所占的相对丰度比例。不同颜色代表不同的物种。5. 样品OTU 分布Venn 图用于统计多个样品中共有或独有的OTU数目,可以比较直观地表现各环境样品之间的OTU 组成相似程度。不同样品用不同颜色标记,各个数字代表了某个样品独有或几种样品共有的OTU 数量,对应的OTU编号会以EXCEL 表的形式在结题报告中呈现。分析要求单张分析图,样本分组至少两个,最多5 个。? 默认设置为97% 相似度水平下以OTU 为单位进行分析作图。6. Heatmap 图用颜色变化来反映二维矩阵或表格中的数据信息,它可以直观地将数据值的大小以定义的颜色深浅表示出来。将高丰度和低丰度的物种分块聚集,通过颜色梯度及相似程度来反映多个样品在各分类水平上群落组成的相似性和差异性。相对丰度比例:热图(图8)中每小格代表其所在样品中某个OTU 的相对丰度。以图8为例,红框高亮的小格所对应的信息为:样本(R11-1Z)中OTU(OTU128)的相对丰度比例大概为0.2%。丰度比例计算公式(Bray Curtis 算法):其中,SA,i = 表示A样品中第i个OTU所含的序列数SB,i = 表示B样品中第i个OTU所含的序列数样品间聚类关系树:进化树表示在选用成图数据中,样本与样本间序列的进化关系(差异关系)。处于同一分支内的样品序列进化关系相近。物种/OTU 丰度相似性树:丰度相似性树表示选用成图的数据中样品与样品中的OTU 或序列在丰度上的相似程度。丰度最相近的会分配到同一分支上。客户自定义分组:根据研究需求对菌群物种/OTU 研究样本进行二级分组? 二级物种/OTU 分组:将下级分类学水平物种或OTU 分配到对应的上级分类学水平,以不同颜色区分;? 二级样品分组:根据研究需要,对样品进行人为的分组,以不同颜色区分。7. 主成分分析PCA (Principal Component Analysis)在多元统计分析中,主成分分析是一种简化数据集的技术。主成分分析经常用于减少数据集的维数,同时保持数据集中对方差贡献最大的特征,从而有效地找出数据中最“主要”的元素和结构,去除噪音和冗余,将原有的复杂数据降维,揭示隐藏在复杂数据背后的简单结构。通过分析不同样品的OTU 组成可以反映样品间的差异和距离,PCA 运用方差分解,将多组数据的差异反映在二维坐标图上,坐标轴为能够最大程度反映方差的两个特征值。如样品组成越相似,反映在PCA图中的距离越近。横轴和纵轴:以百分数的形式体现主成分主要影响程度。以图9为例,主成分1(PC1)和主成分2(PC2)是造成四组样品(红色,蓝色,黄色和绿色)的两个最大差异特征,贡献率分别为41.1% 和27.1%。十字交叉线:在图9中作为0 点基线存在,起到辅助分析的作用,本身没有意义。图例解读:? PCA 分析图是基于每个样品中所含有的全部OTU 完成的;? 图9中每个点代表了一个样本;颜色则代表不同的样品分组;? 两点之间在横、纵坐标上的距离,代表了样品受主成分(PC1 或 PC2)影响下的相似性距离;? 样本数量越多,该分析意义越大;反之样本数量过少,会产生个体差异,导致PCA分析成图后形成较大距离的分开,建议多组样品时,每组不少于5个,不分组时样品不少于10个;? 图10中的圆圈为聚类分析结果,圆圈内的样品,其相似距离比较接近。8. RDA/ CCA 分析图基于对应分析发展的一种排序方法,将对应分析与多元回归分析相结合,每一步计算均与环境因子进行回归,又称多元直接梯度分析。主要用来反映菌群与环境因子之间的关系。RDA 是基于线性模型,CCA是基于单峰模型。分析可以检测环境因子、样品、菌群三者之间的关系或者两两之间的关系。横轴和纵轴:RDA 和CCA 分析,模型不同,横纵坐标上的刻度为每个样品或者物种在与环境因子进行回归分析计算时产生的值,可以绘制于二维图形中。图例解读:? 冗余分析可以基于所有样品的OTU作图,也可以基于样品中优势物种作图;? 箭头射线:图11中的箭头分别代表不同的环境因子(即图中的碳酸氢根离子HCO3-,醋酸根离子AC-等,图中的其它环境因子因研究不同代表的意义不同,因此不再赘述);? 夹角:环境因子之间的夹角为锐角时表示两个环境因子之间呈正相关关系,钝角时呈负相关关系。环境因子的射线越长,说明该影响因子的影响程度越大;? 图11中不同颜色的点表示不同组别的样品或者同一组别不同时期的样品,图中的拉丁文代表物种名称,可以将关注的优势物种也纳入图中;? 环境因子数量要少于样本数量,同时在分析时,需要提供环境因子的数据,比如 pH值,测定的温度值等。9. 单样品/ 多样品分类学系统组成树根据NCBI 提供的已有微生物物种的分类学信息数据库,将测序得到的物种丰度信息回归至数据库的分类学系统关系树中,从整个分类系统上全面了解样品中所有微生物的进化关系和丰度差异。单样品图(图12):可以了解单样品中的序列在各个分类学水平上的分布情况。图例解读:? 图12中不同的层次反映不同的分类学水平;? 分支处的圆面积说明了分布在该分类学水平,且无法继续往下级水平比对的序列数量,面积越大,说明此类序列越多;? 每个分支上的名词后面的两组数字分别表示比对到该分支上的序列数和驻留在该节点上的序列数;? 图13中为某单一水平物种分布情况,并非是序列分布。多样品图(图14):比对多个样品在不同分类学分支上序列数量差异。图例解读:? 比对不同样品在某分支上的序列数量差异,通过带颜色的饼状图呈现,饼状图的面积越大,说明在分支处的序列数量越多,不同的颜色代表不同的样品。? 某颜色的扇形面积越大,说明在该分支上,其对应样品的序列数比其他样品多。? 多样品在做该分析时,建议样品数量控制在10个以内,或者将重复样本数据合并成一个样本后,总样品数在10个以内。10.系统发生进化树在分子进化研究中,基于系统发生的推断来揭示某一分类水平上序列间碱基的差异,进而构建进化树。
‘叁’ A*算法应用,大家给点介绍,做课程设计
维基网络有很多的,大陆访问不了,可以设置个香港代理。
SHA 家族
[编辑首段]维基网络,自由的网络全书
跳转到: 导航, 搜寻
安全散列演算法能计算出一个数位讯息所对应到的,长度固定的字串(又称讯息摘要)。且若输入的讯息不同,它们对应到不同字串的机率很高;而 SHA 是FIPS所认证的五种安全杂凑演算法。这些演算法之所以称作“安全”是基于以下两点(根据官方标准的描述):“1)由讯息摘要反推原输入讯息,从计算理论上来说是很困难的。2)想要找到两组不同的讯息对应到相同的讯息摘要,从计算理论上来说也是很困难的。任何对输入讯息的变动,都有很高的机率导致其产生的讯息摘要迥异。”
SHA 家族的五个演算法,分别是SHA-1, SHA-224, SHA-256, SHA-384, 和 SHA-512,由美国国家安全局 (NSA) 所设计,并由美国国家标准与技术研究院(NIST) 发布;是美国的政府标准。后四者有时并称为SHA-2。SHA-1 在许多安全协定中广为使用,包括 TLS 和 SSL、 PGP、SSH、S/MIME 和 IPsec,曾被视为是 MD5(更早之前被广为使用的杂凑函数)的后继者。但 SHA-1 的安全性如今被密码学家严重质疑;虽然至今尚未出现对 SHA-2 有效的攻击,它的演算法跟 SHA-1 基本上仍然相似;因此有些人开始发展其他替代的杂凑演算法。缘于最近对 SHA-1 的种种攻击发表,“美国国家标准与技术研究院(NIST)开始设法经由公开竞争管道(类似高级加密标准AES的发展经过),发展一个或多个新的杂凑演算法。”
目录 [隐藏]
1 SHA-0 和 SHA-1
1.1 SHA-0 的破解
1.2 SHA-1 的破解
2 SHA-2
3 SHA 所定义的长度
4 SHAd
5 应用
6 SHA-1 演算法
7 SHA-2 演算法
8 参见
9 参考资料
10 外部链结
[编辑] SHA-0 和 SHA-1
SHA-1 压缩演算法中的一个回圈。A, B, C, D 和 E 是这个state中的 32 位元文字;F 是会变化的非线性函数;<<<n 代表bit向左循环移动n个位置。n因操作而异。田代表molo 232之下的加法,Kt 是一个常数。最初载明的演算法于 1993年发布,称做安全杂凑标准 (Secure Hash Standard),FIPS PUB 180。这个版本现在常被称为 SHA-0。它在发布之后很快就被 NSA 撤回,并且由 1995年发布的修订版本 FIPS PUB 180-1 (通常称为 SHA-1) 取代。SHA-1 和 SHA-0 的演算法只在压缩函数的讯息转换部份差了一个位元的循环位移。根据 NSA 的说法,它修正了一个在原始演算法中会降低密码安全性的错误。然而 NSA 并没有提供任何进一步的解释或证明该错误已被修正。而后 SHA-0 和 SHA-1 的弱点相继被攻破,SHA-1 似乎是显得比 SHA-0 有抵抗性,这多少证实了 NSA 当初修正演算法以增进安全性的声明。
SHA-0 和 SHA-1 可将一个最大 264 位元的讯息,转换成一串 160 位元的讯息摘要;其设计原理相似于 MIT 教授 Ronald L. Rivest 所设计的密码学杂凑演算法 MD4 和 MD5。
[编辑] SHA-0 的破解
在 CRYPTO 98 上,两位法国研究者提出一种对 SHA-0 的攻击方式 (Chabaud and Joux, 1998): 在 261的计算复杂度之内,就可以发现一次碰撞(即两个不同的讯息对应到相同的讯息摘要);这个数字小于 280 ,也就是说,其安全性不到一个理想的杂凑函数抵抗攻击所应具备的计算复杂度。
2004年时,Biham 和 Chen 也发现了 SHA-0 的近似碰撞 — 两个讯息可以杂凑出几乎相同的数值;其中 162 位元中有 142 位元相同。他们也发现了 SHA-0 的完整碰撞(相对于近似碰撞),将本来需要 80 次方的复杂度降低到 62 次方。
2004年8月12日,Joux, Carribault, Lemuet 和 Jalby 宣布找到 SHA-0 演算法的完整碰撞的方法,这是归纳 Chabaud 和 Joux 的攻击所完成的结果。发现一个完整碰撞只需要 251的计算复杂度。他们使用的是一台有 256 颗 Itanium2 处理器的超级电脑,约耗 80,000 CPU 工时 [1]。
2004年8月17日,在 CRYPTO 2004 的 Rump 会议上,王小云, 冯登国 (Feng), 来学嘉 (Lai), 和于红波 (Yu) 宣布了攻击 MD5、SHA-0 和其他杂凑函数的初步结果。他们攻击 SHA-0 的计算复杂度是 240,这意谓的他们的攻击成果比 Joux 还有其他人所做的更好。请参见 MD5 安全性。2005 年二月,王小云和殷益群、于红波再度发表了对 SHA-0 破密的演算法,可在 239 的计算复杂度内就找到碰撞。
[编辑] SHA-1 的破解
鉴于 SHA-0 的破密成果,专家们建议那些计画利用 SHA-1 实作密码系统的人们也应重新考虑。2004 年 CRYPTO 会议结果公布之后,NIST 即宣布他们将逐渐减少使用 SHA-1,改以 SHA-2 取而代之。
2005年,Rijmen 和 Oswald 发表了对 SHA-1 较弱版本(53次的加密回圈而非80次)的攻击:在 280 的计算复杂度之内找到碰撞。
2005年二月,王小云、殷益群及于红波发表了对完整版 SHA-1 的攻击,只需少于 269 的计算复杂度,就能找到一组碰撞。(利用暴力搜寻法找到碰撞需要 280 的计算复杂度。)
这篇论文的作者们写道;“我们的破密分析是以对付 SHA-0 的差分攻击、近似碰撞、多区块碰撞技术、以及从 MD5 演算法中寻找碰撞的讯息更改技术为基础。没有这些强力的分析工具,SHA-1 就无法破解。”此外,作者还展示了一次对 58 次加密回圈 SHA-1 的破密,在 233 个单位操作内就找到一组碰撞。完整攻击方法的论文发表在 2005 年八月的 CRYPTO 会议中。
殷益群在一次面谈中如此陈述:“大致上来说,我们找到了两个弱点:其一是前置处理不够复杂;其二是前 20 个回圈中的某些数学运算会造成不可预期的安全性问题。”
2005 年八月 17 的 CRYPTO 会议尾声中王小云、姚期智、姚储枫再度发表更有效率的 SHA-1 攻击法,能在 263 个计算复杂度内找到碰撞。
在密码学的学术理论中,任何攻击方式,其计算复杂度若少于暴力搜寻法所需要的计算复杂度,就能被视为针对该密码系统的一种破密法;这并不表示该破密法已经可以进入实际应用的阶段。
就应用层面的考量而言,一种新的破密法出现,暗示着将来可能会出现更有效率、足以实用的改良版本。虽然这些实用的破密法版本根本还没诞生,但确有必要发展更强的杂凑演算法来取代旧的演算法。在“碰撞”攻击法之外,另有一种反译攻击法,就是由杂凑出的字串反推原本的讯息;反译攻击的严重性更在碰撞攻击之上。 在许多会应用到密码杂凑的情境(如用户密码的存放、文件的数位签章等)中,碰撞攻击的影响并不是很大。举例来说,一个攻击者可能不会只想要伪造一份一模一样的文件,而会想改造原来的文件,再附上合法的签章,来愚弄持有私密金钥的验证者。另一方面,如果可以从密文中反推未加密前的使用者密码,攻击者就能利用得到的密码登入其他使用者的帐户,而这种事在密码系统中是不能被允许的。但若存在反译攻击,只要能得到指定使用者密码杂凑过后的字串(通常存在影档中,而且可能不会透露原密码资讯),就有可能得到该使用者的密码。
2006 年的 CRYPTO 会议上,Christian Rechberger 和 Christophe De Cannière 宣布他们能在容许攻击者决定部分原讯息的条件之下,找到 SHA-1 的一个碰撞。
[编辑] SHA-2
SHA-2 的第t个加密回圈。图中的深蓝色方块是事先定义好的非线性函数。ABCDEFGH一开始分别是八个初始值,Kt是第t个金钥,Wt是本区块产生第t个word。原讯息被切成固定长度的区块,对每一个区块,产生n个word(n视演算法而定),透过重复运作回圈n次对ABCDEFGH这八个工作区段循环加密。最后一次回圈所产生的八段字串合起来即是此区块对应到的杂凑字串。若原讯息包含数个区块,则最后还要将这些区块产生的杂凑字串加以混合才能产生最后的杂凑字串。NIST 发布了三个额外的 SHA 变体,这三个函数都将讯息对应到更长的讯息摘要。以它们的摘要长度 (以位元计算) 加在原名后面来命名:SHA-256,SHA-384 和 SHA-512。它们发布于 2001年的 FIPS PUB 180-2 草稿中,随即通过审查和评论。包含 SHA-1 的 FIPS PUB 180-2,于 2002年以官方标准发布。2004年2月,发布了一次 FIPS PUB 180-2 的变更通知,加入了一个额外的变种 "SHA-224",这是为了符合双金钥 3DES 所需的金钥长度而定义。
SHA-256 和 SHA-512 是很新的杂凑函数,前者以定义一个word为32位元,后者则定义一个word为64位元。它们分别使用了不同的偏移量,或用不同的常数,然而,实际上二者结构是相同的,只在回圈执行的次数上有所差异。 SHA-224 以及 SHA-384 则是前述二种杂凑函数的截短版,利用不同的初始值做计算。
这些新的杂凑函数并没有接受像 SHA-1 一样的公众密码社群做详细的检验,所以它们的密码安全性还不被大家广泛的信任。Gilbert 和 Handschuh (2003) 曾对这些新变种作过一些研究,声称他们没有弱点。
[编辑] SHA 所定义的长度
下表中的中继杂凑值(internal state)表示对每个资料区块压缩杂凑过后的中继值(internal hash sum)。详情请参见Merkle-Damgård construction。
演算法 输出杂凑值长度 (bits) 中继杂凑值长度 (bits) 资料区块长度 (bits) 最大输入讯息长度 (bits) 一个Word长度 (bits) 回圈次数 使用到的运运算元 碰撞攻击
SHA-0 160 160 512 264 − 1 32 80 +,and,or,xor,rotl 是
SHA-1 160 160 512 264 − 1 32 80 +,and,or,xor,rotl 存在263 的攻击
SHA-256/224 256/224 256 512 264 − 1 32 64 +,and,or,xor,shr,rotr 尚未出现
SHA-512/384 512/384 512 1024 2128 − 1 64 80 +,and,or,xor,shr,rotr 尚未出现
[编辑] SHAd
SHAd 函数是一个简单的相同 SHA 函数的重述:
SHAd-256(m)=SHA-256(SHA-256(m))。它会克服有关延伸长度攻击的问题。
[编辑] 应用
SHA-1, SHA-224, SHA-256, SHA-384 和 SHA-512 都被需要安全杂凑演算法的美国联邦政府所应用,他们也使用其他的密码演算法和协定来保护敏感的未保密资料。FIPS PUB 180-1 也鼓励私人或商业组织使用 SHA-1 加密。Fritz-chip 将很可能使用 SHA-1 杂凑函数来实现个人电脑上的数位版权管理。
首先推动安全杂凑演算法出版的是已合并的数位签章标准。
SHA 杂凑函数已被做为 SHACAL 分组密码演算法的基础。
[编辑] SHA-1 演算法
以下是 SHA-1 演算法的虚拟码:
Note: All variables are unsigned 32 bits and wrap molo 232 when calculating
Initialize variables:
h0 := 0x67452301
h1 := 0xEFCDAB89
h2 := 0x98BADCFE
h3 := 0x10325476
h4 := 0xC3D2E1F0
Pre-processing:
append the bit '1' to the message
append k bits '0', where k is the minimum number >= 0 such that the resulting message
length (in bits) is congruent to 448 (mod 512)
append length of message (before pre-processing), in bits, as 64-bit big-endian integer
Process the message in successive 512-bit chunks:
break message into 512-bit chunks
for each chunk
break chunk into sixteen 32-bit big-endian words w[i], 0 ≤ i ≤ 15
Extend the sixteen 32-bit words into eighty 32-bit words:
for i from 16 to 79
w[i] := (w[i-3] xor w[i-8] xor w[i-14] xor w[i-16]) leftrotate 1
Initialize hash value for this chunk:
a := h0
b := h1
c := h2
d := h3
e := h4
Main loop:
for i from 0 to 79
if 0 ≤ i ≤ 19 then
f := (b and c) or ((not b) and d)
k := 0x5A827999
else if 20 ≤ i ≤ 39
f := b xor c xor d
k := 0x6ED9EBA1
else if 40 ≤ i ≤ 59
f := (b and c) or (b and d) or (c and d)
k := 0x8F1BBCDC
else if 60 ≤ i ≤ 79
f := b xor c xor d
k := 0xCA62C1D6
temp := (a leftrotate 5) + f + e + k + w[i]
e := d
d := c
c := b leftrotate 30
b := a
a := temp
Add this chunk's hash to result so far:
h0 := h0 + a
h1 := h1 + b
h2 := h2 + c
h3 := h3 + d
h4 := h4 + e
Proce the final hash value (big-endian):
digest = hash = h0 append h1 append h2 append h3 append h4
上述关于 f 运算式列于 FIPS PUB 180-1 中 , 以下替代运算式也许也能在主要回圈里计算 f :
(0 ≤ i ≤ 19): f := d xor (b and (c xor d)) (alternative)
(40 ≤ i ≤ 59): f := (b and c) or (d and (b or c)) (alternative 1)
(40 ≤ i ≤ 59): f := (b and c) or (d and (b xor c)) (alternative 2)
(40 ≤ i ≤ 59): f := (b and c) + (d and (b xor c)) (alternative 3)
[编辑] SHA-2 演算法
以下是SHA-256 演算法的虚拟码。注意,64个word w[16..63]中的位元比起 SHA-1 演算法,混合的程度大幅提升。
Note: All variables are unsigned 32 bits and wrap molo 232 when calculating
Initialize variables
(first 32 bits of the fractional parts of the square roots of the first 8 primes 2..19):
h0 := 0x6a09e667
h1 := 0xbb67ae85
h2 := 0x3c6ef372
h3 := 0xa54ff53a
h4 := 0x510e527f
h5 := 0x9b05688c
h6 := 0x1f83d9ab
h7 := 0x5be0cd19
Initialize table of round constants
(first 32 bits of the fractional parts of the cube roots of the first 64 primes 2..311):
k[0..63] :=
0x428a2f98, 0x71374491, 0xb5c0fbcf, 0xe9b5dba5, 0x3956c25b, 0x59f111f1, 0x923f82a4, 0xab1c5ed5,
0xd807aa98, 0x12835b01, 0x243185be, 0x550c7dc3, 0x72be5d74, 0x80deb1fe, 0x9bdc06a7, 0xc19bf174,
0xe49b69c1, 0xefbe4786, 0x0fc19dc6, 0x240ca1cc, 0x2de92c6f, 0x4a7484aa, 0x5cb0a9dc, 0x76f988da,
0x983e5152, 0xa831c66d, 0xb00327c8, 0xbf597fc7, 0xc6e00bf3, 0xd5a79147, 0x06ca6351, 0x14292967,
0x27b70a85, 0x2e1b2138, 0x4d2c6dfc, 0x53380d13, 0x650a7354, 0x766a0abb, 0x81c2c92e, 0x92722c85,
0xa2bfe8a1, 0xa81a664b, 0xc24b8b70, 0xc76c51a3, 0xd192e819, 0xd6990624, 0xf40e3585, 0x106aa070,
0x19a4c116, 0x1e376c08, 0x2748774c, 0x34b0bcb5, 0x391c0cb3, 0x4ed8aa4a, 0x5b9cca4f, 0x682e6ff3,
0x748f82ee, 0x78a5636f, 0x84c87814, 0x8cc70208, 0x90befffa, 0xa4506ceb, 0xbef9a3f7, 0xc67178f2
Pre-processing:
append the bit '1' to the message
append k bits '0', where k is the minimum number >= 0 such that the resulting message
length (in bits) is congruent to 448 (mod 512)
append length of message (before pre-processing), in bits, as 64-bit big-endian integer
Process the message in successive 512-bit chunks:
break message into 512-bit chunks
for each chunk
break chunk into sixteen 32-bit big-endian words w[0..15]
Extend the sixteen 32-bit words into sixty-four 32-bit words:
for i from 16 to 63
s0 := (w[i-15] rightrotate 7) xor (w[i-15] rightrotate 18) xor (w[i-15] rightshift 3)
s1 := (w[i-2] rightrotate 17) xor (w[i-2] rightrotate 19) xor (w[i-2] rightshift 10)
w[i] := w[i-16] + s0 + w[i-7] + s1
Initialize hash value for this chunk:
a := h0
b := h1
c := h2
d := h3
e := h4
f := h5
g := h6
h := h7
Main loop:
for i from 0 to 63
s0 := (a rightrotate 2) xor (a rightrotate 13) xor (a rightrotate 22)
maj := (a and b) xor (a and c) xor (b and c)
t2 := s0 + maj
s1 := (e rightrotate 6) xor (e rightrotate 11) xor (e rightrotate 25)
ch := (e and f) xor ((not e) and g)
t1 := h + s1 + ch + k[i] + w[i]
h := g
g := f
f := e
e := d + t1
d := c
c := b
b := a
a := t1 + t2
Add this chunk's hash to result so far:
h0 := h0 + a
h1 := h1 + b
h2 := h2 + c
h3 := h3 + d
h4 := h4 + e
h5 := h5 + f
h6 := h6 + g
h7 := h7 + h
Proce the final hash value (big-endian):
digest = hash = h0 append h1 append h2 append h3 append h4 append h5 append h6 append h7
其中 ch 函数及 maj 函数可利用前述 SHA-1 的优化方式改写。
SHA-224 和 SHA-256 基本上是相同的, 除了:
h0 到 h7 的初始值不同,以及
SHA-224 输出时截掉 h7 的函数值。
SHA-512 和 SHA-256 的结构相同,但:
SHA-512 所有的数字都是64位元,
SHA-512 执行80次加密回圈而非64次,
SHA-512 初始值和常数拉长成64位元,以及
二者位元的偏移量和循环位移量不同。
SHA-384 和 SHA-512 基本上是相同的,除了:
h0 到 h7 的初始值不同,以及
SHA-384 输出时截掉 h6 和 h7 的函数值。
‘肆’ O level 的分数怎么算的
读poly算得是L1R4,上JC算的是L1R5。在直通车学校的话,想必你就不是以poly为目标了吧?那我就只解释L1R5了。
先回答第二个问题。只要你学了,你就可以考,如果考试没去就像当与你没有学过这门课了。必修的有英文、华文(或者malay或者tamil)、e math, combine humanity,还有至少一门science。比较好的学校,通常学生会学7-10门课。我当年学的10门:english, chinese, higher chinese, e math, a math, phy, chem, biology, geography (core), combine huamnity。现在好像很少有学校学两门humanity了。
再回答第一问。所谓L1R5,就是language数一门,剩下的数5门最好的。通常75分为A1,70为A2,65为B3,60为B4,55为C5,50为C6,往下就是fail了。当然,o level的时候会有moderation,不会这么严格的卡分数线,不过差不多就是这个样子。字母旁边的数字就是用来算分的。language只能选english或者HIGHER chinese,而chinese不能算。剩下的5门,要选至少一个数学、至少一个science,加至少一个Humanity,总共加起来一共是6门课。算出来的L1R5越少越好,所以,最好成绩就是6分咯,6门课都是A1。
问题3。语言方面,如上所说,只能选英文和高级华文。华文不能选。而且,如果你选了高级华文作为L1,英文还可以算进R5,但是华文不可以。说来说去,就是你L1R5的6门课里,华文和高级华文是不能同时出现的。不过英文和华文或者高级华文可以同时出现。
cca方面,与其说是加分,不如说是减分。不知道你们现在政策有没有什么变化。我考的2004年,cca如果拿到A,可以减2分,B减1分。如果有学Higher chinese,而且B3以上,也可以减2分。当年还有如果有200个小时CIP也可以减2分。其他项目,例如华初的LEP之类的也可以减分。但是你总共的减分最多不超过4分。也就是说,完美成绩是2分,6分的L1R5,减掉4分的Bonus。
大体上,L1R4就是比L1R5少一门,但是具体的算法还是有些不同的。
‘伍’ 新加坡olevel成绩怎么算
去初级学院的话要用L1R5(一门语言课 高级华文或英语、五门主课,其中要有一门是理科学课、一门是人文学课、其他就选最好的)。每个科目都是按等级算的,最好的是A1,然后是A2、B3、B4、C5、C6等。低过C6就算不及格。除了学科成绩外还可以用CCA points、做义工时长等减少总分。总分越少越好。L1R5成绩要20分以上才能去初级学院,低过二十分的话就要用L1R4去理工学院。算法是差不多的,少算一个科目而已。
‘陆’ 我要一个外文文献
最小二乘支持向量机的改进及其在化学化工中的应用
作者:陶少辉
专业:化学工程与技术
导师:陈德钊 胡望明
学位:博士
单位:浙江大学
分类:TQ02
主题:最小二乘 支持向量机 建模 化工过程
时间:2006年09月01日
页数:1-116
浏览:在线阅读 全文下载
内容摘要
最小二乘支持向量机 (least squares support veotor maohine,LSSVM)是一种遵循结构风险最小化 (structural risk minimization,SRM) 原则的核函数学习机器,近年来化学、化工领域的应用日益广泛.本文以LSSVM在实际应用中的若干问题为主线,针对其应用中存在的高维数据降维、超参数选择和稀疏性等问题,提出了若干新算法,并应用于化学物质结构与性质问关系、化工生产过程等实际问题建模,效果显着.全文的主要内容可以归结为以下六个部分,其中包括了研究工作所取得的主要成果. 1、系统回顾了统计学习理论和支持向量机的发展历史、研究现状与应用领域;介绍了支持向量机原理,及其应用中存在的一些问题. 2、针对支持向量机解决非线性分类问题时,必须先将样本向量由原空间映射至高维重建核 Hilbert 空间的特点,利用核函数技术将线性的分类相关分析算法拓展至高维的重建核 Hilbert 空间,此即非线性分类相关分析 (nonlinearolassification oorrelative analysis,NLCCA) 算法.最后,将 NLCCA 与线性支持向量分类器 (linear support vector olassifier,LSVC) 集成得到NLCCA-LSVC,并应用于两个典型的复杂化学模式识别问题. 3、对于小样本的LSSVM函数回归问题,在快速留一法的基础上,以全样本的留一预测误差平方和sse为目标,导出了sse对超参数的梯度,并据此以最速下降法优选超参数,构建G-LSSVM模型.最后将之用于一个小样本、非线性柠檬酸发酵过程建模问题. 4、由于神经网络、LSSVM等经验模型的精度完全依靠测量数据,导致经验模型不能将实际过程的先验知识融合在内,所以模型的预报有时会与过程机理相矛盾.针对二元恒温(恒压)汽液平衡体系的汽相组成计算问题,为解决这一问题,在胡英等人工作基础上,将Gibbs-Duhem方程与多层前传神经网络和LSSVM结合,建立了融入先验知识的汽相组成计算混合模型,使得计算结果受Gibbs-Duhem 方程约束.最后混合模型被应用于2个实际二元汽液平衡体系的计算. 5、由于计算经验风险的损失函数为二次函数形式,LSSVM丧失了标准支持向量机的稀疏性,导致其训练完毕之后,用于分类时效率降低;为使LSSVM具有稀疏性,本文从统计分析的角度出发,选取训练样本中分类作用最大的若干样本个体作为支持向量,并将非支持向量上的分类信息转移至支持向量上,提出了新的LSSVM稀疏化算法,最后将两种新的LSSVM稀疏化应用于若干实际分类问题.另外,本文提出的稀疏化算法可直接应用于多类问题. 6、本文利用核函数矩阵的奇异值分解,得到了可以节省超参数选取时间的分类器:SVD-LSSVM.SVD-LSSVM用奇异值贡献率来平衡经验风险与LSSVM的模型复杂度,从新的途径实现了SRM原则. 论文还分析了研究工作的不足,并展望了今后的发展.
全文目录
文摘
英文文摘
第一章绪论
1.1引言
1.2常用经验建模方法
1.3经验建模的若干问题
1.4本文研究内容及组织
第二章最小二乘支持向量机
2.1研究背景
2.1.1统计学习理论简介
2.1.2支持向量机原理
2.1.3 SVM在实际应用中的若干问题
2.2 LSSVM原理
2.2.1两类LSSVM分类器
2.2.2多类LSSVM分类器
2.2.3用于函数回归的LSSVM
2.3 LSSVM在实际应用中的若干问题
2.3.1海量样本的LSSVM训练算法
2.3.2 LSSVM超参数选择
2.3.3稀疏LSSVM
2.3.4加权LSSVM
2.3.5对LSSVM的其它改进
2.4 LSSVM的应用
2.5本章小结
第三章基于核函数的非线性分类相关分析
3.1维数灾难和降维策略发展概况
3.2分类相关分析算法
3.3基于核函数的非线性CCA算法
3.3.1 CCA算法步骤的改写
3.3.2基于核函数的非线性CCA
3.3.3 NLCCA与线性支持向量分类器的集成
3.4对于2个复杂化学模式分类问题的应用
3.4.1样本数据说明
3.4.2分类器的建立
3.4.3分类器的性能分析
3.5本章小结
第四章LSSVM超参数选取的梯度法
4.1化工过程建模的意义
4.2梯度下降法选取LSSVM超参数
4.2.1算法原理和步骤
4.2.2算法测试
4.3 G-LSSVM模型在柠檬酸发酵过程建模中的应用
4.3.1柠檬酸发酵过程简介
4.3.2柠檬酸发酵过程的G-LSSVM建模
4.4本章小结
第五章二元汽液平衡计算的混合模型
5.1先验知识
5.1.1先验知识的定义
5.1.2先验知识与机理模型和经验模型之间的关系
5.2学习机器与先验知识混合的模型
5.2.1 ANN与先验知识的混合
5.2.2 SVM与先验知识的混合
5.3汽液平衡计算
5.3.1汽液平衡计算的常用方法
5.3.2汽液平衡计算的无模型法
5.4 Gibbs-Duhem方程与学习机器混合建模
5.5对于两个二元汽液平衡体系的应用
5.6本章小结
第六章基于统计分析的LSSVM稀疏化
6.1基于统计分析的LSSVM稀疏化算法基本思想
6.1.1样本个体的分类重要性
6.1.2非支持向量的信息转移
6.2两种稀疏化算法
6.3算法的测试与分析
6.4稀疏化算法的实际应用
6.5本章小结
第七章基于核函数矩阵SVD分解实现SRM原则
7.1非线性模式分类与RKHS线性回归
7.2简化LSSVM
7.3 SVD求解线性回归问题
7.4 SVD-LSSVM算法及其分析
7.4.1算法步骤
7.4.2对SVD-LSSVM交叉验证的分析
7.4.3 SVCR值对SVD-LSSVM分类性能的影响
7.5算法应用
7.6本章小结
第八章总结与展望
8.1全文工作总结
8.2存在的不足
8.3工作展望
参考文献
致谢
作者攻读博士学位期间撰写的论文和参与的项目
‘柒’ 校验参数的加密方式及算法
您好:
1、常用密钥算法 :
密钥算法用来对敏感数据、摘要、签名等信息进行加密,常用的密钥算法包括:
DES(Data Encryption Standard):数据加密标准,速度较快,适用于加密大量数据的场合; 3DES(Triple DES):是基于DES,对一块数据用三个不同的密钥进行三次加密,强度更高;
RC2和 RC4:用变长密钥对大量数据进行加密,比 DES 快;
IDEA(International Data Encryption Algorithm)国际数据加密算法,使用 128 位密钥提供非常强的安全性;
RSA:由 RSA 公司发明,是一个支持变长密钥的公共密钥算法,需要加密的文件快的长度也是可变的;
DSA(Digital Signature Algorithm):数字签名算法,是一种标准的 DSS(数字签名标准);
AES(Advanced Encryption Standard):高级加密标准,是下一代的加密算法标准,速度快,安全级别高,目前 AES 标准的一个实现是 Rijndael 算法;
BLOWFISH,它使用变长的密钥,长度可达448位,运行速度很快;
其它算法,如ElGamal、Deffie-Hellman、新型椭圆曲线算法ECC等。
2、单向散列算法 :
单向散列函数一般用于产生消息摘要,密钥加密等,常见的有:
MD5(Message Digest Algorithm 5):是RSA数据安全公司开发的一种单向散列算法,MD5被广泛使用,可以用来把不同长度的数据块进行暗码运算成一个128位的数值;
SHA(Secure Hash Algorithm)这是一种较新的散列算法,可以对任意长度的数据运算生成一个160位的数值;
MAC(Message Authentication Code):消息认证代码,是一种使用密钥的单向函数,可以用它们在系统上或用户之间认证文件或消息。HMAC(用于消息认证的密钥散列法)就是这种函数的一个例子。
CRC(Cyclic Rendancy Check):循环冗余校验码,CRC校验由于实现简单,检错能力强,被广泛使用在各种数据校验应用中。占用系统资源少,用软硬件均能实现,是进行数据传输差错检测地一种很好的手段(CRC 并不是严格意义上的散列算法,但它的作用与散列算法大致相同,所以归于此类)。
3、其它数据算法 :
其它数据算法包括一些常用编码算法及其与明文(ASCII、Unicode 等)转换等,如 Base 64、Quoted Printable、EBCDIC 等。
‘捌’ 蓄电池CCA怎么计算
汽车(启动用)铅酸蓄电池的cca指“冷启动电流”,cca容量就是说当气温是华氏零度的时候(摄氏换算=5/9(华氏-32)),电池的容量,是电池对于低温启动性能地表现。
‘玖’ 密码学中ANON-IND-ID-CCA安全是什么意思
首先这是指基于ID算法的数字签名的,基于身份匿名不可区分选择密文攻击。
‘拾’ 学术不端行为检测系统的检测原理及方法
TMLC需要一个尽可能完备的全文数据比对资源库,而CNKI的《中国学术文献网络出版总库》则正好满足这一要求。到目前为止,CNKI拥有学术期刊7000余种,期刊全文文献2480万篇,期刊期数和文献收录完整率都大于99.9%,文献量居国际国内同类产品之首;出版503家硕士学位点的72万篇优秀硕士学位论文,368家博士学位点的9.6万篇博士学位论文;1286家重要会议论文106万篇;515家重要报纸500多万篇;1376种重要年鉴787万篇;600多种工具书220多万条;学术引文索引数据600多万条;这些出版物做到平均日更新20000条记录;国家标准、专利、SPRINGER数据库也集成到CNKI网络出版平台中;另外,出版平台还集成整合出版了各类第三方数据库资源1020种。
在收录资源种类上,CNKI在国内具有明显优势,收录了期刊、学位论文、会议论文、报纸、年鉴、工具书、专利、外文文献、学术文献引文等与科学研究、学习相关的主要资源。在资源收录数量上,CNKI明显优于同类产品,各个资源库收录年限长,期刊等主要资源库回溯到创刊。在资源更新速度上,CNKI产品除了第三方合作的外文文献以外,其他资源都做到了日更新,单日更新数量大,这是推行产业化、标准化运作的结果。 学术不端行为检测系统采用的指标体系分为两个部分:
3.1 总检测指标
学位论文一般文献篇幅较大,字数多,硕士论文一般为3~5万字,博士论文则多达十多万字。因此,为了让用户对整个学位论文有一个快速的概况了解,特制定了以下指标体系:
l 总重合字数(CCA)
l 总文字复制比(TTR)
l 总文字数(TCA)
l 疑似章节数(QCA)
l 总章节数(TCA)
l 首部重合文字数(HCCA)
l 尾部重合文字数(ECCA)
上述指标从整体情况描述了论文的检测情况,便于用户快速了解该论文总的检测概况。下面对上述指标分别进行说明。
3.1.1总重合字数(CCA)
学位论文一般篇幅大,少则3~5万字,多则十多万字,若以文字复制比来衡量一篇论文的文字重合情况,则不太合适。因为对于一篇十几万字的博士论文来说,10%就已达到1万字,文字复制情况已经非常严重。因此,对于博硕士论文检测,检测系统使用绝对字数即总重合字数作为检测结果的核心指标。如图6所示:
3.1.2总文字复制比(TTR)
总文字复制比则是指学位论文中总的重合字数在总的论文字数中所占的比例。通过该指标,我们可以直观了解到重合字数在该检测学位论文中所占的比例情况。
3.1.3总文字数(TCA)
总文字数是指该检测论文所有包含的字数,文字复制比与总文字数的乘积即为重合字数。
3.1.4疑似章节数(QCA)、总章节数(TCA)
疑似章节数是则检测论文疑似存在学术不端行为的章节的数量。总章节数则是指学位论文总的章节数(对于不按章节显示,而是按照固定长度切分的论文,每一段落为一章节)。
3.1.5首部重合文字数(HCCA)、尾部重合文字数(ECCA)
首部重合文字数指学位论文前1万字中重合的文字数量。尾部重合文字数是指除去前1万字,剩下的部分中重合的文字数量。对于学位论文,一般开头部分均是综述性的报告介绍,其重要性远低于论文尾部。
3.2 子检测指标
对于学位论文的每一章节,又制定了如下检测指标来反映该章节的检测情况,对于一篇学位论文来说,每一章的内容各异,重点也不一样,其核心工作内容一般主要存在某几章中,子检测指标可以让用户迅速了解每一章节的检测情况。子检测指标包括:
l 文字复制比(TR)
l 重合字数(CNW)
l 最大段长(LPL)
l 平均段长(APL)
l 段落数(PN)
l 段文字比(PR)
l 首部复制比(HR)
l 尾部复制比(ER)
l 引用复制比(RR)*
上述指标从多个角度反映了检测文献的检测情况,便于用户进行针对性审核。下面对各项指标分别进行说明。
3.2.1 文字复制比(TR)
因为学位论文一般文字量较多,为了便于用户快速浏览检测结果。系统会自动对学位论文进行切分处理。有如下两种处理方式:
1.若用户提交的论文是MS Word格式,且按照MS Word格式生成了文档目录,检测系统会自动识别论文章节,按论文实际章节信息显示论文内容。
2.若学位论文不存在明显的章节信息,或者不是MS Word格式论文,则系统会自动按照每段1万余字符切分学位论文,按照切分后的结果显示。
文字复制比即指论文切分后每一章节段落的文字复制情况。文字复制比即指学位论文的某一章节与比对文献比较后,重合文字部分在该章节中所占的比例。比例越高,反映该章节越多的文字来自于其他已发表文献。文字复制比反映了文章“抄袭”的文字数量比例,一般来说,文字复制比越高,存在学术不端行为的可能性越大。文字复制比情况如图7所示。
3.2.2 重合字数(CNW)
重合字数指学位论文该章节与比对文献比较后,重合部分的字数。一般来说,不管文字复制比如何,重合字数越多,存在学术不端行为的可能性越大。如图8所示,在图中,虽然文字复制比只有16%,比例不高,但图中左文标红部分实际上是抄袭了右文的标红部分。
3.2.3 最大段长(LPL)、平均段长(APL)、段落数(PN)
在学位论文检测中,当连续文字超过一定比例时,称之为段。在本系统中,一般认为,连续200以上文字称为段。
与比对文献重合的最大段长度即为最大段长。最大段长反映成段抄袭特征。连续的文字越长,抄袭的可能性越大。
在学位论文中,所有段的长度的平均值即为平均段长。
在学位论文中,所有段的数量为段落数。
平均段长和段落数反映了重合文字在学位论文中的分布情况,一般来说,指标参数越高,存在学术不端行为的可能性越大。如图9所示,标红部分的连续文字构成了段,而且它是算法设计的抄袭,审查人员比较容易判断;而在图10中,标红文字不构成段,连续文字较少,对它的性质判断则可能需要更多的信息。
3.2.4 段文字比(PR)
在学位论文的某一章节中,所有该章节文字重合段的字数之和占该章节文字数的比例为段文字比。段文字比反映了抄袭连续特征。一般来说,连续文字出现的越多,比文字分散出现的情况更可能存在学术不端行为。
3.2.5 首部复制比(HR)
学位论文某一章节的前20%称之为章节首部,首部的文字复制比为首部复制比。就中文文献来说,一般每一章节正文开头部分出现的是综述性语言,重要性相对偏低。如图11所示,左文和右文开头大段相同,但文字内容基本都是综述性的介绍。
3.2.6 尾部复制比(ER)
每一章节的后80%称之为章节尾部,尾部的文字复制比为尾部复制比。
通常情况下,尾部文字内容就重要性来说,比前部文字内容要高。如图12所示,我们仔细查阅比较图11和图12的内容发现,图11中首部文献是综述他人工作,而图12中尾部文献则是阐述自己的研究工作的目的和意义,应该是作者个人工作的体现,在这部分直接抄袭他文,性质要严重得多。
3.2.7 引用复制比(RR)
引用复制比指与存在引证关系的文献的文字重合部分的比例。对于学位论文来说,存在引证关系与不存在引证关系的复制部分应区别对待。复制了他文内容,而不注明引用,性质要更加严重。同时我们也认为,不是所有的注明了引用的,就不存在抄袭,引用也应有一个度和范围的限制。