隐马尔可夫模型算法

发布时间: 2023-06-27 01:46:55

Ⅰ 02 隐马尔可夫模型 - HMM的三个问题 - 概率计算问题

01 隐马尔可夫模型 - 马尔可夫链、HMM参数和性质

假设有三个盒子，编号为1,2,3；每个盒子都装有黑白两种颜色的小球，球的比例。如下：

按照下列规则的方式进行有放回的抽取小球，得到球颜色的观测序列：
1、按照π的概率选择一个盒子，从盒子中随机抽取出一个球，记录颜色后放回盒子中；
2、按照某种条件概率选择新的盒子，重复该操作；
3、最终得到观测序列：“白黑白白黑”

例如： 每次抽盒子按一定的概率来抽，也可以理解成随机抽。
第1次抽了1号盒子①，第2次抽了3号盒子③，第3次抽了2号盒子②.... ；最终如下：
①→③→②→②→③ 状态值
白→黑→白→白→黑观测值

1、 状态集合： S={盒子1，盒子2，盒子3}
2、 观测集合： O={白，黑}
3、 状态序列和观测序列的长度 T=5 (我抽了5次)
4、 初始概率分布： π 表示初次抽时，抽到1盒子的概率是0.2，抽到2盒子的概率是0.5，抽到3盒子的概率是0.3。
5、 状态转移概率矩阵 A：a11=0.5 表示当前我抽到1盒子，下次还抽到1盒子的概率是0.5；
6、 观测概率矩阵 - 混淆矩阵 - 为了不和之前的混淆矩阵概念冲突，可以称之为发射矩阵，即从一个状态发射到另一个状态： B：如最初的图，b11=第一个盒子抽到白球概率0.4，b12=第一个盒子抽到黑球概率0.6;

在给定参数π、A、B的时候，得到观测序列为“白黑白白黑”的概率是多少?

这个时候，我们不知道隐含条件，即不知道状态值：①→③→②→②→③ ；
我们如何根据π、A、B求出测序列为“白黑白白黑”的概率？
下面给出解决方案。

前向-后向算法 给定模型λ=(A,B,π)和观测序列Q={q1,q2,...,qT}，计算模型λ下观测到序列Q出现的概率P(Q|λ)；

回顾上面的案例 ，λ=(A,B,π)已知。观测到序列 Q=白→黑→白→白→黑，但我们不知道 状态序列 I=①→③→②→②→③；我们要求解 P(Q|λ) ，即Q=白→黑→白→白→黑这个观测序列发生的概率。 可以用前向-后向算法来实现 。

Baum-Welch算法(状态未知) 已知观测序列Q={q1,q2,...,qT}，估计模型λ=(A,B,π)的参数，使得在该模型下观测序列P(Q|λ)最大。

Baum-Welch算法是EM算法的一个特例，专门用来求解隐马尔科夫中隐状态参数 λ=(A,B,π) 。即：根据已知的 观测到序列 Q=白→黑→白→白→黑，去寻找整个模型的一组隐状态参数λ=(A,B,π)，使得在模型中 观测序列 发生的可能性P(Q|λ)最大。

Viterbi算法 给定模型λ=(A,B,π)和观测序列Q={q1,q2,...,qT}，求给定观测序列条件概率P(I|Q，λ)最大的状态序列I。

已知 观测到序列 Q=白→黑→白→白→黑，当我们得到λ=(A,B,π)后，我们用 Viterbi算法 求出在哪一种 状态序列 发生的可能性最大，即，求出 状态序列 I=①→③→②→②→③；即，抽取什么样的盒子顺序，更可能得到白→黑→白→白→黑这种结果。

1、直接计算法(暴力算法)
2、前向算法
3、后向算法

类似KNN计算最近邻时候的算法。《 01 KNN算法 - 概述》
也就是说， 暴力算法 需要一个个遍历所有的状态去计算当前状态发生的概率。

按照概率公式，列举所有可能的长度为T的状态序列I={i1,i2,...,iT}，求各个状态序列I与观测序列Q={q1,q2,...,qT}的联合概率P(Q,I;λ)，然后对所有可能的状态序列求和，从而得到最终的概率P(Q;λ)；

分析： 先思考这样一个问题：生成“白-黑-白-白-黑”这样的结果，是不是会有很多种盒子组合的序列来抽取，都会生成这样一个结果？我把这些可能出现“白-黑-白-白-黑”结果的盒子序列的联合概率求出来-P(Q,I;λ)，即∑P(Q,I) = P(Q) ，P(Q) 是我们观测到“白-黑-白-白-黑”结果时，符合这个结果的所有状态序列I出现的概率。

公式运用：

设状态序列 I=③→②→①→①→②； T=5；
P(I;λ) = π 3 a 32 a 21 a 11 a 12

因为： 在给定状态序列I后，Q中的每个观测值都独立。（贝叶斯网络原理）贝叶斯网络
所以： P(Q|I;λ)可以用联乘的方式表示 (独立可以使用联合概率)
I = ③→②→①→①→②
Q=白→黑→白→白→黑
P(Q|I;λ) = b 3白 b 2黑 b 1白 b 1白 b 2黑

P(Q,I;λ) = P(Q|I;λ) × P(I;λ)
= b 3白 b 2黑 b 1白 b 1白 b 2黑 × π 3 a 32 a 21 a 11 a 12

若：
I 1 = ③→②→①→①→②
I 2 = ①→②→③→①→②
...
I T = ②→②→①→③→②
都能得出：
Q = 白→黑→白→白→黑
因为我所有的盒子都能取出黑球和白球，所以T的值=3 5 ;

∑P(Q,I;λ) 计算的是 I 1 ~ I T 这些状态序列情况下，求出的P(Q,I;λ)的和。

前向和后向算法是运用某种递归(递推)的方式，帮助我们尽快得求解最终结果。

解析: 如果 t 这一时刻观察到的状态是 q t = 雨天；其中y={干，湿，湿... 湿}共t个状态。
先不考虑λ。
α t 是 1时刻~t时刻 所有观测值y1，y2，...yt ，qt 出现的联合概率。
β t 是 t+1时刻~T时刻 所有观测值y t+1 ，y t+2 ，...y T 出现的联合概率。

前向概率-后向概率 指的其实是在一个观测序列中，时刻t对应的状态为si的概率值转换过来的信息。

分析2~3步的推导： 因为q 1 ~ q t 这些条件对 q t+1 ~ q T 的产生没有影响 (理由：贝叶斯网络)，所以这些条件可以去掉。

定义：给定λ，定义到时刻t部分观测序列为q1,q2,...,qt且状态为si的概率为 前向概率 。
记做：

在给定参数π、A、B的时候，得到观测序列为“白黑白白黑”的概率是多少?

定义：给定λ，定义到时刻t状态为si的前提下，从t+1到T部分观测序列为qt+1,qt+2,...,qT的概率为 后向概率 。
记做：

分析上面的公式：
如果一共只有t个时间点，t+1的时刻不存在。那么t+1以后发生的是必然事件。
所以 β t (i) = P(q t+1 ，q t+2 ，...，q T ) = 1;
如果实在不理解也没关系，我们姑且认为认为定义了一个初始值，即 β T (i) = 1 ；

从T-1时刻，倒推到1时刻。
首先，β t+1 (j)是什么？是t+1时刻，在状态sj的前提下，下图中圈起来这部分的联合概率。

β t (j)是什么？是t时刻，在状态sj的前提下，下图中圈起来这部分的联合概率。

求给定模型λ和观测序列Q的情况下，在时刻t处于状态si的概率，记做：

单个状态概率的意义主要是用于判断在每个时刻最可能存在的状态，从而可以得到一个状态序列作为最终的预测结果。

求给定模型λ和观测序列Q的情况下，在时刻t处于状态si并时刻t+1处于状态sj概率，记做：

03 隐马尔可夫模型 - HMM的三个问题 - 学习问题

Ⅱ 条件随机场和隐马尔科夫模型最大区别在哪里

隐马尔可夫模型（Hidden Markov Model，HMM），最大熵马尔可夫模型（Maximum Entropy Markov Model，MEMM）以及条件随机场（Conditional Random Field，CRF）是序列标注中最常用也是最基本的三个模型。HMM首先出现，MEMM其次，CRF最后。三个算法主要思想如下：HMM模型是对转移概率和表现概率直接建模，统计共现概率。MEMM模型是对转移概率和表现概率建立联合概率，统计时统计的是条件概率，但MEMM容易陷入局部最优，是因为MEMM只在局部做归一化。CRF模型中，统计了全局概率，在做归一化时，考虑了数据在全局的分布，而不是仅仅在局部归一化，这样就解决了MEMM中的标记偏置（label bias）的问题。举个例子，对于一个标注任务，“我爱北京天安门“，标注为” s s b e b c e”对于HMM的话，其判断这个标注成立的概率为 P= P(s转移到s)*P(‘我’表现为s)* P(s转移到b)*P(‘爱’表现为s)* …*P().训练时，要统计状态转移概率矩阵和表现矩阵。对于MEMM的话，其判断这个标注成立的概率为 P= P(s转移到s|’我’表现为s)*P(‘我’表现为s)* P(s转移到b|’爱’表现为s)*P(‘爱’表现为s)*..训练时，要统计条件状态转移概率矩阵和表现矩阵。对于CRF的话，其判断这个标注成立的概率为 P= F(s转移到s,’我’表现为s)….F为一个函数，是在全局范围统计归一化的概率而不是像MEMM在局部统计归一化的概率。当前，最后出现的CRF在多项任务上达到了统治级的表现，所以如果重头搞应用的话，大家可以首选CRF。

本质上，CRF有以下三个优点：

CRF没有HMM那样严格的独立性假设条件，因而可以容纳任意的上下文信息。特征设计灵活（与ME一样） ————与HMM比较

同时，由于CRF计算全局最优输出节点的条件概率，它还克服了最大熵马尔可夫模型标记偏置（Label-bias）的缺点。 ————与MEMM比较

CRF是在给定需要标记的观察序列的条件下，计算整个标记序列的联合概率分布，而不是在给定当前状态条件下，定义下一个状态的状态分布。

凡事都有两面，正由于这些优点，CRF需要训练的参数更多，与MEMM和HMM相比，它存在训练代价大、复杂度高的缺点。

Ⅲ 从马尔可夫模型到隐马尔可夫模型

马尔可夫模型个人认为这个概念应该是从随机过程里面提出来的，由马尔可夫过程过来的概念。实际上掌握了随机过程里面对马尔可夫过程的特殊情况：离散参数离散状态的马尔可夫链的数学运算的话。就能够很好解决马尔可夫模型上面的计算问题，包括隐马尔科夫模型。讲马尔可夫模型以及过程重点在于其满足的性质-马尔可夫性。

随机过程：
现实中时常出现，某个事物满足一定的随机分布，但是其随机分布会随着时间的变化而变化。我们假设其在时刻符合随机分布并且用随机变量来表示。假设。但是在时间的时候就符合随机分布并且用随机变量来表示。假设。也就是说某个事物的某个特征会随着时间的变化其对应的分布也会发生变化。这样一个总体的过程，称之为随机过程。

具体例子：
灯泡寿命问题，灯泡其实在每个时间点上都有一定的可能性会损坏，在这个时间点上损坏的可能性符合一个具体的正态分布（其是确定的），而随着时间的久远，灯泡损坏的可能性就变大了。所以在之后的某个时间点上灯泡损坏的可能性可能就符合另外一个具体的正态分布（其就和先前不一样了，会有变坏的趋势）。灯泡损坏在传统的概率论中也是一个经典例子，可能传统的概率论会认为灯泡的寿命长短符合一个随机分布，并且用一个随机变量来表示，我们研究这个分布的特征。这里和传统的概率论中不一样，可以发现的是，引入了随机过程，可以对随机现象更加深入彻底地描述和研究。

定义随机过程中的一些量。
参数：也就是上述的时间，如果是和时间有关，往往叫做时间序列。但是很多的现象研究不是和时间相关的。

状态：也就是上述的随着时间变化的随机变量。

马尔可夫过程：满足马尔科夫性的随机过程。

以后再解释
马尔可夫性：
马尔可夫链：

马尔可夫模型和上述的关系。

具体讲一下隐马尔可夫模型。

和普通的马尔可夫不一样，马尔可夫模型是可以确定状态序列的。也就是说序列上的每个项的分布是怎么样的是已知的。而隐马尔可夫模型是连序列上的每个项的是什么分布都不能够知道，都是随机的。

对于这样的一个随机模型。
经常要解决三个基本问题：
1). 给定和，求解。又叫作计算问题。
2). 给定和，求解一个状态转换序列，使得最优可能产生上面的序列。又叫做估计问题。
3). 在模型参数（A或者B）未知或者参数不准确的情况下，由来调整参数。又叫做训练问题。

状态一定是按着产生了部分观察序列来的。考虑前缀。表示处理到了n,观察序列到n为止都是答案的概率。但是不好转移，转移的时候要枚举前后隐藏状态，考虑把隐藏状态也表示出来。表示处理到了n，并且第n个状态为j的概率。
范围：
结果：
初始化：
转移：

知道和，求Q，状态序列，使得产生的可能性最大。

定义：

这个函数的含义是：
模型在时刻t处于状态i，观察到的最佳状态转换序列的概率。
从而有了转移方程：

而就是
因此的转移过程构成了一个图，而Q就是上面的最优路径。

利用观察数据进行对模型参数或者或者进行预测和修正，训练问题，又可以叫做预测问题。

并且这个问题其实是带有隐变量的最大似乎估计，也就是EM算法。
直接讲EM,用数学角度来引入或者用递归式来求解含有隐变量的参数估计都是可以的，后者会比较清楚。
但是课上老师给出了另外一种比较好的解释：
考虑第三个问题，实际上应该分两种情况。
1：带指导的参数学习。
给出的数据是这样的：
状态/观察数据。
硬币中的例子就是
H/1 H/1 T/1 T/2 H/3 T/3 T/2 H/1 T/2 H/3 H/3 H/1
其实当拥有了数据状态/观察数据是可以直接对参数进行估计的。
假设是齐次的（一般也是齐次的，概率只和状态有关，和时间关系不大，放在词句中就是词语所在的句子的部位关系不是很大，而是上下文内容关系比较大。），

考虑aij 指的是在状态i和状态j的转移概率。
可以直接对上面2个2个统计进行参数估计。
考虑bi(o_j)也就是状态为i输出为o_j的。
一个一个枚举来即可。
考虑pi_i。也就是初始状态。
一个一个枚举状态即可。

带有指导的是有缺点的：
数据上不可行，状态这样的数据其实都是人工标注的。
数据量要求比较大。

但是在NLP中这个方法是很重要的。因为效果比较好。

2：不带指导的参数学习
数据上只给出了观察序列，没有状态序列。

实际上1中就出了答案。没有状态序列，我们就枚举状态序列。
比如上述。如果观察出来了
1 2 2
那么我们就考虑以下
1 2 2
HHH
HHT
HTH
HTT
THH
THT
TTH
TTT
所有情况。
所以就产生了
H/1 H/2 H/2
H/1 H/2 T/2
....
然后分组进行统计参数估计即可。

但是这里有两个问题：
1：状态太多了。N^T。
2：给每个状态的权重是一样的。不是很科学。（实际上还行，如果使用熵最大原理。）
那么怎么办？解决2考虑给不同状态加权重，那么要有一个先验的的知识：
咱们先给出先验的模型参数。
那么就可以计算P(Q|O,人)P（Q,O|人）这样的东西了。
明显可以用P(Q|O,人)作为一个路径序列的权重。
但是这样计算的时候，路径序列很长。并且转移路径还是N^T条。
不可行。

避开对路径的考虑。考虑参数abt最多只有涉及两个时间点的。
我们如果只关注两个时间点之间的状态。那么就可以变成二维的。
使Q不是一个路径的。而是只是两个时间点之间的状态。
q_t = i q_t+1 = j 。把这个概率计算出来的话。就能直接对aij这样的进行估计了。
（实际上只是换了一种计数方式，就减少了问题规模，因为咱们关注的也只是路径上两个点两个点之间的。）

由此引出Baum_Welch算法：

定义以下：

这样就能对参数们进行评估了。有以下：

这样只要挑一个满足条件的初始值，然后迭代求解即可。

Ⅳ 隐马尔可夫模型（二）-骰子的故事

整理自： http://www.cnblogs.com/skyme/p/4651331.html

隐马尔可夫模型（Hidden Markov Model，HMM）是统计模型，它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析，例如模式识别。

下面用一个简单的例子来阐述：
假设我手里有三个不同的骰子。第一个骰子是我们平常见的骰子（称这个骰子为D6），6个面，每个面（1，2，3，4，5，6）出现的概率是1/6。第二个骰子是个四面体（称这个骰子为D4），每个面（1，2，3，4）出现的概率是1/4。第三个骰子有八个面（称这个骰子为D8），每个面（1，2，3，4，5，6，7，8）出现的概率是1/8。

这串数字叫做可见状态链。但是在隐马尔可夫模型中，我们不仅仅有这么一串可见状态链，还有一串隐含状态链。在这个例子里，这串隐含状态链就是你用的骰子的序列。比如，隐含状态链有可能是：D6 D8 D8 D6 D4 D8 D6 D6 D4 D8

一般来说，HMM中说到的马尔可夫链其实是指隐含状态链，因为隐含状态（骰子）之间存在转换概率（transition probability）。在我们这个例子里，D6的下一个状态是D4，D6，D8的概率都是1/3。D4，D8的下一个状态是D4，D6，D8的转换概率也都一样是1/3。这样设定是为了最开始容易说清楚，但是我们其实是可以随意设定转换概率的。比如，我们可以这样定义，D6后面不能接D4，D6后面是D6的概率是0.9，是D8的概率是0.1。这样就是一个新的HMM。

同样的，尽管可见状态之间没有转换概率，但是隐含状态和可见状态之间有一个概率叫做输出概率（emission probability）。就我们的例子来说，六面骰（D6）产生1的输出概率是1/6。产生2，3，4，5，6的概率也都是1/6。我们同样可以对输出概率进行其他定义。比如，我有一个被赌场动过手脚的六面骰子，掷出来是1的概率更大，是1/2，掷出来是2，3，4，5，6的概率是1/10。

其实对于HMM来说，如果提前知道所有隐含状态之间的转换概率和所有隐含状态到所有可见状态之间的输出概率，做模拟是相当容易的。但是应用HMM模型时候呢，往往是缺失了一部分信息的，有时候你知道骰子有几种，每种骰子是什么，但是不知道掷出来的骰子序列；有时候你只是看到了很多次掷骰子的结果，剩下的什么都不知道。如果应用算法去估计这些缺失的信息，就成了一个很重要的问题。这些算法我会在下面详细讲。

回到正题，和HMM模型相关的算法主要分为三类，分别解决三种问题：
1）知道骰子有几种（隐含状态数量），每种骰子是什么（转换概率），根据掷骰子掷出的结果（可见状态链），我想知道每次掷出来的都是哪种骰子（隐含状态链）。
这个问题呢，在语音识别领域呢，叫做解码问题。这个问题其实有两种解法，会给出两个不同的答案。每个答案都对，只不过这些答案的意义不一样。第一种解法求最大似然状态路径，说通俗点呢，就是我求一串骰子序列，这串骰子序列产生观测结果的概率最大。第二种解法呢，就不是求一组骰子序列了，而是求每次掷出的骰子分别是某种骰子的概率。比如说我看到结果后，我可以求得第一次掷骰子是D4的概率是0.5，D6的概率是0.3，D8的概率是0.2.第一种解法我会在下面说到，但是第二种解法我就不写在这里了，如果大家有兴趣，我们另开一个问题继续写吧。

2）还是知道骰子有几种（隐含状态数量），每种骰子是什么（转换概率），根据掷骰子掷出的结果（可见状态链），我想知道掷出这个结果的概率。
看似这个问题意义不大，因为你掷出来的结果很多时候都对应了一个比较大的概率。问这个问题的目的呢，其实是检测观察到的结果和已知的模型是否吻合。如果很多次结果都对应了比较小的概率，那么就说明我们已知的模型很有可能是错的，有人偷偷把我们的骰子给换了。

**3）知道骰子有几种（隐含状态数量），不知道每种骰子是什么（转换概率），观测到很多次掷骰子的结果（可见状态链），我想反推出每种骰子是什么（转换概率）。 **
这个问题很重要，因为这是最常见的情况。很多时候我们只有可见结果，不知道HMM模型里的参数，我们需要从可见结果估计出这些参数，这是建模的一个必要步骤。

问题阐述完了，下面就开始说解法，我们首先来看一个简单的问题：
知道骰子有几种，每种骰子是什么，每次掷的都是什么骰子，根据掷骰子掷出的结果，求产生这个结果的概率。

解法无非就是概率相乘：

接下来，我们就开始解决上面提到的三个问题：
**1.看见不可见的，破解骰子序列 **
这里我说的是第一种解法，解最大似然路径问题。
举例来说，我知道我有三个骰子，六面骰，四面骰，八面骰。我也知道我掷了十次的结果（1 6 3 5 2 7 3 5 2 4），我不知道每次用了那种骰子，我想知道最有可能的骰子序列。

其实最简单而暴力的方法就是穷举所有可能的骰子序列，然后依照第零个问题的解法把每个序列对应的概率算出来。然后我们从里面把对应最大概率的序列挑出来就行了。如果马尔可夫链不长，当然可行。如果长的话，穷举的数量太大，就很难完成了。
另外一种很有名的算法叫做Viterbi algorithm. 要理解这个算法，我们先看几个简单的列子。
首先，如果我们只掷一次骰子：

看到结果为1.对应的最大概率骰子序列就是D4，因为D4产生1的概率是1/4，高于1/6和1/8.
把这个情况拓展，我们掷两次骰子：

同样，我们计算第三个骰子分别是D6，D4，D8的最大概率。我们再次发现，要取到最大概率，第二个骰子必须为D6。这时，第三个骰子取到D4的最大概率是

同上，我们可以计算第三个骰子是D6或D8时的最大概率。我们发现，第三个骰子取到D4的概率最大。而使这个概率最大时，第二个骰子为D6，第一个骰子为D4。所以最大概率骰子序列就是D4 D6 D4。

写到这里，大家应该看出点规律了。既然掷骰子一二三次可以算，掷多少次都可以以此类推。我们发现，我们要求最大概率骰子序列时要做这么几件事情。首先，不管序列多长，要从序列长度为1算起，算序列长度为1时取到每个骰子的最大概率。然后，逐渐增加长度，每增加一次长度，重新算一遍在这个长度下最后一个位置取到每个骰子的最大概率。因为上一个长度下的取到每个骰子的最大概率都算过了，重新计算的话其实不难。当我们算到最后一位时，就知道最后一位是哪个骰子的概率最大了。然后，我们要把对应这个最大概率的序列从后往前推出来。

2.谁动了我的骰子？
比如说你怀疑自己的六面骰被赌场动过手脚了，有可能被换成另一种六面骰，这种六面骰掷出来是1的概率更大，是1/2，掷出来是2，3，4，5，6的概率是1/10。你怎么办么？答案很简单，算一算正常的三个骰子掷出一段序列的概率，再算一算不正常的六面骰和另外两个正常骰子掷出这段序列的概率。如果前者比后者小，你就要小心了。
比如说掷骰子的结果是：

要算用正常的三个骰子掷出这个结果的概率，其实就是将所有可能情况的概率进行加和计算。同样，简单而暴力的方法就是把穷举所有的骰子序列，还是计算每个骰子序列对应的概率，但是这回，我们不挑最大值了，而是把所有算出来的概率相加，得到的总概率就是我们要求的结果。这个方法依然不能应用于太长的骰子序列（马尔可夫链）。
我们会应用一个和前一个问题类似的解法，只不过前一个问题关心的是概率最大值，这个问题关心的是概率之和。解决这个问题的算法叫做前向算法（forward algorithm）。

所以我们根据下表计算出得到该序列的概率：

同样的，我们一步一步的算，有多长算多长，再长的马尔可夫链总能算出来的。用同样的方法，也可以算出不正常的六面骰和另外两个正常骰子掷出这段序列的概率，然后我们比较一下这两个概率大小，就能知道你的骰子是不是被人换了。

Ⅳ 隐马尔可夫模型的基本问题

1. 评估问题。
给定观测序列 O=O1O2O3…Ot和模型参数λ=(A,B,π)，怎样有效计算某一观测序列的概率，进而可对该HMM做出相关评估。例如，已有一些模型参数各异的HMM，给定观测序列O=O1O2O3…Ot，我们想知道哪个HMM模型最可能生成该观测序列。通常我们利用forward算法分别计算每个HMM产生给定观测序列O的概率，然后从中选出最优的HMM模型。
这类评估的问题的一个经典例子是语音识别。在描述语言识别的隐马尔科夫模型中，每个单词生成一个对应的HMM，每个观测序列由一个单词的语音构成，单词的识别是通过评估进而选出最有可能产生观测序列所代表的读音的HMM而实现的。
2.解码问题
给定观测序列 O=O1O2O3…Ot 和模型参数λ=(A,B,π)，怎样寻找某种意义上最优的隐状态序列。在这类问题中，我们感兴趣的是马尔科夫模型中隐含状态，这些状态不能直接观测但却更具有价值，通常利用Viterbi算法来寻找。
这类问题的一个实际例子是中文分词，即把一个句子如何划分其构成才合适。例如，句子“发展中国家”是划分成“发展-中-国家”，还是“发展-中国-家”。这个问题可以用隐马尔科夫模型来解决。句子的分词方法可以看成是隐含状态，而句子则可以看成是给定的可观测状态，从而通过建HMM来寻找出最可能正确的分词方法。
3. 学习问题。
即HMM的模型参数λ=(A,B,π)未知，如何调整这些参数以使观测序列O=O1O2O3…Ot的概率尽可能的大。通常使用Baum-Welch算法以及Reversed Viterbi算法解决。
怎样调整模型参数λ=(A,B,π)，使观测序列 O=O1O2O3…Ot的概率最大？

Ⅵ 隐马尔可夫模型（基础）

假设t时刻的状态只与t-1时刻的状态有关，与更早的时刻无关，这一假设称为一阶马尔可夫假设。如果状态有n种取值，在t时刻取任何一个值与t-1时刻取任何一个值的条件概率构成了一个n×n的矩阵A，称为状态转移概率矩阵。无论t时刻的状态值是什么，在下一时刻一定会转向n个状态种一个，因此他们的转移概率和必须为1。

在实际应用种，人们不能直接观察到状态的值，即状态的值是隐含的，只能得到观测的值。因此对模型进行扩充，得到隐马模型。

观测序列是能得到的值。

状态序列是因，观测序列是果，因为处于某种状态才有了某一观测值。

定义状态观测矩阵B，表示t时刻状态值为s时的观测值为v的概率

t时刻的状态z=i的概率最大状态序列中，t-1时刻的状态值，有了这两个变量，就可以得到维特比算法。

训练时给定一组样本，确定状态转移矩阵和观测矩阵，通过最大似然估计实现。如果已知训练样本集中每个观测序列对应的状态序列，给定初始状态如：p0=[0.5, 0.2, 0.3], k步转化过程为：p0=p0*pk。计算机程序需要利用迭代变量，借助循环实现。经过多步转化p0收敛于固定值(稳态)。可以通过最大似然估计得到模型参数。

状态空间：隐状态S的取值范围

观测空间：观测状态O的取值范围

转移概率：矩阵各元素都是用概率表示。其值非负，并且各行元素之和等于1。在一定条件下是互相转移的，故称为转移概率矩阵。矩阵中的行数与列数可以相等，也可以不等。当它们相等时，矩阵就是一个方阵。由转移概率组成的矩阵就是转移概率矩阵。也就是说构成转移概率矩阵的元素是一个个的转移概率不同状态之间的转移概率，可以用转移矩阵表示，记做a

发射概率：初始状态的概率分布，在知道当前标签的情况下，发射的概率，记做π

输出概率：基于当前状态，不同输出的概率分布，记做b

模型参数λ = (a, b, π)

1、齐次假设：即马尔科夫假设

2、观测独立性假设：观测值只取决于对应的状态值，与其他状态无关

（1）首先, HMM模型表示为: lambda = HMM(A, B, pi), 其中A, B, pi都是模型的参数, 分别称作: 转移概率矩阵, 发射概率矩阵和初始概率矩阵.

（2）接着, 我们开始训练HMM模型, 语料就是事先准备好的一定数量的观测序列及其对应的隐含序列, 通过极大似然估计求得一组参数, 使由观测序列到对应隐含序列的概率最大.

（3）在训练过程中, 为了简化计算, 马尔可夫提出一种假设: 隐含序列中每个单元的可能性只与上一个单元有关. 这个假设就是着名的隐含假设.

（4）训练后, 我们就得到了具备预测能力的新模型: lambda = HMM(A, B, pi), 其中的模型参数已经改变.

（5）之后给定输入序列(x1, x2, ..., xn), 经过模型计算lambda(x1, x2, ..., xn)得到对应隐含序列的条件概率分布.

（6）最后, 使用维特比算法从隐含序列的条件概率分布中找出概率最大的一条序列路径就是我们需要的隐含序列: (y1, y2, ..., yn).

状态转移矩阵通过训练样本学习得到，采用最大似然估计。

初始状态取每种值的概率Π，状态转移概率矩阵A，观测概率矩阵B

隐马尔可夫模型需要解决以下三个问题：

（1）估值问题（观测序列出现的概率）。给定隐马尔可夫模型的参数A和B，计算一个观测序列x出现的概率值p（x）。前向后向算法

（2）解码问题（观测序列最大化的隐含序列）。给定隐马尔可夫模型的参数A和B以及一个观测序列x，计算最有可能产生此观测序列的状态序列z。

已知一个观测序列，寻找最有可能产生它的状态序列。维特比算法

（3）学习问题。给定隐马尔可夫模型的结构，但参数未知，给定一组训练样本，确定隐马尔可夫模型的参数A和B。

保姆韦尔奇算法

隐马尔可夫模型对条件概率p（x|z）建模，因此是一个生成式模型。

阅读全文

热点内容

怎么上传整个文件夹发布：2025-03-21 03:16:20 浏览：74

苹果6怎么设置六位密码发布：2025-03-21 03:07:10 浏览：75

这么编程发布：2025-03-21 03:06:34 浏览：363

激光切割编程用的软件发布：2025-03-21 03:06:26 浏览：234

戴尔服务器能做电脑用吗发布：2025-03-21 02:37:28 浏览：37

linux怼发布：2025-03-21 02:13:07 浏览：725

sql游标实例发布：2025-03-21 02:06:10 浏览：792

b2c开源php 发布：2025-03-21 01:58:10 浏览：441

癫痫持续发作应急演练脚本发布：2025-03-21 01:50:45 浏览：311

pythondocker 发布：2025-03-21 01:46:04 浏览：319

隐马尔可夫模型算法

与隐马尔可夫模型算法相关的资讯