生物信息学实验.ppt
《生物信息学实验.ppt》由会员分享,可在线阅读,更多相关《生物信息学实验.ppt(55页珍藏版)》请在麦多课文档分享上搜索。
1、2018/10/14,1,生物信息学实验,实验2 隐马尔科夫模型,上海交通大学 生命科学技术学院 生物信息学与生物统计学系,2018/10/14,2,生物学中常用的统计模型,Structured probability models Markov models Hidden markov modelsArtificial Neural Network (A.N.N),2018/10/14,3,Introduction,Hidden Markov Models (HMMs) 最早是在上个世纪60年代末70年代初提出来的。 进入80年代以后,逐渐被利用在各个领域。,2018/10/14,4,Int
2、roduction,Hidden Markov Models 作为一种强有力的统计学模型,主要被应用在一些连续行的或时间延续性的事件建模上 语音识别系统。 生物学中的DNA/protein序列的分析 机器人的控制。 文本文件的信息提取。,2018/10/14,5,HMM的优点,1,它的数学结构非常丰富,适用于各个领域的研究。 2,在很多领域中,已经证明它的结果和实际符合的相当好。,2018/10/14,6,Probability Review,2018/10/14,7,独立事件概率,设想我们做一连串的实验,而每次实验所可能发生的结果定为 E1,E2, En,。(可能是有限也可能是无限)。每一个
3、结果 Ek,如果给定一个出现的可能性 pk(即概率),则某一特定样本之序列 Ej1 Ej2 Ejn出现的概率为 p(Ej1 Ej2 Ejn) =pj1 Pjn。,2018/10/14,8,马尔科夫链,一般及常用的统计中,彼此相互独立大概是最有用的一个观念。用简单的术语來说,互相独立就是彼此毫不相干,一点牵涉都沒有。 但是实际生活中很多事件是相互关联的 不是互相独立也就是相互关联的意思,但是要怎样相关呢?如何在相关中作一些简单的分类呢?马尔科夫链就是要描述在相关这个概念中最简单的一种。但即使如此,有关马可夫链的理论已经相当丰富了。在概率理论中,它几乎占了绝大的部分。,2018/10/14,9,马
4、尔科夫链,在马尔科夫链中考虑最简单的相关性。在在这种情况下,我们不能给任一个事件 Ej 一個概率 pj 但我们给一对事件 (Ej,Ek) 一個概率 pjk,这个时候 pjk 的解释是一种条件概率,就是假设在某次实验中 Ej 已经出现,而在下一次实验中 Ek 出现的概率。除了 pjk 之外,还需要知道第一次实验中 Ej 出現的機率 aj。有了这些资料后,一個样本序列 Ej0 Ej1 Ejn(也就是说第零次实验结果是Ej0,第一次一次是 Ej1第 n 次实验是 Ejn)的概率就很清楚的是 P(Ej0,Ej1,Ejn) =aj pj0j1 pj1j2 pjn-1jn。,2018/10/14,10,隐
5、马尔科夫模型,但是在大多数情况下我们所观察到的值并不是序列本身的元素。 即观察值不等于状态值。 故我们引入隐马尔科夫模型。,2018/10/14,11,定义,一个HMM 是一个五元组:(X , O, A, B, ) 其中:X = q1,.qN:状态的有限集合O = v1,.,vM:观察值的有限集合A = aij,aij = p(Xt+1 = qj |Xt = qi):转移概率B = bik,bik = p(Ot = vk | Xt = qi):输出概率 = i, i = p(X1 = qi):初始状态分布,2018/10/14,12,假设,对于一个随机事件,有一个观察值序列:O1,.,OT 该
6、事件隐含着一个状态序列:X1,.,XT 假设1:马尔可夫假设(状态构成一阶马尔可夫链) p(Xi|Xi-1X1) = p(Xi|Xi-1) 假设2:不动性假设(状态与具体时间无关)p(Xi+1|Xi) = p(Xj+1|Xj),对任意i,j成立 假设3:输出独立性假设(输出仅与当前状态有关) p(O1,.,OT | X1,.,XT) = p(Ot | Xt),2018/10/14,13,马尔科夫链 Vs 隐马尔科夫模型,Markov chains have entirely observable states. However a “Hidden Markov Model” is a mode
7、l of a Markov Source which admits an element each time slot depending upon the state. The states are not directly observed,2018/10/14,14,Problems,令 = A,B, 为给定HMM的参数, 令 = O1,.,OT 为观察值序列, 隐马尔可夫模型(HMM)的三个基本问题: 评估问题:对于给定模型,求某个观察值序列的概率p(|) ;forward algorithm 解码问题:对于给定模型和观察值序列,求可能性最大的状态序列;viterbi algorith
8、m 学习问题:对于给定的一个观察值序列,调整参数,使得观察值出现的概率p(|)最大。Forward-backward algorithm,2018/10/14,15,Solutions,Evaluation problem:forward algorithm 定义向前变量 采用动态规划算法,复杂度O(N2T) Decoding problem:Viterbi algorithm 采用动态规划算法,复杂度O(N2T) Learning problem:forward-backward algorithm EM算法的一个特例,带隐变量的最大似然估计,2018/10/14,16,Struct HMM
9、,typedef struct /* number of states; Q=1,2,.,N */ int N; /* number of observation symbols; V=1,2,.,M*/int M; /* A1N1N. aij is the transition prob of going from state i * at time t to state j at time t+1 */ double *A;/* B1N1M. bjk is the probability of observing symbol k in state j */ double *B; /* p
10、i1N pii is the initial state distribution. */double *pi; HMM;,2018/10/14,17,算法:向前算法(1),算法:向前算法(2),定义前向变量为HMM在时间t输出序列O1Ot,并且位于状态Si的概率:,2018/10/14,19,算法:向前算法(3),迭代公式为:,结果为:,2018/10/14,20,Forward algorithm,算法:向后算法(1),2018/10/14,22,算法:Viterbi算法(1),The Viterbi algorithm is a dynamic programming algorithm
11、 that computes the most likely state transition path given an observed sequence of symbols. It is actually very similar to the forward algorithm。,2018/10/14,23,Viterbi algorithm,2018/10/14,24,Viterbi in c,/* 1. Initialization */ for (i = 1; i N; i+) delta1i = phmm-pii * (phmm-BiO1); psi1i = 0; /* 2.
12、 Recursion */ for (t = 2; t N; j+) maxval = 0.0; maxvalind = 1; for (i = 1; i N; i+) val = deltat-1i*(phmm-Aij); if (val maxval) maxval = val; maxvalind = i; deltatj = maxval*(phmm-BjOt); psitj = maxvalind; ,2018/10/14,25,生物学中的数学模型,2018/10/14,26,马氏链,2018/10/14,27,马氏链,2018/10/14,28,马氏链,2018/10/14,29,
13、隐马可夫模型,2018/10/14,30,隐马可夫模型,2018/10/14,31,隐马可夫模型 profile,2018/10/14,32,Related software,HMMER http:/hmmer.wustl.edu/ SAM(Sequence Alignment and Modeling System) http:/www.soe.ucsc.edu/ HMMpro A windows version for HMMThe Division of Biomedical Informatics at Cincinnati Childrens Hospital Medical Cen
14、ter metaMEME: A motif based Hidden Markov Model,2018/10/14,33,HMMER,Profile hidden Markov models (profile HMMs) can be used to do sensitive database searching using statistical descriptions of a sequence familys consensus. HMMER is a freely distributable implementation of profile HMM software for pr
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
2000 积分 0人已下载
下载 | 加入VIP,交流精品资源 |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物 信息学 实验 PPT
