Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Update 周志华《Machine Learning》学习笔记(16)--概率图模型.md #16

Open
wants to merge 1 commit into
base: master
Choose a base branch
from
Open
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
22 changes: 11 additions & 11 deletions 周志华《Machine Learning》学习笔记(16)--概率图模型.md
Original file line number Diff line number Diff line change
@@ -1,12 +1,12 @@
上篇主要介绍了半监督学习,首先从如何利用未标记样本所蕴含的分布信息出发,引入了半监督学习的基本概念,即训练数据同时包含有标记样本和未标记样本的学习方法;接着分别介绍了几种常见的半监督学习方法:生成式方法基于对数据分布的假设,利用未标记样本隐含的分布信息,使得对模型参数的估计更加准确;TSVM给未标记样本赋予伪标记,并通过不断调整易出错样本的标记得到最终输出;基于分歧的方法结合了集成学习的思想,通过多个学习器在不同视图上的协作,有效利用了未标记样本数据 ;最后半监督聚类则是借助已有的监督信息来辅助聚类的过程,带约束k-均值算法需检测当前样本划分是否满足约束关系,带标记k-均值算法则利用有标记样本指定初始类中心。本篇将讨论一种基于图的学习算法--概率图模型。

#**15、概率图模型**
# **15、概率图模型**

现在再来谈谈机器学习的核心价值观,可以更通俗地理解为:**根据一些已观察到的证据来推断未知**,更具哲学性地可以阐述为:未来的发展总是遵循着历史的规律。其中**基于概率的模型将学习任务归结为计算变量的概率分布**,正如之前已经提到的:生成式模型先对联合分布进行建模,从而再来求解后验概率,例如:贝叶斯分类器先对联合分布进行最大似然估计,从而便可以计算类条件概率;判别式模型则是直接对条件分布进行建模。

**概率图模型**(probabilistic graphical model)是一类用**图结构**来表达各属性之间相关关系的概率模型,一般而言:**图中的一个结点表示一个或一组随机变量,结点之间的边则表示变量间的相关关系**,从而形成了一张“**变量关系图**”。若使用有向的边来表达变量之间的依赖关系,这样的有向关系图称为**贝叶斯网**(Bayesian nerwork)或有向图模型;若使用无向边,则称为**马尔可夫网**(Markov network)或无向图模型。

##**15.1 隐马尔可夫模型(HMM)**
## **15.1 隐马尔可夫模型(HMM)**

隐马尔可夫模型(Hidden Markov Model,简称HMM)是结构最简单的一种贝叶斯网,在语音识别与自然语言处理领域上有着广泛的应用。HMM中的变量分为两组:**状态变量**与**观测变量**,其中状态变量一般是未知的,因此又称为“**隐变量**”,观测变量则是已知的输出值。在隐马尔可夫模型中,变量之间的依赖关系遵循如下两个规则:

Expand All @@ -31,7 +31,7 @@

![iwYEtK.png](https://s1.ax1x.com/2018/10/18/iwYEtK.png)

###**15.1.1 HMM评估问题**
### **15.1.1 HMM评估问题**

HMM评估问题指的是:**给定了模型的三个参数与观测值序列,求该观测值序列出现的概率**。例如:对于赌场问题,便可以依据骰子掷出的结果序列来计算该结果序列出现的可能性,若小概率的事件发生了则可认为赌场的骰子有作弊的可能。解决该问题使用的是**前向算法**,即步步为营,自底向上的方式逐步增加序列的长度,直到获得目标概率值。在前向算法中,定义了一个**前向变量**,即给定观察值序列且t时刻的状态为Si的概率:

Expand All @@ -43,13 +43,13 @@ HMM评估问题指的是:**给定了模型的三个参数与观测值序列,

因此可使用动态规划法,从最小的子问题开始,通过填表格的形式一步一步计算出目标结果。

###**15.1.2 HMM解码问题**
### **15.1.2 HMM解码问题**

HMM解码问题指的是:**给定了模型的三个参数与观测值序列,求可能性最大的状态序列**。例如:在语音识别问题中,人说话形成的数字信号对应着观测值序列,对应的具体文字则是状态序列,从数字信号转化为文字正是对应着根据观测值序列推断最有可能的状态值序列。解决该问题使用的是**Viterbi算法**,与前向算法十分类似地,Viterbi算法定义了一个**Viterbi变量**,也是采用动态规划的方法,自底向上逐步求解。

![iwYepD.png](https://s1.ax1x.com/2018/10/18/iwYepD.png)

###**15.1.3 HMM学习问题**
### **15.1.3 HMM学习问题**

HMM学习问题指的是:**给定观测值序列,如何调整模型的参数使得该序列出现的概率最大**。这便转化成了机器学习问题,即从给定的观测值序列中学习出一个HMM模型,**该问题正是EM算法的经典案例之一**。其思想也十分简单:对于给定的观测值序列,如果我们能够按照该序列潜在的规律来调整模型的三个参数,则可以使得该序列出现的可能性最大。假设状态值序列也已知,则很容易计算出与该序列最契合的模型参数:

Expand All @@ -69,7 +69,7 @@ HMM学习问题指的是:**给定观测值序列,如何调整模型的参数

【4】重复步骤2-3,直至三个参数值收敛,便得到了最终的HMM模型。

##**15.2 马尔可夫随机场(MRF)**
## **15.2 马尔可夫随机场(MRF)**

马尔可夫随机场(Markov Random Field)是一种典型的马尔可夫网,即使用无向边来表达变量间的依赖关系。在马尔可夫随机场中,对于关系图中的一个子集,**若任意两结点间都有边连接,则称该子集为一个团;若再加一个结点便不能形成团,则称该子集为极大团**。MRF使用**势函数**来定义多个变量的概率分布函数,其中**每个(极大)团对应一个势函数**,一般团中的变量关系也体现在它所对应的极大团中,因此常常基于极大团来定义变量的联合概率分布函数。具体而言,若所有变量构成的极大团的集合为C,则MRF的联合概率函数可以定义为:

Expand All @@ -87,7 +87,7 @@ HMM学习问题指的是:**给定观测值序列,如何调整模型的参数

![iwY8tf.png](https://s1.ax1x.com/2018/10/18/iwY8tf.png)

##**15.3 条件随机场(CRF)**
## **15.3 条件随机场(CRF)**

前面所讲到的**隐马尔可夫模型和马尔可夫随机场都属于生成式模型,即对联合概率进行建模,条件随机场则是对条件分布进行建模**。CRF试图在给定观测值序列后,对状态序列的概率分布进行建模,即P(y | x)。直观上看:CRF与HMM的解码问题十分类似,都是在给定观测值序列后,研究状态序列可能的取值。CRF可以有多种结构,只需保证状态序列满足马尔可夫性即可,一般我们常使用的是**链式条件随机场**:

Expand All @@ -99,18 +99,18 @@ HMM学习问题指的是:**给定观测值序列,如何调整模型的参数

以词性标注为例,如何判断给出的一个标注序列靠谱不靠谱呢?**转移特征函数主要判定两个相邻的标注是否合理**,例如:动词+动词显然语法不通;**状态特征函数则判定观测值与对应的标注是否合理**,例如: ly结尾的词-->副词较合理。因此我们可以定义一个特征函数集合,用这个特征函数集合来为一个标注序列打分,并据此选出最靠谱的标注序列。也就是说,每一个特征函数(对应一种规则)都可以用来为一个标注序列评分,把集合中所有特征函数对同一个标注序列的评分综合起来,就是这个标注序列最终的评分值。可以看出:**特征函数是一些经验的特性**。

##**15.4 学习与推断**
## **15.4 学习与推断**

对于生成式模型,通常我们都是先对变量的联合概率分布进行建模,接着再求出目标变量的**边际分布**(marginal distribution),那如何从联合概率得到边际分布呢?这便是学习与推断。下面主要介绍两种精确推断的方法:**变量消去**与**信念传播**。

###**15.4.1 变量消去**
### **15.4.1 变量消去**

变量消去利用条件独立性来消减计算目标概率值所需的计算量,它通过运用**乘法与加法的分配率**,将对变量的积的求和问题转化为对部分变量交替进行求积与求和的问题,从而将每次的**运算控制在局部**,达到简化运算的目的。

![iwYUXj.png](https://s1.ax1x.com/2018/10/18/iwYUXj.png)
![iwYwBn.png](https://s1.ax1x.com/2018/10/18/iwYwBn.png)

###**15.4.2 信念传播**
### **15.4.2 信念传播**

若将变量求和操作看作是一种消息的传递过程,信念传播可以理解成:**一个节点在接收到所有其它节点的消息后才向另一个节点发送消息**,同时当前节点的边际概率正比于他所接收的消息的乘积:

Expand All @@ -123,7 +123,7 @@ HMM学习问题指的是:**给定观测值序列,如何调整模型的参数

![iwYgc4.png](https://s1.ax1x.com/2018/10/18/iwYgc4.png)

##**15.5 LDA话题模型**
## **15.5 LDA话题模型**

话题模型主要用于处理文本类数据,其中**隐狄利克雷分配模型**(Latent Dirichlet Allocation,简称LDA)是话题模型的杰出代表。在话题模型中,有以下几个基本概念:词(word)、文档(document)、话题(topic)。

Expand Down