变分自动编码器(VAE)

这学期张连文教授教的CSIT6000G Machine Learning课上讲到了VAE和GAN,学完之后感觉两个概念被解释的很好,所以有必要记录一下。

VAE(Variational Autoencoder)中文译为变分自动编码器,它是一种深度生成模型(Deep Generative Model),是一种无监督学习算法。它的主要作用是能够学习一个函数(模型),使得输出数据的分布尽可能地逼近原始数据分布。

问题描述

假设我们有一堆无标签数据集 \(X = \{x^{(i)}\}_{i=1}^{N}\), 每一个数据\(x^{(i)}\)是一个表示图像的vector,而vector中的每一个元素则表示图像的像素;那么我们的任务就是:

希望从原始数据集\(X\)中学习一个分布\(p(x)\),使得它的分布和原始数据分布接近,也就是说我们可以生成和原始图像相似但不同的图片。

生成模型(Generative Model)

那么这个问题如何求解呢?
我们假设:

  • 每一个图片都存在一个与之对应的标[......]

继续阅读

Speech and Language Processing-笔记(一)

最近这大半个月的时间一直在看一本书《Speech and Language Processing (3rd ed. draft)》(完整版),不得不说这真是一本极好的书,很多概念解释的非常清楚,而且还难能可贵地引入了一些非常前沿的内容(介绍了2017年NLP领域一些比较好的学术成果),看完之后肯定能对NLP在整体上有个很好的感知。因为我没读过其他的NLP书籍,所以不好断言这是最好的入门读物,但我个人强烈推荐此书。然后再说说看完这本书的感受吧。全英文的书看起来有点小累和压抑,主要原因是里面有几个章节涉及到一些语言学(英文语法)的知识让人很头大,的确需要较大的耐心,比较沉闷和乏味吧。虽然看完之后对整个NLP领域有一个清晰的认识,但是也正因如此才感到很失落和失望。那些听起来高大上的NLP技术真的没有想得那么牛逼,比如命名实体识别(Named Entity Recoginition),人机对话(Siri,cotana,Amazon Alex),问答系统(IBM Watson),在明白了其背后的原理后才发现:这些看起来很智能的应用实际上跟智能毫无关系。底层的算法还是太过愚蠢了,本质上还是基于统计[......]

继续阅读

隐马尔可夫模型(Hidden Markov Model)

我们先从马尔科夫模型说起。

Markov Model

马尔科夫模型(The Markov chain, sometimes called the observed Markov model)本质上是一个加权的有限状态机(weighted finite automaton),它描述了不同状态之间的转换关系以及转换概率(这里的权重就是状态转移概率)。示意图如下:
imgur
一个严格定义的马尔科夫模型由以下几个部分组成:

$$
\begin{align*}
& Q = q_1,q_2,...,q_N \\
& A = a_{01},a_{02},...,a_{nn} \\
& q_0, q_F
\end{align*}
$$

其中,

  • \(Q\)是大小为\(N\)的状态集合;
  • \(A\)是状态转移矩阵(transition probability matrix),矩阵内的元素\(a_{ij}\)表示的是从状态\(i\)转移到状态\(j\)的概率,[......]

继续阅读

GloVe详解

引言

前几天的一篇文章自然语言处理入门里提到了一个词嵌入工具GloVe,今天我们花点时间介绍下它的工作原理。不管是英文还是中文,网上关于GloVe的介绍并不多,所以本文的内容主要来自于Stanford NLP Group的Jeffrey Pennington, Richard Socher, Christopher D. Manning在2014年的Empirical Methods in Natural Language Processing (EMNLP)上发表的一篇论文:GloVe: Global Vectors for Word Representation。相对而言这篇论文还是很容易读懂的,下面我们进入正题。

什么是GloVe?

正如论文的标题而言,GloVe的全称叫Global Vectors for Word Representation,它是一个基于全局词频统计(count-based & overall statistics)的词表征(word representation)工具,它可以把一个单词表达成一个由实数组成的向量,这些向量捕捉到了单词之间一些语[......]

继续阅读

聊聊这小半年

谁也没想到时间过得这么快,再过几天就真的到27岁了,无论怎么和我妈argue我的年龄这个时刻还是来了。年龄是岁月的标识,有时候无意间照镜子确实能感受到岁月在脸上留下的痕迹,再也不是二十一二岁的毛头小伙子啦。但也不必过于伤感,每一个年龄都有它自己的特点,与其感叹时间飞速流逝不如想想如何活好当下。之前的26年每一次过年都在家,而今年春节则有那么一点点不一样,和几个同学好友在远离家乡千里之外的香港度过了一个很特别、很开心的春节。我们在年三十的晚上一起做饭,小伙伴儿们的手艺太赞了,年夜饭太过丰盛,甚至比我在家吃的还好,有点小感动。席间把酒言欢,欢声笑语不断,于我而言真的会有种不真实的感觉。那一晚我喝多了,很早就睡了,好多事不记得了,略感遗憾。只记得春晚刚开始时主持人提到“港澳同胞”时我们一片欢呼,没想到有一天会以这样的身份观看春晚,真的不一样。春晚,这个年年被吐槽的晚会好像一年年被削弱了,它已经成为一种文化符号了,至于内容究竟怎么样,是否有人看,是否值得吐槽真的不太重要了。
Imgur
我一直有个观点,一个人的变化是潜移默化的。你自己可能根本察觉不到,但是如果让你穿越到几年前的某个时间节点,再去比较现在[......]

继续阅读