Speech and Language Processing-笔记(一)

最近这大半个月的时间一直在看一本书《Speech and Language Processing (3rd ed. draft)》(完整版),不得不说这真是一本极好的书,很多概念解释的非常清楚,而且还难能可贵地引入了一些非常前沿的内容(介绍了2017年NLP领域一些比较好的学术成果),看完之后肯定能对NLP在整体上有个很好的感知。因为我没读过其他的NLP书籍,所以不好断言这是最好的入门读物,但我个人强烈推荐此书。然后再说说看完这本书的感受吧。全英文的书看起来有点小累和压抑,主要原因是里面有几个章节涉及到一些语言学(英文语法)的知识让人很头大,的确需要较大的耐心,比较沉闷和乏味吧。虽然看完之后对整个NLP领域有一个清晰的认识,但是也正因如此才感到很失落和失望。那些听起来高大上的NLP技术真的没有想得那么牛逼,比如命名实体识别(Named Entity Recoginition),人机对话(Siri,cotana,Amazon Alex),问答系统(IBM Watson),在明白了其背后的原理后才发现:这些看起来很智能的应用实际上跟智能毫无关系。底层的算法还是太过愚蠢了,本质上还是基于统计[......]

继续阅读

隐马尔可夫模型(Hidden Markov Model)

我们先从马尔科夫模型说起。

Markov Model

马尔科夫模型(The Markov chain, sometimes called the observed Markov model)本质上是一个加权的有限状态机(weighted finite automaton),它描述了不同状态之间的转换关系以及转换概率(这里的权重就是状态转移概率)。示意图如下:
imgur
一个严格定义的马尔科夫模型由以下几个部分组成:

$$
\begin{align*}
& Q = q_1,q_2,...,q_N \\
& A = a_{01},a_{02},...,a_{nn} \\
& q_0, q_F
\end{align*}
$$

其中,

  • \(Q\)是大小为\(N\)的状态集合;
  • \(A\)是状态转移矩阵(transition probability matrix),矩阵内的元素\(a_{ij}\)表示的是从状态\(i\)转移到状态\(j\)的概率,[......]

继续阅读

GloVe详解

引言

前几天的一篇文章自然语言处理入门里提到了一个词嵌入工具GloVe,今天我们花点时间介绍下它的工作原理。不管是英文还是中文,网上关于GloVe的介绍并不多,所以本文的内容主要来自于Stanford NLP Group的Jeffrey Pennington, Richard Socher, Christopher D. Manning在2014年的Empirical Methods in Natural Language Processing (EMNLP)上发表的一篇论文:GloVe: Global Vectors for Word Representation。相对而言这篇论文还是很容易读懂的,下面我们进入正题。

什么是GloVe?

正如论文的标题而言,GloVe的全称叫Global Vectors for Word Representation,它是一个基于全局词频统计(count-based & overall statistics)的词表征(word representation)工具,它可以把一个单词表达成一个由实数组成的向量,这些向量捕捉到了单词之间一些语[......]

继续阅读

自然语言处理入门

自然语言处理入门

本文主要介绍自然语言处理(Natural Language Processing:NLP)中的一些最基础的概念,可以帮助读者在整体上感知这一领域,算是一篇入门读物。

词库

Vocabulary,表示所有词的集合。一般而言,经过one-hot encoding之后的向量的长度即为词库的大小。

语料库

Corpus,由词库里所有的词组成的句子,短语等语料信息,可以简单理解为一个/多个documents。

词向量

Word Vector,就是把一个Word表示成一个向量(vector),最常见的有one-hot encoding。

分布的假设

我们知道一个单词最原始的表达方式(Word Representation)是one-hot encoding,但是这种方式是有缺陷的,它仅仅将单词符号化,不包含任何语义信息。那如何才能表达出一个词的语义呢?Harris 在 1954 年提出的分布假说( Distributional Hypothesis)为这一设想提供了理论基础:上下文相似的词,其语义也相似。 这个很好理解,比如有如下两句话:

  • I like drinking ora[......]

继续阅读

深度学习之神经风格转换

本文介绍Coursera-Deep Learning第四课卷积神经网络最后一节内容:神经风格转换(Neural Style Transfer)。

什么是神经风格转换?

这个概念其实没有明确的定义,但是看一张图就能一目了然了:

Imgur
最左边是一张古城的照片,而右边则是梵高的著名油画作品:星夜。现在我们在两者的基础上合成一张含有星夜的风格的古城照片,这就是神经风格转换。这应该是神经网络应用里最有趣最好玩的一个了,那么它具体是如何实现的呢?

问题描述

为了后面的解释更清楚,我们先做一些定义:

  • 内容图片称为Content Image,简写为C
  • 风格图片称为Style Image,简写为S
  • 合成图片称为Generated Image,简写为G

直觉上,最后合成的图像G至少应该满足以下两个条件:

  • 1.内容要和内容图片的内容尽可能接近
  • 2.风格要和风格图片的风格尽可能接近

损失函数

要实现一个有趣的神经网络应用,最重要的是你如何去定义或者说找到它的损失函数。根据上面所说的条件,那么神经风格转换的损失函数应该由两部分组成,它的大致形式如下:

$$
J(G) = \alpha[......]

继续阅读