星期二, 十月 31, 2006
星期一, 十月 30, 2006
星期日, 十月 29, 2006
星期五, 十月 27, 2006
星期三, 十月 25, 2006
网络用语大全
+U 加油。
1414 意思意思。
253 mop贴图第253号。一个人在拜礼作揖。
3166 撒由那拉,再见。(日语)
3H学生 三好学生。
3q Thank you,谢谢你。
4242 是啊是啊。
4人民 为人民。4为for.
555 wuwu,呜呜呜(哭) 。
7456 气死我咯。
748 去死吧。
8147 不要生气。
84 不是。类似的还有:848 (不是吧)。
848 不是吧。
874 掌嘴。源自猫扑网站的贴图第874号,动态效果,画的是一个女子正在用扫把抽一个男子的嘴巴。
886 拜拜喽!
88 bye bye,白白,拜拜,再见。
8错 不错。
9494 就是就是。
999 猫扑网站的贴图第999号,用于表达因极度惊讶或极度佩服。
BC 白痴
BF Boy Friend,男朋友。当然还有:
BL/GL 玻璃,同性恋。Boy’s Love(男同性恋),Girl’s Love(女同性恋).
BOT 机器人。
BTW Bye The Way,顺便提一下。
BT 变态。例句:挂着鼻涕上网也很BT的哦。或BitTorrent一种新型的P2P下载工具。
CC ①xixi,嘻嘻,西西。嘿嘿.②醋醋,吃醋。
cft Comfort,安慰,舒适。(英文)
CGP Computer Gaming Pseudodementia的缩写,电脑游戏性痴呆症.
CG Computer Graphics,计算机所做图形。
cool毙 酷毙。 有时也用:“裤”“库”都来自于"Cool"!
COSPLAY COSTUME PLAY,扮演自己所喜欢的角色表演,来自于日本〔ko-su-pu-re〕的发音。
cow **,kao。用于骂人。
CT 警察。
CU See You,再见。
DBC 大白痴
DC ①DIGITAL CAMERA(数码相机)。②SEGA出的DREAMCAST著名游戏机种。
DD 弟弟。
di 结构助词“的”,专门用于句子最末,表示强调。例句:不是这样di!
DL Download,下载。有时也用“当”或“down”。
e 恶心。
eg 举例。
faint(或ft) 晕,表示不可理解的意思。例句:faint~竟然有这种事情的哦?
FC 任天堂出的8位游戏机,超级任天堂为SFC。
FOAF Friend of a Friend,一个朋友的朋友。
GF Girl Friend,女朋友。
Friend of a Friend 一个朋友的朋友。
Gay 男同性恋,也有写为“基”的。
GB 任天堂出的著名掌上游戏机(GameBoy),还有:GBA(GameBoyAdvance)。
GG 哥哥。
gl glass,同性恋.
gx 恭喜。
H Hentai,色情。由它引申出来的词很多,例如:HComic(色情漫画),HCartoon(色情卡通),HGame(色情游戏)等等。
Haha 哈哈。笑声
Hehe 呵呵。笑声
hiahia 象声词,怪笑。
HIGH 高了,常用于喝酒等行为下。
hoho 爽朗的笑声。
HP 生命值。
IC I See,我明白。例:oic(哦,我明白了)。还有:CU,"See You",含有再见(SeeYouLater)之意。
JJBB 结结巴巴。类似的还有:JJYY,JiJiWaWa,"唧唧歪歪“,”唧唧哇哇“。
JJ 姐姐。类似的还有:GG(哥哥),MM(妹妹),DD(弟弟)。
JR 贱人
JS 奸商。
K 象声词,咳嗽声。例句:KKK……无聊。
L 快乐。例句:我今天很L,你呢?
LBT 路边摊。
lj 垃圾。
LM 辣妹
lr 烂人。
L公(或LG) 老公。
L婆(或LP) 指老婆。
M 笨蛋、木头。 例句:你真M。
md ****。
me2 me too,我也是。
MM 妹妹,美眉。
mop 猫扑,游手好闲的缩写词。来自猫扑网站,猫扑上的成员叫"Mopper"。英文原意为"拖把".
MP 没品。
msg Message,消息,信息。
N 表示思考。 例句:N......N......
NB ① 牛逼。还有:NBHH,牛逼烘烘,牛人,大牛.② 自然美,Natural Beautiful。
nod 点头(动作)。
nr 脑弱。
O ①回答别人的傻话。 例句:O......O......想吐! ②有时也用来表示:“我”,"ou"。③喔。
P 否定用语。 例句:你放P!
papa 怕怕。例:papaya(怕怕呀)
PC Personal Computer(个人电脑)的缩写。
PF 佩服。
PK Person-killing,单挑,要出虚拟人命的网上决斗。
PLMM 漂亮美眉。
PMP 拍马屁。也有:PMPMP(拼命拍马屁).
PM ①Private Message,私人消息,就是论坛上的悄悄话。②Pardon Me,请原谅我。
PPMM ①婆婆妈妈。②漂漂美眉。
pp ① 点点通软件。② 屁股。
PS ①PhotoShop(一个著名图形处理工具)的缩写。
②PlayStation(SONY出的一个著名游戏机种)的缩写。
③Post 窖裕奖省@纾骸癙.S:这只是我的个人观点……”
puke 呕吐。
PvP 由PK改名而来,因为目前韩国政府已下令游戏开发商,必须将"PK"改为"PvP"(Player Versus Player)。
pw password,密码。
py 朋友。
Q ① 求人。例句:我QQ你了,把你的电话号码给我吧。
② 可爱。为英文“CUTE”的音译;
③ 用icq聊天工具呼叫。例句:前天,我曾Q过你。
qr 穷人。
qu4 去死。
Q男,Q女 用icq或oicq聊天的男人或女人。
R 语气词,惊奇。 例句:R?你是小学生。
re 回文。
rpwt 人品问题。
rq 人气。
rt 如题。用于发新帖时,当内容已经在标题上打出时,内容栏里就仅注明rt。
ry 人妖。
S 死机。例句:对不起,我刚才S了。
SB **,对某些人的蔑称,骂人用语。
sg 帅哥。可以用:ssgg表示”好帅的哥哥哦!“
sigh 叹气。
SL 色狼。
sm ①Sado-Masochi,性虐恋。S 为Sadism性虐待,M 为 Masochism被虐待.② 什么。例句:你刚才说sm?
sp support,支持。
SS SEGA出的SATURN游戏机。
ST 失态。
T 踢。例:T飞(踢飞)。
Thx Thanks.
tears 流泪。
*** 他****。
**** ********。
too 表示程度。例:tooooooo…… bad (太……糟糕了)
ts 同上。就是同意楼上的意见,用在回贴时。
U You,你。例如:Thank U! “谢谢你!”。还有Ur,表示:your,你的。I服了U,表示:我服了你了。
UK United Killers,杀手联盟。
vs 对决。与pk不同的是,vs并不一定代表单独挑战。
W 王或者万。例:新人W。破W。
wl 网恋。
ww 弯弯,指台湾同胞。
X 错。例句:你大X特X。
Y WHY, 为什么?
YK 幼齿,年幼,未成年。
yy 意淫,过度欲望。不一定指下流的想入非非的,往往是为了达到思想、心理及口头上的快感。来自于《红楼梦》。
zzZZz 睡觉的状态。
…哈 语气词,例句:今天又有人病了哈。
一枪爆头 一枪就把对方脑袋打掉。
不睬你 不理你。(新加坡语)
东东 东西。
么么黑 非常黑暗。
亮骚 将心爱的东西给别人看。
伟哥 伟大的男人。
系咪 是不是。
做脸 整容。
偶 我。
兔爸 toolbar,工具条。
切 语气词(qie~),表示蔑视。
刷屏 指用重复的句子把聊天或论坛的一页刷一遍,以清洁版面。
压 语气词“呀”。
可爱 可怜而没人爱。
台客/台妹 土气粗俗的意思。(台语)。原指早期原台/湾人民。
吐血 形容郁闷心情。
吼吼 恐龙专用,情绪不明。
呕像 呕吐的对象。
和和 呵呵。
啊哦 唐老鸭常用语气词。
喷鼻血 形容被震惊的样子。
坛子 论坛。
型男 模特身材的男人,也有“型女”的说法。
大丈夫 没问题。(日语)
大刀 打倒。
大虾 大侠。
好康 好看。
如花似玉 丑陋。
姑狗 Google搜索引擎。也写作“辜狗”。
寒 惊叹,害怕。有时也写作“汗”。例句:楼上的观点非常可怕。寒~!
干色摸 干什么。也写作“干虾米”。
开画 公开放映。
弓虽 语气词“强”,厉害,了不起,
恐龙 kl,长相困难的女生。
惨绿 不幸。
我倒 用于表示佩服,或出其意料之外。
我闪 用于表示惹不起躲得起。
战队 指一组成员编组参加电脑游戏比赛。
打口 碟片被打了个口子的海关行为。
抛砖 跟帖。
抢一 指杂论坛里抢第一个回复位置。
抢整 qz,抢发第整数帖文章。
拍砖 指回贴时持批评态度。
捏 语气词,发音为“nie”,表示的语气接近于“呢”。
搞大 把事情弄得夸张的意思。
斑竹 版主。有时也会写成”板猪“。
暖被儿奖 指诺贝尔奖。
暴笑 巨大笑声。
有形 有派头。
板斧 版副。
楼上 楼上就是上面的帖子回复者。另外还有“楼下”、“顶楼”、“底楼”、“楼主(发帖者)”等一系列说法。
残念 ①可惜;②死亡。(日语)
母代(或无得) 没得,没有。(南京发音)。
水蒸气 比纯净水还纯的水,就是无文字及任何内容的空白帖子。
油墨 幽默。
泡菜 指在论坛里浏览。
泥巴 mud游戏。
温酒吧 Win98.类似的还有:瘟都死(windows).
漫迷 漫画fan。
潜水 指呆在聊天室里不说话。
灌水 指在网络上发布一些意义不大的
文字。
灰常灰常 非常非常。
烘培鸡 HomePage, 个人主页,“竹叶”。
狗狗 狗的昵称。
狼族 与色狼不同,作风正派,喜欢独断独行,虽爱女色,但从不死缠mm。
猫 Modem,调制解调器(拨号上网用的东西),
王求革圭 指球鞋。
甩枪 凭感觉将准星甩出去瞄准射击。
甫士 Pose,姿势。
盲狙 不开瞄准镜,直接打狙击枪的。
笨拉灯 本·拉登。
粉 很。
素 是。
素颜 没有化装的面孔。
纯净水 无内容的帖子。
练狙 练习狙击枪技法。
置顶 将某个帖子放在列表的最上方。
老大 带头的。有时是被众人吹捧的人,有时是被众人暴打的人。
老斑 班主任。
肉鸡 弱机,是指网络上安全性不强,被人完全控制的机器。
菜鸟 新手。
表 不要。
衰 倒霉。
轻舞肥羊 源自痞子蔡的轻舞飞扬,用来嘲笑MM。
达人 高人。
酱紫 这样子。例句:故事的发生是酱紫的。
酿紫 那样子。
闪客 制作flash的人。
隔壁 旁边论坛或聊天室。
青蛙 qw,长相可怕的男生。
靓号 指号码不错的QQ号。
领导 老婆。
飞仔/飞女 太保/太妹。小流氓。
马桶文章 烂文章。
马甲 指一个人拥有的多个ID。
驴友 旅游者。
咸 色/情。
黑名单 BBS中被关的ID。
坑 会引起很多人回复的帖子。
小强 蟑螂。来自于周星驰的《唐伯虎点秋香》。
唔 不。
唔系 不是。广东话
……ing 表示进行时。例句:无限郁闷ing。
……的说 来自日语语法“……とぃぃます”,表示认为、觉得。例句:似乎他态度老强硬的说。
超/强/哈/巨/狂/严重… 表示特别,起夸张、加强语气作用。例句:你这人超厉害!我对你的说法严重支持!
1414 意思意思。
253 mop贴图第253号。一个人在拜礼作揖。
3166 撒由那拉,再见。(日语)
3H学生 三好学生。
3q Thank you,谢谢你。
4242 是啊是啊。
4人民 为人民。4为for.
555 wuwu,呜呜呜(哭) 。
7456 气死我咯。
748 去死吧。
8147 不要生气。
84 不是。类似的还有:848 (不是吧)。
848 不是吧。
874 掌嘴。源自猫扑网站的贴图第874号,动态效果,画的是一个女子正在用扫把抽一个男子的嘴巴。
886 拜拜喽!
88 bye bye,白白,拜拜,再见。
8错 不错。
9494 就是就是。
999 猫扑网站的贴图第999号,用于表达因极度惊讶或极度佩服。
BC 白痴
BF Boy Friend,男朋友。当然还有:
BL/GL 玻璃,同性恋。Boy’s Love(男同性恋),Girl’s Love(女同性恋).
BOT 机器人。
BTW Bye The Way,顺便提一下。
BT 变态。例句:挂着鼻涕上网也很BT的哦。或BitTorrent一种新型的P2P下载工具。
CC ①xixi,嘻嘻,西西。嘿嘿.②醋醋,吃醋。
cft Comfort,安慰,舒适。(英文)
CGP Computer Gaming Pseudodementia的缩写,电脑游戏性痴呆症.
CG Computer Graphics,计算机所做图形。
cool毙 酷毙。 有时也用:“裤”“库”都来自于"Cool"!
COSPLAY COSTUME PLAY,扮演自己所喜欢的角色表演,来自于日本〔ko-su-pu-re〕的发音。
cow **,kao。用于骂人。
CT 警察。
CU See You,再见。
DBC 大白痴
DC ①DIGITAL CAMERA(数码相机)。②SEGA出的DREAMCAST著名游戏机种。
DD 弟弟。
di 结构助词“的”,专门用于句子最末,表示强调。例句:不是这样di!
DL Download,下载。有时也用“当”或“down”。
e 恶心。
eg 举例。
faint(或ft) 晕,表示不可理解的意思。例句:faint~竟然有这种事情的哦?
FC 任天堂出的8位游戏机,超级任天堂为SFC。
FOAF Friend of a Friend,一个朋友的朋友。
GF Girl Friend,女朋友。
Friend of a Friend 一个朋友的朋友。
Gay 男同性恋,也有写为“基”的。
GB 任天堂出的著名掌上游戏机(GameBoy),还有:GBA(GameBoyAdvance)。
GG 哥哥。
gl glass,同性恋.
gx 恭喜。
H Hentai,色情。由它引申出来的词很多,例如:HComic(色情漫画),HCartoon(色情卡通),HGame(色情游戏)等等。
Haha 哈哈。笑声
Hehe 呵呵。笑声
hiahia 象声词,怪笑。
HIGH 高了,常用于喝酒等行为下。
hoho 爽朗的笑声。
HP 生命值。
IC I See,我明白。例:oic(哦,我明白了)。还有:CU,"See You",含有再见(SeeYouLater)之意。
JJBB 结结巴巴。类似的还有:JJYY,JiJiWaWa,"唧唧歪歪“,”唧唧哇哇“。
JJ 姐姐。类似的还有:GG(哥哥),MM(妹妹),DD(弟弟)。
JR 贱人
JS 奸商。
K 象声词,咳嗽声。例句:KKK……无聊。
L 快乐。例句:我今天很L,你呢?
LBT 路边摊。
lj 垃圾。
LM 辣妹
lr 烂人。
L公(或LG) 老公。
L婆(或LP) 指老婆。
M 笨蛋、木头。 例句:你真M。
md ****。
me2 me too,我也是。
MM 妹妹,美眉。
mop 猫扑,游手好闲的缩写词。来自猫扑网站,猫扑上的成员叫"Mopper"。英文原意为"拖把".
MP 没品。
msg Message,消息,信息。
N 表示思考。 例句:N......N......
NB ① 牛逼。还有:NBHH,牛逼烘烘,牛人,大牛.② 自然美,Natural Beautiful。
nod 点头(动作)。
nr 脑弱。
O ①回答别人的傻话。 例句:O......O......想吐! ②有时也用来表示:“我”,"ou"。③喔。
P 否定用语。 例句:你放P!
papa 怕怕。例:papaya(怕怕呀)
PC Personal Computer(个人电脑)的缩写。
PF 佩服。
PK Person-killing,单挑,要出虚拟人命的网上决斗。
PLMM 漂亮美眉。
PMP 拍马屁。也有:PMPMP(拼命拍马屁).
PM ①Private Message,私人消息,就是论坛上的悄悄话。②Pardon Me,请原谅我。
PPMM ①婆婆妈妈。②漂漂美眉。
pp ① 点点通软件。② 屁股。
PS ①PhotoShop(一个著名图形处理工具)的缩写。
②PlayStation(SONY出的一个著名游戏机种)的缩写。
③Post 窖裕奖省@纾骸癙.S:这只是我的个人观点……”
puke 呕吐。
PvP 由PK改名而来,因为目前韩国政府已下令游戏开发商,必须将"PK"改为"PvP"(Player Versus Player)。
pw password,密码。
py 朋友。
Q ① 求人。例句:我QQ你了,把你的电话号码给我吧。
② 可爱。为英文“CUTE”的音译;
③ 用icq聊天工具呼叫。例句:前天,我曾Q过你。
qr 穷人。
qu4 去死。
Q男,Q女 用icq或oicq聊天的男人或女人。
R 语气词,惊奇。 例句:R?你是小学生。
re 回文。
rpwt 人品问题。
rq 人气。
rt 如题。用于发新帖时,当内容已经在标题上打出时,内容栏里就仅注明rt。
ry 人妖。
S 死机。例句:对不起,我刚才S了。
SB **,对某些人的蔑称,骂人用语。
sg 帅哥。可以用:ssgg表示”好帅的哥哥哦!“
sigh 叹气。
SL 色狼。
sm ①Sado-Masochi,性虐恋。S 为Sadism性虐待,M 为 Masochism被虐待.② 什么。例句:你刚才说sm?
sp support,支持。
SS SEGA出的SATURN游戏机。
ST 失态。
T 踢。例:T飞(踢飞)。
Thx Thanks.
tears 流泪。
*** 他****。
**** ********。
too 表示程度。例:tooooooo…… bad (太……糟糕了)
ts 同上。就是同意楼上的意见,用在回贴时。
U You,你。例如:Thank U! “谢谢你!”。还有Ur,表示:your,你的。I服了U,表示:我服了你了。
UK United Killers,杀手联盟。
vs 对决。与pk不同的是,vs并不一定代表单独挑战。
W 王或者万。例:新人W。破W。
wl 网恋。
ww 弯弯,指台湾同胞。
X 错。例句:你大X特X。
Y WHY, 为什么?
YK 幼齿,年幼,未成年。
yy 意淫,过度欲望。不一定指下流的想入非非的,往往是为了达到思想、心理及口头上的快感。来自于《红楼梦》。
zzZZz 睡觉的状态。
…哈 语气词,例句:今天又有人病了哈。
一枪爆头 一枪就把对方脑袋打掉。
不睬你 不理你。(新加坡语)
东东 东西。
么么黑 非常黑暗。
亮骚 将心爱的东西给别人看。
伟哥 伟大的男人。
系咪 是不是。
做脸 整容。
偶 我。
兔爸 toolbar,工具条。
切 语气词(qie~),表示蔑视。
刷屏 指用重复的句子把聊天或论坛的一页刷一遍,以清洁版面。
压 语气词“呀”。
可爱 可怜而没人爱。
台客/台妹 土气粗俗的意思。(台语)。原指早期原台/湾人民。
吐血 形容郁闷心情。
吼吼 恐龙专用,情绪不明。
呕像 呕吐的对象。
和和 呵呵。
啊哦 唐老鸭常用语气词。
喷鼻血 形容被震惊的样子。
坛子 论坛。
型男 模特身材的男人,也有“型女”的说法。
大丈夫 没问题。(日语)
大刀 打倒。
大虾 大侠。
好康 好看。
如花似玉 丑陋。
姑狗 Google搜索引擎。也写作“辜狗”。
寒 惊叹,害怕。有时也写作“汗”。例句:楼上的观点非常可怕。寒~!
干色摸 干什么。也写作“干虾米”。
开画 公开放映。
弓虽 语气词“强”,厉害,了不起,
恐龙 kl,长相困难的女生。
惨绿 不幸。
我倒 用于表示佩服,或出其意料之外。
我闪 用于表示惹不起躲得起。
战队 指一组成员编组参加电脑游戏比赛。
打口 碟片被打了个口子的海关行为。
抛砖 跟帖。
抢一 指杂论坛里抢第一个回复位置。
抢整 qz,抢发第整数帖文章。
拍砖 指回贴时持批评态度。
捏 语气词,发音为“nie”,表示的语气接近于“呢”。
搞大 把事情弄得夸张的意思。
斑竹 版主。有时也会写成”板猪“。
暖被儿奖 指诺贝尔奖。
暴笑 巨大笑声。
有形 有派头。
板斧 版副。
楼上 楼上就是上面的帖子回复者。另外还有“楼下”、“顶楼”、“底楼”、“楼主(发帖者)”等一系列说法。
残念 ①可惜;②死亡。(日语)
母代(或无得) 没得,没有。(南京发音)。
水蒸气 比纯净水还纯的水,就是无文字及任何内容的空白帖子。
油墨 幽默。
泡菜 指在论坛里浏览。
泥巴 mud游戏。
温酒吧 Win98.类似的还有:瘟都死(windows).
漫迷 漫画fan。
潜水 指呆在聊天室里不说话。
灌水 指在网络上发布一些意义不大的
文字。
灰常灰常 非常非常。
烘培鸡 HomePage, 个人主页,“竹叶”。
狗狗 狗的昵称。
狼族 与色狼不同,作风正派,喜欢独断独行,虽爱女色,但从不死缠mm。
猫 Modem,调制解调器(拨号上网用的东西),
王求革圭 指球鞋。
甩枪 凭感觉将准星甩出去瞄准射击。
甫士 Pose,姿势。
盲狙 不开瞄准镜,直接打狙击枪的。
笨拉灯 本·拉登。
粉 很。
素 是。
素颜 没有化装的面孔。
纯净水 无内容的帖子。
练狙 练习狙击枪技法。
置顶 将某个帖子放在列表的最上方。
老大 带头的。有时是被众人吹捧的人,有时是被众人暴打的人。
老斑 班主任。
肉鸡 弱机,是指网络上安全性不强,被人完全控制的机器。
菜鸟 新手。
表 不要。
衰 倒霉。
轻舞肥羊 源自痞子蔡的轻舞飞扬,用来嘲笑MM。
达人 高人。
酱紫 这样子。例句:故事的发生是酱紫的。
酿紫 那样子。
闪客 制作flash的人。
隔壁 旁边论坛或聊天室。
青蛙 qw,长相可怕的男生。
靓号 指号码不错的QQ号。
领导 老婆。
飞仔/飞女 太保/太妹。小流氓。
马桶文章 烂文章。
马甲 指一个人拥有的多个ID。
驴友 旅游者。
咸 色/情。
黑名单 BBS中被关的ID。
坑 会引起很多人回复的帖子。
小强 蟑螂。来自于周星驰的《唐伯虎点秋香》。
唔 不。
唔系 不是。广东话
……ing 表示进行时。例句:无限郁闷ing。
……的说 来自日语语法“……とぃぃます”,表示认为、觉得。例句:似乎他态度老强硬的说。
超/强/哈/巨/狂/严重… 表示特别,起夸张、加强语气作用。例句:你这人超厉害!我对你的说法严重支持!
星期一, 十月 23, 2006
数学之美 系列三 -- 隐含马尔可夫模型在语言处理中的应用
发表者:吴军,Google 研究员
前言:隐含马尔可夫模型是一个数学模型,到目前为之,它一直被认为是实现快速精确的语音识别系统的最成功的方法。复杂的语音识别问题通过隐含马尔可夫模型能非常简单地被表述、解决,让我不由由衷地感叹数学模型之妙。
自 然语言是人类交流信息的工具。很多自然语言处理问题都可以等同于通信系统中的解码问题 -- 一个人根据接收到的信息,去猜测发话人要表达的意思。这其实就象通信中,我们根据接收端收到的信号去分析、理解、还原发送端传送过来的信息。以下该图就表 示了一个典型的通信系统:

其中 s1,s2,s3...表示信息源发出的信号。o1, o2, o3 ... 是接受器接收到的信号。通信中的解码就是根据接收到的信号 o1, o2, o3 ...还原出发送的信号 s1,s2,s3...。
其 实我们平时在说话时,脑子就是一个信息源。我们的喉咙(声带),空气,就是如电线和光缆般的信道。听众耳朵的就是接收端,而听到的声音就是传送过来的信 号。根据声学信号来推测说话者的意思,就是语音识别。这样说来,如果接收端是一台计算机而不是人的话,那么计算机要做的就是语音的自动识别。同样,在计算 机中,如果我们要根据接收到的英语信息,推测说话者的汉语意思,就是机器翻译; 如果我们要根据带有拼写错误的语句推测说话者想表达的正确意思,那就是自动纠错。
那么怎么根据接收到的信息来推测说话者想表达的意思呢?我们可以利用叫做“隐含马尔可夫模型” (Hidden Markov Model)来解决这些问题。以语音识别为例,当我们观测到语音信号 o1,o2,o3 时,我们要根据这组信号推测出发送的句子 s1,s2,s3。显然,我们应该在所有可能的句子中找最有可能性的一个。用数学语言来描述,就是在已知 o1,o2,o3,...的情况下,求使得条件概率
P (s1,s2,s3,...|o1,o2,o3....) 达到最大值的那个句子 s1,s2,s3,...
当然,上面的概率不容易直接求出,于是我们可以间接地计算它。利用贝叶斯公式并且省掉一个常数项,可以把上述公式等价变换成
P(o1,o2,o3,...|s1,s2,s3....) * P(s1,s2,s3,...)
其中
P(o1,o2,o3,...|s1,s2,s3....) 表示某句话 s1,s2,s3...被读成 o1,o2,o3,...的可能性, 而
P(s1,s2,s3,...) 表示字串 s1,s2,s3,...本身能够成为一个合乎情理的句子的可能性,所以这个公式的意义是用发送信号为 s1,s2,s3...这个数列的可能性乘以 s1,s2,s3...本身可以一个句子的可能性,得出概率。
(读者读到这里也许会问,你现在是不是把问题变得更复杂了,因为公式越写越长了。别着急,我们现在就来简化这个问题。)我们在这里做两个假设:
第一,s1,s2,s3,... 是一个马尔可夫链,也就是说,si 只由 si-1 决定 (详见系列一);
第二, 第 i 时刻的接收信号 oi 只由发送信号 si 决定(又称为独立输出假设, 即 P(o1,o2,o3,...|s1,s2,s3....) = P(o1|s1) * P(o2|s2)*P(o3|s3)...。
那么我们就可以很容易利用算法 Viterbi 找出上面式子的最大值,进而找出要识别的句子 s1,s2,s3,...。
满足上述两个假设的模型就叫隐含马尔可夫模型。我们之所以用“隐含”这个词,是因为状态 s1,s2,s3,...是无法直接观测到的。
隐 含马尔可夫模型的应用远不只在语音识别中。在上面的公式中,如果我们把 s1,s2,s3,...当成中文,把 o1,o2,o3,...当成对应的英文,那么我们就能利用这个模型解决机器翻译问题; 如果我们把 o1,o2,o3,...当成扫描文字得到的图像特征,就能利用这个模型解决印刷体和手写体的识别。
P (o1,o2,o3,...|s1,s2,s3....) 根据应用的不同而又不同的名称,在语音识别中它被称为“声学模型” (Acoustic Model), 在机器翻译中是“翻译模型” (Translation Model) 而在拼写校正中是“纠错模型” (Correction Model)。 而P (s1,s2,s3,...) 就是我们在系列一中提到的语言模型。
在利用隐含马尔可夫模型解决语言处理问题前,先要进行模型的训练。 常用的训练方法由伯姆(Baum)在60年代提出的,并以他的名字命名。隐含马尔可夫模型在处理语言问题早期的成功应用是语音识别。七十年代,当时 IBM 的 Fred Jelinek (贾里尼克) 和卡内基·梅隆大学的 Jim and Janet Baker (贝克夫妇, 李开复的师兄师姐) 分别独立地提出用隐含马尔可夫模型来识别语音,语音识别的错误率相比人工智能和模式匹配等方法降低了三倍 (从 30% 到 10%)。 八十年代李开复博士坚持采用隐含马尔可夫模型的框架, 成功地开发了世界上第一个大词汇量连续语音识别系统 Sphinx。
我 最早接触到隐含马尔可夫模型是几乎二十年前的事。那时在《随机过程》(清华“著名”的一门课)里学到这个模型,但当时实在想不出它有什么实际用途。几年 后,我在清华跟随王作英教授学习、研究语音识别时,他给了我几十篇文献。 我印象最深的就是贾里尼克和李开复的文章,它们的核心思想就是隐含马尔可夫模型。复杂的语音识别问题居然能如此简单地被表述、解决,我由衷地感叹数学模型 之妙。
前言:隐含马尔可夫模型是一个数学模型,到目前为之,它一直被认为是实现快速精确的语音识别系统的最成功的方法。复杂的语音识别问题通过隐含马尔可夫模型能非常简单地被表述、解决,让我不由由衷地感叹数学模型之妙。
自 然语言是人类交流信息的工具。很多自然语言处理问题都可以等同于通信系统中的解码问题 -- 一个人根据接收到的信息,去猜测发话人要表达的意思。这其实就象通信中,我们根据接收端收到的信号去分析、理解、还原发送端传送过来的信息。以下该图就表 示了一个典型的通信系统:

其中 s1,s2,s3...表示信息源发出的信号。o1, o2, o3 ... 是接受器接收到的信号。通信中的解码就是根据接收到的信号 o1, o2, o3 ...还原出发送的信号 s1,s2,s3...。
其 实我们平时在说话时,脑子就是一个信息源。我们的喉咙(声带),空气,就是如电线和光缆般的信道。听众耳朵的就是接收端,而听到的声音就是传送过来的信 号。根据声学信号来推测说话者的意思,就是语音识别。这样说来,如果接收端是一台计算机而不是人的话,那么计算机要做的就是语音的自动识别。同样,在计算 机中,如果我们要根据接收到的英语信息,推测说话者的汉语意思,就是机器翻译; 如果我们要根据带有拼写错误的语句推测说话者想表达的正确意思,那就是自动纠错。
那么怎么根据接收到的信息来推测说话者想表达的意思呢?我们可以利用叫做“隐含马尔可夫模型” (Hidden Markov Model)来解决这些问题。以语音识别为例,当我们观测到语音信号 o1,o2,o3 时,我们要根据这组信号推测出发送的句子 s1,s2,s3。显然,我们应该在所有可能的句子中找最有可能性的一个。用数学语言来描述,就是在已知 o1,o2,o3,...的情况下,求使得条件概率
P (s1,s2,s3,...|o1,o2,o3....) 达到最大值的那个句子 s1,s2,s3,...
当然,上面的概率不容易直接求出,于是我们可以间接地计算它。利用贝叶斯公式并且省掉一个常数项,可以把上述公式等价变换成
P(o1,o2,o3,...|s1,s2,s3....) * P(s1,s2,s3,...)
其中
P(o1,o2,o3,...|s1,s2,s3....) 表示某句话 s1,s2,s3...被读成 o1,o2,o3,...的可能性, 而
P(s1,s2,s3,...) 表示字串 s1,s2,s3,...本身能够成为一个合乎情理的句子的可能性,所以这个公式的意义是用发送信号为 s1,s2,s3...这个数列的可能性乘以 s1,s2,s3...本身可以一个句子的可能性,得出概率。
(读者读到这里也许会问,你现在是不是把问题变得更复杂了,因为公式越写越长了。别着急,我们现在就来简化这个问题。)我们在这里做两个假设:
第一,s1,s2,s3,... 是一个马尔可夫链,也就是说,si 只由 si-1 决定 (详见系列一);
第二, 第 i 时刻的接收信号 oi 只由发送信号 si 决定(又称为独立输出假设, 即 P(o1,o2,o3,...|s1,s2,s3....) = P(o1|s1) * P(o2|s2)*P(o3|s3)...。
那么我们就可以很容易利用算法 Viterbi 找出上面式子的最大值,进而找出要识别的句子 s1,s2,s3,...。
满足上述两个假设的模型就叫隐含马尔可夫模型。我们之所以用“隐含”这个词,是因为状态 s1,s2,s3,...是无法直接观测到的。
隐 含马尔可夫模型的应用远不只在语音识别中。在上面的公式中,如果我们把 s1,s2,s3,...当成中文,把 o1,o2,o3,...当成对应的英文,那么我们就能利用这个模型解决机器翻译问题; 如果我们把 o1,o2,o3,...当成扫描文字得到的图像特征,就能利用这个模型解决印刷体和手写体的识别。
P (o1,o2,o3,...|s1,s2,s3....) 根据应用的不同而又不同的名称,在语音识别中它被称为“声学模型” (Acoustic Model), 在机器翻译中是“翻译模型” (Translation Model) 而在拼写校正中是“纠错模型” (Correction Model)。 而P (s1,s2,s3,...) 就是我们在系列一中提到的语言模型。
在利用隐含马尔可夫模型解决语言处理问题前,先要进行模型的训练。 常用的训练方法由伯姆(Baum)在60年代提出的,并以他的名字命名。隐含马尔可夫模型在处理语言问题早期的成功应用是语音识别。七十年代,当时 IBM 的 Fred Jelinek (贾里尼克) 和卡内基·梅隆大学的 Jim and Janet Baker (贝克夫妇, 李开复的师兄师姐) 分别独立地提出用隐含马尔可夫模型来识别语音,语音识别的错误率相比人工智能和模式匹配等方法降低了三倍 (从 30% 到 10%)。 八十年代李开复博士坚持采用隐含马尔可夫模型的框架, 成功地开发了世界上第一个大词汇量连续语音识别系统 Sphinx。
我 最早接触到隐含马尔可夫模型是几乎二十年前的事。那时在《随机过程》(清华“著名”的一门课)里学到这个模型,但当时实在想不出它有什么实际用途。几年 后,我在清华跟随王作英教授学习、研究语音识别时,他给了我几十篇文献。 我印象最深的就是贾里尼克和李开复的文章,它们的核心思想就是隐含马尔可夫模型。复杂的语音识别问题居然能如此简单地被表述、解决,我由衷地感叹数学模型 之妙。
数学之美 系列二 -- 谈谈中文分词
发表者: 吴军, Google 研究员
上回我们谈到利用统计语言模型进行语言处理,由于模型是建立在词的基础上的,对于中日韩等语言,首先需要进行分词。例如把句子 “中国航天官员应邀到美国与太空总署官员开会。”
分成一串词:
中国 / 航天 / 官员 / 应邀 / 到 / 美国 / 与 / 太空 / 总署 / 官员 / 开会。
最容易想到的,也是最简单的分词办法就是查字典。这种方法最早是由北京航天航空大学的梁南元教授提出的。
用 “查字典” 法,其实就是我们把一个句子从左向右扫描一遍,遇到字典里有的词就标识出来,遇到复合词(比如 “上海大学”)就找最长的词匹配,遇到不认识的字串就分割成单字词,于是简单的分词就完成了。这种简单的分词方法完全能处理上面例子中的句子。八十年代,哈工大的王晓龙博士把 它理论化,发展成最少词数的分词理论,即一句话应该分成数量最少的词串。这种方法一个明显的不足是当遇到有二义性 (有双重理解意思)的分割时就无能为力了。比如,对短语 “发展中国家” 正确的分割是“发展-中-国家”,而从左向右查字典的办法会将它分割成“发展-中国-家”,显然是错了。另外,并非所有的最长匹配都一定是正确的。比如 “上海大学城书店”的正确分词应该是 “上海-大学城-书店,” 而不是 “上海大学-城-书店”。
九十年代以前,海内外不少学者试图用一些文法规则来解决分词的二义性问题,都不是很成功。90年前后,清华大学的郭进博士用统计语言模型成功解决分词二义性问题,将汉语分词的错误率降低了一个数量级。
利用统计语言模型分词的方法,可以用几个数学公式简单概括如下:
我们假定一个句子S可以有几种分词方法,为了简单起见我们假定有以下三种:
A1, A2, A3, ..., Ak,
B1, B2, B3, ..., Bm
C1, C2, C3, ..., Cn
其中,A1, A2, B1, B2, C1, C2 等等都是汉语的词。那么最好的一种分词方法应该保证分完词后这个句子出现的概率最大。也就是说如果 A1,A2,..., Ak 是最好的分法,那么 (P 表示概率):
P (A1, A2, A3, ..., Ak) 〉 P (B1, B2, B3, ..., Bm), 并且
P (A1, A2, A3, ..., Ak) 〉 P(C1, C2, C3, ..., Cn)
因此,只要我们利用上回提到的统计语言模型计算出每种分词后句子出现的概率,并找出其中概率最大的,我们就能够找到最好的分词方法。
当然,这里面有一个实现的技巧。如果我们穷举所有可能的分词方法并计算出每种可能性下句子的概率,那么计算量是相当大的。因此,我们可以把它看成是一个动态规划(Dynamic Programming) 的问题,并利用 “维特比”(Viterbi) 算法快速地找到最佳分词。
在清华大学的郭进博士以后,海内外不少学者利用统计的方法,进一步完善中文分词。其中值得一提的是清华大学孙茂松教授和香港科技大学吴德凯教授的工作。
需 要指出的是,语言学家对词语的定义不完全相同。比如说 “北京大学”,有人认为是一个词,而有人认为该分成两个词。一个折中的解决办法是在分词的同时,找到复合词的嵌套结构。在上面的例子中,如果一句话包含 “北京大学”四个字,那么先把它当成一个四字词,然后再进一步找出细分词 “北京” 和 “大学”。这种方法是最早是郭进在 “Computational Linguistics” (《计算机语言学》)杂志上发表的,以后不少系统采用这种方法。
一般来讲,根 据不同应用,汉语分词的颗粒度大小应该不同。比如,在机器翻译中,颗粒度应该大一些,“北京大学”就不能被分成两个词。而在语音识别中,“北京大学”一般 是被分成两个词。因此,不同的应用,应该有不同的分词系统。Google 的葛显平博士和朱安博士,专门为搜索设计和实现了自己的分词系统。
也 许你想不到,中文分词的方法也被应用到英语处理,主要是手写体识别中。因为在识别手写体时,单词之间的空格就不很清楚了。中文分词方法可以帮助判别英语单 词的边界。其实,语言处理的许多数学方法通用的和具体的语言无关。在 Google 内,我们在设计语言处理的算法时,都会考虑它是否能很容易地适用于各种自然语言。这样,我们才能有效地支持上百种语言的搜索。
对中文分词有兴趣的读者,可以阅读以下文献:
1. 梁南元
书面汉语自动分词系统
http://www.touchwrite.com/demo/LiangNanyuan-JCIP-1987.pdf
2. 郭进
统计语言模型和汉语音字转换的一些新结果
http://www.touchwrite.com/demo/GuoJin-JCIP-1993.pdf
3. 郭进
Critical Tokenization and its Properties
http://acl.ldc.upenn.edu/J/J97/J97-4004.pdf
4. 孙茂松
Chinese word segmentation without using lexicon and hand-crafted training data
http://portal.acm.org/citation.cfm?coll=GUIDE&dl=GUIDE&id=980775
上回我们谈到利用统计语言模型进行语言处理,由于模型是建立在词的基础上的,对于中日韩等语言,首先需要进行分词。例如把句子 “中国航天官员应邀到美国与太空总署官员开会。”
分成一串词:
中国 / 航天 / 官员 / 应邀 / 到 / 美国 / 与 / 太空 / 总署 / 官员 / 开会。
最容易想到的,也是最简单的分词办法就是查字典。这种方法最早是由北京航天航空大学的梁南元教授提出的。
用 “查字典” 法,其实就是我们把一个句子从左向右扫描一遍,遇到字典里有的词就标识出来,遇到复合词(比如 “上海大学”)就找最长的词匹配,遇到不认识的字串就分割成单字词,于是简单的分词就完成了。这种简单的分词方法完全能处理上面例子中的句子。八十年代,哈工大的王晓龙博士把 它理论化,发展成最少词数的分词理论,即一句话应该分成数量最少的词串。这种方法一个明显的不足是当遇到有二义性 (有双重理解意思)的分割时就无能为力了。比如,对短语 “发展中国家” 正确的分割是“发展-中-国家”,而从左向右查字典的办法会将它分割成“发展-中国-家”,显然是错了。另外,并非所有的最长匹配都一定是正确的。比如 “上海大学城书店”的正确分词应该是 “上海-大学城-书店,” 而不是 “上海大学-城-书店”。
九十年代以前,海内外不少学者试图用一些文法规则来解决分词的二义性问题,都不是很成功。90年前后,清华大学的郭进博士用统计语言模型成功解决分词二义性问题,将汉语分词的错误率降低了一个数量级。
利用统计语言模型分词的方法,可以用几个数学公式简单概括如下:
我们假定一个句子S可以有几种分词方法,为了简单起见我们假定有以下三种:
A1, A2, A3, ..., Ak,
B1, B2, B3, ..., Bm
C1, C2, C3, ..., Cn
其中,A1, A2, B1, B2, C1, C2 等等都是汉语的词。那么最好的一种分词方法应该保证分完词后这个句子出现的概率最大。也就是说如果 A1,A2,..., Ak 是最好的分法,那么 (P 表示概率):
P (A1, A2, A3, ..., Ak) 〉 P (B1, B2, B3, ..., Bm), 并且
P (A1, A2, A3, ..., Ak) 〉 P(C1, C2, C3, ..., Cn)
因此,只要我们利用上回提到的统计语言模型计算出每种分词后句子出现的概率,并找出其中概率最大的,我们就能够找到最好的分词方法。
当然,这里面有一个实现的技巧。如果我们穷举所有可能的分词方法并计算出每种可能性下句子的概率,那么计算量是相当大的。因此,我们可以把它看成是一个动态规划(Dynamic Programming) 的问题,并利用 “维特比”(Viterbi) 算法快速地找到最佳分词。
在清华大学的郭进博士以后,海内外不少学者利用统计的方法,进一步完善中文分词。其中值得一提的是清华大学孙茂松教授和香港科技大学吴德凯教授的工作。
需 要指出的是,语言学家对词语的定义不完全相同。比如说 “北京大学”,有人认为是一个词,而有人认为该分成两个词。一个折中的解决办法是在分词的同时,找到复合词的嵌套结构。在上面的例子中,如果一句话包含 “北京大学”四个字,那么先把它当成一个四字词,然后再进一步找出细分词 “北京” 和 “大学”。这种方法是最早是郭进在 “Computational Linguistics” (《计算机语言学》)杂志上发表的,以后不少系统采用这种方法。
一般来讲,根 据不同应用,汉语分词的颗粒度大小应该不同。比如,在机器翻译中,颗粒度应该大一些,“北京大学”就不能被分成两个词。而在语音识别中,“北京大学”一般 是被分成两个词。因此,不同的应用,应该有不同的分词系统。Google 的葛显平博士和朱安博士,专门为搜索设计和实现了自己的分词系统。
也 许你想不到,中文分词的方法也被应用到英语处理,主要是手写体识别中。因为在识别手写体时,单词之间的空格就不很清楚了。中文分词方法可以帮助判别英语单 词的边界。其实,语言处理的许多数学方法通用的和具体的语言无关。在 Google 内,我们在设计语言处理的算法时,都会考虑它是否能很容易地适用于各种自然语言。这样,我们才能有效地支持上百种语言的搜索。
对中文分词有兴趣的读者,可以阅读以下文献:
1. 梁南元
书面汉语自动分词系统
http://www.touchwrite.com/demo/LiangNanyuan-JCIP-1987.pdf
2. 郭进
统计语言模型和汉语音字转换的一些新结果
http://www.touchwrite.com/demo/GuoJin-JCIP-1993.pdf
3. 郭进
Critical Tokenization and its Properties
http://acl.ldc.upenn.edu/J/J97/J97-4004.pdf
4. 孙茂松
Chinese word segmentation without using lexicon and hand-crafted training data
http://portal.acm.org/citation.cfm?coll=GUIDE&dl=GUIDE&id=980775
数学之美 系列一 -- 统计语言模型
发表者: 吴军, Google 研究员
Google 的使命是整合全球的信息,所以我们一直致力于研究如何让机器对信息、语言做最好的理解和处理。长期以来,人类一直梦想着能让机器代替人来翻译语言、识别语 音、认识文字(不论是印刷体或手写体)和进行海量文献的自动检索,这就需要让机器理解语言。但是人类的语言可以说是信息里最复杂最动态的一部分。为了解决 这个问题,人们容易想到的办法就是让机器模拟人类进行学习 - 学习人类的语法、分析语句等等。尤其是在乔姆斯基(Noam Chomsky 有史以来最伟大的语言学家)提出 “形式语言” 以后,人们更坚定了利用语法规则的办法进行文字处理的信念。遗憾的是,几十年过去了,在计算机处理语言领域,基于这个语法规则的方法几乎毫无突破。
其实早在几十年前,数学家兼信息论的祖师爷 香农 (Claude Shannon)就提出了用数学的办法处理自然语言的想法。遗憾的是当时的计算机条件根本无法满足大量信息处理的需要,所以他这个想法当时并没有被人们重视。七十年代初,有了大规模集成电路的快速计算机后,香农的梦想才得以实现。
首先成功利用数学方法解决自然语言处理问题的是语音和语言处理大师贾里尼克 (Fred Jelinek)。当时贾里尼克在 IBM 公司做学术休假 (Sabbatical Leave),领导了一批杰出的科学家利用大型计算机来处理人类语言问题。统计语言模型就是在那个时候提出的。
给大家举个例子:在很多涉及到自然语言处理的领域,如机器翻译、语音识别、印刷体或手写体识别、拼写纠错、汉字输入和文献查询中,我们都需要知道一个文字序列是否能构成一个大家能理解的句子,显示给使用者。对这个问题,我们可以用一个简单的统计模型来解决这个问题。
如 果 S 表示一连串特定顺序排列的词 w1, w2,…, wn ,换句话说,S 可以表示某一个由一连串特定顺序排练的词而组成的一个有意义的句子。现在,机器对语言的识别从某种角度来说,就是想知道S在文本中出现的可能性,也就是数 学上所说的S 的概率用 P(S) 来表示。利用条件概率的公式,S 这个序列出现的概率等于每一个词出现的概率相乘,于是P(S) 可展开为:
P(S) = P(w1)P(w2|w1)P(w3| w1 w2)…P(wn|w1 w2…wn-1)
其 中 P (w1) 表示第一个词w1 出现的概率;P (w2|w1) 是在已知第一个词的前提下,第二个词出现的概率;以次类推。不难看出,到了词wn,它的出现概率取决于它前面所有词。从计算上来看,各种可能性太多,无法 实现。因此我们假定任意一个词wi的出现概率只同它前面的词 wi-1 有关(即马尔可夫假设),于是问题就变得很简单了。现在,S 出现的概率就变为:
P(S) = P(w1)P(w2|w1)P(w3|w2)…P(wi|wi-1)…
(当然,也可以假设一个词又前面N-1个词决定,模型稍微复杂些。)
接 下来的问题就是如何估计 P (wi|wi-1)。现在有了大量机读文本后,这个问题变得很简单,只要数一数这对词(wi-1,wi) 在统计的文本中出现了多少次,以及 wi-1 本身在同样的文本中前后相邻出现了多少次,然后用两个数一除就可以了,(P(wi|wi-1) = P (wi)/[P(wi-1,wi)]。
也许很多人不相信用这么简单的数学模型能解决复杂的语音识别、机器翻译等问题。其实不光是常人,就连很多语言学家都曾质疑过这种方法的有效性,但事实证明,统计语言模型比任何已知的借助某种规则的解决方法都有效。比如在 Google 的中英文自动翻译中,用的最重要的就是这个统计语言模型。去年美国标准局(NIST) 对所有的机器翻译系统进行了评测,Google 的系统是不仅是全世界最好的,而且高出所有基于规则的系统很多。
现 在,读者也许已经能感受到数学的美妙之处了,它把一些复杂的问题变得如此的简单。当然,真正实现一个好的统计语言模型还有许多细节问题需要解决。贾里尼克 和他的同事的贡献在于提出了统计语言模型,而且很漂亮地解决了所有的细节问题。十几年后,李开复用统计语言模型把 997 词语音识别的问题简化成了一个 20 词的识别问题,实现了有史以来第一次大词汇量非特定人连续语音的识别。
我是一名科学研究人员 ,我在工作中经常惊叹于数学语言应用于解决实际问题上时的神奇。我也希望把这种神奇讲解给大家听。当然,归根结底,不管什莫样的科学方法、无论多莫奇妙的解决手段都是为人服务的。我希望 Google 多努力一分,用户就多一分搜索的喜悦。
Google 的使命是整合全球的信息,所以我们一直致力于研究如何让机器对信息、语言做最好的理解和处理。长期以来,人类一直梦想着能让机器代替人来翻译语言、识别语 音、认识文字(不论是印刷体或手写体)和进行海量文献的自动检索,这就需要让机器理解语言。但是人类的语言可以说是信息里最复杂最动态的一部分。为了解决 这个问题,人们容易想到的办法就是让机器模拟人类进行学习 - 学习人类的语法、分析语句等等。尤其是在乔姆斯基(Noam Chomsky 有史以来最伟大的语言学家)提出 “形式语言” 以后,人们更坚定了利用语法规则的办法进行文字处理的信念。遗憾的是,几十年过去了,在计算机处理语言领域,基于这个语法规则的方法几乎毫无突破。
其实早在几十年前,数学家兼信息论的祖师爷 香农 (Claude Shannon)就提出了用数学的办法处理自然语言的想法。遗憾的是当时的计算机条件根本无法满足大量信息处理的需要,所以他这个想法当时并没有被人们重视。七十年代初,有了大规模集成电路的快速计算机后,香农的梦想才得以实现。
首先成功利用数学方法解决自然语言处理问题的是语音和语言处理大师贾里尼克 (Fred Jelinek)。当时贾里尼克在 IBM 公司做学术休假 (Sabbatical Leave),领导了一批杰出的科学家利用大型计算机来处理人类语言问题。统计语言模型就是在那个时候提出的。
给大家举个例子:在很多涉及到自然语言处理的领域,如机器翻译、语音识别、印刷体或手写体识别、拼写纠错、汉字输入和文献查询中,我们都需要知道一个文字序列是否能构成一个大家能理解的句子,显示给使用者。对这个问题,我们可以用一个简单的统计模型来解决这个问题。
如 果 S 表示一连串特定顺序排列的词 w1, w2,…, wn ,换句话说,S 可以表示某一个由一连串特定顺序排练的词而组成的一个有意义的句子。现在,机器对语言的识别从某种角度来说,就是想知道S在文本中出现的可能性,也就是数 学上所说的S 的概率用 P(S) 来表示。利用条件概率的公式,S 这个序列出现的概率等于每一个词出现的概率相乘,于是P(S) 可展开为:
P(S) = P(w1)P(w2|w1)P(w3| w1 w2)…P(wn|w1 w2…wn-1)
其 中 P (w1) 表示第一个词w1 出现的概率;P (w2|w1) 是在已知第一个词的前提下,第二个词出现的概率;以次类推。不难看出,到了词wn,它的出现概率取决于它前面所有词。从计算上来看,各种可能性太多,无法 实现。因此我们假定任意一个词wi的出现概率只同它前面的词 wi-1 有关(即马尔可夫假设),于是问题就变得很简单了。现在,S 出现的概率就变为:
P(S) = P(w1)P(w2|w1)P(w3|w2)…P(wi|wi-1)…
(当然,也可以假设一个词又前面N-1个词决定,模型稍微复杂些。)
接 下来的问题就是如何估计 P (wi|wi-1)。现在有了大量机读文本后,这个问题变得很简单,只要数一数这对词(wi-1,wi) 在统计的文本中出现了多少次,以及 wi-1 本身在同样的文本中前后相邻出现了多少次,然后用两个数一除就可以了,(P(wi|wi-1) = P (wi)/[P(wi-1,wi)]。
也许很多人不相信用这么简单的数学模型能解决复杂的语音识别、机器翻译等问题。其实不光是常人,就连很多语言学家都曾质疑过这种方法的有效性,但事实证明,统计语言模型比任何已知的借助某种规则的解决方法都有效。比如在 Google 的中英文自动翻译中,用的最重要的就是这个统计语言模型。去年美国标准局(NIST) 对所有的机器翻译系统进行了评测,Google 的系统是不仅是全世界最好的,而且高出所有基于规则的系统很多。
现 在,读者也许已经能感受到数学的美妙之处了,它把一些复杂的问题变得如此的简单。当然,真正实现一个好的统计语言模型还有许多细节问题需要解决。贾里尼克 和他的同事的贡献在于提出了统计语言模型,而且很漂亮地解决了所有的细节问题。十几年后,李开复用统计语言模型把 997 词语音识别的问题简化成了一个 20 词的识别问题,实现了有史以来第一次大词汇量非特定人连续语音的识别。
我是一名科学研究人员 ,我在工作中经常惊叹于数学语言应用于解决实际问题上时的神奇。我也希望把这种神奇讲解给大家听。当然,归根结底,不管什莫样的科学方法、无论多莫奇妙的解决手段都是为人服务的。我希望 Google 多努力一分,用户就多一分搜索的喜悦。
星期日, 十月 22, 2006
农大七十年庆(zz from kolaworm)

今天是校庆
怎么说呢,这是我过过最糟糕的校庆了
想起小学,中学,大学的校庆都很荣幸的过过了
似乎跟校庆这个名词还蛮有缘的
想起小学时候的校庆,记忆很模糊,人老了就使这样,记忆力也越来越减退了
只记得当时是晚上,台上表演着为校庆准备的歌舞节目
台下的我们乖乖的看着,人人手上都拿着校庆分的小食物,吃得很开心
记得那种小蛋糕,小时候很爱吃,一下可以吃很多个
记得某晶只爱吃上面的奶油,但是我也很喜欢吃下面的蛋糕
所以她把奶油舔完了,把蛋糕送给我吃
-0-当时觉得舔过得很奇怪,不过还是吃掉了

每个方阵都有自己的颜色,我们是白色的(好像高一的就是白色的,高二的是黄色的)
当时学校操场已经有塑胶和草地了
我们是坐在草地上看表演的,每个人都要穿上校服
5月5日,日子还算记得清楚
其他就忘得一干二净了
高一算是比较郁闷的时期了,不过比初二的时候好点
大学的校庆,啊~~~~~
虽然有10块钱的免费餐券
但是过得是要有多糟有多糟
要死了一样
请的明星都因为价钱的问题一一没有来到
舞台离我们n远,连老头子说什么都完全听不到
太阳又把人晒得要死
而且下午还要听那什么狗屁讲座
累都累死了>_<
反正就是烦躁就对了
-0-人烦躁了脾气就会不好啊~~~
calm down~calm down~
星期三, 十月 18, 2006
星期一, 十月 16, 2006
被接收了,但麻烦的事情开始了。
昨天晚上的时候,钟鸣学长就发短信过来看情况怎么样了,并打算今天晚上过来聚聚。
觉得自己满幸运的,一来中大就有学长们过来帮忙,引路,介绍。
很感谢大家对我的帮忙。
晚上就陪钟鸣,子聪,林智,超群一起到小北门那吃了顿饭。然后在中大校园里到处逛了一下。
后来有到汤老师那里走了一下,很碰巧,里面一个博士生就是给我面试时的秘书员。然后我就早上争辩的问题跟他再讨论了一下。他也觉得早上老师说的话可能有些不太妥当。
后来就开始聊到名额的问题,他突然提了一下,汤老师很受欢迎,今年名额已经定得差不多了。
哎,麻烦的事情就开始了,现在要找导师确认啊。晚上还是在餐桌上从子聪学长那得到汤老师的电话。可惜,打不通啊。
开始了疲累的征程。真郁闷。
觉得自己满幸运的,一来中大就有学长们过来帮忙,引路,介绍。
很感谢大家对我的帮忙。
晚上就陪钟鸣,子聪,林智,超群一起到小北门那吃了顿饭。然后在中大校园里到处逛了一下。
后来有到汤老师那里走了一下,很碰巧,里面一个博士生就是给我面试时的秘书员。然后我就早上争辩的问题跟他再讨论了一下。他也觉得早上老师说的话可能有些不太妥当。
后来就开始聊到名额的问题,他突然提了一下,汤老师很受欢迎,今年名额已经定得差不多了。
哎,麻烦的事情就开始了,现在要找导师确认啊。晚上还是在餐桌上从子聪学长那得到汤老师的电话。可惜,打不通啊。
开始了疲累的征程。真郁闷。
哇卡卡,变身快成功了
哈,早上七点多就醒了。爬起来,感觉空气还是很闷,气氛很压抑。
随便吃了点东西就去信A报到了。
被排到第二组的第九个(倒数第二),有点郁闷啊,要等挺久的。
开始了漫长的等待,出来一个就紧张的凑过去,看里面都问了些什么问题。
但,每次的答案都不一样。心里反而就更加担心了。
不过,紧张都是徒劳的,一进去,也要我将自己的英文介绍缩短到一分钟。
汗,幸亏前两个的人就被这么要求了一次,心里就有了准备,轻松搞定。
哈,接下来的问题就更加轻松了,
问了兴趣,接下来的打算,还有就是数理逻辑关于命题逻辑中可靠性和完备性的定义,以及其证明。还有就是问了一个关于操作系统的功能。
其他就没有了,感觉自己是占到了主动,话题都是由我自己提起,并且都给了较为满意的答案。
总之,不管结果如何,这次面试算是给我信心了。我当时就有这样的感觉,是自己在控制面试的进度。
哈哈,过去了,就爽了,不管结果如何都一样。感谢一下周围朋友的关心和支持。谢谢大家。
随便吃了点东西就去信A报到了。
被排到第二组的第九个(倒数第二),有点郁闷啊,要等挺久的。
开始了漫长的等待,出来一个就紧张的凑过去,看里面都问了些什么问题。
但,每次的答案都不一样。心里反而就更加担心了。
不过,紧张都是徒劳的,一进去,也要我将自己的英文介绍缩短到一分钟。
汗,幸亏前两个的人就被这么要求了一次,心里就有了准备,轻松搞定。
哈,接下来的问题就更加轻松了,
问了兴趣,接下来的打算,还有就是数理逻辑关于命题逻辑中可靠性和完备性的定义,以及其证明。还有就是问了一个关于操作系统的功能。
其他就没有了,感觉自己是占到了主动,话题都是由我自己提起,并且都给了较为满意的答案。
总之,不管结果如何,这次面试算是给我信心了。我当时就有这样的感觉,是自己在控制面试的进度。
哈哈,过去了,就爽了,不管结果如何都一样。感谢一下周围朋友的关心和支持。谢谢大家。
星期日, 十月 15, 2006
中山大学鬼传说
中山大学鬼传说:
1、永芳堂
传说一:
里面存放孙中山的衣冠冢,但是其实不是孙中山的,是永芳公司个老老板的爷爷的衣冠。永芳堂的设计是好像一个墓那样,呈八字型向两边伸展,还有贤人像若干守灵。传闻有份起永芳堂的设计师等人,一年内全部死光。而且永芳堂刚刚起好的时候,八字型两撇所指之处,草木皆死。有人话这座野是把中大风水全部拿光。
传说二:
永芳堂下面有女尸是建筑老板的女儿名字有个芳字,所以叫永芳堂,意思是芳永远睡在里面,时不时会传出来女人声音,还有就是上永芳堂的楼梯,早上数和下午数系是不一样的,但是我没有去数过....外面有18铜像,每个铜像有一个锁链锁住,如果有人发现了那一个铜像没有锁链的话就会有教授或学生死于非命。好邪们的。
2、文科大楼
文科楼的正门是永远不开的,因为每开一次,中大就会死一个教授。
有人话起楼的时候,挖到两个小孩子的尸体,刚刚好那个时候,正门有开,有人在那个门口入去就会见到两个小孩子在那里玩,但是一转身就不见了,而且不久就会感到给人在后面好大力的拍一下背脊,但是转身是什么人都没有的……
在文科楼出面行经过正门,有人曾经见过有两个小孩子在铁闸同玻璃门后面眼定定地住出面…… 3、领南堂
位于中山大学的正门主干道路上面,把正门(南门)和后门(北门)正正地挡住,所以建筑期间有不少民工死于非命,连设计的人也变成疯疯癫癫,于是请来术士看看风水,发现正门和后面直通,杀气,涙气在中大畅通无阻,此建筑乃挡刹之物,但是设计有误,使杀气会聚在里面,于是建筑工程受拖延,出了人命,只有建筑成玻璃外墙,才能挡回杀气,也可以搞好中大风水
1、永芳堂
传说一:
里面存放孙中山的衣冠冢,但是其实不是孙中山的,是永芳公司个老老板的爷爷的衣冠。永芳堂的设计是好像一个墓那样,呈八字型向两边伸展,还有贤人像若干守灵。传闻有份起永芳堂的设计师等人,一年内全部死光。而且永芳堂刚刚起好的时候,八字型两撇所指之处,草木皆死。有人话这座野是把中大风水全部拿光。
传说二:
永芳堂下面有女尸是建筑老板的女儿名字有个芳字,所以叫永芳堂,意思是芳永远睡在里面,时不时会传出来女人声音,还有就是上永芳堂的楼梯,早上数和下午数系是不一样的,但是我没有去数过....外面有18铜像,每个铜像有一个锁链锁住,如果有人发现了那一个铜像没有锁链的话就会有教授或学生死于非命。好邪们的。
2、文科大楼
文科楼的正门是永远不开的,因为每开一次,中大就会死一个教授。
有人话起楼的时候,挖到两个小孩子的尸体,刚刚好那个时候,正门有开,有人在那个门口入去就会见到两个小孩子在那里玩,但是一转身就不见了,而且不久就会感到给人在后面好大力的拍一下背脊,但是转身是什么人都没有的……
在文科楼出面行经过正门,有人曾经见过有两个小孩子在铁闸同玻璃门后面眼定定地住出面…… 3、领南堂
位于中山大学的正门主干道路上面,把正门(南门)和后门(北门)正正地挡住,所以建筑期间有不少民工死于非命,连设计的人也变成疯疯癫癫,于是请来术士看看风水,发现正门和后面直通,杀气,涙气在中大畅通无阻,此建筑乃挡刹之物,但是设计有误,使杀气会聚在里面,于是建筑工程受拖延,出了人命,只有建筑成玻璃外墙,才能挡回杀气,也可以搞好中大风水
星期六, 十月 14, 2006
星期日, 十月 08, 2006
星期五, 十月 06, 2006
老公增加零花钱的请示
老婆同志:
为进一步增进夫妻感情,确保本人形象不致毁于一旦,适当保留男子汉尊严,本着“挣多挣少,不花最好”的治家原则,现请求将本月零花钱由20元调整为100元,具体理由如下:
一、我的自行车已经伴我多年,要是没记错的话,是孩子没生的头几年买的,现在孩子已经13,每次出行时,我一个人骑已经处于超负荷状态,更何况每 天孩子还要与我共乘,其负担可想而知,近一段时间以来,它已经多次向我罢工示意,为此,也曾提出书面报修申请数十次之多,每次你均以“坚持一下再说”为借 口,一直未予批准,16日早晨上班途中,它老人家终于不堪重负,趴窝了,我连扛带拽长途奔波了40多家修车铺,均表示已无修理价值,并且卖破烂人家都不 收,为此,我只得咬牙,花了1元钱坐车上班,不是我擅自花钱坐车,如果上班迟到,罚的钱要比这坐车的钱要多得多,所以自作主张一把,如有不妥,可从本次下 拨零花钱中扣除,为此,如有可能,我想用30元买个“除铃儿不响哪都响”的二手车改善一下出行条件。
二、17日中午单位停电,科里一行10人出去吃饭,我假装喝多逃避买单的计划意外失手,其实也不是我愣装大眼儿,本来有人买单,因为实在找不开零 钱,我一时糊涂,乘着酒劲儿,将手里仅有的20元钱给了他,要知道这20元钱是晚上给孩子交的牛奶钱,没办法,下班前,我只得向老张借了20元钱,这两天 他已向我催要多次,你知道,他们家那位和你一样,对老公管得特别细致,尤其是在经济方面,有时他的兜里甚至比我还干净。因为是请客,这20元钱已无要回可 能,看在老张老婆和你一个单位的面子上,也看在我常年白吃白喝不买单的面子上,这20元钱你还是批了吧。
三、上个月你过生日,结婚以来我第一次给你送了一束玫瑰花,本来是想讨你欢心,也为这次申请增加零花钱做好铺垫工作,不料你却以乱花钱为由,和我 促膝长谈到深夜,直到我说花是从单位花瓶里偷拿的,你才罢休,说实话,那花真是买的,而且花了20块钱,2块钱一枝,本来想买9朵,表示我和你天长地久, 可是人家花店老板说还是实心实意好,我就下狠心买了10枝,谁料想竟是那样的结果,可怜的是这20元钱也是从老张那借的,那次我和他说这个月还,现在都快 月底了,他催了又催,再加上前面的20元钱,他都有点不耐烦了,这件事就算我一时糊涂,买花也是为了表达我的一片忠心,所以这20元钱你也批了吧。
四、前面三条所涉及的钱款是80元,再加上20元的每月固定零花钱,总计100元。
为进一步增进夫妻感情,确保本人形象不致毁于一旦,适当保留男子汉尊严,本着“挣多挣少,不花最好”的治家原则,现请求将本月零花钱由20元调整为100元,具体理由如下:
一、我的自行车已经伴我多年,要是没记错的话,是孩子没生的头几年买的,现在孩子已经13,每次出行时,我一个人骑已经处于超负荷状态,更何况每 天孩子还要与我共乘,其负担可想而知,近一段时间以来,它已经多次向我罢工示意,为此,也曾提出书面报修申请数十次之多,每次你均以“坚持一下再说”为借 口,一直未予批准,16日早晨上班途中,它老人家终于不堪重负,趴窝了,我连扛带拽长途奔波了40多家修车铺,均表示已无修理价值,并且卖破烂人家都不 收,为此,我只得咬牙,花了1元钱坐车上班,不是我擅自花钱坐车,如果上班迟到,罚的钱要比这坐车的钱要多得多,所以自作主张一把,如有不妥,可从本次下 拨零花钱中扣除,为此,如有可能,我想用30元买个“除铃儿不响哪都响”的二手车改善一下出行条件。
二、17日中午单位停电,科里一行10人出去吃饭,我假装喝多逃避买单的计划意外失手,其实也不是我愣装大眼儿,本来有人买单,因为实在找不开零 钱,我一时糊涂,乘着酒劲儿,将手里仅有的20元钱给了他,要知道这20元钱是晚上给孩子交的牛奶钱,没办法,下班前,我只得向老张借了20元钱,这两天 他已向我催要多次,你知道,他们家那位和你一样,对老公管得特别细致,尤其是在经济方面,有时他的兜里甚至比我还干净。因为是请客,这20元钱已无要回可 能,看在老张老婆和你一个单位的面子上,也看在我常年白吃白喝不买单的面子上,这20元钱你还是批了吧。
三、上个月你过生日,结婚以来我第一次给你送了一束玫瑰花,本来是想讨你欢心,也为这次申请增加零花钱做好铺垫工作,不料你却以乱花钱为由,和我 促膝长谈到深夜,直到我说花是从单位花瓶里偷拿的,你才罢休,说实话,那花真是买的,而且花了20块钱,2块钱一枝,本来想买9朵,表示我和你天长地久, 可是人家花店老板说还是实心实意好,我就下狠心买了10枝,谁料想竟是那样的结果,可怜的是这20元钱也是从老张那借的,那次我和他说这个月还,现在都快 月底了,他催了又催,再加上前面的20元钱,他都有点不耐烦了,这件事就算我一时糊涂,买花也是为了表达我的一片忠心,所以这20元钱你也批了吧。
四、前面三条所涉及的钱款是80元,再加上20元的每月固定零花钱,总计100元。
星期四, 十月 05, 2006
订阅:
博文 (Atom)