什么是汉语分词?
分词的提出和定义
汉语文本是基于单字的,汉语的书面表达方式也是以汉字作为最小单位的,词与词之间没有显性的界限标志,因此分词是汉语文本分析处理中首先要解决的问题
添加合适的显性的词语边界标志使得所形成的词串反映句子的本意,这个过程就是通常所说的分词
~~~~~~~~~~~~~~~~~~~~~~~
分词的意义
正确的机器自动分词是正确的中文信息处理的基础
~~~~~~~~~~~~~~~~~~~~~~~
文本检索
和服 | 务 | 于三日后裁制完毕,并呈送将军府中。
王府饭店的设施 | 和 | 服务 | 是一流的。如果不分词或者“和服务”分词有误,都会导致荒谬的检索结果。
文语转换
他们是来 | 查 | 金泰 | 撞人那件事的。(“查”读音为cha)
行侠仗义的 | 查金泰 | 远近闻名。(“查”读音为zha)
~~~~~~~~~~~~~~~~~~~~~~~
分词面临的主要难题
如何面向大规模开放应用是汉语分词研究亟待解决的主要问题
如何识别未登录词
如何低廉地获取语言学知识
词语边界歧义处理
实时性应用中的效率问题
~~~~~~~~~~~~~~~~~~~~~~~
分词歧义
交集型切分歧义
组合型切分歧义
~~~~~~~~~~~~~~~~~~~~~~~
分词规范
词是自然语言的一种客观存在
汉语书写过程中并不分词连写,对词组和词、单字语素和单字词的划分因人而异,甚至因时而异
汉语信息处理现在需要制订统一的分词标准,否则将严重影响计算机的处理
《信息处理用现代汉语分词规范及自动分词方法》:结合紧密、使用频繁
~~~~~~~~~~~~~~~~~~~~~~~
具体的分词标准实例
二字或三字词,以及结合紧密、使用稳定的:发展 可爱 红旗 对不起 自行车 青霉素
四字成语一律为分词单位:胸有成竹 欣欣向荣
四字词或结合紧密、使用稳定的四字词组:社会主义 春夏秋冬 由此可见
五字和五字以上的谚语、格言等,分开后如不违背原有组合的意义,应予切分:
时间/就/是/生命/
失败/是/成功/之/母
结合紧密、使用稳定的词组则不予切分:不管三七二十一
惯用语和有转义的词或词组,在转义的语言环境下,一律为分词单位:
妇女能顶/半边天/
他真小气,象个/铁公鸡/
略语一律为分词单位:科技 奥运会 工农业
分词单位加形成儿化音的“儿” :花儿 悄悄儿 玩儿
阿拉伯数字等,仍保留原有形式:1234 7890
现代汉语中其它语言的汉字音译外来词,不予切分:巧克力 吉普
不同的语言环境中的同形异构现象,按照具体语言环境的语义进行切分:
把/手/抬起来
这个/把手/是木制的