找回密码
 注册账户
查看: 80282|回复: 1

俞士汶教授谈中文语言处理(二)

[复制链接]
棋子 发表于 2007-7-13 14:27:36 | 显示全部楼层 |阅读模式
俞士汶教授谈中文语言处理(二)

作者:俞士汶 北大教授 客座博客

3、中文分词技术当前面临的主要挑战是什么?互联网的发展和计算能力的提升对其发展有何帮助?

与理论探讨、算法设计、演示系统开发不同,互联网搜索引擎技术要求词语切分技术具有实战能力。在互联网上应用时,歧义切分(交叉歧义和组合歧义)的消解技术仍会碰到解决不了的难题。现在最棘手的可能是“新词”问题。“新词”可定义为词典或训练语料中没有的词。新词种类很多,人名、地名、机构名、商品名等实体名称必然不断有新的出现,简称或缩略语也是,比这些更难对付的是新出现的普通词语。“新词”识别和歧义切分消解有时也会纠结在一起。

从互联网很容易获取大量语料,可以用于训练或测试,这比从前方便多了。计算能力和网络技术的发展对汉语词语切分软件的开发和性能的提升肯定有帮助,譬如使用并行计算和分布式处理可以提高处理速度,促进切分软件实用化。不过,汉语词语切分的难题基本上属于自然语言表述的信息内容理解的层次,可能需要突破现有的计算机体系、期待人类认知过程的揭秘和新型智能信息系统的出现,机器求解才有可能达到与人类智能相媲美的程度。


4、如何判断不同中文分词系统的优劣?

无疑,正确率是最重要的指标。不过,很难以单一指标(如:正确率)评判汉语词语切分软件的优劣,在互联网上应用,速度也是一个重要的指标。适应不同的应用,需要量体裁衣,功能、性能指标不同的软件也自有各自适用的范围。


5、请介绍一下中文语言处理的国际性研究组织?SIGHAN中文分词竞赛是怎么回事?

为了严谨起见,我强调这里介绍的应该说是中国大陆以外的情况。

较早成立的有美国的“中文计算机协会”,至今已组织了20多次东方语言信息处理国际会议。第20次于2003年在我国东北大学召开。台湾于1998 年成立计算语言学学会(Rocling),每年举行一次年会;并出版《中文计算语言学期刊》。新加坡于1991年成立“中文与东方语言信息处理学会”,现在一年出版4期《汉语语言与计算学报》(俞士汶是该杂志的联合主编)。

ACL(the Association for Computational Linguistics)是国际上最有影响的计算语言学学术组织。它有很多下属组织,如关于分析技术的SIGPARSE(the Special Interest Group on Natural Language Parsing)成立于1994年。关于中文信息处理的SIGHAN(the Special Interest Group on Chinese Language Processing, HAN乃“汉”的拼音)成立于2002年,每年跟随ACL举办一次研讨会(workshop)。SIGHAN于2003年、2005年、2006年组织了中文分词比赛,扩大了它的影响。北大计算语言所也为这些比赛提供过训练语料和测试语料,并参加了第一次比赛(只限于美国宾州大学语料),并取得开放测试第一名的好成绩。

顺便谈及国内,规模最大、影响最广的学术组织自然是“中国中文信息学会”,成立于1981年。今年11月将召开“中国中文信息学会成立二十五周年学术会议”
您需要登录后才可以回帖 登录 | 注册账户

本版积分规则

存档|黑屋|手机|网络实验室 本站服务器由美国合租以及IDCLayer国际数据提供!!!

GMT+8, 2026-6-15 21:35 , Processed in 0.009885 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表