找回密码
 注册账户
查看: 27215|回复: 1

士汶教授谈中文语言处理(四)

[复制链接]
棋子 发表于 2007-7-13 14:28:54 | 显示全部楼层 |阅读模式
士汶教授谈中文语言处理(四)

作者:俞士汶 北大教授 客座博客

8、随着中文信息数字化进程的加快,特别是搜索引擎行业的发展,对中文语言处理人才的需求在加大,请介绍一下目前国内在这方面教育情况?

根据中国国家标准《学科分类与代码表》(GB/T13745--92 )。在一级学科“计算机科学技术”下的二级学科“人工智能”里包含三级学科“自然语言处理”(520.2020)。在一级学科“语言学”下的二级学科“应用语言学”里包含三级学科“计算语言学”(740.3550)。由此可见,自然科学与语言学交叉渗透所取得的成果在学科体系中已经有了一席之地。不过,无论是“计算语言学”还是“自然语言处理”都还是三级学科,这意味着在大学里设置系或专业从本科起就开始培养中文信息处理人才还是受到限制的。据笔者了解,目前只有北京大学中文系设有应用语言学(中文信息处理)专业,南京师范大学设有语言技术系。不过,培养研究生的路子就宽多了,中国的大学大约1990年代初开始培养“计算语言学”和“自然语言处理”研究方向的博士生,培养硕士生更早,1980年代中期就开始了。现在已有相当数量的博士和硕士在发挥生力军的作用。

不过,按“计算语言学”和“自然语言处理”研究方向培养的博士和硕士属于高级研究人才,数量毕竟有限,满足不了中文信息化迅速发展的需求。特别是搜索引擎等信息服务业的发展,更增加了对既有计算语言学理论基础、又有丰富的语言工程实践经验的工程技术人员的需求。鉴于这样的认识,在杨芙清院士的倡导下,北大计算语言研究所和北大软件与微电子学院决定共同建设语言信息工程系,下设语言信息处理和计算机辅助翻译两个专业。对学习合格的学生将授予北京大学工程硕士学位。这是中国计算语言学研究逐步成熟、走向社会、服务大众的又一重要标志。


9、请简要介绍一下北大计算语言所的背景。开展了哪些中文语言处理方面的研究?取得了什么样的成绩?

北京大学计算语言学研究所(Institute of Computational Linguistics,ICL)成立于1986年,是一个文理学科结合的研究所。20年来,在培养了数十名博士、硕士的同时,在计算语言学和自然语言处理技术领域进行了广泛、深入的研究,研究课题涉及语言模型与分析技术、计算词典学与词典编纂、语料库语言学、术语学与术语标准化、计算语义学、机器翻译的理论与技术、自然语言处理评价技术、信息提取与信息检索技术、中国古诗计算机辅助深层研究等,这些课题来自国家973、国家863、国家自然科学基金、国家社会科学基金、国家科技攻关项目和部级项目,也有与国内外著名企业、大学、研究机构的横向合作项目。

除了论著之外,北大计算语言所在语言数据资源建设方面有较多的积累:现代汉语语法信息词典(8万词语),大规模现代汉语基本标注语料库(6000多万汉字),面向汉英机器翻译的现代汉语语义词典(6万),面向跨语言文本处理的中文概念词典(10万概念),句子对齐的双语语料库(80万句对),多个专业领域的术语库(35万术语),现代汉语短语结构规则库(600条规则)以及支持这些知识库建设的工具软件,如汉语词语切分及词性标注软件、汉语词语注音软件等,这些知识库和软件已在世界各地得到广泛应用,产生了广泛的影响。
您需要登录后才可以回帖 登录 | 注册账户

本版积分规则

存档|黑屋|手机|网络实验室 本站服务器由美国合租以及IDCLayer国际数据提供!!!

GMT+8, 2026-6-15 21:44 , Processed in 0.008653 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表