作者:李葆嘉
来源:《辞书研究》2021年第02期
摘 要 20世纪下半叶,世界科技进入新的飞跃时期,先后出现计算机科技、分子生物学、现代脑科学。现代科技促进了当代语言学的发展,计算机科技孕育了计算语言学,现代脑科学提升了神经语言学,现代生物学推进了生物语言学和演化语言学,分子人类学与亲缘比较语言学相互验证,由此呈现当代语言学和当代科技的互动。当代语言学的交叉性、实验性和精密化趋势,促使其成为 “语言科技”——此为21世纪语言学的发展方向。 关键词 三大科技 语言学 促进 互动 语言科技
回顾19世纪,西方语言学先后受到生物学(Lamarck1809; Darwin1859)、心理学(Herbart1816; Steinthal1850; Lazarus1851)、社会学(Comte1839; Tarde1890; Durkheim1893)的影响,由此形成第一代生物语言学(Becker1827; Müller1861/1866; Schleicher1863)、心理语言学(Lazarus1851; Steinthal1855; Lazarus & Steinthal1860; Steinthal1871; Hecht1888)、社会语言学(Sayce1875; Paris1887; Meillet1905),集中体现为基于社会心理的现代语言学理论(Бодуэн де Куртен1871, 1889)。20世纪上半叶,西方语言学主要受人类学(Boas1911; Malinowsiki1923)和格式塔心理学(Ipsen1924)的影响。20世纪50年代,乔姆斯基(Chomsky1957)生成语法的蓝本则来自希尔伯特(Hilbert1920)的形式系统方法和波斯特(Post1936)的数理语言学。20世纪下半叶,世界科技进入新的飞跃时期,先后出现计算机科技(1950)、分子生物学(1953)、现代脑科学(1987)。三大现代科技促进了当代语言学的发展,并彼此互动。
通过对20世纪语言学的沉思,我在2000年提出“语言科技新思维”。2001年创办南京师范大学语言科学及技术系及语言信息处理本科专业(即所谓“新文科”教育),主持建设语言学及应用语言学博士点(理论语言学、计算语言学、神经语言学方向,2008年增实验语音学方向),并发表《论语言科学与语言技术》(李葆嘉2001/2003)。世纪之交“瞻望新世纪语言学发展”的众多会议我皆未参加,也许我的瞻望与之有别。至于要细论21世纪语言学的走向,有必要等待前十年的发展。本文是近年来的思考——21世纪的语言学必然与当代三大科技交会,21世纪语言学的主流就是计算语言学、神经语言学和生物语言学。 一、 计算机科技孕育了计算语言学
虽然计算机研制的初衷缘于数值计算,但是图灵(A.M.Turing, 1912—1954)在《计算机和智能》(Computing Machinery and Intelligence, 1950)中已经提出,检验计算机智能的最好方法就是对语言信息处理能力的测试。1954年,赫尔德(C.C.Hurd, 1911—1996)主持世界首次机器翻译试验,標志着计算机科技与语言学结合的起步。1977年,费根鲍姆
(E.A.Feigenbaum)提出“知识工程”,表明计算机信息处理出现从“数据世界”向“知识世界”转移。1990年,第13届国际计算语言学大会提出处理大规模真实文本的战略目标。语言信息处理的核心是语言的自动理解和生成,其最终目标是仿真人类语能的“人工语言脑”。 (一) 计算语言学的界定和研究内容
在语言学与计算机科技结合的领域,立足于不同学科视角或知识结构,出现过一系列名称,如数理语言学、语言工程、自然语言处理、语言信息处理等。“计算语言学”(Computational Linguistics)这一名称,是由语言学家、计算机科学家和社会科学家海斯(D.G.Hays, 1928—1995)提出的。他著有该学科的第一本教科书《计算语言学导论》(Introduction to Computational Linguistics, 1967),遗憾的是该书没有中文译本。
“计算语言学”的定义可归纳为四种: (1) 以计算机为工具研究语言;(2) 把语言学成果应用于计算机;(3) 研究语言中的可计算问题;(4) 建立基于计算机科技的语言学理论。前两种流行于欧洲,把计算机当成语言研究的工具;后两种盛行于美国,强调计算机科技对语言学的影响。综上,计算语言学可定义为: 利用计算机作为工具研究语言、研究自然语言机用系统、研究语言系统或语言能力的可计算性,建构基于计算机应用、数学模型、认知科学的语言学理论。
计算语言学的研究内容包括: (1) 应用基础研究,即语言处理技术研究,如: 自动分词、词语特征标注或语句篇章分析、语料库或语言知识库建设等。(2) 应用研究,主要是工具和系统的开发,如: 机译工具、自动文摘工具、信息检索和抽取工具、言语识别和合成系统、人机对话系统等。(3) 理论研究,包括人工智能理论和语言学理论,如: 计算机如何或是否可以仿真人脑功能和语言能力,如何寻找合适的语言计算模型等。此外,还有对自然语言的本质属性是语义性的认定、面向信息处理的机用语法学理论、语言系统与数学模型的关系、语言结构和数理逻辑的关系、语言符号的数字化可能性及其局限性、语言的异质性和受限理论、元语言理论方法等。
(二) 语言研究工具和语言研究资源
计算语言学为语言研究提供了便捷工具: (1) 语音研究工具;(2) 词汇研究工具;(3) 词性、句法研究工具;(4) 语义(词汇、句子、语篇语义)研究工具。语言研究资源包括语料库和语言知识库。除了一般性语料库,专门性语料库更有针对性。李葆嘉主持研制的“现代汉语语域语料库”(2002—2005),包括法律、商务、体育竞技、新闻热点等子库。美国麦克阿瑟基金会资助的Child Language Data Exchange System语料库,包括若干语种的儿童语料。李葆嘉主持研制的“汉语幼儿(2—6岁)日常会话跟踪自然语料库”(2005—2015),盖为目前最大的汉语幼儿自然语料库。
属于应用基础研究的语言知识库建设,涉及语言知识的整理、发现和形式化,以便为自然语言信息处理系统提供知识支撑。(1) 美国宾州大学中文树库的目标是建立100万词的句法标注数据库。台北“中央研究院”的中文句结构树数据库包括61087个树图。(2) 美国普林斯顿大学密勒(G.A.Miller)和费尔鲍姆主持研制的词网(Wordnet, 1985),是基于同义词集和语义关系描述的词汇知识库。(3) 美国百科全书公司雷纳特(D.Lenat)主持研制的CYC知识库(1984)包含概念、概念关系、推理规则三部分,其应用领域涵盖人工智能、自然语言处理、语义网、知识表示等。(4) 美国微软公司理查德森(S.D.Richardson)主持开发的智网(Mindnet, 1993)基于三元组自动获取语义关系,反映了从自然语言文本中自动获取、组织、访问和挖掘语义信息的方法。(5) 美国语言学家菲尔墨(C.J.Fillmore)主持研制的框网(Framenet, 1998),对英语义项的语义句法组合进行细致描述,通过对手工标注例句的自动整理得到配价模式。(6) 中国科学院计算机语言信息中心董振东等基于义原系统和概念关系研制了知网(How-Net, 1998),台北“中央研究院”中文词库小组拓展成“概念网”(Concept-Net, 2003)。此外,李葆嘉主持研制的“深度语义分析信息库”(2008—2011),对“九年制语文课本”加以标注,包括语义词类范畴10大类32种,语义句法框架117种(VP结构核84种,NP结构核33种),配有字詞句检索与统计工具、语义词类范畴检索和统计工具、语义句法范畴检索和统计工具、语义词类语义句法范畴对应检索工具等。
近年来成为热点的知识图谱,也属于语言知识库建设的一部分。图书情报界称为“知识域映像地图”,即用可视化技术展示语言知识资源,以挖掘、分析和图标知识点之间的联系。动态知识图谱需要很强的数据、算法和计算基础支撑。构建知识图谱的目的,也就是试图把人脑认知的知识关系通过可视化技术移植到计算机中去,其质量的高低受限于研制者自身的知识结构和设计匠心。
(三) 广义人工智能和人类语能模拟
作为广义概念,人工智能研究集中在人工体能(肢体活动)、人工技能(行业技术)、人工算能(最典型的是阿尔法狗,经过几百万次训练,职业棋手不可能)、人工感能(图像识别、音质识别)等方面,而与“人工语能”距离尚远。所谓人工语能,即人类语言能力的计算机仿真(机器翻译、文—语转换、人—机会话等)。
机译系统研究的起步(1954),比一般的“人工智能”(1956年夏,麦卡赛、明斯基、罗切斯特和申农等首次提出)要早两年。1964年11月,美国科学院语言自动处理咨询委员会在《语言与机器》报告中指出: 机器翻译遇到了难以克服的semantic barrier(义障)。这一警告,致使机译研究热暂时消退。1982年,日本制订面向AI的“第五代计算机”研制计划,其中包括自然语言处理装置。1992年结束时,只有部分达到预定目标。随后又公布“真实世界计算机计划”,不久暂停,其根本原因在于未能穿过语言(语义)的“瓶颈”。
2006年,辛顿(G.E.Hinton)将多层神经网络方法应用于图像识别。2009 年,微软实现基于多层神经网络的语音识别系统。2014 年,赵景贤(Kyunghyun Cho)和本吉奥(Yoshua
Bengio)等提出基于注意机制的编码器—译码器框架,建立了基于神经网络的机译系统。2017 年,Google翻译提出完全基于注意机制的转换器模型,实现了神经翻译引擎。这些努力促使机译系统取得明显进展,甚至已经有人尝试翻译成本著作。据我使用,英—汉、俄—汉机译比较成熟,德—汉、法—汉机译次之。一般规范性文本的机译基本通顺(约70%—90%),语言学文献的机译能知大意(约40%—70%),需要凭借专业知识修正和调整润饰。2005年李葆嘉曾提出,就翻译的内容而言,机译系统依靠语言规则(理性主义)可解决约35%,依靠大规模语料(经验主义+连结主义)可解决约35%,还有约30%就是语义的、语境的、知识背景的(就是翻译家也难免出错)。神经网络只是处理语料的连结主义模型,虽有所改善,但关键的“义障”仍然没有跨越,机译系统研究仍然任重道远。尽管近几年人工智能沸沸扬扬,然而人工语能的实现,依然“路漫漫其修远兮”。李葆嘉(2003/2012)在《人工语言脑: 自然语言处理装置的研制思路》中,设计了语言基因图谱分析工程→认知语义网络建构工程→受限语言能力仿真工程。此后,陆续完成现代汉语元语言系统研究、典型动作词的认知语义网络建构、话题语说明语范畴系统及其匹配框架、话语行为效能范畴系统等。 二、 现代脑科技提升了神经语言学
脑科学(Brain Sciences)研究脑的结构和功能。狭义的脑科学即神经科学,了解神经系统内分子水平、细胞水平、细胞之间的变化过程,以及这些过程在中枢功能控制系统内的整合作用。1989 年美国国会通过“脑的十年”计划议案。1991年欧共体成立欧洲脑十年委员会及脑研究联盟。1995年国际脑研究组织在日本京都第四届世界神经科学大会上,提议把21世纪称为“脑的世纪”。1996年日本制定“脑科学时代: 脑科学研究推进计划”。1997年美国启动“人类脑计划”。2013年美国公布“脑活动绘图计划”。2015年中国发布“中国脑计划——脑科学与类脑研究”。
总体而言,现代脑科学的主要任务: (1) 了解脑——阐明产生感知、情感和意识的脑区结构和功能,阐明脑的信息加工功能(语言信息的脑神经网络表达机制,人类获得语言能力的过程,语言、思维和智力的关系)。(2) 保护脑——控制大脑的发育和衰老过程;神经性精神病的康复和预防。(3) 创造脑——研制类脑型构件和仪器(具有学习和记忆能力的神经元芯片,具有智力、情感和意识的脑型计算机);类脑型信息产生和处理系统设计(支持机器人系统)。目前的研究热点有: 类脑认知计算模型;人工神经网络;神经接口、脑机接口;神经形态芯片、类脑计算机。
属于应用基础研究的语言知识库建设,涉及语言知识的整理、发现和形式化,以便为自然语言信息处理系统提供知识支撑。(1) 美国宾州大学中文树库的目标是建立100万词的句法标注数据库。台北“中央研究院”的中文句结构树数据库包括61087个树图。(2) 美国普林斯顿大学密勒(G.A.Miller)和费尔鲍姆主持研制的词网(Wordnet, 1985),是基于同义词集和语义关系描述的词汇知识库。(3) 美国百科全书公司雷纳特(D.Lenat)主持研制的CYC知识库(1984)包含概念、概念关系、推理规则三部分,其应用领域涵盖人工智能、自然语言
处理、语义网、知识表示等。(4) 美国微软公司理查德森(S.D.Richardson)主持开发的智网(Mindnet, 1993)基于三元组自动获取语义关系,反映了从自然语言文本中自动获取、组织、访问和挖掘语义信息的方法。(5) 美国语言学家菲尔墨(C.J.Fillmore)主持研制的框网(Framenet, 1998),对英语义项的语义句法組合进行细致描述,通过对手工标注例句的自动整理得到配价模式。(6) 中国科学院计算机语言信息中心董振东等基于义原系统和概念关系研制了知网(How-Net, 1998),台北“中央研究院”中文词库小组拓展成“概念网”(Concept-Net, 2003)。此外,李葆嘉主持研制的“深度语义分析信息库”(2008—2011),对“九年制语文课本”加以标注,包括语义词类范畴10大类32种,语义句法框架117种(VP结构核84种,NP结构核33种),配有字词句检索与统计工具、语义词类范畴检索和统计工具、语义句法范畴检索和统计工具、语义词类语义句法范畴对应检索工具等。
近年来成为热点的知识图谱,也属于语言知识库建设的一部分。图书情报界称为“知识域映像地图”,即用可视化技术展示语言知识资源,以挖掘、分析和图标知识点之间的联系。动态知识图谱需要很强的数据、算法和计算基础支撑。构建知识图谱的目的,也就是试图把人脑认知的知识关系通过可视化技术移植到计算机中去,其质量的高低受限于研制者自身的知识结构和设计匠心。
(三) 广义人工智能和人类语能模拟
作为广义概念,人工智能研究集中在人工体能(肢体活动)、人工技能(行业技术)、人工算能(最典型的是阿尔法狗,经过几百万次训练,职业棋手不可能)、人工感能(图像识别、音质识别)等方面,而与“人工语能”距离尚远。所谓人工语能,即人类语言能力的计算机仿真(机器翻译、文—语转换、人—机会话等)。
机译系统研究的起步(1954),比一般的“人工智能”(1956年夏,麦卡赛、明斯基、罗切斯特和申农等首次提出)要早两年。1964年11月,美国科学院语言自动处理咨询委员会在《语言与机器》报告中指出: 机器翻译遇到了难以克服的semantic barrier(义障)。这一警告,致使机译研究热暂时消退。1982年,日本制订面向AI的“第五代计算机”研制计划,其中包括自然语言处理装置。1992年结束时,只有部分达到预定目标。随后又公布“真实世界计算机计划”,不久暂停,其根本原因在于未能穿过语言(语义)的“瓶颈”。
2006年,辛顿(G.E.Hinton)将多层神经网络方法应用于图像识别。2009 年,微软实现基于多层神经网络的语音识别系统。2014 年,赵景贤(Kyunghyun Cho)和本吉奥(Yoshua Bengio)等提出基于注意机制的编码器—译码器框架,建立了基于神经网络的机译系统。2017 年,Google翻译提出完全基于注意机制的转换器模型,实现了神经翻译引擎。这些努力促使机译系统取得明显进展,甚至已经有人尝试翻译成本著作。据我使用,英—汉、俄—汉机译比较成熟,德—汉、法—汉机译次之。一般规范性文本的机译基本通顺(约70%—90%),语言学文献的机译能知大意(约40%—70%),需要凭借专业知识修正和调整润饰。2005年李葆嘉曾提出,就翻译的内容而言,机译系统依靠语言规则(理性主义)可解决约35%,依靠大规模
语料(经验主义+连结主义)可解决约35%,还有约30%就是语义的、语境的、知识背景的(就是翻译家也难免出错)。神经网络只是处理语料的连结主义模型,虽有所改善,但关键的“义障”仍然没有跨越,机译系统研究仍然任重道远。尽管近几年人工智能沸沸扬扬,然而人工语能的实现,依然“路漫漫其修远兮”。李葆嘉(2003/2012)在《人工语言脑: 自然语言处理装置的研制思路》中,设计了语言基因图谱分析工程→认知语义网络建构工程→受限语言能力仿真工程。此后,陆续完成现代汉语元语言系统研究、典型动作词的认知语义网络建构、话题语说明语范畴系统及其匹配框架、话语行为效能范畴系统等。 二、 现代脑科技提升了神经语言学
脑科学(Brain Sciences)研究脑的结构和功能。狭义的脑科学即神经科学,了解神经系统内分子水平、细胞水平、细胞之间的变化过程,以及这些过程在中枢功能控制系统内的整合作用。1989 年美国国会通过“脑的十年”计划议案。1991年欧共体成立欧洲脑十年委员会及脑研究联盟。1995年国际脑研究组织在日本京都第四届世界神经科学大会上,提议把21世纪称为“脑的世纪”。1996年日本制定“脑科学时代: 脑科学研究推进计划”。1997年美国启动“人类脑计划”。2013年美国公布“脑活动绘图计划”。2015年中国发布“中国脑计划——脑科学与类脑研究”。
总体而言,现代脑科学的主要任务: (1) 了解脑——阐明产生感知、情感和意识的脑区结构和功能,阐明脑的信息加工功能(语言信息的脑神经网络表达机制,人类获得语言能力的过程,语言、思维和智力的关系)。(2) 保护脑——控制大脑的发育和衰老过程;神经性精神病的康复和预防。(3) 创造脑——研制类脑型构件和仪器(具有学习和记忆能力的神经元芯片,具有智力、情感和意识的脑型计算机);类脑型信息产生和处理系统设计(支持机器人系统)。目前的研究热点有: 类脑认知计算模型;人工神经网络;神经接口、脑机接口;神经形态芯片、类脑计算机。
属于应用基础研究的语言知识库建设,涉及语言知识的整理、发现和形式化,以便为自然语言信息处理系统提供知识支撑。(1) 美国宾州大学中文树库的目标是建立100万词的句法标注数据库。台北“中央研究院”的中文句结构树数据库包括61087个树图。(2) 美国普林斯顿大学密勒(G.A.Miller)和费尔鲍姆主持研制的词网(Wordnet, 1985),是基于同义词集和语义关系描述的词汇知识库。(3) 美国百科全书公司雷纳特(D.Lenat)主持研制的CYC知识库(1984)包含概念、概念关系、推理规则三部分,其应用领域涵盖人工智能、自然语言处理、语义网、知识表示等。(4) 美国微软公司理查德森(S.D.Richardson)主持开发的智网(Mindnet, 1993)基于三元组自动获取语义关系,反映了从自然语言文本中自动获取、组织、访问和挖掘语义信息的方法。(5) 美国语言学家菲尔墨(C.J.Fillmore)主持研制的框网(Framenet, 1998),对英语义项的语义句法组合进行细致描述,通过对手工标注例句的自动整理得到配价模式。(6) 中国科学院计算机语言信息中心董振东等基于义原系统和概念关系研制了知网(How-Net, 1998),台北“中央研究院”中文词库小组拓展成“概念网”(Concept-
Net, 2003)。此外,李葆嘉主持研制的“深度语义分析信息库”(2008—2011),对“九年制语文课本”加以标注,包括语义词类范畴10大类32种,语义句法框架117种(VP结构核84种,NP结构核33种),配有字词句检索与统计工具、语义词类范畴检索和统计工具、语义句法范畴检索和统计工具、语义词类语义句法范畴对应检索工具等。
近年来成为热点的知识图谱,也属于语言知识库建设的一部分。图书情报界称为“知识域映像地图”,即用可视化技术展示语言知识资源,以挖掘、分析和图标知识点之间的联系。动态知识图谱需要很强的数据、算法和计算基础支撑。构建知识图谱的目的,也就是试图把人脑认知的知识关系通过可视化技术移植到计算机中去,其质量的高低受限于研制者自身的知识结构和设计匠心。
(三) 广义人工智能和人类语能模拟
作为广义概念,人工智能研究集中在人工体能(肢体活动)、人工技能(行业技术)、人工算能(最典型的是阿尔法狗,经过几百万次训练,职业棋手不可能)、人工感能(图像识别、音质识别)等方面,而与“人工语能”距离尚远。所谓人工语能,即人类语言能力的计算机仿真(机器翻译、文—语转换、人—机会话等)。
机译系统研究的起步(1954),比一般的“人工智能”(1956年夏,麦卡赛、明斯基、罗切斯特和申农等首次提出)要早两年。1964年11月,美国科学院语言自动处理咨询委员会在《语言与机器》报告中指出: 机器翻译遇到了难以克服的semantic barrier(义障)。这一警告,致使机译研究热暂时消退。1982年,日本制订面向AI的“第五代计算机”研制计划,其中包括自然语言处理装置。1992年结束时,只有部分达到预定目标。随后又公布“真实世界计算机计划”,不久暂停,其根本原因在于未能穿过语言(语义)的“瓶颈”。
2006年,辛顿(G.E.Hinton)将多层神经网络方法应用于图像识别。2009 年,微软实现基于多层神经网络的语音识别系统。2014 年,赵景贤(Kyunghyun Cho)和本吉奥(Yoshua Bengio)等提出基于注意機制的编码器—译码器框架,建立了基于神经网络的机译系统。2017 年,Google翻译提出完全基于注意机制的转换器模型,实现了神经翻译引擎。这些努力促使机译系统取得明显进展,甚至已经有人尝试翻译成本著作。据我使用,英—汉、俄—汉机译比较成熟,德—汉、法—汉机译次之。一般规范性文本的机译基本通顺(约70%—90%),语言学文献的机译能知大意(约40%—70%),需要凭借专业知识修正和调整润饰。2005年李葆嘉曾提出,就翻译的内容而言,机译系统依靠语言规则(理性主义)可解决约35%,依靠大规模语料(经验主义+连结主义)可解决约35%,还有约30%就是语义的、语境的、知识背景的(就是翻译家也难免出错)。神经网络只是处理语料的连结主义模型,虽有所改善,但关键的“义障”仍然没有跨越,机译系统研究仍然任重道远。尽管近几年人工智能沸沸扬扬,然而人工语能的实现,依然“路漫漫其修远兮”。李葆嘉(2003/2012)在《人工语言脑: 自然语言处理装置的研制思路》中,设计了语言基因图谱分析工程→认知语义网络建构工程→受限语言能力
仿真工程。此后,陆续完成现代汉语元语言系统研究、典型动作词的认知语义网络建构、话题语说明语范畴系统及其匹配框架、话语行为效能范畴系统等。 二、 现代脑科技提升了神经语言学
脑科学(Brain Sciences)研究脑的结构和功能。狭义的脑科学即神经科学,了解神经系统内分子水平、细胞水平、细胞之间的变化过程,以及这些过程在中枢功能控制系统内的整合作用。1989 年美国国会通过“脑的十年”计划议案。1991年欧共体成立欧洲脑十年委员会及脑研究联盟。1995年国际脑研究组织在日本京都第四届世界神经科学大会上,提议把21世纪称为“脑的世纪”。1996年日本制定“脑科学时代: 脑科学研究推进计划”。1997年美国启动“人类脑计划”。2013年美国公布“脑活动绘图计划”。2015年中国发布“中国脑计划——脑科学与类脑研究”。
总体而言,现代脑科学的主要任务: (1) 了解脑——阐明产生感知、情感和意识的脑区结构和功能,阐明脑的信息加工功能(语言信息的脑神经网络表达机制,人类获得语言能力的过程,语言、思维和智力的关系)。(2) 保护脑——控制大脑的发育和衰老过程;神经性精神病的康复和预防。(3) 创造脑——研制类脑型构件和仪器(具有学习和记忆能力的神经元芯片,具有智力、情感和意识的脑型计算机);类脑型信息产生和处理系统设计(支持机器人系统)。目前的研究热点有: 类脑认知计算模型;人工神经网络;神经接口、脑机接口;神经形态芯片、类脑计算机。
属于应用基础研究的语言知识库建设,涉及语言知识的整理、发现和形式化,以便为自然语言信息处理系统提供知识支撑。(1) 美国宾州大学中文树库的目标是建立100万词的句法标注数据库。台北“中央研究院”的中文句结构树数据库包括61087个树图。(2) 美国普林斯顿大学密勒(G.A.Miller)和费尔鲍姆主持研制的词网(Wordnet, 1985),是基于同义词集和语义关系描述的词汇知识库。(3) 美国百科全书公司雷纳特(D.Lenat)主持研制的CYC知识库(1984)包含概念、概念关系、推理规则三部分,其应用领域涵盖人工智能、自然语言处理、语义网、知识表示等。(4) 美国微软公司理查德森(S.D.Richardson)主持开发的智网(Mindnet, 1993)基于三元组自动获取语义关系,反映了从自然语言文本中自动获取、组织、访问和挖掘语义信息的方法。(5) 美国语言学家菲尔墨(C.J.Fillmore)主持研制的框网(Framenet, 1998),对英语义项的语义句法组合进行细致描述,通过对手工标注例句的自动整理得到配价模式。(6) 中国科学院计算机语言信息中心董振东等基于义原系统和概念关系研制了知网(How-Net, 1998),台北“中央研究院”中文词库小组拓展成“概念网”(Concept-Net, 2003)。此外,李葆嘉主持研制的“深度语义分析信息库”(2008—2011),对“九年制语文课本”加以标注,包括语义词类范畴10大类32种,语义句法框架117种(VP结构核84种,NP结构核33种),配有字词句检索与统计工具、语义词类范畴检索和统计工具、语义句法范畴检索和统计工具、语义词类语义句法范畴对应检索工具等。
近年来成为热点的知识图谱,也属于语言知识库建设的一部分。图书情报界称为“知识域映像地图”,即用可视化技术展示语言知识资源,以挖掘、分析和圖标知识点之间的联系。动态知识图谱需要很强的数据、算法和计算基础支撑。构建知识图谱的目的,也就是试图把人脑认知的知识关系通过可视化技术移植到计算机中去,其质量的高低受限于研制者自身的知识结构和设计匠心。
(三) 广义人工智能和人类语能模拟
作为广义概念,人工智能研究集中在人工体能(肢体活动)、人工技能(行业技术)、人工算能(最典型的是阿尔法狗,经过几百万次训练,职业棋手不可能)、人工感能(图像识别、音质识别)等方面,而与“人工语能”距离尚远。所谓人工语能,即人类语言能力的计算机仿真(机器翻译、文—语转换、人—机会话等)。
机译系统研究的起步(1954),比一般的“人工智能”(1956年夏,麦卡赛、明斯基、罗切斯特和申农等首次提出)要早两年。1964年11月,美国科学院语言自动处理咨询委员会在《语言与机器》报告中指出: 机器翻译遇到了难以克服的semantic barrier(义障)。这一警告,致使机译研究热暂时消退。1982年,日本制订面向AI的“第五代计算机”研制计划,其中包括自然语言处理装置。1992年结束时,只有部分达到预定目标。随后又公布“真实世界计算机计划”,不久暂停,其根本原因在于未能穿过语言(语义)的“瓶颈”。
2006年,辛顿(G.E.Hinton)将多层神经网络方法应用于图像识别。2009 年,微软实现基于多层神经网络的语音识别系统。2014 年,赵景贤(Kyunghyun Cho)和本吉奥(Yoshua Bengio)等提出基于注意机制的编码器—译码器框架,建立了基于神经网络的机译系统。2017 年,Google翻译提出完全基于注意机制的转换器模型,实现了神经翻译引擎。这些努力促使机译系统取得明显进展,甚至已经有人尝试翻译成本著作。据我使用,英—汉、俄—汉机译比较成熟,德—汉、法—汉机译次之。一般规范性文本的机译基本通顺(约70%—90%),语言学文献的机译能知大意(约40%—70%),需要凭借专业知识修正和调整润饰。2005年李葆嘉曾提出,就翻译的内容而言,机译系统依靠语言规则(理性主义)可解决约35%,依靠大规模语料(经验主义+连结主义)可解决约35%,还有约30%就是语义的、语境的、知识背景的(就是翻译家也难免出错)。神经网络只是处理语料的连结主义模型,虽有所改善,但关键的“义障”仍然没有跨越,机译系统研究仍然任重道远。尽管近几年人工智能沸沸扬扬,然而人工语能的实现,依然“路漫漫其修远兮”。李葆嘉(2003/2012)在《人工语言脑: 自然语言处理装置的研制思路》中,设计了语言基因图谱分析工程→认知语义网络建构工程→受限语言能力仿真工程。此后,陆续完成现代汉语元语言系统研究、典型动作词的认知语义网络建构、话题语说明语范畴系统及其匹配框架、话语行为效能范畴系统等。 二、 现代脑科技提升了神经语言学
脑科学(Brain Sciences)研究脑的结构和功能。狭义的脑科学即神经科学,了解神经系统内分子水平、细胞水平、细胞之间的变化过程,以及这些过程在中枢功能控制系统内的整合作用。1989 年美国国会通过“脑的十年”计划议案。1991年欧共体成立欧洲脑十年委员会及脑研究联盟。1995年国际脑研究组织在日本京都第四届世界神经科学大会上,提议把21世纪称为“脑的世纪”。1996年日本制定“脑科学时代: 脑科学研究推进计划”。1997年美国启动“人类脑计划”。2013年美国公布“脑活动绘图计划”。2015年中国发布“中国脑计划——脑科学与类脑研究”。
总体而言,现代脑科学的主要任务: (1) 了解脑——阐明产生感知、情感和意识的脑区结构和功能,阐明脑的信息加工功能(语言信息的脑神经网络表达机制,人类获得语言能力的过程,语言、思维和智力的关系)。(2) 保护脑——控制大脑的发育和衰老过程;神经性精神病的康复和预防。(3) 创造脑——研制类脑型构件和仪器(具有学习和记忆能力的神经元芯片,具有智力、情感和意识的脑型计算机);类脑型信息产生和处理系统设计(支持机器人系统)。目前的研究热点有: 类脑认知计算模型;人工神经网络;神经接口、脑机接口;神经形态芯片、类脑计算机。
属于应用基础研究的语言知识库建设,涉及语言知识的整理、发现和形式化,以便为自然语言信息处理系统提供知识支撑。(1) 美国宾州大学中文树库的目标是建立100万词的句法标注数据库。台北“中央研究院”的中文句结构树数据库包括61087个树图。(2) 美国普林斯顿大学密勒(G.A.Miller)和费尔鲍姆主持研制的词网(Wordnet, 1985),是基于同义词集和语义关系描述的词汇知识库。(3) 美国百科全书公司雷纳特(D.Lenat)主持研制的CYC知识库(1984)包含概念、概念关系、推理规则三部分,其应用领域涵盖人工智能、自然语言处理、语义网、知识表示等。(4) 美国微软公司理查德森(S.D.Richardson)主持开发的智网(Mindnet, 1993)基于三元组自动获取语义关系,反映了从自然语言文本中自动获取、组织、访问和挖掘语义信息的方法。(5) 美国语言学家菲尔墨(C.J.Fillmore)主持研制的框网(Framenet, 1998),对英语义项的语义句法组合进行细致描述,通过对手工标注例句的自动整理得到配价模式。(6) 中国科学院计算机语言信息中心董振东等基于义原系统和概念关系研制了知网(How-Net, 1998),台北“中央研究院”中文词库小组拓展成“概念网”(Concept-Net, 2003)。此外,李葆嘉主持研制的“深度语义分析信息库”(2008—2011),对“九年制语文课本”加以标注,包括语义词类范畴10大类32种,语义句法框架117种(VP结构核84种,NP结构核33种),配有字词句检索与统计工具、语义词类范畴检索和统计工具、语义句法范畴检索和统计工具、语义词类语义句法范畴对应检索工具等。
近年来成为热点的知识图谱,也属于语言知识库建设的一部分。图书情报界称为“知识域映像地图”,即用可视化技术展示语言知识资源,以挖掘、分析和图标知识点之间的联系。动态知识图谱需要很强的数据、算法和计算基础支撑。构建知识图谱的目的,也就是试图把人脑认知的知识关系通过可视化技术移植到计算机中去,其质量的高低受限于研制者自身的知识结构和设计匠心。
(三) 广义人工智能和人类语能模拟
作为广义概念,人工智能研究集中在人工体能(肢体活动)、人工技能(行业技术)、人工算能(最典型的是阿尔法狗,经过几百万次训练,职业棋手不可能)、人工感能(图像识别、音质识别)等方面,而与“人工语能”距离尚远。所谓人工语能,即人类语言能力的计算机仿真(机器翻译、文—语转换、人—机会话等)。
机译系统研究的起步(1954),比一般的“人工智能”(1956年夏,麦卡赛、明斯基、罗切斯特和申农等首次提出)要早两年。1964年11月,美国科学院语言自动处理咨询委员会在《语言与机器》报告中指出: 机器翻译遇到了难以克服的semantic barrier(义障)。这一警告,致使机译研究热暂时消退。1982年,日本制订面向AI的“第五代计算机”研制计划,其中包括自然语言处理装置。1992年结束时,只有部分达到预定目标。随后又公布“真实世界计算机计划”,不久暂停,其根本原因在于未能穿过语言(语义)的“瓶颈”。
2006年,辛顿(G.E.Hinton)将多层神经网络方法应用于图像识别。2009 年,微软实现基于多层神经网络的语音识别系统。2014 年,赵景贤(Kyunghyun Cho)和本吉奥(Yoshua Bengio)等提出基于注意机制的编码器—译码器框架,建立了基于神经网络的机译系统。2017 年,Google翻译提出完全基于注意机制的转换器模型,实现了神经翻译引擎。这些努力促使机译系统取得明显进展,甚至已经有人尝试翻译成本著作。据我使用,英—汉、俄—汉机译比较成熟,德—汉、法—汉机译次之。一般规范性文本的机译基本通顺(约70%—90%),语言学文献的机译能知大意(约40%—70%),需要凭借专业知识修正和调整润饰。2005年李葆嘉曾提出,就翻译的内容而言,机译系统依靠语言规则(理性主义)可解决约35%,依靠大规模语料(经验主义+连结主义)可解决约35%,还有约30%就是语义的、语境的、知识背景的(就是翻译家也难免出错)。神经网络只是处理语料的连结主义模型,虽有所改善,但关键的“义障”仍然没有跨越,機译系统研究仍然任重道远。尽管近几年人工智能沸沸扬扬,然而人工语能的实现,依然“路漫漫其修远兮”。李葆嘉(2003/2012)在《人工语言脑: 自然语言处理装置的研制思路》中,设计了语言基因图谱分析工程→认知语义网络建构工程→受限语言能力仿真工程。此后,陆续完成现代汉语元语言系统研究、典型动作词的认知语义网络建构、话题语说明语范畴系统及其匹配框架、话语行为效能范畴系统等。 二、 现代脑科技提升了神经语言学
脑科学(Brain Sciences)研究脑的结构和功能。狭义的脑科学即神经科学,了解神经系统内分子水平、细胞水平、细胞之间的变化过程,以及这些过程在中枢功能控制系统内的整合作用。1989 年美国国会通过“脑的十年”计划议案。1991年欧共体成立欧洲脑十年委员会及脑研究联盟。1995年国际脑研究组织在日本京都第四届世界神经科学大会上,提议把21世纪称为“脑的世纪”。1996年日本制定“脑科学时代: 脑科学研究推进计划”。1997年美国启动“人类脑计划”。2013年美国公布“脑活动绘图计划”。2015年中国发布“中国脑计划——脑科学与类脑研究”。
总体而言,现代脑科学的主要任务: (1) 了解脑——阐明产生感知、情感和意识的脑区结构和功能,阐明脑的信息加工功能(语言信息的脑神经网络表达机制,人类获得语言能力的过程,语言、思维和智力的关系)。(2) 保护脑——控制大脑的发育和衰老过程;神经性精神病的康复和预防。(3) 创造脑——研制类脑型构件和仪器(具有学习和记忆能力的神经元芯片,具有智力、情感和意识的脑型计算机);类脑型信息产生和处理系统设计(支持机器人系统)。目前的研究热点有: 类脑认知计算模型;人工神经网络;神经接口、脑机接口;神经形态芯片、类脑计算机。
属于应用基础研究的语言知识库建设,涉及语言知识的整理、发现和形式化,以便为自然语言信息处理系统提供知识支撑。(1) 美国宾州大学中文树库的目标是建立100万词的句法标注数据库。台北“中央研究院”的中文句结构树数据库包括61087个树图。(2) 美国普林斯顿大学密勒(G.A.Miller)和费尔鲍姆主持研制的词网(Wordnet, 1985),是基于同义词集和语义关系描述的词汇知识库。(3) 美国百科全书公司雷纳特(D.Lenat)主持研制的CYC知识库(1984)包含概念、概念关系、推理规则三部分,其应用领域涵盖人工智能、自然语言处理、语义网、知识表示等。(4) 美国微软公司理查德森(S.D.Richardson)主持开发的智网(Mindnet, 1993)基于三元组自动获取语义关系,反映了从自然语言文本中自动获取、组织、访问和挖掘语义信息的方法。(5) 美国语言学家菲尔墨(C.J.Fillmore)主持研制的框网(Framenet, 1998),对英语义项的语义句法组合进行细致描述,通过对手工标注例句的自动整理得到配价模式。(6) 中国科学院计算机语言信息中心董振东等基于义原系统和概念关系研制了知网(How-Net, 1998),台北“中央研究院”中文词库小组拓展成“概念网”(Concept-Net, 2003)。此外,李葆嘉主持研制的“深度语义分析信息库”(2008—2011),对“九年制语文课本”加以标注,包括语义词类范畴10大类32种,语义句法框架117种(VP结构核84种,NP结构核33种),配有字词句检索与统计工具、语义词类范畴检索和统计工具、语义句法范畴检索和统计工具、语义词类语义句法范畴对应检索工具等。
近年来成为热点的知识图谱,也属于语言知识库建设的一部分。图书情报界称为“知识域映像地图”,即用可视化技术展示语言知识资源,以挖掘、分析和图标知识点之间的联系。动态知识图谱需要很强的数据、算法和计算基础支撑。构建知识图谱的目的,也就是试图把人脑认知的知识关系通过可视化技术移植到计算机中去,其质量的高低受限于研制者自身的知识结构和设计匠心。
(三) 广义人工智能和人类语能模拟
作为广义概念,人工智能研究集中在人工体能(肢体活动)、人工技能(行业技术)、人工算能(最典型的是阿尔法狗,经过几百万次训练,职业棋手不可能)、人工感能(图像识别、音质识别)等方面,而与“人工语能”距离尚远。所谓人工语能,即人类语言能力的计算机仿真(机器翻译、文—语转换、人—机会话等)。
机译系统研究的起步(1954),比一般的“人工智能”(1956年夏,麦卡赛、明斯基、罗切斯特和申农等首次提出)要早两年。1964年11月,美国科学院语言自动处理咨询委员会在《语言与机器》报告中指出: 机器翻译遇到了难以克服的semantic barrier(义障)。这一警告,致使机译研究热暂时消退。1982年,日本制订面向AI的“第五代计算机”研制计划,其中包括自然语言处理装置。1992年结束时,只有部分达到预定目标。随后又公布“真实世界计算机计划”,不久暂停,其根本原因在于未能穿过语言(语义)的“瓶颈”。
2006年,辛顿(G.E.Hinton)将多层神经网络方法应用于图像识别。2009 年,微软实现基于多层神经网络的语音识别系统。2014 年,赵景贤(Kyunghyun Cho)和本吉奥(Yoshua Bengio)等提出基于注意机制的编码器—译码器框架,建立了基于神经网络的机译系统。2017 年,Google翻译提出完全基于注意机制的转换器模型,实现了神经翻译引擎。这些努力促使机译系统取得明显进展,甚至已经有人尝试翻译成本著作。据我使用,英—汉、俄—汉机譯比较成熟,德—汉、法—汉机译次之。一般规范性文本的机译基本通顺(约70%—90%),语言学文献的机译能知大意(约40%—70%),需要凭借专业知识修正和调整润饰。2005年李葆嘉曾提出,就翻译的内容而言,机译系统依靠语言规则(理性主义)可解决约35%,依靠大规模语料(经验主义+连结主义)可解决约35%,还有约30%就是语义的、语境的、知识背景的(就是翻译家也难免出错)。神经网络只是处理语料的连结主义模型,虽有所改善,但关键的“义障”仍然没有跨越,机译系统研究仍然任重道远。尽管近几年人工智能沸沸扬扬,然而人工语能的实现,依然“路漫漫其修远兮”。李葆嘉(2003/2012)在《人工语言脑: 自然语言处理装置的研制思路》中,设计了语言基因图谱分析工程→认知语义网络建构工程→受限语言能力仿真工程。此后,陆续完成现代汉语元语言系统研究、典型动作词的认知语义网络建构、话题语说明语范畴系统及其匹配框架、话语行为效能范畴系统等。 二、 现代脑科技提升了神经语言学
脑科学(Brain Sciences)研究脑的结构和功能。狭义的脑科学即神经科学,了解神经系统内分子水平、细胞水平、细胞之间的变化过程,以及这些过程在中枢功能控制系统内的整合作用。1989 年美国国会通过“脑的十年”计划议案。1991年欧共体成立欧洲脑十年委员会及脑研究联盟。1995年国际脑研究组织在日本京都第四届世界神经科学大会上,提议把21世纪称为“脑的世纪”。1996年日本制定“脑科学时代: 脑科学研究推进计划”。1997年美国启动“人类脑计划”。2013年美国公布“脑活动绘图计划”。2015年中国发布“中国脑计划——脑科学与类脑研究”。
总体而言,现代脑科学的主要任务: (1) 了解脑——阐明产生感知、情感和意识的脑区结构和功能,阐明脑的信息加工功能(语言信息的脑神经网络表达机制,人类获得语言能力的过程,语言、思维和智力的关系)。(2) 保护脑——控制大脑的发育和衰老过程;神经性精神病的康复和预防。(3) 创造脑——研制类脑型构件和仪器(具有学习和记忆能力的神经元芯片,具有智力、情感和意识的脑型计算机);类脑型信息产生和处理系统设计(支持机器人系
统)。目前的研究热点有: 类脑认知计算模型;人工神经网络;神经接口、脑机接口;神经形态芯片、类脑计算机。
属于应用基础研究的语言知识库建设,涉及语言知识的整理、发现和形式化,以便为自然语言信息处理系统提供知识支撑。(1) 美国宾州大学中文树库的目标是建立100万词的句法标注数据库。台北“中央研究院”的中文句结构树数据库包括61087个树图。(2) 美国普林斯顿大学密勒(G.A.Miller)和费尔鲍姆主持研制的词网(Wordnet, 1985),是基于同义词集和语义关系描述的词汇知识库。(3) 美国百科全书公司雷纳特(D.Lenat)主持研制的CYC知识库(1984)包含概念、概念关系、推理规则三部分,其应用领域涵盖人工智能、自然语言处理、语义网、知识表示等。(4) 美国微软公司理查德森(S.D.Richardson)主持开发的智网(Mindnet, 1993)基于三元组自动获取语义关系,反映了从自然语言文本中自动获取、组织、访问和挖掘语义信息的方法。(5) 美国语言学家菲尔墨(C.J.Fillmore)主持研制的框网(Framenet, 1998),对英语义项的语义句法组合进行细致描述,通过对手工标注例句的自动整理得到配价模式。(6) 中国科学院计算机语言信息中心董振东等基于义原系统和概念关系研制了知网(How-Net, 1998),台北“中央研究院”中文词库小组拓展成“概念网”(Concept-Net, 2003)。此外,李葆嘉主持研制的“深度语义分析信息库”(2008—2011),对“九年制语文课本”加以标注,包括语义词类范畴10大类32种,语义句法框架117种(VP结构核84种,NP结构核33种),配有字词句检索与统计工具、语义词类范畴检索和统计工具、语义句法范畴检索和统计工具、语义词类语义句法范畴对应检索工具等。
近年来成为热点的知识图谱,也属于语言知识库建设的一部分。图书情报界称为“知识域映像地图”,即用可视化技术展示语言知识资源,以挖掘、分析和图标知识点之间的联系。动态知识图谱需要很强的数据、算法和计算基础支撑。构建知识图谱的目的,也就是试图把人脑认知的知识关系通过可视化技术移植到计算机中去,其质量的高低受限于研制者自身的知识结构和设计匠心。
(三) 广义人工智能和人类语能模拟
作為广义概念,人工智能研究集中在人工体能(肢体活动)、人工技能(行业技术)、人工算能(最典型的是阿尔法狗,经过几百万次训练,职业棋手不可能)、人工感能(图像识别、音质识别)等方面,而与“人工语能”距离尚远。所谓人工语能,即人类语言能力的计算机仿真(机器翻译、文—语转换、人—机会话等)。
机译系统研究的起步(1954),比一般的“人工智能”(1956年夏,麦卡赛、明斯基、罗切斯特和申农等首次提出)要早两年。1964年11月,美国科学院语言自动处理咨询委员会在《语言与机器》报告中指出: 机器翻译遇到了难以克服的semantic barrier(义障)。这一警告,致使机译研究热暂时消退。1982年,日本制订面向AI的“第五代计算机”研制计划,其中包括自然语言处理装置。1992年结束时,只有部分达到预定目标。随后又公布“真实世界计算机计划”,不久暂停,其根本原因在于未能穿过语言(语义)的“瓶颈”。
2006年,辛顿(G.E.Hinton)将多层神经网络方法应用于图像识别。2009 年,微软实现基于多层神经网络的语音识别系统。2014 年,赵景贤(Kyunghyun Cho)和本吉奥(Yoshua Bengio)等提出基于注意机制的编码器—译码器框架,建立了基于神经网络的机译系统。2017 年,Google翻译提出完全基于注意机制的转换器模型,实现了神经翻译引擎。这些努力促使机译系统取得明显进展,甚至已经有人尝试翻译成本著作。据我使用,英—汉、俄—汉机译比较成熟,德—汉、法—汉机译次之。一般规范性文本的机译基本通顺(约70%—90%),语言学文献的机译能知大意(约40%—70%),需要凭借专业知识修正和调整润饰。2005年李葆嘉曾提出,就翻译的内容而言,机译系统依靠语言规则(理性主义)可解决约35%,依靠大规模语料(经验主义+连结主义)可解决约35%,还有约30%就是语义的、语境的、知识背景的(就是翻译家也难免出错)。神经网络只是处理语料的连结主义模型,虽有所改善,但关键的“义障”仍然没有跨越,机译系统研究仍然任重道远。尽管近几年人工智能沸沸扬扬,然而人工语能的实现,依然“路漫漫其修远兮”。李葆嘉(2003/2012)在《人工语言脑: 自然语言处理装置的研制思路》中,设计了语言基因图谱分析工程→认知语义网络建构工程→受限语言能力仿真工程。此后,陆续完成现代汉语元语言系统研究、典型动作词的认知语义网络建构、话题语说明语范畴系统及其匹配框架、话语行为效能范畴系统等。 二、 现代脑科技提升了神经语言学
脑科学(Brain Sciences)研究脑的结构和功能。狭义的脑科学即神经科学,了解神经系统内分子水平、细胞水平、细胞之间的变化过程,以及这些过程在中枢功能控制系统内的整合作用。1989 年美国国会通过“脑的十年”计划议案。1991年欧共体成立欧洲脑十年委员会及脑研究联盟。1995年国际脑研究组织在日本京都第四届世界神经科学大会上,提议把21世纪称为“脑的世纪”。1996年日本制定“脑科学时代: 脑科学研究推进计划”。1997年美国启动“人类脑计划”。2013年美国公布“脑活动绘图计划”。2015年中国发布“中国脑计划——脑科学与类脑研究”。
总体而言,现代脑科学的主要任务: (1) 了解脑——阐明产生感知、情感和意识的脑区结构和功能,阐明脑的信息加工功能(语言信息的脑神经网络表达机制,人类获得语言能力的过程,语言、思维和智力的关系)。(2) 保护脑——控制大脑的发育和衰老过程;神经性精神病的康复和预防。(3) 创造脑——研制类脑型构件和仪器(具有学习和记忆能力的神经元芯片,具有智力、情感和意识的脑型计算机);类脑型信息产生和处理系统设计(支持机器人系统)。目前的研究热点有: 类脑认知计算模型;人工神经网络;神经接口、脑机接口;神经形态芯片、类脑计算机。
属于应用基础研究的语言知识库建设,涉及语言知识的整理、发现和形式化,以便为自然语言信息处理系统提供知识支撑。(1) 美国宾州大学中文树库的目标是建立100万词的句法标注数据库。台北“中央研究院”的中文句结构树数据库包括61087个树图。(2) 美国普林斯顿大学密勒(G.A.Miller)和费尔鲍姆主持研制的词网(Wordnet, 1985),是基于同义词集
和语义关系描述的词汇知识库。(3) 美国百科全书公司雷纳特(D.Lenat)主持研制的CYC知识库(1984)包含概念、概念关系、推理规则三部分,其应用领域涵盖人工智能、自然语言处理、语义网、知识表示等。(4) 美国微软公司理查德森(S.D.Richardson)主持开发的智网(Mindnet, 1993)基于三元组自动获取语义关系,反映了从自然语言文本中自动获取、组织、访问和挖掘语义信息的方法。(5) 美国语言学家菲尔墨(C.J.Fillmore)主持研制的框网(Framenet, 1998),对英语义项的语义句法组合进行细致描述,通过对手工标注例句的自动整理得到配价模式。(6) 中国科学院计算机语言信息中心董振东等基于义原系统和概念关系研制了知网(How-Net, 1998),台北“中央研究院”中文词库小组拓展成“概念网”(Concept-Net, 2003)。此外,李葆嘉主持研制的“深度语义分析信息库”(2008—2011),对“九年制语文课本”加以标注,包括语义词类范畴10大类32种,语义句法框架117种(VP结构核84种,NP结构核33种),配有字词句检索与统计工具、语义词类范畴检索和统计工具、语义句法范畴检索和统计工具、语义词类语义句法范畴对应检索工具等。
近年来成为热点的知识图谱,也属于语言知识库建设的一部分。图书情报界称为“知识域映像地图”,即用可视化技术展示语言知识资源,以挖掘、分析和图标知识点之间的联系。动态知识图谱需要很强的数据、算法和计算基础支撑。构建知识图谱的目的,也就是试图把人脑认知的知识关系通过可视化技术移植到计算机中去,其质量的高低受限于研制者自身的知识结构和设计匠心。
(三) 广义人工智能和人类语能模拟
作为广义概念,人工智能研究集中在人工体能(肢体活动)、人工技能(行业技术)、人工算能(最典型的是阿尔法狗,经过几百万次训练,职业棋手不可能)、人工感能(图像识别、音质识别)等方面,而与“人工语能”距离尚远。所谓人工语能,即人类语言能力的计算机仿真(机器翻译、文—语转换、人—机会话等)。
机译系统研究的起步(1954),比一般的“人工智能”(1956年夏,麦卡赛、明斯基、罗切斯特和申农等首次提出)要早两年。1964年11月,美国科学院语言自动处理咨询委员会在《语言与机器》报告中指出: 机器翻译遇到了难以克服的semantic barrier(义障)。这一警告,致使机译研究热暂时消退。1982年,日本制订面向AI的“第五代计算机”研制计划,其中包括自然语言处理装置。1992年结束时,只有部分达到预定目标。随后又公布“真实世界计算机计划”,不久暂停,其根本原因在于未能穿过语言(语义)的“瓶颈”。
2006年,辛顿(G.E.Hinton)将多层神经网络方法应用于图像识别。2009 年,微软实现基于多层神经网络的语音识别系统。2014 年,赵景贤(Kyunghyun Cho)和本吉奥(Yoshua Bengio)等提出基于注意机制的编码器—译码器框架,建立了基于神经网络的机译系统。2017 年,Google翻译提出完全基于注意机制的转换器模型,实现了神经翻译引擎。这些努力促使机译系统取得明显进展,甚至已经有人尝试翻译成本著作。据我使用,英—汉、俄—汉机译比较成熟,德—汉、法—汉机译次之。一般规范性文本的机译基本通顺(约70%—90%),语言
学文献的机译能知大意(约40%—70%),需要凭借专业知识修正和调整润饰。2005年李葆嘉曾提出,就翻译的内容而言,机译系统依靠语言规则(理性主义)可解决约35%,依靠大规模语料(经验主义+连结主义)可解决约35%,还有约30%就是语义的、语境的、知识背景的(就是翻译家也难免出错)。神经网络只是处理语料的连结主义模型,虽有所改善,但关键的“义障”仍然没有跨越,机译系统研究仍然任重道远。尽管近几年人工智能沸沸扬扬,然而人工语能的实现,依然“路漫漫其修远兮”。李葆嘉(2003/2012)在《人工语言脑: 自然语言处理装置的研制思路》中,设计了语言基因图谱分析工程→认知语义网络建构工程→受限语言能力仿真工程。此后,陆续完成现代漢语元语言系统研究、典型动作词的认知语义网络建构、话题语说明语范畴系统及其匹配框架、话语行为效能范畴系统等。 二、 现代脑科技提升了神经语言学
脑科学(Brain Sciences)研究脑的结构和功能。狭义的脑科学即神经科学,了解神经系统内分子水平、细胞水平、细胞之间的变化过程,以及这些过程在中枢功能控制系统内的整合作用。1989 年美国国会通过“脑的十年”计划议案。1991年欧共体成立欧洲脑十年委员会及脑研究联盟。1995年国际脑研究组织在日本京都第四届世界神经科学大会上,提议把21世纪称为“脑的世纪”。1996年日本制定“脑科学时代: 脑科学研究推进计划”。1997年美国启动“人类脑计划”。2013年美国公布“脑活动绘图计划”。2015年中国发布“中国脑计划——脑科学与类脑研究”。
总体而言,现代脑科学的主要任务: (1) 了解脑——阐明产生感知、情感和意识的脑区结构和功能,阐明脑的信息加工功能(语言信息的脑神经网络表达机制,人类获得语言能力的过程,语言、思维和智力的关系)。(2) 保护脑——控制大脑的发育和衰老过程;神经性精神病的康复和预防。(3) 创造脑——研制类脑型构件和仪器(具有学习和记忆能力的神经元芯片,具有智力、情感和意识的脑型计算机);类脑型信息产生和处理系统设计(支持机器人系统)。目前的研究热点有: 类脑认知计算模型;人工神经网络;神经接口、脑机接口;神经形态芯片、类脑计算机。
属于应用基础研究的语言知识库建设,涉及语言知识的整理、发现和形式化,以便为自然语言信息处理系统提供知识支撑。(1) 美国宾州大学中文树库的目标是建立100万词的句法标注数据库。台北“中央研究院”的中文句结构树数据库包括61087个树图。(2) 美国普林斯顿大学密勒(G.A.Miller)和费尔鲍姆主持研制的词网(Wordnet, 1985),是基于同义词集和语义关系描述的词汇知识库。(3) 美国百科全书公司雷纳特(D.Lenat)主持研制的CYC知识库(1984)包含概念、概念关系、推理规则三部分,其应用领域涵盖人工智能、自然语言处理、语义网、知识表示等。(4) 美国微软公司理查德森(S.D.Richardson)主持开发的智网(Mindnet, 1993)基于三元组自动获取语义关系,反映了从自然语言文本中自动获取、组织、访问和挖掘语义信息的方法。(5) 美国语言学家菲尔墨(C.J.Fillmore)主持研制的框网(Framenet, 1998),对英语义项的语义句法组合进行细致描述,通过对手工标注例句的自动
整理得到配价模式。(6) 中国科学院计算机语言信息中心董振东等基于义原系统和概念关系研制了知网(How-Net, 1998),台北“中央研究院”中文词库小组拓展成“概念网”(Concept-Net, 2003)。此外,李葆嘉主持研制的“深度语义分析信息库”(2008—2011),对“九年制语文课本”加以标注,包括语义词类范畴10大类32种,语义句法框架117种(VP结构核84种,NP结构核33种),配有字词句检索与统计工具、语义词类范畴检索和统计工具、语义句法范畴检索和统计工具、语义词类语义句法范畴对应检索工具等。
近年来成为热点的知识图谱,也属于语言知识库建设的一部分。图书情报界称为“知识域映像地图”,即用可视化技术展示语言知识资源,以挖掘、分析和图标知识点之间的联系。动态知识图谱需要很强的数据、算法和计算基础支撑。构建知识图谱的目的,也就是试图把人脑认知的知识关系通过可视化技术移植到计算机中去,其质量的高低受限于研制者自身的知识结构和设计匠心。
(三) 广义人工智能和人类语能模拟
作为广义概念,人工智能研究集中在人工体能(肢体活动)、人工技能(行业技术)、人工算能(最典型的是阿尔法狗,经过几百万次训练,职业棋手不可能)、人工感能(图像识别、音质识别)等方面,而与“人工语能”距离尚远。所谓人工语能,即人类语言能力的计算机仿真(机器翻译、文—语转换、人—机会话等)。
机译系统研究的起步(1954),比一般的“人工智能”(1956年夏,麦卡赛、明斯基、罗切斯特和申农等首次提出)要早两年。1964年11月,美国科学院语言自动处理咨询委员会在《语言与机器》报告中指出: 机器翻译遇到了难以克服的semantic barrier(义障)。这一警告,致使机译研究热暂时消退。1982年,日本制订面向AI的“第五代计算机”研制计划,其中包括自然语言处理装置。1992年结束时,只有部分达到预定目標。随后又公布“真实世界计算机计划”,不久暂停,其根本原因在于未能穿过语言(语义)的“瓶颈”。
2006年,辛顿(G.E.Hinton)将多层神经网络方法应用于图像识别。2009 年,微软实现基于多层神经网络的语音识别系统。2014 年,赵景贤(Kyunghyun Cho)和本吉奥(Yoshua Bengio)等提出基于注意机制的编码器—译码器框架,建立了基于神经网络的机译系统。2017 年,Google翻译提出完全基于注意机制的转换器模型,实现了神经翻译引擎。这些努力促使机译系统取得明显进展,甚至已经有人尝试翻译成本著作。据我使用,英—汉、俄—汉机译比较成熟,德—汉、法—汉机译次之。一般规范性文本的机译基本通顺(约70%—90%),语言学文献的机译能知大意(约40%—70%),需要凭借专业知识修正和调整润饰。2005年李葆嘉曾提出,就翻译的内容而言,机译系统依靠语言规则(理性主义)可解决约35%,依靠大规模语料(经验主义+连结主义)可解决约35%,还有约30%就是语义的、语境的、知识背景的(就是翻译家也难免出错)。神经网络只是处理语料的连结主义模型,虽有所改善,但关键的“义障”仍然没有跨越,机译系统研究仍然任重道远。尽管近几年人工智能沸沸扬扬,然而人工语能的实现,依然“路漫漫其修远兮”。李葆嘉(2003/2012)在《人工语言脑: 自然语言处理
装置的研制思路》中,设计了语言基因图谱分析工程→认知语义网络建构工程→受限语言能力仿真工程。此后,陆续完成现代汉语元语言系统研究、典型动作词的认知语义网络建构、话题语说明语范畴系统及其匹配框架、话语行为效能范畴系统等。 二、 现代脑科技提升了神经语言学
脑科学(Brain Sciences)研究脑的结构和功能。狭义的脑科学即神经科学,了解神经系统内分子水平、细胞水平、细胞之间的变化过程,以及这些过程在中枢功能控制系统内的整合作用。1989 年美国国会通过“脑的十年”计划议案。1991年欧共体成立欧洲脑十年委员会及脑研究联盟。1995年国际脑研究组织在日本京都第四届世界神经科学大会上,提议把21世纪称为“脑的世纪”。1996年日本制定“脑科学时代: 脑科学研究推进计划”。1997年美国启动“人类脑计划”。2013年美国公布“脑活动绘图计划”。2015年中国发布“中国脑计划——脑科学与类脑研究”。
总体而言,现代脑科学的主要任务: (1) 了解脑——阐明产生感知、情感和意识的脑区结构和功能,阐明脑的信息加工功能(语言信息的脑神经网络表达机制,人类获得语言能力的过程,语言、思维和智力的关系)。(2) 保护脑——控制大脑的发育和衰老过程;神经性精神病的康复和预防。(3) 创造脑——研制类脑型构件和仪器(具有学习和记忆能力的神经元芯片,具有智力、情感和意识的脑型计算机);类脑型信息产生和处理系统设计(支持机器人系统)。目前的研究热点有: 类脑认知计算模型;人工神经网络;神经接口、脑机接口;神经形态芯片、类脑计算机。
属于应用基础研究的语言知识库建设,涉及语言知识的整理、发现和形式化,以便为自然语言信息处理系统提供知识支撑。(1) 美国宾州大学中文树库的目标是建立100万词的句法标注数据库。台北“中央研究院”的中文句结构树数据库包括61087个树图。(2) 美国普林斯顿大学密勒(G.A.Miller)和费尔鲍姆主持研制的词网(Wordnet, 1985),是基于同义词集和语义关系描述的词汇知识库。(3) 美国百科全书公司雷纳特(D.Lenat)主持研制的CYC知识库(1984)包含概念、概念关系、推理规则三部分,其应用领域涵盖人工智能、自然语言处理、语义网、知识表示等。(4) 美国微软公司理查德森(S.D.Richardson)主持开发的智网(Mindnet, 1993)基于三元组自动获取语义关系,反映了从自然语言文本中自动获取、组织、访问和挖掘语义信息的方法。(5) 美国语言学家菲尔墨(C.J.Fillmore)主持研制的框网(Framenet, 1998),对英语义项的语义句法组合进行细致描述,通过对手工标注例句的自动整理得到配价模式。(6) 中国科学院计算机语言信息中心董振东等基于义原系统和概念关系研制了知网(How-Net, 1998),台北“中央研究院”中文词库小组拓展成“概念网”(Concept-Net, 2003)。此外,李葆嘉主持研制的“深度语义分析信息库”(2008—2011),对“九年制语文课本”加以标注,包括语义词类范畴10大类32种,语义句法框架117种(VP结构核84种,NP结构核33种),配有字词句检索与统计工具、语义词类范畴检索和统计工具、语义句法范畴检索和统计工具、语义词类语义句法范畴对应检索工具等。
近年来成为热点的知识图谱,也属于语言知识库建设的一部分。图书情报界称为“知识域映像地图”,即用可视化技术展示语言知识资源,以挖掘、分析和图标知识点之间的联系。动态知识图谱需要很强的数据、算法和计算基础支撑。构建知识图谱的目的,也就是试图把人脑认知的知识关系通过可视化技术移植到计算机中去,其质量的高低受限于研制者自身的知识结构和设计匠心。
(三) 广义人工智能和人类语能模拟
作为广义概念,人工智能研究集中在人工体能(肢体活动)、人工技能(行业技术)、人工算能(最典型的是阿尔法狗,经过几百万次训练,职业棋手不可能)、人工感能(图像识别、音质识别)等方面,而与“人工语能”距离尚远。所谓人工语能,即人类语言能力的计算机仿真(机器翻译、文—语转换、人—機会话等)。
机译系统研究的起步(1954),比一般的“人工智能”(1956年夏,麦卡赛、明斯基、罗切斯特和申农等首次提出)要早两年。1964年11月,美国科学院语言自动处理咨询委员会在《语言与机器》报告中指出: 机器翻译遇到了难以克服的semantic barrier(义障)。这一警告,致使机译研究热暂时消退。1982年,日本制订面向AI的“第五代计算机”研制计划,其中包括自然语言处理装置。1992年结束时,只有部分达到预定目标。随后又公布“真实世界计算机计划”,不久暂停,其根本原因在于未能穿过语言(语义)的“瓶颈”。
2006年,辛顿(G.E.Hinton)将多层神经网络方法应用于图像识别。2009 年,微软实现基于多层神经网络的语音识别系统。2014 年,赵景贤(Kyunghyun Cho)和本吉奥(Yoshua Bengio)等提出基于注意机制的编码器—译码器框架,建立了基于神经网络的机译系统。2017 年,Google翻译提出完全基于注意机制的转换器模型,实现了神经翻译引擎。这些努力促使机译系统取得明显进展,甚至已经有人尝试翻译成本著作。据我使用,英—汉、俄—汉机译比较成熟,德—汉、法—汉机译次之。一般规范性文本的机译基本通顺(约70%—90%),语言学文献的机译能知大意(约40%—70%),需要凭借专业知识修正和调整润饰。2005年李葆嘉曾提出,就翻译的内容而言,机译系统依靠语言规则(理性主义)可解决约35%,依靠大规模语料(经验主义+连结主义)可解决约35%,还有约30%就是语义的、语境的、知识背景的(就是翻译家也难免出错)。神经网络只是处理语料的连结主义模型,虽有所改善,但关键的“义障”仍然没有跨越,机译系统研究仍然任重道远。尽管近几年人工智能沸沸扬扬,然而人工语能的实现,依然“路漫漫其修远兮”。李葆嘉(2003/2012)在《人工语言脑: 自然语言处理装置的研制思路》中,设计了语言基因图谱分析工程→认知语义网络建构工程→受限语言能力仿真工程。此后,陆续完成现代汉语元语言系统研究、典型动作词的认知语义网络建构、话题语说明语范畴系统及其匹配框架、话语行为效能范畴系统等。 二、 现代脑科技提升了神经语言学
脑科学(Brain Sciences)研究脑的结构和功能。狭义的脑科学即神经科学,了解神经系统内分子水平、细胞水平、细胞之间的变化过程,以及这些过程在中枢功能控制系统内的整合作用。1989 年美国国会通过“脑的十年”计划议案。1991年欧共体成立欧洲脑十年委员会及脑研究联盟。1995年国际脑研究组织在日本京都第四届世界神经科学大会上,提议把21世纪称为“脑的世纪”。1996年日本制定“脑科学时代: 脑科学研究推进计划”。1997年美国启动“人类脑计划”。2013年美国公布“脑活动绘图计划”。2015年中国发布“中国脑计划——脑科学与类脑研究”。
总体而言,现代脑科学的主要任务: (1) 了解脑——阐明产生感知、情感和意识的脑区结构和功能,阐明脑的信息加工功能(语言信息的脑神经网络表达机制,人类获得语言能力的过程,语言、思维和智力的关系)。(2) 保护脑——控制大脑的发育和衰老过程;神经性精神病的康复和预防。(3) 创造脑——研制类脑型构件和仪器(具有学习和记忆能力的神经元芯片,具有智力、情感和意识的脑型计算机);类脑型信息产生和处理系统设计(支持机器人系统)。目前的研究热点有: 类脑认知计算模型;人工神经网络;神经接口、脑机接口;神经形态芯片、类脑计算机。
属于应用基础研究的语言知识库建设,涉及语言知识的整理、发现和形式化,以便为自然语言信息处理系统提供知识支撑。(1) 美国宾州大学中文树库的目标是建立100万词的句法标注数据库。台北“中央研究院”的中文句结构树数据库包括61087个树图。(2) 美国普林斯顿大学密勒(G.A.Miller)和费尔鲍姆主持研制的词网(Wordnet, 1985),是基于同义词集和语义关系描述的词汇知识库。(3) 美国百科全书公司雷纳特(D.Lenat)主持研制的CYC知识库(1984)包含概念、概念关系、推理规则三部分,其应用领域涵盖人工智能、自然语言处理、语义网、知识表示等。(4) 美国微软公司理查德森(S.D.Richardson)主持开发的智网(Mindnet, 1993)基于三元组自动获取语义关系,反映了从自然语言文本中自动获取、组织、访问和挖掘语义信息的方法。(5) 美国语言学家菲尔墨(C.J.Fillmore)主持研制的框网(Framenet, 1998),对英语义项的语义句法组合进行细致描述,通过对手工标注例句的自动整理得到配价模式。(6) 中国科学院计算机语言信息中心董振东等基于义原系统和概念关系研制了知网(How-Net, 1998),台北“中央研究院”中文词库小组拓展成“概念网”(Concept-Net, 2003)。此外,李葆嘉主持研制的“深度语义分析信息库”(2008—2011),对“九年制语文课本”加以标注,包括语义词类范畴10大类32种,语义句法框架117种(VP结构核84种,NP结构核33种),配有字词句检索与统计工具、语义词类范畴检索和统计工具、语义句法范畴检索和统计工具、语义词类语义句法范畴对应检索工具等。
近年来成为热点的知识图谱,也属于语言知识库建设的一部分。图书情报界称为“知识域映像地图”,即用可视化技术展示语言知识资源,以挖掘、分析和图标知识点之间的联系。动态知识图谱需要很强的数据、算法和计算基础支撑。构建知识图谱的目的,也就是试图把人脑认知的知识关系通过可视化技术移植到计算机中去,其质量的高低受限于研制者自身的知识结构和设计匠心。
(三) 广义人工智能和人类语能模拟
作为广义概念,人工智能研究集中在人工体能(肢体活动)、人工技能(行业技术)、人工算能(最典型的是阿尔法狗,经过几百万次训练,职业棋手不可能)、人工感能(图像识别、音质识别)等方面,而与“人工语能”距离尚远。所谓人工语能,即人类语言能力的计算机仿真(机器翻译、文—语转换、人—机会话等)。
机译系统研究的起步(1954),比一般的“人工智能”(1956年夏,麦卡赛、明斯基、罗切斯特和申农等首次提出)要早两年。1964年11月,美国科学院语言自动处理咨询委员会在《语言与机器》报告中指出: 机器翻译遇到了难以克服的semantic barrier(义障)。这一警告,致使机译研究热暂时消退。1982年,日本制订面向AI的“第五代计算机”研制计划,其中包括自然语言处理装置。1992年结束时,只有部分达到预定目标。随后又公布“真实世界计算机计划”,不久暂停,其根本原因在于未能穿过语言(语义)的“瓶颈”。
2006年,辛顿(G.E.Hinton)将多层神经网络方法应用于图像识别。2009 年,微软实现基于多层神经网络的语音识别系统。2014 年,赵景贤(Kyunghyun Cho)和本吉奥(Yoshua Bengio)等提出基于注意机制的编码器—译码器框架,建立了基于神经网络的机译系统。2017 年,Google翻译提出完全基于注意机制的转换器模型,实现了神经翻译引擎。这些努力促使机译系统取得明显进展,甚至已经有人尝试翻译成本著作。据我使用,英—汉、俄—汉机译比较成熟,德—汉、法—汉机译次之。一般规范性文本的机译基本通顺(约70%—90%),语言学文献的机译能知大意(约40%—70%),需要凭借专业知识修正和调整润饰。2005年李葆嘉曾提出,就翻译的内容而言,机译系统依靠语言规则(理性主义)可解决约35%,依靠大规模语料(经验主义+连结主义)可解决约35%,还有约30%就是语义的、语境的、知识背景的(就是翻译家也难免出错)。神经网络只是处理语料的连结主义模型,虽有所改善,但关键的“义障”仍然没有跨越,机译系统研究仍然任重道远。尽管近几年人工智能沸沸扬扬,然而人工语能的实现,依然“路漫漫其修远兮”。李葆嘉(2003/2012)在《人工语言脑: 自然语言处理装置的研制思路》中,设计了语言基因图谱分析工程→认知语义网络建构工程→受限语言能力仿真工程。此后,陆续完成现代汉语元语言系统研究、典型动作词的认知语义网络建构、话题语说明语范畴系统及其匹配框架、话语行为效能范畴系统等。 二、 现代脑科技提升了神经语言学
脑科学(Brain Sciences)研究脑的结构和功能。狭义的脑科学即神经科学,了解神经系统内分子水平、細胞水平、细胞之间的变化过程,以及这些过程在中枢功能控制系统内的整合作用。1989 年美国国会通过“脑的十年”计划议案。1991年欧共体成立欧洲脑十年委员会及脑研究联盟。1995年国际脑研究组织在日本京都第四届世界神经科学大会上,提议把21世纪称为“脑的世纪”。1996年日本制定“脑科学时代: 脑科学研究推进计划”。1997年美国启动“人类脑计划”。2013年美国公布“脑活动绘图计划”。2015年中国发布“中国脑计划——脑科学与类脑研究”。
总体而言,现代脑科学的主要任务: (1) 了解脑——阐明产生感知、情感和意识的脑区结构和功能,阐明脑的信息加工功能(语言信息的脑神经网络表达机制,人类获得语言能力的过程,语言、思维和智力的关系)。(2) 保护脑——控制大脑的发育和衰老过程;神经性精神病的康复和预防。(3) 创造脑——研制类脑型构件和仪器(具有学习和记忆能力的神经元芯片,具有智力、情感和意识的脑型计算机);类脑型信息产生和处理系统设计(支持机器人系统)。目前的研究热点有: 类脑认知计算模型;人工神经网络;神经接口、脑机接口;神经形态芯片、类脑计算机。
属于应用基础研究的语言知识库建设,涉及语言知识的整理、发现和形式化,以便为自然语言信息处理系统提供知识支撑。(1) 美国宾州大学中文树库的目标是建立100万词的句法标注数据库。台北“中央研究院”的中文句结构树数据库包括61087个树图。(2) 美国普林斯顿大学密勒(G.A.Miller)和费尔鲍姆主持研制的词网(Wordnet, 1985),是基于同义词集和语义关系描述的词汇知识库。(3) 美国百科全书公司雷纳特(D.Lenat)主持研制的CYC知识库(1984)包含概念、概念关系、推理规则三部分,其应用领域涵盖人工智能、自然语言处理、语义网、知识表示等。(4) 美国微软公司理查德森(S.D.Richardson)主持开发的智网(Mindnet, 1993)基于三元组自动获取语义关系,反映了从自然语言文本中自动获取、组织、访问和挖掘语义信息的方法。(5) 美国语言学家菲尔墨(C.J.Fillmore)主持研制的框网(Framenet, 1998),对英语义项的语义句法组合进行细致描述,通过对手工标注例句的自动整理得到配价模式。(6) 中国科学院计算机语言信息中心董振东等基于义原系统和概念关系研制了知网(How-Net, 1998),台北“中央研究院”中文词库小组拓展成“概念网”(Concept-Net, 2003)。此外,李葆嘉主持研制的“深度语义分析信息库”(2008—2011),对“九年制语文课本”加以标注,包括语义词类范畴10大类32种,语义句法框架117种(VP结构核84种,NP结构核33种),配有字词句检索与统计工具、语义词类范畴检索和统计工具、语义句法范畴检索和统计工具、语义词类语义句法范畴对应检索工具等。
近年来成为热点的知识图谱,也属于语言知识库建设的一部分。图书情报界称为“知识域映像地图”,即用可视化技术展示语言知识资源,以挖掘、分析和图标知识点之间的联系。动态知识图谱需要很强的数据、算法和计算基础支撑。构建知识图谱的目的,也就是试图把人脑认知的知识关系通过可视化技术移植到计算机中去,其质量的高低受限于研制者自身的知识结构和设计匠心。
(三) 广义人工智能和人类语能模拟
作为广义概念,人工智能研究集中在人工体能(肢体活动)、人工技能(行业技术)、人工算能(最典型的是阿尔法狗,经过几百万次训练,职业棋手不可能)、人工感能(图像识别、音质识别)等方面,而与“人工语能”距离尚远。所谓人工语能,即人类语言能力的计算机仿真(机器翻译、文—语转换、人—机会话等)。
机译系统研究的起步(1954),比一般的“人工智能”(1956年夏,麦卡赛、明斯基、罗切斯特和申农等首次提出)要早两年。1964年11月,美国科学院语言自动处理咨询委员会在《语言与机器》报告中指出: 机器翻译遇到了难以克服的semantic barrier(义障)。这一警告,致使机译研究热暂时消退。1982年,日本制订面向AI的“第五代计算机”研制计划,其中包括自然语言处理装置。1992年结束时,只有部分达到预定目标。随后又公布“真实世界计算机计划”,不久暂停,其根本原因在于未能穿过语言(语义)的“瓶颈”。
2006年,辛顿(G.E.Hinton)将多层神经网络方法应用于图像识别。2009 年,微软实现基于多层神经网络的语音识别系统。2014 年,赵景贤(Kyunghyun Cho)和本吉奧(Yoshua Bengio)等提出基于注意机制的编码器—译码器框架,建立了基于神经网络的机译系统。2017 年,Google翻译提出完全基于注意机制的转换器模型,实现了神经翻译引擎。这些努力促使机译系统取得明显进展,甚至已经有人尝试翻译成本著作。据我使用,英—汉、俄—汉机译比较成熟,德—汉、法—汉机译次之。一般规范性文本的机译基本通顺(约70%—90%),语言学文献的机译能知大意(约40%—70%),需要凭借专业知识修正和调整润饰。2005年李葆嘉曾提出,就翻译的内容而言,机译系统依靠语言规则(理性主义)可解决约35%,依靠大规模语料(经验主义+连结主义)可解决约35%,还有约30%就是语义的、语境的、知识背景的(就是翻译家也难免出错)。神经网络只是处理语料的连结主义模型,虽有所改善,但关键的“义障”仍然没有跨越,机译系统研究仍然任重道远。尽管近几年人工智能沸沸扬扬,然而人工语能的实现,依然“路漫漫其修远兮”。李葆嘉(2003/2012)在《人工语言脑: 自然语言处理装置的研制思路》中,设计了语言基因图谱分析工程→认知语义网络建构工程→受限语言能力仿真工程。此后,陆续完成现代汉语元语言系统研究、典型动作词的认知语义网络建构、话题语说明语范畴系统及其匹配框架、话语行为效能范畴系统等。 二、 现代脑科技提升了神经语言学
脑科学(Brain Sciences)研究脑的结构和功能。狭义的脑科学即神经科学,了解神经系统内分子水平、细胞水平、细胞之间的变化过程,以及这些过程在中枢功能控制系统内的整合作用。1989 年美国国会通过“脑的十年”计划议案。1991年欧共体成立欧洲脑十年委员会及脑研究联盟。1995年国际脑研究组织在日本京都第四届世界神经科学大会上,提议把21世纪称为“脑的世纪”。1996年日本制定“脑科学时代: 脑科学研究推进计划”。1997年美国启动“人类脑计划”。2013年美国公布“脑活动绘图计划”。2015年中国发布“中国脑计划——脑科学与类脑研究”。
总体而言,现代脑科学的主要任务: (1) 了解脑——阐明产生感知、情感和意识的脑区结构和功能,阐明脑的信息加工功能(语言信息的脑神经网络表达机制,人类获得语言能力的过程,语言、思维和智力的关系)。(2) 保护脑——控制大脑的发育和衰老过程;神经性精神病的康复和预防。(3) 创造脑——研制类脑型构件和仪器(具有学习和记忆能力的神经元芯片,具有智力、情感和意识的脑型计算机);类脑型信息产生和处理系统设计(支持机器人系
统)。目前的研究热点有: 类脑认知计算模型;人工神经网络;神经接口、脑机接口;神经形态芯片、类脑计算机。
属于应用基础研究的语言知识库建设,涉及语言知识的整理、发现和形式化,以便为自然语言信息处理系统提供知识支撑。(1) 美国宾州大学中文树库的目标是建立100万词的句法标注数据库。台北“中央研究院”的中文句结构树数据库包括61087个树图。(2) 美国普林斯顿大学密勒(G.A.Miller)和费尔鲍姆主持研制的词网(Wordnet, 1985),是基于同义词集和语义关系描述的词汇知识库。(3) 美国百科全书公司雷纳特(D.Lenat)主持研制的CYC知识库(1984)包含概念、概念关系、推理规则三部分,其应用领域涵盖人工智能、自然语言处理、语义网、知识表示等。(4) 美国微软公司理查德森(S.D.Richardson)主持开发的智网(Mindnet, 1993)基于三元组自动获取语义关系,反映了从自然语言文本中自动获取、组织、访问和挖掘语义信息的方法。(5) 美国语言学家菲尔墨(C.J.Fillmore)主持研制的框网(Framenet, 1998),对英语义项的语义句法组合进行细致描述,通过对手工标注例句的自动整理得到配价模式。(6) 中国科学院计算机语言信息中心董振东等基于义原系统和概念关系研制了知网(How-Net, 1998),台北“中央研究院”中文词库小组拓展成“概念网”(Concept-Net, 2003)。此外,李葆嘉主持研制的“深度语义分析信息库”(2008—2011),对“九年制语文课本”加以标注,包括语义词类范畴10大类32种,语义句法框架117种(VP结构核84种,NP结构核33种),配有字词句检索与统计工具、语义词类范畴检索和统计工具、语义句法范畴检索和统计工具、语义词类语义句法范畴对应检索工具等。
近年来成为热点的知识图谱,也属于语言知识库建设的一部分。图书情报界称为“知识域映像地图”,即用可视化技术展示语言知识资源,以挖掘、分析和图标知识点之间的联系。动态知识图谱需要很强的数据、算法和计算基础支撑。构建知识图谱的目的,也就是试图把人脑认知的知识关系通过可视化技术移植到计算机中去,其质量的高低受限于研制者自身的知识结构和设计匠心。
(三) 广义人工智能和人类语能模拟
作为广义概念,人工智能研究集中在人工体能(肢体活动)、人工技能(行业技术)、人工算能(最典型的是阿尔法狗,经过几百万次训练,职业棋手不可能)、人工感能(图像识别、音质识别)等方面,而与“人工语能”距离尚远。所谓人工语能,即人类语言能力的计算机仿真(机器翻译、文—语转换、人—机会话等)。
机译系统研究的起步(1954),比一般的“人工智能”(1956年夏,麦卡赛、明斯基、罗切斯特和申农等首次提出)要早两年。1964年11月,美国科学院语言自动处理咨询委员会在《语言与机器》报告中指出: 机器翻译遇到了难以克服的semantic barrier(义障)。这一警告,致使机译研究热暂时消退。1982年,日本制订面向AI的“第五代计算机”研制计划,其中包括自然语言处理装置。1992年结束时,只有部分达到预定目标。随后又公布“真实世界计算机计划”,不久暂停,其根本原因在于未能穿过语言(语义)的“瓶颈”。
2006年,辛顿(G.E.Hinton)将多层神经网络方法应用于图像识别。2009 年,微软实现基于多层神经网络的语音识别系统。2014 年,赵景贤(Kyunghyun Cho)和本吉奥(Yoshua Bengio)等提出基于注意机制的编码器—译码器框架,建立了基于神经网络的机译系统。2017 年,Google翻译提出完全基于注意机制的转换器模型,实现了神经翻译引擎。这些努力促使机译系统取得明显进展,甚至已经有人尝试翻译成本著作。据我使用,英—汉、俄—汉机译比较成熟,德—汉、法—汉机译次之。一般规范性文本的机译基本通顺(约70%—90%),语言学文献的机译能知大意(约40%—70%),需要凭借专业知识修正和调整润饰。2005年李葆嘉曾提出,就翻译的内容而言,机译系统依靠语言规则(理性主义)可解决约35%,依靠大规模语料(经验主义+连结主义)可解决约35%,还有约30%就是语义的、语境的、知识背景的(就是翻译家也难免出错)。神经网络只是处理语料的连结主义模型,虽有所改善,但关键的“义障”仍然没有跨越,机译系统研究仍然任重道远。尽管近几年人工智能沸沸扬扬,然而人工语能的实现,依然“路漫漫其修远兮”。李葆嘉(2003/2012)在《人工语言脑: 自然语言处理装置的研制思路》中,设计了语言基因图谱分析工程→认知语义网络建构工程→受限语言能力仿真工程。此后,陆续完成现代汉语元语言系统研究、典型动作词的认知语义网络建构、话题语说明语范畴系统及其匹配框架、话语行为效能范畴系统等。 二、 现代脑科技提升了神经语言学
脑科学(Brain Sciences)研究脑的结构和功能。狭义的脑科学即神经科学,了解神经系统内分子水平、细胞水平、细胞之间的变化过程,以及这些过程在中枢功能控制系统内的整合作用。1989 年美国国会通过“脑的十年”计划议案。1991年欧共体成立欧洲脑十年委员会及脑研究联盟。1995年国际脑研究组织在日本京都第四届世界神经科学大会上,提议把21世纪称为“脑的世纪”。1996年日本制定“脑科学时代: 脑科学研究推进计划”。1997年美国启动“人类脑计划”。2013年美国公布“脑活动绘图计划”。2015年中国发布“中国脑计划——脑科学与类脑研究”。
总体而言,现代脑科学的主要任务: (1) 了解脑——阐明产生感知、情感和意识的脑区结构和功能,阐明脑的信息加工功能(语言信息的脑神经网络表达机制,人类获得语言能力的过程,语言、思维和智力的关系)。(2) 保护脑——控制大脑的发育和衰老过程;神经性精神病的康復和预防。(3) 创造脑——研制类脑型构件和仪器(具有学习和记忆能力的神经元芯片,具有智力、情感和意识的脑型计算机);类脑型信息产生和处理系统设计(支持机器人系统)。目前的研究热点有: 类脑认知计算模型;人工神经网络;神经接口、脑机接口;神经形态芯片、类脑计算机。
因篇幅问题不能全部显示,请点此查看更多更全内容