摘要:语义可以简单地看作是数据所对应的现实世界中的事物所代表的概念的含义,以及这些含义之间的关系,是数据在某个领域上的解释和逻辑表示。语义具有领域性特征,不属于任何领域的语义是不存在的。而语义异构则是指对同一事物在解释上所存在差异,也就体现为同一事物在不同领域中理解的不同。对于计算机科学来说,语义一般是指用户对于那些用来描述现实世界的计算机表示(即符号)的解释,也就是用户用来联系计算机表示和现实世界的途径。
关键词:语义,文学制度,论文发表
语义是对数据符号的解释,而语法则是对于这些符号之间的组织规则和结构关系的定义。对于信息集成领域来说,数据往往是通过模式(对于模式不存在或者隐含的非结构化和半结构化数据,往往需要在集成前定义出它们的模式)来组织的,数据的访问也是通过作用于模式来获得的,这时语义就是指模式元素(例如类、属性、约束等等)的含义,而语法则是模式元素的结构。
尽管大多数人都承认语言能力的遗传性,但是这种机制的存在并没有解决shepard所提出的概括(在母语习得里,更成为“过度概括”)和相似性的问题。这个归纳性难题经常被看成是范畴化的问题,那就是说我们必须找出的这样一个机制,足以把一系列刺激、语词或概念(例如猎豹和老虎)看成是一类的(相似的)事物。但是相似性以什么为基础却众说纷纭,有特征论、原型论,范式论、心理本质论、心理语境论,等等,不一而足(桂诗春2000)。这些理论模型都旨在提出一些制约,以缩小归纳(也就是说学习)所要解决的问题空间。就儿童词汇习得而言,一些心理语言学家假设存在一些对词语赋予意义的制约,儿童在早期习得词汇时都假定:多数词语在感知上都是对应物体的名称;两个词通常都有两个不同的意义;享有共同声音的词语通常都是意义上相关的;一个不熟悉的言语声音可能指一些儿童还未能掌握其对应词的东西。但是这也不是没有问题,landauer与dumais(1997)指出,一个问题是我们不知道某一个制约是否真正存在;少年儿童虽然假定相同的物体只有一个名称,但是他们所接触的语言是否也是这样呢?又如某一种制约的产生是逐步进化的,还是通过认知而起作用的一种普遍性制约?还有一个问题是,某些制约的存在和产生出于逻辑的需要,但这又是不够的,可以从3方面看:1)某一套制约是否逻辑上和语用上充分,也就是说使用了它们以后是否就能解决问题?例如儿童认为没有同义词,这在多大程度上能帮助他们学习词汇?2)和方法论有关,怎样才能获得前一个问题的答案?怎样知道某一些特定制约的组合应用到自然环境的输入时才能解决问题?3)怎样决定一个提出来的模型是否具有心理现实性?landauer认为要解决这些问题必须使用模拟的模型。而他和其他几个研究人员foltz、dumais、deerwester、furnas等人(deerwester et.al.1990)所提出的,而又得到着名语篇研究者kintsch支持的模型就是潜伏语义分析(latent semantic analysis,lsa)。这是一个多维数的线性组合模型,“这个模型只是一个普遍的学习机制,本身并不体现人类知识,但是它通过分析一个很大的自然语言文本语料库来生成一个足以体现词语和文本片段的相似性的表征。”
2.lsa的理据
从潜伏性语义分析的角度看来,归纳就是减少维数(reduction of dimensionality)。landauer举了一个形象的例子,一个人站在高原上打电话告诉他的朋友三间房子的位置,a和b、a和c的距离都是5个单位,而b和c的距离则是8个单位。在他的朋友脑海里就形成一个两个维数的三角形。如果他继续补充说,这三间房子是在一条直线上,他的朋友就会说,他一定是看错了这三个房子的距离。a和b、c的距离应该是4.5个单位,而b和c的距离应该是9个单位。因为在一个两维数的三角形里,其底边应该是其他两个边的和。这说明,减少维数可改善估算。在研究工作中,研究人员往往通过减少维数来降低计算的复杂性,即把数据作平滑化处理:简化数据并填补所缺的节点。在东京召开的联合国大学主持的混沌对科学和社会的冲击学术会议上,两个着名的混沌学专家feigenbaun和aihara就一致认为,人脑由100亿个神经元组成,而我们要对它的相互作用进行观察只能选取一个极低的维数。(注:这次大会的文集我国已由杨立、刘巨彬等译,刘式达、杜先之等校,湖南科学技术出版社出版,题为《混沌:对和社会的冲击》,两人的对话见该书394-395页。)在统计学中,这种减少维数的方法,例如因子分析、多维数量表也经常被采用,osgood(1971)在70年代所做的语义微分分析就用过因子分析。同样地,我们也可以把两个词的语义相似性表示为距离:距离越近,相似性就越强。假定两个词在一个语篇单位(短语、句子或段落)中出现的频率和它们的语义距离成反比例(频率越多,距离越近),那它们就和语义相似性直接相关。我们可以通过观察两个词在同一单位中出现的相对频率来估算出其语义相似性。因为人们进行交际时,都会使用一些基本成分(如词),使两个词语中存在某种相对的相似性。发送者会选择同一语义空间彼此相近的词,它们就会有不同的语义距离;而接收者则会按照它们在同一上下文中的相对频率来估算这些距离。但是自然语言中的词语数量极为庞大,而接收到的词语却数量极少,例如两个词的频率都是百万分之一,它们虽然有相关的意义,也不大可能会一起发生。可是如果我们的接收机制按照统计知识把接受到的词语表示为相似的语义空间,即同一个维数的各个节点,情况就会大大改善。
基于上述的假设,潜伏性语义分析可以用来比较不同语篇的语义相似性。研究语篇理解的首要目标是:了解有哪些足以影响读者从文本材料中抽取和保存信息的能力的因素,例如让受试写一篇文本材料的摘要,然后再看他们从文本中获取了什么信息。这意味着把读者的文本表征(认知模型)和原来的文本表征加以比较,即把摘要中每一个句子的信息和文本中的句子信息加以比较。但是要对信息进行比较并非易事,它要求扫描原文,找出信息的所在。而且受试所写的摘要往往并不全都采用原文中的词语。所以光比较词语也不成。研究人员要比较的是摘要和原来文本的语义内容。kintsch(1988,1998)所提出的构建整合模型(construction-integration model)就是一个观察读者对文本表征的认知模型,它把读者摘要的语义表示为一些语义成分组合,称之为命题(prepositions)。文本中的每一个子句是一个命题(如the red rose和the rose is red,都属于一个命题)。这些命题根据各种范畴连接起来,例如看它们是否共享中项(arguments)和指称(referents)。一个文本的所有命题组合起来就成为文本结构。不少实验都证明命题是人们的心理处理单位(如graesser1981)。对文本和受试对它回述进行命题分析可以对一系列语义基本元素加以比较,其好处是这种比较并非表层结构的比较。但问题是,目前还没有生成命题的自动化程序,因为计算机必须对文本进行正确的语法分析,并且了解词语的正确意义。于是可以利用计算机来对语义相似性进行比较的潜伏性语义分析就应运而生了。
lsa原来是建筑在以语义内容的基础上以改善提取的一种设计,称为潜伏性语义索引(latent semantic indexing,lsi)。在现实生活里,往往同一个语义概念表示为不同的词语,如果以原词作为检索单位,就费时失事。例如“电子计算机”往往又可以简称为“计算机”或“电脑”,甚至“服务器”和“机器”。如果在检索中只键入任何一种说法就能查出“电子计算机”,不是方便得多吗?这种方法还可以避免同义性的问题。lsa的基本假设是不同文件(文件可大可小,可以是词语所出现的整个语境,也可以是某些文本、段落和句子)的词语使用型式存在着某种“潜伏的”结构,而使用一些统计的方法可以估量出这种潜伏性结构。这些方法通过分析词语和文件之间的联系,产生一个在相同语境中使用的词语将会在语义上更为密切联系的表征。例如:
(1)the u.s.s.nashville arrived in colon harbor with 42 marines
(2)with the warship in colon harbor,the colombian troops withdrew.
"warship"所出现的语境(lsa称之为“向量”,vector)和"nashville"所出现的语境相似,两者的上下文都有"colon"和"harbor"。lsa所使用的技巧可以自动找出这些更深层的联系的结构。
* 稍后学术顾问联系您