图 书 馆 学 研 究 2010(应用版)13
基于JASIST的情报学研究前沿及趋势分析
李金建 贡金涛
=摘 要>选择情报学著名期刊JournaloftheAmericanSocietyforInformationScienceandTechnology(5美国情报会志6)1999)2008年发表的全部1241篇文献题录作为数据样本,根据科学计量学原理,用CiteSpace软件绘制出相应的知识图谱,揭示了学科发展的趋势,发现了情报学研究领域的关键文献和关键人物,展现了情报学研究领域的知识结构关系。分析图谱得出了3个研究前沿:信息检索及技术研究;网络信息及信息查询行为;引文及词共现分析研究。
=关键词>情报学 共引分析 可视化图谱 CiteSpace
Abstract:Choosingthetotal1241articlespublishedduring1999-2008inJournaloftheAmericanSocietyforInformationandTechnology,afamousjournalinthefieldofInformationScienceasthedatasampleandusingtheSoftwareCiteSpace,theauthorstrytodrawtherespondentknowledgemapsaccordingtotheprincipleofscientificmetrology,whichrevealthecurrentdevelopmenttrendoftheinformationscience,showthekeydocumentsaswellasthekeyprofessionalsinthefield,andgivetherelationshipamongeachresearchfields.Atlast,threefrontiertopicsaregivenbythemaps,thatis,informationretrievalandtechnology,Internetinformationandinformationsearchingbehavior,citationanalysisandtermco-occurrenceresearch1Keywords:InformationScience co-citationanalysis visualizingmap CiteSpace1 引言
现代情报学起源于第二次世界大战之前的文献工作,申农(ShannonC1E1)的信息论和维纳(WinnerN1)的控制论为现代情报学的诞生奠定了理论基础,电子计算机的诞生及发展为情报学奠定了技术基础。1945年,美国科学家范内瓦#布什(VannevarBush)发表了5诚若所思6一文,实际上指出了情报学发展的目标和方向:使人类正在增多的知识得到更为充分地利用;1948年,布拉德福(Bradford)发表了5文献工作内容的改进和扩展6一文,强调了原来的文献工作必须进行变革。这两篇文献的发表象征了文献工作向情报学的历史性转移,情报学从此真正诞生。对于情报学的范畴,很多情报学家都有自己的观点,美国情报学家萨拉赛维克(Saracevic,T1)认为,情报学可分为两大块:第一块包括对文献和文献结构的分析研究、信息传播与科学传播、情报的社会背景、情报利用、情报查询和情报行为等;第二块就是检索。英格沃森(PeterIngwersen)提出情报学的核心领域有信息计量学、信息查询、信息检索、信息管理和信息检索系统设计这5个部分[4]。
本文选取情报学顶级学术期刊JASIST(JournaloftheAmericanSocietyforInformationScienceandTechnology,美国情报会志)1999年到2008年的论文文献作为研究对象并进行可视化分析,探求情报学近10年的最新发展情况和趋势,从而使我们从美国科学情报研究所(ISI)的科学引文索引(SCI)数据库获取JASIST(1999年及以前期刊名称为JASIS)1999年到2008年的文献数据,选取得到主题论文的题录数据1241条,引文72596条。本文采用美国德雷塞尔大学陈美超博士开发的信息可视化软件/CiteSpace0,形象地演示情报学的前沿及发展趋势。我国情报学研究人员可以更好地了解世界情报学的研究动向,立足本国的实际,将中国情报学研究推向前进。在国外,陈美超博士使用此软件进行过知识与数据工程(DataandKnowledgeEngineering,简称DKE)等前沿领域的可视化及分析[5]。在国内,刘泽渊教授带领的科学计量学研究团体也使用CiteSpace软件揭示了航空航天工程、生态经济学、蛋白质工程和组织行为等学科发展脉络和学科前沿,取得很好的效果[6][7][8][9]。
[3]
[2]
[1]
RESEARCHESINLIBRARYSCIENCE
2 引文网络图谱的可视化及分析
3
CiteSpace可视化软件共引网络图谱有两种不同的视图方式,它们是聚类视图和时区视图(time-zoneview)。我们利用CiteSpace软件,阙值选择(5,3,15)、(5,3,20)、(5,3,20),运行得到情报学领域文献共引网络知识图谱的聚类视图(如图1)。
图1 情报学文献共引网络图谱
根据陈美超教授的定义,共引网络图谱的关键点是图谱中连接两个以上不同聚类,且相对中心度和被引频次较高的节点。这些节点可能成为网络中由一个时间段向另一个时间段过渡的关键点斯特科(JohnScott)的5社会网络分析法6一书中指出/中心度0整体中心度测度是计算该点与其他各点之间的捷径距离之和
[11]
[10]
。在刘军教授翻译的约翰#
(local
(centrality)有/局部中心度0
centrality)和/整体中心度0(globalcentrality)之分,局部中心度测度是以度数为基础的对点中心数的测量,
。因此无论局部中心度还是整体中心度,其中心度
大的点容易成为网络关键点,相当于链接旧领域和新领域的桥梁,其在学科发展中具有重要的地位。我们可以看出共引网络图谱有16个关键点。聚类视图可以看出情报学主流研究领域分为3个部分,它们是信息检索理论与技术、网络查询及行为研究、引文共现理论及应用。具体关键点文献见表1。211 聚类C1)))信息检索及技术研究聚类
信息检索及技术研究聚类处于整个网络的中心,左侧与网络信息及信息查询聚类的联系主要由较早时期(深色表示1999年-2003年)的连线连接;右侧与引文及词共现分析聚类主要由较晚时期(浅色表示2004年-2008年)的连线连接。它表示了信息检索理论与技术研究聚类是其他两个聚类的基础。
信息检索理论与技术研究聚类主要关键点有5个,其中最大的关键点文献是萨尔顿(SaltonG)于1983年所著的5现代信息检索介绍6一书。这本书对现代检索理论和技术进行了详细的介绍,主要内容包括信息检索的概念、倒排文件、倒排索引、文字起源、索引语言、B-树、相似矩阵、转换语法、矢量图、有限状态自动机、指针结构、相关反馈和/Staran0数字计算机系统等。在以后的日子里,这部专著被频频引用,是一部真正意义上的现代检索理论和技术的奠基之作。1989年,萨尔顿另一本书5自动文本处理:电脑下的信息转化,分析和检索6,对矢量信息检索模型做了进一步的阐述,并开发了著名的/SMART0向量模型信息检索系统,大大促进了信息检索的发展。人们鉴于萨尔顿在信息检索中的巨大贡献,将信息检索领域最高奖项(萨尔顿奖)以他的名字命名,称誉他为现代信息检索的奠基人。
4
图 书 馆 学 研 究 2010(应用版)13
表1 共引网络图谱的关键点文献情况表
作 者
关键点文献篇名及年代
真实的生活、用户和需要:对网民查询的研究和分析(2000)
现代信息检索介绍(1983,专著)
相关性:情报学概念想法的回顾和框架(1975)一个大规模超文本网络搜索引擎的剖析(1998)
网上查询接口的浏览和Berrypicking技术的设计(1989)网络查询:公众和他们的询问(2001)
一个超大网络搜索引擎询问日志的分析(1999)基于隐性语义分析的索引(1990)
自动文本处理:电脑下的信息转化,分析和检索(1989,专著)
检索过程之中:基于用户视角的信息查询(1991,专著)作为智能组织指标的词与共词(1989)
学科可视化,一个情报学的共引作者分析,1972-1995(1998)
作者同被引科学结构的文献测量方法(1981)信息检索(1979,专著)
信息检索的ASK:第一部分背景和理论(1982)查询的意思:对图书馆信息服务的处理方法(1993)
被引次数
43532811433114313945134223313333
中心度0145013701310126012201210121011901170117011601130113011101110111
所属聚类C2C1C1C3C2C2C2C3C1C2C3C3C3C1C1C2
Jansen,BJ1Salton,GSaracevic,T1Brin,SBATES,M1JSpinkASilverstein,C1Deerwester,SSaltonG1Kuhlthau,C1CLeydesdorff,L1White,H1D1White,H1D1Van-C1J1
Belkin,N1J1Kuhlthau,C1C
RIJSBERGEN
检索结果的精准与检索的相关性密切相连,SchamberEisenbery和Nilan曾认为:/相关性是情报学的基础和中心概念0
[12]
。大量的学者探讨/相关性0的含义,判断它的影响因素,例如1958年VickeryB1C提出相关概念
(logicalrelevance)的概念[14],1973年Wilson提出/情境相关0
(situational
可以分为/主题相关0(relevancetosubject)和/使用者相关0(userrelevance)的思想[13],1871年CooperW1S1提出/逻辑相关0relevance)的概念
[15]
。关键点文献萨拉塞维克的5相关性:情报学概念想法的回顾和框架6就是在他们研究的基
[16]
础上,列举了/相关性0的所有可能的层次并做了细致的归纳,建立了/相关性0理论的框架。此后,Harter在1992年提出/心理相关0(psychologicalrelevance)的概念
。
C1聚类中还有两个关键点文献,其中一个是Van-RIJSBERGENC1J1979年出版的专著5信息检索6,对概率信息检索概念和模型进行了详细介绍。Van-RIJSBERGENC1J是情报学逻辑学派的重要代表,在英文停用词研究上成绩斐然,编制的停用词表应用广泛。1982年,情报结构学派代表人物贝尔金与人合作发表了5信息检索的ASK:第一部分背景和理论6和5信息检索的ASK:第二部分一项设计性学习的结果6两篇论文,提出ASK(anomalousstatesofknowledge)假说和设计性学习(thedisignstudy),认为ASK应该首先考虑使用者所不知的状况,再呈现出适当的信息[17]。
212 聚类C2)))网络信息及信息查询行为聚类
在2007年5图书情报工作6第10期的/信息检索的新发展0专题论述中,张新民和武夷山研究员认为从宏观的角度来看,信息查询(InformationSeeking)和信息检索都是对人类信息行为的研究[18]。此聚类文献绝大部分集中在20世纪90年代,是新型的研究领域,它是网络环境下的信息查询行为的研究聚类。这是一个信息检索网络应用后和原有的信息查询行为相结合的研究聚类,随着网络的发展,网络信息查询在生活中变得越来越重要,
RESEARCHESINLIBRARYSCIENCE
5
人们的信息需求越来越多地通过网络来解决,所以人们的网络查询及信息行为研究也成为情报学的研究热点。
本聚类中最大的关键点文献是扬森(JansenBJ)、斯宾克(SpinkA)和萨拉塞维克于2000年在InformationProcessingandManagement发表的论文5真实的生活、用户和需要:对网民查询的研究和分析6。这三人都是近几年进行引擎日志挖掘研究的学者,此文通过对/Excite0搜索引擎的日志分析,得出网络用户在检索词使用、选取搜索结果、信息回馈等信息查询行为方面都有自己的特点。斯宾克等的5网络查询:公众和他们的询问6与希尔维斯通(SilversteinC)等的5一个超大网络搜索引擎询问日志的分析6都是对网络信息查询领域的实证研究。网络信息复杂的今天,探求信息用户的网络信息查询行为的研究是很有实际价值的。
其他的3个关键点文献是贝茨(BATES,M1J)1989年发表的5网上查询接口的浏览和Berrypicking技术的设计6一文,在此文中贝茨提出浏览也是信息查询的一种行为方式,从而扩大了人们对信息查询的理解,她还提出/berrypicking0信息查询模型。关于信息搜索模型,库尔梭(Kuhlthau,C1C)在1991年出版的5检索过程之中:基于用户视角的信息查询6一书中提出基于用户视角来看信息搜索,并基于用户信息寻求情况的五项研究,建立了信息查询过程模型,将信息查询过程分为开始(initiation)、选择(selection)、探索(exploration)、成型(formulation)、收集(collection)和呈现(presentation)六大阶段。接着她1993年又发表了5查询的意义:对图书馆信息服务的处理方法6一文,对信息搜索过程进一步阐述,认为信息搜索过程还伴随着个人的情感、认知、行为与学习。
213 聚类C3)))引文及词共现分析聚类
引文分析是情报学领域常见的分析方法。1955年加菲尔德(EugeneGarfield)在5科学6上发表的5科学引文索引:文献学贯穿观念联系的一个新维度6一文提出借助图书期刊论文之间的引用文献所构成的联系来作为检索科学情报的新方法,开创了引文分析的先河[19]。1973年,著名计量学家亨利#斯莫尔(HenrySmall)发展了引文分析,提出了有名的共被引(co-citation)理论和共被引分析方法[20]。1986年法国计量学家M1Callon、J1Law和A1Rip又提出了词共现分析方法[21]。近年来引文分析的研究热点主要集中在引文可视化分析和网络引文分析上。
聚类C3中最大的关键点文献是Google创始人布林(Brin,S)和佩奇(Page,L)于1998年发表的5一个大规模超文本网络搜索引擎的剖析6一文,介绍了Google的搜索原理,成为现代计算机搜索引擎领域人员必读的经典之作。此文和引文分析的文献出现在同一聚类中,是因为此文介绍的Google搜索引擎排序算法/PageRank0类似于文献之间的引文分析。PageRank根据网站的内外部链接的数量和质量来衡量网站的价值,与引文分析中用引文多少来确定论文价值的思想相仿,即一篇文章被他人引用的次数越多,这篇论文的权威性就越高。
此外中心度排在第二的关键点文献是DeerwesterS等人1990年发表的5基于潜在语义分析的索引6一文,DeerwesterS提出/潜在语义分析0(latentsemanticanalysis)的信息检索方法,其基本思想是文本中的词与词之间存在某种联系,即存在某种潜在的语义结构,而词语之间的这种语义结构体现为它们在文本中的出现频率也具有一定的联系,通过统计学方法,提取并量化这些潜在的语义结构,进而消除同义词、多义词的影响,提高文本表示的准确性
[22]
。此后大量的学者和科学家为了发挥/潜在语义分析0的优越性,提出了各种语义空间模型的
算法并用于实践之中。
聚类C3的其他3个关键点文献,都是关于词共现或共被引方面的文章,荷兰的科学计量学家雷蒂斯托夫(Leydesdorff,L1)的5作为智能组织指标的词与共词6一文,强调词与词的共现分析也可以作为智能组织描述的一个工具来使用,他的观点现在得到很广泛的认同和实践,人们往往用词共现来分析某一学科的内部学科结构。怀特是美国科学计量学家,他善于从引文的角度来揭示学科的发展,并将其学科发展通过一定的方法和计算机软件表示出来。1981年怀特与格利菲斯(GriffithBC)合作发表了5作者同被引科学结构的文献测量方法6一文,通过对世界39位情报科学家的共被引分析,利用多维尺度分析方法绘制了情报学知识图谱,将情报学划为5大分支研究领域,即科学交流(communicationinscienceandtechnology)、文献计量(Bibliometrics)、一般理论(intergrativetheory)、自动化信息检索(automatedinformationretrieval)和齐夫(Zipf,G1K1)、申农组成的早期先驱团体(precursors)。1998年怀特又与麦肯合作发表了5学科可视化,一个情报学的共引作者分析,1972-19956一文,以1972至1995年间发文被引率最高的前120位作者为样本进行同被引分析,发现情报学有了两个相对集中的研究领域,即试验检索(experimentalretrieval)和引文分析(citationanalysis),前者关注文献检索系统的设计和评价,后者关注科学和学术文献的相互联系。6
图 书 馆 学 研 究 2010(应用版)13
3 结论
以美国JASIST期刊1999年到2008年的数据为基础,利用陈美超博士开发的信息可视化工具CiteSpace绘制出情报学的文献共引网络图谱,显示出3个共引聚类:信息检索及技术研究聚类;网络信息及信息查询行为聚类;引文及词共现分析聚类。这是情报学的3个比较大的研究领域,也是情报学体系的主要框架。情报学的未来将是这三大领域的继续扩展和深化。信息检索早在50年代就开始了,在信息检索理论指导之下,正向更深的领域发展,如智能化信息检索系统、多语种信息检索系统和图像视频信息检索系统等。网络信息及信息查询行为研究的主要内容是人们网络信息查询中的行为研究,其中的用户模式研究和用户需求评价体系研究将成为近来新的研究热点。至于引文共现研究领域,基于引文和共现理论的信息可视化、网络分析法和h-指数等将成为新的研究热点。
关于情报学前沿和趋势分析还需要进一步的分析和总结,本文只选取单一的JASIST一种期刊,数据来源有其局限性。任何一门学科都有相关学科,只把握一门学科而不研究其相关学科的研究本身就是不全面的。所以有待其他研究者在相关学科的基础上,使用情报学多种期刊数据对情报学的前沿和趋势进行进一步的研究。
注释
[1]BushV1Aswemaythink1http:PPwww1w31orgPHistoryP1945PVbushPvbush-all1shtml,2009-07-15
[2][3]周晓英,崔佳佳,唐宇萍等1情报学的起源与方向)))从布什的5诚如所思6谈起1情报科学,2004(2):129-132[4]SaracevicT1Informationscience1JournaloftheAmericanSocietyforInformationScience,1999(12):1051-1063[5]IngwersenP1Informationandinformationscience1InKentA1EncyclopediaofLIS1NY:MarcelDekker,1995:137-177
[6]ChenC1,SongIY1,YuanXJ1,etal1Thethematicandcitationlandscapeofdataandknowledgeengineering(1985-2007)1Dataand
KnowledgeEngineering,2008(2):234-259
[7]梁永霞,杨中楷,刘则渊1基于CiteSpaceÒ的航空航天工程前沿研究1科学学研究,2008(S2):304-312[8]刘则渊,王贤文1生态经济学研究前沿及其演进的可视化分析1西南林学院学报,2008(4):4-11[9]栾春娟,侯海燕1基于SCI的蛋白质工程国际前沿技术分析1全球科技经济瞭望,2008(10):46-50
[10]HirschJE1Anindextoquantifyanindividualsscientificre-searchoutput1PNASoftheUSA,2005,102(46):16569-16572[11]陈超美,陈悦,侯剑华等1CiteSpaceÒ:科学文献中新趋势与新动态的识别与可视化1情报学报,2009(3):401-421[12]刘军1社会网络分析1北京:社会科学文献出版社,2004:68-77
[13]SchamberL,EisenbergMB,NilanMS1ArE-examinationofrelevance:Towardadynamic,situationaldefinition1Information
Processing&Management,1990,26(6):755-775
[14]VickeryBC1Subjectanalysisforinformationretrieval1InternationalConferenceonScientificInformation1Washington,DC1USA,
NationalAcademiesPress,1958:855-866
[15]CooperWS1Adefinitionofrelevanceforinformationretrieval1InformationStorageandRetrieva,1971(1):19-37[16]WilsonP1Situationalrelevance1InformationStorageandRetrieval,1973(9):457-471
[17]StephenPH1Psychologicalrelevanceandinformationscience1JournaloftheAmericanSocietyforInformationScience,1992(9):
602-615
[18]BelkinNJ,OddyRN,BrooksHM1Askforinformationretrieval:partIIResultsofadesignstudy1JournalofDocumentation,1982
(3):145-164
[19]张新民,武夷山1编者的话1图书情报工作,2007(10):5
[20]GarfieldE1Citationindexesforscience:anewdimensionindocumentationthroughassociationofideas1Science,1955(3159):
108-11
[21]刘则渊,陈悦,侯海燕等1科学知识图谱:方法与应用1北京:人民出版社,2008:16-17
[22]CallonM,LawJ,RipA1MappingtheDynamicsofScienceandTechnology:SociologyofScienceintheRealWorld1London:
Macmillan,1986:142-162
李金建 贡金涛 河南工业职业技术学院图书馆。
因篇幅问题不能全部显示,请点此查看更多更全内容