一种基于视觉单词的图像检索方法
2021-05-27
来源:欧得旅游网
一种基于视觉单词的图像检索方法・17・一种基于视觉单词的图像检索方法刁蒙蒙,张菁,卓力,隋磊(北京工业大学信号与信息处理研究室,北京1001241摘要:基于内容的图像检索技术最主要的问题是图像的低层特征和高层语义之间存在着“语义鸿沟”。受文本内容分析的启发,有研究学者借鉴传统词典中用文本单词组合解释术语的思路,将图像视为视觉单词的组合,利用一系列视觉单词的组合采描述图像的语叉内容。为此,利用sIFr进行图像的视觉单词特征提取,然后构建视觉单词库,最后实现了一个基于视觉单词的图像检索系统。实验结果表明,该方法在一定程度上提高了图像检索的查准率。关键词:图像检索;视觉单词;SIrI’特征;语义鸿沟中图分类号:TP391文献标识码:A文章编号:1000—8829(2012)05-0017一04VisualAnApproachofImageRetrievalBasedonWordsDIAOMeng-meng,ZHANGJing,ZHUOLi,SUILei(Signal&InformationProcessingLaboratory,BeijingUniversityofTechnology,Beijing100124。China)Ab舳ct:Themainproblemofcontent—basedimageretrieval(CBIR)isthesemanticgapbetweenthelowlev—textelfeaturesandhigh-levelsemanticsofimage.Desiredbycontentasanalysiswhichitexplainsterminologybycombiningseveraltextwords.someresearchersregardimagecontentseveralvisualwordstodescribethesemantictoofimages.Tothisend,SIFF(scale-invariantfeaturetransform)algorithmisusedaextractimagelea-onturesandthendictionaryofvisualwordisconstructed.Finally,animageretrievalsystembasedcallvisualwordsisrealized.Experimentalresultsshowthattheproposedapproachageimprovestheprecisionrateofim-retrievalto¥omeextent.Keywords:imageretrieval;visualword;sIFr;semanticgap随着多媒体技术和Interact技术的飞速发展,网络}:的数字图像急剧增长。面对这些海肇的图像数据,如何检索到用户所需的图像信息成为图像处理领内容的图像检索(CBIR,content_basedimageretrieval)技术成为了近年来图像检索技术的研究热点u。1。基于内容的图像检索主要通过图像的低层视觉特征(颜色、纹理、形状)进行图像表示和匹配、…,其面临的主要问题足图像低层持征和图像高层语义存在着“语义鸿沟”(semanticgap)。为r克服语义鸿沟,人们进行了诸多方面的研究,致力于建立一种有效的从图像低层视觉特征到高层语义的映射模式。这方面的研究虽然取得了一定的成果,但由于映射模式的建立是相当复杂的,可以说目前仍然没有一种全面并且有效的语义映射模式。视觉单词(visualwords)的提出是为了有效改善域的研究热点。传统的图像检索一般都足基于文本的榆索方法,由于这种方法需要人工参与,无法满足Web网络资源的需要,难以适应图片数量爆炸式的增长,已经不能满足人们对图像信息的检索需求。基于收稿日期:2011一12—21基金项目:国家自然科学基金资助项目(61003289,61100212);北京市自然科学基金资助项目(4102008);教育部新世纪优秀人才支持计划资助项目;人力资源与社会保障部留学归国人员科技活动优秀类资助项目;教育部留学归国人员科研启动基金资助项目作者简介:--7蒙蒙(1988一),女,硕士研究生.主要研究方向为图像处理与模式识别技术;张菁(1975一),女.博士,副教授,硕士生旱师,主要研究方向为图像/视频信号与信息处理等;卓力(1971一)。女.教授,博士生导师。主要研究方向为图像/视频信号处理、编码与传输,网络多媒体处理,无线视频传感器网络等。图像低层特征和人们埘图像的主观理解,从而有效弥补图像低层特征和高层语义的距离。近年来,图像的词袋特征(BOW,bag—of-words)是图像分类领域应用最广泛的一类特征。大量研究结果也表明,词袋特征在图像表示和分类中具有很好的性能。40。例如,有研究者将词袋特征应用于场景分类中,首先定义图像块的万方数据・18-不同语义概念(如:水,岩石等),称其为视觉单词;其次利用这些视觉单词的出现频率作为图像的场景内容表示,最后使用有监督学习的方法找到图像最可能属于的场景类别一‘。在词袋模型的基础上,Fei和Bosch哺3等人还分别利用隐含狄利克雷分配(IDA,la-tentdirichletallocation)∞‘模型和概率潜在语义分析(PLSA,probabilisticlatentsemanticanalysis)…模型分析得到图像的主题或者潜在语义,从而完成图像的场景分类。由于词袋特征是通过统计局部不变特征的全局出现情况来实现的,其特征既保留了局部特征的不变性又增加了全局特征的鲁棒性,同时与数量庞大的局部不变特征相比还能起到简化特征的作用。但是,词袋特征本质上仍是一种图像的全局特征,这类特征在图像内容比较简单的图像分类问题上往往能获得较好的效果,但对于内容更丰富,背景更复杂的图像分类问题则难以获得很好的效果。近年来,词袋特征在机器人导航、Web图像搜索、图像语义建模、场景分类等领域取得了良好的应用效果悼J。因此,受文本内容分析的启发,借助传统词典中用文本单词组合解释术语的思路一““,将图像视为视觉单词组合,实现了一种基于视觉单词的图像检索方法。l基于视觉单词的图像检索本文实现的基于视觉单词的图像检索系统主要包括:SIFY视觉单词特征提取,构建视觉单词库.相似度计算,如图1所示。首先利用SIFT进行图像的视觉单词特征提取,然后对所有图像的视觉单词特征数据进行K均值聚类,根据聚类结果构建视觉单词库,最后根据图像的视觉单词直方图,计算图像间的相似度,返回图像检索结果。煞一8。霖征H嚣H臀卜◆簇图I图像检索框图1.1SIFT特征提取图像的尺度不变特征(SIFT.scale-invariantfeaturetransfornl)匹配算法是一种有效的匹配算法,其匹配能力强,可以解决多种几何变换、畸变、仿射变换、摄像角度的变换、亮度变换、噪声等情况引起的误匹配问题,它在图像检索、图像拼接、机器视觉等领域都有一定的应用。SIFT算法具有很好的稳定性和不变性,其提取步骤(如图2所示)如下。图2swr特征提取算法流程图①建立图像尺度空间。在sI兀’算法中,采用了万方数据《测控技术)2012年第31卷第5期线性尺度空间中的高斯(Gaussian)尺度空间,在高斯差分尺度空间(DOGscale-space)[131中,由于极值点的变化较明显,所以能检测出较稳定的极值点。②尺度空间极值点检测。SIFT特征点选取的是尺度空间中连续3幅高斯差分图像中的极值点。为了得到高斯差分图像中的极值点,每一个样本像素点要和它相邻的上下左右所有的点进行比较。如果该样本点的灰度值是极大值或极小值,则这个样本点就是候选特征点,否则按照同样的方法对其他的像素点进行比较,这样就确定了特征点的位置。③精确定位特征点位置。由于低对比度的点对噪声很敏感,DOG算子会产生较强的边缘响应,边缘上的点容易被错误定位,利用特征点的位置、尺度、曲率等信息可以去除低对比度的点和边缘点以增强匹配稳定性。提高抗噪声能力。④确定特征点主方向。在以特征点为中心的邻域内统计邻域像素的梯度方向,每一个直方图中的样点都经过梯度模值加权,加权范围是圆形3盯大小的高斯窗口,盯是特征点的尺度。直方图统计360。范围内的梯度,一个柱中包含Io。,直方图一共包含36个柱子。直方图中的最高点代表该特征点处邻域梯度的主方向,也就是该特征点的方向。⑤生成特征点的描述算子。首先,计算特征点的梯度模值和方向,计算描述算子时首先将坐标轴旋转为特征点的方向,以确保算法具有抗旋转性。接下来以特征点为中心取16像素×16像素的区域,高斯加权函数为每个样本点梯度值赋一个权重,越靠近特征点的梯度值赋予越大的权重,表明像素梯度方向信息贡献越大。将16像素×16像素区域分成4x4个子区域。对每个子区域按高斯加权的方式进行梯度方向直方图的统计,直方图均匀分为8个方向,对4×4个子区域的8方向梯度直方图根据位置依次排序,绘制每个梯度方向的累加值,即可形成一个种子点。因此图中一个特征点由4x4共16个种子点组成,每个种子点有8个方向向量信息,每个特征点描述子共有16×8=128维向量,swr特征点生成如图3所示。由于特征点描述算子是根据其周围像素进行描述,因此其具有较好的抗噪性。此外,为了使得特征向量具有光照不变性,还需要对特征向量进行归一化运算。1.2视觉单词的构建方法为了克服图像低层特征和高层语义之间的“鸿沟”,本文引入了视觉单词这一概念,即基于。词袋模型”的方法表示图像内容。本节主要介绍了视觉单词表的生成方法以及图像的描述方式。视觉单词的生成是采用聚类的方式进行的。本文对图像库中所有的SIFT描述算子进行K均值(K-irtleans)聚类,用每个聚1m1(一种基于视觉单词的图像检索方法类中心表示一个视觉单词。・19・③将目标图像的视觉单词直方图和数据库图像集中每张图像的视觉单词直方图做欧式距离计算,得到与目标图像距离最小的作为图像检索结果。隔图3部分示例图像提取的SIlT特征点I.m||Ⅲ…I在特征域中构建视觉单词,首先需要提取每一图像的SIFT算子。提取方法在上一节的内容中已经做了介绍。实验中,将聚类中心设为500,采用K均值聚类算法构建视觉单词库,具体流程如下:①初始化,随机指定k个聚类中心(m。,m:,…,m^);ilIIlI|{IIIl‘I●I㈣IlIlI■11l_…叫■llMIll鸵l¨lI跖视觉编导猫悯∽②分配气,对每个样本双找到离它最近的聚类中心,并将其分配到该类;③修正簇中心,重新计算簇中心.Ni=告∑铀i=1,2,…,k2石厶~,2,,…,④计算偏差IL’)批,=∑∑慨一ra;0m。),算法终止;否则,返回②。1.3相似度计算(2)⑤收敛判断,如果_,收敛,则返回(nt。,m:,…,lI¨|JIll-I.II|Il。I|||||J_硼ll_…||¨lJl_l|』I川一|l【l●■●■_UNIIt■■IU‘川建立视觉单词库后,用视觉单词直方图对数据库中的图像进行表示,根据该表示计算图像之间的相似度,具体计算过程如下:①计算图中的任意一个特征点和500个视觉单词词汇特征的欧氏距离。128■山㈣_Il啊■■l山■删i.酬H67l256哪Il-IJ_IllII圳…圳…J川J34l426视觉单词编号(b)图4(3)目标图像与其视觉单词直方图d=∑h—m.12i—l2实验结果与分析本文建立了基于视觉单词的图像检索系统,本系统编程平台为IIItel(R)处理器,2.00StudioGHzCPU,2GB式中,这里气为特征点的特征数据;仇为视觉单词的特征数据,找到这些距离中最小的值,它对应的视觉单词就是该特征点的视觉单词词包描述。内存,Windows7操作系统的Pc机,编程环境为Visual2008,opencv2.0系统以及SQLServer2005。②生成图像的视觉单词直方图。以x轴为视觉单词词汇特征的编号,y轴为该图像在每个视觉单词上占有的特征点数,生成图像视觉单词直方图。图4所示为其中两幅示例图像及其视觉单词直方图。为了验证该图像检索方法的有效性和可行性,搭建了一个基于视觉单词的图像检索系统。本系统数据库中的图像数量为377张,包含了Apple、Butterfly、万方数据・20・《测控技术)2012年第3l卷第5期述,根据每幅图像已建立单词表的视觉单词直方图,计算欧氏距离,检索出最相似的图像。本文实现了一个图像检索系统,进一步论证了基于SIFt图像特征和K均值生成视觉单词词汇表对于图像检索的有效性。下一步的工作考虑加入相关反馈技术,将能进一步提高图像检索的查准率。参考文献:[1]RitendraD,DhirajJ,LiJ,etences,andtrendsofthenewBeach、Dog、Eagles,Earth?flower?Penguin?Plane、Sail-boat这几大类别。图5为部分图像的检索结果。图5左边的视图控件主要显示目标图像,右边的6个视图控件主要显示检索结果,最上面的文本框用来显示目标图像的特征点数。通过测试,该系统的平均查准率大约为70%。a1.Imageretrieval:ideas,influ—age[J].ACNTransactionsOn麟7ComputingSurveys,2008,40(2).[2]RuiandY,HuangTs,ChangSF.Imageretrieval:past,present,future[J].JournalofVisualCommunicationandImageRepresentation,1997,10:1—23.[3][4]沈兰荪,张菁,李晓光.图像检索与压缩域处理技术的研究[M].北京:人民邮电出版社,2008.刘硕研,须德,冯松鹤,等.一种基于上下文语义信息的图像块视觉单词生成算法[J].电子学报,2010,38(5):1156—1161.[5]I_iFF,PeronaP.ABayesianhierarchicalmodelforscenelearningnaturaleategofieg[A].ProceedingsOnofIEEEIntema-tionalConferenceComputerVisionandPatternRecogni・tion[c].2005:524-531.b[6]BleiDM,NgAY,JordanMI.LatentdirehletaUoeation[J].Journal—1022.ofMachineLearningResearch,2003,2(3):993[7]HofmannmantleT.UnsupervisedlearningbyprobabilislieofMachinelatent№analysis[J].Journalk帆iIlg,2001,41(1/2):177—196.[8]YangingsJ,JiangYG,HauptmannAG.Evaluatingbag-of-visu-SCClleal-wordsrepresentationsinclassification[A].Proceed—OiloftheInternationalWorl∞hopMultimediaInformation(c】Retrieval[C].2007:197—206.[9]WangtionYS,ttuangOilQM,Gao7/.Pomographicimagedetec—basedmultilevelrepresentation[J].InternationalJournalofPatternlleeognition,2009,23(8):1633—1655.[10]LopesturesPB,AvilaSEF,PeixotoANA,eta1.Abag-of-lea-Oilapproachbasedhue・・siftdescriptorfornudedetec・・17“European7■-谶熏瀚豳圈圈熬J^一产.恶麟‘。飘囝豳.蜀辫图t山tion[A].1'roceea峥of[11]Lienharttopicsi酬ProcessingcontentConference[c].Glasgow,Scotland,2009:1552—1556.1t,HaukeR.Filteringaduhimagewithmodels[A].ProceedingsOnofthe2009IEEEInterna-图5部分图像检索结果tionalConference—1475.MultimediaandF_,xpo[c].2009;14723结论与展望受文本内容分析的启发,借助传统词典中用文本单词组合解释术语的思路,将图像视为视觉单词组合,实现了一种基于视觉单词的图像检索方法。通过对特征数据进行K均值的聚类分析,得到了视觉单词词汇表,将图像基于特征的描述转化为基于视觉单词的描[12]WangIVI,YangK,ttuaXs,eta1.Visualtagdictionary・in・terpretingtagswithvisIlalwords[A].ProceeaingBofthe1‘w池hop[13]l_oweDOnWeb-ScaleMultimediacofp科c].2009:1-8.G.Objectrecognitionfromlocalscale—invariantfea-oftheSeventhIEEEInternationaltures[A].ProceedingsConferenceOnComputerVision[c].1999:1150—1157.口万方数据一种基于视觉单词的图像检索方法
作者:作者单位:刊名:英文刊名:年,卷(期):
刁蒙蒙, 张菁, 卓力, 隋磊, DIAO Meng-meng, ZHANG Jing, ZHUO Li, SUI Lei北京工业大学信号与信息处理研究室,北京,100124测控技术
Measurement & Control Technology2012,31(5)
本文链接:http://d.g.wanfangdata.com.cn/Periodical_ckjs201205004.aspx