基于两阶段相似性度量策略的图像检索方法
2024-01-28
来源:欧得旅游网
第3O卷第6期 2010年12月 南京邮电大学学报f自然科学版) Journal of Nanjing University of Posts and Telecommunications(Natural Science) VloJ.30 No.6 Dec.2010 基于两阶段相似性度量策略的图像检索方法 张敏,冯晓虹 210003) (南京邮电大学自动化学院,江苏南京摘要:提出了一种基于半监督学习(Semi—Supervised Learning)的图像检索方法。首先通过一种预处理方法,可以 有效地解决检索大型图像数据库时所面临的高计算代价问题。然后,度量输入查询图像与所有相关图像间的相似 性,得到初步的检索结果。最后,运用基于随机行程与重新开始(random walk and restart)的半监督学习方法细化初 始的图像检索,以提高检索精度。实际图像数据库上的实验表明,运用半监督学习方法能够获取高精度的图像检 索结果。 关键词:图像检索;预处理;半监督学习;细化 中图分类号:TP391 文献标识码:B 文章编号:1673-5439(2010)06-0101-06 Image Retrieval Based on Two-Step Similarity Measure ZHANG Min,FENG Xiao-hong (College of Automation,Naming University of Posts and T 1ec0mmu儿icati0ns,Nanjing 210003,China) Abstract:This paper proposes a novel scheme for image retrieval based on a semi-supervised learning strategy.First,a pre—processing is utilized to address the problem of large computational cost involved in a large image database.Then,the similarity between the input query image and the remaining relevant ima— ges are measured to obtain initial relevance score.Finally,a semi—supervised learning algorithm based on random walking and restarting,is utilized to refine candidate ranking to improve the retrieval accuracy. Experiments on a typical image database demonstrate the effectiveness of the proposed scheme. Key words:image retrieval;pre—processing;semi-supervised learning;refining 0 引 言 随着数字图像数量的日益剧增,对其进行快速、 正样本图像数量不足问题的解决。在文献[3]中, 将来自用户的反馈加人到检索系统中,形成一个不 断细化的处理过程。此外,文献[4—8]提供了其他 的解决方案。 高效检索的要求亦愈加强烈。在这种背景下,基于 内容的图像检索技术得到了广泛发展。设计基于内 容的图像检索系统时,一个需要共同面对的问题是: 如何根据给定的少量正样本图像,创建一个学习模 型,实现检索与输入查询图像在语义内容上存在相 一尽管目前已有的方法取得了可喜的效果,但由 于图像内容的高层语义理解与底层特征计算机描述 之问巨大的差异性(如某些图像的语义内容完全不 同但它们的底层特征却具有一定的相似性,而另外 些图像的语义内容相似但彼此的底层特征却分散 在不同的特征空间),使得基于内容的图像检索问 题尚未得到完美的解决。 关性的那些图像。针对正样本图像数量不足这样一 个问题,研究人员提出了许多不同的方法。在文献 [1]中,这个问题是通过将某些未标注图像视为伪 负样本图像的方法加以解决的。He等人在文献 [2]中采用流行排序(manifold—ranking)的方法实现 收稿日期:2010-01—28;修回13期:2010-03-03 基金项目:南京邮电大学青蓝计划(NY207090,NY207091)资助项目 通讯作者:张敏电话:85866500 E—mail:mzhang@njupt.edu.cn 为提高图像检索精度,本文提出一种基于半监 督学习的图像检索方案,其流程如图1所示。为解 南京邮电大学学报(自然科学版) 2010年 决检索大型图像数据库所面临的高计算量问题,我 们首先引入预处理机制。该预处理方法实现在滤除 影响。 与输入查询不相关图像的同时保留相关图像。然 后,采用概率密度估计方法求取输入查询与相关图 像之间的相似度,得到初步的图像检索结果。最后, 2相关值计算 使用何种方法描述数据库图像与查询图像间的 关联性,是一个值得仔细考虑的问题。本文中,采用 一在充分结合数据库图像对相似度信息以及输入查询 与相关图像相似度信息的基础上,利用近年来日益 发展的随机行程与重新开始(random walk and re- 种模糊度的方法 表示数据库图像与查询图像 间的关联性,该模糊度描述了数据库图像隶属于给 start)方法 ,以获取图像检索的最终结果。 图1 基于半监督学习的图像检索流程 1预处理机制 众所周知,对大型图像数据库进行检索所需要 的计算代价是非常高的。本文拟采用一种预处理的 方法解决这个问题,该预处理方法实现滤除绝大多 数不相关图像的同时保留绝大多数相关的图像。 在分析整个图像检索过程的基础上,我们可以 知道预处理机制需要同时满足低计算量与高查全率 两个条件。为同时满足这两个条件,采用一种改进 的最近邻准则对图像进行预处理。具体来说,对于 输入的查询图像,数据库中的图像依据得到的相似 度进行排序,与查询图像相似度越大的数据库图像, 越排在前面,且滤除一定比例的排在最后的图像。 通过这样的预处理,整个检索过程的计算代价可以 从原先的0(M3)缩减到0(N3),这里的 为数据 库中所有图像的数量,Ⅳ为经过预处理后保留下来 的与查询图像相关图像的数量。预处理后,本文中 保留200张与查询图像最具相似关系的图像。 对数据库图像进行预处理,需考虑相关图像间 建立充分联系,同时保持不相关图像问的稀疏性。 经过分析,我们注意到那些未连接的图像是和输入 查询图像不相关的图像。因而,我们深信这样的预 处理在节约计算开支的同时可以保证系统性能不受 定查询图像类别的概率。具体地,本文选用双曲线 正切函数计算数据库图像的模糊隶属度数值 q(i)= tanh( ( 其中,x 为查询图像q的特征向量,x 为数据库图 像i的特征向量,tanh(・)为双曲线正切函数 S为函 数扩展系数。此外,d 为不同类别的类间距的平均 值,且尺种图像类中心C,距离的平均值为 ^ R 月 dc 一Ct I (2) 当s,越小时,函数的形状越趋向于函数的平均 值。因此,如果想得到平坦的图形,则需要将s 的 值设置的大些,这样才能确保那些远离聚类中心的 特征也具有较高的隶属度。图2显示了数据库中与 某一输入查询具有相似关系的那些图像的模糊隶 属度。 1.00 0.95 0.90 0.85 O.8O 0.75 0.70 0.65 0 20 40 6O 8O l00 J20 140 I60 l80 2o0 Number of relevant image 图2某一查询图像的模糊隶属度 3相关值细化 得到一组相对于输入查询的模糊隶属度数值 后,我们将进行基于内容的图像检索任务。在这里, 检索过程可以视为一个对保留的相关图像进行排序 的过程。在综合考虑输入查询的模糊隶属度数值与 图像问关联性的基础上,本文采用一种改进的随机 第6期 张敏等:基于两阶段相似性度量策略的图像检索方法 行程与重新开始的半监督学习方法 u实现相似性 传递的排序过程。 的对角线元素为0,非对角线元素为 W“=S(i, )=Sd(i, )‘S (i√) (7) 3.1相似性度量 两种典型的假设常常应用在基于图的半监督学 习方法中_9]。第一个被称为邻域假设,其基本思想 3.3相关值细化 基于随机行程与重新开始的相关值的细化过 程,即为细化初始图像检索的过程,包括:设置重新 开始向量,构建归一化的边缘加权矩阵以及执行初 始排序的细化处理。 第一步:重新开始向量的设置。本文选取查询 是相邻的样本往往具有相同的标记;第二个被称为 结构假设,其基本思想是具有相同结构的样本往往 具有相同的标记。从这两个假设可知,作为标记传 递的基础,相似性度量在图方法中起着十分重要的 作用。根据第一个假设及文献[13]的实验结果,基 于曼哈顿距离的相邻图像间的相似性度量为 Sa( √)=ex 一 二 1 :nk=1 K expf_掣1。 (3) 其中, 为图像i特征向量X 的第 维特征, 为第 k维特征的系统参数。按照第二个假设及文献[13] 的实验结果,基于曼哈顿距离的相同图像类别间的 相似性度量为 S (i, )= exp(、 - /1(4) 其中,n 为图像 的邻域概率密度估计,且可用如下 公式求得: 走耋鱼 (- ) ㈥ 其中, 为图像 的邻域集。 将以上两个假设相结合,则图像i和 之间的相 似性度量可表示为 S( √)=Sd(i√)・S (i, ) =exp[一 】。exp(、 一 /1 (6) 其中,S ( , )说明了两个图像的相似性随着彼此之 间距离的增加而减弱,S (i√)则说明了两个图像的 相似性随着彼此之间密度差分的增加而减弱。 3.2 相似图构建 对查询图像q来说,其相似图G的构建过程包 括顶点的设置和顶点的连接两个方面的内容。 第一步:顶点的设置。对查询图像q来说,利用 最近邻法则找到Ⅳ个相关图像。然后,把这Ⅳ个相关 图像视为相似图G的顶点集合 相似图G的构成可 以表示为G=( ,E),其中E是加权的边缘集。 第二步:顶点的连接。对相似图G的边缘集合 来说,其权值矩阵为N×N仿射矩阵w。仿射矩阵w 图像g的隶属度qm={q(1),q(2),…,g(Ⅳ)}作为 重新开始的向量e,且对e进行归一化以确保e中元 素的和为1。 第二步:归一化边缘加权矩阵的构建。本文选 取上一小节中的仿射矩阵w作为随机行程与重新 开始算法中的加权矩阵 ,且加权矩阵w的每一列 均进行归一化处理。 第三步:初始排序细化的执行过程。这一步骤 是相关值细化处理的核心,涉及到以下过程: 第一分步:依据文献[14]的分割方法,将相似 图G分割为k个部分。 第二分步:将归一化的加权矩阵分解为两个对 角矩阵W 和w2,其中对角阵W 包含了所有聚内 的连接关系,而 则包含了所有聚间的连接关系。 第三分步:运用下式表示对角阵w 的组成: 1.1 0 0 0 ● z : .: ● ● (8) : ●● 0 0 ●●● W N 第四分步:分别对角阵w 的每一个分量 ¨进 行如下计算: 11=, (,一 ×WI. )一 (9) 其中, 为从当前顶点回到顶点 的概率。 第五分步:对 进行低秩近似处理以求取顶 点概念对矩阵 和概念概念对矩阵 : w2=USU (10) 其中, 的每一列元素对应于 的特征向量,对角 阵 的元素对应于 的特征值。 第六分步:求取查询图像q的最终隶属度数值 =(1一 )X(O-l- +  ̄o-,- X U xA×(厂r× )xe (11) 其中, A=(S一 一Ot×Ur×o-1 ×U)一 (12) 』】 ̄r维向量 的第i个元素即为数据库图像i的 最终隶属度值,并且具有最大隶属度值的 个数据 南京邮电大学学报(自然科学版) 2010年 库图像被选为查询图像g的图像检索结果。 4性能指标 本文采用加权查准率的平均值与排名的平均值 作为性能评测的准则。对于查询图像q来说,其查 rf(g)= (g) 5实验结果分析 准率为 pf( (13) 其中,z(g)表示检索序列中前z幅图像,n (q)表示 前z幅图像与查询图像q相关的图像。在式(13)所 表示的查准率的基础上,加权查准率的计算式为 p(q),、 而1 2Pt(g),、 而 1 lz(q)n nf(q)l ,1 (14) 每类加权查准率平均值的计算公式为 P 磊 ), ≤ ≤50(15) 排名为相关图像在检索序列中的位置,用 P(n )表示。排名的平均值是所有正确匹配图像位 置的平均结果,用r(q)表示 r(g) 志 p(n )(16) 与每类加权查准率平均值的计算公式相似,每 类排名均值的计算公式为 rk (g), ≤ ≤50(17) 接下来,进一步量化检索性能。对一个查询图像 q、前f个检索图像 (q)以及前z个检索图像中与查 询图像g相关的图像n (q),P (g)和 (g)表示前 个检索图像的查准率与查全率: Pl(q,,、 —] l z(9)n n (q)I『_ I/(q)A n z(g)I(18) 、L9 ——1丽一 前z个检索图像的查准率与查全率的平均值的计算 公式分别表示为 1 P P z(q) :5 ooo (19) r (g) (g) 每类查准率与查全率的平均值的计算公式分别 表示为 5.1实验设计 为测试本文提出的方法并实现与其它方法的性 能比较,实验中使用从Corel图像数据库中抽取的 5 000幅图像,包括海滩、花卉、马、老虎、日落、海底 生物、飞机、金字塔、人群、Fl等50个类别,每个类 别有100幅图像。图像数据库中的所有图像都作为 查询的样本图像,系统性能的评价标准为全部5 000 幅图像的平均结果。 模式识别中,特征选择是一个公开的难题且对 图像检索的性能有着深深的影响。本文中,底层特 征向量包含以下3个方面的特征:颜色直方图、颜色 矩以及小波纹理,具体的: (1)位于HSV空间的128维颜色直方图,其中 HSV的维数分别是8、4、4; (2)位于LAB空间的225维颜色矩,该颜色矩 特性是由5×5网格中抽取的9个颜色矩组成; (3)来自6层哈尔变换的36维金字塔小波纹 理,其中每层哈尔小波变换用高高、高低、低高波带 的均值与方差表示。 本文提出的图像检索方法涉及到的参数有:Ⅳ, f 和 。其中,f 和 的数值通过交叉实验得到: f =1.2, :0.4。邻域数Ⅳ则设置为经验值200。 5.2结果分析 为测试提出方法的性能,本文将数据库的每幅 图像都视为一个查询样本。由于每个类别包含100 幅图像,因此对每一个输入查询至多有100幅同类 图像。 与基于支持向量机的方法_1 及基于流行排序 的方法 的检索结果的对比如图3所示,此时的性 能评价标准分别为加权查准率的平均值与排名的平 均值;而图4则显示了这3种方法的另一组检索结 果的对比,此时的评价准则为各类查准率与查全率 的平均值。 第6期 。一∞I。 一 张专J0懿普 敏等:基于两阶段相似性度量策略的图像检索方法 105 O O O O O O O O { 蠹 耋 ; 1 2 3 4 5 6 7 8 9 10 Number of example categories Number of example categories (a)加权查准率的平均值 (b)排名的平均值 图3对10种典型类别实现图像检索的性能比较 董 鼍 皇 Number of top image retriaval Nunfl ̄er of top image retriaval (a)查准率的平均值 (b)查全率的平均值 图4 3种实验方法的性能比较 从图3和图4的比较实验可以看出,本文的方 值也可视为检索的初步结果。然后,运用随机行程 法在两种类型的查全率与查准率上都优于基于支持 向量机的方法和基于流行排序的方法。经过分析, 我们认为这种性能上的提高源于两个方面的原因。 一与重新开始的半监督学习方法进行细化,以获得高 精度的检索结果。对比实验显示本文所提方法的有 效性。 虽然用图像的多个特征组合可以提高图像检索 的准确率,但选取哪些特征的组合达到最佳的检索 效果,还有待今后进一步的研究。另外,如果先对数 据库中的图像进行语义分类,然后结合查询图像的 语义特征,再在分类后的图像数据库中进行检索,图 像检索的查准率和查全率将会得到进一步的提高。 是相比较于仅仅基于邻域假设的相似性度量的其 它两种方法,本文由于采用了基于邻域和概率密度 的两种假设的相似性度量,从而实现了标签传递过 程中的各向异性传递。另外,在检索过程中,同时考 虑数据库图像对之问的相似性信息,也有助于检索 精度的提高。 引入相关的反馈机制,也是今后研究的一个方向。 6 结 论 参考文献: 基于内容的图像检索是国内外信息检索领域的 热点研究课题。采取合适的相似性度量形式,将有 [1]NATSEV A,NAPHADE M R,TESIC J.Learning the Semantics of Multimedia Queries nd Conceptsa from a Small Number of Examples 可能大大改善图像检索的性能。在讨论实现标签各 向异性传递的相似性度量的基础上,本研究提出了 一[C]//Proceeding ACM International Conference Oil Multimedia. 2005:598—607. 种新的基于随机行程与重新开始的半监督学习的 [2]HE J R,LI M J,ZHANG H J,et a1.Manifold—Ranking Based Image Retrieval[C]//Proceeding ACM International Conference on Multi. media.2004:9一l6. 图像检索方法。为降低检索过程的大计算量问题, 本文首先引入了一种预处理机制。该预处理机制实 现滤除不相关图像的同时保留一定比例的相关图 像。其次,本文采用双曲线正切函数表示数据库相 [3]CUI J Y,ZHANG C S.Combining stroke-based and selection-based relevance feedback for content—based image retrieval[C]//Proceed— ing ACM International Conference on Multimedia.2007:329—332. 关图像与输入查询之间的模糊隶属度。该隶属度数 [4]GIANG P,WORRING M,ARNOLD W M.Similarity Leaming via