Google_Yahoo和百度的图像搜索比较
发布时间:2024-10-23
发布时间:2024-10-23
图片搜索技术相关应用
Google、Yahoo和百度的图像搜索比较
2
付天香1,
2.河海大学图书馆,(1.南京农业大学信息科技学院,江苏南京210095;江苏南京210098)
[摘
要]Google、Yahoo、百度是用户搜索信息时常用的三个搜索引擎,它们都为用户提供全面的搜索功能。针对
Google、Yahoo、百度的中文图像搜索功能进行分析比较,从搜索的响应时间、检索出图像的数量、准确性、检索结果的排序等方面进行了对比分析,并对图像搜索的工作原理进行了简单介绍。
[关键词]图像搜索[分类号]G354.4
Yahoo、百度作为用户搜索信息时最常用的三个Google、
综合性搜索引擎,为用户提供了搜图功能、地图搜索、英文在线字典等另类搜索功能。随着用户对网上图像搜索要求的不断增长,各种基于Web的图像搜索引擎应运而生。图像以其表达信息直观、形象的特点,备受用户青睐[1]。选择一个好的图像搜索引擎可以提高用户搜集图片的准确性,节省搜索时间。比较典型的Google图像搜索引擎据说能搜索近10亿张“互联网上最好的图像搜索工具”。有关的图片,号称自己是报道认为在搜索分辨率不同的壁纸、国外明星相片方面,Google和百度的图片搜索都无法满足这些要求,而雅虎在这方面的搜索功能更强大。笔者针对这些争议和讨论,对Google、雅虎中国网站和百度的图像搜索进行比较,并对图像搜索的工作原理进行介绍。
Ditto、visionNEXTchina等等[3]。
②基于图像内容的描述。这是一种语义层次的匹配。由背景、构成、颜色等)进行描述并人工对图像的内容(如物体、
分类标引,给出描述词。检索时,将主要在这些描述词中搜索用户的检索词。这种查询方式是比较准确的,一般来讲可以获得较好的查准率。但需人工参与,劳动强度大,因而限制了可处理的图像数量,并且需要一定的规范和标准,效果取决于人工描述的精确度。[4]
③基于图像内容特征的抽取。由图像分析软件自动抽取图像的颜色、形状、纹理等特征,建立特征索引库,用户只需将要查找的图像的大致特征描述出来,就可以找出与之具有相近特征的图像。这是一种基于图像本身特征层次的机械匹配,特别适用于检索目标明确的查询要求(例如对商标的检索)。但目前这种较成熟的检索技术主要应用于图像数据库的检索,在图像搜索引擎中应用这种检索技术还有一定困难。
Yahoo
百度
搜索引擎
1图像搜索的工作原理
随着网络技术的发展,图像搜索引擎日益成为人们关注
图像并以的热点。图像搜索引擎是一种专门用来查询图形、缩略图、网站名或网站内容等形式反馈检索结果的网上检索工具。其工作原理主要是利用其内部SPIDE(蜘蛛)程序自动对网站进行搜索并对在Web上浏览过的图像进行分析和判别,为图像加注释、存储抽取出的索引信息,建立图像索引库,从索引库中或者直接从大量存储图像的数据库中查找检索出具有相似特征的图像来[2]。目前的图像搜索引擎大多支持关键词检索和分类浏览两种检索方式,部分可提供可视属性检索,但支持可视性检索的很有限。它们主要的检索途径有以下几种:
①基于图像外部信息进行检索。即根据图像的文件名或目录名、路径名、链路、ALT标签以及图像周围的文本信息等外部信息进行检索,这种基于图像外部信息的搜索是目前图像搜索引擎采用最多的方法。典型代表有Google、Yahoo、
2
2.1
三种图像搜索引擎的比较
界面设计
用户在浏览、使用网站时,首先面对的是界面。因此,一
个网站的界面设计的好坏与否在一定程度上对用户选择使用有很大的影响。
Google图片搜索引擎的界面简单、清晰。在Google的首页上点击“图片”链接就进入了Google的图片搜索界面。在关键字栏内输入想要搜索的图片内容的关键字,如“梅花”,就可以搜索到大量的与梅花相关的图片了。此外,在界面上还提供“高级图片搜索”、“使用偏好”、“图片搜索帮助”三个辅助链接,方便使用者根据自己的使用习惯调整和加强检索性能[5]。
进入Yahoo图片搜索引擎的界面后,在检索栏中通过关键字搜索图片,可以选择壁纸、聊天头像、聊天表情的类型。另外,Yahoo的界面提供了图片的分类目录,在8个大类下,
图片搜索技术相关应用
实时性、更新快等特点,这是百度图像图片,它具有新闻性、搜索的一大特色。
对于以上论述,将这三种图像搜索引擎的功能通过表1来进行定性对比,更明显比较其功能上的差别。
表1
图片
数量
Google10亿多Yahoo百度
30亿近亿
还各自分为不同的小类目,通过分类目录的浏览检索,提供图片检准率。Yahoo的界面上还可以看到别人正在检索的关Yahoo将个人图键词,作为提示提供给感兴趣的用户。另外,片存储中心放在图片检索的界面,可以浏览用户存储的图片信息[6]。
百度图片搜索引擎的界面也十分简单、易用。在百度的首页上点击“图片”链接就进入了百度的图片搜索界面。同样在关键字栏内输入图片内容的关键字后就可以搜索到大与Google所不同的是,百度提供图片范围量相关的图片了。
的选择,有“新闻图片”、“全部图片”、“大图”、“中图”、“小、“壁纸”,可以根据所要图片的大小和用途来缩小检索图”
范围;同时百度还提供分类浏览目录,方便用户从类别上进行检索[7]。2.2
搜索功能比较
在Google的高级图片搜索中可以对检索结果进行限定。图片大小可以选择大、中、小型,图片类型有JPG、GIF、PNG,图片颜色有黑白、灰阶、全彩。Google还可以将搜索范围限定在特定的站点内。Google图像搜索首次搜索时使用一个儿童不宜内容过滤器,这个过滤器能够去除许多儿童不宜的图像,但不保证能够完全过滤掉这样的内容。另外,Google文本搜索中使用的所有操作符都可以用于图像搜索。
雅虎为注册用户提供了个人图片存储中心,可以将查找到的图片存入雅虎相册,也可以将搜到的图片发送给好友共享。在雅虎图像搜索的界面上,还可以看到别人正在搜索的检索词,这些可能是热点话题,为自己检索图片提供参考。雅虎图片搜索使用了图片过滤器,这个过滤器能够去除许多淫秽、暴力等不宜的图像,用户还可以对不良图片进行检举。Yahoo可以限定搜索到的图片的尺寸。与Google相比,Yahoo的图像搜索引擎没有高级搜索功能。雅虎图片搜索引擎只支持and逻辑运算符,当在检索框中用“-”连接两个检索词时,百度仍然是按“+”来进行检索的,这样在检索时就无法排除掉不想要的图片。
百度提供高级检索,与Google相比,对搜索结果的控制条件要少。但图片大小的选择除了选择大、中、小图外,它可除以根据要求选择不同尺寸的壁纸。在图片格式限定方面,了JPG、GIF、PNG格式外,比Google多了bmp格式的图片。百度搜索也可以将搜索范围限定在特定的站点内。百度图片搜索引擎同雅虎一样只支持and逻辑运算符。
百度的图片分类目录有18个大类,比Yahoo的图片分类目录要详细,大类下设有很多细小类,分类标准与雅虎不同,更加详细。比如,在Yahoo的名车鉴赏中分为63个小类,而百度将其先按国家分,再将每种牌子不同型号的车一一列出,近500种。与Google和Yahoo相比,百度没有设置图片过滤功能。百度新闻图片搜索从中文新闻网页中实时提取新闻
图像搜索引擎功能比较
分类
目录无有,分类详细有,分类极详细
新闻图片搜索无无有
图片格式JPG/GIF/PNG
无JPG/GIF/PNG/BMP
图片站内高级过滤搜索搜索有有无
有无有
有无有
通过表1可以看出,Google图像搜索收录的图片最多,提供的高级检索可以对图片的颜色等部分内容信息进行限定。百度图像搜索的功能设置是比较完整的,它在提供了高级搜索的同时,还设置了分类目录。这三个图像搜索引擎都是采用基于关键字检索技术来检索图片的,下面将对其检索性能进行试验和对比分析。
3
3.1
搜索性能比较
中文图片检索测试比较(2007年3~4月)
检索词是从明星、壁纸、卡通、风景等角度来选择10个
含义明确的词汇,进行检索实验。
张娜拉………………………………Q1中国结………………………………Q2加菲猫………………………………Q3百变小胖……………………………Q4梅花…………………………………Q5越狱…………………………………Q6宝马…………………………………Q7橘子…………………………………Q8沙漠…………………………………Q9日出………………………………Q10
①通过多次检索,得到Q1~Q10的图片数量,进行比较分析。
通过表2可以看到,在搜索“越狱”、“橘子”、“日出”时,Yahoo比百度搜到的图片数量稍多,其他7项的结果,百度远远超过Google和Yahoo。作为中文搜索引擎的百度在图片搜索数量方面表现出巨大的优势。而雅虎搜索到的图片数量也比Google要多很多。综合以上数据可以看出,百度在中文图片搜索数量方面是最好的。
值得一提的是,Google和百度对图片的搜索结果有去重功能,通过提供最相关内容,省略搜索到的相似图片将检索结果呈现给用户。比如在Google中搜索“百变小胖”时,可以
图片搜索技术相关应用
表2
检索结果数量(张)
梅花281004490370000
越狱75102787225600
宝马41600181151285000
橘子370004788344800
沙漠87200144620150000
日出666009860685100
张娜拉
GoogleYahoo百度
86403070561200
中国结115001964421500
加菲猫147002257826700
百变小胖20117741810
表3
张娜拉
GoogleYahoo百度
0.030.0020.007
中国结0.020.0020.006
加菲猫0.020.0050.005
百变小胖0.060.0020.008
检索结果用时(秒)
梅花0.030.0050.007
越狱0.040.0020.004
宝马0.060.0020.009
橘子0.030.0020.008
沙漠0.040.0020.005
日出0.020.0020.005
表4
张娜拉
GoogleYahoo百度
176200200
中国结179200198
加菲猫190184194
平均检准率(前200张图片中命中图片数量)
百变小胖105197188
梅花152179183
越狱152191173
宝马151196191
橘子412144
沙漠145151198
日出151188196
平均检准率(%72.185.3588.25
表5
图片数量响应速度检准率结果去重
多
快
一般
有
图片搜索引擎定性比较
另类检索方式高级检索
检索结果显示格式
缩略图、文件名、图片类型、像素、文件大小、图片的URL
缩略图、文件名、图片类型、像素、文件大小、图片的URL,加入相册
缩略图、文件名、图片类型、像素,不包括图片的URL
检索结果排序标准链接点击频度排序
Yahoo很多极快很高无文件名中出现检索词靠前分类目录检索
百度极多很快较高有文件名中出现检索词靠前高级检索分类目录检索
看到的图片有84项,省略了其他类似的117项。百度搜索“张娜拉”时,在网页到100页后,就没有相关图片了。而雅虎不具备此功能。
②通过反复检索,得到检索Q1~Q10图片的响应时间,进行比较分析。
通过表3可以看到,Yahoo在搜索图片用时方面是最快百度比Yahoo搜索速度稍慢,但比Google快。但经多次实的。
验,检索某一检索词的响应时间是不确定的,存在偏差。这种偏差的产生可能因为网速、电脑硬件等方面存在问题。总而言之,零点几秒的时间差,并不妨碍用户检索图片的效率,这三个搜索引擎响应速度都是很快的。
③对Q1~Q10检索结果检准率的计算、比较分析。检全率和检准率是评价检索效果的最主要指标。在网络信息检索时,由于很难统计出所有信息及所有相关信息,所以检全率是很难计算的。根据一般用户搜索习惯,在查看检索结果时,一般查看前10页内的信息。所以笔者计算前200
张中相关图片的数量,通过计算平均检准率进行分析对比,说明各图像搜索引擎的检索效果。
通过表4可以看到,百度在以上搜索任务中,检准率是最高的,Yahoo次之。而Google的检准率与百度和雅虎相差很大。通过观察,Google搜索到的图片周围有关于图片信息的描述,而Yahoo和百度是将与检索词准确匹配的结果排列在笔者认为,产生检准率差距的原因,与Google对图片最前面。
检索结果排序方法有关。
④通过检索实验,对图片搜索结果进行定性比较,如表5显示。3.2问题讨论
①有关文章提出Google图片搜索的结果是按照受欢迎程度排序的。也有相关文章认为通过观察发现,Google图片搜索的结果中,图片文件名完全符合关键字的结果排列比较靠前,然后才按照普通的页面搜索时的标准排列。但到目前为止,无论是Google、Yahoo还是百度,对于图片的搜索结果
图片搜索技术相关应用
方法,也可能存在数据不真实的问题,这些都需要继续探索。未来的图像搜索引擎应该是基于图像内容描述与基于图像内容理解的图像检索技术和网络技术的结合,这对视觉理论和信息处理技术提出了更高的挑战。随着多媒体信息处理技术的日益发展和深化,图像搜索引擎必将成为因特网上受人注目的热点。
排序都没有一个完全统一、明确的标准。通过实验,笔者认为,Google的检索结果是按照链接点击频度的相关性排序Yahoo和百度是根据文件名中出现检索词靠前的原则排的,序的。
②Google图片搜索引擎在搜索功能上没有百度全面,在搜索图片的响应时间上没有Yahoo快,测试的检索词的检准率是最低的。另外,Google的很多链接打开速度较慢,并且有许多死链接。Google作为“互联网上最好的图像搜索工具”在搜索中文图片时,经受着挑战,也引起人们的质疑。而百度在搜索中文图片方面,无论检索功能还是结果上都显示出巨大优势,检索性能优异。
③基于内容的图像搜索引擎在国内还没有一个成熟的产品。面对互联网上每天上万张图片的增长速度,怎样加工图片,对其内容信息更准确地揭示,解决人工参与劳动强度大、描述精确性问题,将该技术应用到图片搜索引擎中来,是而Google、Yahoo和百度作为中国网民常用一个巨大的难题。
的搜索引擎,值得在这方面做深入研究和开发,将此技术引入图像搜索中来,为用户提供便捷的服务。
参考文献
[1][2][3][4][5][6][7]
李爱国.几种搜索引擎中Image搜索的比较[J].现代图书情报技术,2002(5)
代建陆,程英.因特网上的图像搜索[J].沈阳电力高等专科学校学报,2002(4)
王振海,刘庆虎.基于WWW的图像搜索引擎[J].福建电2005(2)脑,
陈立娜.因特网上的图像搜索引擎[J].情报理论与实践,2001(4)
谷歌图片搜索.[2007-03-07].http:///intl/zh-CN/
雅虎图片搜索.[2007-03-07].http:///?source=yahoo_hp_vtabs
百度图片搜索.[2007-03-07].http:///付天香
女,1972年生。馆员,河海大学图书馆信息部,
4结语
通过检索实验,可以看出Google、Yahoo和百度图像搜索
引擎都是便捷的搜索图片的工具,但也存在一定的问题,如检索结果排序、检准率等方面。由于笔者的知识水平有限,检索词选择可能存在偏颇,从而使检索结果不太准确等问题,这需要反复实验,通过全面搜集能准确反映搜索引擎性能的检索词等各种方法来解决问题。另外由于各个搜索引擎都是自己得出的响应时间和图片数量,没有办法得到他们的计算
!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
现攻读南京农业大学图书馆学硕士学位。
(收稿日期:2008-09-02;责编:徐向东。)
(上接第99页)行“面对面”的交流,是信息咨询中的实时咨询,其效果又远远超越一般的实时咨询。保持与用户的沟通,可以了解不同用户的需求与期望,拉近彼此之间的距离,从而加深与用户的感情。Secondlife开放自由的特点,无疑为用户提供了氛围最好的沟通环境。诚然,由于某些条件的限制,Secondlife还存在着各种各样的问题,如网速不尽如人意、中文支持欠缺等。这个虚拟世界中的图书馆事业也存在着场馆建设不完善、馆藏资源不足、用户少等不理想问题,但是,它所提供的这种咨询馆员与用户之间的持续的、个性化的联系,以及用户与用户之间的自由交流等新兴的方式,则可以提高馆藏资源的利用价值和利用效率。从互联网发展的广阔前景来看,Secondlife中的图书馆建设一定会迅速赶上,不断完善,成为信息时代的人们交朋识友、博览群书、获取信息的一个好去处。
参考文献:
[1][2][3][4][5]
http:///view/7299.htm[OL],2008-02-23蓬蓬.你的第二人生.网络新生活,2007(6)http:///[OL],2008-05-29
杨丰全等“.SecondLife”中的图书馆2.0.图书与情报,2007(6)
刘炜,葛秋妍.从Web2.0到图书馆2.0———服务因用户而变.现代图书情报技术,2006(9)王
勇
男,1979年生。本科学历,馆员。毕业于郑州大
学图书馆学专业,现工作于北京第二外国语学院图书馆,主管图书馆技术。
(收稿日期:2008-07-30;责编:张欣。)