基于计算机视觉的手势交互系统研究与设计

发布时间:2024-11-28

浙江大学计算机科学与技术

硕士学位论文

基于计算机视觉的手势交互系统研究与设计

姓名:方旭亮

申请学位级别:硕士

专业:计算机

指导教师:郑耀

20080501

浙江大学硕士学位论文摘要

摘要

随着计算机视觉技术的发展以及人们对新的交互手段的需求,基于计算机视

觉的交互系统也逐渐发展起来。传统的交互方式如鼠标、键盘、手柄等等在某些

特殊领域已经无法发挥便利的作用。因为随着计算机的不断发展以及超大显示设

备的出现,对人们的交互手段都提出了新的挑战。而基于计算机视觉的交互方式

能够很好的解决问题,是一种更符合人们思考方式的交互手段,摆脱了传统交互

手段中必须与固定的界面交互的方式。

本文构建了基于计算机视觉的手势交互系统,针对所在实验室的大型集群设

备,以及3X3背投投影显示设备设计,系统通过普通的摄像头设备拍摄手势动作,

能够完成3X3投影强显示场景的交互动作。整个系统运行在Linux上,分为服务

器端(即交互识别端)和客户端(系统控制端)。且系统可以方便的移植到其它系统

之上,因为系统不仅使用了可移植的C代码,而且将系统根据功能划分为不同的

模块,各自模块相对独立,方便移植和扩展。

本文针对首先系统的论述了计算机交互技术的发展,讨论了计算机视觉交互

的特性以及一般的系统架构,对比了不同的现有计算机视觉交互系统,描述了它

们的优缺点,之后讨论了摄像头定标技术,因为在精确的控制系统中摄像头定标

是必不可少的,提出了摄像头定标方法。然后论述了手势识别和手势跟踪技术,

对比了简单的肤色模型和基于高斯概率统计的肤色模型,分析了实验对比。着重

分析了跟踪技术中的Camshift算法,简单的描述了Kalman滤波跟踪技术,以及

提出了将两者结合的构想。最后,对本文所构建的系统进行了综述,以及对系统

的特点分析和展望。

基于计算机视觉的交互方式目前还面临着很多的挑战,一方面由于视觉交互

面对的是整个生活场景,而生活场景是多变且难以预测的,且场景会受到很多外

界因素的干扰,如光照,温度等等。如何克服这些困难给我们提出了很大的挑战。不过随着计算机技术特别是视觉处理算法的改进,一定能够克服这些困难,给大

浙江大学硕士学位论文摘要

家带来全新的交互方式,使得交互方式更加符合人们思维方式。

关键词:计算机视觉,手势交互,摄像头定标,肤色模型,高斯概率分布,

Camshift,Kalman滤波Il

浙江大学硕上学位论文Abstract

Abstract

Wimthedevelopmentofcomputervisiontechnologyandthepeopleofthenew

interactivemeansofdemand,interactivecomputer-basedvisionsystemshave

graduallydeveloped,thetraditionalmethodssuchasinteractivemouse,keyboard,

ahandle,andSOoninsomespecificareashavebeenunabletoplayfacilitatingThe

role,becausewiththedevelopmentofcomputerhardware,theemergenceoflarge

displaydevice,theinteractionofthepeoplemeansanewchallenge,andtheinteraction

basedoncomputervisionCanbeaverygoodwaytosolvetheproblem,itCanbemore

inlinewiththethinkingofthepeopleInteractivemeans,themorenatural,fromthe

traditionalmeansofinteractionintheinterfacemustbefixed.

onThisarticleWasconstructedbasedcomputervisiongestureinteractivesystem,

inviewofthelargeclusteroflaboratory

devicesequipment,and3X3rearprojectiondisplayandsystemsthroughtheregularcameraequipmentshootinggestureaction,

abletocompletethe3X3

wholesystemrunningonprojectionshowsscenesofthestronginteractionAction.TheLinux,dividedintoserver-side(thatis,cross—identification)

toandtheclient(systemcontrolside).AndthesystemCaneasilymigrate

useaothersystems,becausethesystemwillnotonlyportableCcode,andwillfunction

underthesystemisdividedintodifferentmodules,eachmodulerelativelyindependent

tofacilitatetransplantationandexpanded.

Inthispaper,wethefirstsystemicdiscussedcomputerinteractivetechnology

generaldevelopment,discussedtheinteractionofcomputervisionandthe

characteristicsofthesystemarchitecture,adifferentcomparisonoftheexisting

interactivecomputervisionsystem,describedtheiradvantagesanddisadvantages,

afterdiscussingthecameracalibration,becausetheprecisecontrolsysteminthe

cameracalibrationiS

recognitionessential,tothecameracalibrationmethods.Thenonthegestureand

ongesturetrackingtechnology,asimplecomparisonofthecolourandmodelbasedstatisticalprobabilityofcolourGaussianmodelofthe

onexperimentalsimplecomparison.Focusestrackingtechnology

11IinCamshiftalgorithm,a

浙江大学硕士学位论文

descriptionofKalmanAbstractfilteringtrackingtechnology,andputforwardtheideaof

combiningthetwo.Finally,thepaperbytheconstructionofthesystemwerereviewed,

aswellasthecharacteristicsofthesystem

TheinteractivewaywhichbasedandOutlook.computervisioniSstillfacedwithonmany

scenes,challenges,onthe

andscenesonehandbecauseofthevisualinteractionwiththewholelifeoflifeischangeableandunpredictable,andthescenewill

SObealotoftointerferencefromexternalfactors,suchaslight,temperatureand

overcomethesedifficultiesforUS、析tllaon.Howverybigchallenge.Butwithcomputer

technology,especially

withtheimprovementofvisualprocessingalgorithms,wecanovercomethesedifficulties,foreveryonepeoplemoreinlinetobringanewinteractiveway,makingtheinteractivewayofthinking.

computervision,interactivegesture,cameracalibration,colourmodels,

gaussianprobabilitydistribution,camshift,kalmanfilteringIV

浙江大学硕士学位论文图目录

图目录

图1.1手势交互系统结构…………………………………………………………5

图2.1图象发生扭曲或拉伸…………………………………………………….8

图2.2图象坐标系………………………………………………………………l0

图2.3摄像坐标系和世界坐标系以及图像坐标系关系(文献Il叫)……………ll

图2.4标定参照物用的棋格……………………………………………………11

图2.5标定参照物……………………………………………………………….19

图2.6坐标标定实验图(1)……………………………………………………..20

图2.7坐标标定实验图(2)……………………………………………………..20

图3.1肤色分布…………………………………………………………………22

图3.2特征形态…………………………………………………………………22

图3.3采集的手部图像…………………………………………………………24

图3.4不同人r.g肤色的分布空间……………………………………………25

图3.5手部皮肤数据单高斯模型………………………………………………26

图3.6单高斯模型………………………………………………………………27

图3.7混高斯模型………………………………………………………………27

图3.8未处理手部图象…………………………………………………………28

图3.9简单肤色模型处理图象…………………………………………………28

图3.1O高斯概率模型…………………………………………………………..29

图3.11Kalman滤波物体跟踪流程……………………………………………30

图3.12离散Kalman循环更新图………………………………………………3l

图3.13手势跟踪实验……………………………………………………………37

图4.1系统个模块结构图………………………………………………………39

图4.2摄像头标定流程…………………………………………………………40

图4.3识别模块流程……………………………………………………………42

图4.4手势跟踪流程……………………………………………………………43

图4.5网络模块流程……………………………………………………………44

图4.6控制模块流程……………………………………………………………46

图4.7手势交互系统命令图象…………………………………………………48图4.8系统交互演示……………………………………………………………48

浙江大学研究生学位论文独创性声明

本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得逝婆盘堂或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。

学位论文作者签名:诫签字日期:2州g年6月了日

学位论文版权使用授权书

本学位论文作者完全了解逝’江盘堂有权保留并向国家有关部门或机构送交本论文的复印件和磁盘,允许论文被查阅和借阅。本人授权逝婆盘堂可以将学位论文的全部或部分内容编入有关数据库进行检索和传播,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。

(保密的学位论文在解密后适用本授权书)

学位论文作者签名:毒够毛

6月7日导师签名:上Z1签字日期:V以年f垂月兮

浙江大学硕士学位论文第l章引言

第1章引言

1.1研究背景,目的和意义

随着计算机技术和计算机硬件设备快速的发展,由当初的只有键盘输入到

目前的鼠标、遥杆、无线设备输入等等都大大的便利了人们与计算机之间的交互,

使得人们能够更方便的操作计算机,从而能够快速的完成一定的任务。

WIMP(Windows,Icon,Menus,Pointdevices)在现代图形接口(GUI)占有

着重要的位置,它代表一种交互方式,即通过点设备来选择相应的菜单或者屏幕

上的某点。在大多数的应用当中,WIMP都要求用户与物理设备有一定的接触才能

完成相应的输入。但是很快人们也发现了这种方式在某些特定的场合上固有的约

束,比如当显示设备不断的扩大,而人们又想更好的与此显示场景进行交互,那

么WIMP就显示出了相应的弱点,所以我们需要寻找一种更好的交互方式来完成此

些任务。

最近几年,寻找一种更加自然和以人为中心的交互方式需求也在不断的增

加。通过计算机视觉来实现人们可以识别的信息的提取已成为可能,比如现在应

用的比较多的头部跟踪、人脸表情识别、眼睛识别、手势识别等等。人们无需花

费高昂的设备来实现,通过视觉图像信息的提取,判别,即可得到相应的交互信

息。而这些仅需要廉价的摄像头,低端处理能力的PC即可以实现。但是视觉图像

处理也存在着一定问题,由于摄像头拍摄场景时,受到外部因素影响比较多,比

如光照、抖动等,因此在稳定性和准确率方面还有很大的提升空间。

目前由于所在实验室拥有3X3大屏幕背投投影墙设备,为了更好的实现与屏幕

设备显示的虚拟场景的交互,实现更好的演示效果,本文设计了手势交互系统。

而本论文所提及的手势交互系统不仅可以在本实验室投影系统中应用,也可以方

便的移植到其他类似系统中,因为系统的设计都是模块化,非常方便移植,因此此系统也有一定的应用价值。

1.2基于视觉手势交互的综述

1.2.1视觉手势交互的现状

目前已经出现很多基于视觉的手势交互系统,它们有的不但可以完全替代传

统鼠标等输入设备,而且也可以替代其他触摸输入设备,通过手势表示可以获得

更多丰富的信息。

Sturmannl等人在1989年使用数据手套来捕捉测量每个手指的位置,方向以

及角度,并以此来操作虚拟世界中的物体。他们使用三种方式来表示操作物体,

第一种,当手指进入场景握住物体并进行移动,这种与三维物体交互的方式是比

较自然的。然而,这种做法却存在着无法得到触觉反馈的缺陷。第二种方法,

Sturman在三维坐标系中使用了抽象的输入设备,即按钮、评价者、定位者。系

统中手势的静止到运动表示为按钮的触发动作,实验表明人们在弯曲手指的时候

无法处理静态的手势,是由于很难获得两个手指的精确弯曲角度的区别。第三种

方法是直接提取连续动作的信息。

Segen乜3描述了这样一个系统,系统使用两个快速摄像头(60fps)来捕捉手势

的视频图像,根据获得图像分析建立手势识别的系统,来对虚拟物体进行控制和

三维导航。在他们的系统中,手在一张统一颜色的表格上移动,只利用三种手势

来交互,它们是点,点击,伸张。用户指向某些东西以及加上相应的手势来表示

一种动作,没有实际的接触。即使使用快速摄像头,Segen注意到了模糊的移动

使得图像的分析更加困难。手势集的选择成为系统的颈瓶,因为模糊的图像使得

手势命令变的毫无效果。

Charade系统口1也使用了数据手套来控制幻灯片放映。他们表述了一组手势集

合拥有16个命令(其中可能是其他的扩展)。他们利用手势的松紧,例如首先紧

闭手,或者使用手指指点,表示手部肌肉绷紧状态。16组命令表示手势由紧到松

的状态。这种由紧到松的序列提供了区分手势序列的一种方法。他们另外也使用

了一种方法即使用一块活动的区域来表示幻灯片的屏幕,如果手势不在其中,那

么将被忽略。在他们的系统中,可以让用户自由的作手势但是却不会影响到幻灯

片放映的命令。2

Hardenberg¨1同样也表述了一个基于单摄像头的捕捉手势系统,使用了比较

慢的图像更新索引来作图像的差分,从而来对变化的光照进行相应的反应。在他

们的系统中,手势可以替代鼠标,使用一个手指点击和一秒钟的停顿表示点击。

VisualTouchpad随1是一个双手的手势交互系统,它利用摄像头跟踪手在设

备表面移动。而这个表面是黑色白边的,通过图像分析可以进行坐标标定。有趣

的事,黑色的背景使得图像分析更加简单,高度的估计可以用来对手势是否触及

表面来进行判断,系统在敏感度上做了比较高的要求,即手势高低相差lam那么

就会表示有相关动作。

HyosunKim哺3等人研究的背投影设备交互系统,利用在手指上戴上特殊的材

料,在黑暗的条件下利用摄像头拍摄的图像,通过视觉分析得到手势信息,从而

进行交互。此系统虽然识别率比较高,因此能够起到不错的效果,但是却添加了

额外的条件和材料,所以也约束了此系统的应用范围。

Argyros口3等人研究的手势交互系统,利用手势来模拟鼠标事件,通过标准

的webcam获取手势信息,通过一定视觉算法来加速识别过程,能够提高准确度

和交互性能,在此基础上也发展了双手的交互。通过两只手来表示不同命令信息

来控制相应的交互动作。

上面所列举的几种交互方式,都在一定范围内得到相应的应用,不过都有一

些特定的约束条件,比如在限定的背景上作识别,利用特定的材料来增强识别的

性能。

由于Sturman和Charade等人交互系统都是利用了数据手套设备,虽然利用

数据手套能够提高识别的准确率,但是也失去了手势交互自然性,并且数据手套

设备也比较昂贵。VisualTouchpad系统将手势局限在黑色背景下面,使得它在

识别手势时减少了光照等因素的影响。同样HyosunKim等人利用特殊的材料来

增强手势的识别,虽然效果不错但是系统的信息动作表达比较少,手势命令集合有限。

浙江大学硕士学位论文第1章引言

1.2.2视觉手势交互的特点

传统的人机交互方式在使用过程中确定性比较强,比如你按下键盘的按钮或

者点击鼠标的左右键,那么计算机都已将此关联到一定的系统事件,而此过程中

一般不会受到周边环境或者使用者变化的影响。并且,传统的交互方式中,在交

互过程中没有更多的交流方式,整个形式都已经定义好。只要使用着按照既定的

规则执行相应的交互动作。

基于视觉的手势交互方式达的表意丰富,具有很高的信息量,比如人通过手

的不同手势、位置、方向等等可以组合出非常多信息,并且更加符合人们的思维

方式。而且手势交互可以与其他的交互方式共同组成一组信息,比如脸部动作、

眼势等等,当单独的通过手势无法判断用户的信息时,就要结合考虑人的语音,

表情后来一起判断得到一个确切的含义。

然而,随着更多交互方式的融入,必然增加了在识别过程中的难度,况且人

的动作信息有时候不是非常的准确,或者说不是表达的很到位,不像键盘或者鼠

标事件那样非常的确定。因此,这也给在图像的处理识别过程中提出了更高的要

求。比如有时候人们的手在动的过程中并不是表示要和计算机进行交互,有可能

只是用户的一些无意识的行为,那么如何来区分这些无用的信息,给视觉交互处

理带来了一定的挑战和困难。

目前,我们和计算机交互都有一定的界面形式,WIMP所表示的GUI接口,而

目前的视觉手势交互也没有脱离这个界面,因此我们目前研究的也是基于WIMP

界面形式的简单交互动作。但是我相信,随着信息技术的不断发展,必然会摆脱

目前这种界面的形式,让它更加自然的在场景中进行交互。比如人与人之间的交

互是不存在界面这种说法,人们的交互更加注重双方的信息交流。因此未来的交

互比较也不存在与固定界面接触的交互,能够更好的表达人们的信息,增强交流。

总得说来,基于视觉的手势交互必须是自然的,并且尽量符合人们的思维过

程,使得我们在目前的情况下与特定的场景能够更好的交流。

1.2.3视觉交互的体系结构4

浙江大学硕士学位论文第1章引言

目前的基于视觉的手势交互系统很多都是根据特定的交互任务来设计自己的

系统结构,因为各自的交互的任务不同以及各种应用环境不同,所以在实现和设

计方面都有些差别,且都设定了自己相应的约束条件。但是,这些系统也有共同

之处,很多文献也有这方面的综述,描述了目前基于视觉手势交互系统的总体框

架以及流程。

总结起来整个交互的共通流程如下:首先通过摄像头拍摄手势图像视频流,

接着从图像中根据特定的算法提取出手势的形状和识别点,以及位置信息,之后

把这些信息点进行相应分类和取舍,接着将这些提取出的信息点迸行坐标或者动

作命令映射得到一定的系统命令,然手根据需求驱动一定的系统动作。图1.1显

示了整个交互的过程。

图1.1手势交互系统结构

总的来说,我们可以将此流程划分为四步:建模、分类、识别、交互。通常大

多数的系统都遵循这四个步骤,以~个顺序的关系连接各个步骤,每个步骤都为

后一步服务。不过有些系统为了提高识别率或者准确度,会有一个反馈的过程,

使得系统不断的根据环境的变化来改变参数。比如在识别跟踪运动的手势的情形

下,一般会用到kalman滤波来不断的反馈,根据上一步来预测下一步,使得不

需要检索整副图像,从来提高跟踪的速度。

手势的建模主要是通过一定的算法来在所捕获的图像中来确定手的位置,能5

浙江大学硕士学位论文第l章引言

够快速的定位到手,使得后续的工作可以及时的进行,目前有通过肤色的模型的,

还有通过Haar一1ike特征和基于Adaboost的人脸检测算法等等。这些在特定的

环境下都有非常好的鲁棒性。

手势的分类主要是在手势区域确定的前提下,通过几何算法来提取出更加明

确的部位,比如手指,或者手指的顶点部位。这样在某些系统中就可以识别出相

对的坐标,从来为后面的交互提供了基础。

手势识别是在已经能够得到手势信息的前提下,通过已经建立起的映射模型

来建立相应的关系,使得交互的任务更加具体化。

手势交互即在建立的映射之后,得到相应的系统命令,使得系统产生一定的

反应,完成相应的用户所期望的动作。

1.3研究重点和论文组织

本文的研究重点在坐标的标定和通过统计肤色模型来识别手势以及根据

camshift算法来跟踪手势的运动,在坐标标定过程中,由于使用了最普通的摄像

头,因此需要通过几何方法来对摄像头的参数进行标定,以使得由摄像头拍摄所

得到的图像的准确度。由于普通的肤色模型来识别手通常会受到环境因素影响比

较大,因此通过统计的方法来进行判别会提高识别率,从来提高交互的鲁棒性。

手势的跟踪算法研究是为了在识别的过程中提高反应的速度,通过camshift算

法可以使得不需要通过扫描整副图像来确定的手势的位置坐标。

本文共分为五章,各章内容如下:

第一章引言,介绍了手势交互的背景,目的,意义,以及目前基于视觉的手势

交互的现状,最后说明了本章的研究重点和论文组织。

第二章坐标标定,介绍了普通摄像头如何通过几何关系来进行参数的标定,通

过建立一定的几何模型来对摄像头参数进行初始化。

第三章手势识别和跟踪,介绍了统计肤色模型的手势识别流程,和在识别后对

手势进行跟踪的算法研究,提出了比较鲁棒性的结构。

第四章交互系统的集成,介绍了系统集成后在真实环境下的实验效果,以及对6

浙江大学硕士学位论文第1章引言

系统的结构进一步的阐述。

第五章结论,总结了本文的工作,以及对下一步工作的展望。

1.4本章小结

本章是对基于视觉的手势交互的一个整体概述,首先我们通过了解手势交互

的一个研究背景,目的和意义来向大家阐述了当前手势交互的研究意义以及应用

价值。接着我们对目前的手势交互系统进行了全面的阐述,从现有的系统,到系

统的特点,在到系统的结构是我们有个更深的了解。最后提及本文所在的研究重点,以及本文的文章安排。

浙江人学硕士学位论文第2章摄像头坐标标定

第2章摄像头坐标标定

2.1坐标标定目的

摄像头的参数正确与否往往会影响到图像的处理结果,特别是在视觉识别中,

我们可能需要得到某些物体的精确位置,这些参数包括内部参数(相对于某个坐

标系和三维位置和方向)和外部参数(几何和光学特性参数),如图像的中心位置,

镜头的焦距,镜头的伸缩因子,镜头的畸变等等,在这些参数没有标定前有可能

会得到一些扭曲图像,这样对图像处理就加上了难度。如下图所示

。r]

r【

图2.1图象发生扭曲或拉伸J,

精确的坐标标定对于视觉识别来说比较重要,比如在重构三维虚拟世界,手

势识别,机器人识别,以及眼势的识别,它们都需要得到比较精确的坐标对应关

系。而对于系统中使用普通摄像头的视觉系统更加需要对摄像头进行标定,我们

的系统正是基于此原因,首先需要确定摄像头的标定参数,从而为后面的图像处

理识别中能够得到比较精确的坐标做保证。

2.2坐标标定的现状

目前很多文献已经提及了关于摄像头的几何标定,文献膪3给出了经典的标定8

浙江大学硕士学位论文第2章摄像头坐标标定

方法,通过外部的摄影测量以此来最大限度的解决非线性错误,但是这种技术比

较慢而且有非常大的计算量负担。文献妇1,n们给出了相近的解决方案,然而,这些

方法都基于摄像头模型的简化,因此他们也没有能够提供非常好的

结果来达到非线性错误的最小化。

文献n妇提出了一个非线性最小化和近似的解决方法(two—stepmethod),此

方法首先线性的计算初始化的参数,最后通过非线性最小化来得到最终的结果。

利用基于物理参数的摄像头模型,比如焦距,伸缩因子,图像原点等。在大多数

的例子中,这些参数的值是无用的,因为只有3D相关坐标和2D图像坐标

之间的关系才会用到。在隐式的坐标标定中,物理参数将会被非物理的隐式参数

所替换用来修改一些重叠坐标点。

文献n21在two-step的基础上进行了扩展,提出了four—step图像坐标标定

过程。通过使用一种新的隐式模型,基于摄像头物理参数对图像坐标进行修正。

但是此方法需要精度比较高的几何测量工具,比较适合3D测量和机器人视觉。

此算法的matlab的实现可以在作者的网上找到。

2.3坐标标定算法实现

2.3.1坐标系

在进行算法的描述之前,我们先引入以下三个坐标系:图像坐标系、摄像机

坐标系、世界坐标系。

图像坐标系中我们定义(u,v)是由以像素为单位的图像坐标系的坐标,一般

情况下以图像的左上角为原点Do,而(x,y)是以毫米为单位的坐标系,D 是图

像中的某一点,他们的关系如下,dxdy表示每一个像素在X,Y轴方向的物理尺

寸。

甜=——+Ho

dx

',:上+%咖公式(2.1)

基于计算机视觉的手势交互系统研究与设计.doc 将本文的Word文档下载到电脑

    精彩图片

    热门精选

    大家正在看

    × 游客快捷下载通道(下载后可以自由复制和排版)

    限时特价:7 元/份 原价:20元

    支付方式:

    开通VIP包月会员 特价:29元/月

    注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
    微信:fanwen365 QQ:370150219