行为理解是一种描述、识别和理解个人行为、个人与外界环境之间的交互行为以及群体中人与人的交互行为的过程。
定义
行为理解可以简单地认为是时变数据的分类问题,即将测试序列与预先标定的代表典型行为的参考序列进行匹配。
研究意义
随着计算机领域的不断发展,人运动视觉分析由于在智能监控、高级人机交互、虚拟现实和基于内容的视频检索与解说等方面有着广泛的应用前景和潜在的经济价值,激发了广大科研工作者及相关商家的浓厚兴趣,并成为了计算机领域中备受关注的前沿方向之一。
研究过程
通过对大量行为理解研究文献的整理发现:人行为理解研究一般遵从特征提取与运动表征、行为识别、高层行为与场景理解等几个基本过程。特征提取与运动表征是在对目标检测、分类和跟踪等底层和中层处理的基础上,从目标的运动信息中提取目标图像特征并用来表征目标运动状态;行为识别则是将输入序列中提取的运动特征与参考序列进行匹配,判断当前的动作处于哪种行为模型;高层行为与场景理解是结合行为发生的场景信息和相关领域知识,识别复杂行为,实现对事件和场景的理解。
研究方法介绍
特征选择与运动表征
在人运动视觉分析中,由于视角的影响,同一种行为可能有不同的投影轨迹,而不同的行为可能有相同的投影轨迹。此外,光照变化、遮挡等现实环境因素也都给行为理解带来了很大困难。所以从原始视频数据中提取何种底层特征(如形状信息包括侧影、轮廓,运动信息包括位置、速度、方向等)描述人运动,以及如何选择充分有效的描述方法表征人运动状态并且能够在时间分辨率和维数上减少计算量成为行为理解的关键问题之一。通过对2000—2007年400多篇关于行为理解研究的权威期刊与重要国际会议文章中使用特征的统计分析表。发现行为理解研究所采用的特征主要有如下四种:外观形状特征、运动特征、时空特征、形状特征与运动特征两者的混合特征。其中,形状特征和运动特征是两种最常用、也是最主要的特征,其比例均保持在30%以上。另外,时空特征在行为理解研究中开始得到越来越广泛的使用。人运动表征是指从人的运动序列中提取合适的特征数据来描述人的运动状态,这是人行为理解中至关重要的一步。依据所用的特征,运动表征方法可分成 基于外观形状特征的和 基于运动特征的。
行为识别
行为识别问题可以简单地看做是时变特征数据的分类问题,即将测试序列与预先标定的代表典型行为的参考序列进行匹配,那么其关键问题是如何从学习样本中获取参考行为序列以及如何度量参考序列与测试序列之间的相似性。由于人动作执行的速度不一样,学习和匹配行为序列时还必须能够处理相似运动模式在空间和时间尺度上轻微的特征变化。行为识别方法一般可以分成 静态识别和 动态识别。静态识别方法是把行为看做由一组按时间顺序串连起来的静态图像序列,其常用的方法有模板匹配方法;动态识别方法是定义每个静态姿势作为图模型上的一个节点或状态,这些节点或状态之间通过某种关系如概率联系起来。任何运动序列可以看做这些静态姿势的不同状态之间的一次遍历过程。常用的识别方法有隐马尔可夫模型(hidden Markov models,HMMs)、动态贝叶斯网络(dynamic Bayesian network,DBN)等。这些方法可以总归为基于状态转移的图模型方法。
高层行为与场景理解
尽管用上述行为识别方法能够识别较复杂的动作,但要理解“场景中在发生什么事情”等复杂行为与事件,不仅需要解释和理解视觉输入,还需要场景中相关信息与背景知识,尤其是对涉及人活动的场景理解更需要抽象且有代表意义的策略。高层行为事件与场景理解是在对场景图像信息的各种处理和分析的基础上,解释和描述场景图像的内容,包括场景中人与人、人与物体的行为以及它们之间的时空关系,这也称为高层视觉。研究较多的事件检测是对整个视频序列内容以及真实场景的总结分析过程。其核心思想是利用物体或环境知识去理解场景中发生的动作或将要发生的动作,广泛应用于停车场、超市、地铁以及机场等公共场所的智能监控中检测是否有异常行为发生并告警。VSAM、Pfinder和AVITRACK等系统都具有场景理解与事件检测的功能。高层行为与场景理解的方法包括 基于规则推理网络、随机文法(包括随机上下文无关文法:stochastic context free grammar, SCFG、概率状态依存语法:probabilistic state dependent grammars, PSDG)、因果分析等。
存在的问题
尽管利用机器学习工具构建人行为的统计模型、理解人行为的研究有了一定的进展,但由于动态场景中运动的快速分割、宽松的着装、遮挡、阴影和光照变化、运动的非刚性和高自由度、行为发生的场景和人运动的模糊性(关于行为、事件、状态有着不同的概念)等因素的影响,使得人视觉行为理解成为一个复杂且极具挑战性的任务。相对于检测、跟踪等技术的显著发展,其行为理解的研究进展比较缓慢。行为理解的研究仍处于初级阶段,即原子动作分析,也就是简单日常标准动作如行走、跳、站起、坐等和以人行为为目标的简单事件检测等。其亟待解决的问题和未来的发展趋势有以下几个方面:
运动特征
如何选择特征来充分表达运动成为行为理解的关键问题之一。一般是尽可能选择较多的特征或者是在连续特征的典型匹配过程中引入人运动模型的简化约束条件来减少、消除歧义性。但如果选取的特征过多、特征向量维数过大,则会增加计算的复杂度;而选择特征过少,又可能不足以识别与理解人行为,而引入人运动模型的简化约束条件与一般的图像条件却又是不吻合的。因此,能否借鉴人类的学习、识别与理解机理,定义一个动态特征模型,首先提取有关行为的主要特征,当这些特征不足以完成识别与理解时,系统逐步提取候选的细节特征;另外一种更好的办法是使用行为的二维表达捕捉行为的视觉不变特征,那样对行为理解不会引起歧义。但是如何选择视觉不变特征却又是一项很困难的任务。此外,提取特征的不稳定性也为行为理解带来很大的困难,但多模特征融合将为行为理解提供一种很好的解决办法。例如在某些环境中,可视信息受干扰,变得敏感不可靠时,声音特征将为基于视频的行为理解提供一个很好的补充;在遮挡的情况下,基于多摄像机信息融合方法由于能够很好地解决遮挡问题,在行为理解研究也将会得到快速的发展。对于运动特征表征来说,不同复杂程度的运动通常会采用不同的运动表达方法,即使是同一种动作在不同的场合,由于快慢速度不一致等都会产生不同的时空关系。如何表征这些细微的时空变化并没有一个很好的办法。一个可行的办法是采用多分辨率的方法来表征和分析运动,但计算量较大。
行为识别
人行为理解虽然取得一定的进展,但行为理解研究还只局限于简单、固定视角且已切分好后的动作,对不同动作连续变化的长运动序列的研究比较少,而且鲁棒差,在噪声、亮度和光照变化强烈以及视角变化的复杂环境中正确识别率大大降低。行为识别方法如状态转移的图模型方法和模板匹配方法通常在计算代价和运动识别的准确度之间进行折中,而且都是先训练后使用,只能识别训练中预先定义好的动作,没有自动学习新行为的能力,缺乏考虑场景等背景知识,很难根据目标行为和场景的先验知识进行自动机器学习。例如HMMs等方法被看成一个黑盒,它不解释某种行为是什么,只输出一种未知行为与认知的模式行为之间的概率。所以仍需要寻找和开发新技术,以利于在提高行为识别性能的同时,又能有效地降低计算的复杂度。
发展趋势
高层行为与场景理解
行为本身具有很强的模糊性,同一行为、事件、状态在不同的场景有着不同的概念,当同一场景中有多个目标出现时其行为模糊性更加明显。所以,如何借助于先进的视觉算法和人工智能等领域的成果,将现有的简单行为识别与理解推广到更为复杂场景下的事件与场景理解,是将计算机视觉低、中层次的处理推向高层抽象思维的关键问题。
与生物特征识别相结合
在智能安全监控、智能人机交互中,行为理解与生物特征相结合显得更加重要,不但要求系统能够识别被监控对象的当前行为状态,而且能够识别当前被监控的对象身份。生物特征技术识别如步态识别、人脸识别等给对象身份识别提供了一个很好的解决办法。所以与生物特征识别相结合的行为理解将会是未来的研究方向之一。
算法评价
一般而言,鲁棒性、准确度、速度是人行为识别的三个基本要求,要求能够快速准确地识别运动且连续地工作,对于如噪声、光照、天气等因素的影响不能太敏感。但识别方法更多关注的是识别率,对鲁棒性和速度两个指标研究要求很少。另外,对行为识别方法没有统一的视频测试序列,大部分研究方法都是具体问题具体分析,是用各自选择的视频序列进行实验分析,无法对提出的算法进行统一评价。