动作捕捉(记录物体在三维空间中的运动轨迹并进行分析的技术)

动作捕捉

记录物体在三维空间中的运动轨迹并进行分析的技术

动作捕捉（Motion capture）技术，简称Mocap，是借助动作捕捉系统对运动中的人、动物或物体的三维运动轨迹进行实时捕捉和数字解析的一种高新技术，其实质是测量、跟踪、记录物体在三维空间中的运动轨迹并进行分析，具有低延迟、高精准度等优点。

1915年，马克斯·弗莱舍（Max Fleischer）发明了转描机技术，它可以被看成动作捕捉的原始形式，是动作捕捉的先驱。1937年，在迪士尼公司在拍摄的动画电影《白雪公主》中首次使用动作捕捉技术，20世纪70年代末和80年代初，动作捕捉首次在西蒙菲莎大学等学校以研究项目的形式使用，但直到80年代中期才用于实际制作。1983年，麻省理工学院开发了一套基于一系列发光二极管的图形牵线木偶，这是光学动作捕捉系统的雏形。除了肢体动作捕捉外，2005年上映的电影《金刚》在动作捕捉技术上增加了另一层创新，即面部捕捉技术。2009年，电影《阿凡达》使用的动作捕捉技术不仅解决了演员与虚拟场景的融合问题，还大幅提升了面部表情捕捉的精度。2015年，电影《猩球崛起：黎明之战》真正地实现了户外实景多人同时捕捉技术。在游戏方面，2018年发布的《Island 359》使用了动作捕捉和交互技术，为玩家营造出真实的游戏体验。

动作捕捉系统由传感器、信号捕捉设备、数据传输设备和数据处理设备组成，根据动作捕捉系统的工作原理可以将其分为光学式、声学式、机械式、电磁式和惯性式等，其涉及到光线追踪、数据融合等相关技术以及卡尔曼滤波、前向运动学等关键算法。动作捕捉在服装、动画、医疗康复、体育训练等领域具有广泛应用，但也存在着设备要求高、失真现象等局限。

历史沿革

背景

1872年，慕布里奇（Eadweard Muybridge）应加利福尼亚州州长利兰·斯坦福（Leland Stanford）的委托，开始验证马在奔跑时是否四蹄同时离地。六年后，慕布里奇通过设立一系列由马蹄触发的相机，成功捕获了马奔跑的连续图像，并最终证明了马的四肢确实会同时离开地面。这一实验不仅奠定了他在电影发明历史中的重要地位，还为动作捕捉技术提供了基础思路。

1882年，马莱在巴黎与慕布里奇会面，受到慕布里奇工作上的启发，于次年发明了记录动物运动的计时摄影枪（Chronophotographic Gun），但不久之后就放弃了这项工作的进行。同年，他发明了一种带定时快门的摄影机，使他能够在一个圆盘上曝光多个连续的运动图像。这种摄影机最初在玻璃圆盘上记录图像，后来马莱用纸膜取代了玻璃板，对早期电影使用胶片产生了启蒙作用。在动作捕捉的摸索阶段，慕布里奇实现了最早的活动拍摄，马莱创造了第一架电影摄影机。

初步发展

1915年，动画师马克斯·弗莱舍（Max Fleischer）发明了转描机（Rotoscoping）技术，希望可以实现卡通电影的自动化制作。该方法将真人表演拍摄的胶片电影逐帧播放并投射到毛玻璃上，使动画师可以在纸上逐帧绘制动作，这就是动作捕捉技术的雏形，由此诞生了《逃出水池》（Out ofthe Inkwell）动画中的小丑形象。1931年，哈罗德·埃杰顿（Harold Edgerton）开发了频闪观测仪（Stroboscope），将高速移动的物体捕捉在胶片上，高速摄影自此诞生，这对于日后光学动作捕捉相机的数据采集极为关键。1937年，美国迪士尼公司使用转描机技术来创造《白雪公主》中人物的动作，这也是历史上首部运用该技术制作的长篇动画作品。

1950年，机械式（Mechanical）操作手臂的发明，代替了人在比较危险的环境工作。1963年，人们设计出可进行回馈反应的机械人，这和现代的机械式动作捕捉技术很相似，通过人体动作，实现对设备的动作控制，再回馈有关的设备运动信息。1970年，波尔希默斯（Bill Polhemus）开发了电磁式动作捕捉。1975年，随着计算机技术的发展，动画师开始使用计算机来制作动画人物。

计算机图形学中的动作捕捉在20世纪70年代末和80年代初首次在西蒙弗雷泽大学（SFU）、麻省理工学院（MIT）和纽约理工大学（NYIT）等学校以研究项目的形式使用，但直到80年代中期才用于实际制作。

制作应用

20世纪80年代，西蒙菲莎大学人体运动学与计算机科学的汤姆·卡尔弗特（Tom Calvert）教授最早将“机械版动作捕捉系统”用在舞蹈设计学和运动异常的临床评估中，他将多个电位器安装在人体上并使用人体动作输出的数据来驱动电脑中的动画形象。卡尔弗特和他的团队使用电位器重点研究了膝关节区域，“模仿系统”中的动作数据被数字化后进行输出转换，并被发送至计算机动画系统。

1983年，麻省理工学院开发了一套基于一系列发光二极管的图形牵线木偶，这是光学动作捕捉系统的雏形。1984年，运动分析（Motion Analysis）实现通过二维跟踪完成三维定位技术。1985年，VPL研究中心开发了虚拟现实的技术，其中机械式动作捕捉为主要技术核心。同年，Sun工作站用了17个小时计算出通过四个摄像机所跟踪的8个点的三维运动轨迹（动作长3秒）。

1988年，德格拉夫（DeGraf）和沃赫曼（Wahrman）开发了受机械式控制的“迈克：会说话的头”，迈克被一个专门的控制人员操纵，只要很简单的操作，就可以控制这个头部模型的面部，包括嘴、眼睛以及表情变化，同时还可以控制头部的位置变化，计算机硬件会自动插补被设定的表情和头部位置的中间变化过程，使模型的变化看起来非常自然。1991年，法国的视频和图形系统制造商Videosystem开发出实时的人体动画系统，成功产生“Mat the Ghost”的虚拟角色。

随后，动作捕捉技术逐渐完善并受到影视娱乐领域的青睐。1994年动作捕捉演员先驱安迪·瑟金斯（Andy Serkis）在电影《指环王》中扮演“咕噜”这一角色和其他演员进行互动，为角色塑造增添了更多维度。1995年，乔·舒马赫（Joel Schumache）执导的电影《永远的蝙蝠侠》也利用动作捕捉技术为特技场景创建了数字替身，展示了技术的多样性。到了2001年，动画片《最终幻想：灵魂深处》首次实现全程运用动作捕捉，标志着这一技术在影视动画领域的全面应用。

成熟发展

除了肢体动作捕捉外，2005年上映的电影《金刚》在动作捕捉技术上增加了另一层创新，即面部捕捉技术，制作组在金刚的脸上精准还原了演员表演时自然连贯的表情神态。而在《金刚》上映前，面部捕捉技术还未被真正使用到电影中，面部动画仅能通过后期制作实现，动画师必须依靠真人视频作参考来制作数字虚拟面部动态。2006年上映的电影《加勒比海盗2：聚魂棺》也使用了面部捕捉技术，使电影更加生动逼真。2008年上映的电影《本杰明·巴顿奇事》，运用光学式面部捕捉系统采集演员面部表情，在获得演员头部高精度模型的同时建立了演员的表情库，提高了影片制作的精度。

在2009年电影《阿凡达》之中，动作捕捉系统迎来了一次突破性发展。导演詹姆斯·卡梅隆在这部影片的制作之中几乎全程使用动作捕捉系统。为了能够实时地反馈演员的表演成果以及能够更精确地捕捉演员的面部表情以用于虚拟角色之中，导演詹姆斯·卡梅隆开创了一套虚拟摄像机Simulcam系统和头戴式表情捕捉系统，它不仅解决了演员与虚拟场景的融合问题，还大幅提升了面部表情捕捉的精度。

2011年维塔数码在拍摄《猩球崛起》时对动作捕捉技术进行了进一步地更改与升级，他们将动作捕捉所需的设备—反光标记点改进为主动发射红外光线的LED灯。这项改动使得动作捕捉技术能在演员处于真实的场景下进行使用，新的系统设备可以在各种复杂的环境和灯光下顺利地进行工作。2015年的《猩球崛起：黎明之战》让动作捕捉表演在户外进行这一想法变成现实，让使用动作捕捉变得不那么困难繁琐，真正地实现了户外实景多人同时捕捉技术。

动作捕捉技术和VR眼镜配合使用可以营造出深度沉浸互动感，比如2018年发布的游戏《Island 359》中使用了动作捕捉和交互技术，玩家可以用脚去踢虚拟的恐龙，然而这套装置价格非常昂贵。在手势交互方面，2019年推出的Elixir游戏具有智能手部跟踪和全身动作捕捉功能，不需要穿戴数据手套，通过单色摄像头就能识别感知每只手18个骨骼关节，进而识别人手的准确位置。

2019年，一部CG人物与真人结合的电影《阿丽塔：战斗天使》诞生了。在拍摄过程中，技术人员在演员面部标记了重要活动肌肉；而演员头戴的高清摄像机捕捉的面部动态图像能够被逐帧实时转换成面部捕捉数据，用来驱动虚拟人物的面部表情及动作，重建了虚拟人物“阿丽塔”的面部肌肉系统。2021年3月，追踪器VIVE Tracker第3版发布，这款追踪器可以识别从手、脚和腰部到整个人体范围的运动，但全身追踪器的价格达到了2100美元。

工作原理

动作捕捉技术旨在捕获并记录人物或物体的运动、姿势和动作，以便在后续的应用中进行分析、渲染或交互。其基本原理是通过使用传感器、摄像机、或其他设备来收集运动数据，然后将这些数据转化为数字信息。

一种常见的动作捕捉方法是使用传感器。这些传感器可以附着在人体的关键部位，如手臂、腿部、头部等，或者附着在物体上。这些传感器可以测量位置、速度、加速度和角度等数据，并将其发送到计算机进行处理。计算机会将这些数据转化为动画或虚拟模型的运动。

另一种常见的方法是使用摄像机系统。这些摄像机可以在不同角度和位置拍摄运动对象，然后计算机软件可以分析视频图像，识别出关键点的位置，从而重建出对象的三维运动轨迹。

系统组成

传感器：传感器是固定在运动物体特定部位的跟踪装置，它将向动作捕捉系统提供运动物体运动的位置信息，一般会随着捕捉的细致程度和捕捉设备确定跟踪器的数目。其中MEMS惯性传感器在市场中运用广泛，可以根据加速度来计算出重要的运动信息，其多运用于运动训练、人体识别等方面。

信号捕捉设备：信号捕捉的主要功能是识别传感器传输的运动数据，主要负责位置信号的捕捉。其中信号捕捉设备会因动作捕捉系统的类型不同而有所区别，它们对于机械系统是一块捕捉电信号的线路板，对于光学动作捕捉系统则是高分辨率红外摄像机。

数据传输设备：数据传输是对信号捕捉设备传递的运动信号进行转化，并准确向上级计算机系统进行传输的过程。然后又可分为实时传输和非实时传输，其中（光学式）实时传输为了快速的传输数据信息，一般设置专用的线缆用来达到要求。动作捕捉系统，特别是需要实时效果的动作捕捉系统需要将大量的运动数据从信号捕捉设备快速准确地传输到计算机系统进行处理，而数据传输设备就是用来完成此项工作的。

数据处理设备：经过动作捕捉系统捕捉到的数据需要修正、处理后还要和三维模型结合才能完成计算机动画制作的工作，这就需要应用数据处理软件或硬件来完成此项工作。数据处理设备可分为硬件和软件两部分，其中硬件是计算机硬件设备，软件主要是负责处理各单位传输来的相关数据，并根据传输来的信息转化为坐标数据，根据坐标建立三维模型。

类型

机械式动作捕捉

机械式动作捕捉依靠机械袭置来跟踪和测量运动。典型的系统由多个关节和连杆组成，在可转动的关节中装有角度传感器，可以测得关节转动角度的变化。装置运动时，根据角度传感器测得的角度变化和连杆的长度，可以得出杆件末端点在空间中的位置和运动轨迹。最早期的一种机械式动作捕捉装置是用带角度传感器的关节和连杆构成一个“可调姿态的数字模型”，其形状模拟人体或动物等。使用者调整模型的姿势，然后锁定，关节的转动被角度传感器测量记录，计算出模型的姿态。这些姿态数据传给动画软件，使其中的角色模型也做出一样的姿势。

机械式动作捕捉的一种应用形式是将欲捕捉的运动物体与机械结构相连，物体的运动带动机械装置，从而被传感器实时记录下来。这种方法的优点是成本低，精度较高，可以做到实时测量，还可以允许多个角色同时表演；主要的缺点是使用起来非常不方便，机械结构对表演者的动作阻碍、限制很大。

声学式动作捕捉

声学式动作捕捉装置由发送器、接收器和处理单元组成。发送器是一个固定的超声波发生器，接收器一般由呈三角形排列的三个超声探头组成。系统通过测量、计算声波从发送器到接收器的时间，可以确定接收器的位置和方向。由于声波的速度与温度有关，还必须具有测温装置并在算法中做出相应的补偿。该类装置成本较低，但对运动的捕捉有较大的延时和滞后，精度差，还要求声源和接收器间不能有遮挡，而且受噪声等环境音影响较大，对环境的依赖较高。

电磁式动作捕捉

电磁式动作捕捉系统包括发射源、接收传感器和数据处理单元。发射源在空间产生按一定时空规律分布的电磁场。接收传感器（通常有10~20个）安装在表演者身体的关键位置，随着表演者动作在电磁场中运动。传感器通过电缆或无线方式与数据处理单元相连。表演者在电磁场内表演时，接收传感器将接收到的信号通过电缆传送给处理单元。根据这些信号可以解算出每个传感器的空间位置和方向。

电磁式动作捕捉系统的优点在于，首先它记录的是六维信息，即不仅能得到空间位置，还能得到方向信息，这一点对某些特殊的应用场合很有价值。其次是速度快，实时性好，在表演者表演时，动画系统中的角色模型可以同时反应，这便于排演、调整和修改。装置的定标比较简单，技术较成熟，鲁棒性好，成本相对低廉。其缺点是对环境要求严格，在表演场地附近不能有金属物品，否则会造成电磁场畸变，影响精度，系统的允许表演范围比光学式的要小。特别是电缆对表演者的活动限制比较大，不适用于比较剧烈的运动、表演。

惯性式动作捕捉

惯性式动作捕捉系统的应用率较高，它主要由惯性测量单元、数据传输系统和远程数据处理终端3部分组成。惯性测量单元包括加速度计、陀螺仪和磁力计，加速度计用于采集目标运动物体的加速度，陀螺仪用于目标运动物体角速度信息的采集，磁力计可以测量出目标运动物体周围的磁场强度及其与地球磁场的夹角。综合这些数据可以计算出目标运动物体的运动姿态。惯性式动作捕捉系统的主要工作原理是通过分析惯性陀螺仪的位移变差来判定运动物体的动作幅度和距离，可将惯性陀螺仪装置在人身体的关键部位。

惯性式动作捕捉系统采集到的信号量少，便于实时完成姿态跟踪任务，解算得到的姿态信息范围大、灵敏度高、动态性能好；对捕捉环境适应性高，不受光照、背景等外界环境干扰，并且克服了光学动作捕捉系统摄像机监测区域受限的缺点；克服了VR设备常有的遮挡问题，可以准确实时地还原如下蹲、拥抱、扭打等动作。此外，惯性式动作捕捉系统还可以实现多目标捕捉。

光学式动作捕捉

光学式动作捕捉通过对目标上特定光点的监视和跟踪来完成动作捕捉的任务。常见的光学式动作捕捉大多是运用计算机视觉原理。从理论上说，对于空间中的一个点，只要它能同时被两个相机缩减，则根据同一时刻两个相机所拍摄的图像和相机参数，就可以确定这一时刻该点在空间中的位置。当相机以足够高的速率连续拍摄时，从图像序列中就可以得到该点的运动轨迹。

光学式动作捕捉的缺点是价格高昂，虽然可以实时捕捉运动，但后期处理的工作量非常大，对于表演场地的光照、反射情况有一定的要求，装置定标也比较烦琐。

基于视频的动作捕捉

视频动作捕捉是在光学式动作捕捉技术上发展而来，它采用了普通的摄像机代替特制的摄像机，采用普通的颜色标记代替专业的感光标记材料，极大地降低了系统的硬件成本。其在技术实现上采用的原理和光学动作捕捉系统是一致的，增加了颜色匹配算法，运用计算机图像分析技术捕捉视频中的动作信息。视频动作捕捉系统的技术构成主要包括两种，首先是跟踪技术，即特征跟踪技术，根据视频中标记的颜色作为特征进行跟踪；其次是三维重建技术，就是根据计算机视觉原理将二维数据转为三维数据。

相关技术

光线追踪

光线追踪是在二维屏幕上呈现三维图像的方法。作为一种图像合成技术，它通过模拟光线与物体表面的交点来实现图像的绘制。在光线追踪的运算过程中，需要运用到蒙特卡洛算法。蒙特卡洛算法是指随机的对样本进行抽取，来补给某个子样本运用到光线追踪中就是在渲染过程中，在空中随机抽取光线用来解决问题。光线追踪与光栅化不同，由于光线追踪是随机发射光线，这就会带来方差的问题，例如骰子六个点的平均数是3.5，当扔的次数越多，就越接近平均数；光线追踪也是同样的道理，当光线数量足够时，也能得到最终的主项。

数据融合

数据融合是针对一个网络感知系统使用多个或多类感知节点展开的一种数据处理方法。通过对多感知节点信息的协调优化，数据融合技术可以有效地减少整个网络中不必要的通信开销，提高数据的准确度和收集效率。因此，传送已融合的数据要比未经处理的数据节省能量，延长网络的生存周期。但对物联网而言，数据融合技术将面临更多挑战，例如，感知节点能源有限、多数据流的同步、数据的时间敏感特性网络带宽的限制、无线通信的不可靠性和网络的动态特性等。

面部动作捕捉

面部捕捉技术是动作捕捉的一部分，指借助机械装置等设备记录人类面部表情和动作，并将其转为一系列参考数据的过程。当下面部动作捕捉大多是基于光学技术，从数据来源可以分为二维面部捕捉和三维面部捕捉两种。其中二维面部捕捉指基于光学镜头记录数据，通过特定算法标记，完成对人物面部表情动作的记录；而三维面部捕捉在二维面部捕捉基础之上，借助设备捕捉画面的深度信息，获取人物面部三维动作，一般使用相机阵列，但这种记录方式成本较高，且不利于演员即兴演出等。

射频定位

射频定位（RFID）技术是一种被广泛采纳的实用型技术，其具有非视距传播、灵敏度高、信息承载量大和成本低等优点，可以灵活采取不同定位算法对坐标值进行计算，如时间到达法（TOA）、时间差到达法（TDOA）、到达角度法（AOA）和信号强度法（RSSI），比较典型的RFID系统一般都是基于信号强度（RSSI）法分析的，如SpotON和LANDMARC定位系统。RFID射频系统联合其他传感器可以比较精确地实现室内定位，且RFID芯片不仅可以用来室内定位，也可以预先存储目标物信息，通过射频识别之后用语音告知盲人室内物品及物品详细内容，可以实现语音识物。

关键算法

卡尔曼滤波

卡尔曼滤波是一种基于线性系统状态空间方程，利用系统的输入、输出观测数据，采用统计学方法，对系统状态做出最优估计的算法。由于观测数据包含了噪声和干扰的影响，所以最优估计也可看作是滤波过程。卡尔曼滤波不要求保留用过的观测数据。当测得新的观测数据后，卡尔曼滤波可按照一套递推公式算出新的估计量，不必重新计算。此外，它还打破了对平稳过程的限制，可用于对时变随机信号的滤波。

卡尔曼滤波建立包含信号和噪声的系统状态空间模型，根据前一时刻状态向量的最优估计值和当前时刻的观测向量来求取当前时刻状态向量的最优估计值。卡尔曼滤波的本质就是通过对系统观测向量的运算来得到系统状态向量的最优估计，以“预测一观测一修正”的顺序递推。适当的卡尔曼滤波算法可以消除随机干扰，尽可能地再现系统的真实状态，恢复系统的本来面目。

前向运动学

前向运动学是一种基于层次结构的运动方法，其研究以机器人的各关节参数（广义坐标）来决定终端操作器的位型。这种运动从根结点向叶子结点驱动，按走向来说是向前的，所以称为前向运动。

在总体结构所处位置越向根部的运动就会牵动越多的叶子结点运动，而叶子结点的运动影响不了根结点。利用这种方法来设置动画中物体的关键帧姿势，是从根部结点开始调整，最后调整叶子结点。比如调整手臂的姿势，就要先调整大臂，然后调整小臂，最后才是手部。前向运动的优点是方便灵活，只需要依次调整关节的旋转角度，但是越是灵活自由的，越不容易控制。

逆运动学

在机器人学中，对于一个串联的关节型机器人，如果知道末端的位置和姿态去求各关节角度，这个过程就是逆运动学。

以关节连接的物体由一组通过关节连接的刚性片段组成，变换关节的角度可以产生无穷的形状。一般情况下，逆运动学问题没有解析解，但是，逆运动学可以通过非线性编程技术来解决，这使得人们可以把终端效果器的朝向和位置独立处理，并导致一个高效的闭形式解。在动画涉及中逆运动学问题很重要，艺术家发现表达空间的形象比控制关节角度来要容易得多。逆运动学算法的应用包括交互操纵、动画控制和碰撞避免等。

优缺点

优点

降低成本：动作捕捉技术的运用可以更快捷更方便地达到一定程度上满足专业性的要求，在传统制作过程的基础上缩短了制作时间，降低了基于关键帧的动画的成本。

提高效率：动作捕捉技术可以使制作效率更高、制作周期更短。

延长产业链：动作捕捉技术的产生可以为相关行业增添新的岗位，延长其产业链。

兼容不同方式：与传统技术不同，它的工作量并不取决于复杂性或表演时长，因此其可以尝试不同的风格和表演方式，个性只受演员的才能限制。

增加效益：动作捕捉技术可以制作大量数据，有助于满足期限并提高成本效益。

精准重现：动作捕捉技术可以轻松以准确的方式重新创建逼真的复杂动作。

缺点

设备要求高：动作捕捉获取和处理数据需要特定的软件和硬件。

小规模生产成本高：如果进行小规模生产，设备和软件的成本可能会过高。

环境要求高：相机的视野或磁场畸变可能会影响动作捕捉系统的特定要求。

较难支持实时查看：如果在拍摄过程中出现问题，很少有动作捕捉系统能够允许实时查看以决定是否需要重新拍摄。

评价指标

应用领域

服装

动作捕捉可以测量动态人体上标记点的三维空间坐标，利用计算模型和数据分析得到关节活动角度（ROM）和皮肤形变率等数据，为服装产品的研发和改进提供数据参考。造型设计对服装的视觉效果有重要影响，且服装造型与面料性能、服装结构等因素有关。将传感器固定在服装表面，利用动作捕捉仪可获得人体运动时面料在三维空间内的坐标，根据试验需求计算面料在着装人体上的位移数据，进而评价人体运动状态下的服装造型。

动画

早期制作三维动画需要专业动画师手动调节每一帧图像，导致动画作品展现出的运动和表情不自然、不真实。动作捕捉技术的应用，能够使得三维动画作品中的角色深刻表现出其动作和表情，提升三维动画设计和制作效率，节约动画制作成本，同时能够将海量运动轨迹存储到云端，形成庞大的运动数据库，为构建其他虚拟运动模型提供便利。

医疗康复

在医疗康复方面，可以通过动作捕捉系统分析患者患处的活动范围、受力情况等，得到患者的恢复情况，进而制定更有效的治疗方案。可利用动作捕捉系统分析髋关节的运动变化规律以及使用光学式动作捕捉仪分析偏瘫患者的膝关节运动情况，确定偏瘫步态的基本特征。

体育训练

在体育训练领域，动作捕捉系统可以精准测量运动员的运动轨迹，以用于优秀运动员的分析教学。此外还可对运动员的动作进行记录、分析，建立个人数据体，以便更精准地进行专项训练，提高运动员的技术能力。为了提高学生的投篮技巧，可使用光学动作捕捉仪分别采集老师和学生在投篮时肘关节的三维空间坐标，建立三维动作模型，以老师的三维模型为投篮标准动作，纠正学生的投篮姿势。