動作捕捉系統

動作捕捉是實時地準確測量、記錄物體在真實三維空間中的運動軌跡或姿態,並在虛擬三維空間中重建運動物體每一時刻運動狀態的高新技術。動作捕捉最典型的套用是對人物的動作捕捉,可以將人物肢體動作或面部表情動態進行三維數位化解算,得到三維動作數據,用來在CG製作等領域中逼真地模仿、重現真人的各種複雜動作和表情,從本質上提升CG動作效果;更重要的是讓CG動作製作效率提高數百倍,大大節省了人力成本和製作周期,製作者可以將更多精力投入在CG創意和細節刻畫等方面,大幅提升產品的整體製作水平。動作捕捉系統是指用來實現動作捕捉的專業技術設備。

系統組成

不同的動作捕捉系統依照的原理不同,系統組成也不盡相同。總體來講,動作捕捉系統通常由硬體和軟體兩大部分構成。硬體一般包含信號發射與接收感測器、信號傳輸設備以及數據處理設備等;軟體一般包含系統設定、空間定位定標、運動捕捉以及數據處理等功能模組。信號發射感測器通常位於運動物體的關鍵部位,例如人體的關節處,持續發出的信號由定位感測器接收後,通過傳輸設備進入數據處理工作站,在軟體中進行運動解算得到連貫的三維運動數據,包括運動目標的三維空間坐標、人體關節的6自由度運動參數等,並生成三維骨骼動作數據,可用於驅動骨骼動畫,這就是動作捕捉系統普遍的工作流程。

系統分類及簡介

動作捕捉系統種類較多,一般地按照技術原理可分為:機械式、聲學式、電磁式、慣性感測器式、光學式等五大類 ,其中光學式根據目標特徵類型不同又可分為標記點式光學和無標記點式光學兩類。近期市場上出現所謂的熱能式動作捕捉系統,本質上屬於無標記點式光學動作捕捉範疇,只是光學成像感測器主要工作在近紅外或紅外波段。

機械式動作捕捉系統

機械式動作捕捉系統機械式動作捕捉系統
依靠機械裝置來跟蹤和測量運動軌跡。典型的系統由多個關節和剛性連桿組成,在可轉動的關節中裝有角度感測器,可以測得關節轉動角度的變化情況。裝置運動時,根據角度感測器所測得的角度變化和連桿的長度,可以得出桿件末端點在空間中的位置和運動軌跡。X-1st是這類產品的代表,其優點是成本低,精度高,採樣頻率高,但最大的缺點是動作表演不方便,連桿式結構和感測器線纜對表演者動作約束和限制很大,特別是連貫的運動受到阻礙,難以實現真實的動態還原。
聲學式系統聲學式系統

聲學式動作捕捉系統

一般由傳送裝置、接收系統和處理系統組成。傳送裝置一般是指超音波發生器,接收系統一般由三個以上的超聲探頭陣列組成。通過測量聲波從一個傳送裝置到感測器的時間或者相位差,確定到接受感測器的距離,由三個呈三角排列的接收感測器得到的距離信息解算出超聲發生器到接收器的位置和方向。這類產品的典型生產廠家有Logitech、SAC等,其最大優點是成本低,但缺點是精度較差,實時性不高,受噪聲和多次反射等因素影響較大。

電磁式動作捕捉系統

一般由發射源、接收感測器和數據處理單元組成。發射源在空間產生按一定時空規律分布的電磁場;接收感測器安置在表演者身體的關鍵位置,

電磁式系統電磁式系統
隨著表演者的動作在電磁場中運動,接收感測器將接收到的信號通過電纜或無線方式傳送給處理單元,根據這些信號可以解算出每個感測器的空間位置和方向。Polhemus和Ascension公司是這類產品生產商的代表,其最大特點是使用簡單、魯棒性和實時性好,缺點是對金屬物體敏感,金屬物引起的電磁場畸變對精度影響大,採樣率較低,不利於快速動作的捕捉,線纜式的感測器連線同樣對動作表演形成束縛和障礙,不利於複雜動作的表演。
慣性式系統慣性式系統

慣性感測器式動作捕捉系統

由姿態感測器、信號接收器和數據處理系統組成。姿態感測器固定於人體各主要肢體部位,通過藍牙等無線傳輸方式將姿態信號傳送至數據處理系統,進行運動解算。其中姿態感測器集成了慣性感測器、重力感測器、加速度計、磁感應計、微陀螺儀等元素,得到各部分肢體的姿態信息,再結合骨骼的長度信息和骨骼層級連線關係,計算出關節點的空間位置信息。代表性的產品有Xsens、3DSuit等,這類產品主要的優點是便攜性強,操作簡單,表演空間幾乎不受限制,便於進行戶外使用,但由於技術原理的局限,缺點也比較明顯,一方面感測器本身不能進行空間絕對定位,通過各部分肢體姿態信息進行積分運算得到的空間位置信息造成不同程度的積分漂移,空間定位不準確;另一方面原理本身基於單腳支撐和地面約束假設,系統無法進行雙腳離地的運動定位解算;此外,感測器的自身重量以及線纜連線也會對動作表演形成一定的約束,並且設備成本隨捕捉對象數量的增加成倍增長,有些感測器還會受周圍環境鐵磁體影響精度。

光學式動作捕捉系統

基於計算機視覺原理 ,由多個高速相機從不同角度對目標特徵點的監視和跟蹤來完成運動捕捉的任務。理論上對於空間中的任意一個點,只要它能同時為兩部相機所見,就可以確定這一時刻該點在空間中的位置。當相機以足夠高的速率連續拍攝時,從圖像序列中就可以得到該點的運動軌跡。這類系統採集感測器通常都是光學相機,不同的是目標感測器類型不一,一種是在物體上不額外添加標記,基於二維圖像特徵或三維形狀特徵提取的關節信息作為探測目標,這類系統可統稱為無標記點式光學動作捕捉系統,另一種是在物體上貼上標記點作為目標感測器,這類系統稱為標記點式光學動作捕捉。
無標記點式光學動作捕捉 原理大致有三種:第一種是基於普通視頻圖像的運動捕捉,通過二維圖像人形檢測提取關節點在二維圖像中的坐標,

無標記點式光學系統無標記點式光學系統
再根據多相機視覺三維測量計算關節的三維空間坐標。由於普通圖像信息冗雜,這種計算通常魯棒性較差,速度很慢,實時性不好,且關節缺乏定量信息參照,計算誤差較大,這類技術目前多處於實驗室研究階段;第二種是基於主動熱源照射分離前後景信息的紅外相機圖像的運動捕捉,即所謂的熱能式動作捕捉,原理與第一種類似,只是經過熱光源照射後,圖像前景和背景分離使得人形檢測速度大幅提升,提升了三維重建的魯棒性和計算速率,但熱源從固定方向照射,導致動作捕捉時人體運動方向受限,難以進行360度全方位的動作捕捉,例如轉身、俯仰等動作並不適用,且同樣無法突破因缺乏明確的關節參照信息導致計算誤差大的技術壁壘;第三種是三維深度信息的運動捕捉,系統基於結構光編碼投射實時獲取視場內物體的三維深度信息,根據三維形貌進行人形檢測,提取關節運動軌跡,這類技術的代表產品是微軟公司的kinect感測器 ,其動作識別魯棒性較好,採樣速率高,價格非常低廉,有不少愛好者嘗試使用kinect進行動作捕捉,效果並不盡如人意,這是因為kinect的套用定位是一款動作識別感測器,而不是精確捕捉,同樣存在關節位置計算誤差大,層級骨骼運動累積變形等問題。總體來講,無標記點式動作捕捉普遍存在的問題是動作捕捉精度低,並且由於原理固有的局限導致運動自由度解算缺失(如骨骼的自鏇信息等)造成動作變形等問題。
標記點式光學動作捕捉系統一般由光學標識點(Markers)、動作捕捉相機、信號傳輸設備以及數據處理工作站組成,人們常稱的光學式動作捕捉系統通常是指這類標記點式動作捕捉系統。在運動物體關鍵部位(如人體的關節處等)貼上Marker點,多個動作捕捉相機從不同角度實時探測Marker點,數據實時傳輸至數據處理工作站,根據三角測量原理精確計算Marker點的空間坐標,再從生物運動學原理出發解算出骨骼的6自由度運動。這裡根據標記點發光技術不同還分為主動式和被動式光學動作捕捉系統:

主動式光學動作捕捉系統的Marker點由LED組成,LED貼上於人體各個主要關節部位,LED之間通過線纜連線,由綁在人體表面的電源裝置

主動式光學系統主動式光學系統
供電,市場上最具代表性的產品是美國的PhaseSpace,其主要優點是採用高亮LED作為光學標識,可在一定程度上進行室外動作捕捉,LED受脈衝信號控制明暗,以此對LED進行時域編碼識別,識別魯棒性好,有較高的跟蹤準確率;缺點是:第一,時序編碼的LED識別原理本質上是依靠相機在不同時刻對不同的Marker採集成像來進行ID標識,相當於在同一個動作幀中分別針對每個Marker進行逐次曝光,破壞了動作捕捉的Markers檢測的同步性,導致運動變形,不利於快速動作的捕捉;第二,由於相機幀率很大部分用於單幀內對不同Marker點的識別,因此有效動作幀採樣率較低,這點上也不利於快速運動的捕捉和數據分析;第三,LEDMarker可視角度小(發射角120度左右),一個捕捉鏡頭內部通常集成了兩個相機近距離採集,這種窄基線結構導致視覺三維測量精度較低,並且在運動過程中由於動作遮擋等問題仍然不可避免地導致頻繁的數據缺失,如果為儘量避免遮擋造成的數據缺失,需要成倍增加動作捕捉鏡頭的數量彌補遮擋盲區問題,設備成本也隨之成倍增加;第四,由於時序編碼的原理局限,系統可支持的Marker總數有嚴格限制,在保證足夠的採樣率前提下,同時採集人數一般不宜超過2人,且Marker點數量越多,單幀逐點曝光時間越長,運動變形越嚴重。
被動式光學系統被動式光學系統
被動式光學動作捕捉系統,也稱反射式光學動作捕捉系統,其Marker點通常是一種高亮回歸式反光球,貼上於人體各主要關節部位,由動作捕捉鏡頭上發出的LED照射光經反光球反射至動捕相機,進行Marker的檢測和空間定位。這類產品市場上最典型的品牌是美國MotionAnalysis、英國的Vicon以及中國的天遠,其主要優點是技術成熟,精度高、採樣率高、動作捕捉準確,表演和使用靈活快捷,Marker點可以很低成本地隨意增加和布置,適用範圍很廣;主要缺點是:第一,對捕捉視場內的陽光敏感,陽光在地面形成的光斑可能被誤識別為Marker點,造成目標干擾,因此系統一般需要在室內環境下正常工作;第二,Marker點識別容易出錯,由於反光式Marker點沒有唯一對應的ID信息,在運動過程中出現遮擋等問題容易造成目標跟蹤出錯,導致Marker點ID混淆,這種情況通常導致運動捕捉現場實時動畫演示效果不好,動作容易錯位,並且需要在後處理過程中通過人工干預進行數據修復,工作量大幅增加。不過新一代的Vicon 軟體以及天遠的3DMoCap 都植入了先進的智慧型捕捉技術,具有很強的Marker點自動識別和糾錯能力,很大程度上滿足了現場實時動畫演示的需要,並且大大降低了人工干預的工作量,從本質上進一步提升了系統的實用性。

系統特點分析

不同原理的動作捕捉系統各有優缺點,一般可從以下幾個方面進行性能評估:定位精度、採樣頻率、動作數據質量、快速捕捉能力、多目標捕捉能力、運動範圍、環境約束、使用便捷性、適用性等,據此對當前市場上常見的幾種動作捕捉系統進行對比如下:
系統對比
系統對比
選擇動作捕捉系統沒有統一的標準,用戶應充分衡量自身的需求和一般使用情況,通常可以採取以下步驟篩選最適合自身使用的系統:
1. 一般情況下,注重綜合性能的,包括精度、動作數據質量和適用性等,首先考慮被動式光學系統,可以得到很好的精度和動作效果,適用性強,是現有動作捕捉技術中最為成熟的一種,套用案例最多,經典的電影特效和CG作品中大多採用這種技術,較為實用,適合多數用戶使用;
2. 強調室外套用並且具備較好的定位精度的,考慮主動式光學系統,儘管在其他性能方面做出一定程度的讓步,但可以兼顧室外套用和定位精度的特殊套用需求;
3. 強調室外套用並且運動範圍幾乎不受限制的,考慮慣性式系統,系統受環境約束很少,前提是對動作質量要求不高;
4. 強調便捷性,特別是套用於人機互動、動作識別領域,對動作精度、質量及可靠性要求較低的,考慮無標記點式系統,如微軟的Kinect感測器,在實用性和成本方面是其它系統無法比擬的。

系統參數及其在實際套用中的物理意義

動作捕捉相機解析度

光學動作捕捉系統,不論是無標記點式還是標記點式,動作捕捉相機解析度都是系統的一個重要參數。與影視行業的攝像機解析度意義不同,動作捕捉相機解析度意義並不在於畫面的細膩程度和視覺體驗,因為系統並不需要精細的畫面,而是能夠分辨出視場內的標記點或目標特徵即可,因此動作捕捉相機的物理解析度通常不需要影視級攝像機那么高,但是這裡的解析度具有兩大物理意義:一是空間尺寸分辨能力,同樣的視場範圍,同樣的工作距離下,解析度越高,可識別的最小特徵尺寸越小,通常這個意義在於,高解析度的相機可以使用更小尺寸的Marker,Marker過大容易對動作表演造成干擾,一般情況下Marker大小不宜超過直徑20mm,但也不宜過小,太小容易被遮擋,可視角度隨之變小,一般肢體捕捉Marker點不宜小於直徑10mm;二是定位精度,儘管精度本身受解析度、硬體同步性能、軟體標定和三維重建算法等諸多因素影響,但解析度決定了空間尺寸的分辨能力,一定程度上決定了空間定位的不確定度,造成三維數據不同程度的抖動,從而限制了定位精度,在其它因素控制較好的情況下,解析度對系統精度起到決定性作用。
動作捕捉相機解析度直接影響系統成本,通常更高的解析度意味著更高的設備成本,因此對於大部分追求實用性和性價比的用戶來講,解析度能夠滿足自身的需求即可,無需盲目追求高解析度。對於一般的動作捕捉套用來說,捕捉數據用來進行動畫製作,其捕捉精度在亞毫米量級已經足夠,因為這個量級的誤差在動畫中人眼是很難分辨的,在解析度一定、相機視角一定的情況下,決定這個精度的因素主要在於相機工作距離,更直觀地說,就是適用場地尺寸大小,捕捉場地越大,絕對精度越低,當場地大小超過絕對精度在亞毫米量級的要求時,應該採用更高解析度的動作捕捉相機。以這個精度要求為基準,以常用的動作捕捉60度左右相機視角為例,我們可以得到一個解析度與適用場地範圍的參考對照表:
對照表對照表

動作捕捉相機採集幀率

動作捕捉相機採集幀率與通常所說的相機幀率一致,是指單位時間內圖像數據採集的次數,單位一般是fps,即幀/秒。
相機採集幀率對於動作捕捉來講具有兩大物理意義:一是限定了動作採樣頻率,動作採樣頻率最大不超過相機採集幀率(在下面“採樣頻率”一節會詳細闡述);二是直接決定了運動跟蹤算法的有效性,進而決定了動作捕捉的正確率。運動跟蹤貫穿動作捕捉的整個過程,一方面軟體需要通過跟蹤進行不同目標的識別和區分,另一方面通過跟蹤預測可以縮小目標探測區域,有效地提升計算速率和捕捉實時性。一旦跟蹤失敗,往往動作捕捉數據會出錯,嚴重的會導致丟失關鍵幀,影響捕捉的實時性。一般地講,相機幀率越高,跟蹤性能越好,即捕捉數據正確率越高(主動式光學系統除外,參見下節)。
通常為了實現較好的動作捕捉性能,專業的動作捕捉系統製造商都會進行深入的研究以平衡硬體性能參數來滿足使用要求。其中,動作捕捉相機解析度和採集幀率是比較重要的一對相關參數,簡單地說,解析度越高應該對應越高的採集幀率,因為解析度增加相當於目標在圖像上的運動預測不確定度增加,為保證計算速度,在跟蹤搜尋視窗不變的情況下,目標逃離跟蹤視窗的機率大幅增加造成跟蹤失敗,解決這個問題最有效的方法就是提高採集幀率,降低運動預測的不確定度,以確保跟蹤正確率。專業的動作捕捉相機解析度與幀率的關係一般應滿足如下關係:
相機解析度與幀率的關係相機解析度與幀率的關係
當系統不能達到足夠的採集幀率時,最明顯的使用問題是快速運動捕捉能力差,例如對人體進行擊打、踢腿等動作捕捉時,運動數據往往會頻繁出錯,造成無法進行現場動畫演示,且大大增加數據後處理的工作量,系統實用性低。

動作採樣頻率

一般地,人們會認為相機採集頻率越高越好,大部分情況下是可以這樣理解的,但這個理解並不全面,有個別情況屬於例外。
事實上,相機採集頻率並不等於動作採樣頻率,用戶真正關心的實際是動作採樣頻率而不是相機採集頻率。採樣頻率指動作捕捉系統單位時間內採集動作關鍵幀的頻率,其中動作關鍵幀是指某一時刻得到的一套完整的動作數據。畢竟動作採樣頻率才決定了動作捕捉的細膩程度和採樣密度,特別是對於動作分析的用戶來講,採樣頻率對運動學計算意義重大,例如計算速度、加速度等參數時,較高的動作採樣頻率尤其重要。
對於無標記點式光學系統和被動式光學系統來講,動作採樣頻率和相機採集幀率一致,相機每曝光一次即得到一幀完整的動作數據,這時將相機幀率等價於動作採樣頻率是沒有問題的;但是,對於主動式光學系統來講,原理截然不同,由於採用時序編碼的LEDMarker點,不同的LED隨時間交替明暗變化,相機每曝光一次實際只對空間中的一個或幾個Marker點進行採集,以此實現對不同Marker點的ID識別區分,捕捉時視場內往往有幾十甚至上百個Marker點,當對所有Marker點完成一次採集時,才算作一次完整的動作採集,即一個動作關鍵幀,而相機採集次數可能已經進行了幾十次,這時動作採樣頻率遠小於相機幀率,這類系統往往標註很高的相機幀率,但實際的動作採樣率往往在30fps甚至更低。

同步採集時間精度

專業的動作捕捉系統,特別是各類光學動作捕捉系統,同步採集的時間精度是另一大重要的硬體參數,其物理意義是能夠影響系統定位精度。同步採集時間精度是指系統在獲取一個動作關鍵幀時,各相機曝光時刻間的時間差別,理論上講在同一個動作關鍵幀採集時,各相機須在完全相同的時刻同步曝光,才能保證視覺三維測量的準確性,在實際套用中,專業的生產廠商會採用同步控制裝置對系統進行精確同步控制,時間同步精度往往在百萬分之一秒以上。沒有同步控制裝置或同步精度低的,直接導致空間定位偏差大,或者頻繁出現異常噪聲直接影響動作捕捉的數據質量和使用效率。

動作捕捉相機配置數量

動作捕捉相機配置數量具有重要的物理意義:視覺三維測量原理是特徵目標被多個相機同時觀測到,才能進行三維重建,當只有一個相機或沒有相機觀測到該目標時,對目標的重建就會失敗,造成數據缺失,這種情況多是由於複雜動作、多人表演或與道具結合的表演過程中的各種遮擋導致。相機數量越多,布置的空間視點越多,目標被完全遮擋的機率就越小,數據缺失的也就越少,捕捉質量也就越好,降低數據後處理的複雜度和工作量。此外,從視覺三維測量的原理出發,相機數量越多,也可以在一定程度上提升目標空間定位的精度。因此,在架設動作捕捉系統時,一定要考察清楚相機配置數量是否能夠滿足自身的捕捉需要,一般來講,動作捕捉場地越大,捕捉的對象越多,動作越複雜,需要的動作捕捉相機數量越多,數量配置與場地大小的大致對應關係可參考下表:
數量配置與場地大小的大致對應關係數量配置與場地大小的大致對應關係

人體模型標記點(Marker)配置數量

光學動作捕捉系統通常在軟體中提供不同的人體標記點模型供用戶選擇,即動作捕捉時單人身上布置的標記點總數,這個數量的物理意義在於它關係到骨骼運動解算的準確度。系統通過身上的標記點運用運動學原理解算關節運動信息,理論上標記點數量越多,動作解算越準確;為了反映全身各主要關節的6自由度運動信息,模型規劃的基本標記點數量至少應大於36個,否則會缺失某些關節的某些運動自由度,造成骨骼動作數據失真。

反游標記點(Marker)尺寸大小

反游標記點尺寸大小沒有嚴格限定,其物理意義在於與動作捕捉相機適配,保證在相機中能夠被有效地探測到,同時不影響動作表演的自由性。一方面為避免遮擋引起的標記點可視角度過小等問題,標記點尺寸一般不小於直徑10mm;另一方面為避免標記點過大影響動作表演,尺寸一般不大於直徑20mm。具體尺寸一般與系統相機解析度相對應,解析度越高,標記點標配尺寸越小,例如130萬像素以下系統一般使用20mm左右的標記點,而500萬像素系統一般使用10mm左右標記點。

相關詞條

熱門詞條

聯絡我們