2019 年 6 月出版

科儀新知 第 219 期

3D成像與成型技術專題

0219004

3D 影像掃描技術與其在室內定位的相關應用

3D Image Scanning Technology and The Application to Indoor Positioning

孫慶成

Ching-Cherng Sun

在新興的 IT 科技中,室內 3D 空間資訊的取得極為重要,其應用也相當廣泛。在本文中,我們介紹了三種最重要的光學掃描技術,包括結構光、ToF 與立體影像測距法,並分析了這些方法的優卻點。最後,本文介紹了中央大學 CIVIS 團隊在 3D 掃描的技術發展,包括自動掃描載具與點雲的處理技術。希望本文能提供給有志於相關技術的同好或先進一個參考。

In the new IT technology development, capture of 3D indoor space information has become more and more important. Besides, the associated applications have attracted intensive attention. In this report, we discuss three main optical scanning technologies for 3D indoor space information, including structured light, time of flight and stereo image detection. The characteristics, including advantages and shortages, of the three approaches are discussed. Finally, we introduce the developed technologies by the CIVIS team of National Central University, including auto-guided 3D scanning vehicle and point cloud processing technology. This report is expected to provide a useful reference to the people who are working or interested in this field.

一、背景

2010 年,在美國一位名為 Rony Abovitz 創立了一家在 IT 產業中後來頗為著名的公司 Magic Leap(1),吸引了包括 Google 與阿里巴巴的投資,並在 2016 年獲得 14 億美元的投資金額,意在創造如 Google glass 功效的頭戴式顯示器 (head mount display, HUD),可將電腦產生的影像與實際看到的場景精確地結合,此即為擴增實境 (augmented reality, AR) 的應用,而 Magic Leap 的優勢是據信其解析度將更高,畫面更精緻。2018 年 Magic Leap 公司第一個相關的頭戴式眼鏡產品,雖然效果未如預期,但是一般相信其產品與 Microsoft 的 Hololens (2) 是在同一個水準。

頭戴式眼鏡所產生的顯示器,正是新世代顯示器的必然革命。這原因很簡單,就是現代的顯示器並無法一次解決大家在日常生活中所需。現在的顯示器可分為二類,一是家中的平面顯示器,可能是五十五吋大小的液晶電視或是 OLED 電視;其二是每個人每天花上最多時間觀看的手機,約是五吋大小的螢幕,依然屬於液晶顯示或是 OLED 顯示屏。即使後者有可能被 Micro-LED 取代,但是二者的共同特性是無法一次解決民眾在日常生活中所需要的一種輕便、高黏著度而又具臨場感的顯示。因此,現在大家的生活是,平常在外不得已時看手機的小螢幕,回家看電視的大螢幕,顯示技術仍然處於一個尷尬時期。也許有人已經不在乎家中的電視,而是更依賴身上的手機,但是手機不但螢幕小,還有一個致命缺點--耗能;電視雖然更耗能,但是無須以身上的電池供電。不管手機或是電視,人們每次只能以二隻眼睛去看,因此腦部也只需處理二個不同視角的畫面。如果有一個顯示器只供應畫面給我們的二隻眼睛,每隻眼睛看到的又彷如觀看一個立體物件的不同視角,那麼這個顯示器就有以下二大優點 :

1. 無比節能,因為所有的能量只傳給二隻眼睛,不像手機或電視的畫面是旁觀的人也可觀看,其所消耗的能量遠遠大過二隻眼睛所需。

2. 立體顯示,因為每隻眼睛所看到的畫面具有視角差,就可由大腦產生立體影像的錯覺,而產生相當多的應用情境。

要同時滿足這二個優點,就只有頭戴式的近眼顯示 (near eye display) 可以達成,不但如此,近眼顯示器是穿戴裝置,可以如一般眼鏡一直放在眼睛前。如果這副眼鏡具有視穿 (see through) 的功能(3),那麼其影響力將相當龐大,因為它將改變這個世界每個人的生活習慣、改變取得資訊的自由度、改變人們對於顯示器的需求、也改變穿戴視裝置的設計方向。

當這樣的近眼顯示成真的同時,使用者將不再滿足於簡單的擴增實境,更進一步地需要達到混合實境 (mixed reality, MR) 的要求(4)。在電影金牌特務(5) 中出現了一個畫面,劇中共有八位人士在會議桌前開會,但其中只有二位是真人在會場,另外六個人都是立體影像植入來開會。該六人雖然顯示的是 3D 的影像,但是其所作的位置卻是會議桌旁的椅子,非常擬真,包括主席的二個真人,都必須透過眼鏡才能看到這個畫面,除了其中六人是擬真影像外,該會議猶如八個人在現場開會般真實。這個畫面正是混和實境的最佳寫照。混合實境與虛擬實境及擴增實境的不同在於其對空間資訊精準的要求。混合實境需要有精確的3D空間資訊與 3D 物件實體模型,在實際的應用上,不同使用者會針對某一位置的同一個物件進行觀看,使用者因與物件的相對位置不同而視角不同,若使用者所在地沒有精確的 3D 空間資訊,那麼即使有精準的 3D 物件,也無法被置入使用者的視野之中。也就是說最終極的顯示器辨識具有混合實境功能的 HUD,因此混合實境的出現意味著未來人類的生活將面臨真真假假的視覺,這時除了 3D 物件模型、電腦精確定位的技術外, 3D 的空間資訊也是一個相當重要的技術。混合實境的 3D 空間資訊可分為室外與室內空間資訊,其中室外牽涉的技術與應用較為複雜,也會與安全有較大的關聯,因此在必要時,混合實境的功能會被限縮為擴增實境,如此室外的資訊需求就可以大幅減少。但是在室內,由於其幅員較窄小,人們在室內的安全性高, 3D 空間資訊對於下世代 IT 產業的室內科技應用就很重要,因此本文除了要探討光學 3D 掃描技術外,也將介紹中央大學 CIVIS 團隊過去在室內 3D 空間資訊的技術發展與應用。

二、室內 3D 掃描技術

室內的 3D 技術依應用可區分為 3D 資料庫與 3D 建模,其中前者是去建立三度空間的資料庫;後者則是真正地建立室內的三度空間模型,難度較高。上述二者的區別主要在應用,其技術也就不同。若應用在室內的 3D 定位為例,上述二者的技術皆可應用,但是前者是以取得被定位的人所在的 2D/3D 資訊來定位,如同 GPS,後者則是以三度空間模型來套用在被定位的人身上,可使其身歷其境,其應用的技術層次較高。

以前者來看,可以使用的技術相當多,包括手機三角定位、地磁資訊定位、LED照明定位、照相式局部圖形定位等等。上述的方法,其精確度與方法相關,而其中也分為主動或被動式的方法,若是主動式的方法,被定位者須發出訊號去探測,若是被動式者則無須具備主動發射元件,只是以其裝備接收定位訊號即可。

若以後者來看,就不只是定位的應用,其應用範圍極其廣泛,如圖 1 所示(6)。若要獲得精確的 3D 室內資訊,精確的空間掃描無可避免。目前在主動式的室內 3D 空間掃描技術主要是以光學與聲波來執行,其精確度與特性如圖 2 所示。本文主要探討的是光學方法,以下將分析其優劣點。

圖 1. 室內 3D 空間資訊與建模的應用。

圖 2. 室內 3D 空間掃描技術的特性與優缺點(6)

光學的掃描方式相當多元化,其中雷射雷達 (lidar)(7) 即是一例,但是因為在室內,需要室內 3D 空間資訊者,絕大多數是以行走的人們或是速度在每秒十公里以下的載具 (vehicle),因此其掃描的距離以一公尺到十公尺為主,至多不過三十公尺。這樣的 3D 掃描方式除作用在中短距離外,其反應時間也無需像自駕車般需要進行極為快速的計算。因此,中短掃描距離、中等計算速度與低價便成為此類應用的一個基準點。以下將探討幾種主要的中距離 3D 掃描技術。

1. 結構光技術(8)

結構光 (structured light) 是近來頗受重視的技術,其主要配置包括一個結構紋路的投影系統與一個取像裝置。著名的系統包括 Microsoft Kinect I 的 3D 姿態感測器與 Apple 的iPhone X 的 Face ID 感測器。結構光之所以可以用來感測 3D 形貌,其原理在於結構光圖案的設計。良好的結構光設計能夠讓投射出的結構光圖形能對抗被投影物體的雜訊干擾,使取像裝置取得清楚的影像。當投射的影像可以被清楚地辨識時,系統便可了解各個子圖形在影像的位置。若被投影的物體不是一個正向的平面時,各個子圖形會因所在的位置的立體形貌而產生位置的偏移。雖然此偏移在成像中是 2D 的偏移,但是其偏移量卻是因為物體形貌所產生,因此, 2D 的偏移便能對應出 3D 的形貌。結構光除了在圖形的設計要能對抗雜訊與具有易辨識性外,其投射的方式也是一大工藝。要投影一組結構光,大致上有二種方法,其一是以傳統的幾何光學 (geometrical optics)(9) 投影方式,利用正透鏡的投影,將微影片所刻錄的微結構圖形,以實像的方式投射到被投影的物體。然而,此種方法需要精確的成像透鏡,甚至為求大角度的影像夠清晰且位置要準確,光學元件無法以單一的透鏡來達到高品質的成像,因此鏡頭的設計會造成成本的增加,同時體積也會變大。若是要組裝一個簡易的結構光投影系統,迷你投影機就是一個很好的選擇。但是在一個市售產品上,因為體積的限制,幾乎沒有產品是以幾何光學的投影方式去投射結構光,而是以繞射光學 (diffraction optics)(10) 的技術為之。繞射光學的基礎是光波的干涉,當一個微影片記錄著在目標物上所預設的結構光的逆傅利葉轉換 (inverse Fourier transform) 的圖形或結構時,光線在經過該結構即會因為該微結構而產生散射,散射光因重疊而產生干涉,最後形成一個特殊的繞射圖形。我們從傅式光學 (Fourier optics)(10) 的學理中即可了解,為使結構光能夠涵蓋較大的範圍,微影片所記錄的圖形的線條寬度要能在一微米以內。如此,當光線經過微影片時,其繞射角度變大,而且在極短距離即可達到遠場 (far field) 的範圍(10),亦即在很短的距離即可到「成像」的效果。

因為現在大多數的結構光產品都在意成本與投影系統的大小,以產生繞射圖形的元件就相當重要,這種元件稱為繞射光學元件 (diffractive optical element, DOE)(11)。良好的 DOE要能記錄投射出去之結構光之逆傅立葉轉換之強度與相位,因此可以精確地將入射光轉換成結構光而投射出去,同時直接穿透的零階光線會幾乎消失。零階光線代表的是漏光,也代表 DOE 的製作不夠完美,因此零階光線越強,就代表 DOE 的繞射光越弱。為了使 DOE 的製作能夠順利而簡單,衍生出多種的設計方法,這些方法的共同目的就是要以快速又簡單的流程來找到一個在微影片上的空間紋路 (或再加上相位) 分布,使繞射出去的結構光能達到設計的解析度、均勻度與效率,同時盡量降低零階繞射光。

2. 光束飛行時間計算法 (time of flight, ToF)(12)

ToF 顧名思義即是一種以直接測量光速往返於被測物體時間來計算距離的方法。在其系統上,若是以 ToF 相機來說,主要由紅外線光源、感光晶片、鏡頭、驅動控制電路及訊號處理電路等所組成,可謂真正地利用到光電產業的發展利基,目前市面上較為人所知的系統如 Microsoft Kinect II。目前的 ToF 相機主要是以矩陣式的感光晶片為主,原理大多可分為脈衝式與連續波式來達到物體距離測量的目的,由於體積小,已成為電子裝置在擷取 3D 空間訊號的一大利器。

脈衝式的方法相當直接可懂,如圖 3,是由光源發射一個連續的方波 (弦波亦可) 調制的紅外線光束,其調製的時間為 to,經由物體反射後,在感光晶片上亦形成具有相同時間特徵的光波,因而形成電荷的累積。若感光晶片的積分時間與光源的調制方波能完全同步,並產生一個光源調製相同的正相與反相的收集時序。因為被調製光因飛行距離的關係而產生時間延誤,而致使一部分反射光在方波正相調制的時間內被收集到而累積電荷量 Q1,一部分光在隨後反相調製時被收集而累積電荷量 Q2。此二個電荷之比例 Q2/(Q1 + Q2),即是飛行的延遲比例,將之乘上方波調制時間內光波所飛行距離的一半 (Cto/2),即可反射光波物體的距離。連續式的量測法略為複雜,相對於脈衝式的二個反向的積分時段,連續式的方法是將感測元件分為四種積分時段,每個時段各差四分之一個區間,若其分別累積的電荷各為 Q1、Q2、Q3 與 Q4,則反射回來的調制光波相位延遲 ϕ 與距離可以表示為(13)

雖然連續式的量測看起來較複雜,但是從式 (1) 可以看出來,感光元件的累積電荷之偏移誤差與系統的訊號失真誤差可以被消除,可以提升偵測距離的準確度。

圖 3. 脈衝式 ToF 的發射與電荷積分原理示意圖。

3. 立體影像量測法(14)

立體影像量測法是以二個在橫向分離的攝像頭因不同視角所造成的視差來計算被測物體的距離。這種方法相對而言較具歷史,是以三角量測來計算距離。這樣的方法的一個特色是攝像頭的分開距離直接會影響到量測的精確度,而該分開的距離越大,精確度越高。其直接影響就是整個系統不易小型化。另一個問題是,二個攝像頭的影像要具有一定的相似性,如此在二個影像上擷取同一個待測物體的特徵點時才不易失敗,因此在影像處理上的難度較高,亦即從二張影像所取得的特徵點的計算模型會左右整個系統的表現。

上述的三種方法已成為目前 3D 量測的主要方法,其特性比較如表 1 與表 2 所示。中央大學 CIVIS 團隊的 3D 室內量測的技術發展相當全面,除了在 ToF 的光源與電路上有相當的研發能量外,在 DOE 與結構光的設計也具有卓越的能力。在結構光方面,由於設計的圖形要能具有易識別與抗雜訊的能力。為此,中央大學的 CIVIS 團隊提出了一個新式的結構光設計,結構光是由子影像塊 (簡稱 SIB) 所組成的二維陣列。該 SIB 又是由九個塊狀圖形所組成,其中除了中間的方塊 (圖形固定) 外,每個塊狀圖形皆具有特殊的編碼,因此其編碼共有 134,217,728 的變化度。這樣的編碼具有強化的抗雜訊功能,同時在影像處理上也具有優勢(15)。該團隊的結構光在性能表現上與其他主要的系統表現之比較如表 3。

表 1. 三種光學 3D 掃描方式的特性比較 (I)。

表 2. 三種光學 3D 掃描方式的特性比較 (II)。

表 3. 幾種市售產品與中央大學 CIVIS 掃描技術的性能比較。

三、室內 3D 掃描與應用

要能擷取室內 3D 的圖資,大概要分為二類主要資訊,其一是空間的結構,其二是室內的物件,即非屬於結構體的物件,如櫃子或是桌椅等。要獲得上述的資料,首先還是需要以前述的光學掃描的方式來進行深度或距離的擷取。這種取得的資訊其實是一種由離散點所組成的點雲 (point cloud) 資料,如圖 4,這些點雲資料除了解析度的限制外,點雲的資訊隱含了相當多的雜訊,這些雜訊包括光學掃描本身無法對抗的雜訊干擾外,每次掃描影像的拼接也是一大問題。中央大學 CIVIS 團隊使用的掃描系統是一台自走式載具,其中我們使用 Microsoft Kinect II 為光學掃描系統,配合電腦的計算與 SLAM (simultaneous localization and mapping) 系統(16) 的整合,以邊走邊掃描的自走形式在室內進行 3D 掃描。SLAM 的發展始自 1980 年代,經過三十多年的發展,配合不同的光學掃描形式,已推出相當多個具特色的計算模型。CIVIS 團隊所組裝的自走式 3D 掃描載具 (如圖 5) 進行全自動的室內掃描。在處理掃描的資料時,最重要的莫過於點雲的品質與影像的拼接。其中在影像的拼接方面,由於每次掃描的視角有限,需要經過多次的掃描才能獲得全場域的資訊,因此每次掃描的點雲需要精準的拼接。點雲的拼接有其困難,特別是一台自走式的機台,當機台在走動時因抖動或其他的因素,容易使 3D 的點雲在拼接過程有較大的誤差。另外,當被掃描的物件是較單調的牆壁時,特徵點的取得也會是一個困難點,若無法順利取得特徵點,拼接的工作很容易出現失誤,如圖 6 所示。為此,中大 CIVIS 團隊另外開發了一種具有空間編碼的光學技術,可以將單調的牆壁空間進行圖像式編碼,配合自走載具,以接近全自動的方式進行空間編碼與 3D 掃描。當空間編碼後,原本重建空間的扭曲誤差便能被有效地消除。

圖 4. 具有 3D 位置資訊的點雲。

圖 5. 設有 SLAM 的 3D 掃描自走載具。

圖 6. (左) 室內結構之 2D 原始圖,(右) 因拼接瑕疵造成的扭曲。

當 SLAM 系統在獲得良好的輔助下,點雲的資料便能具有優質的 3D 空間資訊,這些資訊包括空間的結構如牆壁、家具類如桌椅或是櫥櫃等、與其他的可移動之物件。上述這些資訊其實都還是點雲資料,這些點雲資料是離散的點,若是沒有被解析與識別,那就還是一組空間座標的組合。這些組合在不同的應用層次上,其功能有所不同。當我們要利用這些資訊,使機器能進行定位、甚至導航,精確的點雲資料是足夠而有用的。因此我們可以藉由這些點雲資料讓一部自走車能在一個 3D 的室內空間精確地定位,亦可據此進行室內的導航。圖 7 顯示為中大 CIVIS 團隊所建立的自走載具,這些自走載具可以在一個已建立的室內 3D空間點雲資料庫的環境下,不斷地以主動式的光電掃描系統去比對已建制的點雲資料,從而瞭解自己所在的位置,也能夠繼續朝被設定的目標前進。因此,一個智能化、帶有眼睛、大腦與記憶的自走機器便能夠在一個室內空間中行走自如。

圖 7. 中大 CIVIS 所發展的自走載具可集體行動。

精確的點雲雖然是離散的資料,但是可以提供給智能化的電子系統去進行比對、定位與導航。若是要將這些點雲用於人眼可視的場景中,那麼點雲的資料就還是一個粗造的資訊。這個差別主要是,人眼所要看的是身歷其境的場景,因此虛擬的場景需要做到擬真化,如此一個使用者才能在這個虛擬的實境中如真似幻。為此點雲的資料需要更進一步的處理,點雲的處理在此即是去建構線或面。其實空間資訊就是一堆的牆壁組合,每面牆壁都是一個大平面,其他則有大大小小的平面或是曲面,建構出我們每日在室內看到的場景。當點雲的資料能夠被轉化為各種平面或曲面,室內的空間資訊會變得更為簡潔而精確,就像是CAD所畫的機構圖一樣,每面牆壁皆被精確地定義,牆壁與牆壁的距離也是精確的。要達到這樣的境界,其實難度相當高,除了點雲的品質要好之外,室內空間中的三大資訊種類也要能夠被區分出來才行,牆壁、家具與其他可移動物件都必須被明確地區分。區分之後的重點就是辨識,辨識是另一種技術,並不見得需要以點雲才能進行辨識,其實 2D 的影像即可協助辨識的進行。這時如能使用人工智慧 (AI) 去進行分割與辨識,結合 2D 照片與 3D 的點雲資訊,是有機會將一個室內 3D 的空間資訊拆解、區分、辨識,最後達到建模的水準。當建模完成時,一個室內 3D 空間掃描的技術便能夠將空間資訊變成包括空間幾何資訊、家具的幾何資訊甚至是模型、可移動物體的幾何資訊或是其模型。當模型能被建構出來時,利用 AI 的資料庫,這些物件的廠牌與其產品的細節甚至能夠被掌握,這將是室內 3D 空間掃描技術的極致應用,可以用於室內裝潢、室內防盜、室內安全、遊戲、混合實境等未來十數年間所有 IT 廠商所要提供的服務。圖 8 展示的就是一項將點雲資料進行空間建模的技術成果,其技術的發展的目標正如圖 9 所示,從 3D 掃描、點雲技術、CAD 建模技術到擬真模擬技術的科技發展路程(17)。中央大學 CIVIS 團隊已在此技術歷程中逐漸建立起自主技術,並努力朝向全自動建模技術發展。

圖 8. 中大 CIVIS 團隊從點雲到模型的建立之流程。

圖 9. 中大 CIVIS 團隊技術發展的目標,從 3D 掃描、點雲、CAD 到擬真技術,並從一個點擴及全球。

四、結論

本文探討了顯示器在時代發展中的一個趨勢,將會結合到攜帶式裝置,而最後以近眼顯示配備有混合實境的功能來主導下一世代的 IT 顯示產業。其中的室內 3D 空間資訊的取得便極為重要。即使室內 3D 空間資訊不用於混合實境,也會有相當多的應用,因此室內 3D 空間資訊將在下世代 IT 科技上有關鍵地位。文中我們介紹了三種最重要的光學掃描技術,包括結構光、 ToF 與立體影像測距法,同時也比較其優缺點,這些優缺點將使得上述方法在未來的實際應用上扮演種要角色。最後,本文介紹了具有 3D 掃描的自動載具,用以執行空間的掃描,同時分析了掃描點雲在處理上的技術問題。本文以中大 CIVIS 的技術發展經驗為例,提出一些值得發展的技術方向,同時也展示 CIVIS 目前的一些技術成效,希望本文能提供給有志於相關技術的同好或先進一個參考。

誌謝

本文部分內容取自 CIVIS 的執行成果。在此感謝 CIVIS 全體參與人員,特別是幾位關鍵的技術開發者,包括劉治中博士、陳建隆教授、黃志煒教授、余業緯教授、王家慶教授、楊宗勳教授、吳立青教授與張志隆先生,最後要感謝科技部價創計畫的補助與中央大學研發處及光電中心的支持與協助。