教程：使用iPhone相機和openCV來完成3D重建（第二部分）

本文作者： AI研習社-譯站

2019-01-21 11:34

導(dǎo)語：歡迎來到關(guān)于立體重建三部曲的第2部。

本文為 AI 研習社編譯的技術(shù)博客，原標題：
Tutorial: Stereo 3D reconstruction with openCV using an iPhone camera. Part II.
作者 | Omar Padierna
翻譯 | Disillusion、yaya牙牙、AIfresher
校對 | Disillusion 審核 | 鄧普斯?杰弗整理 | 菠蘿妹
原文鏈接：
https://medium.com/@omar.ps16/stereo-3d-reconstruction-with-opencv-using-an-iphone-camera-part-ii-77754b58bfe0
查看第一部分，請點擊：第一部分

教程：使用iPhone相機和openCV來完成3D重建（第二部分）

歡迎來到關(guān)于立體重建三部曲的第2部。在本節(jié)中，我們將討論如何校準您的相機。

就像之前所提到的，照相機的鏡頭使你拍的照片失真。這在三維重建中是很麻煩的，所以我們需要糾正這個問題。在校正之前，我們需要知道我們所使用的相機的內(nèi)部參數(shù)。

有時這些參數(shù)是未知的，但幸運的是，OpenCV有一個專門針對這個的算法，我們可以應(yīng)用該算法開始我們的3D重建。

在整個設(shè)計過程中，我們會用到Python 3.7.1, OpenCV 3.4.4. 還有一些python第三方庫： Numpy， Glob，tqdm和Pillow。因此，首先確保這些工具都已經(jīng)安裝好。

OpenCV中攝像機的標定過程是讓計算機用棋盤圖形掃描一幅圖像，用不同的圖像多次識別內(nèi)部的角。

教程：使用iPhone相機和openCV來完成3D重建（第二部分）

OpenCV提供的模型校準示例

大多數(shù)關(guān)于相機校準的教程都是關(guān)于網(wǎng)絡(luò)攝像機或其他攝像機的，因此它們是為分析每一個單獨的幀(或多個幀)而定制的。

在我們的情況下，我們想校準的是手機攝像頭，所以我們不能這樣做。為了讓計算機正確地校準手機攝像頭，它需要幾個相同模式的例子。

在處理視頻流時，我們可以分析用戶在攝像機前移動時的每一幀，直到移動的模型被多次檢測到(這通常是一個任意的測量，但一般是至少有10次檢測)。

因為我們不處理視頻流，所以我們必須為相同的模型拍多張照片。

步驟1. 得到一個棋盤圖案.

前往這個鏈接，把這個棋盤圖案打印在一張紙上。為求完美結(jié)果，確保每個正方形都是30毫米長(盡管這不是特別重要)。

步驟2. 把棋盤圖案掛在白色的墻上.

當我運行這個算法時，我注意到背景中的東西越多，計算相機矩陣的時間就越長。所以我用了一面白色的墻，把棋盤圖案貼在上面。確保它是完全平坦的。

教程：使用iPhone相機和openCV來完成3D重建（第二部分）

根據(jù)棋盤圖案重新裝飾房子

步驟3. 拍幾張圖案的照片.

這一步很重要，確保你拍的照片有很好的光照，并且圖案是從不同的角度拍攝的。還要確保圖案位于屏幕的不同部分。

如果你只拍攝居中的照片，可能會發(fā)生錯誤的校準。確保你的照片有很多變化。

教程：使用iPhone相機和openCV來完成3D重建（第二部分）

這是一個很好的關(guān)于如何拍攝圖案的例子。來自烏特卡什·西納。

在Utkarsh Sinah的博客(AI shack)中可以找到關(guān)于相機校準和如何捕捉圖案的豐富資源。如果你對C++校準相機的方法感興趣，你應(yīng)該去看看。

需要指出的是，并不是所有的圖片都適合檢測模式。而你事先很難知道哪些照片會起作用，因此拍盡可能多的照片是一個好主意。我拍了64張。

步驟4：讓我們開始代碼部分

一旦你拍了足夠多的照片，是時候?qū)懸恍┐a了（記住整個代碼都在這里）。第一步是選擇棋盤大小。雖然大小完全是任意的，但建議您選擇一個不對稱的大?。淳匦?，而不是正方形）。此處，我選擇了7X5。

import cv2
import numpy as np 
import glob
from tqdm import tqdm
import PIL.ExifTags
import PIL.Image

#============================================
# Camera calibration
#============================================

#Define size of chessboard target.

chessboard_size = (7,5)

第二步是定義一個網(wǎng)格來存儲所有點。存儲的點需要是有序的，如：（0,0,0），（1,0,0），（2,0,0）….，（6,5,0）

#Define arrays to save detected points
obj_points = [] #3D points in real world space 
img_points = [] #3D points in image plane

#Prepare grid and points to display

objp = np.zeros((np.prod(chessboard_size),3),dtype=np.float32)

objp[:,:2] = np.mgrid[0:chessboard_size[0], 
0:chessboard_size[1]].T.reshape(-1,2)

因為我們要處理幾個圖像，所以我們可以使用glob迭代地打開它們。此外，由于OpenCv中的角點檢測算法需要一些時間來處理，因此我們可以用tqdm包裹我們的循環(huán)，以了解距離處理上一個圖像已經(jīng)有多長時間了，還剩下多少圖像沒有處理。

#read images

calibration_paths = glob.glob('./calibration_images/*')

#Iterate over images to find intrinsic matrix
for image_path in tqdm(calibration_paths):

#Load image
 image = cv2.imread(image_path)
 gray_image = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
 print("Image loaded, Analizying...")
 #find chessboard corners
 ret,corners = cv2.findChessboardCorners(gray_image, 
chessboard_size, None)
 
if ret == True:
  print("Chessboard detected!")
  print(image_path)
  #define criteria for subpixel accuracy
  criteria = (cv2.TERM_CRITERIA_EPS + cv2.TERM_CRITERIA_MAX_ITER, 
30, 0.001)
  #refine corner location (to subpixel accuracy) based on criteria.
  cv2.cornerSubPix(gray_image, corners, (5,5), (-1,-1), criteria)
  obj_points.append(objp)
  img_points.append(corners)

在這個循環(huán)里，所有的魔法都在發(fā)生。加載圖像后，我們必須將先其轉(zhuǎn)換為灰度圖，然后使用findchessboardcorners算法。

此算法將返回檢測到的角點和一個名為ret的標志而且如果算法能夠檢測到模式，則返回true。

為了提高標定算法的精度，將角點位置細化到亞像素精度。在這種情況下，我們必須定義定位所需的標準。

我們采用了如果的標準定義：標準=（類型、迭代次數(shù)、精度）。在這個例子中，我們告訴算法我們關(guān)心迭代次數(shù)和精度（cv2.term_criteria_eps+cv2.term_criteria_max_iter），我們選擇了30次迭代，精度為0.001。

cv2.cornerSubPix是一種專注于重新定位點的算法。它接收圖像、角點、窗口大小、零區(qū)域和實際條件作為輸入。窗口大小是搜索區(qū)域。

關(guān)注這個算法不是很重要，我只是決定對參數(shù)進行評論，因為大多數(shù)教程只是對這個算法進行了潤色。如果想要了解有關(guān)其工作原理的更多信息，請查看此處。

分析完所有圖片后，我們運行cv2.calibratecamera算法。這是輸出相機參數(shù)的算法。該算法返回攝像機矩陣（k）畸變系數(shù)（dist）和旋轉(zhuǎn)和平移矢量（rvecs和tvecs）。

#Calibrate camera
ret, K, dist, rvecs, tvecs = cv2.calibrateCamera(obj_points, img_points,gray_image.shape[::-1], None, None)

#Save parameters into numpy file
np.save("./camera_params/ret", ret)
np.save("./camera_params/K", K)
np.save("./camera_params/dist", dist)
np.save("./camera_params/rvecs", rvecs)
np.save("./camera_params/tvecs", tvecs)

注意，我們將這些值保存到不同的numpy文件中。我之所以選擇這樣做是因為實用性。由于運行這個腳本需要一段時間，所以每次我們想要重建某個東西時都要執(zhí)行它是不方便的（也是不必要的）。

因此，只需將所有內(nèi)容保存到一個numpy文件中，并在以后加載就更容易了。為什么是numpy而不是xml或json？因為對于numpy文件，不需要解析數(shù)據(jù)。

要進行三維重建，我們真正關(guān)心的是3個參數(shù)：相機矩陣、畸變系數(shù)和焦距。焦距可以從相機矩陣中推導(dǎo)出來。

盡管如此，為了學習，我決定決定從EXIF數(shù)據(jù)中包含的圖像中獲取焦距信息。相機手機的焦距信息是保存在EXIF數(shù)據(jù)中的。

#Get exif data in order to get focal length. 
exif_img = PIL.Image.open(calibration_paths[0])

exif_data = {
 PIL.ExifTags.TAGS[k]:v
 for k, v in exif_img._getexif().items()
 if k in PIL.ExifTags.TAGS}
 
#Get focal length in tuple form
focal_length_exif = exif_data['FocalLength']

#Get focal length in decimal form
focal_length = focal_length_exif[0]/focal_length_exif[1]

np.save("./camera_params/FocalLength", focal_length)