用 OpenCV 檢測(cè)圖像中各物體大小

本文作者： AI研習(xí)社-譯站

2018-06-25 15:06

導(dǎo)語(yǔ)：我們需要定義一個(gè)比值，用于測(cè)量每個(gè)給定指標(biāo)的像素個(gè)數(shù)，我將其稱為「像素/度量」比率。

雷鋒網(wǎng) AI 研習(xí)社按：本文為雷鋒網(wǎng)字幕組編譯的技術(shù)博客，原標(biāo)題為 Measuring size of objects in an image with OpenCV，作者為 Adrian Rosebrock 。
翻譯 | 塵央整理 | 孔令雙
原文鏈接：
https://www.pyimagesearch.com/2016/03/28/measuring-size-of-objects-in-an-image-with-opencv/

在圖像中測(cè)量物體的大小與計(jì)算從相機(jī)到物體之間的距離是相似的，在這兩種情況下，我們需要定義一個(gè)比值，它測(cè)量每個(gè)給定指標(biāo)的像素個(gè)數(shù)。

我將其稱為「像素/度量」比率，在下一節(jié)中我將更正式地定義它。

「像素/度量」比率

為了確定圖像中物體的大小，我們首先需要使用一個(gè) 參考物體進(jìn)行「校準(zhǔn)」(不要與內(nèi)部/外部校準(zhǔn)混淆)。我們的參考物體應(yīng)該有兩個(gè)重要的屬性:

屬性 1：我們應(yīng)該在一個(gè)可測(cè)量的單位(如毫米、英寸等)內(nèi)，知道這個(gè)物體的尺寸(根據(jù)寬度或高度)。
屬性 2：我們應(yīng)該能夠在圖像中輕松地找到這個(gè)參考物體，要么基于物體的位置(如參考物體總是被放置在圖像的左上角)或通過(guò)表象(像一個(gè)獨(dú)特的顏色或形狀，獨(dú)特且不同于其他物體的物體)。在任何一種情況下，我們的參考都應(yīng)該以某種方式具有惟一的可識(shí)別性。

在本例中，我們將使用一個(gè)兩角五分的美元硬幣作為參考物體，并在所有示例中確保它始終是圖像中最左的物體：

用 OpenCV 檢測(cè)圖像中各物體大小

圖1：我們將使用一個(gè)兩角五分的美元硬幣作為參照物，并確保它始終作為圖像中最左邊的物體放置，這樣我們就可以很容易地根據(jù)輪廓的位置對(duì)其進(jìn)行排序。

通過(guò)保證1 / 4是最左的物體，我們可以從左到右對(duì)物體輪廓進(jìn)行排序，獲取1 / 4(這將始終是排序列表中的第一個(gè)輪廓)，并使用它來(lái)定義我們的 pixels_per_metric ，我們將其定義為:

pixels_per_metric = object_width / know_width

一個(gè)兩角五分的美元硬幣是 0.955 英寸?，F(xiàn)在假設(shè)我們的 object_width (以像素為單位)被計(jì)算為 150 像素寬(基于它的相關(guān)邊框)。

因此，pixels_per_metric 為：

pixels_per_metric = 150px / 0.955in = 157px

因此，在我們的圖像中，每 0.955 英寸大約有 157 個(gè)像素。利用這個(gè)比率，我們可以計(jì)算圖像中物體的大小。

基于計(jì)算機(jī)視覺(jué)的物體尺寸檢測(cè)

既然我們知道「像素/度量」比率，就可以實(shí)現(xiàn)用于測(cè)量圖像中物體大小的 Python 驅(qū)動(dòng)程序腳本。

新建一個(gè)文件，將其命名為 object_size.py ，插入以下代碼：

# import the necessary packages
from scipy.spatial import distance as dist
from imutils import perspective
from imutils import contours
import numpy as np
import argparse
import imutils
import cv2

def midpoint(ptA, ptB):
return ((ptA[0] + ptB[0]) * 0.5, (ptA[1] + ptB[1]) * 0.5)

# construct the argument parse and parse the arguments
ap = argparse.ArgumentParser()
ap.add_argument("-i", "--image", required=True,
help="path to the input image")
ap.add_argument("-w", "--width", type=float, required=True,
help="width of the left-most object in the image (in inches)")
args = vars(ap.parse_args())

第 2 行到第 8 行導(dǎo)入我們需要的 Python 包。在該例中，我們將充分利用 imutils package ，所以如果你沒(méi)有安裝這個(gè)包，確保在繼續(xù)下一步之前安裝這個(gè)包。

$ pip install imutils

否則，如果你確實(shí)安裝了 imutils ，請(qǐng)確保你有最新的版本，本文的版本為 0.3.6:

pip install --upgrade imutils

第 10 行和第 11 行定義一個(gè)稱為中點(diǎn)的輔助方法，顧名思義，用于計(jì)算(x, y)-坐標(biāo)的兩組之間的中點(diǎn)。

第 14 行到第 19 解析我們的命令行參數(shù)。我們需要兩個(gè)參數(shù)：一個(gè)是圖像，該圖像為包含我們想測(cè)量物體的輸入圖像的路徑，第二個(gè)是參照物的寬度（以英寸為單位），假定參照物在我們圖像中的最左端。

現(xiàn)在，我們能加載我們的圖像并對(duì)其進(jìn)行預(yù)處理：

# load the image, convert it to grayscale, and blur it slightly
image = cv2.imread(args["image"])
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
gray = cv2.GaussianBlur(gray, (7, 7), 0)

# perform edge detection, then perform a dilation + erosion to
# close gaps in between object edges
edged = cv2.Canny(gray, 50, 100)
edged = cv2.dilate(edged, None, iterations=1)
edged = cv2.erode(edged, None, iterations=1)

# find contours in the edge map
cnts = cv2.findContours(edged.copy(), cv2.RETR_EXTERNAL,
cv2.CHAIN_APPROX_SIMPLE)
cnts = cnts[0] if imutils.is_cv2() else cnts[1]

# sort the contours from left-to-right and initialize the
# 'pixels per metric' calibration variable
(cnts, _) = contours.sort_contours(cnts)
pixelsPerMetric = None

第 2 行到第 4 行：從磁盤中加載我們的圖像，將該圖像灰度化，并利用高斯過(guò)濾器將其平滑化。第 8 行到第 10 行：對(duì)其進(jìn)行邊緣檢測(cè)，并通過(guò)膨脹和腐蝕使邊緣過(guò)渡得更加平滑。

第 13 行到第 15 行：在邊緣檢測(cè)后的圖中尋找與物體一致的邊緣（例如輪廓）。

第 19 行：將這些邊緣從左到右排序（允許我們提取參照物）。第 20 行：初始化 pixelsPerMetric 值。

下一步就是檢測(cè)每個(gè)輪廓：

# loop over the contours individually
for c in cnts:
# if the contour is not sufficiently large, ignore it
if cv2.contourArea(c) < 100:
continue

# compute the rotated bounding box of the contour
orig = image.copy()
box = cv2.minAreaRect(c)
box = cv2.cv.BoxPoints(box) if imutils.is_cv2() else cv2.boxPoints(box)
box = np.array(box, dtype="int")

# order the points in the contour such that they appear
# in top-left, top-right, bottom-right, and bottom-left
# order, then draw the outline of the rotated bounding
# box
box = perspective.order_points(box)
cv2.drawContours(orig, [box.astype("int")], -1, (0, 255, 0), 2)

# loop over the original points and draw them
for (x, y) in box:
cv2.circle(orig, (int(x), int(y)), 5, (0, 0, 255), -1)

在第 2 行，我們開始對(duì)每個(gè)輪廓進(jìn)行循環(huán)。如果輪廓不夠大，我們丟棄該區(qū)域，假設(shè)它是邊緣檢測(cè)過(guò)程中遺留下來(lái)的噪聲(第 4 行和第 5 行)。

倘若輪廓區(qū)域足夠大，我們?cè)诘?9-11 行計(jì)算圖像的旋轉(zhuǎn)邊界框，特別注意使用 OpenCV 2.4 的 cv2.cv.BoxPoints 函數(shù)和 OpenCV 3 的 cv2.boxPoints 方法。

在第 17 行，我們?cè)谧笊戏健⒂疑辖?、右下角和左下方的順序排列我們旋轉(zhuǎn)的邊界框坐標(biāo)，如上周的博客文章所說(shuō)的那樣。

最后，第 18-21 行以綠色繪制物體的輪廓，然后將邊界框矩形的頂點(diǎn)繪制成紅色的小圓圈。

既然我們已經(jīng)將邊界矩形框排好序了，就能計(jì)算出一系列的中點(diǎn)：

# unpack the ordered bounding box, then compute the midpoint
# between the top-left and top-right coordinates, followed by
# the midpoint between bottom-left and bottom-right coordinates
(tl, tr, br, bl) = box
(tltrX, tltrY) = midpoint(tl, tr)
(blbrX, blbrY) = midpoint(bl, br)

# compute the midpoint between the top-left and top-right points,
# followed by the midpoint between the top-righ and bottom-right
(tlblX, tlblY) = midpoint(tl, bl)
(trbrX, trbrY) = midpoint(tr, br)

# draw the midpoints on the image
cv2.circle(orig, (int(tltrX), int(tltrY)), 5, (255, 0, 0), -1)
cv2.circle(orig, (int(blbrX), int(blbrY)), 5, (255, 0, 0), -1)
cv2.circle(orig, (int(tlblX), int(tlblY)), 5, (255, 0, 0), -1)
cv2.circle(orig, (int(trbrX), int(trbrY)), 5, (255, 0, 0), -1)

# draw lines between the midpoints
cv2.line(orig, (int(tltrX), int(tltrY)), (int(blbrX), int(blbrY)),
(255, 0, 255), 2)
cv2.line(orig, (int(tlblX), int(tlblY)), (int(trbrX), int(trbrY)),
(255, 0, 255), 2)

第 4-6 行打開我們的有序邊界框，計(jì)算左上角和右上角之間的中點(diǎn)，然后計(jì)算右下角之間的中點(diǎn)。

我們還將分別計(jì)算左上+左下+右上+右下+右下之間的中點(diǎn)(第 10 行和第 11 行)。

第 14-17 行在圖像上繪制藍(lán)色中間點(diǎn)，然后將中間點(diǎn)與紫色線連接。

接下來(lái)，我們需要通過(guò)調(diào)查參照物來(lái)初始化 pixelsPerMetric 變量:

# compute the Euclidean distance between the midpoints
dA = dist.euclidean((tltrX, tltrY), (blbrX, blbrY))
dB = dist.euclidean((tlblX, tlblY), (trbrX, trbrY))

# if the pixels per metric has not been initialized, then
# compute it as the ratio of pixels to supplied metric
# (in this case, inches)
if pixelsPerMetric is None:
pixelsPerMetric = dB / args["width"]

首先，我們計(jì)算出我們的中點(diǎn)集合之間的歐氏距離(第 2 和 3 行)。dA 變量將包含高度距離(以像素為單位)，而 dB 將保留寬度距離。

然后在第 8 行進(jìn)行檢查，看看我們的 pixelsPerMetric 變量是否被初始化了，如果沒(méi)有初始化，我們將 dB 除以我們提供的寬度，從而得到(近似的)像素/英寸。

既然我們的 pixelsPerMetric 變量已經(jīng)被定義，我們就可以測(cè)量圖像中物體的大小:

# compute the size of the object
dimA = dA / pixelsPerMetric
dimB = dB / pixelsPerMetric

# draw the object sizes on the image
cv2.putText(orig, "{:.1f}in".format(dimA),
(int(tltrX - 15), int(tltrY - 10)), cv2.FONT_HERSHEY_SIMPLEX,
0.65, (255, 255, 255), 2)
cv2.putText(orig, "{:.1f}in".format(dimB),
(int(trbrX + 10), int(trbrY)), cv2.FONT_HERSHEY_SIMPLEX,
0.65, (255, 255, 255), 2)

# show the output image
cv2.imshow("Image", orig)
cv2.waitKey(0)

第 2 行和 3 行通過(guò)將各自的歐幾里得距離除以像素值來(lái)計(jì)算物體的尺寸(以英寸為單位)。

第 6-11 行繪制圖像上物體的尺寸，第 14 行和第 15 行顯示輸出結(jié)果。

檢測(cè)物體大小的結(jié)果

為了測(cè)試我們 object_size.py 腳本，只需用以下命令：

$ python object_size.py --image images/example_01.png --width 0.955

你的輸出結(jié)果應(yīng)該如下所示：

用 OpenCV 檢測(cè)圖像中各物體大小

圖 2：使用 OpenCV 、Python 、計(jì)算機(jī)視覺(jué)和圖像處理技術(shù)測(cè)量圖像中物體的大小。

上圖所示，我們已經(jīng)成功地計(jì)算出圖像中每個(gè)物體的大小——我們的名片被正確地顯示為 3.5 英寸 x 2英寸。同樣，我們的鎳被準(zhǔn)確地描述為 0.8 英寸 x 0.8 英寸。

盡管如此，并不是所有的結(jié)果都很精確。

Gameboy 墨盒的尺寸略有不同(盡管大小相同)。兩個(gè)季度的高度也下降了 0.1 英寸。

所以，這是為什么呢？怎么物體的檢測(cè)不是百分百的準(zhǔn)確呢？原因是雙重的：

首先，我趕緊用我的 iPhone 拍了這張照片。這個(gè)角度當(dāng)然不是完全 90 度地「向下看」物體(就像鳥瞰一樣)。如果不是完全 90 度視圖(或者盡可能接近它)，物體的尺寸可能會(huì)顯得扭曲。
其次，我沒(méi)有使用相機(jī)的內(nèi)部和外部參數(shù)來(lái)校準(zhǔn)我的 iPhone 。如果不確定這些參數(shù)，照片很容易出現(xiàn)徑向和切向鏡頭畸變。為了找到這些參數(shù)而執(zhí)行額外的校準(zhǔn)步驟，可以「不扭曲」我們的圖像，并導(dǎo)致更好的對(duì)象大小近似(但我將把失真校正的討論作為未來(lái)博客文章的主題)。

與此同時(shí)，在拍攝物體時(shí)，盡量接近 90 度的視角 —— 這將有助于提高你對(duì)物體大小的估計(jì)的準(zhǔn)確性。

讓我們看第二個(gè)測(cè)量物體尺寸的例子，這次測(cè)量藥丸的尺寸: