目標

このチュートリアルでは、

Haarカスケードによる物体検出の仕組みを学ぶ。
Haar特徴ベースのカスケード分類器を用いた顔検出と目検出の基礎を見ていく
We will use the cv::CascadeClassifier class to detect objects in a video stream. Particularly, we will use the functions:
- cv::CascadeClassifier::load で .xml 分類器ファイルを読み込む。HaarまたはLBPのいずれの分類器でもよい
- cv::CascadeClassifier::detectMultiScale で検出を実行する。

理論

Haar特徴ベースのカスケード分類器を用いた物体検出は、Paul ViolaとMichael Jonesが2001年の論文 "Rapid Object Detection using a Boosted Cascade of Simple Features" で提案した効果的な物体検出手法である。これは機械学習ベースのアプローチであり、多数の正例画像と負例画像からカスケード関数を学習する。学習されたカスケード関数は、その後ほかの画像中の物体検出に用いられる。

ここでは顔検出を扱う。まずアルゴリズムは、分類器を学習するために多数の正例画像 (顔の画像) と負例画像 (顔のない画像) を必要とする。次に、そこから特徴を抽出する必要がある。このために、下の画像に示すHaar特徴が用いられる。これらはちょうど畳み込みカーネルのようなものである。各特徴は、黒い矩形の下のピクセルの総和から白い矩形の下のピクセルの総和を引くことで得られる単一の値である。

image

次に、各カーネルのあらゆるサイズと位置を用いて多数の特徴を計算する。(これにどれほどの計算量が必要か想像してみてほしい。24x24のウィンドウでさえ160000を超える特徴が生じる)。各特徴の計算では、白と黒の矩形の下のピクセルの総和を求める必要がある。これを解決するため、彼らは積分画像 (integral image) を導入した。画像がどれほど大きくても、ある1ピクセルの計算をわずか4ピクセルだけを使う演算に削減できる。素晴らしいと思わないか? これにより処理が非常に高速になる。

しかし、計算したこれらの特徴のうち、ほとんどは無関係である。たとえば、下の画像を見てほしい。上段は2つの良い特徴を示している。最初に選ばれた特徴は、目の領域が鼻や頬の領域よりもしばしば暗いという性質に着目しているようである。2番目に選ばれた特徴は、目が鼻筋よりも暗いという性質に依拠している。しかし、同じウィンドウを頬やそのほかの場所に適用しても無関係である。では、160000以上の特徴の中から最良の特徴をどのように選び出すのか? それは Adaboost によって実現される。

image

このために、すべての学習画像に対して一つ一つの特徴を適用する。各特徴について、顔を正例と負例に分類する最良のしきい値を求める。当然ながら、誤りや誤分類が生じる。誤り率が最小となる特徴を選択する。つまり、それらは顔画像と非顔画像を最も正確に分類する特徴である。(この処理はこれほど単純ではない。最初は各画像に等しい重みが与えられる。各分類の後、誤分類された画像の重みが増やされる。そして同じ処理が行われる。新しい誤り率が計算される。新しい重みも同様である。この処理は、必要な精度または誤り率が達成されるか、必要な数の特徴が見つかるまで続けられる)。

最終的な分類器は、これらの弱分類器の重み付き和である。弱いと呼ばれるのは、それ単独では画像を分類できないが、ほかと合わさると強い分類器を形成するからである。論文によれば、わずか200個の特徴でも95%の精度で検出が可能である。彼らの最終的な構成では約6000個の特徴を用いていた。(160000以上の特徴から6000個の特徴への削減を想像してみてほしい。これは大きな利得である)。

さて、これで画像を1枚用意する。各24x24のウィンドウを取り出す。それに6000個の特徴を適用する。顔かどうかを判定する。おや…これは少し非効率で時間がかかるのではないか? そのとおりである。著者らはそれに対する良い解決策を持っている。

画像において、その大部分は非顔領域である。したがって、あるウィンドウが顔領域でないかどうかを確認する単純な方法を用意するのが良い考えである。もし顔領域でなければ、一度で破棄し、二度と処理しない。代わりに顔があり得る領域に注力する。こうすることで、顔があり得る領域の確認により多くの時間を費やせる。

このために彼らは 分類器のカスケード (Cascade of Classifiers) という概念を導入した。6000個すべての特徴を1つのウィンドウに適用する代わりに、特徴を分類器の異なるステージにグループ化し、一つずつ適用する。(通常、最初の数ステージにはずっと少ない特徴しか含まれない)。あるウィンドウが最初のステージで不合格となれば、それを破棄する。残りの特徴は考慮しない。合格すれば、2番目のステージの特徴を適用し、処理を続ける。すべてのステージを通過したウィンドウが顔領域である。なんとうまい計画だろう!

著者らの検出器は6000以上の特徴を38ステージに分け、最初の5ステージにはそれぞれ1, 10, 25, 25, 50個の特徴を持っていた。(上の画像の2つの特徴は、実際にAdaboostによって最良の2つの特徴として得られたものである)。著者らによれば、平均してサブウィンドウあたり6000以上のうち10個の特徴が評価される。

以上が、Viola-Jonesの顔検出がどのように機能するかについての単純で直感的な説明である。詳細は論文を読むか、追加リソースのセクションにある参考文献を参照してほしい。

OpenCVでのHaarカスケード検出

OpenCVは学習手法 (カスケード分類器の学習を参照) または学習済みモデルを提供しており、これらは cv::CascadeClassifier::load メソッドで読み込める。学習済みモデルはOpenCVインストール先のdataフォルダにあるか、こちらで見つけられる。

以下のコード例では、学習済みのHaarカスケードモデルを用いて画像中の顔と目を検出する。まず cv::CascadeClassifier を作成し、必要なXMLファイルを cv::CascadeClassifier::load メソッドで読み込む。その後、cv::CascadeClassifier::detectMultiScale メソッドで検出を行い、これは検出された顔または目の境界矩形を返す。

このチュートリアルのコードを以下の行に示す。こちらからダウンロードすることもできる

#include "opencv2/objdetect.hpp"
#include "opencv2/highgui.hpp"
#include "opencv2/imgproc.hpp"
#include "opencv2/videoio.hpp"
#include <iostream>
 
using namespace std;
using namespace cv;
 
void detectAndDisplay( Mat frame );
 
CascadeClassifier face_cascade;
CascadeClassifier eyes_cascade;
 
int main( int argc, const char** argv )
{
 CommandLineParser parser(argc, argv,
 "{help h||}"
 "{face_cascade|data/haarcascades/haarcascade_frontalface_alt.xml|Path to face cascade.}"
 "{eyes_cascade|data/haarcascades/haarcascade_eye_tree_eyeglasses.xml|Path to eyes cascade.}"
 "{camera|0|Camera device number.}");
 
    parser.about( "\nThis program demonstrates using the cv::CascadeClassifier class to detect objects (Face + eyes) in a video stream.\n"
 "You can use Haar or LBP features.\n\n" );
    parser.printMessage();
 
 String face_cascade_name = samples::findFile( parser.get<String>("face_cascade") );
 String eyes_cascade_name = samples::findFile( parser.get<String>("eyes_cascade") );
 
 //-- 1. Load the cascades
 if( !face_cascade.load( face_cascade_name ) )
    {
        cout << "--(!)Error loading face cascade\n";
 return -1;
    };
 if( !eyes_cascade.load( eyes_cascade_name ) )
    {
        cout << "--(!)Error loading eyes cascade\n";
 return -1;
    };
 
 int camera_device = parser.get<int>("camera");
 VideoCapture capture;
 //-- 2. Read the video stream
    capture.open( camera_device );
 if ( ! capture.isOpened() )
    {
        cout << "--(!)Error opening video capture\n";
 return -1;
    }
 
 Mat frame;
 while ( capture.read(frame) )
    {
 if( frame.empty() )
        {
            cout << "--(!) No captured frame -- Break!\n";
 break;
        }
 
 //-- 3. Apply the classifier to the frame
        detectAndDisplay( frame );
 
 if( waitKey(10) == 27 )
        {
 break; // escape
        }
    }
 return 0;
}
 
void detectAndDisplay( Mat frame )
{
 Mat frame_gray;
 cvtColor( frame, frame_gray, COLOR_BGR2GRAY );
 equalizeHist( frame_gray, frame_gray );
 
 //-- Detect faces
    std::vector<Rect> faces;
    face_cascade.detectMultiScale( frame_gray, faces );
 
 for ( size_t i = 0; i < faces.size(); i++ )
    {
 Point center( faces[i].x + faces[i].width/2, faces[i].y + faces[i].height/2 );
 ellipse( frame, center, Size( faces[i].width/2, faces[i].height/2 ), 0, 0, 360, Scalar( 255, 0, 255 ), 4 );
 
 Mat faceROI = frame_gray( faces[i] );
 
 //-- In each face, detect eyes
        std::vector<Rect> eyes;
        eyes_cascade.detectMultiScale( faceROI, eyes );
 
 for ( size_t j = 0; j < eyes.size(); j++ )
        {
 Point eye_center( faces[i].x + eyes[j].x + eyes[j].width/2, faces[i].y + eyes[j].y + eyes[j].height/2 );
 int radius = cvRound( (eyes[j].width + eyes[j].height)*0.25 );
 circle( frame, eye_center, radius, Scalar( 255, 0, 0 ), 4 );
        }
    }
 
 //-- Show what you got
 imshow( "Capture - Face detection", frame );
}

このチュートリアルのコードを以下の行に示す。こちらからダウンロードすることもできる

import java.util.List;
 
import org.opencv.core.Core;
import org.opencv.core.Mat;
import org.opencv.core.MatOfRect;
import org.opencv.core.Point;
import org.opencv.core.Rect;
import org.opencv.core.Scalar;
import org.opencv.core.Size;
import org.opencv.highgui.HighGui;
import org.opencv.imgproc.Imgproc;
import org.opencv.objdetect.CascadeClassifier;
import org.opencv.videoio.VideoCapture;
 
class ObjectDetection {
 public void detectAndDisplay(Mat frame, CascadeClassifier faceCascade, CascadeClassifier eyesCascade) {
        Mat frameGray = new Mat();
        Imgproc.cvtColor(frame, frameGray, Imgproc.COLOR_BGR2GRAY);
        Imgproc.equalizeHist(frameGray, frameGray);
 
 // -- Detect faces
        MatOfRect faces = new MatOfRect();
        faceCascade.detectMultiScale(frameGray, faces);
 
        List<Rect> listOfFaces = faces.toList();
 for (Rect face : listOfFaces) {
            Point center = new Point(face.x + face.width / 2, face.y + face.height / 2);
            Imgproc.ellipse(frame, center, new Size(face.width / 2, face.height / 2), 0, 0, 360,
 new Scalar(255, 0, 255));
 
            Mat faceROI = frameGray.submat(face);
 
 // -- In each face, detect eyes
            MatOfRect eyes = new MatOfRect();
            eyesCascade.detectMultiScale(faceROI, eyes);
 
            List<Rect> listOfEyes = eyes.toList();
 for (Rect eye : listOfEyes) {
                Point eyeCenter = new Point(face.x + eye.x + eye.width / 2, face.y + eye.y + eye.height / 2);
 int radius = (int) Math.round((eye.width + eye.height) * 0.25);
                Imgproc.circle(frame, eyeCenter, radius, new Scalar(255, 0, 0), 4);
            }
        }
 
 //-- Show what you got
        HighGui.imshow("Capture - Face detection", frame );
    }
 
 public void run(String[] args) {
        String filenameFaceCascade = args.length > 2 ? args[0] : "../../data/haarcascades/haarcascade_frontalface_alt.xml";
        String filenameEyesCascade = args.length > 2 ? args[1] : "../../data/haarcascades/haarcascade_eye_tree_eyeglasses.xml";
 int cameraDevice = args.length > 2 ? Integer.parseInt(args[2]) : 0;
 
        CascadeClassifier faceCascade = new CascadeClassifier();
        CascadeClassifier eyesCascade = new CascadeClassifier();
 
 if (!faceCascade.load(filenameFaceCascade)) {
            System.err.println("--(!)Error loading face cascade: " + filenameFaceCascade);
            System.exit(0);
        }
 if (!eyesCascade.load(filenameEyesCascade)) {
            System.err.println("--(!)Error loading eyes cascade: " + filenameEyesCascade);
            System.exit(0);
        }
 
        VideoCapture capture = new VideoCapture(cameraDevice);
 if (!capture.isOpened()) {
            System.err.println("--(!)Error opening video capture");
            System.exit(0);
        }
 
        Mat frame = new Mat();
 while (capture.read(frame)) {
 if (frame.empty()) {
                System.err.println("--(!) No captured frame -- Break!");
 break;
            }
 
 //-- 3. Apply the classifier to the frame
            detectAndDisplay(frame, faceCascade, eyesCascade);
 
 if (HighGui.waitKey(10) == 27) {
 break;// escape
            }
        }
 
        System.exit(0);
    }
}
 
public class ObjectDetectionDemo {
 public static void main(String[] args) {
 // Load the native OpenCV library
        System.loadLibrary(Core.NATIVE_LIBRARY_NAME);
 
 new ObjectDetection().run(args);
    }
}

このチュートリアルのコードを以下の行に示す。こちらからダウンロードすることもできる

from __future__ import print_function
import cv2 as cv
import argparse
 
def detectAndDisplay(frame):
    frame_gray = cv.cvtColor(frame, cv.COLOR_BGR2GRAY)
    frame_gray = cv.equalizeHist(frame_gray)
 
 #-- Detect faces
    faces = face_cascade.detectMultiScale(frame_gray)
 for (x,y,w,h) in faces:
        center = (x + w//2, y + h//2)
        frame = cv.ellipse(frame, center, (w//2, h//2), 0, 0, 360, (255, 0, 255), 4)
 
        faceROI = frame_gray[y:y+h,x:x+w]
 #-- In each face, detect eyes
        eyes = eyes_cascade.detectMultiScale(faceROI)
 for (x2,y2,w2,h2) in eyes:
            eye_center = (x + x2 + w2//2, y + y2 + h2//2)
            radius = int(round((w2 + h2)*0.25))
            frame = cv.circle(frame, eye_center, radius, (255, 0, 0 ), 4)
 
 cv.imshow('Capture - Face detection', frame)
 
parser = argparse.ArgumentParser(description='Code for Cascade Classifier tutorial.')
parser.add_argument('--face_cascade', help='Path to face cascade.', default='data/haarcascades/haarcascade_frontalface_alt.xml')
parser.add_argument('--eyes_cascade', help='Path to eyes cascade.', default='data/haarcascades/haarcascade_eye_tree_eyeglasses.xml')
parser.add_argument('--camera', help='Camera divide number.', type=int, default=0)
args = parser.parse_args()
 
face_cascade_name = args.face_cascade
eyes_cascade_name = args.eyes_cascade
 
face_cascade = cv.CascadeClassifier()
eyes_cascade = cv.CascadeClassifier()
 
#-- 1. Load the cascades
if not face_cascade.load(cv.samples.findFile(face_cascade_name)):
    print('--(!)Error loading face cascade')
    exit(0)
if not eyes_cascade.load(cv.samples.findFile(eyes_cascade_name)):
    print('--(!)Error loading eyes cascade')
    exit(0)
 
camera_device = args.camera
#-- 2. Read the video stream
cap = cv.VideoCapture(camera_device)
if not cap.isOpened:
    print('--(!)Error opening video capture')
    exit(0)
 
while True:
    ret, frame = cap.read()
 if frame is None:
        print('--(!) No captured frame -- Break!')
 break
 
    detectAndDisplay(frame)
 
 if cv.waitKey(10) == 27:
 break

結果

以下は、上記のコードを実行し、内蔵Webカメラの映像ストリームを入力として使用した結果である:

プログラムがファイル haarcascade_frontalface_alt.xml と haarcascade_eye_tree_eyeglasses.xml のパスを見つけられることを確認すること。これらは opencv/data/haarcascades にある

これは、顔検出にファイル lbpcascade_frontalface.xml (LBP学習済み) を使用した結果である。目については、チュートリアルで使用したファイルを引き続き使用する。

追加リソース

Paul Viola and Michael J. Jones. Robust real-time face detection. International Journal of Computer Vision, 57(2):137–154, 2004. [292]
Rainer Lienhart and Jochen Maydt. An extended set of haar-like features for rapid object detection. In Image Processing. 2002. Proceedings. 2002 International Conference on, volume 1, pages I–900. IEEE, 2002. [173]
顔検出とトラッキングに関するビデオ講義
Adam Harveyによる顔検出に関する興味深いインタビュー
Adam HarveyによるVimeo上のOpenCV Face Detection: Visualized


原著者	Ana Huamán
互換性	OpenCV >= 3.0

目次

目標

理論

OpenCVでのHaarカスケード検出

結果

追加リソース