![]() |
OpenCV 4.13.0
Open Source Computer Vision
|
このチュートリアルでは、以下の方法を学ぶ:
このチュートリアルを続ける前に、顔ランドマーク検出のデータセットをダウンロードしておく必要がある。https://ibug.doc.ic.ac.uk/download/annotations/lfpw.zip から取得できる LFPW データセットのダウンロードを推奨する。
アノテーション形式が API でサポートされていることを確認すること。アノテーションファイルの内容は以下のスニペットのようになっているはずである:
次に行うことは、画像ファイルの一覧とアノテーションファイルの一覧をそれぞれ含む2つのテキストファイルを作成することである。両方のファイルで画像とアノテーションの順序が一致していることを確認すること。さらに、相対パスではなく絶対パスを使うことを推奨する。Linux マシンでファイル一覧を作成する例
images_train.txt の内容例
annotation_train.txt の内容例
必要に応じて、テストセット用にも同様のファイルを作成できる。
このチュートリアルでは、ファイルサイズが大きい(約500MB)ため、学習済みモデルは提供されない。このチュートリアルに従えば、数分で独自の学習済みモデルを学習・取得できる。
完全な動作コードは face/samples/facemark_demo_aam.cpp ファイルにある。このチュートリアルでは、いくつかの重要な部分の説明を扱う。
AAM アルゴリズムのインスタンスの生成
まず、AAM アルゴリズム用のパラメータのインスタンスを生成する。この場合、スケーリング係数のデフォルト一覧を変更する。デフォルトでは、使用されるスケーリング係数は 1.0(スケーリングなし)である。ここでは2つのスケーリング係数を追加し、これによりインスタンスはスケール2と4で2つのモデルを追加で学習する(それぞれ2分の1、4分の1のサイズで、フィッティング時間がより高速になる)。ただし、このスケーリング係数を大きくしすぎると画像が非常に小さくスケーリングされてしまうため、注意が必要である。そうなると、ランドマーク検出に重要な情報をすべて失ってしまう。
あるいは、この例と同様の方法でデフォルトのスケーリングを上書きすることもできる:
データセットの読み込み
データセットの一覧をプログラムに読み込む。次のステップでデータセットのサンプルを1つずつ追加していく。
トレーナーへのサンプルの追加
データセット一覧の画像と、それに対応するアノテーションデータが1つずつ読み込まれる。そして、サンプルのペアがトレーナーに追加される。
学習処理
学習処理は1行のコードで呼び出される。必要な学習サンプルがすべてトレーナーに追加済みであることを確認すること。
フィッティングの準備
まず、テストファイルの一覧を読み込む必要がある。
AAM は初期化パラメータ(回転、平行移動、スケーリング)を必要とするため、これらの情報を格納する変数を宣言する必要があり、その情報はカスタム関数を使って取得される。この例における getInitialFitting() 関数の実装は最適ではないため、独自の関数を作成してもよい。
初期化は、学習済みモデルのベース形状と現在の顔画像を比較することで得られる。この場合、回転は入力顔画像における両目で形成される線の角度と、ベース形状における同じ線とを比較することで得られる。一方、スケーリングは入力画像における両目間の線の長さをベース形状と比較することで得られる。
フィッティング処理
フィッティング処理は、与えられた画像から顔を検出することによって開始される。
少なくとも1つの顔が見つかった場合、次のステップは初期化パラメータの計算である。この場合、getInitialFitting() 関数は最適ではないため、与えられた顔から両目のペアを見つけられないことがある。そのため、初期化パラメータを持たない顔を除外する。この場合、conf ベクトルの各要素は、除外されずに残った各顔の初期化パラメータを表す。
conf ベクトルに格納されたフィッティングパラメータについて、最後のパラメータはフィッティング処理で使用されるスケーリング係数のIDを表す。この例では、フィッティングは最も大きいスケーリング係数(4)を使用する。これは他のスケールと比べて最も計算時間が速いことが期待される。もしIDがモデル内で利用可能な学習済みスケールよりも大きい場合、最も大きいスケールIDを持つモデルが使用される。
フィッティング処理は非常に単純で、対応する画像、与えられた画像内のすべての顔のROIを表す cv::Rect のベクトル、landmarks 変数で表されるランドマーク点のコンテナ、および設定変数を渡すだけでよい。
フィッティング処理が完了したら、drawFacemarks 関数を使って結果を可視化できる。