クラス
class	BaseOCR

class	ERFilter
	Neumann と Matas のシーンテキスト検出アルゴリズム [210] の第 1 段階および第 2 段階の基底クラス。 : 詳細...

struct	ERStat
	ERStat 構造体は、クラス固有の Extremal Region (ER) を表す。詳細...

class	OCRBeamSearchDecoder
	OCRBeamSearchDecoder クラスは、Beam Search アルゴリズムを用いた OCR のためのインターフェースを提供する。詳細...

class	OCRHMMDecoder
	OCRHMMDecoder クラスは、隠れマルコフモデル (Hidden Markov Models) を用いた OCR のためのインターフェースを提供する。詳細...

class	OCRHolisticWordRecognizer
	OCRHolisticWordRecognizer クラスは、セグメント化された word spotting の機能を提供する。あらかじめ定義された語彙が与えられると、DictNet を用いて入力画像に対して最も確率の高い単語を選択する。詳細...

class	OCRTesseract
	OCRTesseract クラスは、C++ における tesseract-ocr API (v3.02.02) とのインターフェースを提供する。詳細...

class	TextDetector
	テキスト検出アルゴリズムのインターフェースを提供する抽象クラス。続きを読む...

class	TextDetectorCNN
	TextDetectorCNN クラスはテキストのバウンディングボックス検出の機能を提供する。このクラスは、入力画像が与えられたときにテキスト単語のバウンディングボックスを見つけることを表す。このクラスはOpenCVのdnnモジュールを使って、[171] で記述された学習済みモデルを読み込む。修正版SSD Caffeバージョンのオリジナルリポジトリは https://github.com/MhLiao/TextBoxes。モデルは DropBox からダウンロードできる。モデル記述を含む修正版 .prototxt ファイルは `opencv_contrib/modules/text/samples/textbox.prototxt` にある。続きを読む...

列挙型
enum	{ ERFILTER_NM_RGBLGrad , ERFILTER_NM_IHSGrad }
	computeNMChannels の動作モード。詳細...

enum	{ OCR_LEVEL_WORD , OCR_LEVEL_TEXTLINE }

enum	classifier_type { OCR_KNN_CLASSIFIER = 0 , OCR_CNN_CLASSIFIER = 1 }

enum	decoder_mode { OCR_DECODER_VITERBI = 0 }

enum	erGrouping_Modes { ERGROUPING_ORIENTATION_HORIZ , ERGROUPING_ORIENTATION_ANY }
	text::erGrouping の動作モード。詳細...

enum	ocr_engine_mode { OEM_TESSERACT_ONLY , OEM_CUBE_ONLY , OEM_TESSERACT_CUBE_COMBINED , OEM_DEFAULT }
	Tesseract.OcrEngineMode 列挙型。詳細...

enum	page_seg_mode { PSM_OSD_ONLY , PSM_AUTO_OSD , PSM_AUTO_ONLY , PSM_AUTO , PSM_SINGLE_COLUMN , PSM_SINGLE_BLOCK_VERT_TEXT , PSM_SINGLE_BLOCK , PSM_SINGLE_LINE , PSM_SINGLE_WORD , PSM_CIRCLE_WORD , PSM_SINGLE_CHAR }
	Tesseract.PageSegMode 列挙型。詳細...

関数
void	computeNMChannels (InputArray _src, OutputArrayOfArrays _channels, int _mode=ERFILTER_NM_RGBLGrad)
	N&M アルゴリズム [210] において独立に処理されるさまざまなチャンネルを計算する。

Ptr< ERFilter >	createERFilterNM1 (const Ptr< ERFilter::Callback > &cb, int thresholdDelta=1, float minArea=(float) 0.00025, float maxArea=(float) 0.13, float minProbability=(float) 0.4, bool nonMaxSuppression=true, float minProbabilityDiff=(float) 0.1)
	N&M アルゴリズム [210] の第 1 段階分類器のための Extremal Region Filter を生成する。

Ptr< ERFilter >	createERFilterNM1 (const String &filename, int thresholdDelta=1, float minArea=(float) 0.00025, float maxArea=(float) 0.13, float minProbability=(float) 0.4, bool nonMaxSuppression=true, float minProbabilityDiff=(float) 0.1)
	N&M アルゴリズムの第 1 段階分類器のための Extremal Region Filter を、指定されたパス (例: /path/to/cpp/trained_classifierNM1.xml) から読み込む。

Ptr< ERFilter >	createERFilterNM2 (const Ptr< ERFilter::Callback > &cb, float minProbability=(float) 0.3)
	N&M アルゴリズム [210] の第 2 段階分類器のための Extremal Region Filter を生成する。

Ptr< ERFilter >	createERFilterNM2 (const String &filename, float minProbability=(float) 0.3)
	N&M アルゴリズムの第 2 段階分類器のための Extremal Region Filter を、指定されたパス (例: /path/to/cpp/trained_classifierNM2.xml) から読み込む。

Mat	createOCRHMMTransitionsTable (const String &vocabulary, std::vector< cv::String > &lexicon)

void	createOCRHMMTransitionsTable (std::string &vocabulary, std::vector< std::string > &lexicon, OutputArray transition_probabilities_table)
	与えられた単語リスト (語彙) から、目的に合わせた言語モデルの遷移テーブルを生成するユーティリティ関数。

void	detectRegions (InputArray image, const Ptr< ERFilter > &er_filter1, const Ptr< ERFilter > &er_filter2, std::vector< Rect > &groups_rects, int method=ERGROUPING_ORIENTATION_HORIZ, const String &filename=String(), float minProbability=(float) 0.5)
	画像からテキスト領域を抽出する。

void	detectRegions (InputArray image, const Ptr< ERFilter > &er_filter1, const Ptr< ERFilter > &er_filter2, std::vector< std::vector< Point > > &regions)

void	detectTextSWT (InputArray input, std::vector< cv::Rect > &result, bool dark_on_light, OutputArray &draw=noArray(), OutputArray &chainBBs=noArray())
	Stroke Width Transform 演算子を適用し、続いて類似したストローク幅を持つ連結成分のフィルタリングを行って、文字候補を返す。さらに近接度とサイズによってそれらを連結し、結果を chainBBs に保存する。

void	erGrouping (InputArray image, InputArray channel, std::vector< std::vector< Point > > regions, std::vector< Rect > &groups_rects, int method=ERGROUPING_ORIENTATION_HORIZ, const String &filename=String(), float minProbablity=(float) 0.5)

void	erGrouping (InputArray img, InputArrayOfArrays channels, std::vector< std::vector< ERStat > > &regions, std::vector< std::vector< Vec2i > > &groups, std::vector< Rect > &groups_rects, int method=ERGROUPING_ORIENTATION_HORIZ, const std::string &filename=std::string(), float minProbablity=0.5)
	テキストブロックとして構成された Extremal Region のグループを見つける。

Ptr< ERFilter::Callback >	loadClassifierNM1 (const String &filename)
	ERFilter オブジェクトの生成時に、デフォルトの分類器を暗黙的に読み込めるようにする。

Ptr< ERFilter::Callback >	loadClassifierNM2 (const String &filename)
	ERFilter オブジェクトの生成時に、デフォルトの分類器を暗黙的に読み込めるようにする。

Ptr< OCRBeamSearchDecoder::ClassifierCallback >	loadOCRBeamSearchClassifierCNN (const String &filename)
	OCRBeamSearchDecoder オブジェクトの生成時に、デフォルトの文字分類器を暗黙的に読み込めるようにする。

Ptr< OCRHMMDecoder::ClassifierCallback >	loadOCRHMMClassifier (const String &filename, int classifier)
	OCRHMMDecoder オブジェクトの生成時に、デフォルトの文字分類器を暗黙的に読み込めるようにする。

Ptr< OCRHMMDecoder::ClassifierCallback >	loadOCRHMMClassifierCNN (const String &filename)
	OCRHMMDecoder オブジェクトの生成時に、デフォルトの文字分類器を暗黙的に読み込めるようにする。

Ptr< OCRHMMDecoder::ClassifierCallback >	loadOCRHMMClassifierNM (const String &filename)
	OCRHMMDecoder オブジェクトの生成時に、デフォルトの文字分類器を暗黙的に読み込めるようにする。

void	MSERsToERStats (InputArray image, std::vector< std::vector< Point > > &contours, std::vector< std::vector< ERStat > > &regions)
	MSER の輪郭 (vector<Point>) を ERStat 領域に変換する。

関数詳解

◆ detectTextSWT()

void cv::text::detectTextSWT	(	InputArray	input,
		std::vector< cv::Rect > &	result,
		bool	dark_on_light,
		OutputArray &	draw = noArray(),
		OutputArray &	chainBBs = noArray() )

Python:
	cv.text.detectTextSWT(	input, dark_on_light[, draw[, chainBBs]]	) ->	result, draw, chainBBs

Stroke Width Transform オペレータを適用し、続いて同程度のストローク幅を持つ連結成分のフィルタリングを行って文字候補を返す。さらに近接度とサイズによって文字候補を連結し、その結果を chainBBs に保存する。

引数

input	3 チャンネルの入力画像。
result	テキストが見つかる確率が高いバウンディングボックスを格納する結果のベクトル。
dark_on_light	テキストが背景よりも暗いか明るいかを示すブール値。Scharr オペレータから得られる勾配を反転させ、結果に大きく影響することが観察されている。
draw	検出された文字をバウンディングボックスで可視化する、型 CV_8UC3 の省略可能な Mat。
chainBBs	省略可能な引数で、論文中のヒューリスティックに従って文字候補を連結し、テキストが出現しそうなすべての可能な領域を返す。

クラス

列挙型

関数

関数詳解

◆ detectTextSWT()