OpenCV 4.13.0
Open Source Computer Vision
読み込み中...
検索中...
見つかりません
🤖 AIによる機械翻訳(非公式) — これは OpenCV 4.13.0 公式リファレンス(英語)を AI (Claude) で自動翻訳したものです。訳に誤りを含む場合があります。正確な情報は 公式英語版(原文) を参照してください。
cv::text 名前空間

クラス

class  BaseOCR
 
class  ERFilter
 Neumann と Matas のシーンテキスト検出アルゴリズム [210] の第 1 段階および第 2 段階の基底クラス。 : 詳細...
 
struct  ERStat
 ERStat 構造体は、クラス固有の Extremal Region (ER) を表す。詳細...
 
class  OCRBeamSearchDecoder
 OCRBeamSearchDecoder クラスは、Beam Search アルゴリズムを用いた OCR のためのインターフェースを提供する。詳細...
 
class  OCRHMMDecoder
 OCRHMMDecoder クラスは、隠れマルコフモデル (Hidden Markov Models) を用いた OCR のためのインターフェースを提供する。詳細...
 
class  OCRHolisticWordRecognizer
 OCRHolisticWordRecognizer クラスは、セグメント化された word spotting の機能を提供する。あらかじめ定義された語彙が与えられると、DictNet を用いて入力画像に対して最も確率の高い単語を選択する。詳細...
 
class  OCRTesseract
 OCRTesseract クラスは、C++ における tesseract-ocr API (v3.02.02) とのインターフェースを提供する。詳細...
 
class  TextDetector
 テキスト検出アルゴリズムのインターフェースを提供する抽象クラス。続きを読む...
 
class  TextDetectorCNN
 TextDetectorCNN クラスはテキストのバウンディングボックス検出の機能を提供する。このクラスは、入力画像が与えられたときにテキスト単語のバウンディングボックスを見つけることを表す。このクラスはOpenCVのdnnモジュールを使って、[171] で記述された学習済みモデルを読み込む。修正版SSD Caffeバージョンのオリジナルリポジトリは https://github.com/MhLiao/TextBoxes。モデルは DropBox からダウンロードできる。モデル記述を含む修正版 .prototxt ファイルは opencv_contrib/modules/text/samples/textbox.prototxt にある。続きを読む...
 

列挙型

enum  {
  ERFILTER_NM_RGBLGrad ,
  ERFILTER_NM_IHSGrad
}
 computeNMChannels の動作モード。詳細...
 
enum  {
  OCR_LEVEL_WORD ,
  OCR_LEVEL_TEXTLINE
}
 
enum  classifier_type {
  OCR_KNN_CLASSIFIER = 0 ,
  OCR_CNN_CLASSIFIER = 1
}
 
enum  decoder_mode { OCR_DECODER_VITERBI = 0 }
 
enum  erGrouping_Modes {
  ERGROUPING_ORIENTATION_HORIZ ,
  ERGROUPING_ORIENTATION_ANY
}
 text::erGrouping の動作モード。詳細...
 
enum  ocr_engine_mode {
  OEM_TESSERACT_ONLY ,
  OEM_CUBE_ONLY ,
  OEM_TESSERACT_CUBE_COMBINED ,
  OEM_DEFAULT
}
 Tesseract.OcrEngineMode 列挙型。詳細...
 
enum  page_seg_mode {
  PSM_OSD_ONLY ,
  PSM_AUTO_OSD ,
  PSM_AUTO_ONLY ,
  PSM_AUTO ,
  PSM_SINGLE_COLUMN ,
  PSM_SINGLE_BLOCK_VERT_TEXT ,
  PSM_SINGLE_BLOCK ,
  PSM_SINGLE_LINE ,
  PSM_SINGLE_WORD ,
  PSM_CIRCLE_WORD ,
  PSM_SINGLE_CHAR
}
 Tesseract.PageSegMode 列挙型。詳細...
 

関数

void computeNMChannels (InputArray _src, OutputArrayOfArrays _channels, int _mode=ERFILTER_NM_RGBLGrad)
 N&M アルゴリズム [210] において独立に処理されるさまざまなチャンネルを計算する。
 
Ptr< ERFiltercreateERFilterNM1 (const Ptr< ERFilter::Callback > &cb, int thresholdDelta=1, float minArea=(float) 0.00025, float maxArea=(float) 0.13, float minProbability=(float) 0.4, bool nonMaxSuppression=true, float minProbabilityDiff=(float) 0.1)
 N&M アルゴリズム [210] の第 1 段階分類器のための Extremal Region Filter を生成する。
 
Ptr< ERFiltercreateERFilterNM1 (const String &filename, int thresholdDelta=1, float minArea=(float) 0.00025, float maxArea=(float) 0.13, float minProbability=(float) 0.4, bool nonMaxSuppression=true, float minProbabilityDiff=(float) 0.1)
 N&M アルゴリズムの第 1 段階分類器のための Extremal Region Filter を、指定されたパス (例: /path/to/cpp/trained_classifierNM1.xml) から読み込む。
 
Ptr< ERFiltercreateERFilterNM2 (const Ptr< ERFilter::Callback > &cb, float minProbability=(float) 0.3)
 N&M アルゴリズム [210] の第 2 段階分類器のための Extremal Region Filter を生成する。
 
Ptr< ERFiltercreateERFilterNM2 (const String &filename, float minProbability=(float) 0.3)
 N&M アルゴリズムの第 2 段階分類器のための Extremal Region Filter を、指定されたパス (例: /path/to/cpp/trained_classifierNM2.xml) から読み込む。
 
Mat createOCRHMMTransitionsTable (const String &vocabulary, std::vector< cv::String > &lexicon)
 
void createOCRHMMTransitionsTable (std::string &vocabulary, std::vector< std::string > &lexicon, OutputArray transition_probabilities_table)
 与えられた単語リスト (語彙) から、目的に合わせた言語モデルの遷移テーブルを生成するユーティリティ関数。
 
void detectRegions (InputArray image, const Ptr< ERFilter > &er_filter1, const Ptr< ERFilter > &er_filter2, std::vector< Rect > &groups_rects, int method=ERGROUPING_ORIENTATION_HORIZ, const String &filename=String(), float minProbability=(float) 0.5)
 画像からテキスト領域を抽出する。
 
void detectRegions (InputArray image, const Ptr< ERFilter > &er_filter1, const Ptr< ERFilter > &er_filter2, std::vector< std::vector< Point > > &regions)
 
void detectTextSWT (InputArray input, std::vector< cv::Rect > &result, bool dark_on_light, OutputArray &draw=noArray(), OutputArray &chainBBs=noArray())
 Stroke Width Transform 演算子を適用し、続いて類似したストローク幅を持つ連結成分のフィルタリングを行って、文字候補を返す。さらに近接度とサイズによってそれらを連結し、結果を chainBBs に保存する。
 
void erGrouping (InputArray image, InputArray channel, std::vector< std::vector< Point > > regions, std::vector< Rect > &groups_rects, int method=ERGROUPING_ORIENTATION_HORIZ, const String &filename=String(), float minProbablity=(float) 0.5)
 
void erGrouping (InputArray img, InputArrayOfArrays channels, std::vector< std::vector< ERStat > > &regions, std::vector< std::vector< Vec2i > > &groups, std::vector< Rect > &groups_rects, int method=ERGROUPING_ORIENTATION_HORIZ, const std::string &filename=std::string(), float minProbablity=0.5)
 テキストブロックとして構成された Extremal Region のグループを見つける。
 
Ptr< ERFilter::CallbackloadClassifierNM1 (const String &filename)
 ERFilter オブジェクトの生成時に、デフォルトの分類器を暗黙的に読み込めるようにする。
 
Ptr< ERFilter::CallbackloadClassifierNM2 (const String &filename)
 ERFilter オブジェクトの生成時に、デフォルトの分類器を暗黙的に読み込めるようにする。
 
Ptr< OCRBeamSearchDecoder::ClassifierCallbackloadOCRBeamSearchClassifierCNN (const String &filename)
 OCRBeamSearchDecoder オブジェクトの生成時に、デフォルトの文字分類器を暗黙的に読み込めるようにする。
 
Ptr< OCRHMMDecoder::ClassifierCallbackloadOCRHMMClassifier (const String &filename, int classifier)
 OCRHMMDecoder オブジェクトの生成時に、デフォルトの文字分類器を暗黙的に読み込めるようにする。
 
Ptr< OCRHMMDecoder::ClassifierCallbackloadOCRHMMClassifierCNN (const String &filename)
 OCRHMMDecoder オブジェクトの生成時に、デフォルトの文字分類器を暗黙的に読み込めるようにする。
 
Ptr< OCRHMMDecoder::ClassifierCallbackloadOCRHMMClassifierNM (const String &filename)
 OCRHMMDecoder オブジェクトの生成時に、デフォルトの文字分類器を暗黙的に読み込めるようにする。
 
void MSERsToERStats (InputArray image, std::vector< std::vector< Point > > &contours, std::vector< std::vector< ERStat > > &regions)
 MSER の輪郭 (vector<Point>) を ERStat 領域に変換する。
 

関数詳解

◆ detectTextSWT()

void cv::text::detectTextSWT ( InputArray input,
std::vector< cv::Rect > & result,
bool dark_on_light,
OutputArray & draw = noArray(),
OutputArray & chainBBs = noArray() )
Python:
cv.text.detectTextSWT(input, dark_on_light[, draw[, chainBBs]]) -> result, draw, chainBBs

Stroke Width Transform オペレータを適用し、続いて同程度のストローク幅を持つ連結成分のフィルタリングを行って文字候補を返す。さらに近接度とサイズによって文字候補を連結し、その結果を chainBBs に保存する。

引数
input3 チャンネルの入力画像。
resultテキストが見つかる確率が高いバウンディングボックスを格納する結果のベクトル。
dark_on_lightテキストが背景よりも暗いか明るいかを示すブール値。Scharr オペレータから得られる勾配を反転させ、結果に大きく影響することが観察されている。
draw検出された文字をバウンディングボックスで可視化する、型 CV_8UC3 の省略可能な Mat
chainBBs省略可能な引数で、論文中のヒューリスティックに従って文字候補を連結し、テキストが出現しそうなすべての可能な領域を返す。