モバイル装置を用いて取込まれたデジタル画像におけるオブジェクトの分類

 

方法は、モバイル装置を用いてデジタル画像を受けるまたは取込むことを含み、モバイル装置のプロセッサを用いて、デジタル画像内に描かれたオブジェクトが複数のオブジェクトクラスのうちの特定のオブジェクトクラスに属するか否か判断することと、オブジェクトが特定のオブジェクトクラスに属すると判断したことに少なくとも一部応じて、特定のオブジェクトクラスに少なくとも一部基づいてオブジェクトの1つ以上のオブジェクト特徴を求めることと、求めた1つ以上のオブジェクト特徴に少なくとも一部基づいて抽出モデルを構築または選択することと、抽出モデルを用いてデジタル画像からデータを抽出することとを含む。関連するシステムおよびコンピュータプログラムプロダクトも開示される。

 

 

発明の分野
本発明は、モバイル画像取込みおよび画像処理に関し、より具体的には、モバイル装置を用いてデジタル画像を取込んで処理しこのようなデジタル画像内で検出されたオブジェクトを分類することに関する。
発明の背景
書簡、勘定書、請求書、納品伝票等の文書を含むオブジェクトが描かれているデジタル画像は、従来、ラップトップまたはデスクトップコンピュータ等のコンピュータワークステーションに接続されたスキャナまたは多機能周辺装置を用いて取込まれて処理されてきた。このような取込みおよび処理を実行することが可能な方法およびシステムは、当該技術では周知であり、これら方法およびシステムが採用されるタスクによく適応している。
しかしながら、日々の活動、計算、および仕事をモバイル装置を用いて行なうことが増している時代においては、スマートフォン、デジタルカメラ、タブレットコンピュータ等のモバイルプラットフォームに導入して使用するための、同様の文書取込みおよび処理システムを提供することが、非常に有益であろう。
従来、デジタル画像は、ほぼ無限の多様なアプリケーションの貴重なデータリソースである。ビジネスとの関連では、典型的には文書および/または関連する画像データ(保険給付支払請求、車両登録、売買証書等のデジタル画像に付随する車両のデジタル画像など)に示される情報の伝達および処理のために、デジタル画像が広範囲にわたって使用されてきた。ますます高性能化しているモバイル装置は、デジタル画像処理をモバイルの領域に拡張する機会を提供し、かつ、モバイル技術を用いてリアルタイムでデジタル画像データを取込んで処理する改良された能力を提供する。
既存のモバイル装置および非モバイル装置で使用される従来のデータ抽出方法は、典型的には専門家のユーザによって作成および/または管理されるオブジェクトテンプレートに依拠して、抽出エンジンに情報を与え、このエンジンに抽出の情報がどこにあるか指示する。文書という特定のケースにおいては、従来の抽出技術は、文書の1つ以上の(典型的には矩形)領域の位置が与えられその領域に対して光学式文字認識(OCR)を実行するよう指示され、判定した文字を別のプロセスまたはファイルに出力する。
従来の抽出エンジンおよび方法は、テンプレートが予め定められているオブジェクトから情報を確実に抽出することはできるが、テンプレートが存在しないオブジェクトから情報を動的に抽出することは不可能である。このことは、現代社会で遭遇する、多様化している文書配列に対してユーザが高性能の抽出技術を使用することを制限する、望ましくない制約である。
さらに、従来の抽出エンジンでは、オブジェクトクラスの発展に伴いテンプレートを規定しテンプレート規定を維持するための広範な入力が専門の管理者からなされることが必要である。このため、テンプレートに基づく抽出の性能は、適切にテンプレートを規定する管理者の能力と、どの情報が抽出するに「値する」かという管理者の判断との、一次関数である。したがって、専門の管理者は、抽出の正確さおよび精度ならびにデータの抽出元となり得るオブジェクトの範囲という点で、データ抽出のロバストネスにとって望ましくない障害である。
またさらに、従来の抽出方法は、主としてまたは全面的に画像データからのテキスト文字抽出をOCR技術に頼っている。OCRエンジンは、テキスト文字の識別に関する推定を行なうことを強いられ、そのため、必然的に、画質が悪いとき、文字が予め規定された一組の「既知の」文字と一致しないとき、文字の外観が曖昧でOCRエンジンが複数の候補文字間の区別を確実に行なうことができないとき(たとえばピリオド「.」とカンマ「,」、または文字「l」と数字の「1」)は、文字を間違って報告することになる。専門の管理者は、これらの問題を、何らかの既知の文字パターンが予測されるときは正しい判断をするようにOCRエンジンを促すことによって緩和することができるが、この緩和でさえ範囲が限定され、最終的には誤りのためにエンドユーザの望ましくない対話が必要になる。
したがって、モバイル装置を用いてデジタル画像データから情報を抽出するための、新たな方法、システム、および/またはコンピュータプログラムプロダクト技術を提供することが、非常に有益であろう。テンプレートに頼らずに情報を抽出できるようにして、専門の管理者の必要性をなくし、かつ、ユーザが抽出モデルを動的に作成および修正して多様で変わりやすいオブジェクトのクラスからデータを抽出できるようにすることが、さらに有益であろう。OCR技術に頼らずにデータを抽出する方法を提供して、予め規定された文字クラスおよび低画質の制約を克服し、ユーザがOCRの誤りを訂正する必要を減じるかまたは排除することが、一層有益であろう。
発明の概要
ある実施形態において、方法は、モバイル装置を用いてデジタル画像を受けるまたは取込むことを含み、モバイル装置のプロセッサを用いて、デジタル画像内に描かれたオブジェクトが複数のオブジェクトクラスのうちの特定のオブジェクトクラスに属するか否か判断することと、オブジェクトが特定のオブジェクトクラスに属すると判断したことに少なくとも一部応じて、特定のオブジェクトクラスに少なくとも一部基づいてオブジェクトの1つ以上のオブジェクト特徴を求めることと、求めた1つ以上のオブジェクト特徴に少なくとも一部基づいて抽出モデルを構築または選択することと、抽出モデルを用いてデジタル画像からデータを抽出することとを含み、抽出モデルは光学式文字認識を含まない。
別の実施形態において、方法は、モバイル装置を用いてデジタル画像を受けるまたは取込むことを含み、モバイル装置のプロセッサを用いて、デジタル画像内に描かれたオブジェクトが複数のオブジェクトクラスのうちの特定のオブジェクトクラスに属するか否か判断することと、オブジェクトが複数のオブジェクトクラスのうちのいずれにも属さないと判断したとき、デジタル画像をモバイル装置のディスプレイに表示することと、モバイル装置のディスプレイを介してユーザ入力を受けることとを含み、ユーザ入力はオブジェクトにおける1つ以上の注目領域を特定し、ユーザ入力に少なくとも一部基づいて抽出モデルを構築および/または選択することと、抽出モデルに少なくとも一部基づいてデジタル画像からデータを抽出することとを含み、抽出は光学式文字認識(OCR)を含まない。
他の実施形態において、コンピュータプログラムプロダクトは、プログラムコードが組込まれたコンピュータ読取可能な記録媒体を含み、プログラムコードはプロセッサにより読取可能/実行可能であり、プロセッサは、プログラムコードを読取る/実行することにより、モバイル装置によって取込まれたデジタル画像を受け、デジタル画像内に描かれたオブジェクトが複数のオブジェクトクラスのうちの特定のオブジェクトクラスに属するか否か判断し、オブジェクトが特定のオブジェクトクラスに属すると判断したとき、特定のオブジェクトクラスに少なくとも一部基づいてオブジェクトの1つ以上のオブジェクト特徴を求め、1つ以上のオブジェクト特徴に少なくとも一部基づいて抽出モデルを構築または選択し、抽出モデルに少なくとも一部基づいてデジタル画像からデータを抽出し、データを抽出するように構成されたコンピュータ読取可能なプログラムコードは、光学式文字認識(OCR)を利用するように構成されたコンピュータ読取可能なプログラムコードを含まない。
ここで開示される発明の概念の他の局面および特徴は、本質的に例示であり本開示を制限しないと理解されるべき以下の詳細な説明から明らかになるであろう。
ある実施形態に従うネットワークアーキテクチャを示す。 ある実施形態に従う、図1のサーバおよび/またはクライアントに関連付けることができる代表的なハードウェア環境を示す。 ある実施形態に従うオブジェクトのデジタル画像を示す。 ある実施形態に従う、図3Aに示されるデジタル画像の第1の表現を生成するためにこのデジタル画像を複数の区画に分割したものを概略的に示す。 図3Aに示されるデジタル画像の第1の表現を示し、この第1の表現は、このデジタル画像の解像度よりも低くされた解像度を特徴とする。 ある実施形態に従う、文書のデジタル画像内に描かれた複数のサブ領域を概略的に示す。 ある実施形態に従う、図4Aに示されるデジタル画像をマスキングしたものを示す。 ある実施形態に従う、図4Aに示されるデジタル画像をマスキングしたものを示す。 ある実施形態に従う、図4Aに示されるデジタル画像をマスキングしたものを示す。 ある実施形態に従う方法のフローチャートである。 ある実施形態に従う方法のフローチャートである。 ある実施形態に従う方法のフローチャートである。 ある実施形態に従う方法のフローチャートである。
詳細な説明
以下の説明は、本発明の一般的な原理を例示することを目的としてなされ、本明細書においてクレームされる発明の概念を限定することを意図しているのではない。さらに、本明細書に記載の特定の特徴は、可能なさまざまな組合せおよび置換え各々において、記載されている他の特徴と組み合わせて使用することができる。
本明細書において特に指定しない限り、すべての用語は、明細書において示される意味および当業者によって理解されるおよび/または辞書、論文等において定義される意味を含む、可能な最も広い解釈が与えられるべきものである。
また、本明細書およびそれに続く請求項において使用される単数形「a」、「an」および「the」は、特に指定しない限り複数のものを含むことに注意しなければならない。
本願は、カメラ、特にモバイル装置のカメラによって取込まれた画像(たとえば絵、数字、図形、映画、動画、フィルム、クリップの1コマ等)の画像処理に関する。本明細書では、モバイル装置が、物理的な接続(たとえばワイヤ、コード、ケーブル等)を介した電力供給なしでデータを受信することが可能で、かつ、物理的なデータ接続(たとえばワイヤ、コード、ケーブル等)なしでデータを受信することが可能な任意の装置であることが理解される。本開示の範囲に含まれるモバイル装置は、携帯電話、スマートフォン、タブレット、携帯情報端末、iPod(登録商標)、iPad(登録商標)、BLACKBERRY(登録商標)装置等の代表的な装置を含む。
しかしながら、さまざまな機能の説明から明らかになるように、ここで開示されているモバイル画像処理アルゴリズムは、時には何らかの修正が施されて、スキャナおよび多機能周辺装置(MFP)からの画像に適用することができる。同様に、いくつかのアプローチでは、ここで開示されている処理アルゴリズムを用いて処理された画像を、従来のスキャナ処理アルゴリズムを用いてさらに処理してもよい。
当然、本明細書において今まで述べてきたさまざまな実施形態は、ハードウェア、ソフトウェア、またはその所望の組合せを用いて実現し得る。そのために、本明細書に記載のさまざまな機能を実現することが可能な何らかの種類のロジックを使用してもよい。
モバイル装置の使用における1つの利点は、データプランを用いて、取込まれた画像に基づく画像処理および情報処理を、スキャナの存在に頼る以前の方法よりも、一層便利で能率的で統合されたやり方で、行なうことができる点である。しかしながら、モバイル装置を文書取込みおよび/または処理装置として使用することは、さまざまな理由から今までは不可能であると考えられてきた。
あるアプローチでは、画像をモバイル装置のカメラによって取込んでもよい。「カメラ」という用語は、一枚の紙等の装置の外部にある物理的なオブジェクトの画像を取込むことができるいずれの種類の装置も含むものとして広く解釈されねばならない。「カメラ」という用語は、周辺装置としてのスキャナまたは多機能装置は包含しない。どのような種類のカメラを使用してもよい。好ましい実施形態は、解像度が高い、たとえば8MP以上、理想的には12MP以上のカメラを使用することがある。画像の取込みは、カラーでも、無彩色でも、白黒でも、またはそれ以外の光学効果を伴っていてもよい。本明細書に記載の「画像」という用語は、生のデータ、処理済みのデータ等を含む、カメラの出力に相当するどの種類のデータも包含することを意図している。
本発明の局面はシステム、方法、またはコンピュータプログラムプロダクトとして実現し得ることが当業者に理解されるであろう。したがって、本発明の局面は、全体がハードウェアである実施形態、全体がソフトウェアである実施形態(ファームウェア、常駐ソフトウェア、マイクロコード等を含む)、または、本明細書において一般的に「ロジック」、「回路」、「モジュール」または「システム」と呼ぶことがあるソフトウェアの側面とハードウェアの側面を組み合わせた実施形態の形態を取り得る。さらに、本発明の局面は、コンピュータ読取可能なプログラムコードが組込まれた1つ以上のコンピュータ読取可能な媒体において実現されるコンピュータプログラムプロダクトの形態を取り得る。
1つ以上のコンピュータ読取可能な媒体を組み合わせたものを使用してもよい。コンピュータ読取可能な媒体は、コンピュータ読取可能な信号媒体であってもコンピュータ読取可能な記録媒体であってもよい。コンピュータ読取可能な記録媒体は、たとえば、電子、磁気、光、電磁、赤外線、または半導体システム、装置、またはデバイスであってもよく、これらを適切に組み合わせたものであってもよいが、これらに限定される訳ではない。コンピュータ読取可能な記録媒体のより具体的な例(非網羅的なリスト)は以下のものを含むであろう。ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、読取専用メモリ(ROM)、消去可能プログラマブル読取専用メモリ(EPROMまたはフラッシュメモリ)、ポータブルコンパクトディスク読取専用メモリ(CD‐ROM)、光記憶装置、磁気記憶装置、またはこれらを適切に組み合わせたものである。この文書の文脈において、コンピュータ読取可能な記録媒体は、命令実行システム、装置、プロセッサ、またはデバイスによってまたはこれとの関連で使用するためのプログラムを含むまたは格納することが可能な有形媒体であってもよい。
コンピュータ読取可能な信号媒体は、たとえばベースバンドにおける、搬送波の一部として、コンピュータ読取可能なプログラムコードが組込まれた伝搬データ信号を含み得るものであり、一本以上のワイヤを有する電気的接続、光ファイバ等である。このような伝搬信号は、電磁、光、またはこれを適切に組み合わせたものを含むがこれらに限定されないさまざまな形態のうちのいずれかを取り得る。コンピュータ読取可能な信号媒体は、コンピュータ読取可能な記録媒体ではなくかつ命令実行システム、装置、またはデバイスによってまたはこれとの関連で使用するためのプログラムを伝達、伝搬、または搬送することが可能なコンピュータ読取可能な媒体であればよい。
コンピュータ読取可能な媒体上で実現されるプログラムコードは、無線、ワイヤライン、光ファイバケーブル、RF等またはこれらを適切に組み合わせたものを含むがこれらに限定されない適切な媒体を用いて送信し得る。
本発明の局面の動作を実行するためのコンピュータプログラムコードは、Java(登録商標)、Smalltalk(登録商標)、C++等のオブジェクト指向プログラミング言語、および、「C」プログラミング言語等の従来の手続き型プログラミング言語、または同様のプログラミング言語を含む、1つ以上のプログラミング言語を組み合わせたもので記述されてもよい。プログラムコードは、全体がユーザのコンピュータ上で実行されてもよく、一部がユーザのコンピュータ上で実行されてもよく、独立ソフトウェアパッケージとして、一部がユーザのコンピュータ上で一部が遠隔コンピュータ上で実行されてもよく、または全体が遠隔コンピュータもしくはサーバ上で実行されてもよい。後者のシナリオの場合、遠隔コンピュータは、ユーザのコンピュータに、ローカルエリアネットワーク(LAN)もしくはワイドエリアネットワーク(WAN)を含む何らかの種類のネットワークを通して接続されてもよく、または、この接続が外部コンピュータに対して(たとえばインターネットサーバプロバイダを用いてインターネットを通して)なされてもよい。
以下、本発明の局面を、本発明の実施形態に従う方法、装置(システム)およびコンピュータプログラムプロダクトのフローチャートの図および/またはブロック図を参照しながら説明する。フローチャートの図および/またはブロック図の各ブロック、および、フローチャートの図および/またはブロック図のブロックを組み合わせたものは、コンピュータプログラム命令によって実現可能であることが理解されるであろう。これらコンピュータプログラム命令は、汎用コンピュータ、専用コンピュータ、または、他のプログラム可能なデータ処理装置のプロセッサに与えられてマシンを構成し、コンピュータまたは他のプログラム可能なデータ処理装置のプロセッサを介して実行される命令が、フローチャートおよびブロック図の1つまたは複数のブロックにおいて指定された機能/動作を実現するための手段を作成してもよい。
これらコンピュータプログラム命令はまた、コンピュータ、他のプログラム可能なデータ処理装置、または他の装置に特定のやり方で機能するよう指示することが可能な、コンピュータ読取可能な媒体に格納されたものであってもよく、それにより、コンピュータ読取可能な媒体に格納された命令が、フローチャートおよび/またはブロック図の1つまたは複数のブロックにおいて指定された機能/動作を実現する命令を含む製品を構成するようにしてもよい。
コンピュータプログラム命令はまた、コンピュータ、他のプログラム可能なデータ処理装置、または他の装置にロードされて、一連の動作ステップをこのコンピュータ、他のプログラム可能な装置、または他の装置上で実行させることにより、コンピュータによって実現されるプロセスを生成してもよく、それにより、コンピュータまたは他のプログラム可能な装置上で実行される命令が、フローチャートおよび/またはブロック図の1つまたは複数のブロックにおいて指定された機能/動作を実現するためのプロセスを提供するようにしてもよい。
図面におけるフローチャートおよびブロック図は、本発明のさまざまな実施形態に従うシステム、方法、およびコンピュータプログラムプロダクトの可能な実装例のアーキテクチャ、機能、および動作を示す。この点に関し、フローチャートまたはブロック図の各ブロックは、指定された論理機能を実現するための1つ以上の実行可能命令を含むモジュール、セグメント、またはコードの一部を表わし得る。なお、いくつかの代替実装例においては、ブロックに示される機能が、図面に示される順序と異なる順序で発生してもよい。たとえば、関係する機能に応じて、連続して示されている2つのブロックが実際はほぼ同時に実行されてもよく、または、これらのブロックが逆の順序で実行されることがあってもよい。また、ブロック図および/またはフローチャートの図の各ブロック、および、ブロック図および/またはフローチャートの図におけるブロックを組み合わせたものは、指定された機能もしくは動作、または、専用ハードウェアおよびコンピュータ命令を組み合わせたものを実行する専用ハードウェアに基づいたシステムによって実現することができる。
図1は、ある実施形態に従うアーキテクチャ100を示す。図1に示されるように、第1の遠隔ネットワーク104および第2の遠隔ネットワーク106を含む複数の遠隔ネットワーク102が与えられている。ゲートウェイ101は、遠隔ネットワーク102と近接ネットワーク108との間に接続されていてもよい。このアーキテクチャ100に関して、ネットワーク104、106は各々、インターネット、公衆電話交換網(PSTN)、内部電話網等のLAN、WANを含むがこれに限定されない形態を取り得る。
使用時、ゲートウェイ101は、遠隔ネットワーク102から近接ネットワーク108への入口のポイントとして機能する。このため、ゲートウェイ101は、ゲートウェイ101に到達した所与のデータパケットを導くことができるルータとして、および、所与のパケットに対してゲートウェイ101に出入りする実際の経路を与えるスイッチとして機能し得る。
ゲートウェイ101を介して遠隔ネットワーク102からアクセスすることが可能な、近接ネットワーク108に接続された少なくとも1つのデータサーバ114がさらに含まれる。なお、データサーバ114は、いずれかの種類の計算装置/グループウェアを含み得る。各データサーバ114に接続されているのは複数のユーザ装置116である。このようなユーザ装置116は、デスクトップコンピュータ、ラップトップコンピュータ、ハンドヘルドコンピュータ、プリンタ、またはその他の種類のロジックを含み得る。なお、ある実施形態において、ユーザ装置111もネットワークのいずれかに直接接続されていてもよい。
1つの周辺装置120または一連の周辺装置120、たとえば、ファクシミリ機、プリンタ、ネットワークされたおよび/またはローカル記憶ユニットまたはシステム等が、ネットワーク104、106、108のうちの1つ以上に接続されてもよい。なお、データベースおよび/またはその他構成要素が、ネットワーク104、106、108に接続された何らかの種類のネットワーク要素とともに使用されてもよく、またはこれに組込まれてもよい。本明細書の文脈において、ネットワーク要素は、ネットワークのいずれかの構成要素を意味し得る。
いくつかのアプローチに従うと、本明細書に記載の方法およびシステムは、仮想システム、および/または1つ以上の他のシステムをエミュレートするシステム、たとえばIBMのz/OS環境をエミュレートするUNIX(登録商標)システム、MICROSOFT WINDOWS(登録商標)環境を事実上ホストするUNIXシステム、IBMのz/OS環境をエミュレートするMICROSOFT WINDOWSシステム等とともに実現されてもよく、および/またはそのシステム上で実現されてもよい。この仮想化および/またはエミュレートは、いくつかの実施形態ではVMWAREのソフトウェアの使用を通して向上させてもよい。
さらに多くのアプローチにおいて、1つ以上のネットワーク104、106、108は、一般的に「クラウド」と呼ばれているシステムのクラスタを表わしていてもよい。クラウドコンピューティングでは、処理能力、周辺機器、ソフトウェア、データ、サーバ等の共有リソースが、クラウド内のシステムに、オンデマンドの関係で与えられることにより、多数の計算システム全体におけるアクセスおよびサービスの分配が行なえるようにしている。クラウドコンピューティングは、典型的にはクラウド内で動作するシステム間のインターネット接続を必要とするが、システムの他の接続技術を使用してもよい。
図2は、ある実施形態に従う、図1のユーザ装置116および/またはサーバ114に関連する代表的なハードウェア環境を示す。この図は、システムバス212を介して相互に接続されたマイクロプロセッサ等の中央処理装置210およびそれ以外の多数の装置を有するワークステーションの典型的なハードウェア構成を示す。
図2に示されるワークステーションは、ランダムアクセスメモリ(RAM)214と、読取専用メモリ(ROM)216と、ディスク記憶ユニット220等の周辺装置をバス212に接続するためのI/Oアダプタ218と、キーボード224、マウス226、スピーカ228、マイク232、および/またはタッチスクリーンおよびデジタルカメラ(図示せず)等の他のユーザインターフェイス装置をバス212に接続するためのユーザインターフェイスアダプタ222と、ワークステーションを通信ネットワーク235(たとえばデータ処理ネットワーク)に接続するための通信アダプタ234と、バス212をディスプレイ装置238に接続するためのディスプレイアダプタ236とを含む。
ワークステーションには、Microsoft Windows(登録商標)のオペレーティングシステム(OS)、MACのOS、UNIXのOS等のオペレーティングシステムが常駐していてもよい。好ましい実施形態は、上記のもの以外プラットフォームおよびオペレーティングシステム上でも実現し得ることが理解されるであろう。好ましい実施形態は、オブジェクト指向プログラミング技法とともに、JAVA、XML、C、および/またはC++言語、またはその他のプログラム言語を用いて記述されてもよい。複雑なアプリケーションの開発のために使用されることが増えているオブジェクト指向プログラミング(OOP)を用いてもよい。
アプリケーションがモバイル装置にインストールされてもよい、たとえば、装置の不揮発性メモリに格納されてもよい。あるアプローチにおいて、アプリケーションは、モバイル装置上で画像処理を実行させる命令を含む。別のアプローチにおいて、アプリケーションは、ネットワークサーバ等の遠隔サーバへ画像を送信させる命令を含む。さらに他のアプローチにおいて、アプリケーションは、モバイル装置上で処理のうちの一部またはすべてを実行するのか、および/または画像を遠隔サイトに送信するのかを決定させる命令を含み得る。
さまざまな実施形態において、ここに開示されている方法、システムおよび/またはコンピュータプログラムプロダクトは、ページ検出、矩形化、不均一な照明の検出、照明の正規化、解像度の推定、不鮮明検出等の機能を利用し得るおよび/または含み得る。
ページ検出のさまざまな実施形態
次に、ページ検出を実行するための代表的な技法を示す、ある代表的な実施形態について説明する。
あるアプローチでは、エッジ検出アルゴリズムが、デジタル画像の境界からこの画像の中心領域に向かって実行され、背景のプロパティに関してわかっているものと十分に異なるポイントを探す。
特に、画像内の背景は、同じモバイル装置によって取込まれても、毎回異なることがあるので、画像内の文書を識別する新たな技術を提供する。
本開示に従いカメラによって取込まれた画像の中のページエッジを発見することは、たとえばスキャナではなくモバイル装置を用いて取込まれた画像のプロパティの重要な相違に対処するのに役立つ。たとえば、射影効果が原因で、写真の中の矩形文書の画像は正確な矩形に見えない場合があり、画像内の文書の対向する辺は同一の長さでないことがある。第2に、最高のレンズであっても何らかの非線形性はあり、結果として、オブジェクト内の直線、たとえば実質的に矩形の文書の直線の辺が、取込まれたこのオブジェクトの画像ではわずかに曲がって見える。第3に、カメラを用いて取込まれた画像は、不均一な照明の効果を取込まれた画像に導入する傾向が非常に強い。照明が不均一である場合、文書を置くことができる面の背景は、完全に均一的であっても、画像の中では明るさに変動があるように見え、特にページが完全に平坦でない場合はページのエッジ周辺に影が出ることが多い。
代表的なアプローチでは、背景の中のこの変動をページエッジと間違えることを避けるために、現在のアルゴリズムは以下の機能のうちの1つ以上を利用する。
さまざまな実施形態において、画像のフレームは、周囲の背景を余白とする文書のデジタル表現を含む。好ましい実装例において、個々のページエッジの探索を、画像の行と列を外側から中に向かって解析するステップオーバーという手法で行なってもよい。ある実施形態では、このステップオーバー手法により、デジタル画像内に複数の解析ウィンドウを定めてもよい。本明細書で理解される解析ウィンドウは、1つ以上の「背景ウィンドウ」、すなわちデジタル画像の背景を描く画素のみを含むウィンドウと、1つ以上の「テストウィンドウ」、すなわちデジタル画像の背景、文書のデジタル表現、またはこれら双方を描く画素を含むウィンドウとを含み得る。
好ましい実施形態において、デジタル画像内の、文書のデジタル表現を、文書が置かれている表面の背景に対応する画像の余白の中に、第1の解析ウィンドウ、すなわち背景解析ウィンドウを定めることにより、検出してもよい。第1の解析ウィンドウの中では、複数の小さな解析ウィンドウ(たとえばテストウィンドウ)を第1の解析ウィンドウ内に定めてもよい。複数のテストウィンドウを用いて、背景を描写する1つ以上の統計的プロパティの1つ以上の分布を推定してもよい。
直前に述べた好ましい実施形態を引続き参照して、文書のデジタル表現の境界の検出における次のステップは、デジタル画像内の複数のテストウィンドウを定めることと、このデジタル画像の対応する領域を解析することとを含み得る。テストウィンドウごとに、画像の対応する領域を描写する1つ以上の統計値を計算してもよい。さらに、これら統計値を、背景を描写する統計値の対応する分布と比較してもよい。
好ましいアプローチにおいて、複数のテストウィンドウは、経路、特に直線経路に沿って定めてもよい。特に好ましいアプローチにおいて、複数のテストウィンドウは、たとえばデジタル画像の行と列に沿って、水平方向および/または垂直方向において定めてもよい。加えて、1ステップずつ進めることを採用することにより、テストウィンドウを、経路に沿って定め、および/または、行の間および/または列の間で定めてもよい。いくつかの実施形態において、1ステップずつ進めることを利用することで、文書検出プロセスの計算効率を有利に高め得ることは、当業者が本明細書を読めばわかるであろう。
加えて、最初の1ステップの大きさは、いくつかの実施形態では画像の解像度または画素サイズに基づいて推定してもよいが、このステップは、以下でさらに説明するように、文書の辺の確実な検出に有利であれば小さくしてもよい。
他の実施形態では、このアルゴリズムは、文書を囲む背景内に位置する大きな解析ウィンドウ内で発見された画像プロパティを描写するいくつかの統計値の分布を推定する。あるアプローチでは、複数の小さなウィンドウをこの大きな解析ウィンドウの中に定めてもよく、この小さなテストウィンドウを描写する統計値の分布を推定してもよい。ある実施形態において、大きな解析ウィンドウを、画像の左上の角等の、デジタル画像の背景領域内に定めてもよい。
背景画素を描写する統計値は、最小値、最大値、中央値、平均値、値の広がりすなわち範囲、分散、標準偏差等の、デジタル画像データから生成することができる何らかの統計値を含み得る。このことは、当業者が本明細書を読めばわかるであろう。たとえば赤‐緑‐青すなわちRGB、シアン‐マゼンタ、黄色、黒すなわちCMYK、色相、彩度、明度すなわちHSV等の、1つ以上の色チャネル内の明度の値といったデジタル画像を描写するデータから、値をサンプリングしてもよい。このことは、当業者が本明細書を読めばわかるであろう。
小さな解析ウィンドウは各々、大きな解析ウィンドウ内の複数の画素のサブセットを含み得る。加えて、小さな解析ウィンドウは、大きな解析ウィンドウの境界内に収まることができるのであればどのような大きさおよび/または形状であってもよい。好ましい実施形態において、小さな解析ウィンドウは、矩形形状を特徴としてもよく、さらに好ましくは、第1の方向(たとえば高さ)は3画素の長さで第2の方向(たとえば幅)は7画素の長さであることを特徴とする矩形を特徴としてもよい。当然ながら、これ以外の小さな解析ウィンドウのサイズ、形状、および寸法も今回開示される処理アルゴリズムの実現に適する。
ある実施形態において、テストウィンドウを用いて画像を解析しこの画像内に描かれた文書のデジタル表現の境界を検出してもよい。背景ウィンドウは、背景の元の統計的プロパティの推定および/または背景の局所統計的プロパティの再推定に使用される。再推定は、不均一な照明および/または背景のテクスチャのばらつき等のアーティファクトに対処するために必要および/または有利であろう。
好ましくは、いくつかのアプローチにおいて、統計的推定を、文書ページの外側の余白内の大きな解析ウィンドウの中にある複数の小さな解析ウィンドウのうちのいくつかまたはすべてに対して行なってもよい。このような推定は、大きな解析ウィンドウ内の小さな解析ウィンドウを1ステップずつ移動させることを利用して行なってもよく、1ステップずつの移動は、所与の1画素に対して取るサンプル数を変えるために適切に増分して行なってもよい。たとえば、計算効率を高めるために、解析プロセスにより、各画素が一回サンプリングされることを保証するのに十分な数の小さな解析ウィンドウを大きな解析ウィンドウの中に定めてもよい。よって、この計算上効率的なアプローチにおいて定められる複数の小さな解析ウィンドウは、境界を共有するが重なり合わない。
統計的推定のロバスト性を高めるために設計された別のアプローチでは、解析プロセスにより、たとえば連続して定められている小さな解析ウィンドウ間で所与の方向に1つの画素シフトのみが生じるように1ステップを小さくすることによって、各画素が最大回数サンプリングされることを保証するのに十分な数の小さな解析ウィンドウを大きな解析ウィンドウの中に定めてもよい。当然ながら、ここで開示されている処理アルゴリズムのさまざまな実施形態において1ステップのどのような増分量を用いてもよい。このことは当業者が本明細書を読めばわかるであろう。
デジタル画像内の局所的背景の統計値を再推定するのに使用される大きな解析ウィンドウと、テストウィンドウは、所望の方法でデジタル画像内に配置すればよい。
たとえば、ある実施形態に従うと、所与の行iにおける左側のエッジの探索は、所与の行iを中心とする画像の左辺上のフレーム境界に隣接する大きな解析ウィンドウ内の上記統計値の計算から始まる。
さらに他の実施形態では、このアルゴリズムが画像の外側領域からその内側領域に向かって進むときに存在し得る背景ではないテストウィンドウ(たとえば、推定統計値が最後にわかった局所的背景の統計的特性の分布と似ていないテストウィンドウ)に遭遇したとき、このアルゴリズムは、いくつかの実施形態では、以前に求めた背景領域に戻り、新たな大きな解析ウィンドウを形成し、小さな解析ウィンドウ内の選択された統計値と大きな解析ウィンドウ内の対応する統計値の局所的分布との差の妥当性を再評価するために、背景統計値の分布を再度推定してもよい。
当業者が本明細書を読めばわかるように、このアルゴリズムは、さまざまなやり方で、画像の外側領域から画像の内側領域に進み得る。たとえば、あるアプローチでは、このアルゴリズムはテストウィンドウを実質的に螺旋パターンで定める。他のアプローチでは、このパターンは、垂直方向または水平方向いずれかに沿い実質的に蛇行していてもよい。さらに他のアプローチでは、このパターンは実質的に屋根板状のパターンであってもよい。このパターンはまた、チェックボードパターン、垂直方向、水平方向、または対角線方向のストライプパターン、同心形状等の、デジタル画像の一部またはすべての上に置かれた「連続マスク」によって定めてもよい。このことは当業者が本明細書を読めばわかるであろう。他の実施形態では、大きな解析ウィンドウおよび/または小さな解析ウィンドウ等の解析ウィンドウを、デジタル画像全体において、何らかの規定された手順に従い、ランダムに、疑似ランダムに、総計的に等のやり方で、定めてもよい。このことは当業者が本明細書を読めばわかるであろう。アルゴリズムは、経路によって既知の背景に戻ることができかつ経路が所望の粒度の画像全体をカバーする限り、所望のやり方で一連のテストウィンドウを続けることができる。
好都合なことに、このようにして統計値を再計算することは、さもなければ画像内の非背景ポイント(たとえば外れた候補エッジポイント)の間違った識別につながり得る、デジタル画像および/または背景に固有の照明ドリフトに対処するのに役立つ。
さらに他の実施形態において、相違が統計的に妥当であるとき、アルゴリズムは、木目、表面上の擦り傷、表面のパターン、小さな影等の、背景のテクスチャの小さなばらつきを再度調べてバイパスするために、その経路にさらに沿って一定の距離ジャンプしてもよい。このことを当業者は本明細書を読めば理解するであろう。
その他のおよび/または代替の実施形態において、潜在的な非背景ポイントが発見された後、このアルゴリズムは、ポイントが影のエッジにあるか否か判断し(特にページのエッジが背景面よりも高い場合の可能性)、実際のページエッジに到達しようとする。このプロセスは、影は通常実際のエッジに向かって濃くなり続いて画像が突然明るくなるという観察に依拠する。
上記ページエッジ検出のためのアプローチが利用されていた理由は、標準的なエッジ検出器がいくつかの理由から不要であり望ましくないものでさえある場合があるからである。第1に、ほとんどの標準エッジ検出器は、時間のかかる作業を必要としており、第2に、このアルゴリズムは、エッジがどれほど細いか、エッジがどの方向に沿っているか等のモニタリングのような他の要件には関係していない。さらに重要なのは、ページエッジを探すことは、必ずしもエッジ検出そのものを伴わない、すなわち、本開示に従うページエッジ検出は、文書境界(たとえばページエッジ)を探索するのではなく背景から文書への移行に関連する画像特性を探索するやり方で行なえばよいことである。たとえば、この移行は、光沢紙内のオフホワイトの明度レベルが平坦になること、すなわち、平均グレーまたはカラーレベルではなくテクスチャの変化を特徴とし得る。
結果として、本質的に格子上の各行および列における最初と最後の非背景画素である候補エッジポイント(たとえば候補エッジポイント)を得ることが可能である。ランダムな外れ値を取除くために(たとえば外れ候補エッジポイント)、かつ、どの候補エッジポイントがページの各辺に対応するか判断するために、あるアプローチでは近傍の候補エッジポイントを解析することが有用である。
ある実施形態において、「ポイント」は、当業者が本明細書を読めばわかるように、画素、画素と画素の間の位置(たとえば2画素×2画素の正方形の中心等のフラクショナル座標を有するポイント)、画素の小さなウィンドウ等の、デジタル画像内のある領域とみなし得る。好ましい実施形態において、候補エッジポイントは、局所的背景を描写する統計値の分布と異なると判断された統計値によって特徴付けられることがわかっているテストウィンドウ(たとえば3画素×7画素のウィンドウ)の中心と関連付けられる。
本明細書においてわかるように、「近傍の」候補エッジポイントまたは「近傍の」画素はそれぞれ、対象ポイントまたは画素(たとえば画素)に近いまたは隣接するポイントまたは画素であるとみなされる。これはたとえば、対象ポイントまたは画素の境界に少なくとも一部沿って位置するポイントまたは画素、対象ポイントまたは画素のしきい値距離内(所与の方向における2、10、64画素以内等、対象ポイントまたは画素から1行以内、対象ポイントまたは画素から1列以内等)に位置するポイントまたは画素等である。これは当業者が本明細書を読めば理解するであろう。好ましいアプローチにおいて、「近傍」ポイントまたは画素は、特定の方向、たとえば水平方向および/または垂直方向に沿って対象ポイントに最も近い候補エッジポイントであってもよい。
各「優良」エッジポイントは、理想的には真隣に少なくとも2つのポイント(両側に1つずつ)があり、これら隣のポイントをつなぐ直線の線分から遠く外れていない。この「優良」エッジポイント、たとえば候補エッジポイントと真隣の少なくとも2つのポイントは、線形回帰に適合していてもよく、その結果が0.95以上の決定係数(R)によって特徴付けられてもよい。この線分の、デジタル画像の1以上の境界に対する角度は、その相対的な位置とともに、ページの上辺、左辺、右辺、および左辺のいずれにこのエッジポイントが割当てられるかを決める。好ましい実施形態において、候補エッジポイントおよび2つの近傍エッジポイントは、三角形の角それぞれ割当てられてもよい。候補エッジポイントおける三角形の角度が180度に近ければ、この候補エッジポイントは「優良」エッジポイントとみなし得る。候補エッジポイントにおける三角形の角度がしきい値(20度以上等)よりも大きい角度分180度から大きく外れていれば、この候補エッジポイントは一組の「優良」エッジポイントから除外してもよい。この発見的方法(heuristic)の背後にある原理は、マトリクス内の最初と最後の非背景画素の判断におけるランダム誤差をなくしたいという要望に基づいている。これらの画素が同じラインに存在することは起こりにくいので、距離と方向という観点から近傍のものを調べることは、いくつかのアプローチにおいて特に好都合である。
速度のために、格子のマス目の数は、32等の大きな数から始めてもよいが、2分の1にしてエッジポイントの探索を、ページの辺の最小二乗平均(LMS)ベースの等式を求めるのに十分になるまで繰返す(下記参照)。このプロセスが、画像内のすべての行と列を用いた後でも辺を確実に求めることができない場合は、あきらめて画像全体をページとして扱う。
ページの辺の等式は、ある実施形態では下記のように求められる。第1に、アルゴリズムは、最良のLMS直線を、LMS線から短い距離の中にサポートしている残りのエッジすべてが入るまで最悪の外れ値を除外するという手法を用いて、辺各々に適用する。たとえば、文書の特定の境界に沿う複数の候補エッジポイントをつなぐ実質的に真直ぐな線から最大距離にあるポイントを、「最悪」の外れ値と指定してもよい。この手順を反復して繰返すことにより、複数の候補エッジポイントから1つ以上の「最悪」外れ値を指定および/または排除してもよい。いくつかのアプローチにおいて、複数の候補エッジポイントをつなぐ線から候補エッジポイントが外れているであろう距離は、少なくとも一部、デジタル画像のサイズおよび/または解像度に基づく。
この線がこの線の範囲全体に沿って十分にサポートされていない場合、アルゴリズムは、最良の二次多項式(放物線)を、同じ元の候補ポイントに適用しようとしてもよい。最良の放物線を発見することと、最良の直線を発見することとのアルゴリズム的な差は、重要ではなく、直線の方向およびオフセットを決める2つの未知の係数の代わりに、放物線の曲率、方向、およびオフセットを決める3つの係数があるが、ある実施形態では、他の点についてはプロセスは実質的に同一である。
特に候補エッジの範囲の両端により近い場所で、放物線のサポートが直線のサポートよりも強力であれば、結論として、アルゴリズムは、画像内のページの辺のより優れたモデルとして放物線の方が好ましいとみなすはずである。そうでなければ、さまざまなアプローチにおいて線形モデルを採用する。
発見された文書の4辺の交点を、ページの四角形(たとえば以下で詳細に説明する四角形)の角(わずかに湾曲している可能性がある)を発見するために計算してもよい。好ましい実装例では、これらの角を発見するために、3つのケースを考慮する必要がある。すなわち、二本の直線の交点の計算、一本の直線と放物線との交点の計算、および二本の放物線の交点の計算である。
第1のケースでは、(ページの上辺と下辺は大抵の場合水平方向に延びておりページの右辺と左辺は大抵の場合垂直方向に延びているので)解は1つであり、この解によって、対応するページの角の座標が決まる。
第2のケースの、直線と放物線の交点の計算は、少しだけより複雑であり、結果として得られる二次方程式の解は、ゼロ、1つ、または2つである可能性がある。交点がないということは、ページ検出の致命的な問題を示している可能性があり、その結果を不採用にしてもよい。解が1つというのは起こりにくいが、さらに他の問題はない。2つの交点は、選択肢を示し、この場合、フレームの対応する角により近い交点が、より優れた候補であり、実際、この式の他方の解は、画像フレームの座標範囲から非常に大きく離れている可能性がある。
第3のケースの、二本の放物線の計算は、結果として、(原則的に)分析的に解くことができる四次の多項式となる。しかしながら、実際、解を得るのに必要な計算の数は、所望のサブ画素精度をも保証する近似反復アルゴリズムの場合よりも多いかもしれない。
以下、この目的のために使用されるある代表的な手順について、あるアプローチに従う文書のデジタル表現の矩形化を参照しながら詳細に説明する。
結果として得られる、目標四角形(たとえば以下で詳細に説明する四角形)の妥当性には、いくつかの制約がある。すなわち、この四角形は小さすぎる(たとえば画像の総面積の25%等の所望の値の予め定められたしきい値を下回る)ことがないのが好ましく、この四角形の角は、画像のフレームの外側のより遠いところにないことが好ましく(たとえば100画素以内)、角自体、好ましくは、四角形の内側で対角線が交差する状態等で、左上、右上、左下、および右下の角として解釈できることが好ましいはずである。これらの制約が満たされていなければ、ある実施形態において、所与のページ検出結果は採用されないかもしれない。
文書のデジタル表現の、検出された四角形が妥当である、ある代表的な実施形態において、アルゴリズムは目標とする矩形を求めてもよい。目標とする矩形の幅および高さは、四角形の上辺と下辺の平均値および左辺と右辺の平均値にそれぞれ設定してもよい。
ある実施形態において、スキュー補正を実行する場合、目標とする矩形のスキュー角をゼロに設定してページの辺が水平方向と垂直方向になるようにしてもよい。そうでなければ、スキュー角を、水平軸に対する上辺と下辺の角度および垂直軸に対する左辺と右辺の角度の平均に設定してもよい。
同様のやり方で、クロップ補正を実行しない場合は、目標とする矩形の中心を、四角形の4つの角の座標の平均値に一致するように設計してもよい。他の実施形態では、そうでなければ、この中心を、目標とする矩形が最終的に画像フレームの左上に収まるように、計算してもよい。
いくつかのアプローチにおいて、ページ検出結果が何らかの理由で採用されない場合、上記プロセスのいくつかまたはすべてのステップを、ステップの増分をより小さくして繰返し、より多くの候補エッジポイントを取得し、好都合にはより信頼できる結果を得てもよい。最悪のケースのシナリオではステップを最小にしても問題はなくならず、検出されたページを画像フレーム全体に設定して元の画像を手つかずの状態のままにしてもよい。
次に、本明細書に記載の発明のページ検出の実施形態の代表的な実装例を特に参照すると、あるアプローチにおいて、ページ検出はこのような方法を実行することを含む。当業者が本明細書を読めば理解するように、この方法は、本明細書に記載され本開示とともに与えられる図面のうちのいずれかに示される環境を含むいずれの環境でも実施し得る。
ある実施形態において、デジタル画像の背景から文書のデジタル表現への移行部に対応する、複数の候補エッジポイントを定める。
さまざまな実施形態において、動作時に複数の候補エッジポイントを定めることは、以下で述べる動作等の1つ以上の他の動作を含み得る。
ある実施形態に従うと、大きな解析ウィンドウ(たとえば大きな解析ウィンドウ)が、デジタル画像の中に定められる。好ましくは、第1の大きな解析ウィンドウが、デジタル画像背景の複数の画素を示すが非背景(たとえば文書のデジタル表現)は示さない領域の中に定められる。これは、デジタル画像背景の特性を示す情報を、非背景(たとえば、以下でより詳細に説明する背景統計値等の、文書のデジタル表現)の特性を示す情報との比較対象を目的として取得するためである。たとえば、第1の大きな解析ウィンドウをデジタル画像の角(左上の角等)に定めてもよい。当然ながら、第1の大きな解析ウィンドウを、本開示の範囲から逸脱することなく、デジタル画像のどの部分に定めてもよい。
加えて、当業者が本明細書を読めば理解するように、この大きな解析ウィンドウはどのようなサイズであってもよく、および/または適切などのような寸法で特徴付けられてもよいが、好ましい実施形態において、大きな解析ウィンドウは、高さがおよそ40画素で幅がおよそ40画素である。
特に好ましいアプローチにおいて、大きな解析ウィンドウは、デジタル画像の角領域に定めてもよい。たとえば、デジタル画像は、複数の辺を有する文書のデジタル表現と、背景とを含む。上記のように、大きな分析ウィンドウは、複数の背景画素を含むが文書のデジタル表現に対応する画素は含まない領域に定めてもよい。加えて、大きな分析ウィンドウは、いくつかのアプローチではデジタル画像の角に定めてもよい。
ある実施形態に従うと、複数の小さな解析ウィンドウを、大きな解析ウィンドウの中等、デジタル画像の中に定めてもよい。この小さな解析ウィンドウは、1つ以上の他の小さな解析ウィンドウと少なくとも一部重なり合って、1つ以上の重なり合う領域を含むことを特徴としてもよい。好ましいアプローチにおいて、可能なすべての小さな解析ウィンドウが大きな解析ウィンドウの中に定められる。当然ながら、小さな解析ウィンドウは、デジタル画像のいずれか一部分の中に定めてもよく、好ましくは、小さな解析ウィンドウは、小さな解析ウィンドウ各々が1つの中心画素を特徴とするように定めてもよい。
動作時、ある実施形態に従うと、1つ以上の統計値が、1つ以上の小さな解析ウィンドウ(たとえば大きな解析ウィンドウ内の1つ以上の小さな解析ウィンドウ)について計算されて、対応する統計値の1つ以上の分布(たとえば複数の小さな解析ウィンドウ全体における推定された統計値の分布)が推定される。別の実施形態では、統計値の分布を、1つ以上の大きな解析ウィンドウ全体で推定して任意で併合してもよい。
加えて、値は、当業者が本明細書を読めば理解するように、背景明度値、背景色チャネル値、背景テクスチャ値、背景濃淡値、背景コントラスト値、背景鮮明値等の、デジタル画像の背景に関連する特徴を描写するものであればよい。加えて、さらに、統計値は、大きな解析ウィンドウの中の複数の小さなウィンドウ上のデジタル画像背景を描く複数の画素からなる1つ以上の色チャネルにおける最小値、最大値および/または明度値の範囲を、含み得る。
動作時、ある実施形態に従うと、背景統計値の1つ以上の分布が推定される。統計値の分布を推定することにより、たとえば大きな解析ウィンドウの中のデジタル画像の背景のプロパティを特徴付ける記述的分布を得ることができる。
この分布は、好ましくは、小さな解析ウィンドウ各々について計算された背景統計値に対応し、たとえば、明度最小値の分布、明度最大値の分布等を含み得る。当業者が本明細書を読めば理解するように、この分布から、最小明度値の最小値および/または最大値、最小明度値の最小値および/または最大値、明度値の最小および/または最大の広がり、最小色チャネル値の最小値および/または最大値、最大色チャネル値の最小値および/または最大値、色チャネル値の最小および/または最大の広がり等の分布統計記述子を得ることができる。当然ながら、計算された背景統計値(たとえば明度値、色チャネル値、コントラスト値、テクスチャ値、濃淡値、鮮明値等)のうちのいずれかをまとめて分布にし、この分布を描写する何らかの値を、本開示の範囲から逸脱することなく採用してもよい。
動作時、ある実施形態に従うと、解析ウィンドウ等の大きな解析ウィンドウがデジタル画像の中に定められる。
加えて、ウィンドウの形状は、デジタル画像の一部としてウィンドウの境界を陽画的に設定することによって定めてもよく、たとえばデジタル画像にマスクを適用しマスクされていないデジタル画像の領域を解析ウィンドウとして定めることによって陰画的に定めてもよい。加えて、特にデジタル画像にマスクを適用することによって陰画的にウィンドウを定める実施形態では、ウィンドウをパターンに従って定めてもよい。当然ながら、本開示の範囲から逸脱することなく、ウィンドウを定める他のやり方を採用してもよい。
動作時、ある実施形態に従うと、解析ウィンドウに対して1つ以上の統計値を計算する。加えて、好ましい実施形態では、各解析ウィンドウ統計値は、大きな解析ウィンドウついて推定された背景統計値の分布に対応する。たとえば、ある実施形態において、最大明度は、背景明度の最大値の分布に対応し、最小明度は、背景明度の最小値の分布に対応し、明度の広がりは背景明度の広がりの分布に対応する等であり、このことは、当業者が本明細書を読めば理解するであろう。
動作時、ある実施形態に従うと、少なくとも1つの解析ウィンドウ統計値と、対応する背景統計値の分布との間に、統計学的に有意である相違があるか否か判断する。当業者が本明細書を読めば理解するように、統計学的に有意である相違があるか否かの判断は、当業者が本明細書を読めば理解するように、p値、z検定、カイ二乗分布等の周知の統計学的有意性の評価方法または基準を用いて実施すればよい。
動作時、ある実施形態に従うと、画素を表わす値と対応する背景統計値の分布との間に統計的に有意である相違が存在する解析ウィンドウ内の1つ以上のポイント(たとえば中心画素またはポイント)を、候補エッジポイントとして指定する。この指定は、画素に対応するフラグを設定する、画素の座標を格納する、画素座標のアレイを作成する、画素を表わす1つ以上の値(明度、色相、コントラスト等)を変更する、またはそれ以外の適切な手段等の、当該技術では周知の何らかの方法によって行なえばよい。
ある実施形態に従うと、1つ以上の動作を一回以上繰返してもよい。好ましい実施形態において、複数のこのような繰返しを行なってもよく、各繰返しは、デジタル画像の異なる部分に対して行なう。好ましくは、この繰返しを、文書のデジタル表現の各辺が評価されるまで行ってもよい。さまざまなアプローチにおいて、解析ウィンドウを定めると、結果として、1つ以上の境界を共有する複数の解析ウィンドウ、全体または一部が重なり合う複数の解析ウィンドウ、および/または共有する境界がなく重なり合ってもいない複数の解析ウィンドウ等が、得られるであろう。このことは、当業者が本明細書を読めば理解するであろう。
特に好ましい実施形態において、この複数の繰返しは、潜在的な非背景ウィンドウ(たとえば候補エッジポイントを含むウィンドウまたは不均一な照明、背景テクスチャのばらつき等のアーティファクトを含むウィンドウ等)を検出したときに、局所的背景の統計値を再推定することに関連するやり方で行なってもよい。
動作時、ある実施形態に従うと、四角形の四辺を、複数の候補エッジポイントに基づいて定める。好ましくは、四角形の辺は、デジタル画像内の文書のデジタル表現のエッジを含む。四角形の辺を定めることは、いくつかのアプローチにおいて、1以上の最小二乗平均(LMS)近似を実行することを含み得る。
他のアプローチにおいて、四角形の辺を定めることは、1つ以上の外れ候補エッジポイントを識別することと、複数の候補エッジポイントから1つ以上の外れ候補エッジポイントを取除くこととを含み得る。さらに、四角形の辺を定めることは、1つ以上の外れ候補エッジポイントを除外する少なくとも1つの他のLMS近似を実行することを含み得る。
さらに、ある実施形態において、四角形の各辺は、一クラスの関数から選択された等式によって特徴付けられ、少なくとも1つのLMS近似を実行することは、好ましい実装例における二次多項式の最良の係数等の1つ以上の係数を各等式について求めることを含む。これらアプローチに従うと、四角形の辺を定めることは、文書のデジタル表現の各辺が、二次多項式、または二次多項式ではなく線形関数等のより単純な関数のような、所与の一クラスの関数に含まれるか否か判断することを含み得る。
好ましいアプローチにおいて、方法を実行することにより、文書の主要な四辺の周りに四角形を正確に定める一方で、裂け目および/または出っ張り等の文書の主要な四辺から外れている1つ以上の部分を無視してもよい。
ここで開示されている四角形のその他のおよび/または代替の実施形態は、四辺を有することによって特徴付けられてもよく、各辺は上記多項式関数等の1つ以上の等式によって特徴付けられる。たとえば、四角形の辺が2以上の等式によって特徴付けられる実施形態は、1つ以上の辺を複数の線分に分割することを含んでいてもよく、各線分は、上記多項式関数等の等式によって特徴付けられる。
四角形を定めることは、さまざまな実施形態において、代替的におよび/またはさらに、四角形の1つ以上の角を定めることを含み得る。たとえば、四角形の角は、四角形の隣合う辺の1つ以上の交点を計算し、複数の交点が計算された場合は計算された複数の交点から適切な交点を指定することによって定めてもよい。他の実施形態において、角を定めることは、1つ以上の等式を解くことを含み得る。各等式は、N次多項式等の選択されたクラスの関数に属することによって特徴付けられる。このことは当業者が本明細書を読めば理解するであろう。
さまざまな実施形態において、四角形の角は、四角形の二本の湾曲した隣合う辺の交点、二本の実質的に直線の交点、および一本の実質的に直線と一本の実質的に曲線との交点のうちの1つ以上によって定められてもよい。
動作時、ある実施形態に従うと、文書のデジタル表現と四角形とがモバイル装置のディスプレイに出力される。出力は、どのようなやり方で行なわれてもよく、モバイル装置のハードウェアおよび/またはソフトウェアの構成に依存していてもよい。
加えて、出力は、さらなる処理および/または出力とユーザとの対話を簡単にするように、さまざまなアプローチで行ない得る。たとえば、ある実施形態において、たとえば四角形の辺を特定の色、パターン、照明モチーフで表示する、動画として表示する等により、この四角形をデジタル画像の他の特徴から区別するように設計されたやり方で、四角形を表示してもよい。このことは当業者が本明細書を読めば理解するであろう。
さらに、いくつかの実施形態において、四角形と文書のデジタル表現とを出力すると、ユーザは適切なやり方で四角形を手動で調整および/または規定し易くなるであろう。たとえば、ユーザは、モバイル装置のディスプレイと対話することによって、四角形のアスペクト比、形状、エッジの長さ、面積等を維持しながら、四角形を移動させてもよい、すなわち四角形の位置を1以上の方向に動かしてもよい。加えておよび/または代替的に、ユーザはモバイル装置のディスプレイと対話することによって、四角形の角の位置を手動で規定または調整してもよく、たとえば、四角形の角を叩きこの角をデジタル画像内の所望の位置、たとえば文書のデジタル表現の角等にドラッグしてもよい。
ページ検出の理想的な結果の具体的な一例を再び参照すると、デジタル画像内に文書のデジタル表現があり、四角形がこの文書のデジタル表現のエッジを囲んでいる。
いくつかのアプローチにおいて、上記のようなページ検出は、以下で説明するような1つ以上の追加のおよび/または代替の動作を含み得る。
あるアプローチにおいて、方法は、文書のデジタル表現を含む画像データおよびこの文書のデジタル表現に関連する音声データのうちの1つ以上を取込むことをさらに含み得る。取込みは、当業者が本明細書を読めば理解するように、マイク、カメラ、加速度計、センサ等の、モバイル装置に接続された1つ以上の取込み部品を用いて行なってもよい。
別のアプローチにおいて、方法は、新たな大きな解析ウィンドウを定めることと、統計学的に有意である相違が存在すると判断すると、この新たな大きな解析ウィンドウの背景統計値の分布を再推定することとを含み得る。すなわち、本質的には動作を繰返す、および/または文書のエッジに近いポイント等の潜在的な非背景ポイントが識別されたポイントに近いデジタル画像の異なる領域において動作を繰返す。
いくつかの代表的な実施形態において、大きな解析ウィンドウを、1つの行における左端の非背景画素の近くまたはこの画素に配置してもよく、または、1つの行における右端の非背景画素の近くまたはこの画素に配置してもよく、1つの列における上端の非背景画素の近くまたはこの画素に配置してもよく、または、1つの列における下端の非背景画素の近くまたはこの画素に配置してもよい。
このような再推定を含むアプローチはさらに、少なくとも1つの小さな解析ウィンドウ(たとえばテストウィンドウ)の統計値と対応する大きな解析ウィンドウの統計値の再推定された分布との間に統計学的に有意である相違があるか否か判断することを含み得る。このようにして、統計学的に有意である相違が存在するか否かをより信頼性高く判断することが可能であり、したがって、デジタル画像背景から文書のデジタル表現への真の移行と、たとえばデジタル画像内のテクスチャのばらつき、照明の以上、および/またはその他のアーティファクトとを、より明確に区別することが可能である。
加えて、上記の再推定を実行してもしなくても、方法においてデジタル画像内の照明および/またはテクスチャ等のばらつきといった1つ以上のアーティファクトを回避し易くすることができる。このアーティファクトは、デジタル画像背景から文書のデジタル表現への真の移行に対応するものではない。いくつかのアプローチにおいて、アーティファクトの回避は、デジタル画像の1つ以上の領域(たとえばテクスチャ、ばらつき等によって特徴付けられる領域であって真の背景と区別される領域)をバイパスするという形態で行なってもよい。
いくつかのアプローチにおいて、大きな解析ウィンドウについて推定された統計学的分布と、小さな解析ウィンドウについて計算された対応する統計値との間に統計学的に有意である相違があると判断され、小さな解析ウィンドウの近くに新たな大きな解析ウィンドウを定め、この新たな大きな解析ウィンドウについて統計値の分布を再推定し、再推定された統計学的分布と小さな解析ウィンドウについて計算された対応する統計値との間には統計学的に有意な相違はないと判断されたときに、1つ以上の領域をバイパスしてもよい。
他のアプローチにおいて、バイパスを、さらに経路に沿って別の解析ウィンドウを検査し、たとえば統計学的有意性の検定によって示される、検査されたウィンドウの統計値が背景の既知の統計学的プロパティと大きな相違がないという判断がなされたときに、非背景部への移行の探索を再開することによって、行なってもよい。
当業者が本明細書を読めば理解するように、バイパスは、さらに経路に沿って別の解析ウィンドウを検査することによって行なってもよい。
さらに他のアプローチにおいて、ページ検出は、さらにおよび/または代替的に、四角形が1つ以上の品質管理メトリクスを満たすか否か判断することと、四角形が品質管理基準のうちの1つ以上を満たさないと判断されるとこの四角形を採用しないこととを含み得る。加えて、品質管理メトリクスは、LMSサポートメトリクス、最小の四角形の面積のメトリクス、四角形の角の位置のメトリクス、および四角形の対角線の交点の位置のメトリクス等の尺度を含み得る。
実際、四角形がこれらメトリクスのうちの1つ以上を満たすか否かの判断は、方法の実施についての検査の役割を果たす。たとえば、検査は、四角形がデジタル画像全体の面積の少なくともしきい値をカバーするか否か、たとえば、四角形が画像の総面積の少なくとも25%を含むか否かの判断を含み得る。さらに、検査は、四角形の対角線が四角形の境界の内側で交差するか否か判断すること、LMS近似のうちの1つ以上が、そこから得られる統計値のロバストな信頼度を得るのに十分なデータから計算されたか否かを判断すること、すなわち、LMS近似に十分な「サポート」(さまざまなアプローチにおいて少なくとも5つのデータポイント、または、データポイントの総数の少なくとも四分の一から計算された近似等)があるか否か判断すること、および/または(四角形の各辺を特徴付ける等式によって定められる)四角形の角の位置がデジタル画像のエッジのしきい値距離内に存在するか否か判断すること、たとえば、四角形の角が所与の方向においてデジタル画像のエッジから100画素を超える画素離れているか否か判断することを、含み得る。当然ながら、当業者が本明細書を読めば理解するように、これら開示の範囲から逸脱することなく、他のメトリクスおよび/または検査を使用してもよい。
あるアプローチにおいて、品質メトリクスおび/または検査により、最適ではない四角形の定義を不採用にすることを容易にすることができ、さらに、四角形の辺の定義を改善することを容易にすることができる。たとえば、あるアプローチは、複数の候補エッジポイントに基づいて四角形の四辺を定めたがこれは有効な四角形を定めていない、すなわち品質管理メトリクスのうちの1つ以上を満たさないという表示を受けることと、複数の候補エッジポイントを再度定めることとを含む。特に、この実施形態において、複数の候補エッジポイントを再度定めることは、デジタル画像内の、失敗した先の試みでサンプリングしたポイントの数よりも多い数のポイントをサンプリングすることを含む。これは、あるアプローチでは、デジタル画像の行または列のうちの1つ以上に対するステップを減じ、より多くの数の候補エッジポイントを解析するためにアルゴリズムのステップすべてを繰返すことによって、可能であろう。このステップは、垂直方向において減じてもよく、水平方向において減じてもよく、または両方の方向において減じてもよい。当然ながら、候補エッジポイントを再度定めるおよび/またはデジタル画像内のポイントを再度サンプリングするための他の方法を、本開示の範囲から逸脱することなく利用してもよい。
さらに、特に方法を複数回繰返しデジタル画像解析全体において進行のステップを大幅に小さくしても有効な四角形を定められない場合、ページ検出は、デジタル画像全体を文書のデジタル表現として指定することを含み得る。あるアプローチにおいて、デジタル画像全体を文書のデジタル表現として指定することは、画像の角を文書の角として定めること、画像の辺を文書の辺として定めること等を含み得る。このことは、当業者が本明細書を読めばわかるであろう。
本明細書に記載の、四角形の対角線は、この四角形の計算された左上の角と計算された右下の角とを結ぶ第1の直線と、この四角形の計算された右上の角と計算された左下の角とを結ぶ第2の直線によって特徴付けてもよい。
さまざまなアプローチにおいて、上記動作のうちの1つ以上をプロセッサを用いて実行してもよく、プロセッサは、モバイル装置、特に一体化されたカメラを有するモバイル装置の一部であってもよい。
矩形化
この説明は、デジタル画像内の文書のデジタル表現を矩形化することに関し、そのさまざまなアプローチについて以下で詳細に説明する。
ある実施形態において、矩形化アルゴリズムの目的は、四角形(上記ページ検出方法において定義したもの等)を矩形(同様)にスムーズに変換することである。特に、四角形は複数の等式によって特徴付けられ、各等式は、四角形の一辺に対応し、選ばれたクラスの関数から選択される。たとえば、四角形の各辺は、一次多項式、二次多項式、三次多項式等によって特徴付けられてもよく、このことは当業者が本明細書を読めば理解するであろう。
あるアプローチにおいて、四角形の辺は等式によって説明してもよく、好ましい実施形態において、四角形の左辺は二次多項式x=a*y+a*y+aによって特徴付けられ、四角形の右辺は二次多項式x=b*y+b*y+bによって特徴付けられ、四角形の上辺は二次多項式y=c*x+c*x+cによって特徴付けられ、四角形の下辺は二次多項式y=d*x+d*x+dによって特徴付けられる。
以下に示すページ矩形化アルゴリズムの説明では、四角形の中の、複数の四角形ベースの固有座標対(p,q)の定義を利用する。各固有座標対(p,q)は、左辺と右辺の等式から、上下方向の曲線の係数比におけるすべての対応する係数p〜1−pを組み合わせることによって得られる等式によって特徴付けられる上下方向の曲線と、上辺と下辺の等式から、左右方向の曲線の係数比におけるすべての対応する係数q〜1−qを組み合わせることによって得られる等式によって特徴付けられる左右方向の曲線との交点に対応し、0≦p≦1、0≦q≦1である。
四角形の辺が二次多項式によって特徴付けられる好ましい実施形態において、固有座標pに対応する上下方向の曲線は、等式x=((1−p)*a+p*b)*y+((1−p)*a+p*b)*y+((1−p)*a+p*b)によって特徴付けられ、固有座標qに対応する左右方向の曲線は、等式y=((1−q)*c+q*d)*y+((1−q)*c+q*d)*y+((1−q)*c+q*d)によって特徴付けられる。当然ながら、当業者が本明細書を読めば理解するように、他の等式によって上記辺および/または曲線を特徴付けてもよい。
四角形の特殊なケースである矩形の場合、固有座標は特に単純になる。四角形の中で、各固有座標対(p,q)は、矩形の左辺および矩形の右辺各々に平行な線、たとえばp〜1−pの部分において上辺および下辺双方を分割する線と、矩形の上辺および矩形の下辺各々に平行な辺、たとえばq〜1−qの部分において上辺および下辺双方を分割する辺との交点に対応し、0≦p≦1、0≦q≦1である。
下記矩形化アルゴリズムの目的は、矩形化された画像内の各ポイントを、元の画像内の対応するポイントにマッチングし、このマッチングを、四角形の四辺各々を実質的に真直ぐな線に変換する一方で四角形の対向する辺が互いに平行でかつ他方の辺の対に対して垂直になるようにすることである。すなわち、四角形の上辺と下辺は互いに平行になり、四角形の左辺と右辺は互いに平行になりかつ新たな上辺と下辺に対して垂直になる。このように、四角形は、4つの角によって特徴付けられる真の矩形に変換され、各角は、交差して90度の角度を形成する2本の直線を含む。
下記矩形化アルゴリズムの主な意図は、この目的を、第1に、目標とする矩形化画像内の各ポイント(図示せず)の矩形ベースの固有座標(p,q)を計算し、第2に、これらを、元の画像の四角形ベースの固有座標の同じ対(p,q)にマッチングし、第3に、これら固有座標にそれぞれ対応する左右曲線および上下曲線の交点の座標を計算し、最後に、元の画像において発見されたポイントの色またはグレー値をこのポイントに割当てることによって、達成することである。
次に、ある実施形態に従う、ページ矩形化アルゴリズムの第1の反復を表わすものを参照する。デジタル画像内の各ポイントは、ポイントに関連付けられた(上記のような)固有座標に対応する、上下曲線と左右曲線との交点に対応し得る(曲線は、真直ぐな線、曲がった線、たとえば放物線等を含み得るものであり、このことは当業者が本明細書を読めば理解するであろう)。
この説明から明らかになるように、矩形化は、複数のこのような左右方向の線と上下方向の線を定めることを含み得る。
加えて、矩形化は、目標とする矩形ベースの座標を、文書のデジタル表現の四角形ベースの固有座標にマッチングすることを含み得る。
マッチングは、所与の左右曲線と所与の上下曲線との交点を繰返し探索することを含み得る。以下でさらに詳細に説明するあるアプローチに従うと、反復探索は、座標(x0,y0)を有する起点を指定することを含む。起点は、文書のデジタル表現内のどこに位置していてもよいが、好ましくは目標とする矩形の中心または中心近くに位置する。
反復探索は、交差する2つの曲線のうちの一方の上に起点を射影することを含み得る。起点はこれら曲線のうちいずれに射影してもよいが、あるアプローチにおいて、反復探索における第1の探索の前半は、起点を上下曲線上に射影することにより、次の点のx座標(x)を得ることを含み、この射影の結果を点で表わすとその座標は(x,y)である。同様に、いくつかの実施形態において、反復探索の第1の反復の後半は、この点を左右曲線上に射影することにより、次の点のy座標(y)を得ることを含み、この射影の結果を点で表わすとその座標は(x,y)である。
矩形化は、ページ検出で定められた四角形を真の矩形に変換することを含む。ある実施形態に従うと、このプロセスの結果は、ページ矩形化アルゴリズム実行後の出力の図形表現である。
いくつかの実施形態において、以下でさらに詳細に説明する同様の手法を用いてさらに反復を行なってもよい。
デジタル画像内の文書のデジタル表現の1つ以上の空間特性を修正する方法は、本明細書に記載の技術のいずれかを含み得る。当業者が本明細書を読めば理解するように、方法は、図面および本開示の対応する説明において示されおよび/または記載されるものを含む、何らかの適切な環境で実行得る。
ある実施形態において、(上記ページ検出方法で定めたような)四角形を矩形に変換する。特に、四角形は複数の等式によって特徴付けられ、各等式は四角形の一辺に対応し、選ばれたクラスの関数から選択される。たとえば、四角形の各辺は、当業者が本明細書を読めば理解するように、一次多項式、二次多項式、三次多項式等によって特徴付けられてもよい。
ある実施形態において、四角形の辺は等式によって説明してもよく、好ましい実施形態において、四角形の左辺は二次多項式x=a*y+a*y+aによって特徴付けられ、四角形の右辺は二次多項式x=b*y+b*y+bによって特徴付けられ、四角形の上辺は二次多項式y=c*x+c*x+cによって特徴付けられ、四角形の下辺は二次多項式y=d*x+d*x+dによって特徴付けられる。加えて、上下曲線の等式はx=((1−p)*a+p*b)*y+((1−p)*a+p*b)*y+((1−p)*a+p*b)であり、左右曲線の等式はy=((1−q)*c+q*d)*y+((1−q)*c+q*d)*y+((1−q)*c+q*d)である。当然ながら、当業者が本明細書を読めば理解するように、他の等式によって上記辺および/または曲線のいずれかを特徴付けてもよい。
ある実施形態において、曲線は、以下の一般的な形態のうちの1つ以上に適合する代表的な多項式関数によって説明してもよい。
=u*y+u*y+u
=v*x+v*x+v
式中、u=(1−p)*a+p*b、v=(1−q)*c+q*dであり、aは四角形の左辺の等式における係数であり、bは四角形の右辺の等式における係数であり、cは四角形の上辺の等式における係数であり、dは四角形の下辺の等式における係数であり、pおよびqは曲線に対応する四角形ベースの固有座標である。いくつかのアプローチにおいて、a、b、c、d等の係数は、上記のようなページ検出法等のページ検出を実行する過程で得られる計算、推定、および/または判断から導出されるものであってもよい。
当然ながら、当業者が本明細書を読めば理解するように、四角形を矩形に変換することは、以下でより詳細に説明するように1以上の加算演算を含み得る。
ある実施形態において、方法は、さらにおよび/または代替的に、四角形の1つ以上の領域を伸張することにより、より矩形に近いものまたは真の矩形にすることを含む。好ましくは、このような伸張は、アーティファクトを矩形に導入しないように十分スムーズなやり方で行なわれる。
いくつかのアプローチにおいて、四角形を矩形に変換することは、矩形の高さ、矩形の幅、矩形のスキュー角、および/または矩形の中心位置を求めることを含み得る。たとえば、このような変換は、目標矩形の幅を、矩形の上辺の幅と下辺の幅の平均として定めること、目標矩形の高さを、矩形の左辺の高さと右辺の高さの平均として定めること、目標矩形の中心を、画像内における矩形の所望の配置に応じて定めること、および、目標矩形のスキューの角度を、たとえば、ユーザからの文書のデジタル表現のスキュー除去要求に応じて定めることを含み得る。
いくつかのアプローチにおいて、この変換は、さらにおよび/または代替的に、元のデジタル画像から矩形化されたデジタル画像を生成し、矩形化されたデジタル画像内の複数のポイント(たとえば目標矩形の内側および外側双方にあるポイント)のp座標およびq座標を求めることを含み得る。矩形の左側に位置する各ポイントはp座標値p<0を有し、矩形の右側に位置する各ポイントはp座標値を有しp>1、矩形の上側に位置する各ポイントはq座標値q<0を有し、矩形の下側に位置する各ポイントはq座標値q>1を有する。
いくつかのアプローチにおいて、この変換は、さらにおよび/または代替的に、元のデジタル画像から矩形化されたデジタル画像を生成し、矩形化されたデジタル画像内の各ポイントの矩形ベースの固有座標の対を求め、矩形ベースの固有座標の各対を、元のデジタル画像内の四角形ベースの固有座標の対応する対にマッチングすることを含み得る。
好ましいアプローチにおいて、矩形ベースの固有座標を四角形ベースの固有座標にマッチングすることは、上下曲線と左右曲線の交点の反復探索を実行することを含み得る。加えて、この反復探索自体、起点(x、y)たとえば目標矩形の中心を指定すること、起点(x,y)を左右曲線に射影すること、すなわちx=u*y+u*y+u、および、次のポイント(x,y)を上下曲線に射影すること、すなわちy=v*x+v*x+v、を含み、この式においてu=(1−p)*a+p*bであり、v=(1−q)*c+q*dである。その後、この反復探索は(x,y)を左右曲線に繰返し射影すること、すなわちxk+1=u*y+u*y+u、および、(x、y)を上下曲線に射影すること、すなわちyk+1=v*xk+1+v*xk+1+vを含む。
他の実施形態において、矩形ベースの固有座標を四角形ベースの固有座標にマッチングすることは、(x,y)と(xk+1,yk+1)との間の距離を求めることと、この距離が予め定められたしきい値未満であるか否か判断することと、この距離が予め定められたしきい値未満であると判断されると反復探索を終了することとを含み得る。
スキュー角の検出および補正のさまざまな実施形態
いくつかの実施形態において、本明細書に記載の画像処理アルゴリズムはさらにおよび/または代替的に、デジタル画像内の文書のデジタル表現のスキュー角を検出および/または補正するように設計された機能を含み得る。ある好ましいアプローチにおけるスキューの補正について以下で説明する。当然ながら、当業者が本明細書を読めば理解するように、デジタル画像内のスキューを補正する他の方法はこれらの開示の範囲に含まれる。
デジタル画像内の文書のデジタル表現は、1つ以上のスキュー角αによって特徴付けられてもよい。当業者が本明細書を読めば理解するように、水平スキュー角αは、文書のデジタル表現の、水平方向の線とエッジとの間の角度を表わし、このエッジの長手方向軸は実質的に水平方向である(すなわち文書のデジタル表現の上側のエッジまたは下側のエッジいずれか)。同様に、αは、文書のデジタル表現の、垂直方向の線とエッジとの間の角度を表わしてもよく、このエッジの長手方向軸は実質的に垂直方向である(すなわち文書のデジタル表現の左側のエッジまたは右側のエッジいずれか)。
加えて、文書のデジタル表現を、上側のエッジ、下側のエッジ、右側のエッジ、および左側のエッジによって定めてもよい。これらエッジは各々、実質的に線形方程式によって特徴付けられてもよく、上側のエッジはy=−tan(α)x+dt、下側のエッジはy=−tan(α)x+db、右側のエッジはx=tan(α)y+dr、左側のエッジはx=tan(α)y+dlとなり、式中、dtおよびdbはそれぞれ、文書のデジタル表現の上側のエッジおよび下側のエッジを説明する線形方程式のy切片であり、drおよびdlはそれぞれ、文書のデジタル表現の右側のエッジおよび左側のエッジを説明する線形方程式のx切片である。
あるアプローチにおいて、文書、たとえば矩形文書のデジタル表現の各辺を説明する線形方程式を定義したが、そのスキュー角を、α=0と設定することにより補正して、上側のエッジではy=dt、下側のエッジではy=db、右側のエッジではx=dr、および左側のエッジではx=dlとなるようにしてもよい。
照明の問題の検出のさまざまな実施形態
さらに他の実施形態において、ここで説明する画像処理アルゴリズムは、文書のデジタル表現が1つ以上の照明の問題を含むか否か検出することに関する特徴を含み得る。
たとえば、照明の問題は、周囲のおよび/または与えられた照明が不十分な設定で取込まれた画像の特徴のように、画像の背景内において画素ごとに明度の値が大きく異なるときの、デジタル画像の局所的な不飽和領域、および、フラッシュの反射の中の場合のように、画像内のいくつかの領域が褪せているときの、デジタル画像の局所的な過飽和領域を含み得る。
ある実施形態に従い、文書のデジタル表現を含むデジタル画像における照明の問題を検出するためのある代表的なアプローチについて以下で説明する。これは、文書のデジタル表現内に照明の問題が存在するか否か判断する方法を示す。当業者が本明細書を読めば理解するように、方法は、本明細書で説明され添付のさまざまな図面に示されるもののような何らかの適切な環境の中で実施すればよい。当然ながら、当業者が本明細書を読めば理解するように、本開示の範囲に含まれる他の環境も動作方法に適しているであろう。
ある実施形態において、プロセスは(好ましくはモバイル装置のプロセッサを用いて)文書のデジタル表現を含む四角形を複数の区画に分割することを含み、各区画は複数の画素を含む。
他のアプローチにおいて、各区画の明度値の分布を求める。当業者が理解するように、明度値の分布は、周知のやり方でコンパイルおよび/またはアセンブルしてもよく、ガウス分布、2モード分布、歪曲分布等の周知の標準分布モデルに適合させてもよい。
さらに他のアプローチにおいて、各区画の明度値の範囲を求める。当業者が理解するように、範囲は、所与の分布内の最大値と最小値の差であると定義される。ここでは、明度値の範囲を、所与の区画内の特性最大明度値と同じ区画内の特性最小明度値との差であると定義する。たとえば、これら特性値はそれぞれ、全体分布の2番目の百分位数および98番目の百分位数に相当し得る。
多くのアプローチにおいて、各区画の明度値のばらつきを求める。
さまざまなアプローチにおいて、各区画が過飽和か否か判断する。たとえば、ある実施形態に従い、動作は、文書のデジタル表現を描写するデジタル画像の領域が過飽和か否か判断することを含み得る。各区画が過飽和か否か判断することは、区画ごとに区画過飽和率を求めることを含み得る。特に、好ましい実施形態において、各区画過飽和率は、この区画内の最大明度値を示す画素の数を、この区画内の画素の総数で割ったものとして定義される。
不均一に照明された画像は、デジタル画像の対応する画素、ポイント、または領域の明度レベルが画像または文書の他の領域よりも低くおよび/または画像または文書の平均明度レベルよりも低い領域のより密度が高いであろう複数のダークスポットを示すまたはこれによって特徴付けられてもよい。いくつかの実施形態において、不均一な照明は、明度の勾配によって特徴付けられてもよく、たとえば、画像(近傍領域)の右上角から画像(近傍領域)の左下角への勾配であり、明度はこの勾配に沿って低下しており、画像(近傍領域)の右上角は比較的明るい領域、画像(近傍領域)の左下角は比較的暗い領域である。
いくつかのアプローチにおいて、各区画が過飽和であるか否か判断することはさらに、区画ごとに、この区画の過飽和レベルが予め定められたしきい値、たとえば10%よりも高いか否か判断することと、この区画の飽和レベルが予め定められたしきい値を超えていると判断されるとこの区画を過飽和であると特徴付けることとを含み得る。ここで説明する実施形態ではしきい値として10%を用いているが、他の予め定められた過飽和しきい値レベルを本明細書の範囲から逸脱することなく用いることができる。特に、正確な値は視覚および専門家の判断の問題であり、さまざまなアプローチにおいてユーザが調整および/または設定してもよい。
他のアプローチにおいて、各区画が不飽和か否か判断する。たとえば、ある実施形態に従い、動作は、文書のデジタル表現を描写するデジタル画像の領域が不飽和か否か判断することを含み得る。各区画が不飽和か否か判断することは、各区画の明度値の分布のばらつきの中央値を求めること、各ばらつき中央値が予め定められたばらつきしきい値、たとえば0〜255の整数範囲のうちの18という明度ばらつき中央値、よりも大きいか否か判断すること、および、区画ごとにその区画のばらつき中央値が予め定められたばらつき中央値よりも大きいと判断されるとその区画は不飽和であると判断すること等の、他の動作を含み得る。特に、正確な値は視覚および専門家の判断の問題であり、さまざまなアプローチにおいてユーザが調整および/または設定してもよい。
ある具体的なアプローチにおいて、区画のばらつきを求めることは、複数の画素のうちのターゲット画素の明度値を求めることと、ターゲット画素の明度値と近傍の1つ以上の画素の明度値との差を計算することとを含み得るものであり、この近傍画素は各々ターゲット画素から1画素以上(たとえば2画素)離れており、さらに、この明度値を求めることと計算することを、複数の画素のうちの各画素に対して行なうことにより各ターゲット画素のばらつきを得ることと、ターゲット画素ばらつき値の分布を生成することとを含み、各ターゲット画素明度値およびターゲット画素バラツキ値は0〜255の範囲に含まれる整数である。このアプローチは、たとえば、0〜255の範囲のすべての可能なばらつき値のアレイにおける対応するカウンタを増分してばらつき値のヒストグラムをたとえば生成することによって実現してもよい。
特に、特定の区画のばらつきを求めるときに近傍画素を使用する場合、近傍画素は、垂直方向、水平方向、またはこれらの方向双方(たとえば対角線方向)に沿って、ターゲット画素から約2画素以内にあってもよい。当然ながら、本発明の範囲から逸脱することなく他の画素近接の境界を用いてもよい。
いくつかのアプローチにおいて、方法はさらに、ターゲット画素ばらつき値の分布から1つ以上のターゲット画素ばらつき値を除外することにより、訂正された分布を生成することと、訂正された分布に基づいて特性背景ばらつきを定めることとを含む。たとえば、ある実施形態において、訂正された分布を生成することおよび特性背景ばらつきを定めることは、カウントされたすべての値のうちの上の35%(または背景から前景への移行に関連する大きな明度変化をカバーするのに十分な他の値)を除外し、分布の残りの値、すなわち文書のデジタル表現の比較的平坦な背景領域から取った値に基づいて特性背景ばらつきを定めることを含み得る。
他のアプローチにおいて、過飽和区画の数を求める。この動作は、たとえば、当業者が本明細書を読めば理解するように、画像の処理中にカウンタをインクリメントすること、各過飽和区画にフラグを設定し処理中のある時点でフラグをカウントすること等、何らかの方法で過飽和区画の総数を求めることを含み得る。
他のアプローチにおいて、不飽和区画の数を求める。この動作は、たとえば、当業者が本明細書を読めば理解するように、画像の処理中にカウンタをインクリメントすること、各不飽和区画にフラグを設定し処理中のある時点でフラグをカウントすること等、何らかの方法で不飽和区画の総数を求めることを含み得る。
他のアプローチにおいて、区画の総数に対する過飽和区画の数の比率が過飽和しきい値を超えたと判断されると、デジタル画像は過飽和であると判断される。このしきい値は、当業者が本明細書を読めば理解するように、ユーザによって定められてもよく、予め定められた値等であってもよい。
他のアプローチにおいて、区画の総数に対する不飽和区画の数の比率が不飽和しきい値を超えたと判断されると、デジタル画像は不飽和であると判断される。このしきい値は、当業者が本明細書を読めば理解するように、ユーザによって定められてもよく、予め定められた値等であってもよい。
他のアプローチにおいて、デジタル画像が不飽和または過飽和であると判断されるとこのデジタル画像には照明の問題があると判断される。
さらに他のアプローチにおいて、方法は、以下で詳細に説明する、1つ以上の他のおよび/または代替の動作を含み得る。
ある実施形態において、方法は、区画ごとに以下の動作を実行することを含み得る。文書の高さを予め定められた数の水平区画に分割することにより区画の高さを定め、文書の幅を予め定められた数の垂直区画に分割することにより区画の幅を定める。好ましいアプローチにおいて、区画の高さおよび幅は、一定数の区画を作成しこれら区画を文書の高さを一定数の水平部分に分割し文書の幅を一定(できれば異なる)数の垂直部分に分割することによってこれら区画をほぼ正方形にする目的に基づいて定められる。
したがって、いくつかの実施形態において、各区画は区画の高さと幅によって特徴付けられ、デジタル画像は画像の幅wと画像の高さhによって特徴付けられ、h>=wであり、区画サイズは区画の幅wと区画の高さhによって特徴付けられw=w/m、h=h/nであり、mおよびnは、wsがhsにほぼ等しくなるように定められる。たとえば、好ましい実施形態においてm>=3、n>=4である。
別のアプローチにおいて、文書のデジタル表現内に照明の問題があるか否か判断する方法は、以下の動作を含み、そのうちのいくつかまたはすべてを、本明細書に記載されおよび/またはここで開示されている図面に示される何らかの環境で実行してもよい。
不均一な照明の補正のさまざまな実施形態
いくつかのアプローチにおいて、デジタル画像内の照明の不均一さの補正は、デジタル画像の全体の明度レベルを正規化することを含む。全体的な明度の正規化は、上記のような明度勾配によって特徴付けられるデジタル画像を、デジタル画像全体の明度の比較的平坦で均一な分布によって特徴付けられるデジタル画像に変換することであってもよい。なお、1つの領域は他の領域よりもダークスポットの分布密度が大幅に高いことによって特徴付けられるが、複数の領域は実質的に同様のダークスポット密度プロファイルによって特徴付けられる。
本開示に従い、照明の不均一さを補正してもよい。特に、当業者が本明細書を読めば理解するように、他の適切な環境のうち、本明細書に記載されさまざまな図面に示されるものを含む、何らかの適切な環境で使用するための、デジタル画像の1つ以上の領域における不均一な照明を補正する方法が、ここで提供される。
ある実施形態において、方法は、デジタル画像から二次元照明モデルが得られるプロセッサを用いる動作を含む。
ある実施形態において、二次元照明モデルは、デジタル画像内の各画素に適用される。
他のアプローチにおいて、当業者が本明細書を読めば理解するように、デジタル画像を複数の区画に分割してもよく、1区画内の画素のうちの一部またはすべてを、色、たとえば1つ以上の色チャネル内の明度値、中央色相値等に基づいてクラスタ化してもよい。加えて、構成要素の数が最も多いクラスタをいくつか解析することにより、1つ以上の可能な局所的背景の特性を求めてもよい。1つのクラスタをその区画の局所的背景として指定するためには、このクラスタに属する画素の数が、区画の総面積のしきい値割合等の特定の予め定められた値を超えていなければならない。
さまざまなアプローチにおいて、クラスタ化は、当業者が本明細書を読めば理解するように、マルコフ連鎖モンテカルロ法、最近傍結合、期待値最大化等の分布ベースのクラスタリング、ノイズを使用したアプリケーションの密度ベースの空間クラスタリング(DBSCAN)等の密度ベースのクラスタリング、ポイント順序付けによるクラスタリング構造の特定(OPTICS)等を含む、周知のいずれかの方法を用いて行なってもよい。
ある実施形態において、方法は、背景クラスタ内の色チャネル値の分布ごとに、対応する区画の主背景の平均色、および、対応する区画の副背景の平均色のうちの1つ以上を、その区画内に一方または双方が存在するのであれば、求めることを含み得る。
ある実施形態において、方法は、区画ごとに、文書のデジタル表現の主な背景の局所的表現として、主背景色または副背景色いずれかを指定することを含み、各局所的表現は、対応する区画の主背景の平均色か、対応する区画の副背景の平均色いずれかによって特徴付けられる。
ある実施形態において、方法は、画像背景の選択された局所的表現の複数の平均色チャネル値を、二次元照明モデルに適合させることを含む。いくつかのアプローチにおいて、二次元照明モデルは、等式v=ax+bxy+cy+dx+ey+fによって特徴付けられる二次多項式であり、式中、vは複数の色チャネルのうちの1つの平均色チャネル値であり、a、b、c、d、e、およびfは各々、二次元照明モデルの各未知パラメータであり、各未知パラメータa、b、c、d、e、およびfは、最小二乗平均近似を用いて近似され、xは区画内の中間点の画素のx座標であり、yは区画内の中間点の画素のy座標である。
あるアプローチにおいて、二次元照明モデルの導出は、複数の背景クラスタについて、各背景クラスタの平均色チャネル値を計算することと、各背景クラスタの色相比を計算することと、複数の背景クラスタについて中央色相比を計算することとを含み得る。加えて、この導出はまた、各背景クラスタの色相比を複数のクラスタの中央色相比と比較することと、この比較に基づいて、起こり得るこれら2つの背景のうちより可能性が高いものを文書背景の局所的表現として選択することと、少なくとも1つの二次元照明モデルをこの局所的表現の平均チャネル値に適合させることと、複数の局所的表現について複数の平均主背景色チャネル値を計算することとを含み得る。
このモデルの適用は、予測された1つ以上の背景チャネル値と、平均主背景色チャネル値との差を計算することと、この差の分数をデジタル画像内の画素ごとに1つ以上の色チャネル値に加算することとを含み得る。たとえば、この分数の加算は、この差の0から1までの範囲にある値、たとえば好ましい実施形態ではこの差の3/4を、実際の画素値に加算することを含み得る。
さらに他のアプローチにおいて、方法は、以下で説明するもののような追加のおよび/または代替の動作を含み得る。
たとえば、あるアプローチにおいて、方法はさらに、区画ごとに複数の色クラスタを決定すること、構成要素の数が多い複数の色クラスタを決定すること‐構成要素の数が多い色クラスタは各々、区画内の高頻度の表現に相当する(たとえば色クラスタはこの色クラスタに属する画素数が最も多い区画を有するクラスタのうちの1つ)‐、区画の総面積を求めること、複数の部分区画面積を求めること‐各部分区画面積は、構成要素の数が多い複数の色クラスタのうちの1つによって表わされる面積に対応する‐、各部分区画面積を総面積で割ることにより、構成要素の数が多い色クラスタ各々のクラスタ面積率を求めること(たとえば、構成要素の数が多い色クラスタに属する区画内の画素数を、この区画内の画素の総数で割ることにより、対応する、構成要素の数が最も多い色クラスタが住める、区画の総面積に対する割合を得ること)、および、構成要素の数が多い、各色クラスタを、クラスタ面積率に基づいて背景クラスタか非背景クラスタいずれかに分類することのうちの1つ以上を含む。
特に、好ましいアプローチにおいて、分類動作により、区画内に背景がないこと、区画内に、構成要素の数が最も多い背景が1つあること、または区画内に、構成要素の数が最も多い背景が2つあることを、識別する。加えて、この分類は、背景しきい値よりも大きな数の画素を含むクラスタに属するものを各々背景画素として分類することを含む。いくつかのアプローチにおいて、背景しきい値は0〜100%の範囲の中にある(たとえば、好ましいアプローチでは15%)。背景しきい値は、ユーザによって定められてもよく、予め定められた値でもよい。このことは、当業者が本明細書を読めば理解するであろう。
解像度推定のさまざまな実施形態
ここで開示されている発明の実施形態のさらに他の目的として、モバイル画像処理は、文書のデジタル表現の解像度を推定する方法を含み得る。当然ながら、これら方法は、本明細書に記載の環境およびここで示すさまざまな図面に示される環境を含む、何らかの適切な環境において実施してもよい。加えて、この方法は、本明細書に記載の他の方法との関連で使用してもよく、下記の動作に対する追加のおよび/または代替の動作を含み得る。このことは、当業者が本明細書を読めば理解するであろう。
ある実施形態において、デジタル画像内において、複数の非背景要素の、接続された複数の構成要素が検出される。いくつかのアプローチにおいて、このデジタル画像は、複調画像、すなわち色調が2つのみの画像、好ましくは黒白画像として特徴付けられてもよい。
別の実施形態において、複数の接続された構成要素に基づいて複数の同様の文字を決定してもよい。同様の文字は、所与の方向の予め定められた数の明から暗への移行部、たとえば大文字「E」を描くデジタル画像の小領域にあるであろう垂直方向の3つの明から暗への移行部によって特徴付けられる、デジタル画像の領域であってもよく、明から暗への各移行部は、文書の背景(明)から文字「E」の水平方向の字画のうちの1つへの移行に対応する。当然ながら、これ以外の数の明から暗への移行部を採用してもよく、たとえば、文字「o」であれば垂直および/または水平方向の明から暗への移行部が2つあってもよく、文字「l」であれば垂直方向の明から暗への移行部が1つあってもよい。このことは、当業者が本明細書を読めば理解するであろう。
他の実施形態において、1つ以上の平均文字寸法は、同様の複数のテキスト文字に基づいて求めてもよい。本明細書において理解されるように、平均文字寸法は、平均文字幅および平均文字高さのうちの1つ以上を含み得るが、当然ながら、他の適切な文字寸法を用いてもよく、このことは、当業者が本明細書を読めば理解するであろう。
さらに他の実施形態において、デジタル画像の解像度は1つ以上の平均文字寸法に基づいて推定される。
他の実施形態において、方法は、任意でおよび/または代替的に、下記のような1つ以上の他の動作を含む。
たとえば、ある実施形態において、方法は、デジタル画像の推定された解像度に基づいて文書のデジタル表現の1つ以上の寸法を推定すること、文書のデジタル表現の1つ以上の推定された寸法を、複数の既知の文書タイプの1つ以上の既知の寸法と比較すること、この比較に基づいて文書のデジタル表現を複数の既知の文書タイプのうちの1つ以上にマッチングすること、このマッチングが1つ以上の品質管理メトリクスを満たすか否か判断すること、および、このマッチングが1つ以上の品質管理メトリクスを満たすと判断されると、既知の文書タイプの既知の寸法に基づいて文書のデジタル表現の推定された解像度を調整すること、のうちの1つ以上をさらに含む。いくつかのアプローチにおいて、推定された解像度は、文書のデジタル表現が既知の文書タイプのうちの1つに十分にマッチングしていることが見出された場合にのみ、調整されるであろう。
いくつかのアプローチにおいて、上記1つ以上の既知の文書タイプは、レターサイズ文書(8.5×11インチ)、リーガルサイズ文書(8.5×14インチ)、A3文書(11.69×16.54インチ)、A4(ヨーロッパレターサイズ)文書(8.27×11.69インチ)、A5文書(5.83×8.27インチ)、帳簿/タブロイド文書(11×17インチ)、運転免許証(2.125×3.375インチ)、名刺(2×3.5インチ)、個人小切手(2.75×6インチ)、業務用小切手(3×7.25インチ)、業務用小切手(3×8.25インチ)、業務用小切手(2.75×8.5インチ)、業務用小切手(3.5×8.5インチ)、業務用小切手(3.66×8.5インチ)、業務用小切手(4×8.5インチ)、2.25インチ幅の領収書、および、3.125インチ幅の領収書を含む。
さらに他のアプローチにおいて、方法は、1つ以上の接続された構成要素について、接続された構成要素内のオン‐オフ移行の数(当業者が本明細書を読めばわかるように、たとえば文字から文書背景への移行、たとえば黒から白への、白から黒への等の移行)、接続された構成要素内の黒画素密度、接続された構成要素のアスペクト比、および、黒画素密度、オン‐オフ移行の数、およびアスペクト比に基づく、接続された構成要素のうちの1つ以上がテキスト文字を表わす見込み、のうちの1つ以上を計算することを、さらにおよび/または任意で含み得る。
さらに他のアプローチにおいて、方法は、複数のテキスト文字のうちの少なくとも2つの文字高さを求めることと、この少なくとも2つのテキスト文字の各文字高さに基づいて平均文字高さを計算することと、複数のテキスト文字のうちの少なくとも2つの文字幅を求めることと、この少なくとも2つのテキスト文字の各文字幅に基づいて平均文字幅を計算することと、少なくとも1つの比較を実行することとを、さらにおよび/または任意で含み得る。特に、この比較は、平均文字高さを基準平均文字高さと比較することと、平均文字幅を基準平均文字幅と比較することから、選択してもよい。
このようなアプローチにおいて、方法はさらに、この少なくとも1つの比較に基づいてデジタル画像の解像度を推定することを含み得る。この場合、基準平均文字高さおよび基準平均文字幅は各々、1つ以上の基準文字に対応し、各基準文字は、既知の平均文字幅および既知の平均文字高さによって特徴付けられる。
さまざまな実施形態において、各基準文字は、300DPI等の、選択された解像度の1つ以上のビジネス文書の代表的なサンプルをスキャンすることによって得た文字のデジタル表現に対応し、各基準文字はさらに、Arial、Times New Roman、Helvetica、Courier、Courier New、Tahoma等の1つ以上の一般的なフォントに対応する。このことは、当業者が本明細書を読めば理解するであろう。当然ながら、ビジネス文書の代表的なサンプルは、文書内の文字を認識するのに適した画像解像度となるのであれば他の解像度でスキャンしてもよい。いくつかのアプローチにおいて、解像度は、ある実施形態では高さが12画素未満の最小文字等の、最小文字サイズを提供するのに十分でなければならない。当然、当業者は、最小文字高さが、画像の性質に応じて変化し得ることを理解するであろう。たとえば、グレースケール画像を処理するときと、2値(たとえば複調)画像を処理するときとでは、異なる文字高さが必要であろう。他のアプローチでは、文字は、光学式文字認識(OCR)で認識するのに十分大きくなければならない。
さらに他の実施形態において、方法は、文書のデジタル表現の推定された解像度に基づいて文書のデジタル表現の1つ以上の寸法を推定すること、平均文字寸法から平均文字幅を計算すること、平均文字寸法から平均文字高さを計算すること、平均文字幅を平均文字高さと比較すること、この比較に基づいて文書のデジタル表現の向きを推定すること、および、推定された寸法と推定された向きに基づいて、この文書のデジタル表現を、既知の文書タイプとマッチングすることのうちの1つ以上を含む。
代替実施形態において、解像度の推定は逆のやり方で行なってもよい。すなわち、当業者が本明細書を読めば理解するように、文書のデジタル表現を処理することにより、請求書のデジタル表現の支払額、書簡の宛先、書式のパターン、バーコード等の、文書の内容を判断する。判断した内容に基づいて、文書のデジタル表現が1つ以上の既知の文書タイプに相当すると判断してもよく、既知の文書タイプに関する情報を用いて、文書のデジタル表現の解像度を判断および/または推定してもよい。
不鮮明(Blur)検出のさまざまな実施形態
さまざまな実施形態に従い、デジタル画像内の1つ以上の不鮮明領域を検出する方法について説明する。当業者が本明細書を読めば理解し認識するように、方法は、本明細書に記載され添付の複数の図面に示されるもの等の、適切な環境において実施すればよい。さらに、方法は、本明細書に記載の他の方法の他の動作から独立しておよび/またはこの動作と関連して実施してもよく、画像を含むが画像に限定される訳ではない。
ある実施形態において、方法は、デジタル画像内の文書のデジタル表現を含む四角形を、各々が複数の画素を含む複数の区画に分割する場合に、プロセッサを使用する動作を含む。
ある実施形態において、方法は、区画ごとに、この区画が第1の方向において1つ以上の鮮明な画素間の移行を含むか否か判断する場合の動作を含む。
ある実施形態において、方法は、区画ごとに、第1の方向の鮮明な画素間の移行の総数(SS1)をカウントする場合の動作を含む。
ある実施形態において、方法は、区画ごとに、この区画が第1の方向において1つ以上の不鮮明な画素間の移行を含むか否か判断する場合の動作を含む。
ある実施形態において、方法は、区画ごとに、第1の方向の不鮮明な画素間の移行の総数(SB1)をカウントする場合の動作を含む。
ある実施形態において、方法は、区画ごとに、この区画が第2の方向において1つ以上の鮮明な画素間の移行を含むか否か判断する場合の動作を含む。
ある実施形態において、方法は、区画ごとに、第2の方向の鮮明な画素間の移行の総数(SS2)をカウントする場合の動作を含む。
ある実施形態において、方法は、区画ごとに、この区画が第2の方向において1つ以上の不鮮明な画素間の移行を含むか否か判断する場合の動作を含む。
ある実施形態において、方法は、区画ごとに、第2の方向の不鮮明な画素間の移行の総数(SB2)をカウントする場合の動作を含む。
ある実施形態において、区画ごとに、SS1が予め定められた鮮明移行しきい値よりも小さく、SB1が予め定められた不鮮明移行しきい値よりも小さく、SS2が予め定められた鮮明移行しきい値よりも小さく、SB2が予め定められた不鮮明移行しきい値よりも小さいと判断された場合、この区画は空白であると判断される。
ある実施形態において、空白でない区画ごとに、第1の方向の不鮮明率r=SS1/SB1が求められる。
ある実施形態において、空白でない区画ごとに、第2の方向の不鮮明率r=SS2/SB2が求められる。
ある実施形態において、空白でない区画ごとに、rが予め定められた区画不鮮明率しきい値よりも小さいと判断されると、この空白でない区画は第1の方向において不鮮明であると判断される。
ある実施形態において、空白でない区画ごとに、rが予め定められた区画不鮮明率しきい値よりも小さいと判断されると、この空白でない区画は第2の方向において不鮮明であると判断される。
いくつかのアプローチにおいて、「第1の方向」および「第2の方向」は、垂直方向、たとえば鉛直方向と水平方向として、または、正方形の直交する対角線として特徴付けてもよい。他のアプローチでは、「第1の方向」および「第2の方向」がデジタル画像を通る任意の経路に対応していてもよいが、好ましくは、各々、デジタル画像を通る線形経路に相当する。当業者が本明細書を読めば理解するように、本明細書に開示される発明の実施形態の範囲は、これらの例にのみ限定されてはならず、当該技術で周知のその均等物を含むものである。
ある実施形態において、空白でない区画ごとに、その区画が第1の方向において不鮮明であること、および、その区画が第2の方向において不鮮明であることの内の1つ以上が判断されると、この空白でない区画は不鮮明であると判断される。
ある実施形態において、不鮮明な区画の総数が求められる。
ある実施形態において、画像不鮮明率Rとして定義される、不鮮明な区画の総数を区画の総数で割ったものが、計算される。
ある実施形態において、方法は、画像不鮮明率が予め定められた画像不鮮明しきい値よりも大きいと判断されると、そのデジタル画像は不鮮明であると判断する動作を含む。
さまざまな実施形態において、方法は、以下で説明するような、1つ以上の追加のおよび/または代替的な動作を含み得る。たとえば、ある実施形態において、方法はまた、区画ごとに複数の画素の明度値の分布を求めること、明度値の分布の特性ばらつきυを求めること、υに基づいて顕著な明度の移行しきい値ηを計算すること(たとえばη=3*υであるが16等の特定の値以下)ηに基づいて大きな明度の移行しきい値μを計算すること(たとえばμ=2*ηであるが明度範囲の二分の一等の特定の値以下)複数の画素内の画素ごとに、その画素を囲むウィンドウ内における明度変化の方向性パターンを解析すること(たとえば水平方向、鉛直方向、対角線方向等)、および、この解析に基づいて、鮮明な画素間の移行および不鮮明な画素間の移行のうちの1つ以上を識別することを、含み得る。
別の実施形態において、方法はまた、複数の中心画素を定めること、1つの中心画素を囲む画素、たとえば前後の2画素、からなる1つ以上の小さなウィンドウ内の複数の中心画素各々順次解析すること、中心画素の直近(たとえば直前の画素から次の画素)において大きな明度の移行が存在し、大きな明度の移行の前に第1の小さな(顕著なものよりも小さい)明度変化が存在し、かつ、大きな明度の移行の後に第2の小さな明度変化が存在すると判断されると、鮮明な画素間移行を識別すること、小さなウィンドウのうちの1つ以上において大きな移行が存在し、この大きな移行において明度の単調な変化が存在すると判断されると、鮮明な画素間繊維を検出すること、および、小さなウィンドウ内に顕著な移行が発生し、この顕著な移行において明度の単調な変化が存在すると判断されると、不鮮明な画素間移行を検出することを、含み得る。
さらに他の実施形態において、方法はまた、区画ごとに、選択された1つ以上の方向各々において鮮明な移行の総数をカウントすること、選択された各方向における不鮮明な移行の総数をカウントすること、鮮明な移行の総数が予め定められた鮮明な移行のしきい値(たとえば50)未満であり不鮮明な移行の総数が予め定められた不鮮明な移行のしきい値未満であると判断されると、区画は空白であると判断すること、選択された方向の少なくとも1つにおいて、不鮮明な移行の総数に対する鮮明な移行の総数を含む区画不鮮明率が区画不鮮明率しきい値(たとえば24%)未満であると判断されると、空白でない区画が不鮮明であると判断すること、および、この区画が空白でも不鮮明でもないと判断されるとその区画は鮮明であると判断することを、含み得る。
さらに他の実施形態において、方法はまた、複数の区画のうちの空白区画の総数(Nblank)を求めること、複数の区画のうちの不鮮明区画の総数(Nblur)を求めること、複数の区画のうちの鮮明区画の総数(Nsharp)を求めること、不鮮明率(R)=Nblur/(Nblur+Nsharp)を求めること、および、Rbが不鮮明しきい値(好ましくは百分率で表わされたとえば30%)未満であればデジタルが層は鮮明であると判断することを、含み得る。
本明細書に示す実施形態は、オンデマンドでサービスを提供するために顧客に代わって導入されるサービスの形態で提供されてもよいことが、さらに理解されるであろう。
本明細書に示す実施形態は、オンデマンドでサービスを提供するために顧客に代わって導入されるサービスの形態で提供されてもよいことが、さらに理解されるであろう。
文書の分類
本開示の範囲に対応する、ある発明の実施形態に従い、図5に示されるように、方法500が示される。方法500は、何らかの所望の環境で実施すればよく、特に図1〜図4Dに関して説明した実施形態および/またはアプローチを含み得る。当然ながら、方法500に従い図5に示されるものよりも多いまたは少ない動作を実行してもよく、このことは、当業者が本明細書を読めば理解するであろう。
動作502で、モバイル装置によって取込まれたデジタル画像を受ける。
ある実施形態において、デジタル画像は、固有解像度によって特徴付けられるものでもよい。本明細書において理解される「固有解像度」は、最初に取込まれた画像の元の固有の解像度であってもよいが、上記画像処理動作等のうちのいずれかのような何らかの分類前処理の実行後のデジタル画像の解像度であってもよい。このことは当業者が本明細書を読めば理解するであろう。ある実施形態において、固有解像度は、分類を実行する前にVRSの処理を受けた運転免許証のデジタル画像の、約500画素×600画素(すなわち500×600デジタル画像)である。加えて、デジタル画像は、あるアプローチではカラー画像によって特徴付けられてもよく、他のアプローチではトリミングされたカラー画像、すなわち、画像背景を描写せず実質的には分類するオブジェクトのみを描写するカラー画像であってもよい。
動作504において、デジタル画像の第1の表現がモバイル装置のプロセッサを用いて生成される。この第1の表現は、あるアプローチでは低下させた解像度によって特徴付けられてもよい。本明細書において理解されるように、「低下させた解像度」は、デジタル画像の固有解像度よりも低い解像度であってもよく、より具体的には、本明細書に記載の原理に従う第1の表現の後の解析に適した解像度であってもよい。
好ましい実施形態において、低下させた解像度は、モバイル装置、ホスト装置および/またはサーバプラットフォームそれぞれにおいてアルゴリズムを実行するときの、処理オーバヘッドを最小にし計算効率とロバストネスを最大にするのに十分低い。たとえば、あるアプローチにおいて、第1の表現は、約25画素×25画素という解像度によって特徴付けられ、この解像度は、当業者が本明細書を読めば理解するように、名刺、運転免許証、領収書等の比較的小さな文書を処理するのに特に効率的でロバストな、低下させた解像度であると、実験を通して判断されたものである。
当然ながら、他の実施形態では、本開示の範囲から逸脱することなく他の解像度を採用してもよい。たとえば、より大きな文書またはオブジェクトの分類は、ロバストな分類および最大計算効率のために、より大きな文書またはオブジェクトをより良く表現するよう、50画素×50画素、100画素×100画素等のより高い解像度を利用することから利益を享受してもよい。使用される解像度は、各寸法において同一数の画素を有しても有さなくてもよい。加えて、広い範囲のオブジェクトクラスに含まれるさまざまなオブジェクトを分類するために最も望ましい解像度は、ユーザにとって好ましい計算効率と分類ロバストネスのバランスに従って、実験を通して求めてもよい。さらに他の実施形態では、任意の解像度を用いればよく、好ましくは、この解像度は、第1の寸法において1画素と約1000画素の間、第2の寸法において1画素と約100画素の間であることによって特徴付けられてもよい。
次に、具体的には図3A〜図3Cを参照しながら、第1の表現を生成するためのプロセスフローの入力、出力、および/または結果についての代表的な実施形態を示す。図3A〜図3Cはそれぞれ、区画に分割される前のデジタル画像(たとえば図3Aに示されるデジタル画像300)、区画に分割されたデジタル画像(たとえば図3Bに示される区画304)、および低下させた解像度によって特徴付けられるデジタル画像の第1の表現(たとえば図3Cに示される表現310)を示す。
図3A〜図3Bに示されるように、モバイル装置によって取込まれたデジタル画像300は、複数の区画304に分割されてもよい。各区画は複数の画素306を含み得る。この区画は、水平画素ps(x)(図3Bに示されるps(x)=4)×垂直画素ps(y)(図3Bに示されるps(y)=4)という寸法となるように、実質的に矩形の、画素の格子を含んでいてもよい。
ある一般的な実施形態において、方法は、モバイル装置を用いてデジタル画像を受けるまたは取込むことを含み、モバイル装置のプロセッサを用いて、デジタル画像内に描かれたオブジェクトが複数のオブジェクトクラスのうちの特定のオブジェクトクラスに属するか否か判断することと、オブジェクトが特定のオブジェクトクラスに属すると判断したことに少なくとも一部応じて、特定のオブジェクトクラスに少なくとも一部基づいてオブジェクトの1つ以上のオブジェクト特徴を求めることと、求めた1つ以上のオブジェクト特徴に少なくとも一部基づいて抽出モデルを構築または選択することと、抽出モデルを用いてデジタル画像からデータを抽出することとを含む。
別の一般的な実施形態において、方法は、モバイル装置を用いてデジタル画像を受けるまたは取込むことを含み、モバイル装置のプロセッサを用いて、デジタル画像内に描かれたオブジェクトが複数のオブジェクトクラスのうちの特定のオブジェクトクラスに属するか否か判断することと、オブジェクトが複数のオブジェクトクラスのうちのいずれにも属さないと判断したとき、デジタル画像をモバイル装置のディスプレイに表示することと、モバイル装置のディスプレイを介してユーザ入力を受けることとを含み、ユーザ入力はオブジェクトにおける1つ以上の注目領域を特定し、ユーザ入力に少なくとも一部基づいて抽出モデルを構築および/または選択することと、抽出モデルに少なくとも一部基づいてデジタル画像からデータを抽出することとを含む。
他の一般的な実施形態において、コンピュータプログラムプロダクトは、プログラムコードが組込まれたコンピュータ読取可能な記録媒体を含み、プログラムコードはプロセッサにより読取可能/実行可能であり、プロセッサは、プログラムコードを読取る/実行することにより、モバイル装置によって取込まれたデジタル画像を受け、デジタル画像内に描かれたオブジェクトが複数のオブジェクトクラスのうちの特定のオブジェクトクラスに属するか否か判断し、オブジェクトが特定のオブジェクトクラスに属すると判断したとき、特定のオブジェクトクラスに少なくとも一部基づいてオブジェクトの1つ以上のオブジェクト特徴を求め、1つ以上のオブジェクト特徴に少なくとも一部基づいて抽出モデルを構築または選択し、抽出モデルに少なくとも一部基づいてデジタル画像からデータを抽出する。
第1の表現は、デジタル画像R(解像度xR画素×yR画素)をSxの水平区画とSyの垂直区画に分割することによって生成されてもよく、低下させた解像度rとしてSx画素×Sy画素を特徴としてもよい。このように、第1の表現の生成は、本質的に、デジタル画像の、粒度がより低い表現を生成することを含む。
たとえば、あるアプローチにおいて、デジタル画像300はSの区画に分割され、各区画304はs×sの格子302の一部に相当する。第1の表現を生成することは、s画素×s画素の第1の表現310を生成することを含み、第1の表現310の各画素312はデジタル画像のSの区画304のうちの1つに相当し、各画素312は、デジタル画像内の対応する区画304の位置に対応する、第1の表現310の位置にある。すなわち、第1の表現の左上の角の画素312は、デジタル画像の左上の角の区画304に対応する。
当然ながら、第1の表現に対してこれ以外の低下させた解像度を用いてもよく、この解像度は、必然ではないが理想的には、当業者が本明細書を読めば理解するように、この処理を実行するのに使用されるモバイル装置、ホスト装置、および/またはサーバプラットフォームの制限および/または特徴、デジタル画像の特性(解像度、照明、不鮮明部分の存在等)、および/または検出および/または分類対象のオブジェクトの特性(背景と対比されるものであり、テキストまたは他の記号の存在、一般的なテンプレートへの適合の度合い等)に応じたものである。
いくつかのアプローチにおいて、第1の表現を生成することは、デジタル画像を複数の区画に分割すること等、1つ以上の代替的なおよび/または追加のサブ動作を含み得る。デジタル画像は、何らかの適切なやり方で複数の区画に分割されればよく、ある実施形態において、デジタル画像は複数の矩形区画に分割される。当然ながら、区画はどのような形状で特徴付けられてもよく、代替的なアプローチでは、複数の区画は、デジタル画像全体を表わしていてもいなくてもよく、画像のいくつかの領域のオーバサンプリングを表わしてもよく、またはデジタル画像内に描かれた各画素の1サンプリングを表わしてもよい。好ましい実施形態では、図3A〜図3Cに関して先に述べたように、デジタル画像は、Sの実質的に矩形の区画304に分割されてs×sの格子302を形成する。
他のアプローチでは、第1の表現を生成することはまた、デジタル画像の区画ごとに少なくとも1つの特性値を求めることを含み得る。各特性値はその区画を説明する1つ以上の特徴に対応する。本開示の範囲の中で、数値で表わすことができる何らかの特徴が、第1の表現の生成において使用するのに適しており、たとえば、当業者が本明細書を読めば理解するように、その区画内の各画素全体の平均明度または強度(0〜255)、その区画内の各画素の各色チャネルの平均値(0〜255)、たとえば赤緑青(RGB)画像の場合の平均赤チャネル値、平均緑チャネル値、および平均青チャネル値等である。
引続き図3A〜図3Cを参照すると、いくつかの実施形態において、第1の表現310の各画素312は、位置的な対応性だけでなく特徴の対応性についても、Sの区画304のうちの1つに対応する。たとえば、あるアプローチにおいて、第1の表現310を生成することはさらに、区画304内の各画素306の個々の強度値iPの平均値を計算することにより、特性区画強度値iSを求めることを含み得る。次に、第1の表現310の各画素312に、デジタル画像300の対応する区画304について計算された平均強度値iSに等しい強度値が割当てられる。このようにして、第1の表現310は、デジタル画像300に示される特徴の、より粒度が低い正規化表現を反映する。
当然ながら、第1の表現310を含む画素312を、ここで開示される分類法の範囲から逸脱することなく、何らかの特性値または特性値の組合せを用いて表わしてもよい。さらに、特性値を、値の分布から特性値をランダムに選択することにより、平均値、値の広がり、最小値、最大値、値の標準偏差、値の分散等の統計的手段または基準によって、または、当業者が本明細書を読めばわかるであろう他の手段によってというように、適切な手段を用いて計算および/または決定してもよい。
動作506において、第1の表現に基づき第1の特徴ベクトルが生成される。
第1の特徴ベクトルおよび/または基準特徴マトリクスは、複数の特徴ベクトルを含み得る。各特徴ベクトルは、対応するオブジェクトクラスの特性に対応する。たとえば、特性最小、最大、平均値等、特定の場所(画素または区画)における1つ以上のカラーチャネルの明度、特定の場所における特定の記号またはその他基準オブジェクトの存在、寸法、アスペクト比、画素密度(特に黒画素密度であるが他の色チャネルの画素密度の場合もある)等である。
当業者が本明細書を読めば理解するように、第1の特徴ベクトルおよび/または基準特徴マトリクスに含めるのに適した特徴ベクトルは、任意の種類、数、および/または長さの特徴ベクトルを含む。
動作508において、第1の特徴ベクトルを複数の基準特徴マトリクスと比較する。
比較動作508は、何らかの適切なマトリクス比較に従って実施すればよい。
このように、上記のようなアプローチにおいて、比較することは、N次元の特徴空間比較を含み得る。少なくとも1つのアプローチにおいて、Nは50よりも大きいが、当然ながら、Nは、当業者が本明細書を読めば理解する、オブジェクトを1つの正しいオブジェクトクラスにロバストに分類することを保証するのに十分大きな値であってもよく、これは、オブジェクトの複雑度、オブジェクトクラス間の類似性または相違性、オブジェクトクラスの数等の数多くのファクタに応じて変化する。
本明細書において理解される、「オブジェクト」は、画像内で表現されている有形のものを含み、当業者が本明細書を読めば理解するように、色、サイズ、寸法、形状、テクスチャ、明度、強度、1つ以上の代表的なマークまたはその他の特徴があることまたはないこと、1つ以上の代表的なマークまたはその他の特徴の位置、複数の代表的なマークまたはその他の特徴間の位置関係等、少なくとも1つの独自のオブジェクト特徴または特性に従って説明し得るものである。加えて、オブジェクトは、画像内で表現される何らかの有形のものであり、このような特性の少なくとも1つの独自の組合せに従って分類し得るものである。たとえば、さまざまな実施形態において、オブジェクトは、当業者が本明細書を読めば理解するように、人、動物、乗物、建築物、ランドマーク、文書、家具、植物等を含み得るがこれらに限定されない。
たとえば、ある実施形態において、デジタル画像に描かれたオブジェクトをわずか少数のオブジェクトクラス(たとえば3〜5のオブジェクトクラス)のうちの1つとして分類しようと試みる場合であって各オブジェクトクラスが相当な数の際立って顕著な特徴または特徴ベクトルによって特徴付けられる場合(たとえば、各オブジェクトクラスが大きく異なるサイズ、形状、カラープロファイル、および/または配色によって特徴付けられる1つまたは複数のオブジェクトに対応しており、各オブジェクトクラスの固有の場所に容易に見分けられる基準シンボルが位置している等)、ロバストな分類を保証するのに、比較的小さい数のNは十分に大きいであろう。
一方、デジタル画像に描かれたオブジェクトを多数のオブジェクトクラス(たとえば30以上のオブジェクトクラス)のうちの1つとして分類しようと試みる場合であって各オブジェクトクラスが相当な数の類似する特徴または特徴ベクトルおよびほんの少数の顕著な特徴または特徴ベクトルによって特徴付けられる場合、ロバストな分類を保証するのに、比較的大きな値のNが好ましいであろう。同様に、好ましくは、Nの値は、分類がロバストであるだけでなく計算効率が高くなるように、すなわち分類プロセスが、分類アルゴリズムを実施するのに使用される装置またはシステムに最小の処理オーバヘッドしか導入しないように、選択または決定される。
分類のロバストネスと処理オーバヘッドとの望ましいバランスが得られるNの値は、上述したような要素および当業者が本明細書を読めばわかるであろう他の要素等の多数の要素に依存する。加えて、この望ましいバランスが得られるNの適切な値の決定は、当業者が本明細書を読めば理解する何らかの周知の方法またはそれの均等物を用いて行なえばよい。
運転免許証を州によって分類し運転免許証をその他無数の文書タイプから区別することに関する具体的な実装例では、625寸法比較(N=625)により、多様な現世代のモバイル装置を用いて実行する処理に対して不本意な高いオーバヘッドをもたらすことなく、好ましいロバストな分類となった。
動作510において、デジタル画像に描かれたオブジェクトを、比較動作508に少なくとも一部基づいて、特定のオブジェクトクラスのメンバとして分類する。より具体的には、比較動作508は、特徴ベクトルの各基準リストおよび/または特徴マトリクスの各特徴ベクトルを評価すること、またはその代わりに特定のオブジェクトクラスに属するオブジェクトの複数の特徴マトリクスを評価すること、および、特徴ベクトルの1つの基準リストおよび/または特徴マトリクスの特徴ベクトルをその他の基準特徴マトリクスの特徴ベクトルから分離するN次元特徴空間における超平面を識別することを、含み得る。このようにして、この分類アルゴリズムは、オブジェクトクラス間の正確な超平面境界を定め、特徴ベクトルの、特定のオブジェクトクラスとの類似点および/または特徴ベクトルのその他の基準リストおよび/または特徴マトリクスプロファイルとの相違点に基づいて、未知のオブジェクトを特定のオブジェクトクラスに割当ててもよい。
このような特徴と空間の区別の最も単純な例では、ある特徴が縦軸に沿って示され別の特徴が横軸に沿って示される二次元特徴空間を考えると、ある特定クラスに属するオブジェクトはこの特徴空間の右下部分においてクラスタ化された値の分布を有する特徴ベクトルによって特徴付けられてもよく、一方、別のクラスのオブジェクトはこの特徴空間の左上部分においてクラスタ化された値の分布を示す特徴ベクトルによって特徴付けられてもよく、分類アルゴリズムはこれら2つを、特徴空間を二つのクラス、すなわち「左上」および「右下」に分ける、各クラスタ間のラインを識別することによって、区別し得る。当然ながら、特徴空間において考慮する次元の数が増えると、分類の複雑度は急速に増すが、分類のロバストネスの多大な改善ももたらす。このことは当業者が本明細書を読めば理解するであろう。
その他の処理
いくつかのアプローチにおいて、ここに開示されている方法の実施形態に従う分類は、以下で説明するような1つ以上の追加のおよび/または代替の特徴および/または動作を含み得る。
ある実施形態において、上述のような分類は、比較動作(たとえば方法500の動作508で行なわれるもの)に基づいて信頼度値を複数の推定上のオブジェクトクラスに割当てることをさらにおよび/または代替的に含み得る。ここに開示される分類方法、システム、および/またはコンピュータプログラムプロダクトは、さらにおよび/または代替的に、モバイル装置の位置を判断すること、モバイル装置の位置を示す位置情報を受けること等を行なってもよく、判断した位置に基づいて、特定の位置に対応する分類結果の信頼度値を調整してもよい。たとえば、モバイル装置が、GPS信号に基づいて特定の州(たとえばメリーランド州)に位置すると判断された場合は、分類中に、信頼度値を、特定の州に対応するオブジェクトクラス(たとえば、当業者が本明細書を読めば理解するように、メリーランド州の運転免許証、メリーランド州の自動車権利/登録書の管理局、メリーランド州の交通違反チケット等)について調整してもよい。
信頼度値は、特定の位置に対応するオブジェクトクラスについて信頼度値を増す、特定の位置に対応しないオブジェクトクラスについて信頼度値を減じる、特定の場所に対する対応/非対応に基づいて信頼度値を正規化する等、何らかの適切なやり方で調整すればよく、このことは当業者が本明細書を読めば理解するであろう。
モバイル装置の位置は、いずれか周知の方法を用い、モバイル装置のハードウェア構成要素、または、1つ以上の衛星、無線ネットワーク、サーバ等のモバイル装置と通信する他の多数の装置を用いて、判断すればよく、このことは当業者が本明細書を読めば理解するであろう。
たとえば、モバイル装置の位置は、グローバルポジショニングシステム(GPS)信号、無線通信ネットワークとの接続、わかっている位置のデータベース(たとえばコンタクトデータベース、Google Maps(登録商標)等のナビゲーションツールに関連付けられたデータベース)、ソーシャルメディアツール(たとえばFacebook(登録商標)、Google Plus、Yelp(登録商標)等で提供されるもののような「チェックイン」特徴)、IPアドレス等のうちの1つ以上に、全体的または一部基づいて、判断すればよい。このことは当業者が本明細書を読めば理解するであろう。
他の実施形態において、分類はさらにおよび/または代替的に、モバイル装置のディスプレイに、特定のオブジェクトクラスの表示を出力すること、および、この表示の出力に応じたモバイル装置のディスプレイを介するユーザ入力を受けることを含む。ユーザ入力は、周知のいずれかのタイプであればよく、本明細書に記載の特徴および/または動作のうちのいずれかに関連すればよいが、好ましくは、ユーザ入力は、分類アルゴリズムによってオブジェクトが割当てられた特定のオブジェクトクラスの確認、否認、または修正に関連する。
この表示は、当業者によって理解されるであろう、押すことによる通知、テキストメッセージ、モバイル装置のディスプレイ上のディスプレイウィンドウ、電子メール等と介して、適切なやり方でディスプレイに出力すればよい。加えて、ユーザ入力は、どのような形態を取ってもよく、(たとえば、タッチスクリーン装置の抵抗、容量の変化を検出すること、モバイル装置の1つ以上のボタンまたはスイッチとユーザの対話を検出すること等により)ユーザがモバイル装置のディスプレイの一部を軽く叩いたまたは押したことを検出する等、どのような周知のやり方で受けてもよい。
ある実施形態において、分類はさらに、特定のオブジェクトクラスに少なくとも一部基づいて、分類されたオブジェクトの1つ以上のオブジェクト特徴を判断することを含む。このように、分類は、オブジェクトクラス識別コードを受けオブジェクトクラス識別コードをクエリとして用いること、および/またはオブジェクトクラスに従って組織されオブジェクトクラス識別コードに対してキーが付けられた、ハッシュされた、インデックスされたデータベースでルックアップを実行すること等、適切なメカニズムまたはアプローチを用いて、このようなオブジェクト特徴を判断することを含み得る。
本開示の範囲に含まれるオブジェクト特徴は、デジタル画像内で認識されることが可能な何らかの特徴、好ましくは、数値フォーマット(スカラーでもベクトルでもそれ以外でもよい)で表現されることが可能な特徴を含み得る。これは、当業者が本明細書を読めば理解するように、たとえば、基準オブジェクトを含むサブ領域の位置(特に縦置き、横置き等の1つ以上のオブジェクトの向きの状態)、オブジェクトのカラープロファイルまたは配色、オブジェクトサブ領域のカラープロファイルまたは配色、テキストの位置等である。
本開示の範囲に対応する、別の発明の実施形態に従い、図6に示されるように、方法600が示される。方法600は、何らかの所望の環境で実施すればよく、特に図1〜図4Dに関して説明した実施形態および/またはアプローチを含み得る。当然ながら、方法600に従い図6に示されるものよりも多いまたは少ない動作を実行してもよく、このことは、当業者が本明細書を読めば理解するであろう。
動作602で、モバイル装置によって取込まれたデジタル画像に基づいて第1の特徴ベクトルを生成する。
動作604で、第1の特徴ベクトルを複数の基準特徴ベクトルと比較する。
動作606で、この比較(たとえば動作604で実施された比較)に少なくとも一部基づいて、デジタル画像に描かれたオブジェクトを特定のオブジェクトクラスのメンバとして分類する。
動作608で、この特定のオブジェクトクラスに少なくとも一部基づいて、オブジェクトの1つ以上のオブジェクト特徴を判断する。
動作610において、処理動作を実行する。この処理動作は、以下のサブプロセスのうちの1つ以上を実行することを含む。すなわち、1つ以上のオブジェクト特徴に少なくとも一部基づいてデジタル画像に描かれたオブジェクトを検出すること、1つ以上のオブジェクト特徴に少なくとも一部基づいてデジタル画像に描かれたオブジェクトを矩形化すること、1つ以上のオブジェクト特徴に少なくとも一部基づいてデジタル画像をトリミングすること、および、1つ以上のオブジェクト特徴に少なくとも一部基づいてデジタル画像を2値化することである。
当業者が本明細書を読めばさらに理解するように、さまざまな実施形態において、文書の分類を介して判断されたオブジェクト特徴に少なくとも一部基づいて、デジタル画像に対し、動作610を参照して先に述べたサブプロセスのような1つ以上の他の処理動作を実行することが、好都合であろう。
たとえば、文書等のデジタル画像に描かれたオブジェクトの分類後に、他の処理パラメータ、機能等を改良すること、および/または分類されたオブジェクトが属するオブジェクトのクラスについて正しいことがわかっている情報、たとえば、オブジェクトの形状、サイズ、寸法、オブジェクト上および/または内の注目領域、たとえば1つ以上の記号、パターン、テキスト等を示す領域の位置を用いることが、可能であろう。このことは当業者が本明細書を読めば理解するであろう。
分類に基づいてページ検出を実行することに関して、いくつかのアプローチでは、オブジェクト検出能力を改善するために、特定のオブジェクトクラスに属するオブジェクトに関してわかっている情報を利用することが好都合であろう。たとえば、当業者が理解するように、デジタル画像内のオブジェクトを識別する可能性があると思われる一組の特性を、1つまたは少数の離散的なわかっている特性に狭めれば、計算コストが低くなり、および/または信頼度がより高いまたは品質がより高い結果をもたらすであろう。
オブジェクト検出を改善するのに利用し得る代表的な特性は、オブジェクトの寸法、オブジェクトの形状、オブジェクトの色、オブジェクトクラスの1つ以上の基準特徴(文書のわかっている位置にある基準記号等)を含み得る。
別のアプローチにおいて、オブジェクトを描いているデジタル画像の領域を、他のオブジェクト、画像背景、アーティファクト等を描いているデジタル画像の領域から区別するオブジェクト検出アルゴリズムを容易にすることにより、1つ以上のわかっている特性に基づいて、オブジェクト検出を改善してもよい。このことは当業者が本明細書を読めば理解するであろう。たとえば、特定のオブジェクトクラスに属するオブジェクトが特定のカラープロファイルまたは配色を示すことがわかっていれば、特に2つのカラープロファイルまたは配色が鮮明な対比を示す特徴によって特徴付けられていない場合は、1つのカラープロファイルまたは配色(たとえば背景のカラープロファイルまたは配色)から別のカラープロファイルまたは配色(たとえばオブジェクトのカラープロファイルまたは配色)への移行を検出するのではなく、デジタル画像内の特定のカラープロファイルまたは配色を検出しようとする方が、より簡単でおよび/またはより確実であろう。
分類に基づいて矩形化を実行することに関して、いくつかのアプローチでは、オブジェクト矩形化能力を改善するために、特定のオブジェクトクラスに属するオブジェクトに関してわかっている情報を利用することが、好都合であろう。たとえば、当業者が理解するように、固有の外見から真のオブジェクト構成を推定し固有の外見を推定されたオブジェクト構成に射影しようとするよりも、真のオブジェクト構成を明確に表わす一組のわかっているオブジェクト特性に基づいて、オブジェクトのデジタル表現を、固有の外見から真の構成に変換すれば、計算コストが低くなり、および/または信頼度がより高いまたは品質がより高い結果をもたらすであろう。
あるアプローチにおいて、分類によって、オブジェクトのわかっている寸法を識別してもよく、これらわかっている寸法に基づいて、(たとえば、従来のフラットベッドスキャナ、給紙スキャナまたはその他同様の多機能周辺装置(MFP)ではなくモバイル装置のカメラを用いて画像を取込むプロセスで導入された射影効果を除去することにより)デジタル画像を矩形化してデジタル画像におけるオブジェクトの歪んだ表現を歪のない表現に変換してもよい。
分類に基づいてトリミングを実行することに関して、矩形化に関して先に述べた原理と同様に、いくつかのアプローチでは、特定のオブジェクトクラスに属するオブジェクトに関してわかっている情報を利用して、トリミングされた画像すべてまたは実質的にすべてが画像背景(または画像に描かれた他のオブジェクト、アーティファクト等)ではなくオブジェクトを示すように、オブジェクトを示すデジタル画像のトリミングを改善することが、好都合であろう。
単純な例として、オブジェクト分類に基づいてオブジェクトのわかっているサイズ、寸法、構成等を判断しこの情報を利用してオブジェクトを描いていない画像の領域からオブジェクトを描いている画像の領域を識別し、オブジェクトを描いていない画像の領域を除去するようにオブジェクトを囲むトリミングラインを定めることが、好都合であろう。
分類に基づいて2値化を実行することに関して、ここで開示される分類アルゴリズムは、モバイル画像処理にいくつかの有用な改良をもたらす。この改良のいくつかの代表的な実施形態について次に図4A〜図4Dを参照しながら説明する。
たとえば、2値化アルゴリズムは一般的に、多色調のデジタル画像(たとえばグレースケール、カラー、または3つ以上の色調を示す画像400等)を2色調画像すなわち2つの色調のみ(典型的には白と黒)を示す画像に変換する。当業者は、2つ以上の明確に異なるカラープロファイルおよび/または配色を示す領域(たとえば白黒のテキスト領域404を描いた領域と対比されるカラー写真402、カラーテキスト領域406、基準オブジェクト、透かし模様等の記号408、オブジェクト背景領域410等)を有するオブジェクトを描いたデジタル画像を2値化しようとすると、結果は失敗または不満足なものになる場合があることを、理解するであろう。
1つの説明として、こういった難点は、少なくとも一部、1回の2値化変換に悪影響を与えるカラープロファイル、配色等の違いが原因である。したがって、本質的に異なる配色またはカラースキームを有し各々について別々の2値化パラメータを規定するこれら領域各々を区別する能力を与えれば、結果として得られる2色調の画像全体の品質、特に各領域の変換の質が大幅に改善されるであろう。
図4A〜図4Bに示される1つの代表的な実施形態に従うと、改善された2値化は、オブジェクトクラスのカラープロファイルおよび/または配色を判断すること(たとえばオブジェクト背景領域410についてのカラープロファイルおよび/または配色を判断すること)、オブジェクトクラスのカラープロファイルおよび/または配色に基づいて1つ以上の2値化パラメータを調整すること、および、調整された1つ以上の2値化パラメータを用いてデジタル画像をしきい値処理することとを含み得る。
2値化パラメータは、当業者が本明細書を読めば理解するであろう何らかの適切な2値化プロセスの何らかのパラメータを含み得る。また、2値化パラメータは適切な技法に従って調整してもよい。たとえば、オブジェクトクラスのカラープロファイルおよび/または配色に基づく2値化パラメータの調整に関して、2値化パラメータは、オブジェクトクラスのカラープロファイルおよび/または配色に従って、1つ以上の色チャネル、強さ等の寄与度を過度に強調するおよび/または十分に強調しないように、調整してもよい(たとえば赤の色相によって相対的に飽和するオブジェクトクラスのカラープロファイルおよび/または配色について赤チャネルを十分に強調しない)。
同様に、図4B〜図4Dに具体的に示されるような他の実施形態において、改良された2値化は、オブジェクトクラスマスクを決定することと、オブジェクトクラスマスクをデジタル画像に適用しオブジェクトクラスマスクに基づいてデジタル画像のサブ領域をしきい値処理することとを含み得る。オブジェクトクラスマスクが、そのクラスに属するオブジェクトの特徴的な特定の注目領域の位置に関する情報を提供しこのような領域を2値化動作に選択的に含めるおよび/または2値化動作から選択的に除外することを可能にする限り、オブジェクトクラスマスクはどのような種類のものであってもよい。
たとえば、図4Bに示されるように、改良された2値化は、上記のような領域を識別するオブジェクトクラスマスク420を決定し、オブジェクトマスク420を適用して、オブジェクトマスク背景領域410のような1つの注目領域を除いてデジタル画像400すべてを2値化から除外することを含む。これに代えて、デジタル画像全体をマスクアウトしオブジェクト背景領域410等の注目領域をその後マスクインして2値化処理を行なってもよい。加えて、いずれの場合でも、たとえば、オブジェクトクラスマスクとオブジェクトのカラープロファイルおよび/または配色とを双方取得し、オブジェクトクラスマスクを適用してオブジェクト背景領域410以外デジタル画像すべてを2値化の対象外とし、オブジェクト背景領域のカラープロファイルおよび/または配色に基づいて1つ以上の2値化パラメータを調整し、調整された2値化パラメータを用いてオブジェクト背景領域410をしきい値処理することによって、ここで図4Bを参照しながら説明するマスク機能を、上記カラープロファイルおよび/または配色情報機能と、組み合わせてもよい。
図4Bに示す原理を拡張して、オブジェクトクラスマスク420を用いて複数の注目領域をマスクインおよび/またはマスクアウトすることにより、高品質の2色調画像を生成するため設計された層状のアプローチにおいて2値化のための領域および/またはパラメータを選択的に指定してもよい。たとえば、図4Cに示されるように、たとえば、いくつかのアプローチでは、非テキスト領域すべてを2値化から除外するために、オブジェクトクラスマスク420の適用後に複数のテキスト領域404、406を(可能性のあるものとしては調整されたパラメータを用いて)2値化用に保持してもよい。
同様に、パラメータを調整するか否かにかかわらず、画像の一部のみを2値化から単純に除外することが好都合であろう。たとえば、図4Dを参照して、オブジェクトマスク420を用いて、カラー写真402を示す領域等の、デジタル画像400の固有領域をマスクアウトすることが望ましいであろう。次に、特に、デジタル画像400の残りの部分が1つのカラープロファイルおよび/または配色で特徴付けられるかまたは少数(すなわち3以下)の実質的に類似するカラープロファイルおよび/または配色で特徴付けられる場合、2値化を実行することによってデジタル画像400の残りの部分を明確にしてもよい。次に、マスクアウトした固有領域を任意でデジタル画像400に戻すと、結果として、2値化処理を受けたデジタル画像400のすべての領域において2色調画像の質が改善され、それとともに、2値化処理を受けなかった領域のカラー画像402は乱されていない。
さらに他の実施形態において、分類および/または分類結果に少なくとも一部基づいて光学式文字認識(OCR)を実行することが好都合であろう。具体的には、特定のクラスに属するオブジェクトに描かれているテキストの位置、フォーマット、および/または内容に関する情報を求め、予測されるテキスト位置、フォーマットおよび/または内容に基づいて、従来のOCR方法によって判断される予測を修正することが好都合であろう。たとえば、OCR予測が、文書の「日付」フィールドに対応する領域のテキストが「Jan, 14, 201l」と読めると予想する実施形態では、ここに開示されるアルゴリズムは、このテキストについて予想されるフォーマットが「[月の略語][.][##][,][####]」といったフォーマットに従うと判断してもよく、このアルゴリズムは、間違ったOCR予測を、たとえば、「Jan」の後ろのカンマをピリオドに変換しおよび/または201lの最後の文字を1という数字に変換することによって、訂正してもよい。同様に、ここに開示されているアルゴリズムは、同じテキストについて予想されるフォーマットが「[##]/[##]/[####]」であると判断しカンマと空白の各セット「, 」をスラッシュ「/」に変換することにより間違ったOCR予測を訂正してもよい。
当然ながら、当業者が本明細書を読めば理解するであろう、OCR予測の改善および/または修正の他の方法も、その全体が本開示の範囲に含まれる。
データ抽出
オブジェクト分類に基づいて改善された画像処理を実行することに加えて、ユーザはデジタル画像に示された1つ以上のオブジェクトに関する情報を収集することを望む場合がある。いくつかの実施形態において、デジタル画像からデータを抽出するためにオブジェクト分類を活用することが好都合である。以下でより詳しく説明するように、ここに開示されている方法、システム、およびコンピュータプログラムプロダクトはしたがって、オブジェクト分類に基づいてデジタル画像からデータを抽出するための機能を含む。
本明細書に記載のデータ抽出の実施形態は、当業者が本明細書を読めば理解するように、サポートベクターマシン(SVM)技術、手本から学ぶ(learn-by-example)(LBE)技術、特徴ベクトル、特徴マトリクス、文書検証技術、データセット編成技術、変換分類技術、最大エントロピー識別(MED)技術等のうちの1つ以上を利用し得る。
次に図7を参照して、ある実施形態に従う方法700が示される。この方法は、さまざまなアプローチにおいて、図1〜図4Dに示されるものを含む、何らかの適切な環境でおよび/または何らかの適切なメカニズムを用いて実行し得る。
あるアプローチにおいて、方法700は、モバイル装置によって取込まれたデジタル画像を受けるという動作702を含む。このデジタル画像は、いくつかの実施形態において、このモバイル装置または別のモバイル装置のメモリに収容されおよび/または格納されてもよい。加えて、このデジタル画像は、当業者が本明細書を読めば理解するように、カメラ、メモリ、無線受信機、アンテナ等を含む、モバイル装置の構成部品といったさまざまなソースから受けてもよい。他のアプローチでは、デジタル画像は、遠隔サーバ、別のモバイル装置、一体化されたデータ送信機能を有するカメラ、ファクシミリ機またはその他多機能プリンタ等といった遠隔装置から受けてもよい。任意で、デジタル画像は、当業者が本開示を読めば理解するように、オンラインサービス、データベース等を介して受けてもよい。
方法700はさらに、以下でさらに詳しく説明するようにモバイル装置のプロセッサを用いて動作704〜710を実行することを含む。当業者が本明細書を読めば理解するように方法700のさまざまな実施形態は、モバイル装置のプロセッサ、サーバのプロセッサ、クラウド計算環境等、およびその任意の組合せを用いて動作704〜710のうちいずれかを実行することを含み得る。
動作704において、モバイル装置のプロセッサを用いて、デジタル画像内に描かれたオブジェクトが複数のオブジェクトクラスのうちの特定のオブジェクトクラスに属するか否か判断する。描かれているオブジェクトが特定のオブジェクトクラスに属するか否かの判断は、図5および図6を参照して先に述べたオブジェクト分類方法を特に参照して、本明細書に記載のいずれかの方法を用いて行なえばよい。
動作706において、モバイル装置のプロセッサを用いて、特定のオブジェクトクラスに少なくとも一部基づいてオブジェクトの1つ以上のオブジェクト特徴を求める。ある実施形態において、オブジェクト特徴は、特徴ベクトル、特徴ベクトルリスト、特徴マトリクス、および/または抽出モデルを用いて求めればよい。オブジェクト特徴を求めることは、オブジェクトが特定のオブジェクトクラスに属するという判断に応じて行なわれる。本明細書に記載のオブジェクト特徴は、可能性がある複数のオブジェクトのうちの1つのオブジェクトを識別するのに十分である独自の特性もしくは特性の独自の組合せ、または、複数のオブジェクトクラスのうちの特定のオブジェクトクラスにオブジェクトが属すると識別するのに十分である独自の特性もしくは特性の独自の組合せを含む。たとえば、さまざまなアプローチにおいて、オブジェクト特徴は、当業者が本明細書を読めば理解するように、オブジェクトの色、サイズ、寸法、形状、テクスチャ、明度、強度、1つ以上の代表的なマークまたはその他の特徴があることまたはないこと、1つ以上の代表的なマークまたはその他の特徴の位置、複数の代表的なマークまたはその他の特徴間の位置関係等を、含み得る。
好ましい実施形態において、1つ以上のオブジェクト特徴は、オブジェクトの1つ以上の注目領域を含む。本明細書で理解される注目領域は、ユーザが抽出したい情報を示す、表現する、含む等の、オブジェクトの一部を含み得る。したがって、いくつかのアプローチにおいて、注目領域のうちの1つ以上は、1つ以上のテキスト文字、記号、写真、画像等を含む。
たとえば、一例において、ユーザが、信用調査、融資または賃貸の申込み等を希望する場合がある。所望の行為を行なうには、ユーザは、申込人の名前、住所、社会保障番号、生年月日等のデータを収集する必要がある。モバイル装置は、公共料金請求書、運転免許証、社会保障カード、パスポート、給与明細書等、信用調査、融資または賃貸の申込み等の実行に関連する情報を含む/示す1つ以上の身分証明文書のデジタル画像を受信してもよい。この場合、注目領域は、申込人の名前、住所、社会保障番号、生年月日等の関連データを示す身分証明文書のいずれかの部分を含み得る。
別の例において、ユーザが、電子送金、定期支払の設定、金融取引の契約等を希望するとする。当業者が本明細書を読めば理解するように、この場合、ユーザは、口座番号、ルーティングナンバー、受取人の名前、住所、請求人の名前および/または住所、サイン、支払額、支払日、および/またはスケジュール等といったデータを収集する必要があるであろう。モバイル装置は、請求書、送金券、小切手、クレジットカード、運転免許証、社会保障カード、パスポート、給与明細書等、信用調査、融資または賃貸の申込み等の実行に関連する情報を含む/示す1つ以上の金融書類のデジタル画像を受信してもよい。この場合、注目領域は、口座番号、ルーティングナンバー、受取人の名前、重症、請求人の名前および/または重慮、サイン、支払額、支払日、および/またはスケジュール等の関連データを示す身分証明文書のいずれかの部分を含み得る。
他の例において、ユーザが、自動車登録または新たな銀行口座等を申込む個人の身元確認を希望するとする。申込人は身分証明として運転免許証を提供する。ユーザは、運転免許証の画像を取込み、名前、住所、運転免許証番号等のテキスト情報を含む画像からデータを抽出することができる。ユーザはまた、画像から免許証の写真を抽出し、抽出した写真を免許証の参照写真と比較してもよい。さまざまなアプローチにおいて、参照写真は、自動車登録事務所や銀行が管理するローカルデータベース、行政機関が管理するデータベース等から取得してもよい。代替的に、参照写真は、以前に取得した免許証写真、たとえば、身元確認が必要であった以前の取引の間に取得した写真であってもよい。ある実施形態では、この比較に基づいて、抽出した写真が参照写真と一致するか否かの表示を任意の信用度スコアとともにユーザに提示してもよい。
動作708は、モバイル装置のプロセッサを用いて、1つ以上のオブジェクト特徴に少なくとも一部基づいて抽出モデルを構築または選択することを含む。ある実施形態において、オブジェクトクラスは抽出モデルを決定する。本明細書で理解される抽出モデルは、デジタル画像からデータを抽出するためにこのデジタル画像に適用できるものであればよい。好ましいアプローチにおいて、抽出モデルは、デジタル画像からデータを収集するための一組の命令および/またはパラメータを含む。特に好ましい実施形態において、抽出モデルは、特徴ベクトルおよび/または特徴ベクトルのリストおよび/または特徴マトリクスを用いて、デジタル画像からデータを抽出するための命令を生成および/または修正する。
たとえば、あるアプローチにおいて、本明細書に記載の代表的なデータ抽出プロセスは、オブジェクトおよび/またはそのオブジェクト特徴(1つ以上の特徴ベクトルにおいて実現されてもよい)に基づいて、さまざまな形態の身分証明書(ID)からデータを抽出するように構成される。実例としての身分証明書の形態は、たとえば複数の運転免許証フォーマットを含み得る。加えて、実例としてのIDは、そのIDに対応する発行元(州、行政機関等)といった1つ以上の識別基準に従って分類されてもよい。抽出モデルは、IDの予め定められたカテゴリのうちの1つに属する当該IDの判定に基づいて選択されてもよい(たとえば、当該IDはメリーランド州の運転免許証)。好ましくは、選択された抽出モデルは、対応するカテゴリ/クラスからの複数の見本を用いて構築される。
ある代表的なアプローチにおいて、動作708は、注目領域を特定するユーザ入力に基づいて、1つ以上の既存のオブジェクトクラス規定を見直して、求めたオブジェクト特徴が、その既存のオブジェクトクラスに属するオブジェクトの特徴を規定するパターンと一致する、対応する、またはそれと同様のパターンを規定するか否か判断することを含み得る。パターンが一致する、対応する、または同様であると判断した場合、動作708は、一致するオブジェクトクラスについて規定された既存の抽出モデルを選択することを含んでもよく、この抽出モデルを用いてデジタル画像からデータを抽出してもよい。当業者が本明細書を読めば理解するように、既存のオブジェクトクラス規定および/または抽出モデルは、モバイル装置のメモリ、モバイル装置と通信するメモリ、サーバ、ローカルまたはオンラインデータベース等から取得してもよい。
代替的に、動作708は、画像およびその特性を解析することにより、画像特性を示す特徴ベクトルを規定することを含み得る。この新たな特徴ベクトルを用いて、一致する、対応する、または同様の注目領域のパターンを有する、既存のオブジェクトクラスを示す、特徴ベクトル、特徴ベクトルのリスト、および/または特徴マトリクスを修正してもよい。たとえば、抽出モデルを構築することは、オブジェクト特徴を、上記のように新たな特徴ベクトルを介して修正された特徴ベクトル、特徴ベクトルのリスト、および/または特徴マトリクスにマッピングすることを含み得る。結果として得られる抽出モデルは、既存のオブジェクトクラスに属するオブジェクトを示す画像からデータを抽出するように構成される。
加えておよび/または代替的に、いくつかのアプローチにおいて、動作708は、オブジェクト特徴に基づいて新たな抽出モデルを構築することを含み得る。より具体的には、モバイル装置のプロセッサを用いて、画像を解析し、その特性を用いて、画像特性を示す特徴ベクトルおよび/または特徴ベクトルのリストを規定する。たとえば、特徴ベクトルは、1つ以上の色チャネルにおける画素の明度および/または強度、1つ以上の色チャネルにおける1つ以上の近傍画素の明度および/または強度、画像内または画像のサブ領域内の画素の位置関係等の画像特性に対応し得る。画像の解析および特徴ベクトルの規定は、何らかの好ましいやり方で実行すればよく、好ましくは実質的に「文書の分類」および「その他の処理」に関して先に説明したように実施すればよい。動作708は、特徴ベクトルを用いて、注目領域に示された画像特性に対応するデータを抽出するように構成された抽出モデルを構築することを含み得る。
他の実施形態において、抽出モデルを構築することは、特徴ベクトル、特徴ベクトルのリスト、および/または特徴マトリクスをマッピングし、メタデータラベルをマッピングされた各オブジェクト特徴と関連付けることを含み得る。あるアプローチにおいて、特徴ベクトル、特徴ベクトルのリスト、および/または特徴マトリクスをマッピングすることは、特徴ベクトルを処理することによって、そこから、画像について、関連する位置情報、カラープロファイル情報等を求めることを含む。
メタデータラベルは、何らかの種類の情報を含み得るものであり、何らかの種類のオブジェクト特徴と関連付けることができる。たとえば、いくつかの実施形態において、メタデータラベルは、当業者が本明細書を読めば理解するように、テキスト、英数字、記号、数字、絵、背景、前景、フィールド、影、テクスチャ、形状、寸法、カラープロファイルまたは配色等といった、示されるデータの種類に従って、オブジェクト特徴を識別し得る。
たとえば納品伝票の場合、メタデータラベルは、テキストおよび/または相対または絶対位置情報を含み得る。たとえば、メタデータラベルは、テキストを、納品伝票の右下の角という絶対位置にある納品伝票番号として識別してもよい。加えて、別のメタデータラベルは、テキストを、納品伝票上の納品伝票番号アドレスの真下という相対位置にある納品伝票の日付として識別してもよい。
加えておよび/または代替的に、メタデータラベルは、特定のデータフォーマットまたは情報内容を識別する等、後の処理動作において関連性に従ってオブジェクト特徴を識別してもよい。たとえば、当業者が本明細書を読めば理解するように、メタデータラベルは、「名前」、「住所」、「社会保障番号」、「運転免許証番号」、「生年月日」、「クレジットスコア」、「口座番号」、「ルーティングナンバー」、「写真」等の、個人情報ラベルを含み得る。
動作710において、モバイル装置のプロセッサを用いて、抽出モデルに少なくとも一部基づいてデジタル画像からデータを抽出する。特に、データの抽出は、光学式文字認識(OCR)技術を利用しない。しかしながら、以下でさらに説明するように、光学式文字認識技術を、動作710で実行されるデータ抽出という状況の範囲外では利用してもよい。
次に図8を参照して、ある実施形態に従う方法800が示される。この方法は、さまざまなアプローチにおいて、図1〜図4Dに示されるものを含む、何らかの適切な環境でおよび/または何らかの適切なメカニズムを用いて実行し得る。ある観点では、方法800は本明細書に記載のデータ抽出プロセスの実装例とみなし得る。この実装例はユーザが契約するモバイルアプリケーションのフォーマットである。
あるアプローチにおいて、方法800は、モバイル装置によって取込まれたデジタル画像を受けるという動作802を含む。このデジタル画像は、いくつかの実施形態において、このモバイル装置または別のモバイル装置のメモリに収容されおよび/または格納されてもよい。加えて、このデジタル画像は、当業者が本明細書を読めば理解するように、カメラ、メモリ、無線受信機、アンテナ等を含む、モバイル装置の構成部品といったさまざまなソースから受けてもよい。他のアプローチでは、デジタル画像は、遠隔サーバ、別のモバイル装置、一体化されたデータ送信機能を有するカメラ、ファクシミリ機またはその他多機能プリンタ等といった遠隔装置から受けてもよい。任意で、デジタル画像は、当業者が本開示を読めば理解するように、オンラインサービス、データベース等を介して受けてもよい。
方法800はさらに、以下でさらに詳しく説明する、モバイル装置のプロセッサ、サーバのプロセッサ、遠隔クラウド計算環境の1つ以上のプロセッサ等のうちの1つ以上を用いて動作804〜812を実行することを含む。
動作804において、モバイル装置のプロセッサを用いて、デジタル画像内に描かれたオブジェクトが複数のオブジェクトクラスのうちの特定のオブジェクトクラスに属するか否か判断する。さまざまな実施形態において、オブジェクトが特定のオブジェクトクラスに属するか否かの判断は、何らかの適切な方法に従って実行すればよく、好ましくは、たとえば図5および図6を参照して先に述べた文書の分類に関する説明に対応するやり方で実行すればよい。
動作806において、再びモバイル装置のプロセッサを用いて、デジタル画像をモバイル装置のディスプレイに表示する。デジタル画像は、オブジェクトが複数のオブジェクトクラスのうちいずれの特定のオブジェクトクラスにも属さないという判断に応じて表示される。加えておよび/または代替的に、デジタル画像を、オブジェクトが複数のオブジェクトクラスのうちの特定のオブジェクトクラスに属するという判断に応じて表示してもよい。
デジタル画像をモバイル装置のディスプレイに表示することは、プロセッサを用いてデジタル画像からデータを効率的かつロバストに抽出することにつながる、さらなる機能を可能にする。たとえば、さまざまなアプローチにおいて、デジタル画像をモバイル装置のディスプレイに表示することにより、画質、オブジェクト分類(または分類されていないこと)といったデジタル画像に関するフィードバックを提供することができる。同様に、デジタル画像を表示することにより、分類および/または抽出結果に関するユーザフィードバック、デジタル画像に関連付けられたまたは関連付けられるべきメタデータ、デジタル画像に描かれたオブジェクト、および/または描かれているオブジェクトが属すると判断される特定のオブジェクトクラス等、デジタル画像に対する追加処理、抽出、または他の操作の実行命令といった、さらなる入力を、ユーザから受け易くすることができる。このことは当業者が本明細書を読めば理解するであろう。
動作808は、モバイル装置のプロセッサを用いて、ユーザ入力をモバイル装置のディスプレイを介して受けることを含む。より具体的には、ユーザ有力はオブジェクト内の1つ以上の注目領域を特定する。動作808を含む方法800のある実施形態において、身分証明文書の画像を、モバイル装置のディスプレイを介してユーザに提示してもよい。ユーザに、オブジェクト分類に基づいて特定された注目領域を確認、否認、および/または修正するよう促してもよい。さまざまな実施形態において、ユーザに、さらにおよび/または代替的に、分類に基づいて特定されていない1つ以上の注目領域を規定、確認、否認、および/または修正するよう促してもよい。
動作810において、動作808で受けたユーザ入力に少なくとも一部基づいて抽出モデルを構築および/または選択する。ある代表的なアプローチにおいて、動作810は、注目領域を特定するユーザ入力に基づいて、1つ以上の既存のオブジェクトクラスを見直して、特定された注目領域が、既存のオブジェクトクラスに属するオブジェクトの注目領域を規定するパターンに一致、対応、または類似するか否か判断することを含み得る。パターンが一致、対応、または類似すると判断した場合、動作810は、一致するオブジェクトクラスについて規定された既存の抽出モデルを選択することを含んでいてもよく、その抽出モデルを用いてデータをデジタル画像から抽出してもよい。これに代えて、動作810は、画像およびその特定を解析することにより、画像特性を説明する特徴ベクトルを規定することを含んでいてもよい。この新たな特徴ベクトルを用いて、注目領域の一致、対応、または類似するパターンを有する既存のオブジェクトクラスを説明する特徴ベクトルのリストおよび/または特徴マトリクスを修正してもよい。当業者が本明細書を読めば理解するように、結果として得られる抽出モデルは、生の画像データ、テキスト、画像、写真、記号等に対応するデータを含めて、既存のオブジェクトクラスに属するオブジェクトを示す画像からデータを抽出するように構成されている。
加えておよび/または代替的に、動作810は、いくつかのアプローチでは注目領域を規定するユーザ入力に基づいて新たな抽出モデルを構築することを含んでいてもよい。より具体的には、モバイル装置のプロセッサを用いて、画像を解析し、その特性を用いて画像特性を説明する特徴ベクトルを規定する。たとえば、特徴ベクトルは、1つ以上の色チャネルにおける画素の明度および/または強度、1つ以上の色チャネルにおける1つ以上の近傍画素の明度および/または強度、画像内または画像のサブ領域内の画素の位置関係、テキストを示している可能性が高い文書の領域、写真を示している可能性が高い文書の領域等といった画像特性に対応し得る。画像の解析および特徴ベクトルの規定は、何らかの適切なやり方で実行すればよく、好ましくは実質的に「文書の分類」および「その他の処理」に関して先に説明したように実施すればよい。動作810は、特徴ベクトルを用いて、注目領域に示された画像特性に対応するデータを抽出するように構成された抽出モデルを構築することを含み得る。
動作812において、抽出モデルに少なくとも一部基づいて画像からデータを抽出する。特に、この抽出プロセスはOCR技術を利用しない。むしろ、抽出モデルは、オブジェクトまたはオブジェクトクラスをそれぞれ説明する特徴ベクトルの特徴ベクトルリストおよび/または特徴マトリクスに基づいて規定される。
実例となるある実施形態において、ユーザは、本明細書に記載のデータ分類および/または抽出を実行し易くするように適合させたモバイルアプリケーションを介して、分類動作を実行してデジタル画像に示されたオブジェクトを分類しようとしてもよい。分類アルゴリズムが、あるオブジェクトが特定のオブジェクトクラスに属するか否か認識するよう訓練されてきたか否かに応じて、このアルゴリズムがデジタル画像に描かれた特定のオブジェクトの分類に成功する場合もあれば失敗する場合もある。一回以上の分類の試みが終わった後で、身分証明文書の画像をモバイル装置のディスプレイを介してユーザに提示してもよい。ユーザに、オブジェクト分類に基づいて特性された注目領域を確認、否認、および/または修正するよう促してもよい。さらにおよび/または代替的に、ユーザに、分類に基づいて特定されていない1つ以上の注目領域を規定するよう促してもよい。
同様に、分類を試みてもオブジェクトクラスの特定に失敗した場合は、ユーザに、新たなオブジェクトクラスを規定しモバイル装置のディスプレイと対話することによって新たなオブジェクトクラスに属するオブジェクトにおける1つ以上の注目領域をさらに規定するよう促してもよい。たとえば、ユーザは、モバイル装置のディスプレイを介して触覚によるフィードバックを与えることにより、注目領域の周りに1つ以上の囲みボックスを描いてもよい。次に、ユーザは、デジタル画像からデータを抽出するようアプリケーションに指示してもよく、アプリケーションは任意で、モバイル装置、サーバ等のプロセッサを用いて、ユーザが規定した注目領域に少なくとも一部基づいて抽出モデルを構築および/または選択し、抽出モデルに全面的にまたは一部基づいてデジタル画像からデータを抽出してもよい。
さまざまなアプローチにおいて、方法700および/または800は任意で下記のように1つ以上の他の機能、特徴および/または動作を含み得る。
あるアプローチにおいて、方法700および/または方法800は、抽出モデルを訓練することをさらに含み得る。抽出モデルの訓練は、当業者が本明細書を読めば理解するように、周知の方法、モデル、メカニズム等を用いて行なえばよい。好ましい実施形態において、訓練は、手本から学ぶ(LBE)プロセスを含む。具体的には、特定のオブジェクトクラスについて、複数の代表的なオブジェクトを、関連するメタデータラベルとともにまたはメタデータラベルなしで与えてもよい。与えた代表的なオブジェクトのオブジェクト特徴に少なくとも一部基づいて、抽出モデルを訓練することにより、オブジェクトクラスに属するオブジェクトからデータを抽出するときのロバストネスを修正しそうして改善してもよい。
いくつかのアプローチにおいて、抽出モデルの訓練は、この抽出モデルを構築した対象である特定のオブジェクトクラスに属するオブジェクトからデータを精密にかつ正確に抽出する抽出モデルの能力を改善するように、特に設計されてもよいことを、当業者は理解するであろう。このような訓練は、実質的に同一のオブジェクト特徴によって特徴付けられる一組のオブジェクト、たとえば、標準化された書式、文書の種類、同じオブジェクトの複数の画像等といった同じオブジェクトタイプの複数のコピーを与えることによってモデルを訓練して、抽出の精度および/または正確さを改善してもよい。この訓練セットを用いて、抽出モデルは、クラス内のオブジェクトを表わす特徴ベクトルのリストおよび/または特徴マトリクスを強化し、クラスに属するオブジェクトからデータを抽出するときのロバストネスを改善してもよい。
代替的に、訓練は、可変のオブジェクト特徴によって特徴付けられる1つのオブジェクトクラス内の一組のオブジェクトまたはいくつかのオブジェクトクラスにまたがる一組のオブジェクトからデータを抽出する抽出モデルの能力を改善するように、特に設計されてもよい。このような訓練は、異なるオブジェクトクラスまたはいくつかのオブジェクトクラスからデータを一般的に抽出する抽出モデルの能力を改善するように、異なる特性を有する一組のオブジェクトを与えることを含んでいてもよい。
他のアプローチにおいて、抽出モデルをモバイル装置のプロセッサを用いて訓練してもよい。加えて、訓練された抽出モデルを、たとえばメモリ、バッファ、別のプロセスまたはプロセッサ等に格納および/またはエクスポートしてもよい。訓練された抽出モデルを、好ましくは、モバイル装置のメモリ、モバイル装置のプロセッサ、またはモバイル装置のプロセッサを用いて実行されている別のプロセスに、格納および/またはエクスポートしてもよい。さまざまな実施形態において、モバイル装置または別のモバイル装置による後の使用のために、訓練された抽出モデルにフラグを立ててもよくおよび/または訓練された抽出モデルを検索してもい。同様に、抽出モデルを、別のモバイル装置、サーバ、クラウド計算環境等の別の装置のメモリおよび/またはプロセッサに格納および/または送ってもよい。
好ましくは、本明細書に記載の訓練は、複数のオブジェクトを含む訓練セットを利用し、より好ましくは、訓練セットは5つ以上のオブジェクトを含む。
抽出モデルの訓練に加えて、方法700のいくつかの実施形態は、さらにおよび/または代替的に、デジタル画像の1つ以上の領域に対して少なくとも1つのOCR技術を実施することを含み得る。OCRされた領域は、オブジェクト特徴(たとえばオブジェクトクラス規定および/または抽出モデルを用いて特定されるオブジェクト特徴)および/または他のオブジェクト特徴(たとえばオブジェクトクラス規定および/または抽出モデルを用いて以前に特定されなかった特徴)のうちの1つ以上に対応し得る。
方法700および/または方法800のさらに他の実施形態は、文書等のオブジェクト内の1行以上のテキストを検出することをさらに含み得る。いくつかのアプローチにおいて、テキスト行を検出することは、デジタル画像を一次元に射影することを含む。代表的なアプローチにおいて、射影を、テキスト行の向きの主軸に垂直な次元に沿って行なうことにより、テキストの行およびテキストの行間の領域を暗領域密度(たとえば黒画素密度、数等)に従って容易に区別できるようにしてもよい。したがって、文書が縦置きの向きの場合、テキストの検出は垂直方向(y軸)に沿って射影することを含み、文書が横置きの向きの場合、テキストの検出は水平方向(x軸)に沿って射影することを含む。他のアプローチにおいて、射影を用いることにより、文書の向き(縦置き、横置き、またはその他のスキュー角)を判断および/または操作することもできる。たとえば、運転免許証のような標準的なIDに対応する文書の画像からデータを分類および/または抽出するように構成された代表的な実施形態では、テキストの行等の検出を利用して、可能性のある複数の向き(たとえばあるアプローチでは回転角度0°、90°、180°、または270°)のうちの最も確実な文書の向きを判断してもよい。
テキスト行の検出は、射影に沿う明領域と暗領域の分布を求めること、および複数の暗画素密度を求めることをさらに含み得る。加えて、各暗画素密度は射影に沿う1つの位置に対応し得る。複数の暗画素密度を求めたとき、各暗画素密度が推定テキスト行しきい値よりも大きいか否か判断することによって、推定されるテキスト行を求めてもよく、このしきい値は、ユーザによって予め定められる、実験で求められる、自動的に求められる等のものであればよい。推定テキスト行しきい値が用いられる実施形態では、テキスト行の検出は、対応する暗画素密度が推定テキスト行しきい値よりも大きいと判断したときに各位置をテキスト行として指定することをさらに含む。
別の実施形態では、テキスト行の検出は、デジタル画像内の非背景要素の接続された構成要素を検出すること、および、複数の接続された構成要素に基づいて推定される複数の文字を判断することを含み得る。推定される文字は、所与の方向の予め定められた数の明から暗への移行によって特徴付けられるデジタル画像の領域であってもよく、たとえば、大文字「E」を示すデジタル画像の小さな領域においてみられるような垂直方向の3つの明から暗への移行であり、明から暗への各移行は、文書の背景(明)から文字「E」の水平方向の字画のうちの1つへの移行に対応する。当然ながら、他の数の明から暗への移行を用いる場合もあり、たとえば、文字「o」の場合は2つの垂直方向および/または水平方向の明から暗への移行であり、文字「l」の場合は1つの垂直方向の明から暗への移行である。このことは当業者が本明細書を読めば理解するであろう。ある実施形態において、文字と推定されるという判断がなされると、テキストの行を、複数の隣合う文字を有する画像の領域を識別することによって求めてもよく、隣合う複数の文字のテキストベースラインに従ってテキスト行を定めてもよい。
いくつかのアプローチにおいて、一次元に沿って画像を射影した結果に基づいて画像の向きを判断および/または操作することが可能である。たとえば、射影によって、低暗画素密度領域を間に挟んで高暗画素密度領域がある一次元パターンが生まれた場合、この射影は、テキスト行の向きの長手方向軸に垂直な軸に沿って行なわれたと考えられる(すなわちテキストの向きが画像のx軸に沿って左から右である「縦置き」の文書の場合、射影はy軸に沿い、テキストの向きが画像のy軸に沿って下から上である「横置き」の文書の場合、射影はx軸に沿う)。この推定による判断に基づいて、射影の結果に従い画像の向きを任意で回転させてもよくおよび/または向きを設定し直してもよい。
一次元射影に沿う暗画素密度に基づいてテキスト行を検出することは、特にカラー画像では難しいことを当業者は理解するであろう。たとえば、文書によっては、テキストのカラーが背景よりも相対的に明るいことがあり、その場合、暗画素密度は、テキストの存在ではなくテキストがないと推定されることを示すであろう。この場合、テキスト行の検出は、ある位置が、暗画素密度が暗画素密度しきい値よりも小さいことによって特徴付けられると判断した場合、射影に沿うその位置の近くにあるテキスト行と推定されるものを指定することを含み得る。
加えて、テキストはさまざまな色で表わされる場合があり、暗画素密度だけでは、テキスト行であると推定されるものを識別するのに不十分な特性かもしれない。この課題に対処するために、カラー画像におけるテキスト行を検出することは、好ましくは、デジタル画像の各色チャネルを、1つの次元に沿う1つのチャネル上に射影することを含む。言い換えると、色チャネルの強度値(たとえば0〜255の整数)を1つの強度値に変換する。この変換は、何らかの適切な機能に従って実施すればよく、好ましい実施形態では、所与の画素または一組の画素の各色チャネルの強度を平均し、画素または一組の画素に、色チャネル強度値の平均値に従って代表的な強度値を割当てる。
別の実施形態において、データ抽出は、オブジェクトクラスを、注目情報を含むオブジェクト領域の1つ以上のリスト、たとえば、テキストを含むまたはテキストおよび予測されるテキストの色を含み得る文書の矩形領域のリストと関連付けることを含み得る。
実例となる1つの例において、モバイル装置のディスプレイを介してユーザにオブジェクトの画像を提示する。ユーザは、モバイル装置のディスプレイを介して画像と対話し、たとえばユーザの名前、住所、免許証番号等を表示している領域を示す、1つ以上の注目領域を規定する。ユーザは、多数の画像に対してこのプロセスを繰返すことができ、そうすることによって、意図的にまたは透明なプロセスの一部として訓練画像を提供する。十分な数の訓練例が規定されたら(たとえば運転免許証のような小さな文書の場合は約5)、訓練アルゴリズムを自動的にまたはユーザの判断で実行してもよい。訓練の結果としての抽出モデルを用いて、その後提示される未知の文書の関連する位置および矩形を、すべてOCR技術を利用することなく、自動的に抽出することができる。
他のアプローチでは、上記方法に従ってデータを抽出した後で、OCR技術を単なるデータ抽出以外の目的で利用してもよい。たとえば、OCRをモバイル装置のプロセッサを用いて実行してもよく、画像全体の小さなサブセットのみにOCRを行なってもよい。これに代えて、OCRをサーバのプロセッサを用いて実施してもよい。モバイル装置とサーバとの通信時間を短縮するために、画像の一部のみをOCRを用いて処理してサーバに送信してもよい。
他の実施形態において、分類および/または抽出結果を、検証のため、たとえば割当てられたクラス等の確認、否認、修正のためにユーザに提示してもよい。たとえば、半自動または全自動プロセスを本明細書で規定するような判別基準とともに用いてオブジェクトを分類したときに、分類とこの分類が関連するデジタル画像とを(たとえばモバイル装置のディスプレイ上で)ユーザ対して表示して、ユーザがその分類を確認または否認できるようにしてもよい。ユーザは、分類を否認したときは、デジタル画像に示されたオブジェクトの「正しい」分類を手作業で示してもよい。好ましいアプローチでは、このユーザ入力を利用して、継続中の「訓練」を分類器に与えてもよい。当然ながら、ユーザ入力は、本開示の範囲から逸脱することなく本明細書に記載のいくつかの動作に関連して与えてもよい。
さらに他の好ましい実施形態において、上記検証を、ユーザ入力を必要とすることなく実行してもよい。たとえば、抽出結果の自動検証を実行することによって、ユーザが抽出結果を見直すおよび/または訂正する必要性を軽減することが可能である。一般的に、この技術は、抽出された値が正しいことがわかっているか否か確認するために外部システムまたはデータベースを参照することを含む。たとえば、名前と住所が抽出されたときは、場合によっては、当該人物が実際その住所に居住していると確認することが可能である。
さらに他の実施形態において、この検証原理は分類に及ぶ。たとえば、いくつかのアプローチにおいて、抽出が正しい場合分類も正しいと推測することが妥当である。この推測は、「正しい」抽出結果を得る方法は1つしかないという仮定に依拠している(たとえば、当業者が本明細書を読めば理解するように、ある値が、基準データソースにおける予測値と一致する、当該値についての予測フォーマットと一致する、予測される記号またはその他の値に関連付けられている等)。
本開示の範囲に含まれるデータ抽出のここでの説明は主として方法との関連で行なってきたが、本明細書に記載の発明の概念はシステムおよび/またはコンピュータプログラムプロダクトにおいても等しく実現し得ることを当業者は理解するであろう。
たとえば、本明細書の範囲に含まれるシステムは、プロセッサと、プロセッサ内のおよび/またはプロセッサによって実行可能なロジックとを含み、このロジックによりプロセッサに方法700および800等の本明細書に記載の方法のステップを実行させてもよい。
同様に、本明細書の範囲に含まれるコンピュータプログラムプロダクトは、プログラムコードが組込まれたコンピュータ読取可能な記録媒体を含み、プログラムコードはプロセッサによる読取および/または実行が可能であり、このプログラムコードによりプロセッサに方法700および800等の本明細書に記載の方法のステップを実行させてもよい。
あるアプローチにおいて、プロセスは、モバイル装置を用いてデジタル画像を受けるまたは取込むことを含み、モバイル装置のプロセッサを用いて、デジタル画像内に描かれたオブジェクトが複数のオブジェクトクラスのうちの特定のオブジェクトクラスに属するか否か判断することと、オブジェクトが特定のオブジェクトクラスに属すると判断したことに少なくとも一部応じて、特定のオブジェクトクラスに少なくとも一部基づいてオブジェクトの1つ以上のオブジェクト特徴を求めることと、求めた1つ以上のオブジェクト特徴に少なくとも一部基づいて抽出モデルを構築または選択することと、抽出モデルを用いてデジタル画像からデータを抽出することとを含み、抽出モデルは光学式文字認識(OCR)機能を含まない。
この1つ以上のオブジェクト特徴はオブジェクトの1つ以上の注目領域を含み、好ましくは、注目領域のうちの1つ以上は1つ以上のテキスト文字を含む。加えて、抽出モデルが構築され、抽出モデルを構築することは、特徴ベクトル、特徴ベクトルのリスト、および特徴マトリクスのうちの1つ以上をオブジェクト特徴のうちの1つ以上にマッピングすることと、少なくとも1つのメタデータラベルをマッピングされた各オブジェクト特徴と関連付けることとを含む。さらに、抽出モデルは訓練され、抽出モデルの訓練は、オブジェクトクラスに属する少なくとも1つの他のオブジェクトの1つ以上の他の(たとえば少なくとも4つの)オブジェクト特徴に基づく。抽出モデルは、モバイル装置のプロセッサを用いて訓練され、その後、たとえば、メモリ、別のモバイル装置、サーバ、データベース、ログファイル、出力等に格納および/またはエクスポートされる。抽出モデルからOCRは除外されるが、OCRを抽出モデルを適用した後で実行してもよく、たとえばオブジェクト特徴および/またはそれ以外のオブジェクト特徴のうちの1つ以上に対応するデジタル画像の1つ以上の領域に対してOCRを実行してもよい。オブジェクト内の1行以上のテキストが検出され、この検出は、デジタル画像を一次元に射影し、射影に沿う明領域と暗領域の分布を求め、複数の暗画素密度を求め‐各暗画素密度は射影に沿う1つの位置に対応し‐、各暗画素密度が推定テキスト行しきい値よりも大きいか否か判断し、各位置を、対応する暗画素密度が推定テキスト行しきい値よりも大きいと判断したとき、テキスト行として指定することによって、行なう。デジタル画像の各色チャネルを上記一次元に沿う1つのチャネルに射影してもよい。
別のアプローチにおいて、方法は、モバイル装置を用いてデジタル画像を受けるまたは取込むことを含み、モバイル装置のプロセッサを用いて、デジタル画像内に描かれたオブジェクトが複数のオブジェクトクラスのうちの特定のオブジェクトクラスに属するか否か判断することと、オブジェクトが複数のオブジェクトクラスのうちのいずれにも属さないと判断したとき、デジタル画像をモバイル装置のディスプレイに表示することと、モバイル装置のディスプレイを介してユーザ入力を受けることとを含み、ユーザ入力はオブジェクトにおける1つ以上の注目領域を特定し、ユーザ入力に少なくとも一部基づいて抽出モデルを構築および/または選択することと、抽出モデルに少なくとも一部基づいてデジタル画像からデータを抽出することとを含み、抽出は光学式文字認識(OCR)を含まない。注目領域は1つ以上のテキスト文字を含む。この方法は、ユーザ入力に少なくとも一部基づいて新たなオブジェクトクラスを生成することを含む。抽出モデルは、新たなオブジェクトクラスに属する複数のオブジェクトからデータを抽出するように構成される。ユーザ入力は、任意で、複数のオブジェクトにおける複数の注目領域を含む。抽出モデルを構築することは、特徴ベクトル、特徴ベクトルのリスト、および特徴マトリクスのうちの1つ以上をオブジェクト特徴のうちの1つ以上にマッピングすることと、少なくとも1つのメタデータラベルをマッピングされた各オブジェクト特徴と関連付けることとを含む。さらに、このプロセスは、オブジェクトクラスに属する少なくとも1つの他のオブジェクトの1つ以上の他の(たとえば少なくとも4つの)オブジェクトおよび/またはオブジェクト特徴に基づいて抽出モデルを訓練することを含む。この方法は、オブジェクト特徴および/またはそれ以外のオブジェクト特徴のうちの1つ以上に対応するデジタル画像の1つ以上の領域に対してOCRを実行することを含む。この方法は、オブジェクト内の1行以上のテキストを検出することを含み得る。検出は、デジタル画像を一次元に射影することと、射影に沿う明領域と暗領域の分布を求めることと、複数の暗画素密度を求めることとを含み、各暗画素密度は射影に沿う1つの位置に対応し、各暗画素密度が推定テキスト行しきい値よりも大きいか否か判断することと、各位置を、対応する暗画素密度が推定テキスト行しきい値よりも大きいと判断したとき、テキスト行として指定することとを含む。この方法は、任意で、デジタル画像の各色チャネルを上記一次元に沿う1つのチャネルに射影することを含み得る。
別のアプローチにおいて、コンピュータプログラムプロダクトは、プログラムコードが組込まれたコンピュータ読取可能な記録媒体を含み、プログラムコードはプロセッサにより読取可能/実行可能であり、プロセッサは、プログラムコードを読取る/実行することにより、モバイル装置によって取込まれたデジタル画像を受け、デジタル画像内に描かれたオブジェクトが複数のオブジェクトクラスのうちの特定のオブジェクトクラスに属するか否か判断し、オブジェクトが特定のオブジェクトクラスに属すると判断したとき、特定のオブジェクトクラスに少なくとも一部基づいてオブジェクトの1つ以上のオブジェクト特徴を求め、1つ以上のオブジェクト特徴に少なくとも一部基づいて抽出モデルを構築または選択し、抽出モデルに少なくとも一部基づいてデジタル画像からデータを抽出する。データを抽出するように構成されたコンピュータ読取可能なプログラムコードは、光学式文字認識(OCR)を利用するように構成されたコンピュータ読取可能なプログラムコードを含まない。
本明細書に開示される発明の概念を、複数の、説明のためのシナリオ、実施形態、および/または実装例における無数の特徴を説明するために、例示を目的として示してきた。概要が開示されているこれら概念は、モジュール方式とみなされるべきものであり、何らかの組合せ、入替え、または合成の形態で実現し得る。加えて、当業者が本明細書を読めば理解するであろう、ここで開示されている特徴、機能、および概念の修正、改変、または均等物も、この開示の範囲に含まれるとみなさるべきものである。
したがって、本発明の一実施形態は、図面のうちのいずれかに示されそれとの関連で記載されたものを含めて、本明細書に開示されている特徴すべてを含む。他の実施形態は、本明細書に開示されおよび/または図面のうちいずれかに示されそれとの関係で記載された特徴の一部を含む。このような特徴またはその一部は、当業者にとっては本明細書を読めば明らかになるであろう周知の技術を用いて任意のやり方で組み合わせてもよい。
以上さまざまな実施形態が説明されているが、これら実施形態は限定ではなく専ら例示のために示されていることが理解されるはずである。よって、本発明の実施形態の広さおよび範囲は、上記代表的な実施形態のいずれによっても限定されてはならず、以下の請求項およびこれらの均等物に従ってのみ定義されるべきものである。



  1. 方法であって、
    モバイル装置を用いてデジタル画像を受けるまたは取込むことを含み、
    前記モバイル装置のプロセッサを用いて、
    前記デジタル画像内に描かれたオブジェクトが複数のオブジェクトクラスのうちの特定のオブジェクトクラスに属するか否か判断することと、
    前記オブジェクトが前記特定のオブジェクトクラスに属すると判断したことに少なくとも一部応じて、前記特定のオブジェクトクラスに少なくとも一部基づいて前記オブジェクトの1つ以上のオブジェクト特徴を求めることと、
    前記求めた1つ以上のオブジェクト特徴に少なくとも一部基づいて抽出モデルを構築または選択することと、
    前記抽出モデルを用いて前記デジタル画像からデータを抽出することとを含む、方法。

  2. 前記抽出モデルは光学式文字認識(OCR)を実行することをさらに含み、前記OCRは前記受けたまたは取込んだ画像の1つ以上の部分を除く前記デジタル画像の選択された部分に対して実行される、請求項1に記載の方法。

  3. 前記1つ以上のオブジェクト特徴は、前記オブジェクトの1つ以上の注目領域を含む、請求項1に記載の方法。

  4. 前記注目領域のうちの1つ以上は1つ以上のテキスト文字を含む、請求項3に記載の方法。

  5. 前記抽出モデルが構築され、前記抽出モデルを構築することは、
    特徴ベクトル、特徴ベクトルのリスト、および特徴マトリクスのうちの1つ以上を前記オブジェクト特徴のうちの1つ以上にマッピングすることと、
    少なくとも1つのメタデータラベルをマッピングされた各オブジェクト特徴と関連付けることとを含む、請求項1に記載の方法。

  6. 前記オブジェクトクラスに属する少なくとも1つの他のオブジェクトの1つ以上の他のオブジェクト特徴に基づいて前記抽出モデルを訓練することをさらに含む、請求項1に記載の方法。

  7. 前記抽出モデルは前記モバイル装置の前記プロセッサを用いて訓練され、前記訓練された抽出モデルを格納および/またはエクスポートすることをさらに含む、請求項6に記載の方法。

  8. 前記少なくとも1つの他のオブジェクトは、少なくとも4つの他のオブジェクトを含む、請求項7に記載の方法。

  9. 前記オブジェクト特徴および/またはそれ以外のオブジェクト特徴のうちの1つ以上に対応する前記デジタル画像の1つ以上の領域に対してOCRを実行することをさらに含む、請求項1に記載の方法。

  10. 前記オブジェクト内の1行以上のテキストを検出することをさらに含む、請求項1に記載の方法。

  11. 前記検出することは、
    前記デジタル画像を一次元に射影することと、
    前記射影に沿う明領域と暗領域の分布を求めることと、
    複数の暗画素密度を求めることとを含み、各暗画素密度は前記射影に沿う1つの位置に対応し、
    各暗画素密度が推定テキスト行しきい値よりも大きいか否か判断することと、
    各位置を、対応する暗画素密度が前記推定テキスト行しきい値よりも大きいと判断したとき、テキスト行として指定することとを含む、請求項10に記載の方法。

  12. 前記デジタル画像の各色チャネルを前記一次元に沿う1つのチャネルに射影することをさらに含む、請求項11に記載の方法。

  13. 方法であって、
    モバイル装置を用いてデジタル画像を受けるまたは取込むことを含み、
    前記モバイル装置のプロセッサを用いて、
    前記デジタル画像内に描かれたオブジェクトが複数のオブジェクトクラスのうちの特定のオブジェクトクラスに属するか否か判断することと、
    前記オブジェクトが前記複数のオブジェクトクラスのうちのいずれにも属さないと判断したとき、前記デジタル画像を前記モバイル装置のディスプレイに表示することと、
    前記モバイル装置の前記ディスプレイを介してユーザ入力を受けることとを含み、前記ユーザ入力は前記オブジェクトにおける1つ以上の注目領域を特定し、
    前記ユーザ入力に少なくとも一部基づいて抽出モデルを構築および/または選択することと、
    前記抽出モデルに少なくとも一部基づいて前記デジタル画像からデータを抽出することとを含む、方法。

  14. 前記抽出することは光学式文字認識(OCR)を実行することをさらに含み、前記OCRは前記受けたまたは取込んだ画像の1つ以上の部分を除く前記デジタル画像の選択された部分に対して実行される、請求項13に記載の方法。

  15. 前記注目領域のうちの1つ以上は1つ以上のテキスト文字を含む、請求項13に記載の方法。

  16. 前記ユーザ入力に少なくとも一部基づいて新たなオブジェクトクラスを生成することをさらに含む、請求項13に記載の方法。

  17. 前記抽出モデルは、前記新たなオブジェクトクラスに属する複数のオブジェクトからデータを抽出するように構成される、請求項16に記載の方法。

  18. 前記ユーザ入力は複数のオブジェクト内の複数の注目領域を指定することを含む、請求項16に記載の方法。

  19. 前記抽出モデルを構築することは、
    特徴ベクトル、特徴ベクトルのリスト、および特徴マトリクスのうちの1つ以上をオブジェクト特徴のうちの1つ以上にマッピングすることと、
    少なくとも1つのメタデータラベルをマッピングされた各オブジェクト特徴と関連付けることとを含む、請求項16に記載の方法。

  20. 前記オブジェクトクラスに属する少なくとも1つの他のオブジェクトの1つ以上の他のオブジェクト特徴に基づいて前記抽出モデルを訓練することをさらに含む、請求項16に記載の方法。

  21. 前記少なくとも1つの他のオブジェクトは、少なくとも4つの他のオブジェクトを含む、請求項20に記載の方法。

  22. オブジェクト特徴および/またはそれ以外のオブジェクト特徴のうちの1つ以上に対応する前記デジタル画像の1つ以上の領域に対してOCRを実行することをさらに含む、請求項16に記載の方法。

  23. 前記オブジェクト内の1行以上のテキストを検出することをさらに含む、請求項16に記載の方法。

  24. 前記検出することは、
    前記デジタル画像を一次元に射影することと、
    前記射影に沿う明領域と暗領域の分布を求めることと、
    複数の暗画素密度を求めることとを含み、各暗画素密度は前記射影に沿う1つの位置に対応し、
    各暗画素密度が推定テキスト行しきい値よりも大きいか否か判断することと、
    各位置を、対応する暗画素密度が前記推定テキスト行しきい値よりも大きいと判断したとき、テキスト行として指定することとを含む、請求項16に記載の方法。

  25. 前記デジタル画像の各色チャネルを前記一次元に沿う1つのチャネルに射影することをさらに含む、請求項24に記載の方法。

  26. コンピュータプログラムプロダクトであって、プログラムコードが組込まれたコンピュータ読取可能な記録媒体を含み、前記プログラムコードはプロセッサにより読取可能/実行可能であり、前記プロセッサは、前記プログラムコードを読取る/実行することにより、
    モバイル装置によって取込まれたデジタル画像を受け、
    前記デジタル画像内に描かれたオブジェクトが複数のオブジェクトクラスのうちの特定のオブジェクトクラスに属するか否か判断し、
    前記オブジェクトが前記特定のオブジェクトクラスに属すると判断したとき、前記特定のオブジェクトクラスに少なくとも一部基づいて前記オブジェクトの1つ以上のオブジェクト特徴を求め、
    前記1つ以上のオブジェクト特徴に少なくとも一部基づいて抽出モデルを構築または選択し、
    前記抽出モデルに少なくとも一部基づいて前記デジタル画像からデータを抽出する、コンピュータプログラムプロダクト。

 

 

Patent trol of patentswamp
類似の特許
コンテンツ配信をセグメンテーションするシステム及び方法を記載する。仮想オブジェクトモデルは複数のセグメントに分割される。複数のセグメントの順序は配信キューに設定される。仮想オブジェクトモデルの各セグメントは、仮想オブジェクトモデルと関連する物理オブジェクトを認識するように構成される装置に、配信キューの順序で配信される。
【選択図】図4
本開示は、画像レジストレーションおよび注釈のためのデバイス、システム、および方法に関する。本デバイスは、共通格子上でスライド・デジタル画像全体を整列し、組織構造を照合することに基づいて、一方の整列画像から他方の整列画像に注釈を転記するためのコンピュータ・ソフトウェア製品を含む。本システムは、組織構造に基づく画像レジストレーションおよび画像間注釈を遂行するために、ワークステーションおよびネットワーク型コンピュータというような、コンピュータ実装システムを含む。本方法は、組織構造に基づいて共通格子上において隣接する組織切片に対応するデジタル画像を整列させ、隣接組織画像の1つから隣接組織画像の他の1つに注釈を転記するプロセスを含む。
細胞診標本の分類を容易にするために使用されるシステムおよび方法を検討する。システムは、細胞診標本の画像データを取得またはインポートする。インポートされた画像データは、識別される目標細胞の特徴属性を含むことができる。そうでなければ、システムは、画像解析を行い、識別される細胞の特徴属性を含む標本の画像データセットから1つ以上の目標細胞を識別する。システムは、所定の基準および/または必要に応じてユーザ入力の基準を用いて、特徴属性を解析する。システムは、解析ツールを含む。この解析ツールは、細胞学的に異常な細胞が特定の標本中に存在する場合、特徴属性の関数として選択された細胞の画像を操作および観察することによって、細胞学的に異常な細胞を識別できるようにユーザを支援する。より具体的には、解析ツールは、大きな画像データセットから異常な目標細胞を発見、抽出および表示できるようにユーザを支援し、大量の画像データのナビゲーションを容易にすることによって、すべての標本の効率的な分類を可能にする。
関心領域における血流分布を決定する非侵襲の方法を提供する。この方法は、対象の関心領域をコヒーレントな光源で照射するステップと、関心領域の少なくとも2つのスペックル画像を順次取得するステップであって、対象の心臓の動きに同期して少なくとも2つのスペックル画像を取得するサブステップを含む、ステップと、少なくとも2つの取得スペックル画像における画素強度の時間的変化に基づいて少なくとも2つの取得スペックル画像を電子的に処理することにより、レーザスペックルコントラスト撮像(LSCI)画像を生成し、主要な血管中の血流速度の分布を決定し、LSCI画像により関心領域の組織中の灌流分布を定量化するステップとを含む。LSCI画像は、異なる血流速度の検出を可能にする。
被験者が病状に侵される可能性があるときを識別するシステム、方法、およびコンピュータ可読媒体が開示される。例えば、少なくとも1つのプロセッサは、被験者の外部の軟組織画像を反映した情報を受信するように構成されてもよい。プロセッサはまた、外部の軟組織画像情報の評価を実行し、評価の少なくとも一部に基づいて、評価結果情報を生成するように構成されてもよい。プロセッサはまた、評価結果情報の少なくとも一部に基づいて、被験者が病状に侵される尤度を予測するように構成されてもよい。
低侵襲治療のための計画、誘導およびシミュレーションシステムおよび方法(関連出願の相互参照)本出願は、参照によりその全体が本明細書に組み込まれる、2013年3月15日に提出された「planning,navigationandsimulationsystemsandmethodsforminimallyinvasivetherapy」と題する米国仮特許出願第61/800,155号の優先権を主張する。本出願はまた、参照によりその全体が本明細書に組み込まれる、2014年1月8日に提出された「planning,navigationandsimulationsystemsandmethodsforminimallyinvasivetherapy」と題する米国仮特許出願第61/924,993号の優先権をも主張する。本出願はまた、参照によりその全体が本明細書に組み込まれる、2013年7月11日に提出された「surgicaltrainingandimagingbrainphantom」と題する米国仮特許出願第61/845,256号の優先権をも主張する。本出願はまた、参照によりその全体が本明細書に組み込まれる、2013年11月5日に提出された「surgicaltrainingandimagingbrainphantom」と題する米国仮特許出願第61/900,122号の優先権をも主張する。 // JP2016517288
低侵襲治療のための計画、誘導およびシミュレーションシステムおよび方法が本明細書に開示されており、計画方法およびシステムは、患者特有の術前画像を使用する。計画システムは、術前画像から複数の経路が展開されることを可能にし、その手術の所望の手術結果に応じて経路をスコア付けし、誘導システムは、低侵襲ポートベースの外科的処置、および、脳手術の特定の事例においては開頭術を可能にする。
本開示は、有機発光ダイオード(「OLED」)デバイスの堆積膜層の品質を査定するための技法を提供する。画像が捕捉され、分析される堆積層を識別するようにフィルタにかけられる。この層を表す画像データは、随意に、輝度(グレースケール)データに変換することができる。次いで、堆積層内の非連続性を強調するように、勾配関数が適用される。次いで、非連続性は、1つ以上の閾値と比較され、堆積層の品質を確認するために使用され、次いで、随意的な改善策が適用される。開示された技法は、次の製造ステップが適用される前に層間剥離等の潜在的な欠陥を迅速に識別するように適用することができる。随意的な実施形態では、欠陥が存在すると判定されるかどうかに応じて、改善策を講じることができる。
デジタル画像解析のための改善されたシステム及び方法が提供される。より具体的には、本開示は、生体組織サンプルのデジタル画像解析のための改善されたシステム及び方法を提供する。典型的な実施形態は、i)分割、ii)グループ化及びiii)細胞内区画(核、膜及び細胞質)に関する個々の細胞の分子タンパク質プロファイルの定量を提供する。本開示のシステム及び方法は、細胞内レベルにおける組織分割を有利に実行して、解析、グループ化及び、組織切片における組織のタンパク質発現プロファイルを全体的及び/又は局所的に定量することを容易にする。局所的−全体的な組織解析及びタンパク質定量を実行することは、細胞の空間的及び分子的構成と、種々の種類のガンの分子情報との相関を有利に可能にする。
【選択図】図1
画像注釈をグループ化するシステムが開示されている。表示ユニット(1)は、解剖学的オブジェクトの表示を含む対象(5)に関する複数の医用画像を表示するように構成される。注釈ユニット(2)は、ユーザインターフェース(4)を介して複数の医用画像の複数の注釈(3)の入力に関する情報を受けるように構成され、各注釈は、複数の医用画像のうち1つの画像に相対する幾何学的情報を含む。グループ化ユニット(4)は、幾何学的情報、及び、同じオブジェクトに属する注釈(3)の幾何学的関係の一般的な特性を定めるルールのセットに基づき、複数の注釈の中から注釈のグループを検出するように構成される。注釈のグループの検出は、複数の医用画像間の幾何学的関係にさらに基づく。
ベルトなどの試験中のデバイスの画像の改良のためのシステムおよび方法が提供される。試験中のデバイスの画像は、画像フレームの選択軸から対象物が回転されているかを判定することにより、より好適にできる。回転されている場合、画像は逆の角度分回転され、対象物は画像フレームの選択軸と平行にされる。回転された画像は、次に対象物の解析に利用可能とされる。画像を回転補正して、あるいはせずに、検出されたリブの全長に沿ったリブ幅の解析が実行される。
To top