コンピューター, 情報技術
現代のコンピュータビジョン。 タスクとコンピュータビジョン技術。 Pythonでプログラミングコンピュータビジョン
写真や絵に描かれているかを理解するためにコンピュータを教えるためにどのように? これは、単純なようだが、コンピュータのためにこれを使用すると、重要な情報を抽出したいから、0と1からなるだけ行列です。
コンピュータビジョンとは何ですか? あなたのコンピュータを「見る」ことができることです
ビジョンは - それを使用する人のための重要な情報源である、我々はすべての情報の70〜90%から、様々な推計によると、得られます。 我々はスマートな車を作成したい場合や、もちろん、我々は同じスキルとコンピュータを実装する必要があります。
コンピュータビジョンの問題は非常に明確に述べることができます。 「見る」とは何ですか? 見ているだけではあるところと理解されます。 これは、コンピュータビジョンと人間の視覚の違いを締結しました。 私たちのビジョン - 、距離や大きさを理解する能力である - それは、世界についての知識の源と同様に、メトリック情報のソースです。
セマンティックカーネルイメージ
絵を見て、私たちは、意味情報を抽出するために、いわば、属性の数によってそれを記述することができます。
たとえば、この絵を見て、我々はそれが屋外であると言うことができます。 都市交通とは何ですか。 車があること。 私たちは、これは、建物や象形文字の構成に東南アジアであることを推測することができます。 マオ・ゼドンの肖像画が、これは北京であることを理解し、そして誰もがライブビデオを見たり、自分自身がそこにあったならば、これは有名な天安門広場であることを推測します。
私たちはそれを見て、絵についての詳細を言うことができますか? フェンス - 私たちは、人々がここに近づくがあることを、言って、画像内のオブジェクトを識別することができます。 ここでは傘、その建物のポスター。 これらは、クラスの例は一瞬の検索に従事している非常に重要なオブジェクト、あるあります。
それでも私たちは、機能またはオブジェクトの属性のいくつかを学ぶことができます。 例えば、ここではこれが普通の中国人、すなわち、マオ・ゼドンの肖像画ではないと判断することができます。
車両によれば、移動中に変形しないこと、それが移動物体であり、それは困難であると判断することができます。 フラグについて絶えず変形し、彼らはまた、移動している、それはオブジェクトと言ったが、彼らは困難ではありませんすることができます。 そしてシーンでそこにフラグを開発することによって決定することができる風は、であり、さらに、風の方向を決定することができ、例えば、それは右に左から吹いています。
コンピュータビジョンにおける距離と長さ
非常に重要なコンピュータビジョン科学に関するメトリック情報があります。 これは、距離のすべての種類です。 チームは、地球から約20分で、できるだけ多く答えるため例えば、ローバーのために特に重要です。 したがって、そこにバックリンク - 40分。 私たちは、地球の移動コマンドのための計画を立てるなら、あなたはこれを考慮に入れる必要があります。
首尾よくビデオゲームにおけるコンピュータビジョンの技術を統合しました。 ビデオによると、あなたは、人を対象物の三次元モデルを構築することができ、かつユーザーの写真は、都市の3次元モデルを復元することができます。 そして、それらの上を歩きます。
コンピュータビジョン - かなり幅広いです。 それは密接に様々な他の科学と絡み合っています。 コンピュータビジョンの一部 それは歴史的に、画像処理領域をキャプチャし、時にはコンピュータビジョンを割り当てます。
分析、パターン認識 - 優れた知性の創造へのパス
私たちは別に、これらの概念を調べてみましょう。
画像処理 - これはアルゴリズムの面積、入力および出力される - イメージ、そして我々は彼が何かを持っています。
画像解析は、 - 二次元画像での作業とこのことから結論を出すに焦点を当て、コンピュータビジョンの分野です。
パターン認識 - ベクトルの形式でデータを認識し、抽象的な数学的な規律。 これは入り口に、ある - ベクトル、我々はそれとは何かを持っています。 ベクトルである場合、我々は知っているので、重要ではありません。
コンピュータビジョン - それは、もともと二次元画像の構造を復元することでした。 今日、このエリアは、より広範になってきたし、それが画像に基づいて、作るの物理的なオブジェクトのすべての受け入れと解釈することができます。 つまり、 それが仕事である 人工知能の。
全く異なる分野におけるコンピュータビジョンと並行して、測地に、写真測量は、進化した - 二次元画像上のオブジェクト間の距離を測定します。
ロボットは「見る」ことができます
そして最後に - これは、マシンビジョンです。 マシンビジョンのもと、ロボットのビジョンを意味しています。 これは、一部の生産上の問題の決定です。 一つの大きな科学である-私たちは、コンピュータビジョンは、と言うことができます。 これは、他の科学部の一部を組み合わせたものです。 コンピュータビジョンは、任意の特定のアプリケーションを取得するとき、それはマシンビジョンに変わります。
コンピュータビジョン領域は、実用的なアプリケーションの質量を持っています。 これは、生産の自動化と関連しています。 企業では、機械による手作業を置き換えるために、より効率的になります。 マシンは寝ていない、疲れていない、彼女は1年365日を働かせて喜んで、不規則な仕事のスケジュールを持っていました。 だから、機械加工を使用して、我々は特定の時間に保証された結果を得ることができ、そしてそれは非常に興味深いです。 すべてのタスクは、コンピュータビジョンシステムのための明確な用途を持っています。 そして、唯一の計算ステージで絵ですぐに結果を見ることに勝るものはありません。
人工知能の世界の入り口に
プラスエリア - それは難しいです! ビジョンを担当する脳の重要な部分、あなたが「見る」ためにあなたのコンピュータを教えるならば、それは、完全な使用のコンピュータビジョンである、それは完全な人工知能の目的の一つであると考えられています。 私たちは人間のレベルで問題を解決することができた場合は、同時に最も可能性の高い、我々は、AIの問題を解決します。 それは非常に良いです! または非常に良いではない、あなたが見れば、「ターミネーター2」。
なぜビジョンがある - それは難しいですか? 同じ物体の画像は、外部要因に応じて大きく変化することができるからです。 観測点のオブジェクトによって違って見えます。
例えば、一つの同じ数字は、異なる角度から撮影します。 そして、もう一つの眼、両眼と半分かもしれフィギュアの中で最も興味深いものです。 そして、コンテキスト(塗装目でシャツの男のこの画像の場合)に応じて、目には、二つ以上のことができます。
コンピュータは、まだ分かりませんが、それは「見ます」
それが困難になるもう一つの要因 - それは照明です。 異なる照明と同じシーンが異なります。 オブジェクトのサイズは変えることができます。 また、任意のクラスのオブジェクト。 あなたはその2メートルの高さに彼の男について、どのように言うことができますか? 何もありません。 ヒト成長2.3 M、80 cmでもよい。オブジェクトの他のタイプと同様に、しかし、同じクラスのオブジェクトです。
特に生活のオブジェクトは、株の様々なを受けます。 髪の人、スポーツ選手、動物。 実行中の馬の写真を見て、どのような彼らのたてがみと尾で起こっていることは単純に不可能であるかを決定。 画像内の重複するオブジェクト? あなたはコンピュータ画像でも最も強力なマシンを突き出す場合は正しい判断を与えるために難しさを見つけます。
次のビュー - それは変装です。 いくつかのオブジェクトは、動物は非常に巧みな環境になりすまし、および。 そして、同じスポットや着色。 それにもかかわらず、我々は常にではないものの遠くから、それらを参照してください。
もう一つの問題 - 運動。 想像を絶する運動中のオブジェクトが変形します。
オブジェクトの多くは、非常に可変です。 ここでは、例えば、「椅子」のオブジェクトの下の2つの写真インチ
そして、これであなたは座ることができます。 非常に困難である - しかし、形状、色、素材、すべてのものがオブジェクトである「椅子」の異なるものがそのようなことを、機械を教えるために。 これは挑戦です。 コンピュータビジョンの方法を統合するには - 、理解するためにマシンを教える分析、推測することです。
各種プラットフォームでのコンピュータビジョンの統合
コンピュータビジョンの質量は、彼が最初に顔検出器を作成したとき、2001年にはより多くに浸透し始めました。 ヴィオラ、ジョーンズ:私たちはそれ2人の作者ました。 これは、機械学習法の力を証明した最初の高速で信頼性の高い十分なアルゴリズムでした。
人間の顔の認識 - 今すぐコンピュータビジョンは十分に新しい実用的なアプリケーションを持っています。
しかし、映画のように男を認識する - ランダムな角度、異なる照明条件で - それは不可能です。 しかし、問題、または異なる照明付きまたは異なるポーズで異なる人々の1を解決するために、パスポートの写真に同様に、高い信頼度で可能です。
顔認識アルゴリズムの特徴によるところが大きいのパスポートの写真の要件。
あなたは生体認証パスポートを持っている場合たとえば、いくつかの近代的な空港では、あなたは自動パスポートコントロールシステムを使用することができます。
コンピュータビジョンの未解決の問題 - 任意のテキストを認識する能力
たぶん誰かがOCRシステムを使用していました。 これらの一つ - ファインReaderは、RuNetシステムで非常に人気があります。 あなたはデータを記入多くの形態があり、それらが完全にスキャンされ、情報が非常によく、システムによって認識されています。 しかし、画像内の任意のテキストでの状況ははるかに悪いです。 この問題は未解決のまま。
コンピュータビジョン、モーションキャプチャを含むゲーム
独立した大面積 - 3次元モデルと(非常に成功したコンピュータゲームに実装されている)モーションキャプチャの作成です。 コンピュータビジョンを使用して最初のプログラム、 - ジェスチャーを使用して、コンピュータとの対話のシステム。 それが作成されたとき、それは開いている多くのことでした。
アルゴリズムは非常に単純に設計されていますが、それは万人の画像を取得するために、人々の合成画像のジェネレータを作成するために取っ構成すること。 彼は今、うまく機能しているため、アルゴリズムのパラメータを選択するために彼らとスーパーコンピュータ。
それは一つのプロセッサの容量の12%を消費し、人がリアルタイムで位置を認識することを可能にするアルゴリズムを作成するために百万の画像や可能週可算スーパーコンピュータの時間です。 このマイクロソフトのKinectシステム(2010)。
コンテンツによって画像を検索するには、システムに写真をアップロードすることができ、そしてそれの結果は同じ内容のすべての画像を与えると同じ角度から作られます。
コンピュータビジョンの例:3次元と2次元の地図は今それで行われています。 ナビゲーション車のための地図は定期的にDVRに応じて更新されます。
ジオタグ付きの写真数十億を持つデータベースがあります。 データベースに画像をダウンロードすることにより、あなたはそれが行われた場所を決定し、さらにいくつかの視点を持つことができます。 もちろん、場所は観光客一度十分にその人気があることを提供し、地域の写真の数がありましたしました。
ロボットがあふれています
どのような方法でそれなしでどこでも現時点でロボティクス、。 今(このコンピュータプログラムは、表示する方法には、運転手に役立ちます)ドライバにコマンドを送信するために歩行者や道路標識を認識し、特殊なカメラを持っている車があります。 そして、そこに完全に自動化されたロボット車両であるが、彼らは追加の大量の情報を使用せずにビデオカメラシステムだけに頼ることはできません。
現代のカメラ - これはアナログカメラオブスキュラであります
デジタル画像についてお話しましょう。 現代のデジタルカメラはカメラオブスキュラの原理に配置されています。 唯一の代わりに光ビームを入射し、対象回路の室の後壁に投影される孔の、我々は、特殊な光学系は、レンズと呼ばれる持っています。 その目的は、大きな光ビームを収集し、全ての光線が投影を取得し、フィルム又はマトリックス上に画像を形成するために、仮想点を通過するようにそれを変換することです。
現代のデジタルカメラ(マトリックス)は、個々の要素から構成されている - ピクセル。 各ピクセルは、ピクセルの合計に入射した光のエネルギーを測定し、1つの出力番号を発行することができます。 コンピュータ-このため、デジタルカメラでは、我々は、単一のピクセルに巻き込ま光測定値を設定し、画像の明るさの代わり得る 視野。 したがって、我々は、参照画像がラインとクリア輪郭、及び異なる色で着色された正方形のグリッド流れていないとき - ピクセル。
あなたは、世界初のデジタル画像を参照してください下に。
しかし、この絵ではないでしょうか? カラー。 色は何ですか?
色の心理的感覚
色 - これは私たちが見たものです。 人間と猫のための1つの色と同じものが異なります。 私たち(人間)と動物の光学系以来 - ビジョンは異なっています。 そのため、色は - それはオブジェクトや光を観察するときに発生するというビジョンの心理的な品質です。 そして、オブジェクトではありませんし、光の物理的性質。 色 - 光コンポーネントの相互作用の結果である、と私たちの視覚系のシーン。
ライブラリを使用してPythonでプログラミングコンピュータビジョン
あなたはコンピュータビジョンの研究に真剣に従事することを決定した場合は、すぐに多くの困難のために準備する必要があり、この科学は最も簡単なものではなく、落とし穴の数を隠します。 しかし、ヤンエリク・ソルマの原作者「のPythonのプログラミングコンピュータビジョン」 - すべての最も簡単な言語を概説ブック。 ここでは、3Dでのさまざまなオブジェクトの認識の方法に慣れるだろう、ステレオ画像、バーチャルリアリティやコンピュータビジョンの多くの他のアプリケーションと連携することを学びます。 本の中でPythonのに十分な例があります。 しかし、説明は、あまりにも多くの研究およびハードデータをオーバーロードしないようにそう、一般化、話すように、提示されています。 学生、アマチュア、や愛好家に適した仕事。 この本をダウンロードし、コンピュータビジョン(PDF形式)についての他の人がネットワークにすることができます。
現時点では、コンピュータビジョンアルゴリズムと画像処理や数値計算アルゴリズムとOpenCVののオープンソースライブラリがあります。 これは、最も近代的なプログラミング言語で実装されている、オープンソースです。 我々はコンピュータビジョンの話なら、Pythonはプログラミング言語として使用しています、それはまた、ライブラリーのサポートを持っている、加えて、それは常に進化して偉大なコミュニティがあります。
同社は、「マイクロソフト」は、サービスAPI可能な人の画像でそれを動作するようにニューラルネットワークを訓練するために用意されています。 コンピュータビジョンを適用する機会もあり、Pythonはプログラミング言語として使用しています。
Similar articles
Trending Now