コンピュータープログラミング

クローラは何ですか? クローラツール「Yandexの」とGoogle

毎日インターネット上で新素材の膨大な量は、写真や動画をアップロードし、古いWebページを更新し、ウェブサイトを作成することがあります。 検索エンジンから隠さずにすることは、ワールド・ワイド・ウェブ、これらの文書のいずれにも見つかりませんでした。 任意の時点でロボットのプログラムのような選択肢が存在しません。 検索あなたがそれを必要とする理由ロボット、そしてどのように動作させるためには何ですか?

検索ロボットは何ですか

クローラのサイト(検索エンジン) - それはすぐにすべてのオペレータの介入なしにインターネットをナビゲートし、Webページの数百万人を訪問することが可能である自動プログラムです。 ボットは、常にスキャンスペースあり、ワールド・ワイド・ウェブの新しいWebページを発見し、定期的にすでにインデックスさご覧ください。 ウェブクローラスパイダー、クローラー、ボットのための他の名称。

なぜ検索エンジンのスパイダーは、

検索エンジンのスパイダーを行う主な機能 - その上にあるWebページがインデックスだけでなく、テキスト、画像、オーディオおよびビデオファイル。 ボットは参照し、ミラーサイト(コピー)およびアップデートをチェック。 ロボットはまた、ワールド・ワイド・ウェブのための技術基準を開発し、実装して世界機関の適合規格のためのHTMLコードの制御を行います。

何がインデックス化され、そしてなぜそれが必要とされています

インデックスは - 、実際には、検索エンジンで特定のWebページを訪問する処理です。 プログラムは、このサイト、画像、動画、外部へのリンクのテキストをスキャンし、そのページが検索結果に表示されます。 いくつかのケースでは、サイトには、それは手動でウェブマスター検索エンジンに追加することができ、自動的にスキャンすることができません。 通常、これは存在しない場合に発生する 外部リンクの (多くの場合、ごく最近作成した)特定のページへ。

エンジンのスパイダーを検索するにはどうすればよいです

各検索エンジンは同様のプログラム、「Yandexの」または他のシステム上で動作するメカニズムに応じて大幅に変えることができ、Googleの検索ロボットを持つ独自のボットを持っています。

プログラムはサイトで「来て」と、メインページからの外部リンクは、(ユーザーが表示されませんものを探してオーバーヘッドを含む)Webリソースを「読み」:一般的には、ロボットの動作原理は以下のとおりです。 ボートは、サイトのページ間を移動し、他の人に移動する方法です。

プログラムは、インデックスにどのサイトを選ぶのだろうか? たいていの場合、「旅」よりもクモは、大規模な基準重量とのニュースサイトや主要なリソースディレクトリやアグリゲータから始まります。 クローラは、継続的に以下の要因をインデックス化率と一貫性に、ページを一つずつスキャンします。

  • 内部:perelinovka、サイトのサイズ、正しいコード、ユーザーフレンドリーなようにして(同じリソースのページ間の内部リンク)。
  • 外部:サイトにつながる総参照重み、。

最初のrobots.txtにより、任意のウェブサイト上の検索ロボット検索。 また、リソースのインデックスは、情報に基づいて行われ、この文書からそれをされて受け取りました。 このファイルには、「Yandexの」やGoogleの初期のヒットサイトを達成するために、結果的に、検索エンジンでページの訪問の可能性を高める、とすることができ、「スパイダー」のための具体的な手順が含まれています。

プログラムの類似クローラー

多くの場合、用語「検索ロボットは」インテリジェント、ユーザや自律エージェント、「アリ」または「ワーム」と混同されます。 唯一の薬剤と比較して有意差を浸し、他の定義は、ロボットの類似したタイプを参照してください。

例えば、薬剤は、ことができます:

  • 知的:サイトへのサイトから移動しているプログラムは、独立して進める方法を決定します。 彼らは、インターネット上で非常に一般的ではありません。
  • 自律:これらの薬剤は、製品、検索を選択、またはフォーム、ネットワークプログラムにはほとんど関係している、いわゆるフィルタを、記入してユーザーを助けます。
  • ユーザー:プログラムは、World Wide Web、ブラウザ(例えば、オペラ、IE、Google Chromeの、とユーザーとの対話に貢献するのFirefox)、メッセンジャー(Viberの、電報)または電子メールプログラム(MS Outlookとクアルコム)。

「蟻」と「ワームは、」検索エンジン「スパイダー」に類似しています。 ネットワーク間で一貫してこのアリのように相互作用する第一形態、「ワーム」は、他の点で標準のクローラと同じように複製することができます。

検索エンジンのロボットの様々な

クローラーの多くの種類を区別。 プログラムの目的に応じて、彼らは以下のとおりです。

  • 「ミラー」 - 重複は、ウェブサイトを閲覧しています。
  • モバイル - Webページのモバイル版に焦点を当てます。
  • クイック - 最新の更新プログラムを見てすぐに新しい情報を修正します。
  • リファレンス - 参照インデックスは、その数を数えます。
  • インデクサ異なる種類のコンテンツ - テキスト、オーディオ、ビデオ、画像のための特定のプログラム。
  • 「スパイウェア」 - まだ検索エンジンに表示されていないページを探しています。
  • 「ウッドペッカー」 - 定期的関連性と効率性を確認するためにサイトにアクセスしてください。
  • ナショナル - (例えば、.MOBI、または.kz .ua)国ドメインの1つであるWebリソースを閲覧します。
  • グローバル - インデックスのすべての国民のサイト。

ロボット主要な検索エンジン

いくつかの検索エンジンのスパイダーもあります。 理論的には、これらの機能は広範囲に変えることができるが、実際にはプログラムはほとんど同じです。 次のようにWebページのロボットに二つの主要な検索エンジンのインデックスを作成する主な相違点は以下のとおりです。

  • テストの緊縮。 これは、クローラのメカニズムは「Yandexの」やや厳しい見積もりワールド・ワイド・ウェブの標準に準拠する部位と考えられています。
  • サイトの健全性の維持。 Googleのクローラインデックス(メディア・コンテンツを含む)全体のサイト、「Yandexのは、」選択的コンテンツを視聴することができます。
  • スピードテスト新しいページ。 Googleは「Yandexのによる」プロセスの場合は2週間以上かかる場合があり、数日以内に検索結果に新しいリソースを追加します。
  • インデックスの再作成の頻度。 14日ごとに1 - クローラー「Yandexのは、」週に二回更新を確認し、Googleの。

インターネットは、当然のことながら、2つの検索エンジンに限定されるものではありません。 他の検索エンジンは、独自のインデックスパラメータに従って自分のロボットを持っています。 また、ない主要な検索リソースを設計しているいくつかの「スパイダー」、および個々のチームやウェブマスターがあります。

一般的な誤解

人気の信念に反して、「スパイダーは、」情報を処理しません。 プログラムは、スキャンしたWebページを保存し、さらなる処理は完全に異なるロボットをとります。

また、多くのユーザーが検索エンジンのスパイダーは、マイナスの影響と「有害な」インターネットを持っていると信じています。 実際には、「スパイダー」のいくつかのバージョンが大幅にサーバーをオーバーロードすることができます。 人的要因もあります - プログラムを作成したウェブマスターは、ロボットの構成の間違いを犯すことができます。 しかし、既存のプログラムのほとんどはよく設計され、専門的に管理し、任意の新たな問題を速やかに削除されます。

インデックスを管理する方法

検索エンジンのロボットが自動化されたプログラムですが、インデックス作成プロセスは、部分的にウェブマスターによって制御することができます。 これは、大幅に外部とができます 内部の最適化 リソースのを。 また、手動で検索エンジンに新しいサイトを追加することができます。大規模なリソースは、Webページ登録の特殊な形式を持っています。

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 ja.delachieve.com. Theme powered by WordPress.