English Page

 

ICC-Crawlerとは

 ICC-Crawlerは、ウェブ上を自動的に巡回してウェブページを収集する クローラと呼ばれる プログラムの一種です。ICC-CrawlerはNICTユニバーサルコミュニケーション研究所が運用しており、収集したページは研究目的以外では使用しません。

 我々はクローラが収集先ホストに迷惑をかけないよう細心の注意を払って運用をしております。 万が一ICC-Crawlerの動作に問題がありました場合には、下記の連絡先にご連絡をいただければ直ちに収集を停止するなどの対処を行います。

収集拒否方法

1. robots.txt を利用する

ICC-Crawlerはrobots.txtの規約に従って、次のようなシーケンスを見付けると、そのパスの下はアクセスしません。

User-agent: *
Disallow: /cgi-bin

User-agent: ICC-Crawler
Disallow: /

2. 上記の方法でもアクセスが停止しない場合

上記の方法をとっても、ICC-Crawlerによるアクセスが停止しない場合はご連絡ください。直ちに収集を停止するなどの対処を行います。連絡先はこちらです

収集ポリシーについて

  1.  接続先ホストへ過度な負荷はかけません。
    ウェブホストにかかる負担を軽減するため、クローリング対象ホストに対して時間あたりの接続数を監視し、過度な接続を行なわないようにしております。この制限は、1つのホストが複数のIPアドレス/ホスト名を使用しても、IPアドレスおよびホスト名で個別に設定してスケジュールを制御しております。
  2. robots.txtファイルの記述内容を遵守します。
    ICC-Crawlerはrobots.txtファイルの記述内容を解析し、ホスト側で設定したアクセス制限を遵守します。
    また、robots.txtファイルにCrawl-Delayの設定がなされている場合、Crawl-Delayで指定された値とクローラに設定された最低アクセス間隔時間のうち大きい方の値を用いてアクセスを行います。
  3. アクセス停止の申し出があったホストに対してはアクセスしません。
    アクセス停止のご連絡をいただいたホストやIPアドレスに対しては、それ以降アクセスを行わないように設定します。

ページの収集目的

  1. ウェブアーカイブの構築
  2. 多言語翻訳や情報分析等の高度情報処理技術の研究開発用データの収集

研究以外の目的では使いません。

クローラのIPアドレス

202.180.34.186
61.86.246.72

連絡先

国立研究開発法人 情報通信研究機構 ユニバーサルコミュニケーション研究所
総合企画室 共通基盤グループ
電話番号:0774-98-6300 FAX:0774-98-6955