ユニバーサルコミュニケーション研究所
MENUCLOSE
ICC-Crawler
2024年7月11日以降に収集した情報については、以下の収集目的に従い利用します。それ以前に収集した情報の取り扱いについてはこちらをご覧ください。
ICC-Crawlerとは
ICC-Crawlerは、ウェブ上を自動的に巡回してウェブページを収集するクローラと呼ばれる プログラムのひとつです。ICC-Crawlerは国立研究開発法人情報通信研究機構ユニバーサルコミュニケーション研究所が運用しております。
我々はICC-Crawlerが収集先ホストの迷惑とならないよう細心の注意を払って運用をしております。 万が一ICC-Crawlerが問題を生じさせている場合には、後掲の連絡先にご連絡をいただければ直ちに対象の収集先ホストからの収集を停止します。
収集ポリシー
- 接続先ホストへ過度な負荷はかけません。
収集先ホストにかかる負担を軽減するため、収集先ホストに対する時間あたりの接続数を監視し、過度な接続を行なわないようにしております。1つのホストが複数のIPアドレス又はホスト名を使用する場合でも、収集先ホストへ過大な負荷とならないよう可能な範囲で接続スケジュールを調整いたします。 - robots.txtファイルの記述内容を遵守します。
ICC-Crawlerは収集先ホストで公開されているrobots.txtファイルの記述内容を読み取り、収集先ホストが設定したアクセス制限を遵守します。 また、robots.txtファイルにCrawl-Delayの設定がある場合、設定されたアクセス間隔時間とクローラに設定された最低アクセス間隔時間のうち大きい方の値を用いてアクセスを行います。 - アクセス停止の申し出があったホストに対してはアクセスしません。
アクセス停止のご連絡をいただいたホストやIPアドレスについて、アクセスを行わないように設定します。 - 利用目的を遵守します。
収集した情報は、当機構が定めた利用目的の範囲内で利用します。
ページの収集目的
当機構は、収集した情報を多言語翻訳、情報分析、各種人工知能技術等の高度情報処理技術の研究開発及び関連する当機構の活動のために利用します。
また、当機構は、第三者(民間企業や公的機関を含みます。以下同じ。)と行う共同研究のため、又は、第三者における研究開発や第三者による当機構の研究成果の利用のため、法律が認める範囲内で、収集した情報や当該情報を利用した当機構の研究や共同研究の成果を第三者に提供します。提供先となった第三者は自らの事業のために当該情報や研究成果を利用します。
収集拒否方法
- 1. robots.txt を利用する
- ICC-CrawlerはREP(Robots Exclusion Protocol)をサポートしています。REPの詳細についてはこちら(RFC9309)をご参照下さい。
- 以下のようにrobots.txtに記述することで、全てのページの収集を拒否することができます。
-
User-agent: ICC-Crawler
Disallow: / - また、以下のようなルールをrobots.txtに記述することで、指定されたパス及びより下層からの収集を拒否したり、特定のパスにおける一定の種別のファイルの収集を拒否したりすることができます。
-
User-agent: ICC-Crawler
Disallow: /contact/
Disallow: /*.jpg - さらに、以下のように全てページの収集を拒否した上で、指定されたパス及びより下層からの収集や特定のパスにおける一定の種別のファイルの収集を許可することも可能です。
-
User-agent: ICC-Crawler
Disallow: /
Allow: /product/
Allow: /service/*.html - 2. 1の設定を行ってもアクセスが停止しない場合
- 1の設定を行っても、ICC-Crawlerによるアクセスが停止しない場合はこちらまでご連絡ください。対象のホストから収集を停止するための措置を執ります。
クローラのIPアドレス
202.180.34.186
61.86.246.72
連絡先
国立研究開発法人情報通信研究機構 ユニバーサルコミュニケーション研究所
総合企画室 共通基盤グループ
電話番号:0774-98-6300 FAX:0774-98-6955