Wayback Machineにアーカイブを取られないように対抗してみるお話

URLをコピーしました！

やっぱり魚拓を取られるのは、気分が良いものではないと思う。
つぎは、Wayback Machineからの拒否をしてみる。

Contents

robots.txtを無視？
ブロック方法
アーカイブ状況
おわりに
…😠

robots.txtを無視？

調べていると、Wayback Machineがrobots.txtに従わないようになるかもという記事を発見した。

ブロック方法

いろんなサイトの情報を元に、以下のエージェントをrobots.txtで拒否することにした。

# Wayback Machine Block
User-agent: ia_archiver
Disallow: /
User-agent: archive.org_bot
Disallow: /
User-agent: ia_archiver-web.archive.org
Disallow: /

私は、XML Sitemap & Google Newsを利用しているので設定>表示設定のrobots.txt の追加ルールに記述すればrobots.txtを設置しなくても設定が可能であった。

アーカイブ状況

Wayback Machineで、現在どれぐらいアーカイブが保存されているか確認する。
まず、Wayback Machineにアクセスする。

おわりに

過去にWayback Machine公式からエージェント拒否の方法が紹介されていたが、削除されているようだ。
これでだめだったら、.htaccessでのドメイン拒否かJavaScriptによる対策しかなさそうだ。

…😠

😠😠😠

よかったらシェアしてね！

URLをコピーしました！

Wayback Machineにアーカイブを取られないように対抗してみるお話

robots.txtを無視？

ブロック方法

アーカイブ状況

おわりに

…😠

COMMENT - コメント

コメントするコメントをキャンセル

Wayback Machineにアーカイブを取られないように対抗してみるお話

robots.txtを無視？

ブロック方法

アーカイブ状況

おわりに

…😠

COMMENT - コメント

コメントする コメントをキャンセル

コメントするコメントをキャンセル