アクセスログに出力されているbot系ユーザーエージェントのまとめ
個人で運用しているサーバがマルウェアに感染して以来Apacheのアクセスログを以前よりも注視するようになったのですが、複数のbotやよくわからないユーザーエージェント文字列があったのでメモしておきます。
目次
- Googlebot/2.1
- Googlebot-Image/1.0
- Mediapartners-Google
- Twitterbot/1.0
- bingbot/2.0
- YandexBot/3.0
- Baiduspider/2.0
- proximic
- GrapeshotCrawler
- ADmantX Platform Semantic Analyzer Appnexus - ADmantX Inc.
- NetcraftSurveyAgent
- 最後に
Googlebot/2.1
Googleのクローラー。他のBotでも同様と思いますが、正当なGooglebotではないクローラーのリクエストもあるようです。そういったクローラーを判定してアクセスを拒否したい場合の方法は以下の記事を参考にしてください。
Googlebot-Image/1.0
Googleの画像用クローラー。サイトに掲載された画像をクローリングしているようです。クロールされたくない場合は以下のヘルプに書いてあるようにrobots.txtでの設定が必要です。
Mediapartners-Google
Adsense広告のターゲット設定用クローラー。詳しくは以下の記事がわかりやすかったです。
アドセンスの知って得するMediapartners-Google
その他にもGoogle系のクローラーはあるので、こちらで確認するとよいかと。
Twitterbot/1.0
URL付きのツイートをするとツイッターカード表示用にアクセスしてくるクローラー。以前書いたAngularJSでのツイッターカード対応についてはこちらを参照。
bingbot/2.0
マイクロソフトが提供する検索エンジンbingのクローラー。こちらで正当なbingbotかどうかIPを検証できます。
botによるアクセスが集中して正常にページが表示されないといった場合は、こちら(Bingbotのアクセスがパネェ!そんな時はBing Webマスターツールで調整を)の記事が役に立ちそうでした。
以下は上記の記事で示されている、不要なbotからのアクセスを拒否する.htaccessの設定です。正当なクローラーからのアクセスならrobots.txtで拒否できるのでしょうが、偽装されたアクセスもあるので、まとめて拒否するなら以下のようなやり方になるのだと思います。
SetEnvIf User-Agent “AhrefsBot” shutout
SetEnvIf User-Agent “Baiduspider” shutout
SetEnvIf User-Agent “Baiduspider+” shutout
SetEnvIf User-Agent “BaiduMobaider” shutout
SetEnvIf User-Agent “DeuSu” shutout
SetEnvIf User-Agent “Dataprovider” shutout
SetEnvIf User-Agent “HaosouSpider” shutout
SetEnvIf User-Agent “MJ12bot” shutout
SetEnvIf User-Agent “proximic” shutout
SetEnvIf User-Agent “SeznamBot” shutout
SetEnvIf User-Agent “YandexBot” shutout
order Allow,Deny
Allow from all
Deny from env=shutout
YandexBot/3.0
ロシアの検索エンジンYandexのクローラー。
Baiduspider/2.0
中国の検索エンジン百度 (バイドゥ) のクローラー。
proximic
comScoreというネット調査大手のクローラーっぽい。
GrapeshotCrawler
Grapeshotというインターネット関連の調査会社?のクローラー。サイトにクローラーについての記述があり、IPアドレスもそれだったので間違いないのだが、結局なにをやっている会社なのかよくわからなかった。英語の理解力の問題か...
ADmantX Platform Semantic Analyzer Appnexus - ADmantX Inc.
AdmantXという広告会社のもの。偽装アクセスの可能性もあるのでなんとも言えないが、正当なアクセスだとしたら、なにしに来ているんだろう。こういう広告会社がありますよー、といったアクセスログを使った広告でしょうか。
NetcraftSurveyAgent
Netcraftというインターネットセキュリティサービスを提供している会社のもの。
最後に
アクセスログを頻繁に確認するようになってから、bot系のアクセスやwordpressやphpMyAdminなどが利用されていないかスキャンしてくるアクセスが非常に多いということに気が付きました。
そんなアクセスの多いサイトでもなかったのでそこまでセキュリティを意識していなかったのですが、調べていくうちに段々と不安になっていきますね。phpMyAdminも便利そうなので入れてみようかと思っていましたが、セキュリティ関連の記事に目を通してからでないと後で痛い目を見そうです。