查看用户代理抓取的
查看网站 URL 的爬行频率可以快速揭示搜索引擎将时间花在爬行上的位置。
如果您有兴趣查看单个用户代理的行为,这很简单,只需过滤掉 Excel 中的相关列即可。在本例中,使用 WC3 格式的日志文件,我通过 Googlebot 过滤 cs(User-Agent) 列:
然后过滤 URI 列以显示 Googlebot 抓取此示例网站主页的次数:
这是通过单个用户代理的 URI 词干查看是否存在任何问题 领英数据库 区域的快速方法。您可以通过查看 URI 词干列的过滤选项来更进一步,在本例中为 cs-uri-stem:
从这个基本菜单中,我们可以看到正在抓取哪些 URL(包括资源文件),以快速识别任何有问题的 URL(例如不应抓取的参数化 URL)。
您还可以使用数据透视表进行更广泛的分析。要获取特定用户代理抓取特定 URL 的次数,请选择整个表 (Ctrl/cmd + A),转到“插入”>“数据透视表”,然后使用以下选项:
我们所做的就是按用户代理进行过滤,将 URL 词干作为行,然后计算每个用户代理出现的次数。
通过我的示例日志文件,我得到以下内容:
页:
[1]