latix60748@egvo 发表于 2025-3-5 12:16:47

查看用户代理抓取的



查看网站 URL 的爬行频率可以快速揭示搜索引擎将时间花在爬行上的位置。

如果您有兴趣查看单个用户代理的行为,这很简单,只需过滤掉 Excel 中的相关列即可。在本例中,使用 WC3 格式的日志文件,我通过 Googlebot 过滤 cs(User-Agent) 列:


然后过滤 URI 列以显示 Googlebot 抓取此示例网站主页的次数:


这是通过单个用户代理的 URI 词干查看是否存在任何问题 领英数据库 区域的快速方法。您可以通过查看 URI 词干列的过滤选项来更进一步,在本例中为 cs-uri-stem:


从这个基本菜单中,我们可以看到正在抓取哪些 URL(包括资源文件),以快速识别任何有问题的 URL(例如不应抓取的参数化 URL)。

您还可以使用数据透视表进行更广泛的分析。要获取特定用户代理抓取特定 URL 的次数,请选择整个表 (Ctrl/cmd + A),转到“插入”>“数据透视表”,然后使用以下选项:


我们所做的就是按用户代理进行过滤,将 URL 词干作为行,然后计算每个用户代理出现的次数。

通过我的示例日志文件,我得到以下内容:

页: [1]
查看完整版本: 查看用户代理抓取的