Discuz! Board

 找回密码
 立即注册
查看: 40|回复: 0

查看用户代理抓取的

[复制链接]

2

主题

2

帖子

8

积分

新手上路

积分
8
发表于 2025-3-5 12:16:47 | 显示全部楼层 |阅读模式


查看网站 URL 的爬行频率可以快速揭示搜索引擎将时间花在爬行上的位置。

如果您有兴趣查看单个用户代理的行为,这很简单,只需过滤掉 Excel 中的相关列即可。在本例中,使用 WC3 格式的日志文件,我通过 Googlebot 过滤 cs(User-Agent) 列:


然后过滤 URI 列以显示 Googlebot 抓取此示例网站主页的次数:


这是通过单个用户代理的 URI 词干查看是否存在任何问题 领英数据库 区域的快速方法。您可以通过查看 URI 词干列的过滤选项来更进一步,在本例中为 cs-uri-stem:


从这个基本菜单中,我们可以看到正在抓取哪些 URL(包括资源文件),以快速识别任何有问题的 URL(例如不应抓取的参数化 URL)。

您还可以使用数据透视表进行更广泛的分析。要获取特定用户代理抓取特定 URL 的次数,请选择整个表 (Ctrl/cmd + A),转到“插入”>“数据透视表”,然后使用以下选项:


我们所做的就是按用户代理进行过滤,将 URL 词干作为行,然后计算每个用户代理出现的次数。

通过我的示例日志文件,我得到以下内容:

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|NFT数字藏品交易-全球交流论坛

GMT+8, 2025-4-5 00:14 , Processed in 0.066655 second(s), 20 queries .

NFTOTC!

快速回复 返回顶部 返回列表