2024年11月01日 建站教程
服务器日志分析可以对爬网优先级提供无与伦比的洞察力,并使搜索引擎优化团队能够微调爬网预算管理以获得更好的排名。
大多数网站运营商不知道网络服务器日志的重要性。他们不记录,更不用说分析他们网站的服务器日志了。尤其是对于大品牌,他们无法利用服务器日志分析,无法挽回地丢失未记录的服务器日志数据。
选择接受服务器日志分析作为其正在进行的搜索引擎优化工作的一部分的组织通常在谷歌搜索中表现良好。如果你的网站包含10万页或更多,你想知道服务器日志如何以及为什么会带来巨大的增长机会,请继续阅读。
为什么服务器日志很重要?
每次机器人请求托管在网络服务器上的网址时,它都会自动创建一个日志条目来反映过程中交换的信息。当覆盖很长一段时间时,服务器日志将代表收到的请求和返回的响应的历史。
服务器日志文件中保留的信息通常包括客户端的IP地址、请求的日期和时间、请求页面的URL、HTTP响应代码、服务的字节数以及用户代理和引用者。
虽然服务器日志是在请求网页的每个实例中创建的,包括用户的浏览器请求,但搜索引擎优化只关注bot服务器日志数据的使用。这与GDPR/CCPA/DSGVO等数据保护框架的法律考虑有关。由于没有用于搜索引擎优化目的的用户数据,原始匿名网络服务器日志分析仍然不受其他潜在适用法律法规的影响。
值得一提的是,在某种程度上,基于谷歌搜索控制台的抓取统计,类似的观点也是可能的。然而,这些样本的数量和时间跨度是有限的。与GoogleSearchConsole不同的是,它的数据只反映了过去几个月的数据,只有服务器日志文件才能对SEO的长期趋势提供清晰宏观的概览。
服务器日志中有价值的数据
每次bot请求服务器上托管的页面时,它都会创建一个日志实例来记录几个数据点,包括:
请求客户端的IP地址。
请求的确切时间,通常基于服务器的内部时钟。
请求的网址。
HTTP用于请求。
返回的响应状态代码(例如,200、301、404、500或其他)。
来自请求实体的用户代理字符串(例如,搜索引擎机器人名称,如Googlebot/2.1)。
服务器日志记录的典型示例可能如下所示:
150.174.193.196-[2021年12月15日:11:25:14+0100]“GET/index . html http/1.0”2001050“-”“Google bot/2.1(+http://www . Google . com/bot . html)”“www . example . ai”
在这个例子中:
150 . 174 . 193 . 196是eipoftherequestingtity。
[2021年12月15日:11:25:14+0100]是请求的时间。
" GET/index.htmlHTTP/1.0 "是HehttPmethodsused(GET),filerequested(index.html)和andtheHTTPprotocolversionused。
200 is eservershttpstatuscoderesponsible turn。
1050是serverresponse的beytesizeof。
“Google bot/2.1(+http://www . Google . com/bot . html)”是istheuseragentoftherequestingentity。
“www.example.ai”是isthereferringURL。
如何使用服务器日志
搜索引擎优化的角度来看,网络服务器日志提供无与伦比的洞察力有三个主要原因:
帮助从合法机器人(如Googlebot、Bingbot或YandexBot)产生的理想搜索引擎机器人流量中过滤掉没有SEO意义的不良机器人流量。
为爬网优先级提供搜索引擎优化见解,从而使搜索引擎优化团队有机会积极调整和微调爬网预算管理。
允许监控和提供发送到搜索引擎的服务器响应的跟踪记录。
假的搜索引擎机器人可能很烦人,但它们很少影响网站。有许多专门的服务提供商,如Cloudflare和AWSShield,可以帮助管理不需要的bot流量。在分析web服务器日志的过程中,假冒的搜索引擎机器人往往扮演次要角色。
为了准确测量除了主搜索引擎之外,网站的哪些部分正在被优先排序,在执行日志分析时有必要过滤机器人程序流量。根据目标市场,重点可能是谷歌、苹果、必应和Yandex等搜索引擎机器人。
尤其是对于内容新鲜度至关重要的网站,这些网站被再次抓取的频率将严重影响其对用户的有用性。换句话说,如果内容变化不够快,用户体验信号和有机搜索排名就无法充分发挥潜力。
带有三个搜索引擎标志的图形,代表它们各自的网络爬虫。
只有通过过滤服务器日志,才有可能准确衡量相关的搜索引擎bot流量。
虽然谷歌倾向于抓取所有可用的信息,并定期重新抓取已知的网址模式,但它的抓取资源并不是无限的。这也是为什么,对于登陆页面数十万的大型网站,重新抓取的周期取决于谷歌的抓取优先级分配算法。
这种分配可以通过可靠的启动时间和高度响应的网络服务来积极激发,这些服务是专门为快速体验而优化的。这些步骤本身对SEO是有帮助的。但是,只有通过分析覆盖很长一段时间的完整服务器日志,才有可能确定所有可爬网登录页面(通常是少量相关登录页面)的总容量之间的重叠程度。优化和可索引的SEO登陆页面在站点地图中具有代表性,Google往往优先考虑爬行、索引和排名。
这个日志分析是技术SEO审核不可或缺的一部分,也是找出预算浪费程度的唯一方法。无论是可抓取的过滤器、占位符、压缩内容页面、打开临时存储服务器还是网站其他过时的部分,都会持续影响抓取,最终影响排名。在某些情况下,例如计划的迁移,通过搜索引擎优化审计(包括服务器日志分析)获得的见解通常决定了迁移的成败。
此外,日志分析为大型网站提供了重要的搜索引擎优化见解。它可以回答谷歌重新扫描整个网站需要多长时间。如果这个答案碰巧在很长一段时间——几个月或更长时间——是决定性的,那么这个动作可能会得到保证,以确保索引搜索引擎优化登录页被抓取。否则,网站的任何SEO改进都可能在发布后的几个月内被搜索引擎忽略,进而导致排名不佳。
一个由三部分组成的文氏图显示了谷歌爬行、XML站点地图和搜索引擎优化登录页面之间的重叠。
可索引的搜索引擎优化登录页面和谷歌爬行页面之间的高度重叠是一个积极的SEOKPI。
服务器响应对于谷歌搜索的可见性至关重要。虽然谷歌搜索控制台确实提供了最近服务器响应的重要一瞥,但谷歌搜索控制台向网站运营商提供的任何数据都必须被视为具有代表性,但样本有限。虽然这对于识别异常问题很有用,但通过服务器日志分析,可以分析和识别所有HTTP响应,包括任何可能危及排名的定量相关的非200OK响应。如果有太多的性能问题(例如,当503服务不可用时的计划停机时间),可能的替代响应可能会指示性能问题。
显示503和200状态代码的抽象图形
太多的非200OK服务器响应将对有机搜索的可见性产生负面影响。
从哪里开始?
虽然服务器日志分析有潜力,但大多数网站运营商没有利用提供的机会。服务器的日志要么根本没有记录,要么定期被覆盖或不完整。大多数网站不会将服务器日志数据保留任何有意义的时间。对于任何愿意收集和使用服务器日志文件进行搜索引擎优化的运营商来说,这都是一个好消息。
规划服务器日志数据收集时,值得注意的是,至少为了使数据可用,哪些数据字段必须保留在服务器日志文件中。以下列表可视为指南:
请求实体的远程IP地址。
请求实体的用户代理字符串。
请求方案(例如,是HTTP或https或wss或其他内容的HTTP请求)。
请求的主机名(例如,HTTP请求用于哪个子域或域)。
请求路径,通常是服务器上作为相对网址的文件路径。
请求参数,它可以是请求路径的一部分。
请求时间,包括日期、时间和时区。
请求方法。
响应http状态代码。
响应时间。
如果请求路径是相对URL,则服务器日志文件中经常被忽略的字段是记录请求的主机名和方案。这就是为什么与it部门确认请求路径是否为相对URL非常重要,这样主机名和方案也会记录在服务器日志文件中。一个简单的解决方案是将整个请求URL记录为一个字段,其中包括字符串中的方案、主机名、路径和参数。
收集服务器日志文件时,还必须包括来自CDN和网站可能使用的其他第三方服务的日志。请咨询这些第三方服务,了解如何定期提取和保存日志文件。
克服服务器日志分析的障碍
通常,为了满足保存服务器日志数据的迫切需要,会提出两个主要障碍:成本和法律问题。虽然这两个因素最终取决于具体情况,如预算和法律管辖权,但它们都不一定构成严重障碍。
云存储可能是一个长期的选择,物理硬件存储也可能限制成本。由于20TB左右硬盘零售价不到600美元,硬件成本可以忽略不计。考虑到存储硬件的价格多年来一直在下降,最终的存储成本不太可能对服务器日志记录构成严重挑战。
此外,提供服务的日志分析软件或SEO审计提供商将产生相关成本。虽然预算中必须考虑这些成本,但考虑到服务器日志分析提供的优势,再次证明这些成本是合理的。
虽然本文旨在总结SEO服务器日志分析的内在好处,但不应将其视为法律建议。此类法律意见只能由符合法律框架和相关司法管辖区的合格律师提供。这里可以适用GDPR/CCPA/DSGVO等一系列法律法规。尤其是在欧盟运营时,隐私是一个主要问题。但是对于SEO的服务器日志分析,任何与用户相关的数据都是无关紧要的。任何无法通过IP地址最终验证的记录都将被忽略。
在隐私方面,不允许使用任何未经验证和未确认的搜索引擎bot日志数据,但可以根据相关法律建议在指定时间后删除或匿名。一些最大的网站运营商定期采用这种久经考验的方法。
什么时候开始?
剩下的主要问题是何时开始收集服务器日志数据。答案是现在!
服务器的日志数据只能有意义的应用,能够提供有足够容量的可操作建议。服务器日志对于搜索引擎优化审核的有用性通常在6到36个月之间,这取决于网站的大小及其爬网优先级信号。
应该注意的是,未记录的服务器日志不能在稍后阶段获得。今天开始的任何保存服务器日志的努力很可能最早在明年就会有结果。因此,服务器日志数据的收集必须尽早开始,并在网站运行期间不间断地继续,以便在有机搜索中表现良好。
本文链接:http://so.lmcjl.com/news/16706/