加入收藏 | 设为首页 | 会员中心 | 我要投稿 我爱故事小小网_铜陵站长网 (http://www.0562zz.com/)- 视频终端、云渲染、应用安全、数据安全、安全管理!
当前位置: 首页 > 运营中心 > 建站资源 > 优化 > 正文

网站数据分析中日志分析的五要素

发布时间:2022-06-23 11:37:04 所属栏目:优化 来源:互联网
导读:我们应该从哪些要素分析网站数据中的日志?下面优帮云百度搜索引擎关键词优化公司将向您解释基本信息、目录捕获、时段捕获、IP捕获和状态代码分发。 一、基本情况 从哪里可以得到日志的基本信息?三个基本信息,抓取总量,停留时间(H)和访问次数,可以从
  我们应该从哪些要素分析网站数据中的日志?下面优帮云百度搜索引擎关键词优化公司将向您解释基本信息、目录捕获、时段捕获、IP捕获和状态代码分发。
 
  一、基本情况
 
  从哪里可以得到日志的基本信息?三个基本信息,抓取总量,停留时间(H)和访问次数,可以从光年日志分析工具计算。然后,通过这三个基本信息,我们可以计算出每次要取的平均页数和要取的单页的停留时间。然后利用MSSQL提取蜘蛛的_捕获量,并根据上述数据计算爬虫的重复捕获率。
 
  单页捕获停留时间=停留时间*3600/总捕获
 
  爬虫重复抓取率=-_抓取量/总抓取量
 
  对于以上数据,我们需要统计一段时间的数据,看看整体趋势如何,这样才能发现问题,调整网站的整体策略。以上月某网站的基本日志信息为例。
 
  这个基本表是上个月日志的基本信息。我们需要看到它的整体趋势调整和在哪里加强。
 
  从这一总体趋势可以看出,爬行动物总捕获量总体呈下降趋势,需要我们做出相应的调整。
 
  总的来说,网站的重复爬行率比较高,这就需要一些细节,更多的爬行访问和使用一些机器人和不跟随技术。
 
  爬虫单页停留时间长,国平老师曾经写过,页面加载速度是如何影响SEO流量的文章,你应该去读一下。提高网页的加载速度,减少爬虫的单页停留时间,有助于爬虫的总爬网量,进而增加网站的收录量,从而提高网站的整体流量。从16号到20号服务器有一些问题。调整后,速度明显加快,单页停留时间相应减少。
 网站数据分析中日志分析的五要素
  相应的调整如下:
 
  从本月的分类来看,爬行动物的爬行量下降,重复爬行率上升。综合分析需要从站内外各环节进行调整。站点中的链接应尽可能使用锚文本。如果做不到,可以在其他页面上推荐超链接,这样蜘蛛就可以尽可能深入地抓住它们。网站外链接需要以多种方式发布。目前,平台太少。如果深圳新闻网、上国网等网站出现轻微错误,我们的网站将受到严重影响。站外平台要宽,发布链接要多样化,不能直接发到主页的栏目和文章页面要加强。目前,场外平台太少。近10W外部链路集中在几个平台上。
 
  第二,目录捕获
 
  MSSQL用于提取目录爬网程序爬网并分析每日目录爬网。它可以清楚地看到每个目录的抓取情况。此外,还可以比较以往的优化策略,优化是否合理,关键栏优化是否达到预期效果。如图所示,
 
  绿色:主柱黄色:抓得不好粉色:抓得不好深蓝色:禁止柱
 
  可以看出,总体趋势变化不大,只是两栏的抓拍变化很大。
 
  根据上述两个数字,相应的调整如下:
 
  从CAS的输出图来看,总体捕获较少。在主列中,抓取次数较少:XXX,XXX,XXX。总体上,要增加整个网站的进口口岸,配合外链,加强站内的内部链接建设。对于薄弱柱,应加强处理。同时,深蓝色的栏目被写进机器人中进行屏蔽,网站也被导入这些栏目中进行不跟踪,避免权重只进不出。
 
  第三,时间段捕捉
 
  通过Excel中的数组函数,提取日常抓取时间段中的爬虫抓取,重点分析日常抓取,找出对应的抓取密集时间段,并相应更新内容。同时,可以看出抓取异常。
 
  图中有些粉红色的表格是不正常的时间点。可以看出,服务器不是特别稳定。而且,如果想了解特殊情况,可以从下图中一目了然,一天中哪个时间点有问题,同样是总捕获量呈下降趋势。
 
  通过抓取时间,我们做了相应的调整:
 
  通过图中表格的颜色,可以看出服务器不是特别稳定。我们需要加强服务器的稳定性。此外,在17、18、19天内,该网站不断遭到人的攻击和链接,但爬行正常,说明这些都对网站造成了一定的影响!
 
  第四,IP段捕获
 
  通过MSSQL在日志中提取爬虫的IP地址,并通过Excel进行统计。我们还需要查看整个IP地址。如果IP网段没有明显变化,网站的提升权限就没有大问题。因为当网站升级或降级时,爬网程序的IP段将被替换。
 
  第五,状态码统计
 
  在此之前,您需要知道HTTP状态代码返回值代表什么。
 
  从图中可以看出,有许多304状态码。如果一个网站被搜索引擎抓取的次数和频率更多,那么就更有利于排名,但是如果你的网站出现过多的304条,那么就会降低搜索引擎抓取的频率和频率,从而使你的网站排名低于别人。调整:服务器可以清除缓存。
 
  还有一张图片,百度爬虫数据图,数据密集,以上所有数据都是从这里调用的。

(编辑:我爱故事小小网_铜陵站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读