在蜘蛛进行抓取的时候,首先抓到的是一个页面,然后从页面上分析链接,导入链接数据库,然后再通过链接数据库继续进行抓取。
抓取的时候不进行排序计算,只是会根据一定的条件进行抓取优先级判断。
抓到一个页面之后进行降噪处理,正文提取(正文内容+相关链接),然后对正文内容进行分词、全文检索。
EXP:
这是一个神奇的世界,男人多个小JJ,女人多个大MM。他们形成互补,组成人类世界。一辈子只为两件事:生存,繁衍。
分词后结果:(分词算法不同结果也会不同。)
这是 /一个 /神奇 /的 /世界 , 男人 /多个 /小 /JJ , /女人 /多个 /大 /MM 。 他们 /形成 /互补 , 组成 /人类 /世界 。 一辈子 /只 /为 /两 /件 /事 : /生存 , /繁衍
然后结合每个词的权重和出现次数进行页面关键字排序。期间去掉一些停用词(你 我 他 的 和 …)和主题不相关的高频无关词(出现次数虽多,但是跟当前页面主题没关系)。
形成大概如下排序:
01. 多个 n 9.88(2)
02. 世界 n 8.14(2)
03. 一辈子 m 4.96(1)
04. 神奇 an 4.94(1)
05. 他们 r 4.92(1)
06. 人类 n 4.91(1)
07. 这是 n 4.68(1)
08. 男人 n 4.66(1)
09. 女人 n 4.58(1)
10. 一个 m 4.29(1)
每个词建立一个相关的索引,每个索引中都有对应的排序。。。当然很多词不具备进入搜索引擎检索库的要求,所以就算收录也没有什么排名。
EXP:
世界(1,2,3(我的页面上【世界】这个词建立的索引的排序),4,…,100)
神奇(1(我的页面上【神奇】这个词建立的索引的排序),2,3,4,…,100)
…
注释:这里的1,2,3是用数据的降序进行排序 比如检索位置在1对应的分值为100,那么2对应的就是99.。。以此类推
如果用户的检索词为“世界”,那么SERP中我的排名就是第三。
如果用户检索词为“神奇”那么SERP我排第一。
….
如果用户检索词为“神奇的世界”,那么我在SERP中的排名会进行综合计算(EXP:3+1 => 98+100=198),然后进行SERP结果输出的时候,综合最后的得分,进行降序排列,就出现了我的网站排名第几的现象。
这里排除了外链因素进行计算。因为搜索引擎第一步进行计算的时候不是靠外链,而是单纯的分析你的页面内容。所以标题中说到搜索引擎计算排名的根本是页面,不是外链。 外链是在下一步或者下几步计算的时候才引入的因素
Post a Comment