Skip to content

Tag Archives: 计算

搜索引擎计算排名的根本是页面,不是外链

06-一-12

搜索引擎计算排名的根本是页面,不是外链

在蜘蛛进行抓取的时候,首先抓到的是一个页面,然后从页面上分析链接,导入链接数据库,然后再通过链接数据库继续进行抓取。

抓取的时候不进行排序计算,只是会根据一定的条件进行抓取优先级判断。

 

抓到一个页面之后进行降噪处理,正文提取(正文内容+相关链接),然后对正文内容进行分词、全文检索。

EXP:

这是一个神奇的世界,男人多个小JJ,女人多个大MM。他们形成互补,组成人类世界。一辈子只为两件事:生存,繁衍。

分词后结果:(分词算法不同结果也会不同。)

这是 /一个 /神奇 /的 /世界 , 男人 /多个 /小 /JJ , /女人 /多个 /大 /MM 。 他们 /形成 /互补 , 组成 /人类 /世界 。 一辈子 …