搜索引擎计算排名的根本是页面,不是外链
在蜘蛛进行抓取的时候,首先抓到的是一个页面,然后从页面上分析链接,导入链接数据库,然后再通过链接数据库继续进行抓取。
抓取的时候不进行排序计算,只是会根据一定的条件进行抓取优先级判断。
抓到一个页面之后进行降噪处理,正文提取(正文内容+相关链接),然后对正文内容进行分词、全文检索。
EXP:
这是一个神奇的世界,男人多个小JJ,女人多个大MM。他们形成互补,组成人类世界。一辈子只为两件事:生存,繁衍。
分词后结果:(分词算法不同结果也会不同。)
这是 /一个 /神奇 /的 /世界 , 男人 /多个 /小 /JJ , /女人 /多个 /大 /MM 。 他们 /形成 /互补 , 组成 /人类 /世界 。 一辈子 …
前面发了个帖子:
页面手动降噪与页面搜索引擎自动降噪测试ing:
http://www.gnbase.com/thread-686-1.html
现在谷歌的测试结果大体出来了,百度的结果也出来了一小部分。
先来看下测试页面和原创站点页面的大体结构:
html页面结构
…
每个页面词项都有会赋予一定的权重,页面整体权重都是在基本词项的权重之上获得。
影响权重的HTML标签:
tag wt(权重)
title 40
font size=7 16
font size=6 | (H1) 12
font size=5 | (H2) | cite 8
font size=(+)4 | (H3) | strong | big | dt | li | ul | a …