Skip to content

Tag Archives: 页面

搜索引擎计算排名的根本是页面,不是外链

06-一-12

搜索引擎计算排名的根本是页面,不是外链

在蜘蛛进行抓取的时候,首先抓到的是一个页面,然后从页面上分析链接,导入链接数据库,然后再通过链接数据库继续进行抓取。

抓取的时候不进行排序计算,只是会根据一定的条件进行抓取优先级判断。

 

抓到一个页面之后进行降噪处理,正文提取(正文内容+相关链接),然后对正文内容进行分词、全文检索。

EXP:

这是一个神奇的世界,男人多个小JJ,女人多个大MM。他们形成互补,组成人类世界。一辈子只为两件事:生存,繁衍。

分词后结果:(分词算法不同结果也会不同。)

这是 /一个 /神奇 /的 /世界 , 男人 /多个 /小 /JJ , /女人 /多个 /大 /MM 。 他们 /形成 /互补 , 组成 /人类 /世界 。 一辈子 …

网站页面降噪测试结果公布

05-三-11

前面发了个帖子:

页面手动降噪与页面搜索引擎自动降噪测试ing:

http://www.gnbase.com/thread-686-1.html

现在谷歌的测试结果大体出来了,百度的结果也出来了一小部分。

先来看下测试页面和原创站点页面的大体结构:

html页面结构

页面词项的基本权重

21-二-11

每个页面词项都有会赋予一定的权重,页面整体权重都是在基本词项的权重之上获得。

影响权重的HTML标签:

tag wt(权重)

title 40

font size=7 16

font size=6 | (H1) 12

font size=5 | (H2)  | cite  8  

font size=(+)4 | (H3)  | strong | big | dt |  li | ul | a …