搜索引擎计算排名的根本是页面,不是外链
在蜘蛛进行抓取的时候,首先抓到的是一个页面,然后从页面上分析链接,导入链接数据库,然后再通过链接数据库继续进行抓取。
抓取的时候不进行排序计算,只是会根据一定的条件进行抓取优先级判断。
抓到一个页面之后进行降噪处理,正文提取(正文内容+相关链接),然后对正文内容进行分词、全文检索。
EXP:
这是一个神奇的世界,男人多个小JJ,女人多个大MM。他们形成互补,组成人类世界。一辈子只为两件事:生存,繁衍。
分词后结果:(分词算法不同结果也会不同。)
这是 /一个 /神奇 /的 /世界 , 男人 /多个 /小 /JJ , /女人 /多个 /大 /MM 。 他们 /形成 /互补 , 组成 /人类 /世界 。 一辈子 …
闲着没事做,拿了baiduseoguide.com做个简单的分析,主要是画了一张图,然后观察图中的一些细节和排名进行对比,下面是自己画的百度搜索引擎指南简单的一张结构图。
…
一. 介绍
统计结果表明,近似镜像网页数占总网页数的比例高达全部页面的29%,而完全相同的页面大约占全部页面的22%。这些重复网页有的是没有一点改动的拷贝,有的在内容上稍作修改,比如同一文章的不同版本,一个新一点,一个老一点,有的则仅仅是网页的格式不同(如 HTML, Postscript),文献[Models and Algorithms for Duplicate Document Detection 1999年]将内容重复归结为以下四个类型:
1.如果2篇文档内容和格式上毫无差别,则这种重复叫做full-layout duplicate。
2.如果2篇文档内容相同,但是格式不同,则叫做full-content duplicates
3.如果2篇文档有部分重要的内容相同,并且格式相同,则称为partial-layout duplicates
4.如果2篇文档有部分重要的内容相同,但是格式不同,则称为partial-content duplicates
近似重复网页发现技术就是通过技术手段快速全面发现这些重复信息的手段.如何快速准确地发现这些内容上相似的网页已经成为提高搜索引擎服务质量的关键技术之一。发现重复或者近似网页对于搜索引擎有很多好处:
1. 首先,如果我们能够找出这些重复网页并从数据库中去掉,就能够节省一部分存储空间,进而可以利用这部分空间来存放更多的有效网页内容,同时也提高了web检索的质量。
2. 其次,如果我们能够通过对以往搜集信息的分析,预先发现重复网页,在今后的网页搜集过程中就可以避开这些网页,从而提高有效网页的搜集速度。有研究表明重复网页随着时间级别不发生太大变化,所以这种从重复页面集合中选择部分页面进行索引是有效的.
3. 另外,如果某个网页的镜像度较高,也就预示着该网页相对重要,在搜集网页时应赋予它较高的优先级,而当搜索引擎系统在响应用户的检索请求并对输出结果排序时,应该赋予它较高的权值。
4. 从另外一个角度看,如果用户点击了一个死链接,那么可以将用户引导到一个相同页面,这样可以有效的增加用户的检索体验.因而近似镜像网页的及时发现有利于改善搜索引擎系统的服务质量。
二. 基本处理流程
通过分析现有技术,可以归纳出以下几个解决该问题的核心技术点,每个不同的技术基本上是由这几个技术点构成,无非是具体采纳的技术不同而已:
1. 文档对象的特征抽取:将文档内容分解,由若干组成文档的特征集合表示,这一步是为了方面后面的特征比较计算相似度.
2. 特征的压缩编码:通过HASH编码等文本向数字串映射方式以方便后续的特征存储以及特征比较.起到减少存储空间,加快比较速度的作用.
3. …
[西安SEO,拿西安seo来做测试。] 后记
刚才查询了一下 关键字密度
西安seo结果如下:
页面文本总长度:2454 字符
关键字符串长度:5 字符
关键字出现频率:21 次
关键字符总长度:105 字符
密度结果计算:4.3%
密度建议值:2%≦密度≦8%
seo密度如下:
页面文本总长度:2454 字符
关键字符串长度:3 字符
关键字出现频率:42 次
关键字符总长度:126 字符
密度结果计算:5.1%
密度建议值:2%≦密度≦8%
如果排除网页噪音的话,估计搜索引擎抓取正文内容的密度会更大。
网页噪音是什么?就像你有时候打电话时除了你和通话方想要听到的主要内容外的其他杂音。。。
网页里的噪音就是:导航呀,友链呀,广告呀等等这些好多网页中重复出现的,跟主要内容没有关联的其他内容。
搜索引擎在熟悉了你站点的结构后会建立相应的排除网页噪音的手段,主要抓取网页正文部分。这就是为什么经常有人说站点结构很重要,一般情况下不要大面积的更改站点的结构,或是整站改版。这样会让搜索引擎重新分析,重新建立降噪技术。…