网球

搜索引擎创建索引网页库的原理解析7z

2019-07-09 15:04:26来源:励志吧0次阅读

搜索引擎页采集完成之后,就是会对数据进行预处理,而这一章节:先讲数据预处理中的的搜索引擎索引页库的的形成。

搜索引擎数据预处理,首先讲解数据预处理子系统的系统结构,继而介绍建立索引页库的算法,接着介绍中文切词技术,然后讲解页的分析,最后讲如何生成用于查询的页倒排索引文件。

1、搜索引擎数据预处理系统结构

在经过搜索引擎Web数据采集之后,采集到的页都是按照搜索引擎的格式进行存储,拥有良好的容错性,即使出现损坏的情况,也不会是的整个数据库中的信息都难以存取。但是这种存储格式是无法按照页URL,来进行存取肺癌体化治疗与其对应的页的,所以,我们预处理第一步:

为原始页建立索引,即索引页库(1)。建立索引页库之后,就可以提供页快照功能(2),通过对索引页库中内容进行页切词处理,将每一篇页转化为一组关键词的集合(3),最后,将页到所索引词的映射转化为索引词到页的映射,形成倒排表(倒排表和索引词表),同时将页中包含的不重复的索引词汇聚成索引词表(4)

(盐城SEO疑问:索引词到页的不应该是多对多的吗?为什么不重复的索引词要形成索引词表呢?倒排表已经满足需要了)

2、索引页库的建立:

内容较为复杂,作为一个SEO,我们只需要了解原理部分就可以了,其中编程部分,我们暂时不讲解(盐城SEO也不会.)

)在原始页库,是有若干条记录组成,每一条记)。每一条数据(DATA)有页头文件(header)和页内容(content)组成。

嘉兴白癜风手术钱)索引页库的算法通过MD5算法,将页内容和URL摘要信息,分别记录为16海小孩脑瘫治疗医院个字节的唯一标识,同时为了方便查看,将这16个字节转化为23字节的ASCLL码。

)页索引文件,最终通过 ISAM(索引顺序访问模式)来进行存储,保证数据的紧凑性和检索能力。同时在页索引文件存储之后,还会存在URL索引文件,同时通过文档编号,将URL摘要信息和页摘要信息联系起来。实现页快照功能

(盐城SEO疑问:在数据预处理的索引页库中,涉及到摘要信息的产生算法讲解,在前面,我们知道摘要信息,有动态和静态两种,那么这里的如果是动态摘要信息,那么这里如何产生页摘要摘要信息呢?)

(盐城SEO解答:在这里,所说的摘要信息并不一定是,显示给用户的,和descrip使脑瘫患者尽快康复tion中的信息一样,可能是记录中页content的所有内容缩写,知识叫法上的不同而已)

原文地址:

微信上怎么开通小程序
即速应用开发小程序编辑
附近小程序怎么弄
分享到: