<listing id="xnxrx"><cite id="xnxrx"></cite></listing>

      <big id="xnxrx"><form id="xnxrx"></form></big>
            <track id="xnxrx"><delect id="xnxrx"><cite id="xnxrx"></cite></delect></track><ins id="xnxrx"><sub id="xnxrx"><video id="xnxrx"></video></sub></ins>

              <ol id="xnxrx"></ol>
              <ins id="xnxrx"><delect id="xnxrx"></delect></ins>
              <ins id="xnxrx"></ins>

              <strike id="xnxrx"></strike>
              <strike id="xnxrx"></strike>

                <track id="xnxrx"></track>

                <ol id="xnxrx"><delect id="xnxrx"></delect></ol>

                  <strike id="xnxrx"></strike>

                  <ol id="xnxrx"><delect id="xnxrx"></delect></ol>

                  <track id="xnxrx"></track>
                      <font id="xnxrx"><delect id="xnxrx"><form id="xnxrx"></form></delect></font>
                      <ins id="xnxrx"><delect id="xnxrx"><form id="xnxrx"></form></delect></ins>

                      当前位置:首页 > 互联网新闻 > 正文
                      文章详情页
                      201603-22

                      搜索引擎创建索引网页库的原理解析

                       

                        搜索引擎网页采集完成之后,就是会对数据进行预处理,而这一章节:先讲数据预处理中的的搜索引擎索引网页库的的形成。

                        

                      索引网页库

                        搜索引擎数据预处理,首先讲解数据预处理子系统的系统结构,继而介绍建立索引网页库的算法,接着介绍中文切词技术,然后讲解网页的分析,最后讲如何生成用于查询的网页倒排索引文件。

                        1、搜索引擎数据预处理系统结构

                        在经过搜索引擎Web数据采集之后,采集到的网页都是按照搜索引擎的格式进行存储,拥有良好的容错性,即使出现损坏的情况,也不会是的整个数据库中的信息都难以存取。但是这种存储格式是无法按照网页URL,来进行存取与其对应的网页的,所以,我们预处理第一步:

                        为原始网页建立索引,即索引网页库(1)。建立索引网页库之后,就可以提供网页快照功能(2),通过对索引网页库中内容进行网页切词处理,将每一篇网页转化为一组关键词的集合(3),最后,将网页到所索引词的映射转化为索引词到网页的映射,形成倒排表(倒排表和索引词表),同时将网页中包含的不重复的索引词汇聚成索引词表(4)

                        (盐城SEO疑问:索引词到网页的不应该是多对多的吗?为什么不重复的索引词要形成索引词表呢?倒排表已经满足需要了)

                        2、索引网页库的建立:

                        内容较为复杂,作为一个SEO,我们只需要了解原理部分就可以了,其中编程部分,我们暂时不讲解(盐城SEO也不会….)

                        2-1)在原始网页库,是有若干条记录组成,每一条记录包括了:头部信息(head),数据(Data)。每一条数据(DATA)有网页头文件(header)和网页内容(content)组成。

                        2-2)索引网页库的算法通过MD5算法,将网页内容和URL摘要信息,分别记录为16个字节的唯一标识,同时为了方便查看,将这16个字节转化为23字节的ASCLL码。

                        2-3)网页索引文件,最终通过 ISAM(索引顺序访问模式)来进行存储,保证数据的紧凑性和检索能力。同时在网页索引文件存储之后,还会存在URL索引文件,同时通过文档编号,将URL摘要信息和网页摘要信息联系起来。实现网页快照功能

                        (盐城SEO疑问:在数据预处理的索引网页库中,涉及到摘要信息的产生算法讲解,在前面,我们知道摘要信息,有动态和静态两种,那么这里的如果是动态摘要信息,那么这里如何产生网页摘要摘要信息呢?)

                        (盐城SEO解答:在这里,所说的摘要信息并不一定是,显示给用户的,和description中的信息一样,可能是记录中网页content的所有内容缩写,知识叫法上的不同而已)

                      本文地址:http://www.graydapple.com/880.html
                      版权所有 © 转载时必须以链接形式注明作者和原始出处!

                      ?
                      盛图SEO优化公司企业文化

                      成都网络推广找盛图SEO  首页 |网站seo推广案例|seo技术教程|seo专业术语|互联网新闻|专业网站优化 |团队实力 |关于盛图 |联系方式

                      search keyword: 成都网站优化 成都网络营销 成都优化公司 成都网络推广 成都SEO

                      Tel.028-69185520    Email:1848742319@qq.com    Cel.18108028677    

                      (C)2017   www.graydapple.com.   成都seo优化公司-盛图seo 版权所有 严禁抄袭复制   网站地图   |   百度地图   信息产业部备案   蜀ICP备10015055号   本站获得W3C-xhtml标准认证   本站获得W3C-css标准认证

                      白小姐中码期期准