首页 > seo 教程 > 正文

搜索引擎之数据处理分析系统

时间:12-19 来源:老王python, 标签:seo基础

我们把网页抓取到本地数据库,下面一步就能从这些不规则网页结构里把我们想要的数据给提取出来。想要经过的步骤主要有下面这些。

1、网页结构化

简单的说,就是把那些html代码全部删掉,提取出内容,搜索引擎主要是根据DOM树来识别正文的内容。

2、消噪

消噪是什么意思呢?在网页结构化中,已经删掉了html代码,剩下了文字,那么消噪指的就是留下网页的主题内容,删掉没用的内容,比如版权!

3、查重

查重比较好理解,就是搜索引擎查找重复的网页与内容,如果找到重复的页面,就删除,搜索引擎查重有很多方法,比如指纹识别重复等。

4、分词

分词是神马东西呢?就是搜索引擎蜘蛛在进行了前面的步骤,然后提取出正文的内容,然后把我们的内容分成N个词语,然后排列出来,存入索引库!同时也会计算这一个词在这个页面出现了多少次。

分词目前有很多方法。比如基于词典的分词方法,或者是基于概率的分词方法等。

5、链接分析

这一个步骤就是我们平时所做的做烦躁的工作,搜索引擎会查询,这个页面的反向链接有多少,导出链接有多少以及内链,然后给这个页面多少的权重等。

老王python提供python基础教程,爬虫,seo工具,excel相关开发教程。

Copyright © 2020 www.cnpythoner.com All rights reserved. 赣ICP备19013357号-1基于python+django开发