解析html文件的3种方法

时间:01-10 来源:老王python, 标签:python

我们通过蜘蛛抓取,把互联网的的内容下载过来,下一步就是解析Html里面的内容。python 在处理这方面有3个比较好的开源包。

1 HTMLParser:HTMLParser是Python自带的模块,使用简单,能够很容易的实现HTML文件分析,大家可以看看这篇文章,主要是通过函数handle_data来提取文本内容。

2 beautifulsoup:这个利器还是非常牛的,特别是提取一些html代码不规范的页面是非常方便的。比如:

soup.select('b'):选择标签名为b的内容
soup.select('#name'):查找id名为name的内容
soup.find_all('b'):在页面上查找所有b标签
soup.title:页面的title标签内容

这里有beautifulsoup的官方文档。想要进一步了解的可以看下:点击查看文档

3 PyQuery 这个库如果你是搞jquery的,是不是感觉有点亲切,没错。python这个模块主要是模仿jquery提取dom元素的方法。比如你需要提取title,获取某个id的元素,或者class元素都可以用类似的方法来进行提取,详细使用可以看下pyquery的文档

 

上面提到的3个,你可以根据自己的需求来选择合适的开源包。

老王python提供python基础教程,爬虫,seo工具,excel相关开发教程。

Copyright © 2020 www.cnpythoner.com All rights reserved. 赣ICP备19013357号-1基于python+django开发