文章目录
在抓取网页的时候经常遇到网页编码问题,我们需要将抓取的网页进行解码以后才能正确得到网页上的 内容,那么怎么获取网页的编码方式呢?很多人还在手动去查看网页源码,然后找到charset吗?下面是百度经验的编辑器页面的编码方式。
- 引入两个模块,urllib2用于获取源码,chardet用于检测编码方式
![Python教程:[41]判断抓取的网页的编码方式](/2016/05/15/Python%E6%95%99%E7%A8%8B%EF%BC%9A%5B41%5D%E5%88%A4%E6%96%AD%E6%8A%93%E5%8F%96%E7%9A%84%E7%BD%91%E9%A1%B5%E7%9A%84%E7%BC%96%E7%A0%81%E6%96%B9%E5%BC%8F/507c389759ee3d6d7a8957d741166d224f4ade24.jpg)
- 先获取网页,存放于f中
![Python教程:[41]判断抓取的网页的编码方式](/2016/05/15/Python%E6%95%99%E7%A8%8B%EF%BC%9A%5B41%5D%E5%88%A4%E6%96%AD%E6%8A%93%E5%8F%96%E7%9A%84%E7%BD%91%E9%A1%B5%E7%9A%84%E7%BC%96%E7%A0%81%E6%96%B9%E5%BC%8F/8367d1fc1e178a824434afbcf403738da977e860.jpg)
- 读取网页的内容,存放在txt中
![Python教程:[41]判断抓取的网页的编码方式](/2016/05/15/Python%E6%95%99%E7%A8%8B%EF%BC%9A%5B41%5D%E5%88%A4%E6%96%AD%E6%8A%93%E5%8F%96%E7%9A%84%E7%BD%91%E9%A1%B5%E7%9A%84%E7%BC%96%E7%A0%81%E6%96%B9%E5%BC%8F/f7426d8da9773912b02d557dfa198618367ae260.jpg)
- 使用detect方法来获得网页的编码方式
![Python教程:[41]判断抓取的网页的编码方式](/2016/05/15/Python%E6%95%99%E7%A8%8B%EF%BC%9A%5B41%5D%E5%88%A4%E6%96%AD%E6%8A%93%E5%8F%96%E7%9A%84%E7%BD%91%E9%A1%B5%E7%9A%84%E7%BC%96%E7%A0%81%E6%96%B9%E5%BC%8F/eab9044c510fd9f99e588575272dd42a2834a424.jpg)
- 我们读取一下网页编码方式:
![Python教程:[41]判断抓取的网页的编码方式](/2016/05/15/Python%E6%95%99%E7%A8%8B%EF%BC%9A%5B41%5D%E5%88%A4%E6%96%AD%E6%8A%93%E5%8F%96%E7%9A%84%E7%BD%91%E9%A1%B5%E7%9A%84%E7%BC%96%E7%A0%81%E6%96%B9%E5%BC%8F/8697397f9e2f07083b0efa1ceb24b899a901f260.jpg)
转载请注明来自DataScience.
邮箱: 675495787@qq.com