设为首页 - 加入收藏 ASP站长网(Aspzz.Cn)- 科技、建站、经验、云计算、5G、大数据,站长网!
热搜: 重新 试卷 文件
当前位置: 首页 > 运营中心 > 建站资源 > 优化 > 正文

深入浅出理解Python“乱码”问题(2)

发布时间:2019-01-22 05:32 所属栏目:21 来源:丁彦军
导读:基本思路三步走:确定源网页的编码A---gbk、程序通过编码B---ISO-8859-1对源网页数据还原、统一转换字符的编码C-utf-8。至于为啥为出现统一转码这一步呢? 网络爬虫系统数据来源很多,不可能使用数据时,再转化为其

基本思路三步走:确定源网页的编码A---gbk、程序通过编码B---ISO-8859-1对源网页数据还原、统一转换字符的编码C-utf-8。至于为啥为出现统一转码这一步呢? 网络爬虫系统数据来源很多,不可能使用数据时,再转化为其原始的数据,假使这样做是很废事的。所以一般的爬虫系统都要对抓取下来的结果进行统一编码,从而在使用时做到一致对外,方便使用。

比如如果我们想讲网页数据保存下来,则会将起转为utf-8,代码如下:

  1. with open("a.txt",'w',encoding='utf-8') as f: 
  2.     f.write(html) 

四、总结

关于网络爬虫乱码问题,本文不仅给出了一个解决方案,还深入到其中的原理,由此问题引申出很多有意思的问题,如,utf-8、gbk、gb2312的编码方式怎样的?为什么这样转化就可以解决问题?

【编辑推荐】

  1. Python爬取房产数据,在地图上展现!
  2. 力压Java、C语言!Python获2018年度编程语言
  3. 如何用Python进行数据分析?
  4. 你想要的 Python 编程技巧,我都给你整理好了
  5. 还没买到票?快试试这个Python开源工具,支持多任务抢票
【责任编辑:武晓燕 TEL:(010)68476606】
点赞 0

(编辑:ASP站长网)

网友评论
推荐文章
    热点阅读