當(dāng)下如果需要批量處理文件,爬蟲網(wǎng)頁和圖片的時候使用Python是最為簡單和高效的。但是在處理過程中還是有一些細(xì)節(jié)問題,比如在爬蟲中文名稱和處理中文文件URL的時候會出現(xiàn)亂碼。實(shí)際上就是因?yàn)榫幋a的問題。我們在使用的Python3版本默認(rèn)編碼是utf-8。爬蟲到的所有的數(shù)據(jù)他都會以utf-8進(jìn)行編碼。
這樣的話,Python3處理文件的時候會將目標(biāo)網(wǎng)站爬取進(jìn)行utf-8編碼,如果我們爬取的目標(biāo)網(wǎng)站是GB2312編碼,這樣編碼不同就會造成亂碼。那我們?nèi)绾翁幚砟兀?/p>
第一種、授予編碼
import requests
req= requests.get("http://example.com")
req_text=req.text.encode("latin1").decode("GBK")
print(req_text)
第二種、添加字體
參考:https://www.ywowl.com/prolan/python/2018/03/550.html
上傳字體simhei.ttf到:
/opt/python3.5/lib/python3.5/site-packages/matplotlib/mpl-data/fonts/ttf
然后修改matplotlibrc配置:
/opt/python3.5/lib/python3.5/site-packages/matplotlib/mpl-data/matplotlibrc
然后將backend的TkAgg換成Agg、注釋掉font.family : sans-serif,添加font.sans-serif : SimHei。最后清理清除~/.cache/matplotlib目錄緩存。解決圖片中文亂碼問題的。