在線客服

技術(shù)支持

打造業(yè)界優(yōu)秀的美國服務(wù)器、香港服務(wù)器、歐洲服務(wù)器、vps主機(jī)提供商

當(dāng)前位置：首頁 >> 網(wǎng)站建設(shè) >> 詳細(xì)內(nèi)容

解決Python爬蟲處理文件時(shí)候中文名稱出現(xiàn)亂碼問題

[日期：2020-10-28] 來源：宇塵網(wǎng)絡(luò)幫助中心作者：宇塵網(wǎng)絡(luò)幫助中心閱讀：804次

當(dāng)下如果需要批量處理文件，爬蟲網(wǎng)頁和圖片的時(shí)候使用Python是最為簡單和高效的。但是在處理過程中還是有一些細(xì)節(jié)問題，比如在爬蟲中文名稱和處理中文文件URL的時(shí)候會(huì)出現(xiàn)亂碼。實(shí)際上就是因?yàn)榫幋a的問題。我們?cè)谑褂玫腜ython3版本默認(rèn)編碼是utf-8。爬蟲到的所有的數(shù)據(jù)他都會(huì)以u(píng)tf-8進(jìn)行編碼。

這樣的話，Python3處理文件的時(shí)候會(huì)將目標(biāo)網(wǎng)站爬取進(jìn)行utf-8編碼，如果我們爬取的目標(biāo)網(wǎng)站是GB2312編碼，這樣編碼不同就會(huì)造成亂碼。那我們?nèi)绾翁幚砟兀?/p>

第一種、授予編碼

import requests
req= requests.get("http://example.com")
req_text=req.text.encode("latin1").decode("GBK")
print(req_text)

第二種、添加字體

參考：https://www.ywowl.com/prolan/python/2018/03/550.html

上傳字體simhei.ttf到：

/opt/python3.5/lib/python3.5/site-packages/matplotlib/mpl-data/fonts/ttf

然后修改matplotlibrc配置：

/opt/python3.5/lib/python3.5/site-packages/matplotlib/mpl-data/matplotlibrc

然后將backend的TkAgg換成Agg、注釋掉font.family : sans-serif，添加font.sans-serif : SimHei。最后清理清除~/.cache/matplotlib目錄緩存。解決圖片中文亂碼問題的。

上一篇：zblog的數(shù)據(jù)庫配置文件是哪個(gè)？怎樣修改zblog的數(shù)據(jù)庫配置？

下一篇：完整織夢(mèng)DedeCMS設(shè)置全站偽靜態(tài)流程減少網(wǎng)站文件量

怡春院A高清无码|www.亚洲天堂|婷婷五月性爱Av|国产AVzxgk|超碰AⅤ97分类|玖玖资源中文字幕一区二区三区|久久久网站免费一区二区|百度亚洲精品影院|香蕉丁香5月婷婷|人人妻人人澡人人爽日韩一级视频

美國虛擬主機(jī)高速穩(wěn)定

magento虛擬主機(jī)美國洛杉磯

zencart虛擬主機(jī)專業(yè)外貿(mào)

香港虛擬主機(jī)高速免備案

新加坡虛擬主機(jī)東南亞首選

BGP多線虛擬主機(jī)南北互聯(lián)

中國VPS云主機(jī)

外貿(mào)vps云主機(jī)

亞洲VPS云主機(jī)

歐洲VPS云主機(jī)

其他國家vps

美國服務(wù)器熱銷應(yīng)用

美國機(jī)房

香港機(jī)房服務(wù)器

亞洲機(jī)房

歐洲機(jī)房

中國機(jī)房

其他國家

解決Python爬蟲處理文件時(shí)候中文名稱出現(xiàn)亂碼問題