文章詳情頁

Python響應對象text屬性亂碼解決方案

瀏覽：128日期：2022-07-31 16:30:16

在獲得網頁響應對象res后，使用res.text屬性可以獲得網頁源代碼，但可能出現亂碼！因為requests庫會使用自動猜測的解碼方式將抓取的網頁源碼進行解碼，然后存儲到res對象的text屬性中；

但有的網站的編碼格式和requests庫默認的解碼格式（）不一樣（比如gbk gb2312是gbk的子集），這時候就要自己手動進行解碼，先獲得content屬性，返回的是bytes類型的字符串，再進行解碼decode（“網頁的編碼

格式”）

這時候可能出現新的問題

’gbk’ codec can’t decode byte 0xd0 in position 15264: illegal multibyte sequence

這是因為遇到了非法字符

比如網頁中有這種字符

Python響應對象text屬性亂碼解決方案

全角空格往往有多種不同的實現方式，比如xa3xa0，或者xa4x57，這些字符，看起來都是全角空格，但它們并不是“合法”的全角空格（真正的全角空格是xa1xa1），因此在轉碼的過程中出現了異常。

只要字符串中出現了一個非法字符，整篇文章就都無法轉碼。

對于這種字符，根本不需要，不重要！

解決方法：在解碼時候指定errors參數，

decode()的函數原型是decode([encoding], [errors=’strict’])，可以用第二個參數控制錯誤處理的策略，默認的參數是strict，代表遇到非法字符時拋出異常；

如果設置為ignore，則會忽略非法字符；如果設置為replace，則會用?取代非法字符；如果設置為xmlcharrefreplace，則使用XML的字符引用

#requests庫默認會使用自己猜測的解碼方式將抓取下來的網頁進行解碼，然后存儲到text屬性上去；#但在該網站中，編碼方式和默認的解碼方式不一樣，就會產生亂碼,所以要手動進行解碼，先獲得content再decode()解碼#右鍵查看網頁源代碼，發現是gb2312編碼，gb2312就是gbk的子集，所以用decode('gbk')

以上就是本文的全部內容，希望對大家的學習有所幫助，也希望大家多多支持好吧啦網。

Python 編程

上一條：Python urlencode和unquote函數使用實例解析下一條：Python super()方法原理詳解

相關文章：

1. python爬蟲實戰之制作屬于自己的一個IP代理模塊2. python實現在內存中讀寫str和二進制數據代碼3. .Net Core和RabbitMQ限制循環消費的方法4. Python編寫nmap掃描工具5. python實現PolynomialFeatures多項式的方法6. .NET6打包部署到Windows Service的全過程7. python 寫函數在一定條件下需要調用自身時的寫法說明8. HTML 絕對路徑與相對路徑概念詳細9. 解決ajax請求后臺,有時收不到返回值的問題10. python 利用toapi庫自動生成api

排行榜

					
					python爬蟲實戰之制作屬于自己的一個IP代理模塊
Python編寫nmap掃描工具
python實現在內存中讀寫str和二進制數據代碼
IDEA部署Docker到WSL2的詳細過程
IntelliJ IDEA刪除類的方法步驟
HTML 絕對路徑與相對路徑概念詳細
python 利用toapi庫自動生成api
.Net Core和RabbitMQ限制循環消費的方法
Java程序的編碼規范（6）
解決ajax請求后臺,有時收不到返回值的問題
python實現PolynomialFeatures多項式的方法