文章詳情頁

Python計算信息熵實例

瀏覽：2日期：2022-07-20 15:41:01

計算信息熵的公式：n是類別數，p(xi)是第i類的概率

Python計算信息熵實例

假設數據集有m行，即m個樣本，每一行最后一列為該樣本的標簽，計算數據集信息熵的代碼如下：

from math import log def calcShannonEnt(dataSet): numEntries = len(dataSet) # 樣本數 labelCounts = {} # 該數據集每個類別的頻數 for featVec in dataSet: # 對每一行樣本 currentLabel = featVec[-1] # 該樣本的標簽 if currentLabel not in labelCounts.keys(): labelCounts[currentLabel] = 0 labelCounts[currentLabel] += 1 shannonEnt = 0.0 for key in labelCounts: prob = float(labelCounts[key])/numEntries # 計算p(xi) shannonEnt -= prob * log(prob, 2) # log base 2 return shannonEnt

補充知識：python 實現信息熵、條件熵、信息增益、基尼系數

我就廢話不多說了，大家還是直接看代碼吧~

import pandas as pdimport numpy as npimport math## 計算信息熵def getEntropy(s): # 找到各個不同取值出現的次數 if not isinstance(s, pd.core.series.Series): s = pd.Series(s) prt_ary = pd.groupby(s , by = s).count().values / float(len(s)) return -(np.log2(prt_ary) * prt_ary).sum()## 計算條件熵: 條件s1下s2的條件熵def getCondEntropy(s1 , s2): d = dict() for i in list(range(len(s1))): d[s1[i]] = d.get(s1[i] , []) + [s2[i]] return sum([getEntropy(d[k]) * len(d[k]) / float(len(s1)) for k in d])## 計算信息增益def getEntropyGain(s1, s2): return getEntropy(s2) - getCondEntropy(s1, s2)## 計算增益率def getEntropyGainRadio(s1, s2): return getEntropyGain(s1, s2) / getEntropy(s2)## 衡量離散值的相關性import mathdef getDiscreteCorr(s1, s2): return getEntropyGain(s1,s2) / math.sqrt(getEntropy(s1) * getEntropy(s2))# ######## 計算概率平方和def getProbSS(s): if not isinstance(s, pd.core.series.Series): s = pd.Series(s) prt_ary = pd.groupby(s, by = s).count().values / float(len(s)) return sum(prt_ary ** 2)######## 計算基尼系數def getGini(s1, s2): d = dict() for i in list(range(len(s1))): d[s1[i]] = d.get(s1[i] , []) + [s2[i]] return 1-sum([getProbSS(d[k]) * len(d[k]) / float(len(s1)) for k in d])## 對離散型變量計算相關系數，并畫出熱力圖, 返回相關性矩陣def DiscreteCorr(C_data): ## 對離散型變量(C_data)進行相關系數的計算 C_data_column_names = C_data.columns.tolist() ## 存儲C_data相關系數的矩陣 import numpy as np dp_corr_mat = np.zeros([len(C_data_column_names) , len(C_data_column_names)]) for i in range(len(C_data_column_names)): for j in range(len(C_data_column_names)): # 計算兩個屬性之間的相關系數 temp_corr = getDiscreteCorr(C_data.iloc[:,i] , C_data.iloc[:,j]) dp_corr_mat[i][j] = temp_corr # 畫出相關系數圖 fig = plt.figure() fig.add_subplot(2,2,1) sns.heatmap(dp_corr_mat ,vmin= - 1, vmax= 1, cmap= sns.color_palette(’RdBu’ , n_colors= 128) , xticklabels= C_data_column_names , yticklabels= C_data_column_names) return pd.DataFrame(dp_corr_mat)if __name__ == '__main__': s1 = pd.Series([’X1’ , ’X1’ , ’X2’ , ’X2’ , ’X2’ , ’X2’]) s2 = pd.Series([’Y1’ , ’Y1’ , ’Y1’ , ’Y2’ , ’Y2’ , ’Y2’]) print(’CondEntropy:’,getCondEntropy(s1, s2)) print(’EntropyGain:’ , getEntropyGain(s1, s2)) print(’EntropyGainRadio’ , getEntropyGainRadio(s1 , s2)) print(’DiscreteCorr:’ , getDiscreteCorr(s1, s1)) print(’Gini’ , getGini(s1, s2))

以上這篇Python計算信息熵實例就是小編分享給大家的全部內容了，希望能給大家一個參考，也希望大家多多支持好吧啦網。

Python 編程

上一條：python如何從鍵盤獲取輸入實例下一條：python導入庫的具體方法

相關文章：

1. python爬蟲實戰之制作屬于自己的一個IP代理模塊2. Java程序的編碼規范（6）3. IntelliJ IDEA設置默認瀏覽器的方法4. HTML 絕對路徑與相對路徑概念詳細5. Spring如何使用xml創建bean對象6. python實現PolynomialFeatures多項式的方法7. python實現在內存中讀寫str和二進制數據代碼8. Android Studio設置顏色拾色器工具Color Picker教程9. python 利用toapi庫自動生成api10. python實現讀取類別頻數數據畫水平條形圖案例

排行榜

					
					python爬蟲實戰之制作屬于自己的一個IP代理模塊
python實現在內存中讀寫str和二進制數據代碼
HTML 絕對路徑與相對路徑概念詳細
python 利用toapi庫自動生成api
Java程序的編碼規范（6）
python實現PolynomialFeatures多項式的方法
IntelliJ IDEA設置默認瀏覽器的方法
Spring如何使用xml創建bean對象
Android Studio設置顏色拾色器工具Color Picker教程
python實現讀取類別頻數數據畫水平條形圖案例
Spring教程之refresh()執行邏輯淺析