基尼不純度

基尼不純度是用於決策樹編程中的一個專業術語。 基尼不純度,是指將來自集合中的某種結果隨機套用在集合中,某一數據項的預期誤差率。 是在進行決策樹編程的時候,對於混雜程度的預測中,一種度量方式。

公式

IG(f)=∑i=1mfi(1−fi)=∑i=1mfi−∑i=1mf2i=1−∑i=1mf2i

說明

•(1)基尼不純度越小,純度越高,集合的有序程度越高,分類的效果越好;

•(2)基尼不純度為 0 時,表示集合類別一致;

•(3)基尼不純度最高(純度最低)時,f1=f2=…=fm=1m,

•IG(f)=1−(1m)2×m=1−1m

例,如果集合中的每個數據項都屬於同一分類,此時誤差率為 0。如果有四種可能的結果均勻地分布在集合中,此時的誤差率為1−0.25=0.75;

示例代碼

運行結果:gini Impurity is 0.444444444444

相關詞條

熱門詞條

聯絡我們