公式
IG(f)=∑i=1mfi(1−fi)=∑i=1mfi−∑i=1mf2i=1−∑i=1mf2i
說明
•(1)基尼不純度越小,純度越高,集合的有序程度越高,分類的效果越好;
•(2)基尼不純度為 0 時,表示集合類別一致;
•(3)基尼不純度最高(純度最低)時,f1=f2=…=fm=1m,
•IG(f)=1−(1m)2×m=1−1m
例,如果集合中的每個數據項都屬於同一分類,此時誤差率為 0。如果有四種可能的結果均勻地分布在集合中,此時的誤差率為1−0.25=0.75;
示例代碼
運行結果:gini Impurity is 0.444444444444
