基于粗糙集的屬性選擇算法
大小:0.75 MB 人氣: 2018-01-05 需要積分:2
針對“大數據”中常見的大規模無監督數據集中特征選擇速度難以滿足實際應用要求的問題,在經典粗糙集絕對約簡增量式算法的基礎上提出了一種快速的屬性選擇算法。首先,將大規模數據集看作一個隨機到來的對象序列,并初始化候選約簡為空集;然后每次都從大規模數據集中無放回地隨機抽取一個對象,并且每次都判斷使用當前候選約簡能否區分這一對象和當前對象集中所有應當區分的對象,并將該對象放入到當前對象集中,如果不能區分則向候選約簡中添加合適的屬性;最后,如果連續,次都沒有發現無法區分的對象,那么將候選約簡作為大規模數據集的約簡。在5個非監督大規模數據集上的實驗表明,所求得的約簡能夠區分95 %以上的對象對,并且求取該約簡所需的時間不到基于區分矩陣的算法和增量式約簡算法的1%;在文本主題挖掘的實驗中,使用約簡后的數據集挖掘出的文本主題同原始數據集挖掘出的主題基本一致。兩組實驗結果表明該方法能夠有效快速對大規模數據集進行屬性選擇。
?
非常好我支持^.^
(0) 0%
不好我反對
(0) 0%