- 相關(guān)推薦
粗集方法在KDD系統(tǒng)中的應(yīng)用與研究
粗集方法在KDD系統(tǒng)中的應(yīng)用與研究
周波
(西安電子科技大學(xué)多媒體研究所 西安 710086)
【摘 要】本文論述了粗集方法性質(zhì)及特點(diǎn),提出了粗集方法在KDD系統(tǒng)中的應(yīng)用模型,同時(shí)給出了應(yīng)用這一模型對(duì)一個(gè)數(shù)據(jù)庫實(shí)例進(jìn)行數(shù)據(jù)挖掘的過程。另外,從精確性、魯棒性等方面對(duì)KDD系統(tǒng)中的粗集方法的適用范圍進(jìn)行了分析。
【關(guān)鍵詞】粗集 KDD 數(shù)據(jù)挖掘
Application and Research of Rough Set in KDD System
Zhou bo
(Multimedia Technology Institute ,Xidian University Xi’an710086)
Abstract: In this paper, we discuss the character of rough set, and put forward the application model of rough set in KDD system. Also, by an example ,the advantage and disadvantage of rough set in KDD system is analysed in detail.
Key Word: Rough Set KDD Data Mining
1.前 言
數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)技術(shù)(Knowledge Discovery in Database, KDD)是隨著數(shù)據(jù)庫和人工智能的發(fā)展而產(chǎn)生的,它是“從大量數(shù)據(jù)中提取出可信的、新穎的、有效的并能被人理解的模式的非平凡過程”。通過KDD,人們可以將知識(shí)發(fā)現(xiàn)的研究成果應(yīng)用于實(shí)際數(shù)據(jù)處理中,為科學(xué)決策提供支持。KDD系統(tǒng)中的知識(shí)學(xué)習(xí)階段被稱為“數(shù)據(jù)挖掘”(Data Mining,DM),它的算法是KDD系統(tǒng)的核心。近年來,粗集理論(Rough Set Theory)開始逐漸應(yīng)用到DM的領(lǐng)域中,在對(duì)大型數(shù)據(jù)庫中不完整數(shù)據(jù)進(jìn)行分析和學(xué)習(xí)方面取得了顯著的效果,因此,以粗集為代表的集合論方法是今后KDD技術(shù)的一個(gè)主要研究方向。
2. KDD系統(tǒng)中粗集方法的基本特征
粗集(Rough Set)理論和模糊集(Fuzzy Set)理論都是針對(duì)不確定性問題提出的,它們既相互獨(dú)立,又相互補(bǔ)充。粗集方法與傳統(tǒng)的統(tǒng)計(jì)及模糊集方法不同的是:后者需要依賴先驗(yàn)知識(shí)對(duì)不確定性的定量描述,如統(tǒng)計(jì)分析中的先驗(yàn)概率、模糊集理論中的模糊度等等;而前者只依賴數(shù)據(jù)內(nèi)部的知識(shí),用數(shù)據(jù)之間的近似來表示知識(shí)的不確定性。用粗集來處理不確定性問題的最大優(yōu)點(diǎn)在于,它不需要關(guān)于數(shù)據(jù)的預(yù)先或附加的信息,而且容易掌握和使用。粗集中不精確的要領(lǐng)包含下近似和上近似兩個(gè)定義,前者指的是所有對(duì)象都一定被包含,后者指的是所有對(duì)象可能被包含。
粗集的一些理論和方法可用來從數(shù)據(jù)庫中發(fā)現(xiàn)分類規(guī)則。其基本思想是,將數(shù)據(jù)庫中的屬性分為條件屬性和結(jié)論屬性,對(duì)數(shù)據(jù)庫中的元組根據(jù)各個(gè)屬性不同的屬性值分成相應(yīng)的子集,然后對(duì)條件屬性劃分的子集與結(jié)論屬性劃分的子集之間的上下近似關(guān)系生成判定規(guī)則。
粗集理論中的信息系統(tǒng)可用一個(gè)四元組來表示:S={R,A,V,f}。其中R是一個(gè)非空集合,表示數(shù)據(jù)庫中的所有記錄(Record);A表示數(shù)據(jù)庫中的全部屬性(Attribute);V是屬性值組成的集合;f是屬性和記錄的函數(shù),f(a,e)的值確定記錄e關(guān)于屬性a的取值。對(duì)于屬性集A中的任意一個(gè)屬性a,如果記錄
3.應(yīng)用粗集方法進(jìn)行數(shù)據(jù)挖掘的過程
我們以一個(gè)具體的數(shù)據(jù)庫的作為實(shí)例(如圖1所示),使用粗集的方法對(duì)其中的知識(shí)進(jìn)行分析和預(yù)測。為了說明KDD系統(tǒng)中粗集方法的實(shí)質(zhì),我們簡化了問題域,只取出“汽車數(shù)據(jù)庫”中的10個(gè)記錄,而且只分析三個(gè)字段(Power, Turbo, Weight),數(shù)據(jù)挖掘的目標(biāo)模式定為:“分析汽車的‘Power’和 ‘Turbo’特征同‘ Weight’特征之間的關(guān)系”。
No.
Power
Turbo
Weight
1
HIGH
YES
MED
2
LOW
NO
LIGHT
3
MEDIUM
YES
LIGHT
4
HIGH
NO
LIGHT
5
HIGH
YES
MED
6
MEDIUM
YES
LIGHT
7
LOW
NO
HEAVY
8
HIGH
NO`
HEAVY
9
HIGH
YES
MED
10
LOW
NO
HEAVY
圖1 汽車特征數(shù)據(jù)庫(部分)
在這個(gè)數(shù)據(jù)庫中,R={1,2,3,4,5,6
【粗集方法在KDD系統(tǒng)中的應(yīng)用與研究】相關(guān)文章:
BPR在成本控制系統(tǒng)中的應(yīng)用研究08-17
基于PSOS的TM1300應(yīng)用系統(tǒng)中的BSP研究08-06
智能決策支持系統(tǒng)中的知識(shí)表示及基于粗集的知識(shí)推理08-06
CPLD在DSP系統(tǒng)中的應(yīng)用設(shè)計(jì)08-06
嵌入式Linux系統(tǒng)中的GUI系統(tǒng)的研究與移植08-06
研究型教學(xué)模式在《數(shù)據(jù)庫系統(tǒng)原理》課程中的應(yīng)用08-05
多媒體音樂教學(xué)系統(tǒng)在中學(xué)爵樂教學(xué)中的應(yīng)用研究08-20
實(shí)時(shí)操作系統(tǒng)VxWorks在跟蹤雷達(dá)系統(tǒng)中的應(yīng)用08-06