



下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、利用分類算法實(shí)現(xiàn)圖書分類管理 利用分類算法實(shí)現(xiàn)圖書分類管理2011-09-05 08:06 來源:未知 瀏覽次數(shù): 關(guān)鍵字: 分類算法 圖書分類管理利用分類算法實(shí)現(xiàn)圖書分類管理張超一背景知識(shí)介紹隨著計(jì)算機(jī)技術(shù)的快速發(fā)展,計(jì)算機(jī)在企業(yè)管理中的應(yīng)用普及,利用計(jì)算機(jī)實(shí)現(xiàn)圖書信息分類管理勢(shì)在必行。目前部分小型圖書館的借閱工作大部分還是手工管理,工作效率偏低,而且不能及時(shí)了解圖書的種類以及用戶們極力需求的圖書類型等,不能更好的適應(yīng)大多數(shù)用戶的借閱要求。計(jì)算機(jī)信息化管理有著儲(chǔ)存量大,查詢速度快等許多優(yōu)點(diǎn),提供及時(shí)快捷的信息處理。因此,利用計(jì)算機(jī)提供給我們的信息
2、對(duì)學(xué)生們的借閱過程形成一整套動(dòng)態(tài)的分類管理系統(tǒng)能夠極大地提高圖書管理的效率。將圖書分文別類地管理,不僅能夠提高管理員的工作效率,而且用戶可以快速地查詢到自己需要的類型的圖書,也提高了查詢的效率。二分類算法介紹涉及到圖書信息的分類,當(dāng)然要對(duì)分類算法做進(jìn)一步的介紹。分類算法被用來預(yù)測(cè)數(shù)據(jù)對(duì)象的離散類別,其應(yīng)用非常普遍,對(duì)于圖書館管理系統(tǒng),要涉及到對(duì)圖書種類的分類,出版日期的分類以及不同作者的分類查詢等等。分類算法經(jīng)常表現(xiàn)為樹的表示和遍歷問題。那么,就涉及到以下6個(gè)問題:如果用數(shù)據(jù)庫(kù)中的一個(gè)表來表達(dá)樹型分類,應(yīng)該有幾個(gè)字段;如何快速地從這個(gè)表恢復(fù)出一棵樹; 如何判斷某個(gè)分類是否是另一個(gè)分類的子類;
3、如何查找某個(gè)分類的所有產(chǎn)品; 如何生成分類所在的路徑;如何新增分類。下面我們重點(diǎn)以決策樹算法為例來介紹圖書分類管理的基本核心思想。三決策樹分類算法核心思想介紹決策樹表示方法是應(yīng)用最廣泛的邏輯方法之一,具有分類的精度較高,成的模式相對(duì)簡(jiǎn)單,對(duì)噪聲數(shù)據(jù)有相對(duì)較強(qiáng)的健壯性等優(yōu)點(diǎn),因而是目前應(yīng)用比較廣泛的歸納推理算法之一,受到數(shù)據(jù)挖掘研究者的廣泛關(guān)注。決策樹歸納是經(jīng)典的分類算法。它采用自頂向下遞歸,各個(gè)擊破的方式構(gòu)造決策樹。樹的每一個(gè)結(jié)點(diǎn)使用信息增益度量來選擇測(cè)試邏輯判斷(即屬性)??梢詮纳傻臎Q策樹中提取規(guī)則。決策樹構(gòu)造的輸入是一組帶有類別標(biāo)記的例子,構(gòu)造的結(jié)果一般是一棵二叉樹或多叉樹。二叉樹的內(nèi)部
4、節(jié)點(diǎn),即非葉子節(jié)點(diǎn)一般表示成為一個(gè)邏輯判斷,樹的邊是邏輯判斷的分支結(jié)果。多叉樹的內(nèi)部節(jié)點(diǎn)是屬性,邊是該屬性的所有取值,樹的葉子節(jié)點(diǎn)一般都定義為類別標(biāo)記。構(gòu)造決策樹的方法是采用自頂向下的遞歸方法,其思路是:以代表訓(xùn)練樣本的單個(gè)結(jié)點(diǎn)開始建樹。如果樣本都在同一個(gè)類,則該結(jié)點(diǎn)成為樹葉,并用該類標(biāo)記。否則,算法使用稱為信息增益的基于熵的度量作為啟發(fā)信息,選擇能夠最好地將樣本分類的邏輯判斷。該邏輯判斷稱為該結(jié)點(diǎn)的“測(cè)試”或“判定”屬性。值得注意的是,在這類算法中,所有的邏輯判斷都是取離散值的,連續(xù)值邏輯判斷必須離散化。對(duì)測(cè)試屬性的每個(gè)已知的值,創(chuàng)建一個(gè)分支,并據(jù)此劃分樣本。算法使用同樣的過程,遞歸地形成每
5、個(gè)劃分上的樣本決策樹。一旦一個(gè)屬性出現(xiàn)在一個(gè)結(jié)點(diǎn)上,就不必考慮該結(jié)點(diǎn)的任何后代。遞歸劃分步驟,當(dāng)下列條件之一成立時(shí)停止:給定結(jié)點(diǎn)的所有樣本屬于同一類。沒有剩余屬性可以用來進(jìn)一步劃分樣本。構(gòu)造好的決策樹關(guān)鍵就在于如何選擇最優(yōu)的邏輯判斷,對(duì)于同樣一組例子,猶豫選擇的邏輯判斷不同,可以生成很多不同的決策樹。下面利用ID3算法舉例說明如何構(gòu)建一棵決策樹來實(shí)現(xiàn)對(duì)圖書的分類管理。對(duì)于ID3算法,首先要考慮如何選取合適的邏輯判斷來產(chǎn)生分支,這就需要介紹信息論的一系列概念:假設(shè)屬于第i類的訓(xùn)練實(shí)例Ci,X中總的訓(xùn)練實(shí)例個(gè)數(shù)為|X|,若一個(gè)實(shí)例屬于第i類的概率為p(Ci),則:p(Ci)=|Ci|/|X|信息熵
6、H(X):用來度量整個(gè)信息源X整體的不確定性。H(X)=-p(ai)log(p(ai) (i=1,2,.n)條件熵H(X|Y):如果信息源X受隨機(jī)變量Y的約束,用條件熵H(X|Y)來表示在收到隨機(jī)變量Y之后,對(duì)隨機(jī)變量X的不確定性。H(X|Y)=-p(ai|bj)log(p(ai|bj) (i=1,2,.n, j=1,2,m)平均互信息量I(X|Y):用它來表示信號(hào)Y所能提供的關(guān)于X的信息量的大小,其中I(X|Y)=H(X)-H(X|Y)。建立決策樹的過程就是將不確定度逐漸減小的過程,利用I(X|Y)表示的信息增益量選擇信息增益最大的屬性進(jìn)行優(yōu)先分類,下面舉例來說明如何利用決策樹分類算法實(shí)現(xiàn)圖書分類。表1給出了一個(gè)簡(jiǎn)單的圖書樣本數(shù)據(jù)集,假設(shè)圖書的屬性有四個(gè):種類,出版日期,出版社,作者。樣本數(shù)據(jù)集合被分為類別1和類別2,通過ID3算法構(gòu)造決策樹將數(shù)據(jù)進(jìn)行分類。 通過對(duì)每個(gè)屬性的信息熵和條件熵的計(jì)算,得到H(X|種類) <H(X|出版日期)< H(X|出版社) <H(X|作者),所以I(X|種類) >I(X|出版日期)> I(X|出版社) >I(X|作者)??梢姂?yīng)該選
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 鋁灰渣綜合利用項(xiàng)目實(shí)施方案(范文模板)
- 居民老舊供水管網(wǎng)改造工程實(shí)施方案(范文模板)
- 個(gè)人信息詳細(xì)年度工資證明(8篇)
- 經(jīng)濟(jì)學(xué)微觀基礎(chǔ)概念知識(shí)點(diǎn)解析
- 提升鄉(xiāng)村居民健康意識(shí)與健康行為
- 農(nóng)業(yè)信息化平臺(tái)的建設(shè)與運(yùn)營(yíng)模式
- 商業(yè)加盟協(xié)議書
- 電力接入與電網(wǎng)兼容性問題的有效管理
- 《小數(shù)的四則混合運(yùn)算:小學(xué)五年級(jí)數(shù)學(xué)練習(xí)題》
- 綠色建筑原理與應(yīng)用知識(shí)題庫(kù)
- 連鎖酒店詳細(xì)項(xiàng)目規(guī)劃設(shè)計(jì)方案
- thanks giving day感恩節(jié)幻燈片
- 塔吊安裝安全教育培訓(xùn)
- 家庭健康管理員手冊(cè)
- 模具維護(hù)保養(yǎng)記錄表
- 網(wǎng)絡(luò)集成實(shí)踐報(bào)告
- 臨床診療指南第三版電子版
- Vue.js前端開發(fā)實(shí)戰(zhàn)(第2版)全套完整教學(xué)課件
- 父親節(jié):感恩父親的日子
- 現(xiàn)代物流管理(第三版-錢廷仙)課件1.物流成本構(gòu)成
- 2023年蕪湖一中高一自主招生考試試題數(shù)學(xué)
評(píng)論
0/150
提交評(píng)論