




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、Linux日志文件系統(tǒng)及性能分析吳慶波,副研究員,長期從事操作系統(tǒng)的研究。簡介:日志文件系統(tǒng)可以在系統(tǒng)發(fā)生斷電或者其它系統(tǒng)故障時保證整體數(shù)據(jù)的完整性,Linux是目前支持日志文件系統(tǒng)最多的操作系統(tǒng)之一,本文重點研究了Linux常用的日志文件系統(tǒng):EXT3、ReiserFS、XFS和JFS日志技術(shù),并采用標(biāo)準(zhǔn)的測試工具PostMark和Bonnie+對它們進(jìn)行了測試,給出了詳細(xì)的性能分析,對Linux服務(wù)器應(yīng)用具有重要的參考價值。一、概述所謂日志文件系統(tǒng)是在傳統(tǒng)文件系統(tǒng)的基礎(chǔ)上,加入文件系統(tǒng)更改的日志記錄,它的設(shè)計思想是:跟蹤記錄文件系統(tǒng)的變化,并將變化內(nèi)容記錄入日志。日志文件系統(tǒng)在磁盤分區(qū)中保
2、存有日志記錄,寫操作首先是對記錄文件進(jìn)行操作,若整個寫操作由于某種原因(如系統(tǒng)掉電)而中斷,系統(tǒng)重啟時,會根據(jù)日志記錄來恢復(fù)中斷前的寫操作。在日志文件系統(tǒng)中,所有的文件系統(tǒng)的變化都被記錄到日志,每隔一定時間,文件系統(tǒng)會將更新后的元數(shù)據(jù)及文件內(nèi)容寫入磁盤。在對元數(shù)據(jù)做任何改變以前,文件系統(tǒng)驅(qū)動程序會向日志中寫入一個條目,這個條目描述了它將要做些什么,然后它修改元數(shù)據(jù)。目前Linux的日志文件系統(tǒng)主要有:在Ext2基礎(chǔ)上開發(fā)的Ext3,根據(jù)面向?qū)ο笏枷朐O(shè)計的ReiserFS,由SGI IRIX系統(tǒng)移植過來的XFS,由IBM AIX系統(tǒng)移植過來的JFS,其中EXT3完全兼容EXT2,其磁盤結(jié)構(gòu)和EX
3、T2完全一樣,只是加入日志技術(shù);而后三種文件系統(tǒng)廣泛使用了B樹以提高文件系統(tǒng)的效率。回頁首二、Ext3Ext3文件系統(tǒng)是直接從Ext2文件系統(tǒng)發(fā)展而來,目前Ext3文件系統(tǒng)已經(jīng)非常穩(wěn)定可靠,它完全兼容Ext2文件系統(tǒng),用戶可以平滑地過渡到一個日志功能健全的文件系統(tǒng)。Ext3日志文件系統(tǒng)的思想就是對文件系統(tǒng)進(jìn)行的任何高級修改都分兩步進(jìn)行。首先,把待寫塊的一個副本存放在日志中;其次,當(dāng)發(fā)往日志的I/O 數(shù)據(jù)傳送完成時(即數(shù)據(jù)提交到日志),塊就寫入文件系統(tǒng)。當(dāng)發(fā)往文件系統(tǒng)的I/O 數(shù)據(jù)傳送終止時(即數(shù)據(jù)提交給文件系統(tǒng)),日志中的塊副本就被丟棄。2.1 Ext3日志模式Ext3既可以只對元數(shù)據(jù)做日志,
4、也可以同時對文件數(shù)據(jù)塊做日志。具體來說,Ext3提供以下三種日志模式: 日志(Journal )文件系統(tǒng)所有數(shù)據(jù)和元數(shù)據(jù)的改變都記入日志。這種模式減少了丟失每個文件所作修改的機會,但是它需要很多額外的磁盤訪問。例如,當(dāng)一個新文件被創(chuàng)建時,它的所有數(shù)據(jù)塊都必須復(fù)制一份作為日志記錄。這是最安全和最慢的Ext3日志模式。 2 / 14 預(yù)定(Ordered )只有對文件系統(tǒng)元數(shù)據(jù)的改變才記入日志。然而,Ext3文件系統(tǒng)把元數(shù)據(jù)和相關(guān)的數(shù)據(jù)塊進(jìn)行分組,以便把元數(shù)據(jù)寫入磁盤之前寫入數(shù)據(jù)塊。這樣,就可以減少文件內(nèi)數(shù)據(jù)損壞的機會;例如,確保增大文件的任何寫訪問都完全受日志的保護。這是缺省的Ext3 日志模式
5、。 寫回(Writeback )只有對文件系統(tǒng)元數(shù)據(jù)的改變才記入日志;這是在其他日志文件系統(tǒng)發(fā)現(xiàn)的方法,也是最快的模式。 2.2 日志塊設(shè)備(JBD)Ext3 文件系統(tǒng)本身不處理日志,而是利用日志塊設(shè)備(Journaling Block Device)或叫JBD 的通用內(nèi)核層。Ext3文件系統(tǒng)調(diào)用JDB例程以確保在系統(tǒng)萬一出現(xiàn)故障時它的后續(xù)操作不會損壞磁盤數(shù)據(jù)結(jié)構(gòu)。Ext3 與JDB 之間的交互本質(zhì)上基于三個基本單元:日志記錄,原子操作和事務(wù)。日志記錄本質(zhì)上是文件系統(tǒng)將要發(fā)出的低級操作的描述。在某些日志文件系統(tǒng)中,日志記錄只包括操作所修改的字節(jié)范圍及字節(jié)在文件系統(tǒng)中的起始位置。然而,JDB 層
6、使用的日志記錄由低級操作所修改的整個緩沖區(qū)組成。這種方式可能浪費很多日志空間(例如,當(dāng)?shù)图壊僮鲀H僅改變位圖的一個位時),但是,它還是相當(dāng)快的,因為JBD 層直接對緩沖區(qū)和緩沖區(qū)首部進(jìn)行操作。修改文件系統(tǒng)的任一系統(tǒng)調(diào)用都通常劃分為操縱磁盤數(shù)據(jù)結(jié)構(gòu)的一系列低級操作。如果這些低級操作還沒有全部完成系統(tǒng)就意外宕機,就會損壞磁盤數(shù)據(jù)。為了防止數(shù)據(jù)損壞,Ext3文件系統(tǒng)必須確保每個系統(tǒng)調(diào)用以原子的方式進(jìn)行處理。原子操作是對磁盤數(shù)據(jù)結(jié)構(gòu)的一組低級操作,這組低級操作對應(yīng)一個單獨的高級操作。出于效率的原因,JBD 層對日志的處理采用分組的方法,即把屬于幾個原子操作處理的日志記錄分組放在一個單獨的事務(wù)中。此外,與
7、一個處理相關(guān)的所有日志記錄都必須包含在同一個事務(wù)中。一個事務(wù)的所有日志記錄都存放在日志的連續(xù)塊中。JBD層把每個事務(wù)作為整體來處理。例如,只有當(dāng)包含在一個事務(wù)的日志記錄中的所有數(shù)據(jù)提交給文件系統(tǒng)時才回收該事務(wù)所使用的塊。三、ReiserFSReiserFS是一個非常優(yōu)秀的文件系統(tǒng),其開發(fā)者非常有魄力,整個文件系統(tǒng)完全是從頭設(shè)計的。目前,ReiserFS可輕松管理上百G的文件系統(tǒng),這在企業(yè)級應(yīng)用中非常重要。ReiserFS 是根據(jù)面向?qū)ο蟮乃枷朐O(shè)計的,由語義層(semantic layer)和存儲層(storage layer)組成。語義層主要是對對象命名空間的管理及對象接口的定義,以確定對象的
8、功能。存儲層主要是對磁盤空間的管理。語義層與存儲層是通過鍵(key)聯(lián)系的。語義層通過對對象名進(jìn)行解析生成鍵,存儲層通過鍵找到對象在磁盤上存儲空間,鍵值是全局唯一的。3.1 語義層主要接口1) 文件接口 每個文件擁有一個接口ID,此ID標(biāo)識一個方法集,此方法集包含訪問ReiserFS 文件的所有接口。2) 屬性接口 ReiserFS實現(xiàn)了一種新接口,把文件的每一種屬性當(dāng)做一個文件,屬性的值就是此文件的內(nèi)容,以實現(xiàn)對文件屬性的目錄式訪問。3) hash接口 目錄是文件名到文件的映射表,ReiserFS是通過B樹來實現(xiàn)這張映射表。由于文件名是變長的,而且有時文件名會很長,所以文件名不適合作為鍵值,
9、故引入了Hash函數(shù)來產(chǎn)生鍵值。4) 安全接口 安全接口處理所有的安全性檢查,通常是由文件接口觸發(fā)的。下面以讀文件為例:文件接口的read 方法在讀入文件數(shù)據(jù)之前會調(diào)用安全接口的read chech 方法來來進(jìn)行安全性檢查,而后者又會調(diào)用屬性文件的read方法把文件屬性讀入以便檢查。5) 項(Item)接口 項接口主要是一些對項進(jìn)行平衡處理的方法,包括:項的拆分,項的評估,項的覆寫,項的追加,項的刪除,插入及查找。 6) 鍵分配(key Assignment)接口 當(dāng)把一個鍵分配給一個項時,鍵分配接口就會被觸發(fā)。每一種項都有一個與其對應(yīng)的鍵分配方法。3.2 存儲層ReiserFS是以B+樹來存
10、儲數(shù)據(jù)的,其結(jié)構(gòu)如圖:圖1:ReiserFS B+ 樹在B+樹中的各個結(jié)點中有一個稱為項(Item)的數(shù)據(jù)結(jié)構(gòu)。項是一個數(shù)據(jù)容器,一個項只屬于一個結(jié)點,是結(jié)點管理空間的基本單位。如圖所示,一個項包括以下內(nèi)容:1) Item_body:項的數(shù)據(jù)域2) Item_key: 項的鍵值3) Item_offset:數(shù)據(jù)域的起點在結(jié)點中的偏移量4) Item_length: 數(shù)據(jù)域的長度5) Item_Plugin_id:項接口ID。圖2: ReiserFS 項結(jié)構(gòu)ReiserFS設(shè)計了多種不同的項以存儲不同的數(shù)據(jù),主要有以下幾種:1) static_stat_data: 靜態(tài)統(tǒng)計數(shù)據(jù),包括文件的所有者
11、,訪問權(quán)限,創(chuàng)建時間,最近修改時間,鏈接數(shù)等2) cmpnd_dir_item: 包含各個目錄項3) extend_pointers: 指向一個盤區(qū)(extend)4) node_pointers: 指向一個結(jié)點5) bodies: 包含的是文件的小部分?jǐn)?shù)據(jù) 3.3 ReiserFS日志與ext3一樣,ReiserFS也有三種日志模式,即journal,ordered,writeback。同時,ReiserFS引入了兩種日志優(yōu)化方法:copy-on-capture和steal-on-capture。copy-on-capture:當(dāng)一個事務(wù)要修改的塊在另一個未提交的事務(wù)中時,就把這個塊復(fù)制一份
12、,這樣這兩個事務(wù)就可以并發(fā)進(jìn)行了。steal-on-capture:當(dāng)一個塊被多個事務(wù)修改時,只有最晚提交的那個事務(wù)才把這個塊實際寫入文件系統(tǒng),其他事務(wù)都不寫這個塊。四、XFSXFS 是一種高性能的64 位文件系統(tǒng),由SGI 公司為了替代原有的EFS 文件系統(tǒng)而開發(fā)的。XFS 通過保持cache 的一致性、定位數(shù)據(jù)和分布處理磁盤請求來提供對文件系統(tǒng)數(shù)據(jù)的低延遲、高帶寬的訪問。目前SGI已經(jīng)將XFS文件系統(tǒng)從IRIX移植到Linux。4.1 分配組(allocation groups)當(dāng)創(chuàng)建 XFS 文件系統(tǒng)時,底層塊設(shè)備被分割成八個或更多個大小相等的線性區(qū)域(region),用戶可以將它們想象
13、成塊(chunk)或者線性范圍(range),在 XFS 中,每個區(qū)域稱為一個分配組。分配組是唯一的,因為每個分配組管理自己的索引節(jié)點(inode)和空閑空間,實際上是將這些分配組轉(zhuǎn)化為一種文件子系統(tǒng),這些子系統(tǒng)透明地存在于 XFS 文件系統(tǒng)內(nèi)。有了分配組,XFS 代碼將允許多個線程和進(jìn)程持續(xù)以并行方式運行,即使它們中的許多線程和進(jìn)程正在同一文件系統(tǒng)上執(zhí)行大規(guī)模 IO 操作。因此,將 XFS 與某些高端硬件相結(jié)合,將獲得高性能而不會使文件系統(tǒng)成為瓶頸。分配組在內(nèi)部使用高效的 B+樹來跟蹤主要數(shù)據(jù),具有優(yōu)越性能和極大的可擴展性。4.2 日志記錄XFS 也是一種日志記錄文件系統(tǒng),它允許意外重新引導(dǎo)
14、后的快速恢復(fù)。象 ReiserFS 一樣,XFS 使用邏輯日志;它不象 ext3 那樣將文字文件系統(tǒng)塊記錄到日志,而是使用一種高效的磁盤格式來記錄元數(shù)據(jù)的變動。就 XFS 而言,邏輯日志記錄是很適合的;在高端硬件上,日志經(jīng)常是整個文件系統(tǒng)中爭用最多的資源。通過使用節(jié)省空間的邏輯日志記錄,可以將對日志的爭用降至最小。另外,XFS 允許將日志存儲在另一個塊設(shè)備上,例如,另一個磁盤上的一個分區(qū)。這個特性很有用,它進(jìn)一步改進(jìn)了 XFS 文件系統(tǒng)的性能。4.3 延遲分配延遲分配是 XFS 獨有的特性,它是查找空閑空間區(qū)域并用于存儲新數(shù)據(jù)的過程。通過延遲分配,XFS 贏得了許多機會來優(yōu)化寫性能。到了要將數(shù)
15、據(jù)寫到磁盤的時候,XFS 能夠以這種優(yōu)化文件系統(tǒng)性能的方式,智能地分配空閑空間。尤其是,如果要將一批新數(shù)據(jù)添加到單一文件,XFS 可以在磁盤上分配一個單一、相鄰區(qū)域來儲存這些數(shù)據(jù)。如果 XFS 沒有延遲它的分配決定,那么,它也許已經(jīng)不知不覺地將數(shù)據(jù)寫到了多個非相鄰塊中,從而顯著地降低了寫性能。但是,因為 XFS 延遲了它的分配決定,所以,它能夠一下子寫完數(shù)據(jù),從而提高了寫性能,并減少了整個文件系統(tǒng)的碎片。在性能上,延遲分配還有另一個優(yōu)點。在要創(chuàng)建許多短命的臨時文件的情況下,XFS 可能根本不需要將這些文件全部寫到磁盤。因為從未給這些文件分配任何塊,所以,也就不必釋放任何塊,甚至根本沒有觸及底層
16、文件系統(tǒng)元數(shù)據(jù)。五、JFSJFS 由IBM 公司開發(fā),最初出現(xiàn)在AIX 操作系統(tǒng)之上,它提供了基于日志的字節(jié)級、面向事務(wù)的高性能文件系統(tǒng)。它具有可伸縮性和健壯性,與非日志文件系統(tǒng)相比,它的優(yōu)點是其快速重啟能力:JFS 能夠在幾秒或幾分鐘內(nèi)就把文件系統(tǒng)恢復(fù)到一致狀態(tài)。JFS 是完全 64 位的文件系統(tǒng)。所有 JFS 文件系統(tǒng)結(jié)構(gòu)化字段都是 64 位大小。這允許 JFS 同時支持大文件和大分區(qū)。為了支持 DCE DFS(分布式計算環(huán)境分布式文件系統(tǒng)),JFS 將磁盤空間分配池(稱為聚集)的概念, 與可安裝的文件系統(tǒng)子樹(稱為文件集)的概念分開。每個分區(qū)只有一個聚集;每個聚集可能有多個文件集。在第一
17、個發(fā)行版中,JFS 僅支持每個聚集一個文件集;但是,所有元數(shù)據(jù)都已設(shè)計成適用于所有情況。如圖3所示,聚集開始部分是32K的保留區(qū),緊隨其后的是聚集主超級塊。超級塊包含聚集的信息,例如:聚集的大小、分配組的大小、聚集塊的尺寸等等。超級塊位于固定位置,這使得 JFS 不依賴任何其它信息,就能夠找到它們。在聚集中還有一個重要的結(jié)構(gòu)是聚集索引結(jié)點表(Aggregate Inode Table)以及用于其映射的聚集索引結(jié)點分配映射表(Aggregate Inode Allocation Map)。AIT表中的inode 0 保留,inode 1 描述聚集本身,inode 2 描述聚集塊映射表(block
18、 map), inode 3 描述安裝時的內(nèi)嵌日志,inode 4 描述在聚集格式化期間發(fā)現(xiàn)的壞塊,保留inode 5 到 15 以備將來擴展。 從inode 16 開始,每個inode代表一個文件集。文件集中也有索引結(jié)點表以及用于其映射的索引結(jié)點分配映射表,文件集中的inode 描述文件集中的每一個文件。圖3 JFS磁盤結(jié)構(gòu)JFS 使用基于盤區(qū)的尋址結(jié)構(gòu),連同主動的塊分配策略,產(chǎn)生緊湊、高效、可伸縮的結(jié)構(gòu),以將文件中的邏輯偏移量映射成磁盤上的物理地址。盤區(qū)是象一個單元那樣分配給文件的相連塊序列,可用一個由 組成的三元組來描述。尋址結(jié)構(gòu)是一棵 B+ 樹,該樹由盤區(qū)描述符(上面提到的三元組)填充
19、,根在 inode 中,鍵為文件中的邏輯偏移量。JFS 按需為磁盤 inode 動態(tài)地分配空間,同時釋放不再需要的空間。這一支持避開了在文件系統(tǒng)創(chuàng)建期間,為磁盤 inode 保留固定數(shù)量空間的傳統(tǒng)方法,因此用戶不再需要估計文件系統(tǒng)包含的文件和目錄最大數(shù)目。另外,這一支持使磁盤 inode 與固定磁盤位置分離。JFS 提供兩種不同的目錄組織。第一種組織用于小目錄,并且在目錄的 inode 內(nèi)存儲目錄內(nèi)容。這就不再需要不同的目錄塊 I/O,同時也不再需要分配不同的存儲器。最多可有 8 個項可直接存儲在 inode 中,這些項不包括自己(.)和父(.)目錄項,這兩個項存儲在 inode 中不同的區(qū)域
20、內(nèi)。第二種組織用于較大的目錄,用按名字鍵控的 B+ 樹表示每個目錄。與傳統(tǒng)無序的目錄組織比較,它提供更快的目錄查找、插入和刪除能力。六、性能測試6.1 測試環(huán)境6.2測試工具所用的測試工具是Postmark和Bonnie+。Postmark主要用于測試文件系統(tǒng)在郵件系統(tǒng)或電子商務(wù)系統(tǒng)中性能,這類應(yīng)用的特點是:需要頻繁、大量地存取小文件。而Bonnie+主要測試大文件的IO性能。6.3 測試結(jié)果分析下面將詳細(xì)分析用上述兩種測試工具在各種測試參數(shù)配置下的結(jié)果。圖4 PostMark 小文件圖 4是PostMark測試小文件的結(jié)果,其參數(shù)是文件大小50B增至1K, 同一目錄下的文件數(shù)從5k至20k,
21、事務(wù)總數(shù)為25k。從圖中我們可以看出:1. 不論是Ext3 還是ReiserFS,在三種日志模式中,寫回(writeback)最快,預(yù)定(ordered)次之,日志(journal)最慢。2. 在各種文件系統(tǒng)中,ReiserFS 的寫回和預(yù)定模式是最快的,且隨著文件數(shù)的增加事務(wù)處理速度下降的也很慢。3. Ext3在文件數(shù)較少時,事務(wù)處理速度也比較快,但當(dāng)文件數(shù)超過10k后,速度就比較慢了。4. XFS和JFS的速度較慢,但隨著文件數(shù)的增加,速度下降的比較緩慢。圖5 PostMark 大文件圖5是PostMark測試大文件的結(jié)果,其參數(shù)是文件大小1k至16K,同一目錄下的文件數(shù)從5k增至20k,
22、事務(wù)總數(shù)為25k時的測試結(jié)果。從圖中我們可以看出:1. 在處理大文件時,當(dāng)文件數(shù)達(dá)到15k時,各種文件系統(tǒng)處理能力都較差。2. 當(dāng)文件數(shù)在小于10k時,ReiserFS的寫回、預(yù)定模式和EXT3的寫回模式性能是比較好的。但這兩種文件系統(tǒng)的全日志模式都比較差。3. XFS文件系統(tǒng)的性能居中,JFS文件系統(tǒng)的性能最差。圖6:Bonnie+順序?qū)懙乃俾蕡D7:Bonnie+順序?qū)憰rCPU利用率圖6是Bonnie+對文件大小分別為1G,2G,4G順序?qū)懙男阅鼙容^,圖7是其CPU的利用率比較。從上述兩圖中我們可以看出:1. 除了Ext3和ReiserFS的Journal模式的性能較差外,其他幾種模式和XFS、JFS寫磁盤的速率相當(dāng)。2. 從CPU利用率來看,各種文件系統(tǒng)的CPU利用率都比較低,而
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 特色餐廳廚師聘用及藝術(shù)創(chuàng)作合同模板
- 北京鐵路局新入職本科生培養(yǎng)計劃書
- 郴州保安綜合服務(wù)合同-綜合安保服務(wù)協(xié)議
- 礦產(chǎn)資源并購項目合同書
- 老人與海英語課件
- 汽車事故交警處理流程
- 消防安全重點單位監(jiān)管
- 下學(xué)期安全工作計劃
- 安全隱患排除方案
- 美術(shù)介紹自己課件
- 2022年鄭州市鹽業(yè)公司招聘筆試題庫及答案解析
- 景陵峪構(gòu)造報告構(gòu)造地質(zhì)學(xué)
- 小學(xué)音樂 花城版 三年級《蟲兒飛》課件
- 公共關(guān)系學(xué)-實訓(xùn)項目1:公關(guān)三要素分析
- 網(wǎng)頁設(shè)計基礎(chǔ)ppt課件(完整版)
- 貴陽市建設(shè)工程消防整改驗收申請表
- GB∕T 8163-2018 輸送流體用無縫鋼管
- 機動車排放檢驗檢測方法內(nèi)部審批程序
- 吉安土地利用總體規(guī)劃
- 小學(xué)五年級下冊體育教案_(全冊)
- 公司級安全技術(shù)交底內(nèi)容
評論
0/150
提交評論