




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、WordSmith Tools 是一個在 Window 下運行的用來觀測文字在文本中的表現(xiàn)的 功能強大的綜合軟件包。 它共包含 Concord (語境共現(xiàn)檢索工具 )、WordList (詞頻列 表檢索工具)、KeyWords(關鍵詞檢索工具)、Splitter (文本分割工具)、Text Converter (文本替換工具)、Viewer (文本瀏覽工具)等六個程序,其中前面三個程序是主要 的文本檢索工具,后面三個程序?qū)儆谳o助性工具。這六個程序的各項設置由一個叫 WordSmith Tools Controller (文字匠工具控制器)的程序來控制。II 各個工具的操作和主要功能介紹:1 C
2、oncord1)基本操作過程:在 WordSmith Tools Controller 窗口中選擇 Tools 選項。當該選項打開, 你就 會看到 Co nco rd 。單擊它, Concord 的窗口將打開。按下 按鈕, 將出現(xiàn)一個對話框, 選擇將進行語境共現(xiàn)檢索的文本文件。 確定一個檢索詞或短語。如果要改變設置,按 Horizons etc 按鈕,對缺省的設置值進行修改。按 Start Concordance 按鈕,檢索開始。窗口上出現(xiàn)檢索進行的狀態(tài)條。檢 索結束,結果顯示在 Concord 的窗口。如果要保留 語境共現(xiàn)檢索的結果,按按鈕存盤 。2)主要的功能:語境共現(xiàn) (Concorda
3、nce):語境共現(xiàn)(Concordanee)的窗口顯示:語境共現(xiàn)(Concordanee)的窗口包括六個縱列,例如:A. N 列:顯示檢索項的數(shù)目。B. Concordance 列:顯示語境共現(xiàn)檢索的結果。C. Set 列: 在這一列, 用戶可以使用任何字母對條目進行分類。例如,如果你想對檢索詞的動詞和名詞用法進行歸類,你可以鍵入字母V或N。要清除鍵入的字母,按 0(零)。D. Tag 列:顯示最接近的標記符號。E. Word No. 列:顯示檢索詞在文本中的位置。 例如, 上面例子中條目 1 的檢 索詞 good 是文本的 2,265 個單詞。F. File 列:顯示源文本的文件名。G. %
4、 列:以百分比的形式顯示檢索詞在文本中的位置。要想得到有關語境共現(xiàn)檢索的結果的更多的信息,按下面的按鈕:按 按鈕 ,可增加語境共現(xiàn)檢索的結果每行的顯示量,按按鈕 ,可減少語境共現(xiàn)檢索的結果每行的顯示量。按 ()按鈕,可啟動文本瀏覽工具( Viewer ),對源文本進行查看。按 按鈕,可查看檢索詞在規(guī)定的語境范圍內(nèi)的搭配詞的情況。例如,下圖是 在上例中檢索詞 good 在左右各五個詞的語境范圍內(nèi)的搭配詞的情況。 從圖中可 以知道,搭配詞 very 共出現(xiàn) 29 次,其中在 good 的左邊 26 次,右邊 3 次,而在左邊的 26 次中有 23 次是作為左邊的第一個單詞出現(xiàn)。按 ( )按鈕,可打
5、開檢索詞分布圖窗口。檢索詞分布圖窗口顯示的內(nèi)容如下:File源文本文件名Words源文本文件中單詞的數(shù)目Hits找到的檢索詞的數(shù)目per 1,000每千字檢索詞的數(shù)目Plot檢索詞分布圖顯示檢索詞在文本中出現(xiàn)的位置按 按鈕, Concord 將檢索語境共現(xiàn)檢索的結果中的句子,找出重復出現(xiàn)的字串(word clusters)。字串的大小的推薦值一般為2 4個字,最低出現(xiàn)率為3個。例如:按()按鈕,打開用詞類型(Patterns)窗口,顯示臨近檢索詞的單詞的統(tǒng)計資料。這些單詞按出現(xiàn)頻率的高低從高到低排列。例如:取消檢索詞按空格鍵或選擇窗口 View 選項中的 Blanked out, 語境共現(xiàn)檢索
6、的結果中的檢索詞 將被一行星號代替。要恢復檢索詞,重復一次前面的操作。對語境共現(xiàn)檢索的結果重新排序語境共現(xiàn)檢索進行時,檢索的結果是以語境在文本中的出現(xiàn)順序排列的。當語境共現(xiàn)檢索一完成,它就會以當時的缺省設置進行重新排序。如果不想重新排 序,將缺省值設定在 File, File 位置。語境共現(xiàn)檢索的結果重新排序有以下幾種 方式:A. 根據(jù)檢索詞的左或右的某個位置的單詞進行排序。B. 根據(jù)檢索詞本身進行排序。C. 如果有語境詞,可根據(jù)語境詞進行排序。D. 根據(jù)最近的標碼符號進行排序。E. 根據(jù)與最近的標碼符號的距離進行排序。F. 根據(jù)用戶自己的分類進行排序。G. 根據(jù)在文本中的出現(xiàn)順序排序。語境共
7、現(xiàn)檢索結果的重新排序,可以根據(jù)三重標準同時進行。這三重標準分別在 Main Sort, then by, finally by 三個對話框中設定。 另外, 重新排序時, 可以設置區(qū)分或不區(qū)分大小寫,按升序還是降序排列,既可以將所有的檢索項重新排序,也可以設定將一定范圍內(nèi)的檢索項重新排序。保存和打印語境共現(xiàn)檢索結果可以將語境共現(xiàn)檢索的結果保存為文本文件或是可以在Concord再打開的文件。按下F3或選擇File的Print選項,將打印語境共現(xiàn)檢索的結果。3) 參數(shù)設置:檢索詞(search word):A. 檢索詞可以是一個單詞,一個短語或是一個包含許多檢索詞的文本文件。B. 按照缺省設置,Co
8、ncord進行的是不區(qū)分大小寫的整詞檢索。格式如下:結果bookBookor book or BoOkbookbook, books, book ing,booked*booktextbook (but nottextbooks )bo* inbook in, books in, book ing in (but not book into )book * hotelbook a hotel, book the hotel, book my hotelbo* in*book in, books in, book ingin, book intobook?book, books, book; b
9、ook.bookAbook, booksbAAkbook, back, bank, etc.=book=book (but not BOOKr BooRbook/paperbackbook or paperback符號意義例子*代表多個任意字符book*?代表單個任意字符(包括標Engl?點符號)A代表單個任意字母FrAncA=區(qū)分大小寫=French=Fr*=:表示一個可包含多達 500c:textfr個檢索詞的文本文件 ( 參看d.txt幫助中的 file-basedsearch words)/分隔多個檢索詞。你可以選may/can/wi擇多達 15 個檢索詞,但字符ll的總數(shù)不能超過 8
10、0。如果要使用 or / 作為檢索詞中的一個字符,要將這些符號放到雙引號內(nèi),例如:n*nWhy?and/or語境詞 (context word):A. 為了限制語境共現(xiàn)的檢索,可以指定一個語境詞在檢索詞的規(guī)定的語境范圍內(nèi)出現(xiàn)或不出現(xiàn)。B. 語境詞的輸入格式與檢索詞的相同,只有一個不同的符號 。 表示該詞在規(guī)定的語境范圍內(nèi)不出現(xiàn)。例如:當 search word 是 book 而 context word 是 hotel* 時, Concord 將只會找到 hotel or hotels 出現(xiàn)在其 語境范圍內(nèi)的 book 。當 search word 是 book 而 context word
11、是 paper * 時, Concord 將只會找 到 paper or papers 不出現(xiàn)在其 語境范圍內(nèi)的 book 。語境范圍 (horizons):語境范圍設置限定在語境共現(xiàn)中檢索詞的左右兩邊各可以出現(xiàn)多少個單詞。最高 值是 左右兩邊各可出現(xiàn) 25 個單詞。檢索項的數(shù)目( entries wanted) :語境共現(xiàn)中檢索項的數(shù)目的最大值可達16 ,368 行。 但用戶可以在 Controller 的Adjust Settings | Concord 選項中對檢索項的數(shù)目自行定義,還可以設定 Concord 對檢 索項進行隨機抽取。搭配詞 (collocate):搭配詞的最短長度為一個
12、字母,最低出現(xiàn)頻率為一次。但是在語境共現(xiàn)中出現(xiàn)一 兩次的搭配詞是不能說明什么問題的。用戶可以在 Controller 的 Adjust Settings | Concord 選項中對搭配詞的最短長度和最低出現(xiàn)頻率自行定義。2 Wordlist1) 基本操作過程:在 WordSmith Tools Controller 窗口中選擇 Tools 選項。 當該選項打開, 你就 會看到 WordList 。單擊它, WordList 的窗口將打開。按 Make a word list now 按鈕,檢索開始。窗口上出現(xiàn)檢索進行的狀態(tài)條。檢索結束, WordList 出現(xiàn)三個窗口顯示檢索結果。 這三個窗
13、口分別顯示以字 母為序的詞頻列表,以頻率為序的詞頻列表以及綜合統(tǒng)計數(shù)據(jù)。如果要保留詞頻列表的結果,按 按鈕存盤 。2) 主要的功能:創(chuàng)建詞頻列表 (word lists):詞頻列表 (word lists) 的窗口顯示:以字母為序的詞頻列表的窗口(部分)顯示如下:以頻率為序的詞頻列表的窗口(部分)顯示如下:綜合統(tǒng)計數(shù)據(jù)的窗口(部分)顯示如下:創(chuàng)建單詞索引列表 (index lists):單詞索引列表的作用是記錄所有單詞在文本中的位置,以便了解每個詞在文 本的那一部分出現(xiàn)。另一作用是加快對列表中單詞的檢索處理,例如,如果選擇 列表中一個或多個單詞,按下 按鈕,就會得到快速的語境共現(xiàn)檢索的結果。
14、另外, 在單詞索引列表中, 還可以計算單詞與那些詞搭配以及與搭配詞的相關值 ( “ Mutual Information ” sc)ores建立單詞索引列表打開 Controller , 選擇 Adjust Settings | Indexing 選項,進行以下的設置:A. 確定單詞索引列表的路徑和文件名。B. 激活 Actitated 對話框。C. 激活 File order too 對話框(非必選)。D. 選擇出現(xiàn)多少次的高頻詞要被刪除。E. 按 OK 按鈕。打開 WordList, 選擇菜單 Index 的 New Index 選項 , 指定要進行操作的文 本文件,再選擇 Index 的
15、 New Index 選項。檢索結束,將在指定的路徑生 成三個擴展名分別是*.wdx, *.xfo,和*.xal的文件。瀏覽建立的單詞索引列表:打開 WordList, 選擇菜單 Index 的 Alphabetical List 選項或 File Order List 選項。選定要打開的單詞索引列表文件, 就可以瀏覽建立的單詞索引列表。 例如:計算相關值 (mutual information) :A. 要計算相關值,單詞索引列表必須是在激活了“File Order too 復選”框的情況下建立的。B. 選擇菜單 Index 的 Alphabetical List 選項,打開建立的單詞索引列
16、表。C. 按 按鈕,選擇要計算相關值的詞條, 然后按 按鈕。如果沒有選擇任何詞條,按 按鈕將計算單詞索引列表的所有詞條的相關值。 例如,在上圖中,詞條 answer 在文本的最常見的搭詞是know,它們的相關值4.48。詞頻列表的批處理 用戶可以一次選擇多個文本進行詞頻列表的創(chuàng)建。例如,選擇10 個文本同時進行詞頻列表,既可以得出一個基于 10 個文本的大的詞頻列表,也可以得出十個分別 基于 10個文本的的詞頻列表。字串的詞頻列表:詞頻列表不必一定以單詞為單位, 也可以以 2-8 個單詞的字串為單位創(chuàng)建詞頻列表。 選擇 WordList 主菜單的 Settings | Min. & Max.
17、Frequencies 選項,激活復選框,選擇 字串的大小,就可以進行字串的詞頻列表。對詞頻列表的編輯:合并詞條到同一詞類 (Lemmatisation): 例如,你可以將屬于不同類型 (type) 的詞條 want; wants; wanting; wanted 合并到同一詞類 (lemma) want 中。 手動合并:A. 使用 F5 選定要合并的詞條, 第一個被選定的詞條將成為詞類 (lemma) 的名稱 (head)。B. 使用 F4 可將所有選定的詞條合并。基于文件的合并:建立一個將屬于同一詞類的不同類型(type) 的詞分組歸類的文本文件(例如,be-was, is ,were,
18、am, are go-goes, going, went, gone )。按 按鈕, WordList 將根據(jù) 文本文件的分類為標準對當前詞頻列表的所有詞條進行詞類(lemma)合并。詞類(lemma)合并結束后,按按鈕,將顯示重新計算的綜合數(shù)據(jù)。詞頻列表的排序: 按 按紐或F6,可對詞頻列表重新排序。選擇正確的語言:許多語言有自己特殊的字母排列順序,所以在排序或重 新排序之前, 應檢查是否在語言選項選擇了正確的語言。 另外,在缺省值中, 某些語言中的帶重讀符號的字母與不帶重讀符號的同一字母是同等對待的。 按單詞結尾排序: 選擇反向排序選項 (Reverse Sort), 可以按單詞的結尾的字
19、 母順序排序。這樣,就能將以某種后綴結尾的單詞,例如, -ing 形式結尾的 單詞列在一起。比較兩個詞頻列表: 選擇 WordList 中 Comparison 菜單下的 Compare 2 Wordlists 選項,選中兩個要進行對比的詞頻列表, 就可以對兩個詞頻列表進行比較。 這一功能可以幫助進行文體方面 的比較。例如,比較一篇文章的不同譯本中對某個詞的不同翻譯。簡單一致性分析: Consistency Analysis (simple)這一功能可以對超過五十個詞頻列表一次性進行比較分析, 然后生成一個基于所有文 本的詞頻列表。 這一功能可以幫助找出哪些詞是在大量的某一特定類型的文本中一貫
20、 出現(xiàn)的。詳細一致性分析: Consistency Analysis (Detailed) 這一功能與簡單一致性分析的功能完全一樣, 只是提供的分析更為詳細, 而且進行分 析的詞頻列表不能超過五十個。這一功能可以幫助進行文體方面的比較。3 KeyWords1) 主要功能:KeyWords 主要作用是確定某個文本的關鍵詞是什么以及它們在文本中的 位置。要實現(xiàn)著這一目的,必須先用 WordList 工具建立兩個單詞列表。這 兩個單詞列表中, 一個是根據(jù)要考察的文本建立的, 而另一個作為參照的單 詞列表, 必須是根據(jù)較大型的由同類文本組成的語料庫建立的。 大的單詞列 表將為比較提供背景數(shù)據(jù)。文本中的
21、關鍵詞( key words ),是指在兩個單詞列表的比較中得出的那些 在所考察文本中出現(xiàn)頻率突出的詞。 得出的關鍵詞以它們在文本中的出現(xiàn)頻 率的突出程度由高到低排列。KeyWords 的潛在用途包括:語言教學,文體研究,文本內(nèi)容分析,文本歸 檔等。2) KeyWords 的參數(shù)設置 在 Controller 中的 Adjust Settings/KeyWords 選項下,可以對以下的參數(shù)進行設置:a 最大的 P 值。b 關鍵詞列表的最大數(shù)目。(缺省值是500)c 關鍵詞在所考察文本中的最低出現(xiàn)頻率。(缺省值是3 次)3)基本操作過程:你就在 WordSmith Tools Controlle
22、r 窗口中選擇 Tools 選項。 當該選項打開, 會看到 KeyWords 。單擊它, KeyWords 的窗口將打開。按下 按鈕,將出現(xiàn)一個對話框,在對話框選擇一個要進行研究的單詞列 表和一個作為參照的單詞列表。按 OK 按鈕,檢索開始。窗口上出現(xiàn)檢索進行的狀態(tài)條。檢索結束, KeyWords 出現(xiàn)一個窗口顯示關鍵詞列表。如果要保留關鍵詞列表的結果,按 按鈕存盤 。 關鍵詞列表的顯示窗口包括以下內(nèi)容(見下圖): a 每個關鍵詞。b 關鍵詞在所考察的文本中的出現(xiàn)頻率。c 要考察的文本的文件名及百分比。d 關鍵詞在參照文本中的出現(xiàn)頻率。e 參照文本的文件名及百分比。f 關鍵詞的關鍵值。g p 值。4)對關鍵詞列表的結果的編輯:按窗口中的 按紐,將會顯示關鍵詞在文本中的分布圖。每按一次 按紐,關鍵詞列表的結果將會按照下面的順序循環(huán)排序:以關 鍵值為序, 以字母為序, 以在考察文本中的關鍵詞的頻率為序,以在參照文 本中的關鍵詞的頻率為序。III 三個輔助工具主要功能簡紹:4Splitter (文本分割工具)Splitter 的用途是為了文本分析的目的將大的文件分割成小的文本。它通過在大 的文本中插入某個符號,例如 , Splitter 將自動識別這些符號,將大的文 本分割成若干個小文本。5 Text Converter
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 女工三八巧手活動方案
- 學前班觀摩活動方案
- 媒介執(zhí)行充值活動方案
- 頭條畢業(yè)活動策劃方案
- 婚戀公司活動策劃方案
- 女職工書香活動方案
- 學校信用建設活動方案
- 學校撿河道垃圾活動方案
- 婦女關愛活動方案
- 學校洗碗活動方案
- 高中 思想政治 必修1 第一課 社會主義從空想到科學、從理論到實踐的發(fā)展《課時1 原始社會的解體和階級社會的演進》課件
- 自動尋優(yōu)控制系統(tǒng)在生料立磨中的應用實踐
- 土地延期合同范本
- 四川省綿陽市涪城區(qū)2024-2025學年七年級上學期開學考試語文試題(解析版)
- DL∕T 796-2012 風力發(fā)電場安全規(guī)程
- 部編版八年級升九年級歷史暑假預習知識清單(填空+答案)
- 四川省自貢市2023-2024學年七年級下學期期末數(shù)學試題(解析版)
- (正式版)JB∕T 11108-2024 建筑施工機械與設備 筒式柴油打樁錘
- 大型分析儀器原理與應用智慧樹知到期末考試答案章節(jié)答案2024年山東第一醫(yī)科大學
- 企業(yè)員工保密協(xié)議書范本
- 營銷管理培訓生輪崗方案
評論
0/150
提交評論