C++使用正則表達(dá)式的詳細(xì)教程_第1頁(yè)
C++使用正則表達(dá)式的詳細(xì)教程_第2頁(yè)
C++使用正則表達(dá)式的詳細(xì)教程_第3頁(yè)
C++使用正則表達(dá)式的詳細(xì)教程_第4頁(yè)
C++使用正則表達(dá)式的詳細(xì)教程_第5頁(yè)
已閱讀5頁(yè),還剩3頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第C++使用正則表達(dá)式的詳細(xì)教程目錄正則表達(dá)式RE庫(kù)組件正則表達(dá)式的使用regex迭代器類型smatch相關(guān)操作子表達(dá)式子表達(dá)式用于數(shù)據(jù)驗(yàn)證子匹配操作regex_replace總結(jié)

正則表達(dá)式

正則表達(dá)式(regularexpression)是一種描述字符序列的方法,是一種極其強(qiáng)大的計(jì)算工具。

C++正則表達(dá)式庫(kù)(RE庫(kù))定義在regex中,它包含多個(gè)組件。

RE庫(kù)組件

解釋regex表示有一個(gè)正則表達(dá)式的類regex_match將一個(gè)字符序列與一個(gè)正則表達(dá)式匹配regex_search尋找第一個(gè)與正則表達(dá)式匹配的子序列regex_replace使用給定格式替換一個(gè)正則表達(dá)式sregex_iterator迭代器適配器,調(diào)用regex_search來(lái)遍歷一個(gè)string中所有匹配的子串smatch容器類,保存在string中搜索的結(jié)果ssub_matchstring中匹配的子表達(dá)式的結(jié)果

正則表達(dá)式的使用

#includeregex

voidtest()

//查找不是在字符c之后的ei組合存在的單詞

stringpattern("[^c]ei");

pattern="[[:alpha:]]*"+pattern+"[[:alpha:]]*";

regexr(pattern);

smatchresults;

stringtest_str("receiptfreindtheifreceive");

if(regex_search(test_str,results,r))

coutresults.str()endl;//freind

regex迭代器類型

上面的程序只能查找第一個(gè)匹配到的單詞,如果想獲得所有匹配,可以使用sregex_iterator。

for(sregex_iteratorit(test_str.begin(),test_str.end(),r),end_it;it!=end_it;++it){

coutit-str()endl;

輸出:

freind

theif

for循環(huán)中定義了兩個(gè)迭代器,it負(fù)責(zé)尋找匹配的單詞,end_it是一個(gè)空迭代器,起到尾后迭代器的作用。

解引用迭代器會(huì)得到一個(gè)匹配結(jié)果的smatch對(duì)象。

除了得到匹配的smatch對(duì)象以外,還可以得到其上下文。

for(sregex_iteratorit(test_str.begin(),test_str.end(),r),end_it;it!=end_it;++it){

autopos=it-prefix().length();

pos=pos40pos-40:0;

coutit-prefix().str().substr(pos)

"["it-str()"]"

it-suffix().str().substr(0,40)

endl;

輸出:

receipt[freind]theifreceive

[theif]receive

使用prefix和suffix函數(shù)可以得到匹配之前和之后的ssub_match對(duì)象。

smatch相關(guān)操作

解釋m.ready()若已通過(guò)regex_search或regex_match設(shè)置了m,則返回true;否則返回falsem.size()如果匹配失敗,返回0;否則返回最近一次匹配的正則表達(dá)式中子表達(dá)式的數(shù)目m.empty()若m.size()==0,返回truem.prefix()一個(gè)ssub_match對(duì)象,表示當(dāng)前匹配之前的序列m.suffix()一個(gè)ssub_match對(duì)象,表示當(dāng)前匹配之后的部分m.format()格式化輸出m.length(n)第n個(gè)匹配的子表達(dá)式的大小m.position(n)第n個(gè)子表達(dá)式距序列開始的距離m.str(n)第n個(gè)子表達(dá)式匹配的stringm[n]對(duì)應(yīng)第n個(gè)子表達(dá)式的ssub_match對(duì)象m.begin(),m.end()m中sub_match元素范圍的迭代器m.cbegin(),m.cend()m中sub_match元素范圍的常量迭代器

這些操作也適用于cmatch、wsmatch、wcmatch和對(duì)應(yīng)的子匹配對(duì)象。

子表達(dá)式

正則表達(dá)式中的模式通常包含一個(gè)或多個(gè)子表達(dá)式(subexpression)。

一個(gè)子表達(dá)式是模式的一部分,本身也具有意義。

正則表達(dá)式語(yǔ)法同常用小括號(hào)表示子表達(dá)式。

eg:可以使用子表達(dá)式來(lái)匹配文件擴(kuò)展名

regexr("([[:alnum:]]+)\\.(cpp|cxx|cc)$");

現(xiàn)在模式中有兩個(gè)小括號(hào)表示的子表達(dá)式:

([[:alnum:]]+)匹配一個(gè)或多個(gè)數(shù)字字母序列(cpp|cxx|cc)匹配cpp或cxx或cc等擴(kuò)展名

通過(guò)使用str(n)來(lái)打印子表達(dá)式

if(regex_search(filename,results,r))

coutresults.str(1)endl;//打印第一個(gè)子表達(dá)式

參數(shù)0代表整個(gè)對(duì)應(yīng)的匹配,參數(shù)1表示第一個(gè)子表達(dá)式。

如,foo.cpp中,results.str(0)將保存foo.cpp,results.str(1)將保存foo。

子表達(dá)式用于數(shù)據(jù)驗(yàn)證

子表達(dá)式的一個(gè)常見(jiàn)用途是驗(yàn)證必須匹配特定格式的數(shù)據(jù)。

eg:匹配聯(lián)通號(hào)碼

中國(guó)聯(lián)通號(hào)段:130、131、132、145、155、156、166、175、176、185、186、196

使用開源工具Regulex實(shí)現(xiàn)正則表達(dá)式設(shè)計(jì)可視化。

voidtest02()

//匹配聯(lián)通號(hào)碼

stringUnicomNumber("\\b(1)(3[0-2]|[4578]5|[5-9]6)(\\d{4})(\\d{4})\\b");

regexr(UnicomNumber);

stringtestNumbers("1301234567892311234567876021251320000165123456781451234567817612345678");

for(sregex_iteratorit(testNumbers.begin(),testNumbers.end(),r),end_it;it!=end_it;++it){

coutit-str()endl;

結(jié)果:

1451234567817612345678

解釋:

在模式UnicomNumber中,有4個(gè)子表達(dá)式

子表達(dá)式索引號(hào)子表達(dá)式含義子表達(dá)式1(1)匹配1子表達(dá)式2(3[0-2]|[4578]5|[5-9]6)匹配30/31/32/45/55/75/85/56/66/76/86/96子表達(dá)式3(\d{4})匹配任意4個(gè)數(shù)字子表達(dá)式4(\d{4})匹配任意4個(gè)數(shù)字

此外,\b匹配單詞邊界,可以理解為空格與單詞的分界線。\d匹配任意數(shù)字。[]內(nèi)表示多選一,{n}表示匹配n個(gè),子表達(dá)式內(nèi)|表示或。

并且,在正則表達(dá)式語(yǔ)法中\(zhòng)具有轉(zhuǎn)義作用,在C++中也有轉(zhuǎn)義作用,因此,為了得到正則表達(dá)式中的\,需要在string中額外加一個(gè)\。所以我們的表達(dá)式中會(huì)有\(zhòng)\b和\\d。

在正則匹配過(guò)程中,迭代器查找每一個(gè)號(hào)碼,進(jìn)行分析

號(hào)碼分析130123456789多了一位數(shù)字,單詞邊界匹配失敗23112345678子表達(dá)式1匹配失敗7602125子表達(dá)式1匹配失敗1320000子表達(dá)式3匹配失敗(或者說(shuō)是邊界匹配失???)16512345678子表達(dá)式2匹配失配成配成功

子匹配操作

ssub_match的相關(guān)操作

解釋matched一個(gè)publicbool成員,指出此ssub_match是否匹配了first,secondpublic數(shù)據(jù)成員,指向匹配序列首元素和尾后迭代器length()匹配的大小str()匹配的strings=ssub將ssub_match對(duì)象轉(zhuǎn)化為string對(duì)象

添加一段代碼,測(cè)試一下matched成員

for(sregex_iteratorit(testNumbers.begin(),testNumbers.end(),r),end_it;it!=end_it;++it){

coutit-str()endl;

cout"\t"(*it)[4].matchedendl;

結(jié)果

1

1

這里的matched為true表示匹配到了,當(dāng)然,UnicomNumber的子表達(dá)式并非是可選匹配的(用跟在一個(gè)表達(dá)式后表示可以有1個(gè)或0個(gè)該表達(dá)式),所以它的四個(gè)子表達(dá)式全部匹配到了,若是可選表達(dá)式,可能會(huì)出現(xiàn)matched為false的情況。

regex_replace

正則表達(dá)式不僅用在查找給定序列方面,當(dāng)我們想將查找到的序列替換為另一個(gè)序列時(shí),可使用regex_replace。

eg:格式化輸出電話號(hào)碼

voidtest03()

stringUnicomNumber("\\b(1)(3[0-2]|[4578]5|[5-9]6)(\\d{4})(\\d{4})\\b");

regexr(UnicomNumber);

stringfmt="$1$2$3$4";

stringnumbe

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論