



下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
phpes短語精確搜索,Elasticsearch:在搜索引擎中如何實(shí)現(xiàn)完全匹配(內(nèi)容精確。。。本?地址:在有搜索引擎之前,我們查?檔常使?順序匹配。?如要搜索"我的祖國是花園",需要在?檔中順序掃描,找到完全匹配的?句。在有了搜索引擎后,我們對(duì)查詢語句做的處理就不?樣了。我們通常會(huì)先分詞,然后查找對(duì)應(yīng)的詞條索引,最后得到評(píng)分由?到低的?檔列表。我?度以為沒法實(shí)現(xiàn)完全匹配了,直到?個(gè)硬需求的出現(xiàn)。花了?天時(shí)間,把完全匹配?搜索引擎的思維整理出來。簡(jiǎn)要描述實(shí)現(xiàn)思路,字段按?字?詞的形式分詞,再利?短語查詢來搜索。ES中,可以實(shí)現(xiàn)?字?詞的的分詞器是NGram。它其實(shí)是?個(gè)上下?相連續(xù)字符的分詞?具,可以看官??檔中的例?。當(dāng)我們將它min_gram和max_gram都設(shè)為1時(shí),它會(huì)按?字?詞的形式分詞。?如“shinyke@189.cn”,分詞的結(jié)果是["s","h","i","n","y","k","e","@","1","8","9",".","c","n"]。/index_name/{"settings":{"analysis":{"analyzer":{"charSplit":{"type":"custom","tokenizer":"ngram_tokenizer"}},"tokenizer":{"ngram_tokenizer":{"type":"nGram","min_gram":"1","max_gram":"1","token_chars":["letter","digit","punctuation"]}}}
}}以上語句中,構(gòu)建了?個(gè)名為“charSplit”的分析器。它使??個(gè)名為“ngram_tokenizer”的Ngram分詞器??梢?如下語句測(cè)試charSplit分析器,可以看到?字?詞的效果:"測(cè)試語句"把這個(gè)分析器在mapping??起來:..."sender":{"type":"string","store":"yes","analyzer":"charSplit","fields":{"raw":{"type":"string","index":"not_analyzed"}},...接下來就可以?match_phrase來實(shí)現(xiàn)完全匹配查詢。/{index_name}/{type_name}/_search{"query":{"multi_match":{"query":"@189.cn","type":"phrase",//type指定為phrase"slop":0,//slop指定每個(gè)相鄰詞之間允許相隔多遠(yuǎn)。此處設(shè)置為0,以實(shí)現(xiàn)完全匹配。"fields":["sender"],"analyzer":"charSplit",//分析器指定為charSplit"max_expansions":1}},
"highlight":{//測(cè)試?亮是否正常"pre_tags":[""],"post_tags":[""],"fragment_size":100,"number_of_fragments":2,"require_field_match":true,"fields":{"sender":{}}}}phrase查詢?cè)嫉淖?是?來做短語查詢,它有?個(gè)重要的特點(diǎn):有順序。我們利?了它匹配的有序性,限制slop為0,則可實(shí)現(xiàn)完全匹配查詢。以上語句返回的結(jié)果是:{"took":18,"timed_out":false,"_shards":{"total":9,"successful":9,"failed":0},"hits":{"total":1,"max_score":0.40239456,"hits":[{"_index":"index_name","_type":"type_name","_id":"AU9OLIGOZN4dLecgyoKp","_score":0.40239456,
"_source":{"sender":lt189.cn>,李X<189.cn>,秦X<189.cn>,劉X<189.cn>"},"highlight":{"sender":[lt@189.cn>,李X<@189.cn>,秦純X<@189.cn>,劉X<189773140"]}}]}}到此,就實(shí)現(xiàn)了完全匹配查詢。實(shí)際環(huán)境中?NGram做?字?詞
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 四年級(jí)語文上冊(cè) 第七單元學(xué)習(xí)計(jì)劃
- 精神疾病患者監(jiān)護(hù)權(quán)變更后探視權(quán)中止及康復(fù)協(xié)議
- 2025年運(yùn)載火箭吊裝設(shè)備項(xiàng)目規(guī)劃申請(qǐng)報(bào)告模板
- 2025年醫(yī)療、外科及獸醫(yī)用器械項(xiàng)目立項(xiàng)申請(qǐng)報(bào)告模板
- 2025年碳酸二乙酯項(xiàng)目提案報(bào)告
- 2025年醫(yī)院外科醫(yī)療服務(wù)提升計(jì)劃
- 硅膠材料采購協(xié)議
- 食堂作風(fēng)建設(shè)協(xié)議
- 車位出租市場(chǎng)調(diào)查協(xié)議
- 2025-2030中國塑膠家具行業(yè)市場(chǎng)現(xiàn)狀供需分析及投資評(píng)估規(guī)劃分析研究報(bào)告
- 電網(wǎng)工程設(shè)備材料信息參考價(jià)2025年第一季度
- 江蘇南京茉莉環(huán)境投資有限公司招聘筆試題庫2025
- 吸氧并發(fā)癥預(yù)防及處理
- 針刺傷預(yù)防與處理(中華護(hù)理學(xué)會(huì)團(tuán)體標(biāo)準(zhǔn))
- 2024年安徽省初中學(xué)業(yè)水平考試生物試題含答案
- 2024年浙江省中考英語試題卷(含答案解析)
- MOOC 理解馬克思-南京大學(xué) 中國大學(xué)慕課答案
- 說明書hid500系列變頻調(diào)速器使用說明書s1.1(1)
- RTO處理工藝PFD計(jì)算
- 最美中鋁人申報(bào)表
- 柑橘采摘機(jī)器人的結(jié)構(gòu)設(shè)計(jì)說明書
評(píng)論
0/150
提交評(píng)論