



下載本文檔
版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、租房信息專(zhuān)業(yè)搜索引擎項(xiàng)目計(jì)劃書(shū)Group Name: alpacaGroup Member: 駱雄武 陳長(zhǎng)城 楊治國(guó) 陸騰飛一、 項(xiàng)目開(kāi)發(fā)背景衣食住行一直是社會(huì)人賴(lài)以生存和生活的幾大要素。隨著當(dāng)今社會(huì)快速的現(xiàn)代化和城市化,衣、食、行等方面的問(wèn)題已經(jīng)變得十分的容易和便捷,但是,住的問(wèn)題卻猶如一座大山,壓在我們的肩頭,讓我們感覺(jué)越來(lái)越沉重。在一個(gè)現(xiàn)代化的城市中,除去原住民,除去富裕得足以買(mǎi)得起一座房子的和能夠幸運(yùn)的得到公司或者單位分房的人,其余的相當(dāng)大的一部分人基本上要靠租房來(lái)解決住的問(wèn)題。但是,實(shí)際中關(guān)于住房出租的信息,稀少而且混亂,對(duì)于一個(gè)急切想要租到一套適合自己需求的住房的人來(lái)說(shuō),這顯然是十
2、分困難和不便的。有租房需求的主要是這樣一些群體:剛剛開(kāi)始工作的尚無(wú)多少積蓄的工薪階層;已工作多年但是仍無(wú)力購(gòu)買(mǎi)任何形式住房的低收入階層;準(zhǔn)備考研或其它各種考試的部分大學(xué)生群體;相當(dāng)一部分的研究生群體。這些人占據(jù)了城市生活的相當(dāng)重要的一角。另一方面,隨著信息技術(shù)的飛速發(fā)展,人們?cè)缫蚜?xí)慣于在網(wǎng)上找尋自己需要的信息,尤其是通過(guò)搜索引擎來(lái)從海量的信息中提取自己關(guān)注的部分。結(jié)合上面兩部分因素,我們便自然的產(chǎn)生了開(kāi)發(fā)這樣一個(gè)租房信息的專(zhuān)業(yè)搜索引擎的想法,主要是為了服務(wù)于相當(dāng)一部分的有租房需求的人群。二、 項(xiàng)目需求分析1. 系統(tǒng)目標(biāo)本系統(tǒng)的目標(biāo)就是:為所有需要獲取租房信息的人,提供最全面的信息,最便捷的方式
3、,使得網(wǎng)絡(luò)搜索引擎真正成為最值得信賴(lài)的信息來(lái)源。這里的租房信息可以包括網(wǎng)絡(luò)上現(xiàn)有的所有比較可靠的網(wǎng)站和論壇上發(fā)布的信息,也包括和本搜索引擎具有合作關(guān)系的房產(chǎn)中介所提供的信息。這些信息原本散布于各個(gè)網(wǎng)站的邊角或者張貼于大街小巷的隱蔽位置,本系統(tǒng)正是需要有效的整合這些渠道的各種信息,最大可能的提供最有價(jià)值的租房信息。本系統(tǒng)的提出主要針對(duì)傳統(tǒng)租房信息獲取渠道的不便捷性,即 :需要耗費(fèi)大量的精力和物力來(lái)獲取信息,以及現(xiàn)有網(wǎng)絡(luò)租房信息獲取渠道的不完備性,即:信息的非有效性整合和信息的分布不一致性。同時(shí),本系統(tǒng)又吸收先有信息渠道的長(zhǎng)處,做以擴(kuò)展。2. 系統(tǒng)功能1) 信息的抓取從我們關(guān)注的可能會(huì)發(fā)布租房信息
4、的網(wǎng)站和論壇抓取它們的網(wǎng)頁(yè),并以一定格式提取抓下來(lái)的網(wǎng)頁(yè)中的有效信息。2) 信息的處理和存放對(duì)于提取來(lái)的文本信息,進(jìn)行切分分詞、添加標(biāo)簽、詞頻統(tǒng)計(jì),并據(jù)此建立全文索引。3) 信息的檢索接收用戶(hù)輸入的搜索條件,對(duì)其進(jìn)行分析處理,然后在索引中進(jìn)行查詢(xún)匹配,從本地?cái)?shù)據(jù)庫(kù)中提取所有符合條件的信息。4) 返回結(jié)果給用戶(hù)1 / 4將提取的信息排序后,以結(jié)果頁(yè)面的形式呈現(xiàn)給用戶(hù)。3. 系統(tǒng)結(jié)構(gòu)模塊系統(tǒng)總體框架如下圖所示:圖14. 系統(tǒng)用例圖圖25. 系統(tǒng)性能要求1) 響應(yīng)時(shí)間系統(tǒng)的響應(yīng)速度應(yīng)該在用戶(hù)可接受的范圍之內(nèi),至少與現(xiàn)有各種搜索引擎相當(dāng)。這點(diǎn)要求我們必須建立結(jié)構(gòu)合理的索引以及設(shè)計(jì)高效準(zhǔn)確的查詢(xún)、搜索算
5、法。2) 結(jié)果的準(zhǔn)確性和合理性對(duì)于用戶(hù)輸入的搜索條件,返回的結(jié)果應(yīng)該盡可能的和他期望的保持一致,并且越接近的余越應(yīng)先被用戶(hù)看到。這涉及到網(wǎng)頁(yè)信息提取、索引建立、條件匹配、結(jié)果排序等問(wèn)題。3) 時(shí)效性用戶(hù)希望看到的是越新的信息越好,過(guò)時(shí)的租房信息對(duì)于用戶(hù)來(lái)說(shuō)沒(méi)有價(jià)值或者只有很小的參考價(jià)值。這要求我們盡可能頻繁的對(duì)網(wǎng)站進(jìn)行抓取,然后分析,另一方面,在將結(jié)果呈現(xiàn)給用戶(hù)的時(shí)候,排序也要考慮到時(shí)間因素,即越新的信息要越排在前面。4) 靈活性系統(tǒng)要有良好的接口,便于后面的擴(kuò)充,以適應(yīng)信息源的增加或者減少;要留有服務(wù)器接口,以實(shí)現(xiàn)后面服務(wù)器功能的需要;要具有跨平臺(tái)功能。5) 其它要求用戶(hù)界面友好,運(yùn)行穩(wěn)定。
6、三、 項(xiàng)目開(kāi)發(fā)計(jì)劃1. 開(kāi)發(fā)規(guī)模計(jì)劃由于本項(xiàng)目是作為課程作業(yè)來(lái)做的,受到時(shí)間和人力等方面的約束,我們?cè)趯?shí)際開(kāi)發(fā)中只能減小問(wèn)題的規(guī)模,開(kāi)發(fā)一個(gè)demo程序的原型系統(tǒng)。初步計(jì)劃是,抓取網(wǎng)頁(yè)只在北大未名和水木清華兩大bbs的相關(guān)版面進(jìn)行。在此基礎(chǔ)上進(jìn)行網(wǎng)頁(yè)信息的提取,分詞,建立索引,然后實(shí)現(xiàn)對(duì)輸入關(guān)鍵詞的解析,匹配查詢(xún),結(jié)果排序,返回到頁(yè)面顯示等工作,從而完成概念上的實(shí)現(xiàn),給出初步的系統(tǒng)原型。2. 初步開(kāi)發(fā)計(jì)劃1) 界面類(lèi)似于baidu和google的界面,用戶(hù)可以輸入搜索條件,點(diǎn)擊搜索按鈕后,下面排列出符合條件的結(jié)果。稍微不同的是,由于租房信息跟地域(城市、地區(qū))緊密相關(guān),所以在用戶(hù)輸入搜索條件前
7、,要先讓用戶(hù)選定一個(gè)地區(qū),然后再進(jìn)行搜索。這里我們僅考慮北京市城區(qū)。2) 后臺(tái)初步考慮分為以下幾個(gè)模塊:A. 網(wǎng)頁(yè)抓取模塊:對(duì)北大未名和水木清華兩大bbs相關(guān)版面,利用crawler進(jìn)行抓取。B. 網(wǎng)頁(yè)分析模塊:提取網(wǎng)頁(yè)中有用的信息,保存為文本格式。C. 網(wǎng)頁(yè)分段模塊:采用合適的分段技術(shù),將每個(gè)文本分成多段。D. 索引建立模塊:對(duì)分好的段進(jìn)行分詞、標(biāo)注、詞頻統(tǒng)計(jì)等工作,建立全文索引。E. 查詢(xún)匹配:將用戶(hù)輸入的關(guān)鍵詞,采用合適的查找算法與索引進(jìn)行逐一匹配,將符合的內(nèi)容提取出來(lái),返回到界面。F. 排序:考慮相似度和時(shí)間等因素,將結(jié)果越接近,時(shí)間越新的內(nèi)容排到前面。3. 開(kāi)發(fā)進(jìn)度計(jì)劃項(xiàng)目開(kāi)發(fā)周期40天,具體安排如下:時(shí)間工作11月11日-11月16日各人搜集idea11月16日-11月17日小組討論,確定idea11月18日-11月20日完成項(xiàng)目計(jì)劃書(shū)11月21日-11月27日小組成員分工,并根據(jù)分工自己去學(xué)習(xí)、查閱相關(guān)的資料,了解實(shí)現(xiàn)機(jī)制11月28日-11月30日討論,給出系統(tǒng)總體框架和模塊劃分,設(shè)計(jì)各
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 計(jì)算機(jī)網(wǎng)絡(luò)安全管理的關(guān)鍵要素試題及答案
- 機(jī)電工程環(huán)保實(shí)踐考核及試題及答案
- 行政組織理論與經(jīng)濟(jì)聯(lián)系的試題及答案
- 數(shù)據(jù)庫(kù)使用技巧試題及答案分享
- 了解嵌入式系統(tǒng)開(kāi)發(fā)考試試題及答案要點(diǎn)
- 公路調(diào)流設(shè)計(jì)試題及答案詳解
- 網(wǎng)絡(luò)技術(shù)考試的復(fù)習(xí)內(nèi)容要點(diǎn)試題及答案
- 關(guān)系數(shù)據(jù)庫(kù)操作技巧試題及答案
- 數(shù)據(jù)庫(kù)考試全面提升技巧試題及答案
- 公共政策中的社會(huì)責(zé)任感構(gòu)建試題及答案
- 2024年大型主題公園設(shè)計(jì)與施工合同
- 【MOOC】政府審計(jì)學(xué)-南京審計(jì)大學(xué) 中國(guó)大學(xué)慕課MOOC答案
- 污水處理廠安全生產(chǎn)培訓(xùn)
- 婦科藥品管理
- 【MOOC】電路分析基礎(chǔ)-北京科技大學(xué) 中國(guó)大學(xué)慕課MOOC答案
- 《非織造產(chǎn)品課程設(shè)計(jì)》課程教學(xué)大綱
- 2024年第一季度醫(yī)療安全(不良)事件分析報(bào)告
- DB51-T 5048-2017 四川省地基與基礎(chǔ)施工工藝規(guī)程
- 高級(jí)廚師用工合同書(shū)模板
- 安寧療護(hù)舒適照護(hù)
- 磁芯材料磁性及損耗測(cè)試方法
評(píng)論
0/150
提交評(píng)論