




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、題目“拍照賺錢”任務定價問題研究本文針對拍照任務定價問題,通過對影響定價因素的研究,建立了線性回歸模型、 單任務點定價模型、基于支持向量機的判別預測模型和基于聚類與圖論的打包定價模 型,運用matlab> mintab和excel進行求解,并評價了實施效果。針對問題一,建立了線性回歸模型。我們首先將附件一的數(shù)據(jù)轉(zhuǎn)換為散點圖,從整 體上觀察價格分布情況,定性分析任務價格分布規(guī)律,然后利用聚類分析,計算聚類屮 心,接著利用線性回歸模型得到任務點價格與類中心輻射半徑廠的線性關(guān)系p = kr + b, 即每遠離屮心坐標1千米,任務價格上升k元。最后通過研究已完成與未完成任務點的 數(shù)據(jù)分布差異性,
2、找出了任務點未完成的原因。針對問題二,建立了單任務點定價模型和基于支持向量機的判別預測模型。我們首 先根據(jù)問題一得到的定價規(guī)律,將原基礎價分為基礎成本價和經(jīng)濟變動價,其屮經(jīng)濟變 動價是由當?shù)氐慕?jīng)濟水平?jīng)Q定。然后綜合考慮路程與任務周邊會員分布情況,結(jié)合基礎 價、路程價與會員增值價確立了單任務點定價模型。最后為了檢驗定價模型的合理性, 建立了基于支持向量機的判別預測模型,運用matlab求解得出重新標價后任務完成率提 高 16. 2%.針對問題三,建立了基于聚類與圖論的打包定價模型。首先,我們限制聚類的條件 確定了任務包的數(shù)量,然后將會員與任務包看成完全圖,利用模擬退火算法求得最短回 路,旨在提高
3、單位路程收益率,確定了任務包的總價格,與問題二相比成本節(jié)約了 17. 2%, 任務完成率提高了 1.95%.針對問題四,我們首先通過附件三所提供的新任務的位置坐標,得到其周邊會員的 分布狀況,并分別帶入單任務點定價模型和基于聚類與圖論的打包定價模型進行計算。 然后比較兩方案的結(jié)果,發(fā)現(xiàn)多任務聯(lián)合打包發(fā)布的定價方案,在任務定價總金額上比 單任務點節(jié)省了 22. 39%,并且任務完成率提高了 12. 49%.關(guān)鍵字線性回歸模型支持向量機模型層次聚類1問題的重述“拍照賺錢”是基于互聯(lián)網(wǎng)移動智能終端下的一種自助服務模式。用戶下載app, 注冊成為會員用戶,通過從app上領(lǐng)取拍照任務(比如去某百貨超市檢
4、查某品牌商品 的上架情況),賺取相應的酬金。這種基于移動智能終端互聯(lián)網(wǎng)的自助勞務眾包平臺, 可以為企業(yè)、商家提供多種商業(yè)檢查任務以及商業(yè)信息搜集任務,相比于傳統(tǒng)的調(diào)查方 式,這種眾包服務可以節(jié)省人量調(diào)查成本,而且可以有效保證調(diào)查數(shù)據(jù)的真實性,縮短 調(diào)查的調(diào)查周期。對于此平臺來說,移動智能終端上的app軟件是該平臺運行的核心, 而app軟件中,任務定價又是其完成任務的核心要素。如果任務定價不合理,部分任 務就會無人問津,從而導致商業(yè)檢查任務以及商業(yè)信息搜集任務的失敗。結(jié)合題目中給 出的附件,我們需要討論完成下面的問題。問題一:研究題目給出的附件一中的數(shù)據(jù),附件一包含一組已結(jié)束的任務數(shù)據(jù),包 括每
5、個任務的地理位置、任務定價和任務完成情況(“1”表示任務完成,“0”表示任務 未完成)。我們需要根據(jù)任務的經(jīng)緯度位置,挖掘經(jīng)緯度位置背后隱藏的信息,進而研 究項目的任務定價規(guī)律,再結(jié)合任務完成情況分析任務未完成的原因。問題二:考慮題目給出的附件二,附件二是會員信息數(shù)據(jù),包含了會員的位置、信 譽值、參考其信譽給岀了會員接受任務開始預訂時間和任務預訂限額,會員信譽越高, 越可以優(yōu)先開始挑選任務,且其任務配額也就越大。以這些數(shù)據(jù)為基礎,我們要為附件 一中的任務設計新的任務綜合定價方案,并和舊方案進行對比。問題三:實際情況下,多個任務在相對集中的位置發(fā)布,可能會導致用戶會爭相預 定,有一種考慮是把這些
6、位置接近的任務捆綁在一起打包發(fā)布。在這種考慮下,我們需 要修改前面的任務定價模型,分析新的定價模型對最終的任務完成度的影響。問題四:結(jié)合題目給出附件三,附件三是一個新的檢查項目任務數(shù)據(jù),只有任務的 位置信息。我們需要通過對地理位置信息的深度挖掘,獲得更多的任務信息,并對附件 三中的新項目給出新的任務定價方案,并從多方面評價該方案的實施效果。2模型的假設(1)假設會員信譽值越高,會員接單可能性越大;(2)假設會員在某時刻選擇不接單,一段時間后,才會再次選擇是否接單;(3)假設app上發(fā)布的任務難度上處于同一水平;(4)假設在其余情況相同的條件下,會員挑單的順序按照信譽值高低排序選擇;(5)假設會
7、員選擇任務時,會以利益為導向,優(yōu)先選擇單位距離收益率高的任務;(6)假設打包任務完成,代表任務包內(nèi)全部任務完成。3符號說明符號說明dx, y)類與類之間的距離d(x. y)歐幾里得距離公式arg min f(x)使得函數(shù)/(x)取得其最小值的所有自變量x的集合l表示損失函數(shù)符號說明p價格圈內(nèi)(圓形或環(huán)形區(qū)域)內(nèi)的平均價格pi每個任務的價格p任務標價p新制定的任務標價片基礎價p.路程價呂會員增值價p1改進后的基礎價格h表示將兩類樣本正確分開的超平面w參數(shù)向量,即超平面的法向量q任務包內(nèi)所有任務總定價和4模型的建立與求解4.1問題一的分析與求解4. 1. 1問題一的分析為了研究附件一中項目的任務定
8、價規(guī)律,我們先分析附件一中任務的經(jīng)緯度數(shù)據(jù), 這些數(shù)據(jù)確定了各個任務點的具體位置,然后收集了這些位置的相關(guān)信息,包括人口、 地形、交通、地區(qū)經(jīng)濟發(fā)展水平、地區(qū)特色等。先從整體上觀察價格分布情況,發(fā)現(xiàn)其價格分布大致是以某些低價點為中心呈放射 狀逐步提升的,再利用精確的數(shù)值計算驗證這種規(guī)律的存在性。從數(shù)據(jù)分析的角度,為 了能對各個位置的任務的標價給出一個更準確、細致的分類,我們采用聚類分析。首先 利用層次聚類分析找岀分布的兒個低價中心,然后將高的價格按照低價的聚類中心逐步 聚類,研究每類任務點價格與類中心的距離關(guān)系,最后利用最小二乘法擬合,得到任務 定價與距心半徑的關(guān)系曲線圖。我們通過研究已完成的
9、任務點與未完成的任務點的數(shù)據(jù)分布差異性,找岀了任務點 未完成的原因。4.1.2問題一的模型準備(1)整體情形通過分析所有任務的標價,制作價格的分布圖(圖4-1-1),我們觀察發(fā)現(xiàn),價格的 變化呈現(xiàn)這樣一種態(tài)勢:整體上存在幾個半徑有限的價格輻射圈,能覆蓋整個區(qū)域,價 格圈從中心往外輻射,價格逐漸增加。幾個價格輻射圈可能相互獨立,也可能互有交叉。圖4-1-1所有任務價格分布圖(2) 局部情形前文是通過全局窺探定價規(guī)律,下面我們再從區(qū)域出發(fā),進一步分析價格的形成機 制,選擇東莞市作為一個樣本,在東莞市有179個任務位置,把東莞市任務的定價分成六類,在地圖上對應分布,如圖4-l-2o+x&山3
10、壬臺山風皿75 - 85& o °°mull餅伽入66-5 - 68.5如-70.570.$ 72.572.5 * 7565 - 66.5圖4-1-2東莞市任務標價分布圖由上圖,我們可知,東莞市任務標價分布圖可以呈現(xiàn)為一個由中心向外逐步遞增的 輻射圖。由此,我們發(fā)現(xiàn)東莞市拍照賺錢的任務定價規(guī)律為:城市屮心圈,即城市屮心五公里內(nèi)任務標價在65-685之間,在距離城市中心5公里和10公里內(nèi)的環(huán)形區(qū)域內(nèi) 任務標價在6& 5-72. 5之間,在距離城市中心10公里以外的區(qū)域內(nèi)任務標價在72. 5-85之間。4.1.3問題一的模型建立(1)層次聚類分析聚類分析是要用數(shù)
11、量化的方法對事物進行分類,就必須用數(shù)量化的方法描述事物之 間的相似程度。聚類分析采用一種“貫穿”的方式按照一定的順序進行,逐個掃描數(shù)據(jù) 并確定類屮心,再基于一定的標準把觀測量分到相應的各類中。我們以經(jīng)緯度位置為依 據(jù)確定樣本間的相似度。首先,我們選擇歐幾里得(euclid ) 離度量樣本點間的相似程度,計算公式幵丄如,y) = £l 忑一 鬥2.k=l然后,使用最長距離法來測量類與類之間的距離,即o,y) = maxo,y), 它的直觀意義是兩個類種最遠兩點間的距離。最后,在mintab中利用層次聚類,選擇相似度指數(shù)為99.5,先從標價為65元的任務 點開始聚類,得到四個類中心,如下
12、表,在地圖上定位岀具體坐標。表4-1-1類中心經(jīng)緯度及具體位置類中心緯度經(jīng)度具體位置123. 032979113.127594佛山市禪城區(qū)朝安北路6號鋪中石化223. 125205113.295135廣州市越秀區(qū)寺右新馬路82號松崗小區(qū)323. 044353113. 770294東莞市天寶路5大地大廈422. 541733113.940582深圳市南山區(qū)粵海街道高新區(qū)聯(lián)想大廈我們根據(jù)經(jīng)緯度位置定位出類屮心1為工業(yè)區(qū),類屮心2處于住宅區(qū)和學校區(qū),類屮 心3處于商業(yè)中心圈,類中心4是科技園區(qū)。進一步地,通過查閱數(shù)據(jù),得到類中心1的 人均gdp比較小,經(jīng)濟發(fā)展水平低,其他三類中心的人均gdp大,經(jīng)濟
13、水平高。但這 四類屮心的任務定價都是在65元,故我們推測附件一在定價時可能并未考慮經(jīng)濟影響因 素,這也可能是造成深圳市任務完成率低的一個原因。(2)計算價格分布數(shù)列通過前面的分析,我們發(fā)現(xiàn)任務的價格大致是以這四個類中心為圓心,向外輻射, 隨著輻射半徑的増加,價格不斷增加。針對某個聚類屮心h來說,我們令數(shù)列色表示與 中心h點的距離在w/ + 1)內(nèi)的所有任務點的價格均值。以同樣的辦法算出四個類的價 格分布數(shù)列,用excel表格畫出這些數(shù)列的散點折線圖(圖4-1-3)得到任務定價與輻射半 徑的關(guān)系。圖4-1-3任務定價與輻射半徑的關(guān)系由此,我們發(fā)現(xiàn)拍照賺錢的任務定價規(guī)律為:每個城市都對任務有一個基
14、礎標價, 隨著輻射半徑拉大,即輻射半徑的增加,路程價不斷增加。四個城市的類中心的基礎標 價有差異,隨著距離的增加,其上升趨勢也有所不同。(3)最小二乘法擬合曲線我們用最小二乘法擬合曲線,通過最小化誤差的平方和尋找數(shù)據(jù)的最佳函數(shù)匹配, 簡便地求得未知的數(shù)據(jù),并使得這些求得的數(shù)據(jù)與實際數(shù)據(jù)z間誤差的平方和為最小。 使用最小二乘法來求線性回歸損失函數(shù)最優(yōu)解,本題假設線性回歸數(shù)據(jù)集屮特征與結(jié)果 存在著線性關(guān)系y = kx+b,使用平方差來衡量估計值與真實值得誤差(如果只用差值就 可能會存在負數(shù));定義用于計算真實值與預測值的誤差的函數(shù)為平方損失函數(shù),這里 用厶表示損失函數(shù)厶=(幾-(優(yōu)+")
15、2,整個數(shù)據(jù)集上的平均損失為1 n厶二亦工£(幾,/(兀,x),八 /j=l我們要求得最匹配的加與c使得厶最小,數(shù)學表達式可以表示為1 narg min 一工,f(xn,bn s刃心這里,arg min /(x)是指使得函數(shù)/(x)取得其最小值的所有自變量兀的集合。我們利用z前求得的價格分布數(shù)列,以廣州市和深圳市為例,擬合岀廣州市和深圳 市價格分布與輻射半徑的回歸方程分別為y = 0.4182x+64.16,>' = 0.3695x + 70.16.其擬合線圖分別是圖4-1-8和圖4-l-9o它們的r-sq(調(diào)整)'90%,故兩條曲線的擬合 效果極佳。廣州市任務
16、標價與輻射半徑擬合線圖y= 64.16 + 0.4182x858075-7001020304050輻射半徑(km)65圖4-1-4廣州市任務標價與輻射半徑擬合線圖86848280787674-72深圳市任務標價與輻射半徑擬合線圖y= 70.06 + 0.3695x510152025303540輻射半徑(km )圖4-1-5深圳市任務標價與輻射半徑擬合線圖根據(jù)我們擬合出的任務標價與輻射半徑的直線方程,我們可以確定廣州市的任務基 礎價格為64. 156元,單位距離上的路程價格為0.4182元,深圳市的任務基礎價格為 70. 16元,單位距離上的路程價格為0. 3695元。我們擬合出直線方程,在某種
17、程度上驗證了我們在剛開始模型準備中的猜想是正確 合理的,所以我們就找到了附件一中的任務定價規(guī)律為:每個任務點價格與中心輻射半 徑呈線性關(guān)系,即每遠離中心坐標1千米,任務價格上升0. 2-0.4元。4.1.4未完成情況原因分析從總體來看,附件中一共835項任務,其中已完成的任務有522項,占比62.515%, 各個價格區(qū)間段的任務完成數(shù)量如圖4-1-6。從統(tǒng)計學角度來看,一個任務是否能完成 的概率會受到城市地區(qū)經(jīng)濟水平、任務點周圍會員狀態(tài)等指標因素的影響。450400350300 -250200150100 -50075-8565-6767.5-69.570-7272.5-74.5圖4-1-6任
18、務完成數(shù)量及任務總數(shù)圖圖4-1-7任務完成情況分布圖(3完成個數(shù)未完成個數(shù)觀察圖4-1-7,可以發(fā)現(xiàn),四個不同市區(qū)內(nèi)的任務完成情況有著明顯的不同,廣州 市、佛山市區(qū)域已完成的任務點和未完成的任務點數(shù)量相近,而東莞市絕大部分任務點 都已完成、深圳市大部分任務點未完成。一方面,就城市的經(jīng)緯度位置而言,東莞市位于廣東省的中部,經(jīng)濟發(fā)展處于中等 水平、交通較為便利、人口較為密集,城市繁榮度處于中等水平,所以綜合而言,東莞 市的定價可能處于人們理想價格水平及其以上,即東莞市的任務定價可能是合理的,也 可能過高,故東莞市的完成率比較低。廣州和深圳位于廣東省的北部和南部,經(jīng)濟發(fā)展水平高,交通便利,人口密集,
19、進 而城市繁榮度高,正因為如此,人們不滿足任務的定價,認為收益過低,故造成廣東和 深圳完成率低的原因可能是地區(qū)經(jīng)濟繁榮但任務標價低。對佛山而言,佛山位于廣東省的四部,佛山經(jīng)濟發(fā)展水平低,交通不便利,人口數(shù) 量處于中等水平,進而城市繁榮度低。故造成佛山完成率低的原因可能是地區(qū)經(jīng)濟不繁 榮,任務標價低等。(2) 任務點周圍會員情況我們假設一個會員的服務范圍是方圓3千米,現(xiàn)統(tǒng)計四個城市的任務完成狀況以及會員分布情況,并計算統(tǒng)計量,如平均數(shù)、 表4-1-2羅中位數(shù)、方差等, e計量數(shù)據(jù)圖定量分析未完成的原因。因素分析統(tǒng)計量完成未完成平均數(shù)5413會員人數(shù)方差1417. 3466. 13屮位數(shù)4523平
20、均距離平均數(shù)2. 302. 95(會員與任務點z間)方差 中位數(shù)0. 293. 040. 733. 10平均223. 13210. 44平均信譽方差97220. 37286449. 08中位數(shù)10&0163. 29平均數(shù)6. 111.25信譽中位數(shù)方差55. 721.53中位數(shù)1.991.63平均數(shù)27. 3524. 55平均單位收益方差229. 24292. 54中位數(shù)22. 1221.93 會員人數(shù)的原因分析完成的任務點和未完成的任務點附近的會員分布狀況,完成的任務點附近方圓 五公里平均會員人數(shù)集中在17人左右,而未完成的任務點附近平均會員人數(shù)集中在23 人左右,口未完成的任務點會
21、員人數(shù)的方差遠小于完成任務點人數(shù)的方差。所以,有些 地域任務未完成很可能是因為這部分地區(qū)會員人數(shù)過低,任務過多?;蛘叩赜虻靥幤h, 路程距離城市屮心過遠,交通不便,區(qū)域附近沒有會員或者會員很少,所以任務的完成 率較低。 會員信譽度的原因在完成的任務點上,會員的信譽度平均數(shù),中位數(shù)都遠高于未完成的任務點。所以,有些地域任務未完成很可能是因為這部分地區(qū)會員信譽度低,對任務接受的意愿以及完 成態(tài)度都有所欠缺。 會員收益率的原因根據(jù)單位距離上會員收益率的差異,一方面,會員會傾向選擇那些收益率高的任務, 另一方面,地區(qū)經(jīng)濟發(fā)展繁榮,普通的收益滿足不了會員的需求,任務對會員沒什么吸 引力,這些都是造成任務
22、未完成的原因。4. 2問題二的分析與求解4.2.1問題二的分析問題一中,我們已經(jīng)研究出項冃的定價規(guī)律為ykx + b又根據(jù)分析的未完成原 因,發(fā)現(xiàn)附件一在制定基礎價格時未考慮當?shù)氐慕?jīng)濟因素。我們先從基礎成本價和經(jīng)濟 變動價兩個角度調(diào)整任務點的基礎價格b.又因為任務點附近的會員分布狀況也會影響 任務完成率,因此我們計劃用會員增值價調(diào)控任務點的整體價格,以保證任務的完成率 達到一個較高水平,這樣,我們就得到了定價方案。為了與原方案進行比較,我們需要先做一個判別模型預測在新的定價方案下的任務 完成情況,在此之前需要把每個任務分配給會員。因此我們先設置任務的分配機制,再 建立支持向量機的判別預測的分類
23、器判斷任務的完成情況。4.2.2問題二的任務定價我們在本問中重新考慮任務基礎價,并增加會員增值價,基礎價是任務最低的定價, 會員增值價是考慮會員的人數(shù)、信譽度等綜合因素,提高任務的價格,新任務定價是由 基礎價、路程價和會員增值價共同決定?;A價65元路程價格會員人數(shù),信譽度、基礎成木價經(jīng)濟變動價格改進基礎價路程價格會員增值價新的任務標價 會員接單意愿等圖4-2-1定價流程圖(1)基礎價p】在問題一中,以標價為65元的任務點為中心聚類,聚成四類,四類恰好在四個城 市,四個城市中心基礎價總和為260元,我們保持基礎價總和不變。基礎價的確定與經(jīng) 濟發(fā)展指標緊密相連,隨著經(jīng)濟的繁榮發(fā)展,任務的基礎價格
24、會隨之發(fā)生變化。我們把 原來的基礎價格65元看作是兩部分,一部分為基礎成本價,另一部分為區(qū)域經(jīng)濟水平 引起價格變動,即隨著經(jīng)濟的發(fā)展,經(jīng)濟變動價格逐漸上升,取標價為65元的基礎價 屮50元為基礎成本價,15元為區(qū)域經(jīng)濟變動價格,此時的經(jīng)濟發(fā)展程度可以看做是四 個城市的平均水平?;拘r工資在一定程度上展示了經(jīng)濟的發(fā)展水平,政府為了實現(xiàn)宏觀上的相對公 平,為群眾設置了基本工資,保證了人們的既得利益。工資水平與經(jīng)濟狀況緊密相關(guān), 我們查得2017年廣東省四市的基木小時工資,四市平均水平為16. 65元/小時。下面計19 5算新的基礎價格,以深圳市為例,改進后的基礎價為xl5 + 5o = 67.5
25、7元16.65表4-2-1四市基木小時工資和改進后的基礎價深圳市廣州市佛山市東莞市基本小時工資(元/小時)19. 51&314.414.4基礎價格(元)67. 5766. 4962. 9762. 97(2)路程價£我們在本題中類中心不變,位置不變,故單位距離上的收益率不變,比如我們在問 題一中,求出的廣州市和深圳市單位距離上的路程價格分別為0.4182元和0. 3695元, 佛山市的單位距離上的路程價格為0.2937元,東莞市的單位距離上的路程價格為 0. 3023元,在本題中我們確定的路程價格與問題一中一樣。(3)會員增值價呂每個會員所處位置3千米內(nèi)的平均任務點數(shù)為5.64
26、個,假設會員選擇任務的平均 意愿的概率為60%,又每個任務難易程度相同,即被選中的概率相同,所以每個任務被 選中的概率為10. 64%o分析每個會員完成任務的意愿概率,其浮動范圍在50%-70%之間, 我們可以按會員的信譽度進行排序,意愿概率從50%等分布到70%。任務完成率過高可能是價格制定的高,不滿足經(jīng)濟效益;任務完成率低不符合實際, 沒有應用價值,所以控制任務的完成率在80%-90%之間,由此可以計算出在一個任務點 附近分布多少的會員數(shù)最為合理,設會員人數(shù)為列不等式&)%<1 (1 10.64%)" 590%(4. 1)計算得到人數(shù)范圍為15</<21
27、.在這個范圍內(nèi),任務定價就為基礎價加遠程價,當0sn515時,這部分會員的增值 價可以看作是在原價(基礎價加遠程價)的基礎上減15%,即人數(shù)每少1人,相應價格 加1%。當n>50時,根據(jù)以上分析發(fā)現(xiàn)此時對任務定價并沒有產(chǎn)生大幅度影響,所以我 們把50當做是任務點附近3千米會員人數(shù)的上界,當21<h<50時,這部分會員的增值 價可以看作是在原價的基礎上加15%,即人數(shù)每增加一人,價格減少|(zhì)% = 0.52%0因 此,最終會員增值價的函數(shù)表達式為(戸 +北)(1 + *1%),0<h<15,人=戸 + £,15</?<21,(4.2)(匕+鬥)(
28、1 一瀘 0.52%), 21<n<50.(4)任務標價p任務標價由改進基礎價、遠程價和會員增值價共同組成,即p=r+匕+匕,這里p 為新制定的任務標價,h為改進后的基礎價格,人為會員增值價。經(jīng)過編程計算我們得到了所有任務的定價,每個任務的具體定價見支撐材料excel 文件。4. 2. 3問題二模型的建立為了預測新定價方案的成功率,首先需要我們把每個任務分配給會員,然后根據(jù)每 個任務點附近3千米內(nèi)的會員人數(shù)、會員平均信譽、會員平均配額、平均單位距離上的 收益率等信息,建立支持向量機模型判別新定價的任務的完成情況,建立支持向量機判 別預測模型吋,使用支持向量機學習算法,根據(jù)原定價方案
29、的數(shù)據(jù),建立分類器并進行 檢驗,若其準確率達到85%-90%之間,那么,我們可以把這個分類器應用于新的定價方 案,判別新方案下的完成情況,進而比較兩種方案的完成率。定價方案的完成情況判別 流程圖見下圖4-2-2o83 5個任務1877個會員判別r任務完成情況lj圖4-2-2定價方案的完成情況判別流程圖(1) 分配設置一個分配機制,把835個任務分配給1877個會員,設每個會員完成任務的意 愿為60%,綜合考慮會員信譽度、任務點與會員的距離、限額以及收益率,確定每個任 務的完成情況。會員信譽度展示的是會員的接單意愿,結(jié)合接單時間先后順序確定會員挑選任務的 順序,我們把1877名會員先按接單時間順
30、序排序,再按信譽排序,綜合比較,確定會 員的接單順序。會員的任務限額決定了會員接受任務的數(shù)量限值,根據(jù)會員限額在所有 會員中的比例,確定有835個任務吋,每個會員最多能完成的任務數(shù)量。下面介紹任務分配的流程,假設所有的任務在6點30同時發(fā)放,先按會員順序選 擇任務,會員如果選擇完成任務,那么他選擇任務的依據(jù)是以單位距離收益率為導向。 如果會員沒有選擇任務,那么他必須等待一段時間,才能再次選擇任務,一直循環(huán),直 到所有的任務都有人完成。由此,現(xiàn)在835個任務都有唯一確定的會員完成。(2) 判別 數(shù)據(jù)整理我們假設每個會員的平均服務半徑是3千米,下面考慮任務點完成情況時,選取任 務點附近3千米的服務
31、圈,收集任務點附近服務圈內(nèi)的會員人數(shù)、會員平均信譽、會員 平均配額、平均單位距離上的收益率等數(shù)據(jù),將這些數(shù)據(jù)作為判斷任務完成情況的指標。 支持向量機模型(svm )建立支持向量機是一種基于統(tǒng)計理論的學習系統(tǒng),它屈于有監(jiān)督的學習方法。其主要應 用為已知訓練點的類別,求訓練點和類別之間的對應關(guān)系,將訓練集按照類別分開,或 者是預測新的訓練集所對應的類別。支持向量機基本思想簡單總結(jié)起來,就是與分類器平行的兩個平面,此兩個平面能 夠很好的分開兩類不同數(shù)據(jù),且穿越兩類數(shù)據(jù)區(qū)域集中的點,現(xiàn)在欲尋找最佳超幾何分隔平面使之與兩個平面間的距離最大,如此便能實現(xiàn)分類總誤差最小。stepl:設線性可分樣本(兀.,牙
32、),心1,2, ,/,xi丘心牙g-/,+/, /為訓練樣本總數(shù),其中點與五角星分別表示兩類不同類別的樣本,h表示將兩類樣本正確分開的超平 面,其方向用超平面的法向量來表示,已舊2分別表示是與超平面平行且超過兩類樣木 中與超平面h距離最近的平面,其間的距離稱為分類間隔。最優(yōu)分類超平面指的是所求 取的超平面不僅能將兩類樣本正確地區(qū)分開,使模型訓練誤差為零,而且還要使兩類的 分類間隔達到最大值。d維空間中的線性判別函數(shù)為=超平面方程為”兀+方=0其中,wwr”為參數(shù)向量,即超平面的法向量,bw r為分類的閾值,w-x為向量的內(nèi)積運 算。step2:歸一化,使lg(x)ll,離分類樣本最近的樣本的|
33、g(無)|=1,這時分類間隔為 2,若要求分類間隔最犬,就是要求或者 2最小,而要求分類面對所有樣本正確分類,就是要求滿足(4.3)= 1,2,3, ,/.求最優(yōu)分類超平面問題可以轉(zhuǎn)化為下面帶約束條件的優(yōu)化問題進行求解min (vv)=w(4.4)7 = 1,2,3, ,/step3:對于線性可分的樣本,可以被最優(yōu)分類超平面區(qū)分開,對于線性不可分的情況,考慮到一部分樣本數(shù)據(jù)不滿足式(4.3),存在一定的分類誤差,因此我們在約束 條件中引入一個松弛變量6(6 no)來解決誤差問題,則式(4.3)變成刃(川兀)1-纟/ = 1,2,3,1.(4. 5)當ov.vl吋,樣本點正確分類;當岳上1吋樣本
34、中的點召將被錯分。為了解決此問題,在最小化目標中加入懲罰項c 土得到如式(4.6)的目標函數(shù)/=11 i(咗)=7 /+c&(4.6)2 /=!由此,可以得到線性不可分時的最優(yōu)分類面,稱為廣義分類超平面,它可以用公式 (4.7)的優(yōu)化問題來表示。min(咗)4 /+c立(4.7)乙/=|心 1,2,3,1其中,表示樣本集中錯分樣本個數(shù)上界,用與衡量樣本數(shù)據(jù)相對于理想劃分條/=!件的偏離程度;c(c>0)用于控制對錯分樣本的懲罰程度。若c取值較大,則能獲得較 小的經(jīng)驗風險(錯分誤差小);若c取值較小,則能獲得較好的推廣性能(分類間隔較 大)。為了求解這個優(yōu)化問題,利用拉格朗日函數(shù),
35、將優(yōu)化問題轉(zhuǎn)化為對偶形式,如公 式(4.8)min厶(a ) = &廠覆丫陀廠y兒( < x/=|厶 /=1 7=1(4.8)0<ai <ci工w尸04. 2. 4問題二模型的求解在原定價方案中的835條任務信息中隨即抽取100組數(shù)據(jù)進行學習訓練,得到分類 器,把剩下的735組數(shù)據(jù)通過分類器進行分類,比較分類器的完成情況與實際上的完成 情況的匹配率,我們計算得到的成功率在85%-90%之間,因此,它的準確性比較高,所 以可以用這個分類器判別新的定價方案下任務的完成率。比較兩個方案的完成率,兩個方案完成數(shù)量的分布圖見下圖4-2-4,我們計算得到原定價方案的成功率為61.
36、72%,新定價方案的成功率為77. 93%,原定價方案和新定價 方案的平均成本分別為6& 93元和74. 52元,前后兩種方案單位成本上完成率分別為 0.90%和1.05%。所以,比較而言,新的定價方案雖然增加了總成本,但單位成本上的完成率高,反而能贏得最大收益。價格修改前任務完成狀況完成任務數(shù)未完成任務數(shù)價格修改后任務完成狀況完成任務數(shù)未完成任務數(shù)圖4-2-4原方案與新方案完成任務數(shù)量比較在原定價方案中未完成的任務在新定價方案下的完成率為83. 71%,這說明新的定價 方案更為好,提高了任務的完成率,而且在原定價方案中完成的任務在新方案下的完成 率為74. 34%o新的定價方案是合理
37、的,如果完成率過高,那樣可能是因為定價過高,成 本增加太大。我們制定的新方案不僅提高了任務的完成率,而且單位成本上的成功率增 加。4. 3問題三的分析與求解4. 3.1問題三的分析問題三分為兩部分,一部分為定價方案,我們在問題二中考慮了單個任務的定價, 本問,考慮把多個位置集中的任務聯(lián)合在一起打包發(fā)布,同問題二一樣,可以先聚類分 析,我們確定任務包的數(shù)量,把任務包看作整體,將會員與任務包看成完全圖,利用模 擬退火算法求得最短回路,進而制定每個任務包的總價。另一部分,考慮任務的完成情況,用問題二的分配機制和支持向量機模型判別任務 完成情況,比較任務的完成率。4. 3. 2問題三打包定價模型在問題
38、二,我們定價是以從低價到高價進行聚類,在本問中,我們運用同樣的思想, 先聚類得到任務包個數(shù),再計算包內(nèi)任務總價,其基本流程圖如下圖4-3-k圖4-3-1打包定價流程圖(1)聚類分析考慮把任務打包發(fā)布,對任務點進行聚類分析,假設一共聚為類,每一類輻射半h徑為則所有類的平均半徑為r =上,現(xiàn)平均半徑的一個限值為幾當r<r可以確定分 n成的類數(shù),即分成個包。(2)打包定價圖論思想主要是用圖形描述某些事物之間的某種特定關(guān)系,用點代表事物,用連接 兩點的線表示相應兩個事物間具有這種關(guān)系。現(xiàn)取任一類,把這一類中的任務記為 知花,呂,對應的價格記為“ p2,,幾,會員a選擇任務時,主要是以單位距離上的
39、 收益率為導向,設會員a到每個任務點的距離為心,考慮會員來冋往返的距離,原來不 打包時會員完成第廠個任務的收益率為幺=旦2d)如果把任務進行打包,會員去完成任務,最經(jīng)濟的方法就是從原點出發(fā),歷經(jīng)包內(nèi) 所有點,最終回到原點,使得總距離d最小。會員選擇任務的示意圖(圖4-3-2),從 圖論的角度來看,該問題實質(zhì)是在一個帶權(quán)完全無向圖中,找一個權(quán)值最小的hamilton 回路。由于該問題的解可以使用近似算法或啟發(fā)式算法,主要有遺傳算法、模擬退火法、 蟻群算法、禁忌搜索算法、貪婪算法和神經(jīng)網(wǎng)絡等,我們采用模擬退火算法計算最短距 離。設包內(nèi)所有任務的定價和為q,因此,打包后會員完成所有任務的收益率為(氣
40、, 用來度量打包后會員收益率的增加程度,計算=紅魚,假設每一個會員接受任務吋, 打包任務的收益率比單獨的收益率高某個限定值,記為八 即當宀丁吋,會員會更傾向 于選擇打包的任務。計算包內(nèi)所有任務的總定價為+ 進而,每個任務包內(nèi)所有任務點價 2d,格和都能定價。4. 3. 3問題三的求解與解釋任務完成后,有兩部分指標可以體現(xiàn)任務的最終完成情況,第一項是對所有任務定 價所花費的資金成本,第二項是全部任務的完成比例,分析問題三定價模型對任務的完 成情況的影響,也是從這兩方面入手。(1)全體任務定價依照上述模型,首先通過q型聚類分析法,利用mintab軟件,對于全部任務點關(guān)于 地理位置信息以99. 5%
41、的相似度指標進行聚類計算,得到530個不同的類別,我們依據(jù) 聚類情況將835個任務點打包成530個任務包,每個任務包中的任務數(shù)量如下圖4-3-3.0.75% 1個任務 2個任務 3個任務 4個任務 5個任務6個任務圖4-3-3每個任務包內(nèi)的任務點數(shù)以及任務包數(shù)量分析上圖,在530個總?cè)蝿瞻?,?27個任務包中只有一個任務,也就是說相當 于這327個任務不收任務打包影響,而受打包影響的任務有508個,影響率為60.84%。 根據(jù)問題三建立的任務包聯(lián)合定價模型,我們將任務包的分類數(shù)據(jù)帶入mat lab軟件編 程(附件)求解得到530個任務包的整體定價。對于這530個任務包,其總定價為51363元
42、,相比打包前835個任務點的總定價 62195元,我們可節(jié)省任務酬金17.42%。以第71號任務包和第192號任務包為例,71 號任務包將3個任務點a0093、a0097、a0361 一起打包發(fā)布,打包前后總定價分別為 254. 35元和133. 50元,其成本降低了 47. 51%; 192號任務包將兩個任務點a0279.a0377 一起打包發(fā)布,打包前后總定價分別為143. 29元和130. 85元,其成本降低了 8. 68%。(2)完成情況分析對于這530個任務包我們帶入上述問題中所使用的任務分配模型和已經(jīng)訓練好的支 持向量機模型進行任務完成情況預測,可得共有374個任務包被完成,占總?cè)?/p>
43、務包數(shù)量 的70. 57%,這374個任務包共包含667任務點,占總?cè)蝿拯c的79. 88%,相比于新定價 方案、不打包發(fā)布時的完成度74.85%有了顯著的提高,更是遠高于附件一的初始完成度 62. 51%0從上述兩方面來看,多任務聯(lián)合打包發(fā)布,具有相當?shù)膶嵱眯?,配合問題三任務包 全新的定價方案,我們可以將總的任務成本下降17.42%,并口提高了 5. 03%的任務完成 度。4.4問題四的分析與求解4. 4. 1問題四的分析附件三中給出了 2066條新任務的地理位置信息,本文我們總共涉及了兩種任務發(fā) 布的模式,以及配套的任務定價方案,我們分別應用這兩種模型設計岀新的定價方案, 并根據(jù)任務接取模型
44、聯(lián)系任務與會員關(guān)系,再利用支持向量機模型判別任務的完成情 況,比較兩種定價方案的完成率,并評價它們的實施效果。4. 4. 2問題四模型的求解(1)單任務點定價方案 定價方案利用問題二的定價方案計算,依據(jù)每個任務點的地理位置信息和任務點位置附近的 會員信息,確定其相應的定價,每個任務點的計算結(jié)果在支撐材料的excel文件中。 完成情況分析按照問題二的分配機制把新的任務分配給會員,利用訓練好的支持向量機模型建立 分類器,判斷在單任務點定價方案下任務的完成情況。通過matlab軟件編程處理,在 2066個任務點中,有1357個任務點被完成,占全部任務點的65.68%,全部任務定價總 金額150528
45、9元。(2)任務包定價方案定價方案利用問題三的定價方案,通過mintab軟件對全部任務點進行q型聚類分析,得到 1175個聚類集,也就是將2066個任務點打包成1175個任務包進行聯(lián)合發(fā)布,其中每個 任務包中包含的任務點數(shù)量如下圖(圖4-4-1 )0 1個任務 2個任務 3個任務 4個任務 5個任務 6個任務 7個任務大于8個任務圖4-4-1每個任務包內(nèi)的任務點數(shù)以及任務包數(shù)量分析上圖,在1175個總?cè)蝿瞻?,?67個任務包中只有一個任務,也就是說相 當于這667個任務不收任務打包影響,而受打包影響的任務有1399個,影響率為67. 71%。 根據(jù)問題三建立的任務包聯(lián)合定價模型,我們將任務包
46、的分類數(shù)據(jù)帶入matlab軟件編 程(附件)求解得到1175個任務包的整體定價。打包后全部任務包總定價為116813元, 相比于未打包前的總定價150529元,打包聯(lián)合發(fā)布,可以將任務打包成本節(jié)省22. 39%, 以第350號任務包和第953號任務包為例(表4-4-1),第350號任務包包含c0729、c0730、 c0731這3個任務點,第953號任務包包含c1783、01784, 2個任務點。表4-4-1打包前后數(shù)據(jù)的變化打包點序號打包個數(shù)打包后總定價打包前總定價成本節(jié)省率3503121.2016212.524342. 97%9532142.5429150.34595. 19%完成情況分析
47、同樣按照問題二的分配機制把新的任務分配給會員,利用訓練好的支持向量機模型 建立分類器,判斷在任務包定價方案下任務的完成情況。通過matlab軟件編程處理,在 1175個任務包中,有738個任務包被完成,占全部任務包的62.81%,這738個任務包 共包含1615任務點,占總?cè)蝿拯c的78.17%,相比于單任務點定價方案、不打包發(fā)布任 務時的完成度65.68%有了顯著的提高。因此,考慮到任務完成率,以及總的任務定價大小,對于附件三中的新項目,使用 多任務聯(lián)合發(fā)布,聯(lián)合定價的定價方案實施效果更好。5模型的優(yōu)點與缺點5. 1模型的優(yōu)點(1)我們設計的新的定價方案與原方案比較,不僅完成率高,而且收益高,
48、所以 新的定價方案應用性更強;(2)我們用最小二乘法擬合的冋歸曲線圖的/?-sq(調(diào)整)“0%,所以曲線的擬合效 果極佳。(3) 本文建立支持向量機的模型預測任務完成情況,具有可行性高、應用性強的 特點,可以進行推廣和應用到其它方面。5. 2模型的缺點聚類分析的次數(shù)不可只用一至兩次,如果對成果率有需求,可以在能力范圍內(nèi)增加 聚類的次數(shù)具有一定的局限性。5. 3模型的改進與推廣(1) 兩個定價模型都提高了任務的完成率,可以把模型推廣應用到類似app的定 價上,比如拍拍賺app。(2) 本文建立的支持向量機模型,可以用于預測函數(shù),具有很強的應用性,可以 推廣到醫(yī)保詐騙、檢測商業(yè)詐騙、軍事入侵、電腦
49、病毒、生理疾病等異常行為的發(fā)生, 實用性強、開發(fā)前景極優(yōu)。6參考文獻1司守奎,孫兆亮數(shù)學建模算法與應用m.北京:國防工業(yè)出版社,2015.朱元澤,李賢彬matlab實用教程m 鎮(zhèn)江:江蘇大學岀版社,2013.3 卓金武.matlab在數(shù)學建模中的應用m.北京:北京航空大學岀版社,2011.4 韓中庚數(shù)學建模方法及其應用m北京:高等教育出版社,005.5 史峰,輝等.matlab智能算法30個案例分析m.北京:北京航空航天大學出版社.6 童詠昕,野,成雨蓉等時空眾包數(shù)據(jù)管理技術(shù)研究綜述j 軟件學報,2017, 28(01) :35-58.7 李國良,建華眾包技術(shù)研究綜述j計算機學報,2015(0
50、9) : 1713-1726.8 夏恩君,王文濤.企業(yè)開放式創(chuàng)新眾包模式下的社會大眾參與動機j 技術(shù)經(jīng)濟, 2016, 35(1) :22-29.附錄一:clc;clear;load('zong.mat');nl,二size(a);n2,=size(b);w=zeros(nl,8);zx=22.541733,113.940582;23.125205,113.295135;23.032979,113.127594;23.044353,113.770294;jg 二67.56,66.49,62.97,62.97;0.369,0.418,0.29,0.29;%dxx=zeros(nl
51、,4);for i=l:nlfor j= 1:4dxx(i,j)= 11 o*sqrt(a(i,l)-zx(j,l )a2+(a(i,2)-zx(j,2)a2);enda(i,6)=find(dxx(i,:)=min(dxx(i,:);a(i,5)=min(dxx(i,:);end%for i=l:nlx=0;y=o;bs=0;d=zeros(nl,2);g=l;xe=zeros(nl,l);forj=l:n2dl=ll 0*sqrt(a(i,2)-b(j,2)a2+(a(i,l )-b(j,l)a2);訐(dl<3)w(i,4)=w(i,4)+l;x二x+b(j,5)*b(j,2);y
52、=y+b(j,5)*b(j,l);bs=b(j,5)+bs;d(i,l)=dl+d(i,l);xy(g,l)二b(j,5);g二g+1;xe(i,l)=b(j,3)+xe(i,l);endendw(i,l)=x/bs;%3km信譽質(zhì)心經(jīng)度w(i,2)=y/bs;%3km信譽質(zhì)心緯度 w(i,3)=bs/w(i,4);%3km內(nèi)平均會員信譽%w(i,4)%3km周圍會員數(shù)w(i,5)=d(i,l)/w(i,4);%3km 內(nèi)平均會員距離 w(i,6)=a(i,3)/w(i,5);%3km內(nèi)平均會員單位收益 w(i,7)=median(xy);%3km 內(nèi)中位會員信譽 w(i,8)=xe(i, 1
53、 )/w(i,4);%3km 內(nèi)平均會員限額end%rmin=20;rdmin=o;rmax=40;rdmax=60;bl=0.1;for i=l:nlif (w(i,4)<=rdmin)a(i,7)=(jg(l,a(i,6)+jg(2,a(i,6)*a(i,5)*( 1 +bl);elseif (w(i,4)>rdmin&&w(i,4)<=rmin)a(i,7)=(jg(l,a(i,6)+jg(2,a(i,6)*a(i,5)*( 1 +bl/(rmin-rdmin)*(rmin-w(i,4);elseif (w(i,4)>rmin&&w
54、(i,4)<=rmax) a(i,7)=jg(l ,a(i,6)+jg(2,a(i,6)*a(i,5);elseif (w(i,4)>rmax&&w(i,4)<=rdmax)a(i,7)=(jg(l,a(i,6)+jg(2,a(i,6)*a(i,5)*( 1 -bl/(rdmax-rmax)*(w(i,4)-rmax); elseif (w(i,4)>rdmax)a(i,7)=(jg(l,a(i,6)+jg(2,a(i,6)*a(i,5)*( lbl);endendaa=l:nl;a=aaa,w;%k=0;for i=l:nlif (a(i-k,12)=
55、0)a(i-k,:)=;k=k+l;endendxlswritecwneti2.xls',a);a(:,5)=2.*(a(:,5)-0.5);%數(shù)據(jù)預處理x0=a(:,2:5);for i=l:3x(:,i)=(x0(:,i)mean(x0(:,i)/std(x0(:,i); endm,n=size(x);e=ones(m,l);d=x0(:,4);b=zeros(m,m);c=zeros(m,m);for i=l:mc(i,i)=d(i,l);end%轉(zhuǎn)化成規(guī)劃模型進行求解a二卜x(:,1)*d, x(:,2).*d, x(:,3).*d, d,b; bl=-e;f=0,0,0,0, ones(l,m);lb=-inf,-inf,-inf,-inf,zeros( 1x = linprog(f,a,bl,f,l,lb);%模型驗證與結(jié)果顯示w=x(l,l),x(2,l),x(3,l);% 提取系數(shù)cc=x(4,l);%提取截距t0=a(:,2),a(:,3),a(:,8);for i=l:3t(:,i)=(t0(:,i)-mean(t0(:,i)/std(t0(:,i); endx1=x(
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 服裝設計師與時尚公司長期合作協(xié)議
- 智能門鎖集成安裝與定期檢修服務協(xié)議
- 灘涂貝類養(yǎng)殖權(quán)委托經(jīng)營管理全面合作協(xié)議
- 康養(yǎng)中心護理服務委托專業(yè)運營協(xié)議
- 跨界腦機接口技術(shù)研發(fā)與市場推廣合作協(xié)議
- 留學中介服務及海外院校錄取通知書獲取及簽證申請輔導及生活適應輔導協(xié)議
- 耕地流轉(zhuǎn)規(guī)?;N植項目委托管理合同
- 班組長現(xiàn)場管理
- 全身人物繪畫美術(shù)課件
- 癱瘓人員護理要點與規(guī)范
- 小班語言《水珠寶寶》課件
- 加油站職業(yè)危害防治計劃和實施方案
- 路面彎沉溫度修正系數(shù)
- 山東省濟南市槐蔭區(qū)2024屆中考聯(lián)考化學試題含解析
- (完整版)xx中學“雙積雙評”積分入團實施方案
- 拖拉機和聯(lián)合收割機安全技術(shù)檢驗合格證明
- 文化產(chǎn)業(yè)政策與法規(guī)
- 第四講嬰幼兒情緒情感及社會功能的發(fā)育
- (完整word版)餐券模板
- 平野蒼流:打漁張引黃灌區(qū)開灌60周年紀念專輯
- 電梯安全風險管控清單
評論
0/150
提交評論