




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、基于分布式獨(dú)立學(xué)習(xí)的多用戶動(dòng)態(tài)頻譜接入新算法摘要:隨著無線通信的飛速發(fā)展,無線頻譜資源日益緊張,然而某些頻段資源的利用率卻很低,認(rèn)知無線電正好是能有效緩解頻譜分配與利用這對(duì)矛盾的技術(shù)。本文在認(rèn)知用戶獨(dú)立學(xué)習(xí)的基礎(chǔ)上提出一種多用戶動(dòng)態(tài)頻譜接入新算法。該算法中每個(gè)認(rèn)知用戶都是一個(gè)基于獨(dú)立學(xué)習(xí)的智能體,它不知道在聯(lián)合行動(dòng)中其他認(rèn)知用戶的行動(dòng)策略,僅維護(hù)自己的一個(gè)關(guān)于狀態(tài)-行動(dòng)對(duì)的Q值表,并且每個(gè)認(rèn)知用戶各自采取獨(dú)立的迭代過程。同時(shí)本文將各個(gè)用戶頻點(diǎn)的信噪比引入到獎(jiǎng)賞函數(shù)r中,在降低認(rèn)知用戶與主用戶發(fā)生沖突的概率的同時(shí),提高了系統(tǒng)的平均容量。仿真結(jié)果表明該算法可以降低沖突概率,在考慮頻點(diǎn)信噪比的情況下
2、,系統(tǒng)的平均容量可以得到提高。關(guān)鍵詞:認(rèn)知無線電;頻譜接入;多用戶;強(qiáng)化學(xué)習(xí);雙Q學(xué)習(xí)算法A new algorithm of dynamic spectrum access of multi-usersbased on independent learningAbstract:With the rapid growth of wireless communications ,cognitive radio has been recognized as an effective solution to the conflict brought by the distribution and u
3、tilization of spectrum resources. In this paper, we put forward a new algorithm of dynamic spectrum access of multi-users based on independent learning. In this algorithm, each cognitive user is an agent based on independent learning. It only protects their own Q-value table of state-action without
4、knowing the actions of other cognitive users in joint operations.Each cognitive user takes their own independent iterative process. Meanwhile this paper takes SNR of each channel into account in the reward function r. Simulation results show that this new algorithm can reduce probability of conflict
5、 between the cognitive users and the main users. Furthermore when considering the SNR this new algorithm can enlarge the systems average capacity.Keywords: cognitive radio; spectrum accessing; multi-users; reinforcement learning;DAQL1 引言隨著無線通信技術(shù)的飛速發(fā)展,頻譜資源變得越來越緊張。為了解決頻譜資源匱乏的問題,基本思路就是盡量提高現(xiàn)有頻譜的利用率1。為此,
6、人們提出了認(rèn)知無線電的概念2。認(rèn)知無線電的基本出發(fā)點(diǎn)就是:為了提高頻譜利用率,具有認(rèn)知功能的無線通信設(shè)備可以按照某種“伺機(jī)(Opportunistic Way)”的方式工作在已授權(quán)的頻段內(nèi)3。認(rèn)知無線電的核心思想就是使無線通信設(shè)備具有發(fā)現(xiàn)“頻譜空洞”并合理利用的能力4。人工智能大師Simon Haykin在其認(rèn)知無線電綜述文章中明確提到學(xué)習(xí)是認(rèn)知無線電系統(tǒng)的一個(gè)重要環(huán)節(jié)5。在機(jī)器學(xué)習(xí)領(lǐng)域現(xiàn)在研究比較熱門的強(qiáng)化學(xué)習(xí)RL6(Reinforcement Learning,又稱加強(qiáng)學(xué)習(xí)、增強(qiáng)學(xué)習(xí)等)是一種以環(huán)境反饋?zhàn)鳛檩斎?、適應(yīng)環(huán)境的特殊學(xué)習(xí)方法。強(qiáng)化學(xué)習(xí)是一種從動(dòng)物學(xué)習(xí)、自適應(yīng)策略等理論發(fā)展而來的機(jī)
7、器學(xué)習(xí)方法,它的在線學(xué)習(xí)能力與自適應(yīng)學(xué)習(xí)能力使其成為解決策略尋優(yōu)問題的有力工具7。文獻(xiàn)8提出了TD(Temporal Difference)方法,解決了強(qiáng)化學(xué)習(xí)中根據(jù)時(shí)間序列進(jìn)行預(yù)測的問題,并證明了在系統(tǒng)滿足馬爾可夫?qū)傩?、絕對(duì)遞減條件下, TD 方法收斂于最優(yōu)。文獻(xiàn)10,11提出一種著名的強(qiáng)化學(xué)習(xí)方法:Q-learning,不同于TD學(xué)習(xí)的迭代僅考慮狀態(tài)的值函數(shù), Q學(xué)習(xí)利用狀態(tài)-動(dòng)作對(duì)的值函數(shù)Q ( s , a) 進(jìn)行迭代,利用其獎(jiǎng)賞并作為估計(jì)函數(shù)來選擇下一動(dòng)作,即直接優(yōu)化Q函數(shù)。文獻(xiàn)12提出了Sarsa算法,它是一種基于模型算法,最初被稱為改進(jìn)的Q學(xué)習(xí)算法。它仍然采用的是Q值迭代。Sar
8、sa是一種在策略TD學(xué)習(xí)(on-policy TD)。文獻(xiàn)13研究了單認(rèn)知用戶情況下基于DAQL算法的動(dòng)態(tài)頻譜接入方案,但是卻不能解決多認(rèn)知用戶情況下的動(dòng)態(tài)頻譜接入問題。本文在文獻(xiàn)14的基礎(chǔ)上,研究了多認(rèn)知用戶情況下基于強(qiáng)化學(xué)習(xí)的頻譜接入算法,針對(duì)信息不完備的情況,提出了一種基于獨(dú)立學(xué)習(xí)的多用戶動(dòng)態(tài)頻譜接入新算法。該算法在各認(rèn)知用戶獨(dú)立學(xué)習(xí)的基礎(chǔ)上建立協(xié)調(diào)策略, 以實(shí)現(xiàn)協(xié)作決策過程的收斂,對(duì)所有認(rèn)知用戶均采用相同的獎(jiǎng)賞函數(shù), 即一般和對(duì)策。同時(shí)本文將各個(gè)用戶信道的信噪比引入到獎(jiǎng)賞函數(shù)r中,在降低認(rèn)知用戶與主用戶發(fā)生沖突的概率的同時(shí),提高了系統(tǒng)的平均容量。本文安排如下,第二部分介紹了認(rèn)知用戶動(dòng)態(tài)
9、頻譜接入的系統(tǒng)模型,第三部分介紹了分布式獨(dú)立強(qiáng)化學(xué)習(xí)的基本原理,第四部分介紹了基于分布式獨(dú)立學(xué)習(xí)的多認(rèn)知用戶動(dòng)態(tài)頻譜接入新算法,第五部分對(duì)新算法進(jìn)行了仿真。2 系統(tǒng)模型圖1 為認(rèn)知無線電網(wǎng)絡(luò)結(jié)構(gòu)圖, 在授權(quán)用戶覆蓋的大區(qū)域中存在多個(gè)認(rèn)知用戶小區(qū),假設(shè)其中某個(gè)小區(qū)中存在k個(gè)認(rèn)知用戶,n條可用信道,本文研究的系統(tǒng)模型其實(shí)就是某個(gè)小區(qū)的動(dòng)態(tài)頻譜接入問題,且小區(qū)中的認(rèn)知用戶數(shù)僅為2。認(rèn)知無線電網(wǎng)絡(luò)是具有接入點(diǎn)(AP)的集中式結(jié)構(gòu),且其覆蓋范圍遠(yuǎn)小于授權(quán)用戶發(fā)射機(jī)的覆蓋范圍。授權(quán)用戶是按照既定的策略來占用系統(tǒng)頻譜的,可以是固定占用頻譜,也可以是以某一序列動(dòng)態(tài)的占用頻譜。本文研究的問題中,認(rèn)知用戶無法和系
10、統(tǒng)交換信息,因此無法得知系統(tǒng)的頻譜圖1 認(rèn)知無線電網(wǎng)絡(luò)結(jié)構(gòu)圖分配情況。本文設(shè)計(jì)的目標(biāo)便是認(rèn)知用戶如何在不知道系統(tǒng)頻譜分配情況下,智能地占用信噪比高的空閑頻譜,即在降低沖突概率的同時(shí),提高系統(tǒng)的平均容量。3分布式獨(dú)立強(qiáng)化學(xué)習(xí)分布式獨(dú)立強(qiáng)化學(xué)習(xí)中, 每個(gè)智能體都是一個(gè)獨(dú)立的學(xué)習(xí)體, 它們可以獨(dú)立地執(zhí)行單Agent強(qiáng)化學(xué)習(xí)算法。 智能體不知道在聯(lián)合行動(dòng)中其它智能體的行動(dòng)策略, 它只維護(hù)自己的一個(gè)關(guān)于狀態(tài)-行動(dòng)對(duì)的Q 值表 , 并依據(jù)該評(píng)價(jià)函數(shù)確定修正后的行動(dòng)策略,分布式獨(dú)立強(qiáng)化學(xué)習(xí)中每個(gè)智能體Q值表更新公式如下: (1)其中s S,S為智能體感知到的環(huán)境狀態(tài);,A為智能體作用于環(huán)境的動(dòng)作集合;為所有
11、智能體的一個(gè)聯(lián)合行動(dòng); 為環(huán)境對(duì)聯(lián)合行動(dòng)的獎(jiǎng)賞函數(shù); t表示狀態(tài)-行動(dòng)對(duì)(s,a)的迭代次數(shù)。由式(1) 可知, 迭代過程是一個(gè)單調(diào)非減的過程。 采用該分布式學(xué)習(xí)算法的意義在于: 在保證問題求解精度的前提下減少復(fù)雜問題的計(jì)算量, 并由此構(gòu)造可并行的計(jì)算方式。文獻(xiàn)14論證了該算法的收斂性。每個(gè)智能體都進(jìn)行各自的Markov決策過程(MDP) , 狀態(tài)的變遷決定于所有智能體的聯(lián)合行動(dòng), 稱這樣的決策過程為多智能體協(xié)作決策過程(MACMDP) , 定義為(S , M,A , T , R ) , S為狀態(tài),M為各個(gè)智能體的集合,A為智能體作用于環(huán)境的動(dòng)作集合,T是狀態(tài)轉(zhuǎn)移概率函數(shù)。分布式獨(dú)立強(qiáng)化學(xué)習(xí)算
12、法中智能體優(yōu)化策略的更新規(guī)則: (2)式(2) 為貪婪策略,即智能體僅在能改進(jìn)自己Q 值的情況下修改自己的行動(dòng)策略, 否則維持原行動(dòng)策略。這里存在一個(gè)探索和利用的問題。Q強(qiáng)化學(xué)習(xí)算法中,在當(dāng)前狀態(tài)選擇動(dòng)作的依據(jù)是的值,即選擇能獲得最大的。但是剛開始時(shí)學(xué)習(xí)沒有先驗(yàn)經(jīng)驗(yàn),即每一個(gè)值都是不成熟的,也就是說值不能準(zhǔn)確地表示對(duì)的適用程度。因此選擇最高值的動(dòng)作導(dǎo)致了系統(tǒng)總是沿著相同的方向進(jìn)行搜索而不可能探索到更好值,即容易造成系統(tǒng)停滯在局部最小值上。因此認(rèn)知用戶要盡可能的選擇不同的動(dòng)作,來尋求沒有嘗試但可能帶來豐厚獎(jiǎng)賞的動(dòng)作,以找到最優(yōu)的策略,即探索。但是也不可以盲目去探索,過度的探索將導(dǎo)致以前的經(jīng)驗(yàn)無法
13、利用,學(xué)習(xí)沒有進(jìn)步,降低系統(tǒng)的性能,影響學(xué)習(xí)的速度。所以學(xué)習(xí)開始時(shí)應(yīng)該采用隨機(jī)動(dòng)作選擇策略,然后隨著學(xué)習(xí)過程逐步轉(zhuǎn)向按照值大小選擇動(dòng)作。分布式獨(dú)立強(qiáng)化學(xué)習(xí)算法中智能體的獎(jiǎng)賞函數(shù): (3)其中,分別為任意智能體i和智能體j作用于環(huán)境的動(dòng)作,分別為環(huán)境對(duì)智能體i和智能體j的獎(jiǎng)賞,式(3) 表明, 對(duì)智能體的聯(lián)合行動(dòng)采用一致的評(píng)價(jià)函數(shù),可以確保所有智能體建立共同的目標(biāo),從而各個(gè)智能體可以在獨(dú)立學(xué)習(xí)的基礎(chǔ)上,通過共同的獎(jiǎng)賞函數(shù)建立協(xié)調(diào)策略,來解決分布式系統(tǒng)的各種問題。4基于分布式獨(dú)立學(xué)習(xí)的多用戶動(dòng)態(tài)頻譜接入新算法Q學(xué)習(xí)算法和DAQL學(xué)習(xí)算法13可以解決單用戶動(dòng)態(tài)頻譜接入的問題,但對(duì)于多用戶動(dòng)態(tài)頻譜接入
14、問題,我們應(yīng)采用分布式強(qiáng)化學(xué)習(xí)算法來解決。本文將分布式獨(dú)立強(qiáng)化學(xué)習(xí)算法應(yīng)用到多認(rèn)知用戶動(dòng)態(tài)頻譜接入環(huán)境中,同時(shí)將各個(gè)用戶頻點(diǎn)的信噪比引入到獎(jiǎng)賞函數(shù)r中,在降低認(rèn)知用戶與主用戶發(fā)生沖突的概率的同時(shí),提高了系統(tǒng)的平均容量。4.1 算法描述 本文將分布式獨(dú)立強(qiáng)化學(xué)習(xí)算法應(yīng)用到多用戶動(dòng)態(tài)頻譜接入環(huán)境中,在各認(rèn)知用戶不知道其他認(rèn)知用戶具體頻譜分配情況下, 各認(rèn)知用戶采取獨(dú)立學(xué)習(xí)的方式。它們只維護(hù)自己的一個(gè)關(guān)于狀態(tài)-行動(dòng)對(duì)的Q 值表 , 并且每個(gè)認(rèn)知用戶 i 各自采取獨(dú)立的迭代過程,其Q值表更新公式如下: = r (4)式(4)可見將分布式獨(dú)立強(qiáng)化學(xué)習(xí)算法應(yīng)用到認(rèn)知無線電中多用戶動(dòng)態(tài)頻譜接入問題時(shí)需考慮授
15、權(quán)用戶和認(rèn)知用戶的動(dòng)作給系統(tǒng)環(huán)境帶來的影響。其中s S,S為認(rèn)知用戶感知到的環(huán)境狀態(tài);,A為認(rèn)知用戶作用于環(huán)境的動(dòng)作集合;為系統(tǒng)中授權(quán)用戶的動(dòng)作;為所有認(rèn)知用戶的一個(gè)聯(lián)合行動(dòng); 為環(huán)境對(duì)聯(lián)合行動(dòng)的獎(jiǎng)賞函數(shù);t表示狀態(tài)-行動(dòng)對(duì)(s,a)的迭代次數(shù)。Q值更新采用式(4)。動(dòng)作選擇策略采用以下的更新規(guī)則 任取 (5)基于分布式獨(dú)立學(xué)習(xí)的多用戶動(dòng)態(tài)頻譜接入新算法是為了獲得一種從狀態(tài)到動(dòng)作的映射關(guān)系, 使每次經(jīng)歷這個(gè)狀態(tài)時(shí), 都能利用以前學(xué)習(xí)的經(jīng)驗(yàn)和知識(shí), 做出最優(yōu)的動(dòng)作決策。認(rèn)知用戶能為每個(gè)感知到的環(huán)境狀態(tài)和自己的動(dòng)作對(duì)建立一個(gè)Q 值函數(shù), 并不斷根據(jù)學(xué)習(xí)到的經(jīng)驗(yàn)進(jìn)行更新。通過一段時(shí)間的學(xué)習(xí)過程, 認(rèn)
16、知用戶能夠在沒有人為干預(yù)的情況下自己選擇合適的頻率進(jìn)行通信, 使得在通信時(shí)對(duì)已存在的主用戶產(chǎn)生的干擾最小。 同時(shí)為了提高系統(tǒng)的平均容量,在獎(jiǎng)賞函數(shù)r中引入了各信道的信噪比,即 (6)系統(tǒng)的容量C定義為 (7)系統(tǒng)的平均容量定義為 (8) 其中B為頻點(diǎn)的帶寬,SNR為頻點(diǎn)的信噪比,c(i)為認(rèn)知用戶第i次占用頻點(diǎn)時(shí)系統(tǒng)的容量,m為統(tǒng)計(jì)平均容量的次數(shù)。具體的算法流程圖如圖2所示,這是某一個(gè)認(rèn)知用戶的算法流程圖,可以看出其本質(zhì)上就是單個(gè)智能體的算法流程圖,兩個(gè)認(rèn)知用戶通過共同的獎(jiǎng)賞函數(shù)r建立協(xié)調(diào)策略,共同完成降低系統(tǒng)沖突概率這一目標(biāo)。圖2 算法流程圖4.2算法實(shí)現(xiàn)假設(shè)多用戶動(dòng)態(tài)頻譜接入問題中狀態(tài)為S
17、,動(dòng)作集合為A,獎(jiǎng)賞回報(bào)函數(shù)為R,下面具體說明基于分布式獨(dú)立學(xué)習(xí)的多用戶動(dòng)態(tài)頻譜接入算法中的幾個(gè)要素:1)狀態(tài)空間S S = , , , , ,,, ,其中=0表示頻譜k被占用;=1表示頻譜k未被占用。表示主用戶占用的頻點(diǎn),k為主用戶數(shù),表示認(rèn)知用戶占用的頻點(diǎn),表示m個(gè)認(rèn)知用戶,本算法中m為2。 2) 可選動(dòng)作集A 影響系統(tǒng)狀態(tài)的動(dòng)作有2種: 一種是認(rèn)知用戶選擇頻點(diǎn)時(shí)的動(dòng)作,它占用頻點(diǎn); 還有一種就是授權(quán)用戶占用頻點(diǎn)時(shí)動(dòng)作。本文中授權(quán)用戶可能是以固定占用方式占用頻譜,也可能以跳頻等其他方式占用頻譜,另外系統(tǒng)環(huán)境中有2個(gè)認(rèn)知用戶,因此此時(shí)系統(tǒng)是多Agent模型的。3) 即時(shí)回報(bào)R 該算法在獎(jiǎng)賞函
18、數(shù)r中引入了各頻點(diǎn)的信噪比。設(shè)定認(rèn)知用戶與授權(quán)用戶所選用頻點(diǎn)相同(沖突)或者各認(rèn)知用戶所選用頻點(diǎn)相同(沖突)時(shí),系統(tǒng)的獎(jiǎng)賞函數(shù)r為 “”; 不相同(沒有沖突)時(shí), r 為 “” ,獎(jiǎng)賞函數(shù)前面一部分的參數(shù)反映降低沖突概率的要求,當(dāng)認(rèn)知用戶與主用戶或者其他認(rèn)知用戶發(fā)生沖突時(shí),即兩者占用同一頻點(diǎn),獎(jiǎng)賞函數(shù)為-5;當(dāng)認(rèn)知用戶與主用戶或者其他認(rèn)知用戶沒有發(fā)生沖突時(shí),即兩者占用不同的頻點(diǎn),獎(jiǎng)賞函數(shù)為1。獎(jiǎng)賞函數(shù)后一部分反映了認(rèn)知用戶占用該頻點(diǎn)時(shí)信噪比對(duì)獎(jiǎng)賞函數(shù)的影響,其中為第i個(gè)頻點(diǎn)的信噪比占系統(tǒng)總信噪比的百分比,p(i)為第i個(gè)頻點(diǎn)的信噪比,n為系統(tǒng)的頻點(diǎn)數(shù),a,b為常數(shù)。 4) 評(píng)價(jià)方式本算法針對(duì)的
19、是多認(rèn)知用戶動(dòng)態(tài)頻譜接入問題,目的是在沒有人為干預(yù)的情況下,認(rèn)知用戶可以智能的接入系統(tǒng),降低沖突概率,提高系統(tǒng)平均容量。仿真采用分段統(tǒng)計(jì)的方法,仿真了系統(tǒng)的沖突概率和不同信噪比時(shí)系統(tǒng)的平均容量,比較了考慮信噪比與不考慮信噪比這兩種情況下系統(tǒng)的沖突概率和平均容量情況,采用的是look-up表表達(dá)值函數(shù)。實(shí)現(xiàn)的過程如下:1)初始化參數(shù)初始化Q 值,設(shè)定折扣因子。2)構(gòu)建狀態(tài)S由狀態(tài)感知模塊感知到的授權(quán)用戶占用系統(tǒng)頻譜的情況和認(rèn)知用戶自身占用的情況來構(gòu)建狀態(tài)空間S。3)獲取Q值根據(jù)狀態(tài)S和授權(quán)用戶將要采取的動(dòng)作A, 從Q 值表中獲取Q 值。4)選擇和執(zhí)行動(dòng)作 動(dòng)作選擇模塊根據(jù)每一個(gè)和式(4) , 采
20、用貪婪算法從A中選擇兩個(gè)動(dòng)作并執(zhí)行,其中為認(rèn)知用戶一執(zhí)行的動(dòng)作,為認(rèn)知用戶二執(zhí)行的動(dòng)作。本文采用的貪婪算法并不是完全執(zhí)行Q值最大所對(duì)應(yīng)的動(dòng)作,而是大部分時(shí)間選擇能得到最高回報(bào)的動(dòng)作,偶爾也以小概率隨機(jī)選擇與動(dòng)作估計(jì)值無關(guān)的工作。但隨著學(xué)習(xí)時(shí)間的推移,最終要選擇所處狀態(tài)的Q值最大所對(duì)應(yīng)的動(dòng)作,只有這樣,最終才能完全收斂,這是探索和利用的平衡問題。5)獲取回報(bào)本文設(shè)定當(dāng)認(rèn)知用戶選擇占用的頻率與主用戶或者其他認(rèn)知用戶沖突時(shí), r= ; 不沖突時(shí), r= 。6)更新Q 值動(dòng)作執(zhí)行后, 新的狀態(tài)s及其所有的Q 值就能夠由步驟(2) (3)得到,可由式(4)更新為。7)更新參數(shù)每輪迭代結(jié)束時(shí), 折扣因子都
21、需要更新。本文設(shè)置它以負(fù)指數(shù)規(guī)律隨著學(xué)習(xí)的過程逐漸減小為0, 以滿足收斂性要求。5 仿真與分析本文對(duì)基于分布式獨(dú)立學(xué)習(xí)的多認(rèn)知用戶動(dòng)態(tài)頻譜接入新算法具體實(shí)現(xiàn)進(jìn)行仿真,仿真時(shí)假設(shè)共有12個(gè)可選頻段(即信道),主用戶數(shù)位3個(gè),認(rèn)知用戶數(shù)為2個(gè),每個(gè)主用戶和每個(gè)認(rèn)知用戶每次都只占用一個(gè),假設(shè)帶寬B為1HZ,同時(shí)分別令信道的平均信噪比SNR分別為6dB,8dB,10dB,12dB,14dB,16dB,18dB,每個(gè)信道的信噪比隨機(jī)分布。我們分別對(duì)以下兩種情況進(jìn)行了仿真:(1)授權(quán)用戶固定占用信道,(2)授權(quán)用戶以一序列跳頻的方式占用信道。認(rèn)知用戶共學(xué)習(xí)10000次,在迭代的基礎(chǔ)上,分20 個(gè)相等的學(xué)習(xí)
22、階段統(tǒng)計(jì)沖突概率,同時(shí)仿真了不同的平均信噪比時(shí)的系統(tǒng)的平均容量。本算法中系統(tǒng)的容量僅考慮認(rèn)知用戶的容量,且是經(jīng)過學(xué)習(xí),系統(tǒng)穩(wěn)定后的容量,本文中認(rèn)知用戶數(shù)為2。圖3和圖4為授權(quán)用戶固定占用頻點(diǎn)時(shí)系統(tǒng)的沖突概率以及系統(tǒng)的平均容量。由圖3可以看出,隨著學(xué)習(xí)時(shí)間的增加, 沖突概率都能夠明顯降低, 直到完全避免沖突。由圖4可以看出,認(rèn)知用戶接入時(shí)考慮了信道信噪比后,可以在降低沖突概率的同時(shí),使得系統(tǒng)的平均容量增加。圖3授權(quán)用戶固定占用頻點(diǎn)時(shí)的沖突概率圖4授權(quán)用戶固定占用頻點(diǎn)時(shí)的系統(tǒng)平均容量圖5和圖6為授權(quán)用戶以隨機(jī)序列方式跳頻時(shí)系統(tǒng)的沖突概率以及系統(tǒng)的平均容量。仿真表明,授權(quán)用戶以隨機(jī)序列方式跳頻時(shí),隨
23、著學(xué)習(xí)時(shí)間的增加, 沖突概率也可以明顯降低, 直到能完全避免沖突。同樣,當(dāng)考慮頻點(diǎn)信噪比時(shí),可以在實(shí)現(xiàn)降低沖突概率的同時(shí),保證系統(tǒng)的平均容量增加,但是與授權(quán)用戶固定占用信道相比,容量會(huì)略有下降。 圖5多種授權(quán)用戶存在時(shí)的沖突概率圖6多種授權(quán)用戶存在時(shí)的系統(tǒng)平均容量曲線6 結(jié)束語單用戶動(dòng)態(tài)頻譜接入問題,普通的Q學(xué)習(xí)算法和DAQL學(xué)習(xí)算法已經(jīng)可以很好解決了,但是對(duì)于多用戶動(dòng)態(tài)頻譜接入問題就無能為力了。在分布式環(huán)境下,則由于時(shí)間或空間的約束, 認(rèn)知用戶之間不能完全共享信息, 這種情況下的協(xié)作決策只能建立在認(rèn)知用戶的獨(dú)立強(qiáng)化學(xué)習(xí)上。本文將基于分布式獨(dú)立學(xué)習(xí)多智能體協(xié)作決策應(yīng)用到多用戶動(dòng)態(tài)頻譜接入問題中
24、,理論和仿真實(shí)驗(yàn)都表明, 這種方法在信息有限的情況下仍可收斂到一個(gè)優(yōu)化策略。同時(shí)本文將頻點(diǎn)的信噪比考慮到基于分布式獨(dú)立學(xué)習(xí)的多認(rèn)知用戶動(dòng)態(tài)頻譜接入新算法的獎(jiǎng)賞函數(shù)中,提出了一種優(yōu)化系統(tǒng)容量的新方案,有效地提高了系統(tǒng)的容量,獲得了比較好的效果。參考文獻(xiàn)1 楊曦,郭愛煌,張超,龔增,趙文暉. 認(rèn)知無線電主動(dòng)切換的延時(shí)優(yōu)化J. 電子測量技術(shù),2009,12(09):11-14.2 ALLEN B.MACKENZIE,JEFFREY H.REED,PETER ATHANAS.Cognitive Radio and Networking Research at Virginia TechJ.PROCEE
25、DINGS OF THE IEEE,2009,97(4):660-688.3 吳迎笑,楊震. 基于頻譜感知的認(rèn)知無線電機(jī)會(huì)功率控制算法J. 儀器儀表學(xué)報(bào), 2010,09(06):1235-1240.4 Peha, J.M. Sharing Spectrum Through Spectrum Policy Reform and Cognitive RadioJ. Proceedings of the IEEE, 2009,97(4):708-719.5 HAYK INS . Cognitive radio: brain-empowered wireless communicationsJ .
26、IEEE Journal on Selected Areas in Communications, 2005, 23 (2) : 201-220 . 6 Yang, M., & Grace, D. (2009, June). Cognitive radio with reinforcement learning applied to multicast terrestrial communication systems. In CROWNCOM. Hannover, German.7Mengfei Yang,David Grace.(2010,April). Cognitive radio with reinforcement learning applied to multicast Downlink Transmission with Power Adjustment.In Wireless Pers Commun.8 Huazhong Ning, Wei Xu,Yue Zhou, Yihong Gong,Huang, T. Temp
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 模擬芯片市場分析
- 宿遷輔警考試題庫2025(有答案)
- 2025年山東省環(huán)保發(fā)展集團(tuán)有限公司招聘考試試題(含答案)
- 老年清潔護(hù)理課件
- 老年護(hù)理溝通教學(xué)課件
- 2025年白板市場調(diào)研報(bào)告
- 2025年安全工作述職報(bào)告范例(三)
- 老師健康課件
- 景觀園林彩鋼房安裝與維護(hù)合同
- 餐飲業(yè)員工權(quán)益保護(hù)與勞動(dòng)仲裁協(xié)議
- 職業(yè)行為習(xí)慣課件
- 租賃住房培訓(xùn)課件下載
- 高校智能化教學(xué)評(píng)價(jià)體系變革的技術(shù)創(chuàng)新路徑研究
- 高中復(fù)讀協(xié)議書
- 2024年甘肅省臨澤縣教育局公開招聘試題含答案分析
- 2025-2030中國戊烷發(fā)泡劑市場深度解析及前景運(yùn)行動(dòng)態(tài)研究報(bào)告
- 糖尿病足截肢術(shù)后護(hù)理
- 廣東省東莞市2022-2023學(xué)年高二下學(xué)期期末物理試題(含答案)
- 2024年深圳市中考生物試卷真題(含答案解析)
- 新疆維吾爾自治區(qū)2024年普通高校招生單列類(選考外語)本科二批次投檔情況 (理工)
- 綠化養(yǎng)護(hù)服務(wù)投標(biāo)方案(技術(shù)標(biāo))
評(píng)論
0/150
提交評(píng)論