基于TD3算法的網(wǎng)聯(lián)汽車隊(duì)列控制研究_第1頁(yè)
基于TD3算法的網(wǎng)聯(lián)汽車隊(duì)列控制研究_第2頁(yè)
基于TD3算法的網(wǎng)聯(lián)汽車隊(duì)列控制研究_第3頁(yè)
基于TD3算法的網(wǎng)聯(lián)汽車隊(duì)列控制研究_第4頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

摘"要:隨著汽車智能化和網(wǎng)聯(lián)化技術(shù)的進(jìn)步,汽車編隊(duì)行駛逐漸成為緩解城市交通擁堵的有效手段之一。為了提高隊(duì)列行駛的安全性和穩(wěn)定性,文章提出了一種基于雙延遲深度確定性策略梯度(TwinDelayedDeepDeterministicPolicyGradient,TD3)算法的網(wǎng)聯(lián)汽車隊(duì)列控制器。該控制器將隊(duì)列間距誤差和速度誤差作為智能體的輸入特征,設(shè)計(jì)了綜合考慮隊(duì)列安全性與穩(wěn)定性的獎(jiǎng)勵(lì)函數(shù),接著在SUMO仿真平臺(tái)中搭建訓(xùn)練場(chǎng)景,并進(jìn)行參數(shù)訓(xùn)練。結(jié)果表明,與模型預(yù)測(cè)控制方法相比,提出的TD3算法在安全行駛性能上有顯著優(yōu)勢(shì)。關(guān)鍵詞:網(wǎng)聯(lián)汽車隊(duì)列;軌跡優(yōu)化;深度強(qiáng)化學(xué)習(xí);模型預(yù)測(cè)控制0"引"言"網(wǎng)聯(lián)汽車隊(duì)列作為智能交通領(lǐng)域的的重要研究方向,因其能夠減少車輛行駛中的空氣阻力、降低能耗并改善環(huán)境污染,逐漸成為高效管理交通的關(guān)鍵手段[1]。在網(wǎng)聯(lián)汽車隊(duì)列中,車輛以期望間距穩(wěn)定行駛,不僅有助于降低交通事故的發(fā)生概率,還能有效提高道路利用率[2]。這種隊(duì)列控制策略對(duì)車輛行駛的安全性、舒適性等指標(biāo)具有重要影響,是實(shí)現(xiàn)智慧交通的核心技術(shù)之一[3]。近年來人工智能技術(shù)的迅猛發(fā)展,深度強(qiáng)化學(xué)習(xí)(DeepReinforcementLearning,DRL)通過與環(huán)境的交互式學(xué)習(xí),能夠自適應(yīng)的優(yōu)化控制策略,在解決復(fù)雜決策問題方面表現(xiàn)出色[4]。在自動(dòng)駕駛領(lǐng)域,DRL已被廣泛應(yīng)用于路徑規(guī)劃、行為決策和控制優(yōu)化等場(chǎng)景中。對(duì)于網(wǎng)聯(lián)汽車隊(duì)列控制問題,基于優(yōu)化的模型預(yù)測(cè)控制(ModelPredictiveControl,MPC)在復(fù)雜環(huán)境下可能面臨計(jì)算效率不足的問題,難以實(shí)現(xiàn)高效的車輛編隊(duì)管理[5]。而深度強(qiáng)化學(xué)習(xí)方法憑借其強(qiáng)大的泛化能力和適應(yīng)性,為解決這些難題提供了一條高效的路徑。本文在SUMO仿真平臺(tái)上構(gòu)建了強(qiáng)化學(xué)習(xí)訓(xùn)練環(huán)境,并基于TensorFlow深度學(xué)習(xí)框架設(shè)計(jì)TD3的隊(duì)列控制器。通過選取縱向間距誤差和速度誤差作為輸入變量,并設(shè)計(jì)針對(duì)安全性和穩(wěn)定性的獎(jiǎng)勵(lì)函數(shù),最終將隊(duì)列行駛所需的加速度作為輸出控制量,從而建立了適用于城市工況下的隊(duì)列控制策略。1"隊(duì)列控制研究現(xiàn)狀網(wǎng)聯(lián)汽車隊(duì)列控制通常包括縱向控制、側(cè)向控制和綜合控制三個(gè)方面??v向控制的主要任務(wù)是使隊(duì)列中的車輛保持安全間距,并在直線道路上實(shí)現(xiàn)跟馳,從而保證隊(duì)列行駛的安全性和舒適性;側(cè)向控制則關(guān)注于實(shí)現(xiàn)隊(duì)列換道、彎道行駛和避障等行為;綜合控制研究是縱向和側(cè)向控制相耦合的方式,需要考慮隊(duì)列在行駛過程中出現(xiàn)的各種因素。針對(duì)上述隊(duì)列控制問題,相關(guān)學(xué)者已經(jīng)提出了多種隊(duì)列控制器,并將其應(yīng)用于不同的交通場(chǎng)景。目前,較為成熟的方法包括基于比例-積分-微分(ProportionIntegrationDifferentiation,PID)控制的隊(duì)列控制方法、基于MPC的隊(duì)列控制方法和基于DRL的隊(duì)列控制方法等。PID控制方法雖然結(jié)構(gòu)簡(jiǎn)單,但在面對(duì)復(fù)雜和多變的行駛環(huán)境時(shí),不能提供足夠的適應(yīng)性和控制精度。Zhenetal.[6]在研究純電動(dòng)車的生態(tài)駕駛軌跡規(guī)劃問題中,首先采用動(dòng)態(tài)規(guī)劃來獲取領(lǐng)航車的期望軌跡,對(duì)于隊(duì)列中的其他車輛使用基于PID的自適應(yīng)巡航控制跟隨前車。Maetal.[7]提出一種基于模擬退火粒子群優(yōu)化算法的MPC方法,建立了包括隊(duì)列車輛經(jīng)濟(jì)性、舒適性和安全性的多目標(biāo)優(yōu)化函數(shù),通過與自適應(yīng)巡航控制進(jìn)行對(duì)比,結(jié)果表明,所提出的MPC方法不僅滿足隊(duì)列安全要求,還在提升燃油經(jīng)濟(jì)性方面表現(xiàn)出色。馬曉帆[8]在進(jìn)行商用車隊(duì)列綜合控制研究時(shí),將所有的跟隨車看作是一個(gè)單獨(dú)智能體,且該智能體的空間狀態(tài)由每輛跟隨車與前車的速度誤差、橫縱向間距誤差等構(gòu)成。接著設(shè)計(jì)了適當(dāng)?shù)莫?jiǎng)勵(lì)函數(shù),采用DRL算法對(duì)智能體進(jìn)行訓(xùn)練,以獲得最優(yōu)的控制策略。2"基于TD3的網(wǎng)聯(lián)汽車隊(duì)列控制策略2.1"TD3算法目標(biāo)網(wǎng)絡(luò)的參數(shù)并不是直接復(fù)制當(dāng)前網(wǎng)絡(luò)的參數(shù),而是通過一個(gè)軟更新的方式,逐步調(diào)整目標(biāo)網(wǎng)絡(luò)的參數(shù)向當(dāng)前網(wǎng)絡(luò)的參數(shù)靠近。具體來說,目標(biāo)網(wǎng)絡(luò)的參數(shù)在每次更新時(shí)會(huì)按照一個(gè)較小的步長(zhǎng)進(jìn)行更新,從而避免訓(xùn)練過程中的劇烈波動(dòng)。這種軟更新機(jī)制有助于保持訓(xùn)練過程的穩(wěn)定性,進(jìn)而提高算法的收斂性。更新方式如公式(5)所示:3"仿真結(jié)果與分析3.1"參數(shù)與訓(xùn)練結(jié)果為驗(yàn)證提出的TD3算法的有效性,選擇SUMO作為強(qiáng)化學(xué)習(xí)的訓(xùn)練和驗(yàn)證環(huán)境,并采用Tensorflow深度學(xué)習(xí)框架設(shè)計(jì)TD3算法。通過Traci(TrafficControlInterface)接口實(shí)現(xiàn)SUMO環(huán)境與PyCharm編譯器之間的數(shù)據(jù)。TD3算法的主要參數(shù)如表1所示。根據(jù)上述參數(shù),訓(xùn)練得到的累計(jì)獎(jiǎng)勵(lì)值如圖4所示。在前50輪的訓(xùn)練中,由于Actor網(wǎng)絡(luò)尚未進(jìn)行充分優(yōu)化,輸出的動(dòng)作較為隨機(jī),且受到噪聲的影響,導(dǎo)致獎(jiǎng)勵(lì)值較低。隨著訓(xùn)練回合次數(shù)增加,獎(jiǎng)勵(lì)值逐漸上升,在200輪左右趨于穩(wěn)定。訓(xùn)練結(jié)果表明,所設(shè)計(jì)的深度強(qiáng)化學(xué)習(xí)算法在隊(duì)列控制已展現(xiàn)出較優(yōu)的效果。3.2"模型預(yù)測(cè)控制為了與提出的TD3方法進(jìn)行對(duì)比,本文建立了一種分布式模型預(yù)測(cè)控制的隊(duì)列控制器。模型預(yù)測(cè)的核心思想是根據(jù)當(dāng)前車輛及前車的狀態(tài)和動(dòng)力學(xué)特性,預(yù)測(cè)未來一段時(shí)間內(nèi)跟隨車的行駛軌跡,并通過優(yōu)化在預(yù)測(cè)時(shí)域內(nèi)的控制輸入,從而實(shí)現(xiàn)車輛的最優(yōu)控制。MPC隊(duì)列控制的目標(biāo)函數(shù)如公式(11)所示,通過優(yōu)化在預(yù)測(cè)時(shí)域T內(nèi)跟隨車與前車的間距誤差、速度誤差和加速度變化量得到最優(yōu)控制序列,并將序列中第一個(gè)控制值作為下一時(shí)刻車輛的加速度。3.3"結(jié)果分析由于在隊(duì)列控制策略中未考慮領(lǐng)航車的速度規(guī)劃,本文選擇城市工況FTP75(FederalTestProcedure)中的部分工況作為領(lǐng)航車的行駛工況,以驗(yàn)證隊(duì)列控制方法的性能。FTP75工況的步長(zhǎng)為1秒,與仿真步長(zhǎng)不一致,因此需要對(duì)工況數(shù)據(jù)進(jìn)行插值處理,結(jié)果如圖5所示。在FTP75部分工況下,隊(duì)列行駛的速度曲線如圖6和圖7所示。在MPC和TD3控制策略下,當(dāng)領(lǐng)航車的速度發(fā)生變化時(shí),跟隨車能夠及時(shí)做出響應(yīng)。在100秒左右,領(lǐng)航車狀態(tài)由減速變?yōu)榧铀伲cMPC控制策略相比,TD3策略下隊(duì)列的速度變化更為迅速。原因在于,MPC的目標(biāo)中考慮了加速度變化量,而TD3策略則沒有。因此,在MPC控制下,隊(duì)列加速度變化較為緩慢,導(dǎo)致隊(duì)尾車輛的速度未能及時(shí)根據(jù)前車狀態(tài)進(jìn)行調(diào)整。根據(jù)圖8和圖9所示的隊(duì)列行駛間距誤差曲線,TD3策略下的間距誤差范圍小于MPC控制下的間距誤差,因此TD3策略具有更好的安全性能。由于本文選擇的隊(duì)列拓?fù)浣Y(jié)構(gòu)是PF(PredecessorFollowing),即跟隨車1的速度是直接受到領(lǐng)航車0速度變化的影響,而后續(xù)跟隨車間接受到領(lǐng)航車的影響,因此在兩種隊(duì)列控制方法中,跟隨車1的間距誤差通常大于其他跟隨車的間距誤差。在MPC控制下,跟隨車1的間距誤差在±1米以內(nèi),其他跟隨車的間距誤差保持在±0.6米以內(nèi);在TD3控制下,跟隨車1的間距誤差在±0.6米以內(nèi),其余跟隨車的間距誤差在±0.2米以內(nèi),且相較于MPC間距誤差變化更加穩(wěn)定。隊(duì)列速度誤差如圖10和圖11所示。在MPC和TD3控制策略下,跟隨車1的速度誤差范圍均在±0.5km/h內(nèi),而在TD3策略中,其他跟隨車的速度誤差更小,范圍為±0.3km/h。在40秒時(shí),領(lǐng)航車減速,圖9中的跟隨車的速度誤差較大;而在圖10中,除跟隨車1外,其他跟隨車速度誤差保持在一個(gè)穩(wěn)定范圍。這表明TD3隊(duì)列策略在領(lǐng)航車速度發(fā)生變化時(shí),能夠確保隊(duì)列中跟隨車對(duì)前車有良好的速度跟隨表現(xiàn)。4"結(jié)"論"本文探討了一種基于深度強(qiáng)化學(xué)習(xí)的

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論