機器學(xué)習(xí)期末測試練習(xí)題3_第1頁
機器學(xué)習(xí)期末測試練習(xí)題3_第2頁
機器學(xué)習(xí)期末測試練習(xí)題3_第3頁
機器學(xué)習(xí)期末測試練習(xí)題3_第4頁
機器學(xué)習(xí)期末測試練習(xí)題3_第5頁
已閱讀5頁,還剩5頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

、單選題1、以下關(guān)于感知器算法與支持向量機算法說法有誤的是由于支持向量機是基于所有訓(xùn)練數(shù)據(jù)尋找最大化間隔的超平面,而感知器算法卻是相對隨意的找一個分開兩類的超平面,因此大多數(shù)時候,支持向量機畫出的分類面往往比感知器算法好一些。支持向量機是把所有訓(xùn)練數(shù)據(jù)都輸入進計算機,讓計算機解全局優(yōu)化問題感知器算法相比于支持向量機算法消耗的計算資源和內(nèi)存資源更少,但是耗費的計算資源更多以上選項都正確正確答案:C2、假設(shè)你在訓(xùn)練一個線性回歸模型,有下面兩句話:如果數(shù)據(jù)量較少,容易發(fā)生過擬合。如果假設(shè)空間較小,容易發(fā)生過擬合。關(guān)于這兩句話,下列說法正確的是?1正確,2錯誤1和2都錯誤1和2都正確1錯誤,2正確正確答案:A3、下面哪一項不是比較好的學(xué)習(xí)率衰減方法?t表示為epoch數(shù)。a=1%12*t0C.a=0.95方。0正確答案:D4、你正在構(gòu)建一個識別足球(y二1)與籃球(y=0)的二元分類器。你會使用哪一種激活函數(shù)用于輸出層?ReLUtanhsigmoidLeakyReLU正確答案:C5、假設(shè)你建立一個神經(jīng)網(wǎng)絡(luò)。你決定將權(quán)重和偏差初始化為零。以下哪項陳述是正確的?第一個隱藏層中的每個神經(jīng)元將在第一次迭代中執(zhí)行相同的計算。但經(jīng)過一次梯度下降迭代后,他們將會計算出不同的結(jié)果。第一個隱藏層中的每個神經(jīng)元節(jié)點將執(zhí)行相同的計算。所以即使經(jīng)過多次梯度下降迭代后,層中的每個神經(jīng)元節(jié)點都會計算出與其他神經(jīng)元節(jié)點相同的結(jié)果。第一個隱藏層中的每一個神經(jīng)元都會計算出相同的結(jié)果,但是不同層的神經(jīng)元會計算不同的結(jié)果。即使在第一次迭代中,第一個隱藏層的神經(jīng)元也會執(zhí)行不同的計算,他們的參數(shù)將以各自方式進行更新。正確答案:B6、某個神經(jīng)網(wǎng)絡(luò)中所有隱藏層神經(jīng)元使用tanh激活函數(shù)。那么如果使用np.random.randn(…,…)*1000將權(quán)重初始化為相對較大的值。會發(fā)生什么?這不會對訓(xùn)練產(chǎn)生影響。只要隨機初始化權(quán)重,梯度下降不受權(quán)重大小的影響。這會導(dǎo)致tanh的輸入也非常大,從而使梯度也變大。因此,你必須將學(xué)習(xí)率a設(shè)置得非常小以防止發(fā)散。這會減慢網(wǎng)絡(luò)參數(shù)學(xué)習(xí)速度。這會導(dǎo)致tanh的輸入也非常大,從而使梯度接近于零,優(yōu)化算法將因此變得緩慢。這會導(dǎo)致tanh的輸入也非常大,導(dǎo)致神經(jīng)元被“高度激活”,從而加快了學(xué)習(xí)速度。正確答案:C7、以下關(guān)于權(quán)重衰減說法正確的是?權(quán)重衰減通過賦予神經(jīng)元某個權(quán)值從而避免梯度消失當(dāng)數(shù)據(jù)集中有噪聲時,權(quán)重衰減可以在訓(xùn)練中逐漸修正神經(jīng)網(wǎng)絡(luò)的權(quán)重權(quán)重衰減是一種正則化技術(shù),通過懲罰絕對值較大的模型參數(shù)為需要學(xué)習(xí)的模型增加了限制權(quán)重衰減是在訓(xùn)練過程中逐漸減少學(xué)習(xí)率正確答案:C8、當(dāng)你增加正則化超參數(shù)入時會發(fā)生什么?入翻倍后會導(dǎo)致權(quán)重也翻倍使權(quán)重變得更?。ㄚ吔?)每次迭代的梯度下降走的步長更長使權(quán)重變得更大(遠離0)正確答案:B9、對訓(xùn)練數(shù)據(jù)歸一化的根本原因是?歸一化也可以說是一種正則化處理,可以提升模型泛化能力讓模型更快的收斂加快參數(shù)初始化過程更容易對數(shù)據(jù)進行可視化正確答案:B10、如果你訓(xùn)練的模型代價函數(shù)J隨著迭代次數(shù)的增加,繪制出來的圖如下,那么無論你在使用mini-batch還是批量梯度下降,看上去都是合理的如果你正在使用mini-batch梯度下降,那可能有問題;而如果你在使用批量梯度下降,那是合理的如果你正在使用mini-batch梯度下降,那看上去是合理的;而如果你在使用批量梯度下降,那可能有問題無論你在使用mini-batch還是批量梯度下降,都可能有問題正確答案:C11、下圖中的曲線是由:梯度下降,動量梯度下降(B=0.5)和動量梯度下降(P=0.9)。哪條曲線對應(yīng)哪種算法?(1)是梯度下降;(2)是動量梯度下降(B=0.9);(3)是動量梯度下降(B=0.5)(1)是動量梯度下降(B=0.5);(2)是動量梯度下降(B=0.9);(3)是梯度下降(1)是動量梯度下降(P=0.5);(2)是梯度下降;(3)是動量梯度下降邙=0.9)都有可能正確答案:B12、關(guān)于Adam算法,下列哪一個陳述是錯誤的?Adam中的學(xué)習(xí)率超參數(shù)a通常需要調(diào)整Adam優(yōu)化算法常用于批量梯度下降法中,而不是用于隨機(小批量)梯度下降法我們經(jīng)常使用超參數(shù)的默認(rèn)值仇=0.9,B2=0?999,e=10-8Adam結(jié)合了Rmsprop和動量的優(yōu)點正確答案:B13、標(biāo)準(zhǔn)化公式z(i)=4什么要使用e?防止太小為了避免除零操作為了更準(zhǔn)確地標(biāo)準(zhǔn)化為了加速收斂正確答案:B14、在訓(xùn)練了具有批標(biāo)準(zhǔn)化的神經(jīng)網(wǎng)絡(luò)之后,在用新樣本評估神經(jīng)網(wǎng)絡(luò)性能時,應(yīng)該跳過用和§2值標(biāo)準(zhǔn)化的步驟,因為一個樣本不需要標(biāo)準(zhǔn)化使用在訓(xùn)練期間,通過指數(shù)加權(quán)平均值得出的和§2執(zhí)行所需的標(biāo)準(zhǔn)化如果你在batchsize為256的mini-batch上實現(xiàn)了批標(biāo)準(zhǔn)化,那么如果你要在一個測試樣本上進行評估,你應(yīng)該將這個例子重復(fù)256次,這樣你就可以使用和訓(xùn)練時大小相同的mini-batch進行預(yù)測。使用最后一個的mini-batch的和§2值來執(zhí)行所需的標(biāo)準(zhǔn)化正確答案:B15、以下關(guān)于ReLU函數(shù)說法錯誤的是:ReLU函數(shù)的輸出是非零中心化的,給后一層的神經(jīng)網(wǎng)絡(luò)引入偏置偏移,會影響梯度下降的效率ReLU神經(jīng)元在訓(xùn)練時比較容易“死亡”.在訓(xùn)練時,如果參數(shù)在一次不恰當(dāng)?shù)母潞?,第一個隱藏層中的某個ReLU神經(jīng)元在所有的訓(xùn)練數(shù)據(jù)上都不能被激活,那么這個神經(jīng)元自身參數(shù)的梯度永遠都會是0,在以后的訓(xùn)練過程中永遠不能被激活.LeakyReLU在輸入時,保持一個很小的梯度,這樣當(dāng)神經(jīng)元非激活時也能有一個非零的梯度可以更新參數(shù),這在一定程度上緩解了梯度消失問題三個選項均正確正確答案:C二、多選題1、以下關(guān)于感知器算法說法正確的為只要是訓(xùn)練數(shù)據(jù)集線性可分,感知器算法就一定能收斂。感知機學(xué)習(xí)算法存在許多的解,對同一個訓(xùn)練集來說,感知機初值的選擇不同,最后得到的解就可能不同。多層感知器是感知器的推廣,克服了感知器不能對線性不可分?jǐn)?shù)據(jù)進行識別的弱點。當(dāng)訓(xùn)練數(shù)據(jù)集線性不可分的情況下,袋式算法(PocketAlgorithm)使感知機也可以收斂于一個相對理想的解。正確答案:A、B、C、D2、以下屬于機器學(xué)習(xí)中用來防止過擬合的方法的是:權(quán)值衰減Weightdecay增加神經(jīng)網(wǎng)絡(luò)層數(shù)訓(xùn)練多個模型進行融合輸出早停策略正確答案:A、C、D3、為什么最好的mini-batch的大小通常不是1也不是訓(xùn)練集總樣本數(shù)m,而是介于兩者之間?如果mini-batch的大小是1,那么你需要遍歷整個訓(xùn)練集后才能更新一次參數(shù)如果mini-batch的大小是m,就是隨機梯度下降,而這樣做經(jīng)常會比mini-batch慢如果mini-batch的大小是m,就是批量梯度下降。你需要遍歷整個訓(xùn)練集來更新參數(shù)如果mini-batch的大小是1,那么你將失去mini-batch將數(shù)據(jù)矢量化帶來的的好處正確答案:C、D4、批標(biāo)準(zhǔn)化中關(guān)于y和B的以下哪些陳述是正確的?Y和B的值確定了給定的批量歸一化層的輸出變量的均值和方差最佳值是Y=心2十g,B=卩Y和B是算法的超參數(shù),我們通過隨機米樣進彳丁調(diào)整它們的值可以通過Adam、AdaGrad或RMSprop優(yōu)化算法來學(xué)習(xí)正確答案:A、D5、關(guān)于超參數(shù)優(yōu)化的說法正確的有:超參數(shù)優(yōu)化是一個組合優(yōu)化問題,無法像一般參數(shù)那樣通過梯度下降方法來優(yōu)化評估一組超參數(shù)配置的時間代價非常高,從而導(dǎo)致一些優(yōu)化方法(比如演化算法)在超參數(shù)優(yōu)化中難以應(yīng)用采用網(wǎng)格搜索會在不重要的超參數(shù)上進行不必要的嘗試.一種在實踐中比較有效的改進方法是對超參數(shù)進彳隨機組合,然后選取一個性能最好的配置神經(jīng)架構(gòu)搜索(NAS)也是神經(jīng)網(wǎng)絡(luò)超參數(shù)優(yōu)化的一種方法。它的原理是給定一個稱為搜索空間的候選神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)集合,用某種策略從中搜索出最優(yōu)網(wǎng)絡(luò)結(jié)構(gòu)。正確答案:A、B、C、D6、以下屬于權(quán)重初始化方法的有?kaiming初始化均勻分布初始化(uniform)xavier初始化高斯初始化(gaussian)正確答案:A、B、C、D7、神經(jīng)網(wǎng)絡(luò)中常見的超參數(shù)有?隱藏層數(shù)目正則化參數(shù)梯度下降法迭代的步數(shù)批大小正確答案:A、B、C、D8、現(xiàn)在我們增大批量梯度下降中的batchsize超參數(shù),與之前相比可能會發(fā)生什么變化?內(nèi)存利用率提高了,大矩陣乘法的并行化效率提高。跑完一次epoch(全數(shù)據(jù)集)所需的迭代次數(shù)減少,對于相同數(shù)據(jù)量的處理速度進一步加快。同樣的模型要想達到相同的精度,其訓(xùn)練所花費的時間與增大前幾乎相同?!銇碚fbatchSize越大,其確定的下降方向越準(zhǔn),引起訓(xùn)練loss震蕩越小。正確答案:A、B、D三、判斷題1、sigmoid函數(shù)不是關(guān)于原點中心對稱的,這會導(dǎo)致之后的網(wǎng)絡(luò)層的輸出也不是零中心的,進而影響梯度下降運作。tanh激活函數(shù)解決了這個不足。(V)2、Adagrad和RMSprop這兩種自適應(yīng)學(xué)習(xí)率的方式稍有差異,但主要思想都是基于歷史的累計梯度去計算一個當(dāng)前較優(yōu)的學(xué)習(xí)率。(V)3、在標(biāo)準(zhǔn)的隨機梯度下降中,權(quán)重衰減正則化和12正則化的效果相同.因此,權(quán)重衰減在一些深度學(xué)習(xí)框架中通過12正則化來實現(xiàn).但是,在較為復(fù)雜的優(yōu)化方法(比如Adam)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論