




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第python爬取網(wǎng)易云音樂(lè)排行榜實(shí)例代碼目錄網(wǎng)易云音樂(lè)排行榜歌曲及評(píng)論爬取一、模擬登錄二、排行榜數(shù)據(jù)爬取三、排行榜評(píng)論獲取總結(jié)
網(wǎng)易云音樂(lè)排行榜歌曲及評(píng)論爬取
主要注意問(wèn)題:selenium模擬登錄、iframe標(biāo)簽定位、頁(yè)面元素提取。
在利用selenium定位元素并取值的過(guò)程中遇到問(wèn)題。比如xpath正確但無(wú)法定位,在進(jìn)行翻頁(yè)提取評(píng)論的過(guò)程中,利用selenium似乎不能提取不同頁(yè)的數(shù)據(jù),比如,明明定位的第三頁(yè)的評(píng)論數(shù)據(jù),而只能返回第一頁(yè)的評(píng)論數(shù)據(jù)。
一、模擬登錄
selenium定位元素模擬人的操作進(jìn)行登錄,直接上代碼:
//模擬登錄
importpandasaspd
fromseleniumimportwebdriver
fromselenium.webdriver.support.uiimportWebDriverWait
frommon.byimportBy
fromselenium.webdriver.supportimportexpected_conditionsasEC
fromselenium.webdriver.chrome.optionsimportOptions
fromselenium.webdriverimportActionChains
fromlxmlimportetree
importtime
fromdatetimeimportdatetime,timedelta
wyy_url='/'
driver=webdriver.Chrome()
driver.get(wyy_url)
driver.maximize_window()#全屏
time.sleep(2)
driver.find_element_by_xpath("http://a[@class='links-fc3']").click()
time.sleep(2)
driver.find_element_by_xpath("http://a[@]").click()#選擇其他方式登錄
#賬號(hào)、密碼登錄
driver.find_element_by_xpath("http://input[@type='checkbox']").click()#同意條款
time.sleep(0.5)
driver.find_element_by_xpath("http://a[@]").click()
#選擇手機(jī)號(hào)密碼登錄
driver.find_element_by_xpath("http://a[@]").click()
time.sleep(1)
driver.find_element_by_id("p").send_keys('xxx')#這里輸入你的id
driver.find_element_by_id("pw").send_keys('xxx')#這里輸入密碼
time.sleep(1)
#點(diǎn)擊登錄
driver.find_element_by_xpath("http://a[@]").click()
time.sleep(1)
二、排行榜數(shù)據(jù)爬取
當(dāng)時(shí)嘗試直接用selenium定位標(biāo)簽取值,并沒(méi)有返回有效結(jié)果。在后面爬取評(píng)論時(shí),也遇到此問(wèn)題。于是先獲取頁(yè)面內(nèi)容在進(jìn)行分析。
//排行榜
base_url="/#/discover/toplistid="
bang_typical={'飆升榜':19723756,'新歌榜':3779629,'原創(chuàng)榜':2884035,'熱歌榜':3778678}
#選擇榜單
bang=input('請(qǐng)輸入榜單:')
#構(gòu)造榜單對(duì)應(yīng)的鏈接
url=base_url+str(bang_typical[bang])
print('開(kāi)始分析:-%s'%(bang))
#進(jìn)入榜單
driver.get(url)
time.sleep(3)
#iframe標(biāo)簽定位,必要的,否則無(wú)法定位其他標(biāo)簽
_iframe=driver.find_element_by_xpath("http://iframe[@id='g_iframe']")#找到iframe標(biāo)簽
driver.switch_to.frame(_iframe)
time.sleep(1)
page_text=driver.execute_script("returndocument.documentElement.outerHTML")
#獲取頁(yè)面
html=etree.HTML(page_text)
trs=html.xpath('//tbody/tr')
rank_list=[]
title_list=[]
span_list=[]
singer_list=[]
fortrintrs:
rank=tr.xpath(".//span[@]/text()")[0]#注意xpath獲取到的是列表,需提取其元素
title=tr.xpath(".//b/@title")[0]
span=tr.xpath(".//td[@]/span[@]/text()")[0]
singer=tr.xpath(".//div[@]/span/@title")[0]
rank_list.append(rank)
title_list.append(title)
span_list.append(span)
singer_list.append(singer)
#輸出榜單結(jié)果
df_bang=pd.DataFrame({'排名':rank_list,'歌名':title_list,'時(shí)長(zhǎng)':span_list,'歌手':singer_list})
三、排行榜評(píng)論獲取
主要是評(píng)論日期的格式轉(zhuǎn)換,評(píng)論內(nèi)容的清洗
//評(píng)論
#日期清洗函數(shù)
defchange_time(time):
now=datetime.now()
day_y=datetime.strftime(now-timedelta(1),'%Y-%m-%d')#計(jì)算昨天
day=now.strftime('%Y-%m-%d')
year=now.strftime('%Y')
if'年'intime:#非今年
new_time=time.replace('年','-').replace('月','-').replace('日','')
elif'昨天'intime:
new_time=time.replace('昨天',day_y+'')
elif'前'intime:#前天
minut=int(time[:time.index('分')])
new_time=(now+timedelta(minutes=-minut)).strftime('%Y-%m-%d%H:%M')
eliflen(time)==5:#今天
new_time=day+''+time
else:#最近**月**日**:**
y='2025-'
time=time.replace('月','-').replace('日','')
new_time=y+time
returnnew_time
#評(píng)論清洗
defchange_review(r):
if':'inr:
r_=r.split(':')[1]
else:
r_=r
returnr_
#評(píng)論點(diǎn)贊
defchange_likes(l):
ifl!=[]:
l_=int(l.split('(')[1].split(')')[0])
else:
l_=0
returnl_
#拉動(dòng)滾動(dòng)條至翻頁(yè)按鈕處
driver.execute_script("window.scrollTo(0,document.body.scrollHeight)")
#獲取頁(yè)面信息
num=input('請(qǐng)輸入需要爬取的頁(yè)面總數(shù):')#想要爬取評(píng)論的頁(yè)數(shù),
#這里的思路是先通過(guò)翻頁(yè)將獲取到的所有頁(yè)面的所有內(nèi)容存至列表,再對(duì)列表遍歷。
#因?yàn)楫?dāng)時(shí)直接用selenium定位返回結(jié)果不對(duì),當(dāng)然你們也可以用selenium直接試試。
html_list=[]
foriinrange(int(num)):
page_text=driver.execute_script("returndocument.documentElement.outerHTML")
html=etree.HTML(page_text)#獲取頁(yè)面
html_list.append(html)
driver.find_elements_by_xpath("http://div[contains(@class,'u')]/a")[-1].click()
time.sleep(4)
WebDriverWait(driver,300,0.1).until(EC.presence_of_element_located((By.XPATH,"http://div[@]")))
print(f'第{i+1}頁(yè)爬取成功')
rev_list=[]#所有評(píng)論的列表
dat_list=[]#對(duì)應(yīng)日期的列表
forreview_pageinhtml_list:
raw_reviews=review_page.xpath("http://div[@]//div[@]/text()")#提取頁(yè)面所有評(píng)論
raw_reviews_=[iforiinraw_reviewsif":"ini]#保證長(zhǎng)度一致
rv_date=review_page.xpath("http://div[@]//div[@]/div[@]/div[@]/text()")
review_list=[change_review(r)forrinraw_reviews_]
date_list=[change_
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025貴州遵義茅臺(tái)機(jī)場(chǎng)有限責(zé)任公司招聘12人筆試歷年參考題庫(kù)附帶答案詳解
- 江蘇省蘇州市蘇州工業(yè)園區(qū)2024-2025學(xué)年七年級(jí)下學(xué)期期末語(yǔ)文試題
- 大學(xué)生健康網(wǎng)絡(luò)構(gòu)建路徑
- 動(dòng)漫介紹課件圖片素材
- 2025年中國(guó)濟(jì)南市智慧燈桿市場(chǎng)全面調(diào)研及行業(yè)投資潛力預(yù)測(cè)報(bào)告
- 2025年中國(guó)生物轉(zhuǎn)盤(pán)行業(yè)市場(chǎng)發(fā)展監(jiān)測(cè)及投資戰(zhàn)略咨詢報(bào)告
- 2025年服務(wù)機(jī)器人項(xiàng)目立項(xiàng)申請(qǐng)報(bào)告
- 2022-2027年中國(guó)木材行業(yè)市場(chǎng)供需現(xiàn)狀及投資戰(zhàn)略研究報(bào)告
- 市管企業(yè)安全生產(chǎn)監(jiān)督管理暫行辦法
- 網(wǎng)絡(luò)安全等級(jí)保護(hù)工作會(huì)議
- 中藥濕敷技術(shù)
- 2023年上海市教師招聘考試《教育心理學(xué)》考前模擬題及答案
- DLT-969-2023年變電站運(yùn)行導(dǎo)則
- ZAPI交流故障表 薩牌代碼
- 《健康經(jīng)濟(jì)學(xué)》課件Chapter16
- 兒童用藥劑量
- 2023年感動(dòng)中國(guó)十大人物頒獎(jiǎng)詞-范文匯編
- 人教版高中化學(xué)必修1教師用書(shū)
- 四員一長(zhǎng)抽考題庫(kù)
- 魯班獎(jiǎng)大型游樂(lè)場(chǎng)施工組織設(shè)計(jì)
- 牛津譯林版小學(xué)英語(yǔ)二年級(jí)下冊(cè)同步練習(xí)試題(全冊(cè))
評(píng)論
0/150
提交評(píng)論