




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
目錄
1引言............................................................................................................................1
1.1項目背景......................................................................................................1
1.2開發(fā)環(huán)境與工具..........................................................................................2
1.2.1Python簡介..........................................................................................2
1.2.2MySQL簡介............................................................................................2
1.2.3Jypyternotebook簡介......................................................................3
1.2.4Python第三方庫簡介..........................................................................3
1.2.5WampServer簡介................................................................................4
2需求分析....................................................................................................................4
2.1可行性需求分析..........................................................................................4
2.2采集目標功能分析......................................................................................5
2.3關(guān)鍵技術(shù)分析..............................................................................................5
2.3.1網(wǎng)絡(luò)爬蟲技術(shù).......................................................................................5
2.3.2文件存取技術(shù).......................................................................................7
2.3.3可視化技術(shù)...........................................................................................7
3數(shù)據(jù)采集....................................................................................................................8
3.1采集頁面分析..............................................................................................8
3.2字段分析......................................................................................................9
3.3編程實現(xiàn)......................................................................................................9
4數(shù)據(jù)清洗與處理......................................................................................................11
4.1數(shù)據(jù)清洗....................................................................................................11
4.2數(shù)據(jù)儲存....................................................................................................11
4.3編程實現(xiàn)....................................................................................................12
5數(shù)據(jù)統(tǒng)計與分析......................................................................................................13
5.1數(shù)據(jù)準備....................................................................................................13
5.2數(shù)據(jù)展示....................................................................................................14
5.2.1依據(jù)新聞發(fā)布媒體進行統(tǒng)計.............................................................14
I
5.2.2依據(jù)新聞內(nèi)容詞云進行統(tǒng)計.............................................................15
5.2.3依據(jù)新聞點擊量進行統(tǒng)計和分析.....................................................16
5.2.4依據(jù)新聞發(fā)布地進行統(tǒng)計.................................................................17
5.3綜述............................................................................................................18
6小結(jié)..........................................................................................................................18
參考資料.........................................................................................................................20
II
網(wǎng)易新聞網(wǎng)站數(shù)據(jù)分析與展示
1引言
隨著信息技術(shù)的高速發(fā)展,我國社會已大邁步進入了信息時代,在我們?nèi)?/p>
常的生活中每時每刻都產(chǎn)生著大量的數(shù)據(jù),然而這些數(shù)據(jù)中有的是蘊藏著大量
的價值與資源,如何發(fā)掘這些數(shù)據(jù)的價值與運用成了關(guān)鍵的問題,于是大數(shù)據(jù)
技術(shù)就應(yīng)運而生了。通過大數(shù)據(jù)的采集、分析就可以清晰的展現(xiàn)這些數(shù)據(jù)所蘊
含的規(guī)律與潛在的價值,這些資源也可以提供給決策者,方便其更清楚的觀察
出事物的本質(zhì)規(guī)律并做出正確的決策方向。
在我們平時的生活中總是會有許許多多的事情發(fā)生,然而所發(fā)生的事情必
然會伴隨著數(shù)據(jù)的產(chǎn)生,想要收集這些數(shù)據(jù)就要通過新聞的傳播來獲取,再分
析這些數(shù)據(jù)就可以觀察出我們?nèi)粘30l(fā)生的事情與一些重大事件的關(guān)注度,便
可分析出廣大人民群眾的需求。
1.1項目背景
新聞是體現(xiàn)一個國家人民生活水平的鏡子,通過每日新聞的更新與每條新
聞的點擊量就可以觀察出人們平時生活中比較關(guān)注的時事,從而就可以看出人
們的生活狀態(tài)。
對于一個媒體公司,知道廣大用戶群體比較關(guān)注的新聞,以及比較感興趣
的話題是至關(guān)重要的,可以通過用戶所喜聞樂見的話題來推送相關(guān)的新聞就可
以提高用戶對本網(wǎng)站的點擊量及用戶黏度,從而可以更好的運營本網(wǎng)站。
涉及到各類新聞的信息有很多,我們首先要對網(wǎng)頁進行網(wǎng)頁解析,再來通
過python網(wǎng)絡(luò)爬蟲的方式來大量的獲取我們需要的數(shù)據(jù),然后在通過可視化技
術(shù),將這些數(shù)據(jù)轉(zhuǎn)化成一張張清晰的圖表,從而來進行觀察。
我的畢業(yè)設(shè)計是對新聞網(wǎng)站收集的數(shù)據(jù)進行分析和呈現(xiàn)的綜合工作。該項
目旨在了解大部分新聞的來源出處、內(nèi)容和點擊量。數(shù)據(jù)分析將包括對熱點話
題的點擊量、用戶參與度和內(nèi)容主題的分析。該項目的顯示部分將涉及創(chuàng)建可
視化,以有效地傳達從數(shù)據(jù)分析中獲得的見解。該項目將為新聞網(wǎng)站如何改以
更好地為受眾服務(wù)提供有價值的參考。
1
1.2開發(fā)環(huán)境與工具
1.2.1Python簡介
Python是荷蘭的吉多·范·羅斯姆在1989年發(fā)明并于1991年發(fā)布的。該
軟件使用方便,易于學(xué)習(xí),所編制的程序具有簡潔、易讀、易維護的特點。Python
最初主要用于系統(tǒng)維護和網(wǎng)頁制作,但在大數(shù)據(jù)時代,以及數(shù)據(jù)挖掘、機器學(xué)
習(xí)、人工智能等技術(shù)的興起,推動了它向數(shù)據(jù)科學(xué)的方向發(fā)展。
Python也有大量的第三方模塊供用戶在數(shù)據(jù)科學(xué)領(lǐng)域進行工作。比如,在
數(shù)據(jù)處理和統(tǒng)計分析中使用了圖形、統(tǒng)計模型、科學(xué)模型等模塊;
用Matplotlib,Seaborn,Bokeh等模塊對數(shù)據(jù)進行可視化處理;如sklearn,
PyML,Keras,TensorFlow等,用于進行數(shù)據(jù)挖掘,深度學(xué)習(xí)等運算。
近年來,Python語言逐步成熟,眾多的開源軟件和插件極大地豐富了
Python的開發(fā)生態(tài)。這些Python開源軟件和插件涵蓋科學(xué)計算、語言處理、文
本挖掘、圖像處理等,極大地方便了開發(fā)人員進行各種開發(fā),因此得到了越來
越多開發(fā)人員的追捧。
Python是目前最具發(fā)展?jié)摿Φ囊环N語言,而爬行系統(tǒng)是獲取網(wǎng)絡(luò)大數(shù)據(jù)的
一種重要方式,其設(shè)計、實現(xiàn)與構(gòu)建的恰當(dāng)?shù)呐佬邢到y(tǒng),將直接影響到整個網(wǎng)
絡(luò)大數(shù)據(jù)架構(gòu)的集成。所以,選用Python語言來實現(xiàn)Internet大數(shù)據(jù)收集技
術(shù),有一定的現(xiàn)實意義和必要性。
1.2.2MySQL簡介
MySQL是一種開放源代碼的關(guān)系型數(shù)據(jù)庫管理系統(tǒng),因為是開放源代碼的,
在下載后可以根據(jù)自己的需求進行必要的修改。因為MySQL體積小,速度快,
成本低,尤其是它還具有開源的特性,所以很多中小型網(wǎng)站為了降低網(wǎng)站的整
體成本,都會選擇MySQL作為自己的網(wǎng)站的數(shù)據(jù)庫。
MySQL的海豚標識名為“sakila”,是MySQLAB的創(chuàng)立者從眾多“海豚命名”
比賽中推薦的名稱中挑選出來的。這個小海豚象征著這個數(shù)據(jù)庫的讀取、存取
速度以及準確的含義。MySQL由于它的開源性被廣泛傳播,也讓更多的人了解到
這個數(shù)據(jù)庫。
同時,Mysql還具有很多的優(yōu)勢和特性,這使得它得到了人們的普遍認可。
源碼是開源的,沒有版權(quán)限制,具有很強的獨立性和很低的使用成本;歷史悠
久,社區(qū)和用戶十分活躍,一旦出現(xiàn)問題,能迅速得到幫助;該軟件具有尺寸
2
小、安裝和使用方便、維護方便、安裝和維護費用低等特點;支持多個操作系
統(tǒng),多個API界面,多個開發(fā)語言。
1.2.3Jypyternotebook簡介
JupyterNotebook是基于Web技術(shù)的交互式計算文檔格式,支持Markdown
和Latex語法,支持代碼運行、文本輸入、數(shù)學(xué)公式編輯、內(nèi)嵌式畫圖和其他
如圖片文件的插入等功能的對代碼友好的交互式筆記本。
JupyterNotebook是以網(wǎng)頁的方式打開的,你可以在這個頁面上寫代碼,
然后在這個頁面上運行,然后把運行的結(jié)果直接顯示在代碼塊下面。在這本書
中,各種互動的計算,書寫的指令文件,數(shù)學(xué)公式,圖片,以及其它豐富的媒
體信息,都以文件的形式呈現(xiàn)出來。這些文檔以JSON格式存儲,并以.ipynb
為后綴,不僅便于版本控制,也方便與他人共享。
JupyterNootebook的主要特征是在程序中使用語法突出顯示,縮進,標簽
填充等功能;您可以在瀏覽器中直接執(zhí)行此程式碼,并將執(zhí)行結(jié)果顯示在程式
碼的下方;將計算結(jié)果以豐富的媒體形式顯示出來;在編寫指令文件或聲明時,
支持標記文法;支持使用LaTex進行數(shù)學(xué)描述。
1.2.4Python第三方庫簡介
Requests庫:是用python語言編寫,比urllib更加的方便,節(jié)約工作量
且滿足HTTP測試需求。
Pandas庫:數(shù)據(jù)分析“三劍客之一”,能夠快速從不同文件中加載數(shù)據(jù),
將其轉(zhuǎn)化成可處理的對象。
Numpy庫:支持更高維度的數(shù)組和矩陣運算,以及更豐富的數(shù)學(xué)函數(shù)
Json庫:是一種輕量級的數(shù)據(jù)交換格式,易于人閱讀和編寫。
Re庫:又稱為正則表達式庫,是python的標準庫,主要用于字符串的匹配。
MatplotlibLibrary:這是一款python2D繪制工具,用于在多個硬拷貝格
式的情況下,為用戶提供高質(zhì)量的圖片。
PyechartsLibrary:這是百度開放的一種數(shù)據(jù)可視化JS庫,可以用來產(chǎn)生
Echarts圖。
Sqlalchemy庫:是一個python語言實現(xiàn)的針對關(guān)系型數(shù)據(jù)庫的orm庫,可
用于連接大多數(shù)常用的數(shù)據(jù)庫。
Wordcloud、Scipy、Jieba庫:用于生成中文的詞云圖。
3
1.2.5WampServer簡介
WampServer是一款免費的WindowsWeb開發(fā)平臺,能夠幫助用戶快速且容
易地架設(shè)屬于自己的Web服務(wù)器,允許用戶訪問數(shù)據(jù)庫,使用PHP等語言來創(chuàng)
建動態(tài)Web網(wǎng)站并進行管理。WampServer包含了Apache,MySQL和PHP的最新
版本,可以幫助用戶高效地開發(fā)和測試Web應(yīng)用,幫助用戶在本地創(chuàng)建和管理
Web網(wǎng)站,由ApacheWeb服務(wù)器,MySQL數(shù)據(jù)庫和PHP等語言組成的開發(fā)環(huán)境。
它能夠安裝Apache、MySQL和PHP,并將這些服務(wù)都集中管理,使他們之間保持
同步。它也可以為所有的應(yīng)用提供一個快速、安全的開發(fā)環(huán)境,幫助用戶把網(wǎng)
站上線更快。
同樣地,WampServer也是一款輕量級的Web服務(wù)器,它集成了Apache、
MySQL和PHP等多種網(wǎng)絡(luò)服務(wù),可以幫助用戶快速架設(shè)Web服務(wù)器,節(jié)省時間。
它還能支持多種數(shù)據(jù)庫類型,可以提供安全的數(shù)據(jù)處理環(huán)境。此外,WampServer
還能為用戶提供在線更新服務(wù),可以隨時更新最新版本的網(wǎng)絡(luò)服務(wù),使網(wǎng)站的
運行更加穩(wěn)定可靠。
2需求分析
2.1可行性需求分析
1、技術(shù)可行性
在本次項目中使用的是python這門通俗易懂的面向?qū)ο裾Z言進行數(shù)據(jù)的
采集、數(shù)據(jù)清洗預(yù)處理和數(shù)據(jù)可視化。python在數(shù)據(jù)采集方面也是有著先天的
優(yōu)勢,開發(fā)速度快捷,使用的代碼量少;擁有非常多的數(shù)據(jù)處理包;可以采集
百萬級別的數(shù)據(jù)量等。
在當(dāng)今這個數(shù)據(jù)驅(qū)動的新聞時代,利用Python進行新聞網(wǎng)站數(shù)據(jù)分析和展
示是一個很可靠的技術(shù)方案。Python有良好的靈活性和易用性,并且是開源的,
可以大大降低成本。Python擁有一系列的數(shù)據(jù)處理和分析工具,可以幫助新聞
網(wǎng)站來抓取,處理和管理各種數(shù)據(jù),而且可以通過使用統(tǒng)計方法進行分析,實
現(xiàn)數(shù)據(jù)可視化等。此外,Python也有一些優(yōu)秀的工具,可以幫助新聞網(wǎng)站設(shè)計
及開發(fā)出更多功能,從而提升數(shù)據(jù)分析和展示的效率??傊琍ython對新聞網(wǎng)
站分析和展示有著重要的作用,使用它可以實現(xiàn)有效的數(shù)據(jù)分析和展示。
2、項目可行性
每日的新聞中總是跟進當(dāng)天最新的消息,比如某某科研取得最新進展,某某
4
團隊開發(fā)了最新的產(chǎn)品,哪個地區(qū)發(fā)生了什么事等等,通過觀察分析這些新聞
實例,不難發(fā)現(xiàn)其中其實是蘊藏著大量的有價值的信息,這對于企業(yè)的決策者
來說,這其中的信息就是很好的引導(dǎo)企業(yè)未來的走向的航標,若是能把握住這
些資源就可以實現(xiàn)巨大的進展。
本次項目通過采集網(wǎng)易新聞網(wǎng)站的數(shù)據(jù),來分析不同話題新聞的發(fā)布報社網(wǎng)
站、各類新聞中多次提到的關(guān)鍵內(nèi)容、各類新聞的點擊量以及新聞發(fā)布地的統(tǒng)
計數(shù)據(jù),通過這些數(shù)據(jù)的分析來總結(jié)出有價值的信息,并將其可視化根據(jù)結(jié)果
來得出結(jié)論。
2.2采集目標功能分析
本次項目的數(shù)據(jù)來源是網(wǎng)易新聞網(wǎng)站,通過python爬蟲技術(shù)爬取網(wǎng)易新聞
網(wǎng)站中的部分信息,爬取完后大致的檢查完數(shù)據(jù)后,確定其來源確實是網(wǎng)易新
聞網(wǎng)站中的新聞信息。
通過分析網(wǎng)易新聞網(wǎng)站的網(wǎng)頁信息,可以確定我們需要通過網(wǎng)頁上的各類
新聞的導(dǎo)航欄來分類獲取新聞數(shù)據(jù),需要爬取的新聞數(shù)據(jù)有新聞內(nèi)容、新聞來
源、新聞發(fā)布地以及新聞點擊量,對獲取的原始數(shù)據(jù)進行預(yù)處理后,我們再來
進行不同角度的分析。例如,從新聞的點擊量,我們可以看出哪類新聞是當(dāng)今
時事熱點,哪些是廣大用戶所感興趣的內(nèi)容,從中我們可以看出人們對什么比
較感興趣,就可以根據(jù)這些結(jié)果來對用戶推送相關(guān)的內(nèi)容。
2.3關(guān)鍵技術(shù)分析
2.3.1網(wǎng)絡(luò)爬蟲技術(shù)
網(wǎng)路爬行技術(shù)源自網(wǎng)路搜尋引擎,其目的是收集網(wǎng)路上可連結(jié)網(wǎng)址所指的
網(wǎng)頁或資源的資訊內(nèi)容。爬行技術(shù)經(jīng)歷了漫長的發(fā)展歷程,其應(yīng)用領(lǐng)域日益廣
泛。當(dāng)需要自動化地從因特網(wǎng)上收集海量的網(wǎng)頁時,爬蟲技術(shù)是必不可少的。
爬蟲技術(shù)的應(yīng)用可以分為兩大類,分別稱為收集式爬蟲和監(jiān)測型爬蟲。
收集式爬蟲是當(dāng)前應(yīng)用最為廣泛的一種搜索爬蟲技術(shù)。該爬行程序基于搜
索引擎爬行技術(shù),對爬行范圍、爬行意圖等進行了不同程度的限制,并由此衍
生出了許多新的應(yīng)用程序。以下列出了幾個收集爬行器的用途。
(1)Internet搜索引擎:在Internet搜索引擎中,爬行技術(shù)是其核心技術(shù)。
無論是一般的搜索引擎,還是垂直搜索引擎系統(tǒng),它所擁有的大量的數(shù)據(jù),都
來自于網(wǎng)絡(luò)上的各個應(yīng)用,利用爬蟲技術(shù),可以及時、全面地收集網(wǎng)絡(luò)上的網(wǎng)
5
頁信息,這樣就可以讓搜索引擎系統(tǒng)的數(shù)據(jù)不斷更新,更好地為用戶提供查詢
服務(wù)。
(2)網(wǎng)絡(luò)輿情監(jiān)測:這是目前的一個熱門應(yīng)用,通過對網(wǎng)絡(luò)上某些特定網(wǎng)
站的網(wǎng)頁進行信息提取,情感詞過濾,智能聚類分類,主題檢測,主題聚焦,
統(tǒng)計分析等處理,得出關(guān)于輿情態(tài)勢判斷的分析報告。目前,典型的網(wǎng)絡(luò)輿情
監(jiān)控系統(tǒng)能夠?qū)崿F(xiàn)的監(jiān)控效果,都是由其對網(wǎng)絡(luò)信息的獲取能力決定的,具體
包含了以下幾個方面:網(wǎng)頁獲取時的并發(fā)能力、對靜態(tài)網(wǎng)頁和動態(tài)網(wǎng)頁的獲取
能力、實時網(wǎng)頁數(shù)據(jù)的獲取能力等。
(3)社會媒體的評論信息監(jiān)控:伴隨著社會媒體在網(wǎng)絡(luò)中的廣泛使用,大
量的評論類網(wǎng)頁涌現(xiàn)出來,及時、完整地收集這些網(wǎng)頁,可以獲得豐富的用戶
偏好、用戶行為等信息,是個性化推薦、用戶行為研究與應(yīng)用的重要依據(jù)。如
現(xiàn)在的各類電子商務(wù)網(wǎng)站上的商品購買評論的自動收集,校園BBS網(wǎng)頁的收集,
都是這一類。
另一類應(yīng)用是監(jiān)測型爬蟲,這類爬蟲不是以采集信息為主要目標,并非要
采集盡可能多的信息,而是利用爬蟲在內(nèi)容采集和分析方面的能力對服務(wù)器的
信息內(nèi)容進行監(jiān)測,因此對爬蟲和服務(wù)器的交互能力提出了更多要求。其典型
的應(yīng)用包括應(yīng)用安全監(jiān)測和內(nèi)容安全監(jiān)測。
(1)應(yīng)用安全監(jiān)控:在網(wǎng)絡(luò)信息安全中,應(yīng)用層安全是一個非常重要的問
題,它與特定的應(yīng)用有著非常緊密的聯(lián)系。作為網(wǎng)絡(luò)應(yīng)用程序的主要用戶,瀏
覽器的操作主要依賴于用戶的點擊率、數(shù)據(jù)錄入,且操作過程中存在一定的安
全隱患,嚴重影響了應(yīng)用程序安全監(jiān)控的效率與時效性。而在此基礎(chǔ)上建立的
網(wǎng)絡(luò)爬蟲技術(shù),將大大改善這一現(xiàn)狀。監(jiān)控是指當(dāng)爬行器獲得一個網(wǎng)頁后,對
網(wǎng)頁中所含的動態(tài)腳本的特性進行分析。SQL注入也是一種普遍存在的安全隱患,
它可以利用爬行程序?qū)Ρ槐O(jiān)控的網(wǎng)絡(luò)服務(wù)器發(fā)出一個查詢指令,然后由返回的
結(jié)果來判定是否安全。
(2)內(nèi)容安全監(jiān)測:內(nèi)容安全屬于網(wǎng)絡(luò)信息安全中的最高級別,要對敏感
信息、泄密信息等進行監(jiān)測,就必須從內(nèi)容的角度對其安全屬性進行分析,一
般這類信息的監(jiān)測都是在當(dāng)事人不知情的情況下進行的,所以,使用自動化的
爬蟲技術(shù),并與合適的內(nèi)容分析技術(shù)相結(jié)合,是一種合理的選擇。
可以預(yù)見,隨著網(wǎng)絡(luò)大數(shù)據(jù)在各行各業(yè)中的日益普及,爬蟲技術(shù)的應(yīng)用將
從當(dāng)前的以數(shù)據(jù)抓取為主,逐步走向廣泛的收集階段。
6
2.3.2文件存取技術(shù)
Python文件存取在計算機科學(xué)中占有重要地位,是一種通過編寫代碼以讀
取、寫入文件的技術(shù),用于保存數(shù)據(jù)和內(nèi)容,操作文件的常見方法稱為IO(
Input/Output)操作。對文件IO操作的強大支持,包括打開、關(guān)閉、讀取、寫
入文件。它支持多種文件格式,如CSV,XML,JSON等,也可以調(diào)用OS接口進
行文件屬性查詢與更新,支持目錄操作等。接下主要介紹Json文件存取這種方
式。
JSON(JavaScriptObjectNotation)是一種輕量級的數(shù)據(jù)交換格式,具有
簡潔、易讀性和高可傳輸率等優(yōu)點。它可以用于交換兩個端點之間的文本信息
。JSON使用JavaScript對象表示法(JSOM)語法來表達數(shù)據(jù)結(jié)構(gòu),它可以通
過HTTP請求將數(shù)據(jù)發(fā)送到Web服務(wù)器。JSON文件存取技術(shù)旨在將JSON數(shù)據(jù)格
式保持在存儲中,并提供JSON文件的管理、查詢、修改和刪除等功能。這樣,
它就可以在前后端之間進行快速的數(shù)據(jù)存取。此外,JSON文件存取技術(shù)還可以
將JSON文件轉(zhuǎn)換為其他語言和JSON數(shù)據(jù)結(jié)構(gòu)之間的相互轉(zhuǎn)換,從而可以與現(xiàn)
有的數(shù)據(jù)存儲技術(shù)和Web應(yīng)用程序技術(shù)進行無縫集成。
2.3.3可視化技術(shù)
將爬取到的數(shù)據(jù)預(yù)處理后保存為json文件。想要通過該數(shù)據(jù)集直觀的觀察
出數(shù)據(jù)的規(guī)律,這時就需要采用數(shù)據(jù)可視化技術(shù)將數(shù)據(jù)轉(zhuǎn)換為可以讓人一目了
然的圖表。
可視化技術(shù)是一種利用圖形、文本、動畫和圖像等形式,將大量復(fù)雜的數(shù)
據(jù)進行可視化呈現(xiàn),以便人們更快更容易理解和發(fā)現(xiàn)數(shù)據(jù)內(nèi)隱藏的模式和特征
的技術(shù)。通過數(shù)據(jù)可視化技術(shù),可讓人們可以使用各種形式的圖表來展示和分
析原始數(shù)據(jù),幫助更好地掌握數(shù)據(jù)的特點和趨勢,探尋有價值的信息。
可視化技術(shù)主要有折線圖、面積圖、柱狀圖、餅圖、地圖和雷達圖等。每
種圖形都有特定的用途,根據(jù)不同的應(yīng)用場景,選擇合適的可視化方法可以更
好地呈現(xiàn)數(shù)據(jù)。此外,數(shù)據(jù)可視化技術(shù)通過利用空間布局,節(jié)省了搜索空間,
有助于快速搜索出想要的信息。數(shù)據(jù)可視化技術(shù)受到廣泛的應(yīng)用,它可以用于
數(shù)據(jù)分析、模型訓(xùn)練、知識發(fā)現(xiàn)和精準營銷等領(lǐng)域。同時,數(shù)據(jù)可視化技術(shù)也
為科學(xué)發(fā)現(xiàn)和決策支持提供了有力工具。
本次項目就是通過第三方庫matplotlab將數(shù)據(jù)進行簡單的可視化手段來
呈現(xiàn)出直方圖、地圖、詞云圖、餅圖,從而可以直觀的看出數(shù)據(jù)的情況來分析
7
出有利用價值的信息,可視化技術(shù)就是將獲取到的數(shù)據(jù)通過一定的手段來清晰
的展現(xiàn)其中的規(guī)律,從而由此可以得到結(jié)論。
3數(shù)據(jù)采集
3.1采集頁面分析
首先進入到谷歌瀏覽器,在瀏覽器中搜索/,找到各
類新聞的導(dǎo)航欄標題,在網(wǎng)頁空白出單擊鼠標右鍵,點擊“檢查”進入到開發(fā)
者工具,找到該類新聞每條新聞的詳細信息,如圖3-1所示。
圖3-1數(shù)據(jù)網(wǎng)址頁面
使用全局搜索工具定位到所需數(shù)據(jù)的位置,并找到它加載該數(shù)據(jù)列表的請
求url,如圖3-2所示。
圖3-2開發(fā)者工具
8
3.2字段分析
首先我們進入到網(wǎng)頁并且單擊鼠標右鍵點擊“檢查”,進入到開發(fā)者工具,
然后點擊開發(fā)者工具上方的“數(shù)據(jù)預(yù)覽”,將選擇欄目定位到每類新聞的每條
新聞的內(nèi)容列表,可以發(fā)現(xiàn)我們所需的數(shù)據(jù)信息都在這個王頁面,如圖3-1。通
過觀察分析每個div標簽下都有多個a標簽,每個div標簽都對應(yīng)著每一條新
聞,而a標簽內(nèi)的內(nèi)容就是我們需要的字段,如新聞標題、點擊量、報社等可
以通過request的方式獲取。
定位到了相應(yīng)的欄目切換至網(wǎng)絡(luò)面板(Network),再重新加載頁面,單
擊資源顯示該資源的頭部信息、預(yù)覽、響應(yīng)信息、cookies詳情,
如圖3-2。之后我們選擇respone標簽,就可以看到我們需要爬取的數(shù)據(jù)內(nèi)容就
呈現(xiàn)在這個網(wǎng)頁面,如圖3-3所示。
圖3-3分析所需數(shù)據(jù)頁面
3.3編程實現(xiàn)
導(dǎo)入所需要的庫如圖3-4所示。
圖3-4導(dǎo)入所需要的庫頁面
將請求頭設(shè)置一下,偽裝成瀏覽器瀏覽頁面訪問服務(wù)器,并返回成功,如
9
圖3-5所示。
圖3-5請求頭內(nèi)容頁面
代碼實現(xiàn)如下:
importrequests
importjson
importre
importtime
list_all_url_args=['yaowen20200213','guonei','guoji','war','money','tech','hangkong','ent']
foriinrange(len(list_all_url_args)):
url=
"/special/cm_{}/?callback=data_callback".format(list_all_url_args[i])
headers={
"User-Agent":"Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36
(KHTML,likeGecko)Chrome/Safari/537.36",
"Cookie":"_ntes_nnid=898b2da8ab570b6c4680361442a36ff7,1648040150853;
_ntes_nuid=36984761a4dbe94e173c1a219210d3b8;
s_n_f_l_n3=6b745ccebb8647e61667483239248;_antanalysis_s_id=1667483239746;
NTES_PC_IP=%E9%95%BF%E6%B2%99%7C%E6%B9%96%E5%8D%97;
BAIDU_SSP_lcr=/link?url=viFe-dWuRKictitdae9LYcbwmeiJAc5fJmnT7
nLB0lO&wd=&eqid=f68d21b10002b2a5000000066363c663;
__bid_n=1843dbf08e8eb984994207;
FPTOKEN=30$ZMxFtBEzt79GkES/b5BBGRkt4x5+8oK34N83VtxsQ0LqdOLXmQut/BGAx9p
qQsgLavB/MVKCHb+E/PEK368xmyanUpCi9M28DYvXFIJ0uIHv21Gxccif4iaXbtH1HFpuyehp
B2pvsgNeSju4lUsIW/+5xjLukVovOIXzNDnrqZzvovVNCTDH1hXx6YLE/LBivAaGY7T0BJv/
U+17edYGSZ2Bm79X00oqzcwdiVKPbT1KI0M/LIZvLXQrS+tfjmBBmMul9MKivB1VN8l6/+1
F7uK0UQ5ohyoOWreKkWDiBRZVDJGMcNTJlmOzcKxHoprm7cbGPzY4BAPNXwMpU2Wrs
rNlnJsz2/r6FZ8D+TchQ39pvWyUWBRJFRwvCxWWlWXs|ne+b9Yw/ruKnLqNLxy0NNx2PN9
NtNPAQMaNSLg/ZPJE=|10|382b18436cab2fcced790637b3de03f2;
ne_analysis_trace_id=1667483287942;
vinfo_n_f_l_n3=6b745ccebb8647e667483239247.0.1667483337843",
10
"Referer":"/",
}
response=requests.get(url,headers=headers)
print(response.status_code)
pattern=pile(r"(?<=data_callback\().+(?=\))",flags=re.DOTALL)
s=re.findall(pattern,response.content.decode('utf-8'))[0]
data=json.loads(s)
name_list=['要聞','國內(nèi)','國外','戰(zhàn)爭','經(jīng)濟','科技','航空','娛樂']
withopen(r"./data/{}.json".format(name_list[i]),'a+',encoding='utf-8')asfp:
json.dump(data,fp,indent=4,ensure_ascii=False)
time.sleep(3)
#withopen("國內(nèi).json",'r+',encoding='utf-8')asfp:
#data=json.load(fp)
#print(data)
4數(shù)據(jù)清洗與處理
將數(shù)據(jù)集獲取到了之后我們就要進行數(shù)據(jù)清洗和處理,數(shù)據(jù)清洗和處理就
是數(shù)據(jù)分析過程中非常重要的步驟,用于將原始數(shù)據(jù)轉(zhuǎn)換為可用于分析的數(shù)據(jù)。
首先我們要查看爬取到的數(shù)據(jù)的準確性,就是看數(shù)據(jù)中是否存在無效值和缺失
值,其次,有了這些數(shù)據(jù),我們可以更輕松地利用數(shù)據(jù),從而獲得有價值的信
息。
該項目中我們將數(shù)據(jù)與原來的網(wǎng)頁數(shù)據(jù)對比,檢查數(shù)據(jù)的準確性,看是否
出現(xiàn)不一致的數(shù)據(jù)。還要針對不同的情況對數(shù)據(jù)進行相應(yīng)的處理。
4.1數(shù)據(jù)清洗
通過檢查之后我們發(fā)現(xiàn)數(shù)據(jù)中沒有存在空值或錯值,我們根據(jù)需要已經(jīng)排
除了一些不需要的數(shù)據(jù)得到了這些數(shù)據(jù),通過這些數(shù)據(jù)就可以進行后續(xù)的可視
化。
4.2數(shù)據(jù)儲存
數(shù)據(jù)存儲是將從爬蟲獲取的數(shù)據(jù)保存到某種物理介質(zhì)上,以供后續(xù)使用。
在實際應(yīng)用中,同一種數(shù)據(jù)可以采用不同的存儲方式,要根據(jù)需要靈活選擇存
儲介質(zhì),以滿足不同的應(yīng)用需求。常見的Python爬蟲數(shù)據(jù)存儲方式包括文本存
儲,如文本文件、CSV文件等;關(guān)系型數(shù)據(jù)庫存儲,如MySQL、Oracle等;非關(guān)
11
系型數(shù)據(jù)庫存儲,如MongoDB、Redis等;圖形數(shù)據(jù)庫存儲,如Neo4j、OrientDB
等;云存儲,如AmazonS3、GoogleCloudStorage等。這次項目中我們是用的
是文本文件存儲。
4.3編程實現(xiàn)
導(dǎo)入所需要的庫,清洗并存儲,如圖4-1所示。
圖4-1清洗并存儲
查看存儲的內(nèi)容是否正確,如圖4-2所示。
圖4-2查看存儲的數(shù)據(jù)
12
5數(shù)據(jù)統(tǒng)計與分析
5.1數(shù)據(jù)準備
打開Jupyterbook,導(dǎo)入需要使用的庫,加載出相應(yīng)的文件,并且使用相關(guān)
的數(shù)據(jù)集,如圖5-1、5-2所示。
圖5-1數(shù)據(jù)加載頁面
圖5-2數(shù)據(jù)準備頁面
13
5.2數(shù)據(jù)展示
5.2.1依據(jù)新聞發(fā)布媒體進行統(tǒng)計
圖5-4數(shù)據(jù)展示頁面
如圖5-4所示,展示了前三十家新聞發(fā)布的媒體,其中環(huán)球網(wǎng)資訊所占的
比重最大,占據(jù)了20.1%的新聞發(fā)布數(shù)量,其次的就是網(wǎng)易娛樂,占據(jù)了9.7%
的數(shù)量,網(wǎng)易娛樂與環(huán)球資訊相差了近一倍的差距。
通過了解,環(huán)球網(wǎng)資訊是環(huán)球網(wǎng)在網(wǎng)易新聞網(wǎng)站的官方網(wǎng)易號,所以其中
的大部分新聞都是環(huán)球網(wǎng)發(fā)布的,而環(huán)球網(wǎng)是中國領(lǐng)先的國際資訊門戶,擁有獨
立采編權(quán)的中央重點新聞網(wǎng)站。環(huán)球網(wǎng)秉承環(huán)球時報的國際視野,力求及時、客
觀、權(quán)威、獨立地報道新聞,所以環(huán)球網(wǎng)資訊所發(fā)布的新聞都是出自于環(huán)球網(wǎng)這
個權(quán)威的新聞發(fā)布網(wǎng)站,從其中的新聞中可以得到準確的熱點話題、技術(shù)發(fā)展
動態(tài)、市場行情走勢、政策變化等有用的信息,而其中環(huán)球網(wǎng)資訊是是秉承環(huán)
球時報面向全國發(fā)行新聞的媒體,所以可以通過網(wǎng)站的新聞時事的了解到全球
的動態(tài),可以得到權(quán)威的準確及時的發(fā)生的事件。所以面對每日實時發(fā)生的事
件,人們都會比較關(guān)注,尤其是重大事件的發(fā)生都會在國內(nèi)掀起一波熱潮。網(wǎng)
易娛樂其中會為用戶提供免費郵箱、游戲、搜索引擎服務(wù),開設(shè)新聞、娛樂、體
育等30多個內(nèi)容頻道,及博客、視頻、論壇等互動交流,網(wǎng)聚人的力量,是比較
14
貼合每個的興趣愛好特點來發(fā)布相關(guān)的新聞的,所以其發(fā)布的新聞數(shù)量才會居
于第二。所以我們就可以知道,我們要實時關(guān)注國際國內(nèi)所發(fā)生的重大事件,
和人們?nèi)粘I钪械呐d趣愛好等等。
5.2.2依據(jù)新聞內(nèi)容詞云進行統(tǒng)計
圖5-5數(shù)據(jù)展示頁面
如圖5-5所示,從詞云中我們可以看出“年”所占的詞云圖面積最大,而
當(dāng)時我們?nèi)珖嗣穸继幱谶^年團圓的氛圍中,所以相應(yīng)的新聞發(fā)布大部分的內(nèi)
容都是關(guān)于年的,比如過年期間,我國的春運高峰期人流量同比與去年增長了
20.7%,從這個數(shù)據(jù)中就可以看出我國在春運期間的疫情環(huán)境要比前幾年都要好
上不少,過年的氛圍又開始慢慢的回來了,也就可以看出我國在疫情的防控、
管控、預(yù)防方面都是做的很好的,才能過讓這次的年能過回歸于以前的水平。
再觀察詞云圖我們還可以發(fā)現(xiàn)比較熱門的內(nèi)容有中國、俄羅斯、美國這種
國際之間的新聞報導(dǎo),去年俄羅斯與烏克蘭的沖突是全世界皆知,國內(nèi)也是反
響熱烈,都很關(guān)注這場戰(zhàn)爭,想知道矛盾發(fā)展如何,關(guān)注俄羅斯的情況,同情
當(dāng)?shù)氐娜嗣裉幱趹?zhàn)爭的糾紛中,也關(guān)注著美國的動向,看美國在這次戰(zhàn)爭中又
有什么動作,向烏克蘭運輸大量的軍火物資,在這場戰(zhàn)爭中發(fā)著戰(zhàn)爭財。再看
詞云圖可以看到比較關(guān)注的熱門話題還有“正義回廊”、“明日戰(zhàn)記”這些電
影名字,由此可以看出人們對于即將上映的電影都十分期待,通過了解《明日
戰(zhàn)機》是國內(nèi)上映古天樂導(dǎo)演的科幻大片,其中的特效鏡頭堪比與美國好萊塢
的科幻特效,這標志著我國科幻電影的一個標志性飛躍,所以從中可以看出未
來我國科幻電影的質(zhì)量將會有質(zhì)的飛躍,不再是會被人嘲諷說是科幻爛片大國,
15
因此投資電影的電影人未來可以考慮國內(nèi)的科幻電影,其中有著巨大的空間。
5.2.3依據(jù)新聞點擊量進行統(tǒng)計和分析
圖5-6數(shù)據(jù)展示頁面
如圖5-6所示,從圖中可以看出點擊量前十的新聞標題,其中關(guān)于俄烏戰(zhàn)
爭的點擊量、關(guān)注度最多。
從這些點擊量排名前十的新聞標題的內(nèi)容上,我們可看出人們對于國際的
動態(tài)是比較關(guān)注,尤其是關(guān)于俄羅斯、烏克蘭的情況,人們都時刻關(guān)注著兩國
之間的矛盾與情況。俄烏戰(zhàn)爭的導(dǎo)火索就是北約東擴,烏克蘭加入北約,將西
方國家的槍口架在了俄羅斯的門口,再加之兩者之間的矛盾已積蓄已久,還有
美國為代表的一些西方國家持續(xù)的給烏克蘭運輸軍火,加劇了雙方的矛盾,最
終導(dǎo)致戰(zhàn)爭爆發(fā)。所以人們對于這種國際矛盾都十分得關(guān)注,都在看著后續(xù)的
結(jié)果。
16
通過觀察前十的其他新聞標題,可以看出在國際形勢劇烈的情況下,人們
的關(guān)注聚焦點都在國際上,關(guān)于國內(nèi)的新聞內(nèi)容的點擊量很少,都是也可以看
出人們對于霸凌的事件也很關(guān)注,說明人們對于霸凌事件也都有自己的看法,
大部分的人都是十分的反對霸凌。因此可以知道關(guān)于國際糾紛戰(zhàn)爭,國內(nèi)的惡
性事件都是熱門話題,都很容易引起人們的關(guān)注,所以對于新聞媒體公司就可
以知道人們對于什么樣的話題比較感興趣,就可以客觀真實的發(fā)布關(guān)于這方面
的新聞。
5.2.4依據(jù)新聞發(fā)布地進行統(tǒng)計
圖5-7數(shù)據(jù)展示頁面
如圖5-7所示,可以看出新聞發(fā)布最多的地方是位于我國中部地區(qū)、東部
地區(qū)與南部地區(qū),可以看出在這些經(jīng)濟發(fā)達的地
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 個人投資建房合同范例
- 借款股權(quán)抵押合同標準文本
- 東莞會策劃合同范例
- 保潔公司聘用司機合同范例
- 仿真綠植合同范例
- 個人廣告合同范例
- 代理門窗采購合同范例
- 買賣雙方簽房產(chǎn)合同范例
- 企業(yè)招商服務(wù)合同范例
- 書印刷合同范例
- 2023中國電子科技集團有限公司在招企業(yè)校招+社招筆試參考題庫附帶答案詳解
- 2025年上半年浙江省杭州市交通運輸局所屬事業(yè)單位統(tǒng)一招聘20人易考易錯模擬試題(共500題)試卷后附參考答案
- 軟件版本更新與升級維護合同
- 10.2 保護人身權(quán)(課件)-2024-2025學(xué)年七年級道德與法治下冊
- 福彩考試題庫目錄及答案
- 2025年廣東華南師范大學(xué)附中高考數(shù)學(xué)模擬試卷(含答案詳解)
- 培訓(xùn)師的職業(yè)素養(yǎng)與職業(yè)道德
- 日常采購基礎(chǔ)知識培訓(xùn)
- 消毒供應(yīng)中心消防安全
- 乒乓裁判考試試題及答案
- 2025年1月浙江省高考物理試卷(含答案)
評論
0/150
提交評論