《機器學習技術(shù)應(yīng)用》課件-pro1-2-1校園消費數(shù)據(jù)的讀取與查看_第1頁
《機器學習技術(shù)應(yīng)用》課件-pro1-2-1校園消費數(shù)據(jù)的讀取與查看_第2頁
《機器學習技術(shù)應(yīng)用》課件-pro1-2-1校園消費數(shù)據(jù)的讀取與查看_第3頁
《機器學習技術(shù)應(yīng)用》課件-pro1-2-1校園消費數(shù)據(jù)的讀取與查看_第4頁
《機器學習技術(shù)應(yīng)用》課件-pro1-2-1校園消費數(shù)據(jù)的讀取與查看_第5頁
已閱讀5頁,還剩15頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

授課教師:趙

宇項目一智慧校園消費數(shù)據(jù)分析任務(wù)二

提取18級校園消費數(shù)據(jù)模塊目標:提取18級學生校園消費數(shù)據(jù)data1:18級學生基本信息data2:消費數(shù)據(jù)任務(wù)拆解:18級學生的校園消費數(shù)據(jù)讀:數(shù)據(jù)讀取,查看基本內(nèi)容合并:data1(18級學生基本信息)和data2(消費數(shù)據(jù)刷卡記錄)查:缺失值;清洗:缺失值存:合并后的數(shù)據(jù)模塊1:校園消費數(shù)據(jù)的讀取與查看任務(wù)二

提取18級校園

消費數(shù)據(jù)案例:讀取18級學生校園消費數(shù)據(jù)pandas是一個強大的數(shù)據(jù)分析庫,它支持多種數(shù)據(jù)格式的讀取。1.CSV文件:CSV(逗號分隔值)文件是一種常見的文本文件格式,每行表示一條記錄,字段之間用逗號分隔。importpandasaspd#讀取CSV文件df_csv=pd.read_csv('file.csv')2.Excel文件:pandas支持讀取Excel文件。可以指定要讀取的工作表名稱或索引。importpandasaspd#讀取Excel文件df_excel=pd.read_excel('file.xlsx',sheet_name='Sheet1')3.JSON文件:JSON(JavaScriptObjectNotation)是一種輕量級數(shù)據(jù)交換格式,pandas可以從JSON文件中讀取數(shù)據(jù)。importpandasaspd#讀取JSON文件df_json=pd.read_json('file.json')pandas是一個強大的數(shù)據(jù)分析庫,它支持多種數(shù)據(jù)格式的讀取。4.SQL數(shù)據(jù)庫:pandas支持從SQL數(shù)據(jù)庫中讀取數(shù)據(jù)。你需要使用sqlalchemy庫來創(chuàng)建數(shù)據(jù)庫連接。importpandasaspdfromsqlalchemyimportcreate_engine#創(chuàng)建數(shù)據(jù)庫連接engine=create_engine('sqlite:///mydprint(data1.head(3))atabase.db')#讀取SQL數(shù)據(jù)庫中的表df_sql=pd.read_sql('tablename',con=engine)5.Parquet文件:Parquet是一種高效的列式存儲格式,適用于大規(guī)模數(shù)據(jù)集。pandas可以讀取Parquet文件。importpandasaspd#讀取Parquet文件df_parquet=pd.read_parquet('file.parquet')校園消費數(shù)據(jù)是什么格式?CSV(Comma-SeparatedValues,逗號分隔值,有時也稱為字符分隔值,因為分隔字符也可以不是逗號),其文件以純文本形式存儲表格數(shù)據(jù)(數(shù)字和文本)。校園消費數(shù)據(jù)的讀???絕對路徑:從盤符(c盤、d盤)開始一直到文件所在的具體位置。相對路徑:針對“當前文件夾”這一參考對象,來描述文件路徑的形式。相對路徑使用..\\或.\\表示。一個點.\表示文件或文件夾所在的當前目錄。兩個點..\表示當前目錄的上一級目錄。上n級就用n個..\\表示。一個點.\表示文件或文件夾所在的當前目錄,可省略。兩個點..\表示當前目錄的上一級目錄。Pandas查看數(shù)據(jù)在數(shù)據(jù)分析過程中,df.head()經(jīng)常用于初步檢查數(shù)據(jù),包括數(shù)據(jù)的結(jié)構(gòu)、數(shù)據(jù)類型以及是否存在明顯的異常值。通過查看前幾行數(shù)據(jù),分析人員可以大致了解數(shù)據(jù)的分布和特性,為后續(xù)的數(shù)據(jù)處理和分析打下基礎(chǔ)。print(data1.head(3))print(data2.head(3))print(data2.head(3))pd.set_option('display.max_columns',None)print(data2.head(3))顯示所有列(否則會以省略號的形式省略)Pandas的數(shù)據(jù)結(jié)構(gòu)DataFrame的特點二維表格:由多個列組成的二維表格;數(shù)據(jù)類型支持:可以包含不同類型的數(shù)據(jù),如整數(shù)、浮點數(shù)和字符串等。列的靈活性:可以添加、刪除或更改列。列的大小不可變。Pandas的數(shù)據(jù)結(jié)構(gòu)--DataFrameindex:索引值,或者可以稱為行標簽。columns:列標簽,默認為RangeIndex(0,1,2,…,n)shape_of_data1=data1.shapeprint(data1.shape)print(f"TheDataFramehas{shape_of_data1[0]}rowsand{shape_of_data1[1]}columns.")如何將列標簽由英文改成中文?print(data1.columns)print("原始的列名是:",data1.columns.tolist())data1.columns=['序號','校園卡號','性別','專業(yè)名稱','門禁卡號']print(data1.columns)print("當前的列名是:",data1.columns.tolist())print(data1.dtypes)Pandas所支持的數(shù)據(jù)類型:1.float2.int3.bool4.datetime64[ns]5.datetime64[ns,tz]6.timedelta[ns]7.category8.object如果pandas數(shù)據(jù)對象在一列中包含多種數(shù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論