




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
《任務(wù)3.2數(shù)據(jù)準備》教案課程名稱人工智能應(yīng)用基礎(chǔ)課題任務(wù)3.2數(shù)據(jù)準備班級:授課時間2025.3.1授課時數(shù)1課時地點:教材分析內(nèi)容分析本課時將重點介紹數(shù)據(jù)準備的基本概念和方法,包括數(shù)據(jù)集的選擇、數(shù)據(jù)預(yù)處理和數(shù)據(jù)集劃分。通過這些內(nèi)容的學習,幫助學生理解數(shù)據(jù)準備的重要性,掌握數(shù)據(jù)預(yù)處理和數(shù)據(jù)集劃分的具體步驟。課程內(nèi)容涵蓋了數(shù)據(jù)集的選擇方法、數(shù)據(jù)預(yù)處理的各種技術(shù)(如數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換、特征工程和數(shù)據(jù)規(guī)約)以及數(shù)據(jù)集劃分的策略和方法。通過具體的案例和實踐操作,幫助學生掌握數(shù)據(jù)準備的基本技能。學情分析學生對機器學習的基本概念和流程有一定的了解,但對數(shù)據(jù)準備的具體方法還不夠熟悉。學生對編程有較高的興趣,但需要通過更多的互動和實踐來鞏固所學知識。本課時將通過豐富的代碼示例和互動練習,幫助學生深入理解數(shù)據(jù)準備的基本概念和方法。課時教學目標知識目標1.了解數(shù)據(jù)準備的基本概念和重要性。2.掌握數(shù)據(jù)集的選擇方法。3.掌握數(shù)據(jù)預(yù)處理的各種技術(shù),包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換、特征工程和數(shù)據(jù)規(guī)約。4.掌握數(shù)據(jù)集劃分的策略和方法。能力目標1.能夠選擇合適的數(shù)據(jù)集進行機器學習。2.能夠進行數(shù)據(jù)預(yù)處理,包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換、特征工程和數(shù)據(jù)規(guī)約。3.能夠進行數(shù)據(jù)集劃分,包括訓(xùn)練集、驗證集和測試集的劃分。4.能夠編寫符合編程風格規(guī)范的代碼。素質(zhì)目標1.培養(yǎng)學生對編程的興趣和好奇心。2.提升學生的邏輯思維能力和問題解決能力。思政目標1.培養(yǎng)學生的社會責任感,了解數(shù)據(jù)準備對社會經(jīng)濟發(fā)展的影響。2.引導(dǎo)學生關(guān)注科技進步對就業(yè)和社會生活的影響。教學重點、難點教學重點1.數(shù)據(jù)準備的基本概念和重要性。2.數(shù)據(jù)集的選擇方法。3.數(shù)據(jù)預(yù)處理的各種技術(shù),包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換、特征工程和數(shù)據(jù)規(guī)約。4.數(shù)據(jù)集劃分的策略和方法。教學難點1.如何選擇合適的數(shù)據(jù)集進行機器學習。2.如何進行數(shù)據(jù)預(yù)處理,包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換、特征工程和數(shù)據(jù)規(guī)約。3.如何進行數(shù)據(jù)集劃分,包括訓(xùn)練集、驗證集和測試集的劃分。4.如何編寫符合編程風格規(guī)范的代碼。教學策略設(shè)計思路1.通過案例分析和互動練習,幫助學生理解數(shù)據(jù)準備的基本概念和方法。2.采用議題式教學法,引導(dǎo)學生探討數(shù)據(jù)準備的重要性和具體步驟。3.利用多媒體教學資源,增強學生的直觀感受和理解。4.通過小組合作學習,培養(yǎng)學生的團隊合作能力和創(chuàng)新思維。5.設(shè)計實踐活動,讓學生親身體驗數(shù)據(jù)準備的具體步驟。6.通過即時評價反饋,及時調(diào)整教學策略,確保教學效果。教學過程設(shè)計教學環(huán)節(jié)教師活動學生活動設(shè)計意圖教學與信息化手段課前預(yù)習任務(wù)1.發(fā)布預(yù)習資料,包括數(shù)據(jù)準備的基本概念、數(shù)據(jù)集選擇、數(shù)據(jù)預(yù)處理和數(shù)據(jù)集劃分的方法。2.布置預(yù)習任務(wù),要求學生閱讀相關(guān)資料并思考數(shù)據(jù)準備的重要性和具體步驟。3.提供預(yù)習指南,指導(dǎo)學生如何進行有效的預(yù)習。1.閱讀預(yù)習資料,了解數(shù)據(jù)準備的基本概念、數(shù)據(jù)集選擇、數(shù)據(jù)預(yù)處理和數(shù)據(jù)集劃分的方法。2.思考數(shù)據(jù)準備的重要性和具體步驟。3.完成預(yù)習任務(wù),準備課堂討論。幫助學生提前了解課程內(nèi)容,為課堂學習做好準備。預(yù)習資料、在線閱讀平臺課前調(diào)查1.設(shè)計問卷,調(diào)查學生對數(shù)據(jù)準備和數(shù)據(jù)集選擇的了解程度。2.收集問卷數(shù)據(jù),分析學生的學習起點。3.根據(jù)調(diào)查結(jié)果調(diào)整教學策略。1.完成問卷調(diào)查,反饋對數(shù)據(jù)準備和數(shù)據(jù)集選擇的了解情況。2.反饋調(diào)查結(jié)果,提出自己的疑問。了解學生的學習起點,為課堂教學提供依據(jù)。在線問卷調(diào)查工具課中導(dǎo)入新課1.通過一段視頻或案例,引出數(shù)據(jù)準備的概念。2.提出問題,引導(dǎo)學生思考數(shù)據(jù)準備的重要性和應(yīng)用場景。3.簡要介紹本課時的學習目標和內(nèi)容。1.觀看視頻或案例,初步了解數(shù)據(jù)準備的概念。2.回答教師提出的問題,積極參與討論。3.明確本課時的學習目標和內(nèi)容。激發(fā)學生的學習興趣,明確學習目標。視頻播放設(shè)備、PPT講解數(shù)據(jù)準備概念1.詳細講解數(shù)據(jù)準備的基本概念和重要性,包括數(shù)據(jù)準備的目標和意義。2.通過實例,說明數(shù)據(jù)準備在機器學習中的作用和應(yīng)用場景。3.引導(dǎo)學生總結(jié)數(shù)據(jù)準備的基本特點和應(yīng)用場景。1.認真聽講,做好筆記。2.觀看實例,加深理解。3.積極參與討論,總結(jié)數(shù)據(jù)準備的基本特點和應(yīng)用場景。幫助學生系統(tǒng)地了解數(shù)據(jù)準備的基本概念和重要性。PPT、案例視頻講解數(shù)據(jù)集選擇1.詳細講解數(shù)據(jù)集選擇的方法和策略,包括常用的數(shù)據(jù)集來源和選擇標準。2.通過實例,說明如何選擇合適的數(shù)據(jù)集進行機器學習。3.引導(dǎo)學生總結(jié)數(shù)據(jù)集選擇的方法和策略。1.認真聽講,做好筆記。2.觀看實例,加深理解。3.積極參與討論,總結(jié)數(shù)據(jù)集選擇的方法和策略。幫助學生系統(tǒng)地了解數(shù)據(jù)集選擇的方法和策略。PPT、案例視頻講解數(shù)據(jù)預(yù)處理1.詳細講解數(shù)據(jù)預(yù)處理的各種技術(shù),包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換、特征工程和數(shù)據(jù)規(guī)約。2.通過實例,說明數(shù)據(jù)預(yù)處理的具體步驟和注意事項。3.引導(dǎo)學生總結(jié)數(shù)據(jù)預(yù)處理的各種技術(shù)和具體步驟。1.認真聽講,做好筆記。2.觀看實例,加深理解。3.積極參與討論,總結(jié)數(shù)據(jù)預(yù)處理的各種技術(shù)和具體步驟。幫助學生系統(tǒng)地了解數(shù)據(jù)預(yù)處理的各種技術(shù)和具體步驟。PPT、案例視頻講解數(shù)據(jù)集劃分1.詳細講解數(shù)據(jù)集劃分的策略和方法,包括訓(xùn)練集、驗證集和測試集的劃分。2.通過實例,說明數(shù)據(jù)集劃分的具體步驟和注意事項。3.引導(dǎo)學生總結(jié)數(shù)據(jù)集劃分的策略和方法。1.認真聽講,做好筆記。2.觀看實例,加深理解。3.積極參與討論,總結(jié)數(shù)據(jù)集劃分的策略和方法。幫助學生系統(tǒng)地了解數(shù)據(jù)集劃分的策略和方法。PPT、案例視頻實踐操作1.逐步演示如何在Python環(huán)境中進行數(shù)據(jù)預(yù)處理和數(shù)據(jù)集劃分。2.解釋每一步的注意事項和可能遇到的問題。3.提供常見錯誤的解決方案和示例。4.引導(dǎo)學生記錄實踐操作中的問題與解決方法。5.討論實踐操作時可能的安全設(shè)置。1.跟隨教師演示,嘗試在自己的Python環(huán)境中進行數(shù)據(jù)預(yù)處理和數(shù)據(jù)集劃分。2.記錄實踐操作中遇到的問題,準備提問。3.互相幫助,分享實踐操作經(jīng)驗。4.在教師講解時做筆記,記錄關(guān)鍵步驟。5.參與討論,發(fā)表對實踐操作步驟的理解。6.嘗試解決自己遇到的問題,進行探索。幫助學生掌握數(shù)據(jù)預(yù)處理和數(shù)據(jù)集劃分的具體步驟。Python環(huán)境、JupyterNotebook總結(jié)與反饋1.匯總本課時的主要內(nèi)容,強調(diào)重點和難點。2.對學生的課堂表現(xiàn)進行評價,指出優(yōu)點和不足。3.布置課后作業(yè),鞏固所學知識。4.預(yù)告下節(jié)課的內(nèi)容,激發(fā)學生的學習興趣。1.認真聽講,回顧本課時的主要內(nèi)容。2.接受教師的評價,反思自己的表現(xiàn)。3.記錄課后作業(yè),準備完成。4.了解下節(jié)課的內(nèi)容,做好預(yù)習。通過總結(jié)與反饋,幫助學生鞏固所學知識,明確下一步的學習方向。PPT、課后作業(yè)課后課后作業(yè)1.寫一篇關(guān)于數(shù)據(jù)準備和數(shù)據(jù)集選擇的小論文。2.選擇一個數(shù)據(jù)集,進行數(shù)據(jù)預(yù)處理和數(shù)據(jù)集劃分的實踐操作。3.完成課后練習題,鞏固所學知識。1.完成課后作業(yè),認真撰寫小論文。2.選擇一個數(shù)據(jù)集,進行數(shù)據(jù)預(yù)處理和數(shù)據(jù)集劃分的實踐操作。3.完成課后練習題,鞏固所學知識。通過課后作業(yè),幫助學生鞏固所學知識,提高寫作和實踐能力。課后作業(yè)資料、代碼編輯器復(fù)習與預(yù)習1.提供復(fù)習資料,幫助學生鞏固本課時的知識。2.布置預(yù)習任務(wù),要求學生閱讀下節(jié)課的預(yù)習資料。3.提供預(yù)習指南,指導(dǎo)學生如何進行有效的預(yù)習。1.認真復(fù)習本課時的知識,完成復(fù)習資料。2.閱讀下節(jié)課的預(yù)習資料,做好預(yù)習。3.按照預(yù)習指南,進行有效的預(yù)習。通過復(fù)習與預(yù)習,幫助學生鞏固所學知識,為下節(jié)課的學習做好準備。復(fù)習資料、預(yù)習資料板書設(shè)計一、數(shù)據(jù)準備的重要性數(shù)據(jù)的預(yù)處理是機器學習流程中的第一步,決定了后續(xù)建模的質(zhì)量和可靠性。數(shù)據(jù)的預(yù)處理包括數(shù)據(jù)準備、數(shù)據(jù)集劃分、數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換、特征工程和數(shù)據(jù)規(guī)約等步驟,通過這些步驟可以使數(shù)據(jù)變得更加豐富、準確、完整、一致和可用,從而提高機器學習的結(jié)果。首先,數(shù)據(jù)的預(yù)處理可以幫助我們清洗數(shù)據(jù)。在實際應(yīng)用中,數(shù)據(jù)往往存在缺失值、異常值和重復(fù)值等問題。這些問題會對建模的結(jié)果產(chǎn)生負面影響。通過數(shù)據(jù)清洗,我們可以去除或填補缺失值,修正異常值,刪除重復(fù)值,從而使數(shù)據(jù)更加干凈和可靠。其次,數(shù)據(jù)的預(yù)處理可以幫助我們集成數(shù)據(jù)。在實際應(yīng)用中,數(shù)據(jù)往往來自不同的來源,以不同的格式存儲,具有不同的結(jié)構(gòu)和語義。數(shù)據(jù)集成可以將不同來源的數(shù)據(jù)整合在一起,形成一個一致的數(shù)據(jù)集。這樣做可以避免數(shù)據(jù)重復(fù)和冗余,提高數(shù)據(jù)的可用性和可靠性。第三,數(shù)據(jù)的預(yù)處理可以幫助我們轉(zhuǎn)換數(shù)據(jù)。在實際應(yīng)用中,數(shù)據(jù)往往以不同的形式和單位進行表示。數(shù)據(jù)轉(zhuǎn)換可以將數(shù)據(jù)轉(zhuǎn)換為適合分析和建模的形式。例如,可以進行數(shù)值化、標準化、歸一化、離散化等操作,使得數(shù)據(jù)更加易于處理和比較。最后,數(shù)據(jù)的預(yù)處理可以幫助我們規(guī)約數(shù)據(jù)。在實際應(yīng)用中,數(shù)據(jù)往往具有很高的維度和冗余。數(shù)據(jù)規(guī)約可以通過選擇、投影、聚類等方法減少數(shù)據(jù)的維度和冗余,從而提高分析和建模的效率和準確性。二、數(shù)據(jù)集選擇1)Kaggle數(shù)據(jù)集網(wǎng)址:http:///datasets每個數(shù)據(jù)集都有對應(yīng)的一個小型社區(qū),你可以在其中討論數(shù)據(jù)、查找公共代碼或在內(nèi)核中創(chuàng)建自己的項目。該網(wǎng)站包含大量形狀、大小、格式各異的真實數(shù)據(jù)集。你還可以看到與每個數(shù)據(jù)集相關(guān)的“內(nèi)核”,其中許多不同的數(shù)據(jù)科學家提供了筆記來分析數(shù)據(jù)集。2)亞馬遜數(shù)據(jù)集網(wǎng)址:https://registry.opendata.aws該數(shù)據(jù)源包含多個不同領(lǐng)域的數(shù)據(jù)集,如:公共交通、生態(tài)資源、衛(wèi)星圖像等。它也有一個搜索框來幫助你找到你正在尋找的數(shù)據(jù)集,另外它還有數(shù)據(jù)集描述和使用示例,這是非常簡單、實用的!3)UCI機器學習庫網(wǎng)址:https:///ml/datasets.html圖3.10UCI機器學習庫圖3.10所示是加州大學信息與計算機科學學院的一個數(shù)據(jù)庫,包含了100多個數(shù)據(jù)集。它根據(jù)機器學習問題的類型對數(shù)據(jù)集進行分類。你可以找到單變量、多變量、分類、回歸或者是推薦系統(tǒng)的數(shù)據(jù)集。4)谷歌的數(shù)據(jù)集搜索引擎網(wǎng)址:https:///datasetsearch圖3.11谷歌的數(shù)據(jù)集圖3.11所示是一個可以按名稱搜索數(shù)據(jù)集的工具箱。谷歌的目標是統(tǒng)一成千上萬個不同的數(shù)據(jù)集。5)微軟數(shù)據(jù)集網(wǎng)址:https://2018年7月,微軟與外部研究社區(qū)共同宣布推出“微軟研究開放數(shù)據(jù)”。它在公共云中包含一個數(shù)據(jù)存儲庫,用于促進全球研究社區(qū)之間的協(xié)作。另外它還提供了一組在已發(fā)表的研究中使用的、經(jīng)過整理的數(shù)據(jù)集。6)Awesome公共數(shù)據(jù)集網(wǎng)址:https:///awesomedata/awesome.public.datasets這是一個按照主題分類的,由社區(qū)公開維護的一系列數(shù)據(jù)集清單,比如生物學、經(jīng)濟學、教育學等。這里列出的大多數(shù)數(shù)據(jù)集都是免費的,但是在使用任何數(shù)據(jù)集之前,你應(yīng)該檢查相應(yīng)的許可要求。7)政府數(shù)據(jù)集政府的相關(guān)數(shù)據(jù)集也很容易找到。許多國家為了提高知名度,向公眾分享了各種數(shù)據(jù)集。例如:歐盟開放數(shù)據(jù)門戶:歐洲政府數(shù)據(jù)集。新西蘭政府數(shù)據(jù)集。印度政府數(shù)據(jù)集。8)計算機視覺數(shù)據(jù)集網(wǎng)址:https://www.visualdata.io對于從事圖像處理、計算機視覺或者是深度學習的研究人員,這應(yīng)該是你的實驗獲取數(shù)據(jù)的重要來源之一。該數(shù)據(jù)集包含一些可以用來構(gòu)建計算機視覺(CV)模型的大型數(shù)據(jù)集。你可以通過特定的CV主題查找特定的數(shù)據(jù)集,如語義分割、圖像標題、圖像生成,甚至可以通過解決方案(自動駕駛汽車數(shù)據(jù)集)查找特定的數(shù)據(jù)集。三、數(shù)據(jù)預(yù)處理1.數(shù)據(jù)清洗1)sklearn庫中處理缺失值的類是SimpleImputer,這個類的相關(guān)參數(shù)見表3.5。表3.5SimpleImputer類參數(shù)2)統(tǒng)計數(shù)據(jù)缺失值總數(shù)X.isnull().sum()2.特征工程特征工程的主要有三個任務(wù)(見圖3.12)。圖3.12特征工程主要任務(wù)應(yīng)用機器學習的前提是構(gòu)建結(jié)構(gòu)化訓(xùn)練數(shù)據(jù),如果機器學習的對象是圖像(見圖2.12),結(jié)構(gòu)化訓(xùn)練數(shù)據(jù)該如何構(gòu)造呢?需要把圖像轉(zhuǎn)換為表3.6形式,這個轉(zhuǎn)換過程稱為特征工程。圖3.13鳶尾花數(shù)據(jù)表3.6鳶尾花結(jié)構(gòu)化訓(xùn)練數(shù)據(jù)Sepal.LengthSepal.WidthPetal.LengthPetal.Widthclass0.2setosa4.931.40.2setosaversicolor1.5versicolor6.33.362.5virginica1.9virginica6.535.82.2?1.3?其中,每列的表頭名Sepal.Length等是特征,最后一列class是輸出的類別信息,每一行是一個樣本,表2.6中數(shù)值就是特征值。特征工程是機器學習的基礎(chǔ),好的特征允許你選擇不復(fù)雜的模型,同時運行速度也更快,也更容易理解和維護。特征工程說起來容易,做起來真的不易,想要對實際問題進行模型分析,幾乎大部分時間都花在了特征工程上。3.數(shù)據(jù)規(guī)約(1)數(shù)據(jù)歸一化歸一化通常意味著將數(shù)據(jù)縮放到[0,1]的范圍內(nèi),或者使得所有數(shù)據(jù)的范圍都在[.1,1]之間??梢允褂肧cikit.learn的MinMaxScaler來實現(xiàn)。X=np.arange(30).reshape(5,6)scaler=MinMaxScaler()X_normalized=scaler.fit_transform(X)(2)數(shù)據(jù)標準化標準化則是將數(shù)據(jù)縮放,使得它們的均值為0,標準差為1。這可以通過Scikit.learn的StandardScaler來實現(xiàn)。X=np.arange(30).reshape(5,6)scaler=StandardScaler()X_standardized=scaler.fit_transform(X)四、數(shù)據(jù)集劃分1.訓(xùn)練集、驗證集和測試集的劃分2.Scikit.learn數(shù)據(jù)集劃分Scikit.learn提供了train_test_split函數(shù)來幫助完成這一任務(wù)。fromsklearn.model_selectionimporttrain_test_split#假設(shè)X是特征,y是目
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 廠房柵欄拆除方案(3篇)
- 小行公司貨場管理制度
- 小學心靈驛站管理制度
- 家電采購服務(wù)方案(3篇)
- 關(guān)鍵過程制訂管理制度
- DB62T 4398-2021 工業(yè)換熱設(shè)備節(jié)能管理規(guī)范
- 船舶購置方案(3篇)
- 生產(chǎn)經(jīng)營方案(3篇)
- 橋牌測試題及答案
- 田地土壤養(yǎng)護方案(3篇)
- DL-T+617-2019氣體絕緣金屬封閉開關(guān)設(shè)備技術(shù)條件
- 全國交通運輸行政執(zhí)法綜合管理信息系統(tǒng)考試題庫-中(多選題練習)
- 甘肅省蘭州市城七里河區(qū)-2023-2024學年六年級下學期小學期末畢業(yè)測試語文試卷
- 全新裝修合同電子版范本
- 勞動教育智慧樹知到期末考試答案章節(jié)答案2024年上海杉達學院
- 2023年南平市高校畢業(yè)生服務(wù)社區(qū)計劃招募考試真題
- HG-T 4062-2023 波形擋邊輸送帶
- 西安市灞橋區(qū)2024年公開招聘事業(yè)單位工作人員歷年公開引進高層次人才和急需緊缺人才筆試參考題庫(共500題)答案詳解版
- 提水試驗過程及數(shù)據(jù)處理
- 24春國家開放大學《公共關(guān)系學》形考任務(wù)1-4參考答案
- 精神障礙者民事行為能力評定指南
評論
0/150
提交評論