書名:資料科學入門完全指南:資料分析的觀念處理實作
原文書名:
產品代碼:
9786267273852系列編號:
DM2357定價:
700元作者:
劉弘祥頁數:
304頁開數:
17x23x1.52裝訂:
平裝上市日:
20230920出版日:
20230920出版社:
深智數位股份有限公司CIP:
312.74市場分類:
電腦資訊產品分類:
書籍免稅聯合分類:
電腦資訊類- ※缺書中
商品簡介
Chapter1 資料的概念:在最開始的地方,以一系列的案例讓讀者認識到資料的價值(1.1),並且學習透過資料的型態(1.2) 和尺度(1.3) 來認識資料。
Chapter2 Python 基礎:對於沒有程式基礎的讀者,會從 Python的介紹和環境安裝(2.1 ∼ 2.2) 開始,並且介紹一些基礎的程式語法與邏輯(2.3 ∼ 2.4),讓讀者可以快速上手Python。
Chapter3 基本數值資料處理:分別介紹在資料分析中最常用到的NumPy(3.1) 和Pandas(3.2),讓讀者可以對各種基本的資料進行處理與分析。
Chapter4 各式資料處理:除了基本的數值資料以外,更進一步介紹對於影像(4.1 ∼ 4.2)、音訊(4.3 ∼ 4.4)、文字(4.5 ∼ 4.6) 類型資料的觀念與實作。
Chapter5 資料前處理:專門介紹各種拿到資料後要先做的前處理方式,包含資料清理(5.1)、資料轉換(5.2),以及如何進行合適的資料視覺化(5.3)。
Chapter6 其他專題補充:針對本書無法展開的內容,透過一個個小實作專題進行補充介紹,包含探索式分析(6.1)、網頁爬蟲(6.2)、機器學習與模型評估(6.3)、ChatGPT API(6.4)、HuggingFace(6.5)、資料管線(6.6)、常見誤區(6.7) 等。
Chapter1 資料的概念:在最開始的地方,以一系列的案例讓讀者認識到資料的價值(1.1),並且學習透過資料的型態(1.2) 和尺度(1.3) 來認識資料。
Chapter2 Python 基礎:對於沒有程式基礎的讀者,會從 Python的介紹和環境安裝(2.1 ∼ 2.2) 開始,並且介紹一些基礎的程式語法與邏輯(2.3 ∼ 2.4),讓讀者可以快速上手Python。
Chapter3 基本數值資料處理:分別介紹在資料分析中最常用到的NumPy(3.1) 和Pandas(3.2),讓讀者可以對各種基本的資料進行處理與分析。
Chapter4 各式資料處理:除了基本的數值資料以外,更進一步介紹對於影像(4.1 ∼ 4.2)、音訊(4.3 ∼ 4.4)、文字(4.5 ∼ 4.6) 類型資料的觀念與實作。
Chapter5 資料前處理:專門介紹各種拿到資料後要先做的前處理方式,包含資料清理(5.1)、資料轉換(5.2),以及如何進行合適的資料視覺化(5.3)。
Chapter6 其他專題補充:針對本書無法展開的內容,透過一個個小實作專題進行補充介紹,包含探索式分析(6.1)、網頁爬蟲(6.2)、機器學習與模型評估(6.3)、ChatGPT API(6.4)、HuggingFace(6.5)、資料管線(6.6)、常見誤區(6.7) 等。
作者簡介
出身於物理與電機背景,在資料科學領域打滾了五年,累積了許多不同類型資料的處理經驗。同時也擅長將各種內容用簡單易懂的方式清楚的說明,在IThome上的資料分析與Notion系列文章總共已超過15萬次的瀏覽。
曾參與合作過的對象及專案:
• 司法院:量刑趨勢資訊系統
• Gogoro:輿情分析系統
• 中研院:Audioviz音樂分析工具
• 聯詠科技:語音訊號處理
• Positive Grid:自動伴奏系統
• 其他尚有工研院、國衛院、WordBranch、浪LIVE、Garmin、中華電信…等。
書籍目錄
Chapter1 資料的概念
1.1-資料的價值
1.2-資料的型態
1.3-資料的尺度
Chapter2 Python基礎
2.1-Python語言
2.2-Python環境
2.3-基本運算
2.4-流程與控制結構
Chapter3 基本數值資料處理
3.1-numpy
3.2-pandas
Chapter4 各式資料處理
4.1-影像資料原理
4.2-影像資料處理實作
4.3-音訊資料原理
4.4-音訊資料處理實作
4.5-文字資料原理
4.6-文字資料處理實作
Chapter5 資料前處理
5.1-資料清理
5.2-資料轉換
5.3-資料視覺化
Chapter6 其他專題補充
6.1-探索式分析(EDA)
6.2-網頁爬蟲
6.3-機器學習與模型評估
6.4-用ChatGPT建立QA回答系統
6.5-Hugging Face
6.6-資料管線
6.7-常見誤區
推薦序/導讀/自序
處在一個高度資訊化的社會,我們的生活已經無所不在的被各種資料影響著,從手機的拍照背後的影像處理、到社群平臺的推薦算法,這些全都是透過大量的資料所產生出來的價值與改變。
不論是數年前流行的「大數據」,還是最近因為ChatGPT 等生成式AI 而紅起來的「人工智慧(AI)」,都是基於資料科學所發展出來的領域,也促進了許多人想要踏入這個領域進行學習。
說到資料科學,各種不同的演算法與機器學習模型常常會是最先被想到的,然而雖然這些不同演算法對於技術的發展固然是很重要的。不過在實務上,資料工作者往往有八成以上的時間是花在與這些演算法無關的資料清理與蒐集。這些佔了最多比例的事情卻往往被忽略,使得許多人在從學習過程中的「完美資料集」到現實中的各種真實資料的時候往往會容易不知所措。
因此,本書期望填補上這塊內容,讓讀者在學習過程中可以掌握面對真實資料時候的分析與處理方法,不再會受限於收到的資料不夠完美而難以展開後續的分析行動。