書名:超圖解 資料科學Data Science:數據處理-入門中的入門,強化處理力&判讀力x資料倫理
原文書名:絵シ図ザマろペ ЫみУДユリ⑦З
產品代碼:
9786263291546定價:
500元作者:
上藤一郎譯者:
王美娟頁數:
192頁開數:
16.9x19.5x1.3裝訂:
平裝上市日:
20220328出版日:
20220328出版社:
台灣東販股份有限公司CIP:
510市場分類:
電腦資訊產品分類:
書籍免稅聯合分類:
電腦資訊類- ※在庫量小
商品簡介
身處在資料化社會,
每天都面對排山倒海而來的資訊,我們究竟該如何應對?
每天一睜眼,抓起手機一看,又是滿滿當當的資訊浪潮來襲;不僅如此,送小孩上學、到公司工作,下班與家人聊天,我們無時不刻都在與周遭的人分享情報、使用情報。
情報「資料化」其實是一門近在你我身旁的科學,
在資訊及通訊科技(ICT)高度發展的今日,這樣的時代早已經到來,而且越卷越快速,任何人都無法避免面對這股浪潮。
比如什麼是大數據?大數據又該如何運用?運用的倫理界線在哪裡?等等問題,我們的日常周遭充斥著各式各樣的資料。如果少了資料,就連一般的生活都無法順利運作。「資料科學」即是研究現代社會不可或缺的「資料」之科學。
「懂資料」並「運用資料」的資料科學知識能力在未來AI世代越來越顯其重要性,本書將在本書的章節中一一介紹,以當代和未來社會中,分析佔據我們生活越來越多時間的「資料處理」的過程,以及我們該用什麼心態和方法面對。
本書是一本「入門用的入門書」,使用大量的插畫與圖表進行簡單易懂的解說,讓讀者能夠粗略掌握資料科學的概要。本書不使用困難的公式,因此也很推薦給看到公式就頭痛的人。
了解AI與資料科學的最佳入門書!
【學界、業界專業人士好評推薦】
國立高雄大學電機系教授及人工智慧研究中心顧問、前執行長|吳志宏
Google機器學習開發專家 | 吳柏翰(Jerry Wu)
高雄大學特聘教授、財團法人人工智慧法律國際研究基金會執行長 | 張麗卿
翱翔智慧創辦人 | 張竣貿
Google語音助理技能開發者 | 游紹宏
中央研究院資訊創新科技研究中心主任及特聘研究員 | 黃彥男
(按姓氏筆畫排序)
身處在資料化社會,
每天都面對排山倒海而來的資訊,我們究竟該如何應對?
每天一睜眼,抓起手機一看,又是滿滿當當的資訊浪潮來襲;不僅如此,送小孩上學、到公司工作,下班與家人聊天,我們無時不刻都在與周遭的人分享情報、使用情報。
情報「資料化」其實是一門近在你我身旁的科學,
在資訊及通訊科技(ICT)高度發展的今日,這樣的時代早已經到來,而且越卷越快速,任何人都無法避免面對這股浪潮。
比如什麼是大數據?大數據又該如何運用?運用的倫理界線在哪裡?等等問題,我們的日常周遭充斥著各式各樣的資料。如果少了資料,就連一般的生活都無法順利運作。「資料科學」即是研究現代社會不可或缺的「資料」之科學。
「懂資料」並「運用資料」的資料科學知識能力在未來AI世代越來越顯其重要性,本書將在本書的章節中一一介紹,以當代和未來社會中,分析佔據我們生活越來越多時間的「資料處理」的過程,以及我們該用什麼心態和方法面對。
本書是一本「入門用的入門書」,使用大量的插畫與圖表進行簡單易懂的解說,讓讀者能夠粗略掌握資料科學的概要。本書不使用困難的公式,因此也很推薦給看到公式就頭痛的人。
了解AI與資料科學的最佳入門書!
【學界、業界專業人士好評推薦】
國立高雄大學電機系教授及人工智慧研究中心顧問、前執行長|吳志宏
Google機器學習開發專家 | 吳柏翰(Jerry Wu)
高雄大學特聘教授、財團法人人工智慧法律國際研究基金會執行長 | 張麗卿
翱翔智慧創辦人 | 張竣貿
Google語音助理技能開發者 | 游紹宏
中央研究院資訊創新科技研究中心主任及特聘研究員 | 黃彥男
(按姓氏筆畫排序)
作者簡介
上藤一郎
靜岡大學人文社會科學院教授。專業領域為統計學、科學史(統計學史、機率論史)。資料科學相關著作及譯作有:《資料科學入門:透過Excel學習如何蒐集、檢視、運用統計資料》(歐姆社,合著)、《用於調查與分析的統計:社會與經濟的資料科學》(丸善,合著)、《不用公式一看就懂的資料科學:大數據時代必備的資料素養》(歐姆社,譯作)等等(以上皆為暫譯)。
商品特色/最佳賣點
★亞馬遜資料情報學5星推薦
★用插圖輔佐文字,更易懂,更好理解與吸收!
★各個年齡層的人都適讀!也應該要懂!
書籍目錄
前言
第1章 何謂資料科學――資料與社會――
1-1 資料與社會
1) 我們的日常生活與資料
2) 資料化社會的到來
1-2 資料科學與資料科學家
1) 資料科學是一門定義因人而異的科學
2) 資料分析的4道工程
3) 資料科學家的工作
第2章 瞭解資料――資料分析的第一工程――
2-1 將資料分門別類
1) 調查資料與非調查資料
2) 大數據與非大數據
2-2 掌握資料的特徵
1) 變數與資料
2) 定量資料與定性資料
3) 個體資料與總體資料
2-3 準備資料
1) 透過調查蒐集資料
2) 透過網路蒐集資料
2-4 資料整形
1) 何謂資料整形
2) 完全資料與不完全資料
3) 離群值
4) 選擇偏誤
第3章 解讀資料――資料分析的第二工程――
3-1 總計資料並且視覺化
1) 掌握資料的分布
2) 各種圖表
3-2 歸納資料的資訊
1) 取得資料的資訊
2) 掌握單一變數的資料特徵
3) 找出2個變數的關係
4) 掌握多維資料的關係
5) 為了將結論一般化
第4章 分類資料――資料分析的第三工程――
4-1 分類相似者
1) 集群分析的概念
2) 運用集群分析進行分類
4-2 合併數個變數
1) 主成分分析的概念
2) 使用主成分分析來分類
4-3 分類定性資料
1) 數量化Ⅲ類的概念
2) 使用數量化Ⅲ類來分類
第5章 使用資料進行預測――資料分析的第四工程――
5-1 根據資料進行預測
1) 迴歸分析的概念
2) 使用迴歸分析進行預測
5-2 評估預測的好壞
1) 多元迴歸分析的概念
2) 好的迴歸模型
3) 各種迴歸診斷
5-3 預測定性資料
1) 數量化Ⅰ類
2) 邏輯斯迴歸
第6章 探討資料倫理――給資料化社會敲響警鐘――
6-1 何謂資料倫理
1) 資料倫理與資料化社會
2) 資訊倫理的4大原則與資料倫理的規範例子
3) 分析倫理
6-2 違反倫理事件簿
1) 得安穩事件
2) 統計不當事件
第7章 資料科學與AI――大數據帶來的資料革命――
7-1 機器學習的基礎
1) 機器學習、深度學習與AI
2) 資料準備
3) 演算法選擇
4) 參數調整
5) 選擇模型
7-2 人工神經網路與AI
1) AI與資料科學的關係
2) 何謂人工神經網路?
3) 人工神經網路的構成要素
附錄 體驗資料科學
幫助各位更加瞭解資料科學的參考書籍
索引
推薦序/導讀/自序
推薦序:
本身很熱愛資料科學的推廣與顧問服務的工作,也在其中發現想要瞭解、學習資料科學的朋友很多,因為它是近年來很熱門的工作之一,且特別適合具備領域知識的人才,但是因為資料科學這個技術必須學會的知識內容相當多元,也包括了許多艱澀難懂的數學,大部分的朋友因困難而卻步。而今有書籍開始用嶄新的方法,搭配簡單的圖文,去介紹資料科學的技術。本書就是從統計的角度切入主題,搭配生活化的資料去介紹各種資料科學的方法,接著再用機器學習的主題做結尾,幫助大家能夠掌握進一步學習的方向。本書除了搭配趣味的插畫之外,也將常見的資料科學運作概念,例如掌握資料、分析解讀、資料預測等,囊括在書中。適合尚未接觸過資料科學,但是想初步了解這個技術的朋友們一起閱讀!
Google機器學習開發專家(GDE) JerryWu
書中作者自序:
在資訊及通訊科技(ICT)高度發展的今日,無論你是否有所察覺,我們的日常生活總是脫離不了各式各樣的資料。本書將這樣的社會稱為「資料化社會」,這意謂著如果少了資料,就連一般的生活都無法順利運作。舉例來說,現已成了必需品的智慧型手機,若不能處理及運用影像、聲音、文字等資料,就只是個無用之物罷了。如此一來,我們的生活會變成什麼樣子呢?請各位試著想像一下。由此可見,對現代社會而言,「資料」的價值與重要性與日俱增。在這種情況下,研究資料的科學應運而生,可說是理所當然的結果,而這門科學就稱為資料科學(data science)。
本書的目的,是使用插畫與圖表,以淺顯易懂的方式向讀者介紹,資料科學的概要與基本概念。由於這只是一本藉由視覺表現方式,幫助讀者瞭解概念,粗略掌握資料科學概要的「繪本」,書中並無關於數學理論與技術的具體解說。就這層意思來說,本書算是資料科學的「入門用的入門書」。
其實,資料科學目前尚無一個明確的定義。包括本書在內,坊間已有許多以「資料科學」為主題的著作,然而每位作者談及的範圍與內容卻不盡相同。不過,一說到資料科學,大多數的人應該都會聯想到AI或機器學習吧。其背景因素在於大數據的運用。
關於這部分本書也會說明,總之大數據並非單指「規模龐大」的資料,而是指運用在資訊及通訊科技的資料。若依照這個定義以大數據為前提去思考的話,那麼認為資料科學是與AI或機器學習等技術有關的科學也是很自然的。不過,本書對於這種看法是有些不贊同的。
若以大數據為前提去推想資料科學,怎樣都很難抹去「資訊及通訊科技是『主角』,資料是『配角』」的印象。但本書認為,對資料科學而言,資料才是「主角」,資訊及通訊科技則是「配角」。畢竟這是一門「資料」的科學,必須如此才名實相符。
為什麼說資料是「主角」呢?這是因為,我們要知道資料的性質,按照資料的性質進行分析,然後根據資料導出各種結論。這裡說的資料性質,其實可分成各種不同的類型。即便資料的外觀看起來都是數值陣列,但像經濟資料與醫學資料,兩者的產生方法與處理方法就截然不同,意義與解釋也不一樣。這種重視資料性質的差異,亦即「重視資料」之觀點,對資料科學而言是最重要的,這也是本書的基本觀念。因此,資訊及通訊科技,只能算是為了有效率地完成這一連串的程序而運用的「配角」。
為了達成本書的目的,內容做了以下的編排。
1 從「重視資料」之觀念出發,用1章的篇幅詳細解說資料的類型與特徵,以及各類資料的蒐集方法(第2章)。
2 資料科學的重點,在於資料分析方法(用來分析資料的數學理論)。本書安排了3名角色――在超市擔任行銷專員的A先生、為了專題討論課程而進行地區研究的大學生B同學、負責處理社區健康問題的公衛護理師C小姐,透過他們的業務或研究,解說資料分析方法的目的與分析結果的解釋。另外,本書完全不觸及數學理論,讀者就算不具備數學的先備知識也能夠理解內容(第3章∼第5章)。
3 本書將資料分析方法,分成分類手法(第4章)與預測手法(第5章),個別介紹使用定量資料時與使用定性資料時的代表性手法。
4 關於前述的手法,本書以講解概念及計算結果的解釋為主,不過實際體驗資料分析也很重要。因此,本書會從介紹的手法當中,選出可用Excel簡單計算的手法,解說對應的函數與分析工具的用法(附錄)。
5 對資料科學而言資料就是一切。如果資料遭到竄改或捏造,即使套用再講究數學理論的資料分析方法也是白費功夫。因此,本書會花1章的篇幅談談資料倫理,介紹資料竄改案例並解說倫理規範(第6章)。
6 本書雖秉持「資料科學的對象並非只有大數據」的態度,不過大數據當然也是資料科學的重要對象。因此,最後會用1章的篇幅,從「大數據的運用」角度,解說資料科學與AI及機器學習的關係(第7章)。
資料科學一詞在最近幾年迅速普及,因此可算是一個流行語。有句俗話說:「流行終會過時。」但是如同前述,既然資料對「資料化社會」而言具有重要意義,以資料為對象的科學應該就不會衰退過時。不過,從囊括各種領域的資料科學現狀來看,其內容與體系未來應該會逐步統整。我在本書裡,也偷偷表達了自己對資料科學走向的看法。如果各位讀者在看完本書後,能因此對資料的價值產生興趣,並且加深對資料科學的瞭解,這是我的榮幸。
最後是謝辭。這次能夠出版資料科學的繪本,全要歸功於技術評論社的佐藤民子小姐與插畫家米村知倫先生的協助。另外,撰寫本書時,靜岡大學研究所的大關亮人同學也幫忙整理數據與資料。我要在這裡向他們表達感謝之意。非常謝謝各位。
2021年4月 上藤一郎
文章試閱
大數據與非大數據
前面介紹在購物網站購買書籍的例子時,提到了大數據。因此,接下來就針對大數據做更詳細一點的定義吧!不過,由於大數據尚無明確的定義,這裡提出的是最大公約數式的定義。
大數據
大數據這個名稱,給人的印象就是「規模龐大的資料」,但只是規模龐大的話仍不能稱為大數據。當然,「規模龐大的資料」是先決條件,不過要說得更正確一點的話,大數據是可透過ICT(資訊及通訊科技),不斷產生、蒐集、累積的「多樣且多量的資料」。
因此,購物網站的書籍資料與POS系統這2個例子,都符合上述大數據的條件。
多樣且多量的大數據,提供了我們日常生活所不可或缺的有益資訊。尤其AI(人工智慧)因為運用了大數據,在商業與醫療等領域締造了許多成果。
非大數據與隨機性
不同於大數據,例如下一節要說明的調查資料與實驗資料等等,則算是非大數據。
另外,前述的「人口動態統計」這類業務統計,雖然不屬於調查資料,但也並非透過ICT時時產生、蒐集、累積資料,因此同樣屬於非大數據。
非大數據的特徵之一,就是取得的資料大多建立在母體(調查對象整體)與樣本(母體的部分集合)這層關係上,因此優點是可假設實際取得的資料具隨機性。資料的隨機性是指,資料(樣本)是從想瞭解的所有對象(母體)隨機抽出。如此一來,母體的特徵或結構就能盡量忠實地反映在樣本上。
我們以書籍的銷路為例來想一想吧!
圖2-6是從所有的書店與購物網站,調查某本資料科學相關書籍「書A」銷路的方法。
具體的目的是,調查某一週「書A」的購買率。這裡的購買率是指,在一週內賣出的所有資料科學相關書籍冊數當中,「書A」的購買冊數所占的比率。
如果能夠調查販售資料科學相關書籍的所有書店與購物網站(母體),計算出購買率,那當然再好不過,可是這些書店數量非常多,沒辦法全部調查。
■隨機抽樣
因此,這時要使用隨機抽樣。隨機抽樣是從某個集團隨機抽出樣本的手法。
先隨機抽出適當數量的書店與購物網站作為樣本,然後調查一週內資料科學相關書籍與「書A」的銷售冊數,計算購買率。
由於調查對象是隨機抽出,調查後得到的銷售額與銷售冊數資料同樣是隨機的,也就是說,隨機性的假設是成立的。於是我們可以期待,利用樣本(資料)計算出來的購買率,與調查整個母體時得知的真正銷售率,兩者的數值(估計值)是差不多的。
■資料為隨機取得時,能夠推定整個集團傾向的原因
那麼,為什麼資料若是隨機取得就能辦到這種事呢?以下就用最簡單的例子說明這項原理。
假設現在有個黑色箱子,裡面放入5000張白色卡片,以及5000張藍色卡片。箱子裡的藍色卡片與白色卡片如下一頁的圖2-7所示,各自聚集在一起。然後,請不知道這個箱子裡有幾張白色卡片與藍色卡片的A與B,各自從箱子抽出100張卡片,再根據結果估計白色卡片的比率。
如圖2-7所示,A是從箱子的上層抽出卡片,抽出的100張卡片全是白色,因此從這個結果得到的比率估計值為100%。反觀B是從箱子的下層抽出卡片,抽出的100張卡片全是藍色,因此從這個結果得到的比率估計值為0%。
很顯然的,兩者的估計結果都不是真正的比率50%。既然如此,要怎麼做才能抽出白色卡片與藍色卡片各50張,或是接近這個數量的卡片呢?答案就是:充分打散黑色箱子裡的卡片,使白色卡片與藍色卡片混合均勻。
換言之,「充分打散」之行為相當於隨機化,而從中抽出100張卡片則相當於隨機抽樣。於是,抽出的卡片(資料)是隨機選到的,故隨機性的假設成立。
若將此原理應用在圖2-6的書籍銷路調查上,只要能從販售資料科學相關書籍的所有書店與購物網站,隨機抽出書店與網站,就可保證資料的隨機性。
大數據的問題點
與非大數據相反,大數據是不斷產生、蒐集、累積資料,所以優點是可隨著時間的推移掌握銷路的變化。
不過,大數據並非毫無問題。其中特別大的問題是,跟調查資料相反,大數據存在著偏誤(bias),很難假設資料的隨機性。拿「書A」的例子來說,這裡的大數據是透過某個特定購物網站蒐集該書的購買資訊,故以此資料算出的購買率只代表單一購物網站的實績。因此,我們很難將之視為代表整體銷路的估計值,也沒辦法用機率尺度去衡量估計值的準確度。換句話說,計算出來的數值無法當作代表母體的購買率。