書名:34個讓你豁然開朗的統計學小故事

原文書名:What is a p-value anyway? 34 Stories to Help You Actually Understand Statistics


978957763332334個讓你豁然開朗的統計學小故事
  • 產品代碼:

    9789577633323
  • 系列名稱:

    博雅科普
  • 系列編號:

    RM44
  • 定價:

    420元
  • 作者:

    安德魯.維克斯(Andrew Vickers)
  • 譯者:

    杜炳倫
  • 頁數:

    372頁
  • 開數:

    21x14.8
  • 裝訂:

    平裝
  • 上市日:

    20190328
  • 出版日:

    20190328
  • 出版社:

    五南圖書出版股份有限公司
  • CIP:

    510
  • 市場分類:

    經濟商學(一般大眾)
  • 產品分類:

    書籍免稅
  • 聯合分類:

    商業類
  •  

    ※在庫量小
商品簡介


全美最幽默的斜槓統計學家!最打破框架的統計學入門!

別再誤會統計學!
☆幽默插圖與詼諧口吻,讓枯燥的統計學變得可愛又可口!
★丟掉繁瑣的數字計算,化繁為簡的說明統計重要觀念!
☆附有問題討論與解答,速效學習卻不馬虎喔!

Hey!怎麼還抱著笨重的統計學教課書?為什麼統計學讓你不快樂?
其實,學統計也可以很有趣、很生活但又很實在喔!

1.為什麼我條件不錯,卻單身到現在?
2.我應該嘗試醫生建議的新療法嗎?
3.為什麼會一直變胖,是不是漢堡吃太多?
4.總統大選的民調,有準嗎?
把你的人生困惑,統統交給不可思議的統計學吧!

本書採用詼諧的口吻書寫,打破統計學書總是艱澀的印象,巧妙的將統計學的各個重要觀念,以生活化的舉例切入,透過一個個小故事,讓觀念變得更親切好懂,輕鬆就能融會貫通。不僅有助於快速了解統計學的整體概念和基本原理,還能經由書中的精采多元的例子,見識統計學的神通廣大!獻給所有在統計學書堆中感到沮喪與懷疑的初學者,告訴你,統計學一點都不難,還能幫助你把世界看得更清晰!

♚哥倫比亞大學統計學教授強力推薦
「好懂、好讀又平易近人,讓我愛上這本書!」──安德魯•格爾曼(Andrew Gelman) 

♛亞馬遜書店讀者五顆星狂熱推薦♛

超愛作者講解統計學概念的方式,少數讓我想一讀再讀的好書!--Luke Duan

好棒的統計書,講解的「非常」好懂!尤其是對外行來說。--Logan Mitchell

無論你在使用、學習或教授統計學,你都應該來讀這本書。--Ercüment Yerlikaya

我很享受這本書,書中的舉例對了解和學習大有幫助--Kindle Customer

通常我是不給評價的,但這本讓我真的忍不住,這本書真的非常適合初學者,和那些除了學習統計研究方法之外,更想知道「為什麼」這麼做的人--Akinjeji Adewale

(僅節錄,人數眾多)

作者簡介


安德魯.維克斯(Andrew Vickers),牛津大學臨床醫學博士,任職於美國紐約紀念斯隆.凱特琳癌症中心的生物統計與流行病學部門,專職研究方法。他活躍於許多癌症研究領域,包括外科手術結果、分子標記以及臨床試驗。他也進行統計方法的原創研究,特別是預測模型評鑑這方面。在寫這本書時。以他為主要作者或共同作者的科學論文,已經超過二百篇。
維克斯博士在統計教學這方面有著強烈的興趣。他是紀念斯隆.凱特琳癌症中心生物統計課程的課程領導者,並且在康乃爾醫學院教醫學系學生生物統計。維克斯博士目前與其家人定居於紐約市布魯克林區。

譯者簡介


杜炳倫(M.Ed., University of Idaho)為資深教師,美國愛達荷大學課程與教學碩士,美國田納西大學諾克斯維爾校區(University of Tennessee, Knoxville)應用教育心理學博士班。赴美留學期間,有幸於田納西大學校長講授獎學者暨美國教育研究協會主席—史凱樂.哈克博士(Dr. Schuyler Huck)門下學習。曾榮獲田納西大學教育•健康•人類科學學院,特拉維斯.霍克(Travis Hawk)學術傑出獎。其英文著作「百分位數與百分等級(Percentile and Percentile Rank)」被收錄於美國聖哲(Sage)出版商所發行的《測量與統計百科全書》(Encyclopedia of Measurement and Statistics)。中文著作有《上學的代價》,其長銷譯作《解讀統計與研究》,拯救了無數研究所學生,並且廣為兩岸四地各大學圖書館所收藏。經營的統計教學網站,資源豐富,無惑不解。平時喜好從事有益於身心健康的各項活動。
譯者網站:http://mypaper.pchome.com.tw/readingstatistic

書籍目錄


序言:如何閱讀本書?

1 我告訴朋友,我的工作比他想像中的更有趣:統計學是什麼?

數據的描述
2 當比爾蓋茲走進一間小餐館:平均數與中位數
3 當比爾蓋茲再次回到小餐館:標準差與四分位距
4 偏斜的射門與誤判
5 你不可能擁有2.6個小孩:不同類型的數據
6 為何你的高中數學老師是對的:如何畫一張圖

數據的分配
7 梯盤棋與血清血紅素水平:常態分配的見解
8 如果常態分配如此常見,為何我的數據從來就不是?
9 但我喜歡那件毛衣:什麼程度的合身才算是「足夠」的合身?

研究結果的變動:信賴區間
10 長頭髮:中年大叔的標準誤差
11 怎麼避開雨天婚禮:變動與信賴區間
12 統計領帶,為什麼你不應該戴一條:進一步探討信賴區間

假設檢定
13 選一條騎車回家的路:p-值為我們做了什麼
14 乾牙刷的機率:p-值到底是什麼?
15 麥可喬丹將不會接受這個虛無假設:如何詮釋高p-值?
16 運動與生意之間的差別:t-檢定與威寇森檢定
17 與朋友們聚會:樣本數、精確度以及統計檢定力

迴歸與決策
18 何時拜訪芝加哥:關於線性與邏輯氏迴歸
19 我的助理今天是短髮造型:關於迴歸與混淆
20 我不理會孩子的咳嗽,我太太驚慌失措:關於特異性與敏感性
21 避開大特價:幫助你做決定的統計

一些常見的統計學錯誤,以及它們教我們什麼東西
22 比約翰湯米多一個:四個統計學錯誤,容易被忽略卻都很重要
23 剷除無用的p-值:一個統計檢定應該只回答一個科學問題
24 如何拍攝電視節目:不提供有意義數值的統計分析
25 93歲,體重700磅,美國佛羅里達州的超級老爹山姆:在迴歸分析裡兩個常見的錯誤
26 迴歸單身的麥克:一位條件不錯的朋友仍然單身的統計學解釋
27 OJ•辛普森,莎莉•克拉克,喬治與我:關於條件機率
28 男孩遇見女孩,女孩拒絕男孩,男孩開始多重檢定
29不曾發生在我身上的一些事情:你為什麼不應該比較p-值
30 如何贏得馬拉松比賽:測量隨時間發生的事物時要避免錯誤
31 劣質統計學與培根三明治之間的差異:統計有所謂的「使用規則」嗎?
32 檢視你的垃圾桶:從錯誤中學習
33 有意義的數值:連結數學與科學
34統計學與人們息息相關,即使你看不見眼淚
討論區答案
參考資料
索引

推薦序/導讀/自序


作者序
如何閱讀本書?

樂於從事別人似乎恨之入骨的事情,感覺真的很怪。我從一堆數字當中,梳理出有助於人們過得健康長壽的知識。然而,如果我告訴朋友們,統計學是我的熱愛,他們會奇怪地看著我,好像我有溝通障礙才會當個統計學宅男。
我認為,統計學被教授的方式,尤其是統計學教科書,使得大部分人們認為學習統計是一種虐待。統計學教科書很厚又很無聊,而且很貴。因此,我跟編輯建議我要寫一本很薄又很無聊又很貴的書。他考慮了一下,但最終決定我必須要有更好的點子。所以我是這樣想的:典型的統計學教科書(1)告訴你怎麼跑統計,而非如何了解它,(2)充斥著公式,以及(3)一點也不有趣。我想,是否我可以寫一些聚焦於(1)如何了解統計,(2)避免公式,以及(3)有趣的東西。
於是,我想到了要用說故事的方式,來寫這本書。聖經的第十誡有提到,「你不應該貪圖鄰居的房子、妻子、驢或牛。」但沒人會這樣對話。取而代之,人們會說「隔壁的草地比較綠。」假設你不知道「隔壁的草地比較綠」來自於一個古老的有關羊吃草的故事,故事是這樣的,羊兒們每天快樂地在自家草地吃著綠草。有一天牠們心血來潮,抬頭張望了一下,發現隔壁橋下靠近溪水的草地比較綠,於是就跑過去吃那邊的草。吃著吃著,牠們又抬頭張望了一下,覺得還是原來吃草的草地比較綠。於是,牠們就這樣來來回回地過橋吃草,總覺得隔壁的草地比較綠。我最後一次聽見這個故事是我還在幼稚園的時候,但我現在仍然記得它以及它的意義。十誡說的道理一點也沒錯,但很難記住,因為它只告訴你應該要做什麼,而非它的意義。我的意思是,說故事能幫助你了解事情的意義,所以終其一生都很難忘記。
本書各章就像故事一樣,讀起來簡短又有趣。本書的另一個特色──討論區,稍微嚴肅了一點。討論的題目非常多樣化,通常會有一個值得深思的問題,其他的題目可視為調劑學習之用。像是,討論關於數學常數e的起源。
如果你有一些統計基礎,大可隨意瀏覽本書。否則,你應該從頭讀到尾。前十二章涉及一些最基本的概念。例如:平均、變異、分配以及信賴區間。接著有幾章論及假設檢定與p-值。最後討論迴歸分析──這也是我在工作上最常使用的統計方法,以及決策──這通常是統計學應該扮演的角色,但卻往往不是。本書的最後三分之一內容,從「比約翰湯米多一個」這一章開始,專注於討論各種統計錯誤,因為我認為科學就是嘗試錯誤的學習。在教學時,我會給提出蠢答案的學生獎勵分數,因為我們往往能從這些回答上面學到東西。以p-值而言,只有在你看過其被誤用的方式以及思考為何會犯下這樣的錯誤之後,你才能夠真正了解p-值的意涵。最後這幾章,能真正地充實你的統計知識。

本書的能與不能

誠懇地希望,在讀完本書之後,你將能夠掌握許多統計的關鍵概念。我也希望你將能夠避免那些常犯的統計錯誤。
因為我並沒有在本書呈現任何統計公式,所以你並不能夠確實進行計算與分析。如果你想要為你的研究或課堂作業進行統計分析,你必須查閱有公式和分析步驟的傳統統計教科書。此外,本書也並不能如傳統教科書一般,有專文索引能提供你查閱忘記的東西。所以,如果你的目的是跑統計分析,本書不應該是你唯一購買的書籍(即使它很適合你買來贈送給親戚、朋友、同事、鄰居以及路人甲)。另一方面,如果你是那種不想親自進行任何統計計算與分析的人(這世界大多數人都是),但必須了解與詮釋你遇到的統計──這部分人比你想像的要多,那麼本書也許正是你所需要的。

研究設計的部分在哪裡
我是個設計導向的統計學者。舉例來說,缺失值在醫學研究裡是個大問題。統計學家已經提出許許多多處理缺失值的複雜統計技術。我個人的貢獻在於提出一個非常簡易的降低缺失值的方法,也就是在一開始時,電訪在家的病人並只問兩個問題以代替冗長的問卷。依照這個方法,我們把缺失值的百分比從25%降低至6%,那麼複雜的缺失值處理技術就顯得多餘了。
因此,你也許會訝異在本書中並沒有研究設計的段落。簡言之,這是因為我不認為研究設計可以獨立於統計之外並另闢章節。有專門的兩章分別介紹迴歸分析與威寇森(Wilcoxon)檢定,這是因為理論上,你可以分別操作它們。然而,你並不會認為,在進行迴歸分析或是威寇森檢定時,可以完全不考慮你在分析的研究設計。據此,我沒有特別寫一章討論研究設計。相反的,關於研究設計的評論已然交織於本書內容當中。

關於本書的故事與數據
當我開始寫作的時候,編輯告訴我說:「安德魯,我要你寫出一本,到目前為止,最有趣的統計教科書。」所以我是這麼想的:「太棒了,那麼我只需要寫下一則笑話就完成啦!」
的確,事情並不會如此簡單,但也並不是那麼遙不可及。從任何一點來看,本書的故事與數據都有助於你學習統計。這有時意謂著,簡化與修飾有益於理解。在一些案例裡,我模擬數據(統計術語「模擬」就是憑空捏造的意思)。我這麼做是因為我手上的數據過於複雜,可能會讓讀者無法專注於理解統計概念。此外,你也會對一直看見前列腺癌厭煩──這是我目前主要的研究工作。
因此,接下來的故事與數據並不會100%貼近事實。我並不認為這會有所誤導,但請不要用本書去診斷瑞典男性血球數(參看〈梯盤棋與血清血紅蛋白水平:常態分配的見解〉),前列腺癌(參看〈何時拜訪芝加哥:關於線性與邏吉斯迴歸〉),非洲裔美國人叫一輛計程車要多久時間(參看〈永遠不會發生在我身上的一些事情:你為什麼不應該比較p-值〉),或是我朋友麥克(參看〈迴歸單身的麥克:一位條件不錯的朋友仍然單身的統計解釋〉)。或甚至是否「恐嚇從善」計畫,有助於少年犯避免往後的犯罪生涯(參看〈乾牙刷的機率:p-值到底是什麼?〉):我說它並不奏效,但是不要照單全收我的話,你自己去查查看(www.cochrane.org)。畢竟本書之目的是在闡述統計,而非制定什麼打擊犯罪政策。
我確實為這本書分析數據並且毫無迴避地呈現我發現的結果。你應該能夠複製我的分析。大部分的原始數據在網路上都找得到,但是如果你找不到,請讓我知道,我將看看該如何幫助你。附帶一提,我使用費雪精確檢定。分析本書大部分的類目式數據。
我想要答謝普由(Pew)研究中心(www.pewresearch.org)發布其對美國大眾所做有趣調查的原始數據。對跨宗教婚姻所持態度的數據,修改自2006年北愛爾蘭生活與時代調查(www.ark.ac.uk)。美國1996年犯罪統計採自於www.statcrunch.com,這是對教學很有用的數據來源(但是,需要訂閱才能使用)。針灸與頭痛數據可下載自www.trialsjournal.com/content/7/1/15(你也可以讀到一些我關於數據分享的想法)。前列腺癌數據(和瑞典男性血球數)來自於我和我的同事漢斯.莉亞(Hans Lilja)所進行的一系列研究。在醫學數據庫「PubMed」(http://www.ncbi.nlm.nih.gov/sites/entrez),使用關鍵字「Vickers 
Lilja」搜尋,可以找到更多的數據。產假的數據來自於珍妮.戈尼克(JanetGornick)的研究(參看Families That Work: Policies for Reconciling Parenthood and Employment. New York: Russell Sage Foundation, 2003)。


譯者序

現今,統計教學已然蔚為顯學。諷刺的是,不是因為這門學科很有趣,而是因為很難懂。老師們對於統計課程的有效教學,往往一籌莫展;學生們對於統計課程的莫名恐懼,每每澆熄了其想要做研究的熱情。統計是一種科學方法。如果一個國家的統計教育處於奄奄一息的地步,那麼這個國家的科學發展就會受阻,影響可謂深遠。
既然要有效教學,就要從教學法著手。行為學派的教學法,強調胡蘿蔔與棍子。以統計教學而言,這根棍子打下去可不得了,因為統計學科的標準化紙筆測驗,很可能讓你得到難堪的分數,從此恨之入骨。認知學派強調輸入與輸出。老師使出洪荒之力,在黑板上寫下一堆統計公式,企圖把十年功力如醍醐灌頂般地傳授給學生,然而個個消化不良,殊不知輸入與輸出只存在於電腦世界。這些都對統計教學造成了傷害。
要學好一件事,首先必須不能討厭它;要學好統計,首先要去除對統計的厭惡感。因此,基礎統計學課程的教學目標,反而不是汲汲營營於認知與技能方面的東西,而是要把學習情緒當作是最先要處理的課題。感謝一些統計學家注意到這方面的重要性,一些不那麼生硬的教科書應運而生,如同本書。
本書作者有豐富的實務經驗,結合了許多趣聞,以深入淺出的方式把統計觀念介紹給讀者。我把這本書定位在統計學輔助用書,如果是正式的統計學課程,建議搭配一本有系統性內容的基礎統計學教科書。然而,請不要誤會「輔助」二字為「不重要」,這本書所探討的內容極為重要,很多地方都是基礎的衍生,甚至有一般統計學教科書所達不到的深度。如果同學們進行小組合作學習,探索討論區問題的可能答案,那麼透過這樣的訓練,漸漸地,你會發現,你的研究報告讀起來很有深度且具有個人風格,而不是只有統計數值的堆砌。
由於作者背景的關係,書中案例偏向於醫療領域。然而,統計觀念是跨學科領域的,牛牽到北京還是隻牛;t-檢定不論用在教育學、心理學或社會學,都還是t-檢定。書中所探討的統計分析,只有一小部分是醫療領域常用的技術。這也不打緊,因為多一點點的醫療知識,其實對個人身心健康很有幫助,尤其在現今醫病關係緊張的年代。
統計學有許多很繞口的名詞。有時候,完全相反的名稱卻是代表同一件事。例如,本書所提及的單變量迴歸(univariate regression),指的就是二變量迴歸(bivariate regression)。前者以獨變項作為計算單位,所以只有一個獨變項;後者是二變量相關分析(bivariate correlation analysis)的進化版,也是只有一個獨變項。有時候,多變項迴歸(multivariable regression)指的就是多重迴歸(mutiple regression)。如果你學習統計時發現類似的情況,請不要惱怒,因為甚至有專文探討到底名字要怎麼取。這件事實告訴我們,只要懂得其分析結構,讀者們大可以繞過這些似乎是來自於外星球的語言,逕自取名為自家寵物的名字。
本書原價約42塊美金,換算成新台幣之後,約是一位研究所學生十天的飯錢,這實在是不小的負擔。有鑑於中文類的統計學教科書選擇性不多,引進此種風格的原文書實屬必要。「引進」的模式有一個好處,就是讓知識產權降價,造福廣大的中文讀者,這也是我翻譯統計學教科書的主要目的。這種模式,從我的第一本譯作已被兩岸四地各類型大學圖書館收藏的情況看來,已然發酵。
最後,不論你是在書店隨手翻閱到本書,或是在統計課的建議閱讀書單上看見本書,甚或是在圖書館的書架上不小心瞄到本書,我都要說聲恭喜,因為你將以極低的代價,得到幾乎是原汁原味的東西。願展讀愉快!
杜炳倫
台北

文章試閱


第19章
我的助理今天是短髮造型:關於回歸與混淆

漫畫英文
胖子:唉!又多了2公斤,是因為垃圾食物的關係嗎?或是因為不運動才使我一直吃垃圾食物和一直增肥呢?
瘦子:看來我們需要進行多變項回歸分析。

妙趣橫生的對話

對一位感冒的人,我說事情發生了變化;對一位突然沒了鬍子的朋友,我說你刮鬍子了;對一位突然變短髮的同事,我說你剪頭髮了。令人傷心的是,大部分的時間裡,我沒有什麼令人有趣的事情可說。
另一方面,頭髮案例的確告訴我們,關於回歸的一些事情。讓我們想像,幾百人排成一列,然後你去猜測他們上個星期是不是剛剪了頭髮。某些情況很容易判斷(例如:某位老兄本來長髮披肩)。總的來說,你會認為短頭髮是最近才剪的。整體上,你的猜測不會剛好那麼準:你不會知道,中間長度的頭髮,是不是最近才把長髮剪短或是留長。
我之所以知道我的助理剪了頭髮,是因為我天天看著他留著一頭長髮。所以,星期二的長髮是星期三長髮的一個有力的預測因子。這告訴我們,如果這個世界不符合某種預測,而你認為這是個有力的預測,那麼某事發生的機率就會增加。現在記住,回歸是關於預測:我們試著預測一個依變項y(像是馬拉松時間),依據的是一個或更多的x(像是訓練強度)。所以,回歸對於「某事發生」(像是剪頭髮)的預測是有助益的。

說客為漢堡、薯條以及奶昔辯護

速食通常含有大量的脂肪(像是乳酪漢堡)與糖分(像是奶昔),而據我所知,食用大量的脂肪與糖分會導致肥胖。我有一組2000位美國人回答飲食與運動習慣的數據,將近三分之二的研究參與者,至少偶爾吃速食,而他們的肥胖率比不吃速食的研究參與者要高(21% vs.15%;p<0.01)。然而,在我開始要思考我手上的研究發現時,有位美國垃圾食物協會說客代表拜訪我。這位代表宣稱,漢堡與肥胖無關,只是因為又窮又沒受過什麼教育的人們,傾向於吃垃圾食物,而這些群體一般都不努力鍛鍊身體且有著糟糕的飲食習慣。
這裡有一句你不常讀到的說法:說客是對的(在一定程度上)。當我在這組數據上進一步分析時,我發現收入、教育、性別以及運動都與肥胖有關。例如:有運動的研究參與者比那些不運動的具有較低的肥胖率(16% vs.21%;p<0.01)。我也發現收入、教育、性別以及運動都與垃圾食物有關,那些吃垃圾食物的研究參與者運動率(55%),比那些避開垃圾食物的研究參與者運動率(65%)要低(p<0.01)。
說客看見這些結果,高興地安排了一場慶祝午餐(雙層酪梨醬培根漢堡,配上大薯和大杯汽水)。但當他們離開時,我使用邏輯回歸公式去預測每位研究參與者的肥胖率期望值,依據的是收入、教育、運動習慣以及性別。吃垃圾食物的平均肥胖率為20%,而不吃垃圾食物的是18%,但確實比率為21%與15%。因為肥胖率的不同大於我們所期待的,這暗示垃圾食物與肥胖之間的關係不僅僅歸因於諸如運動等等因素的差異。換句話說,這世界不如我們所預期的,所以一定有某事正在發生。

睡眠剝奪使我焦慮

我的孩子有一套理論:早起使我焦慮。斟酌我工作天(我早起)比週末壓力大的事實。我的看法摘要如圖19-1:
這就是統計學家所說的混淆(confounding)——你認為一件事引起另一件,但事實上,是某事引起這兩件事。早起與焦慮也許並沒有真正的連結,只是因為工作天必須帶孩子上學和上班,導致我必須早起以及我的焦慮水準升高。理想情況是,找到我週末早起或工作天晚起的時候,然後我們可以分開比較工作天與週末,早起天和晚起天的焦慮水準。例如:如果週末早起天比晚起天更焦慮,那麼我們可以更有信心地說早起真的與焦慮有關。

「調校你的結果」:聽起來有點調皮,但統計學家每時每刻都在做這件事

在我們的垃圾食物研究裡,使用以上類似的方法,會有一個問題。那就是,我們必須在大量類目裡(富有的大學學歷女性運動者,富有的大學學歷女性不運動者,不富有的大學學歷男性運動者等等),比較垃圾食物饕客與節制者的肥胖率。然而,多變項回歸替我們一次性地比較所有組別裡的垃圾食物效果。
肥胖的多變項回歸,得出y=肥胖機率對數值=0.334×垃圾食物-0.246×運動-0.078×大學教育-0.0858×收入+0.375×男性-1.27(參看第18章)。在這條回歸等式裡,我們稱垃圾食物為預測變項(predictor,也就是我們真正感興趣的變項)而運動、教育、收入與性別是共變量變項(covariates,它們幫助決定是否垃圾食物與肥胖有關)。

因為垃圾食物的係數大於0,我們推斷,垃圾食物與增加肥胖的風險有關。為了算出是否此關連具有統計顯著性,我們需要標準誤,它是0.121。係數幾乎是標準誤的三倍。我們知道,在虛無假設的背景之下,此係數會有95%的機率於零的兩個標準誤之內,因此我們能夠推斷垃圾食物與肥胖之間的關連具有統計顯著性(確實的p值為0.006)。
你可以把多變項回歸等式想成這樣。想像兩組各有100位美國人——一組吃垃圾食物而另一組沒有——這兩組在運動,教育,性別以及收入上都完全一樣。如果垃圾食物組有較高的肥胖率,你會說這很可能肇因於垃圾食物與肥胖之間的真實關連,因為你無法使用說客的推托之詞,把原因怪罪到諸如運動等其他因素上。現在,想像垃圾食物組裡有稍微多一點的人不運動,而其他條件都一樣。我們不想這樣說,「喔!兩組立基有一些不一樣,我們甚至不應該進行比較。」比較合理的回答是,「好吧!組別之間有一點不一樣,所以我們也許可以調校結果以補償這些差異。」
舉例,垃圾食物組肥胖率為21%,而不吃垃圾食物組肥胖率為15%,運動百分率分別為55%與65%。我們擔心的是,垃圾食物組較低的運動率,造成了肥胖率的差異。在分析我們的數據時,發現那些不運動的,五位裡面有一位是肥胖的。垃圾食物組裡多出10%(即10位)不運動者。所以,你會期待有20%,或2位,是肥胖的。我們現在可以「調校」垃圾食物組的肥胖率。我們想像,如果兩組的運動率都一樣,在垃圾食物組裡會少2位肥胖人員,所以把21%替換成19%,這仍然高於15%。所以我們推斷,垃圾食物與肥胖的關連與運動無關。
在多變項回歸裡,我們同時調校運動、收入、教育以及性別。據此,我們也許會報告這樣的結果:「在調校了運動、收入、教育以及性別變項之後,垃圾食物是肥胖的預測因子具有統計上的顯著性(勝算比1.40﹔95%的信賴區間為1.10至1.77﹔p=0.006)。」
多變項回歸如何能幫助指認混淆變項?讓我們思考一下收入與犯罪之間的連結(參看第24章的答案)。收入中位數較高的州,有著較高的暴力犯罪率,這暗示有一堆有錢人開著瑪莎拉蒂跑車去搶銀行或殺人。但收入與犯罪之間的關係,被城市生活所混淆:比較有錢的人們,很有可能住在所費不貲的城市裡,但城市裡也有較多的犯罪。如果你在多變項回歸模型裡,為城市生活進行調校,那麼收入中位數的增加就與暴力犯罪率的減少有關,而這也是你所期待的結果。