數據惡果：美國大選民調故事

2016/11/24 The Glocal

文／尹子軒（The Glocal副總編輯）；曾朗天、孫超群（The Glocal助理研究員）

在當代語境中，民主社會和公眾民調彷彿成為連體嬰，人民在每一次的大選中，一定會被鋪天蓋地的民調數據衝擊。數字進駐報紙、新聞、網路每一個版面，試圖呈現一個最科學最客觀的世界給觀眾。但儘管民調高度數據化、系統化和理性化，依舊會出現一些始料不及的結果，如同幾個月前的英國脫歐公投，或告吹的哥倫比亞內戰和議一樣。本月（11）初美國大選中川普勝選，更甚是為整個美國民調界投下一顆震撼彈，失準民調突然刺破傳統科學化的信仰，教我們反思究竟民調本質是何物。

既然全球社會對美國大選和民調之間的落差咋舌不已，當下我們更應重整美國民調發展史的時間脈絡。從來，美國民調都是在嘗試通過科學手法接近真實，卻遠遠未能抵達真相彼岸——每一次的民調改進，看似終於成為反映真實民情的工具，出人意料的結果卻，又會再次拉開民調科學的距離。

歸根究底，民調的工具縱然經過了時日的淬煉，依然存在一定程度的偏見，忽視了關鍵的細節時，便無法反映真實的民意。

本文嘗試先通過梳理美國民調科學的發展史，再通過分析今年選舉的數據錯位，期望為讀者帶來啟示。

我們或許越來越察覺到，在這個資訊爆炸的時代裡，透過數字窺探世界一二，高舉大眾科學化的民調之名，最後卻是把身旁種種輕微聲音給掩蓋、沉沒和忽視。圖／路透社

▎初嚐數據的美好，美國民調歷史

我們日常所見的大規模數據民調，成為科學化的代名詞，數字的升降，理應回應著現實民意的跳動。科學化民調作為先進民主社會的傳統，憑著透過越來越精密設計的問卷、抽樣、面試或各種與受訪者互動的方法，盡可能反映到事實的原貌。聖荷西州立大學傳播學教授Richard Craig認為民調本質上未必能完全科學化，因民調問題始終由訪問者有意識地設計，必然會牽涉人為取材的失誤，比如選項題的簡化，可能讓意見流失。但是，儘管民調設計有原則性問題，卻不盡然代表沒有存在意義。

美國史上第一次民調，就是建基於抽取大量數據做分析。1790年美國人口普查局（United States Census Bureau）根據憲法規定，為全國做了歷史上第一個有系統的的民意調查。之後由於眾議院的議席按人口比例提升，於是人口普查局透過收集國民的性別、種族、年齡、階層等基本資料，先後做了不同規模的民調。

接著，政治學的上的統計進一步地催生了商業統計學。企業家和商人希望透過收集資料，精準掌握客戶方向與偏好，而當時傾向使用焦點團體訪談（focus group；將目標人士組成單位，透過訪問調查意向）做為研究方法，以及使用收音機當作研究工具。

商用民意調查的先驅者——統計學家埃爾摩·羅珀（Elmo Roper）和喬治·蓋洛普（George Horace Gallup）——相繼設立各研究所，為公私營機構進行民調。但是真正確立他們在政治民調的地位，卻要等到1936年的美國大選年——那年，共和黨籍的阿爾夫·蘭登（Alf Landon）對上民主黨籍的羅斯福（Franklin D. Roosevelt）。

蓋洛普民調公司的前身是美國公共意見研究所（American Institute of Public Opinion），圖右為創辦人喬治·蓋洛普，圖左為該研究所的首席統計師Edward G. Benson。. 圖／美聯社

▎決戰美國大選1936：隨機抽樣的興起

其實在1936年前，與選舉相關的「政見調查」早已存在，美國首次出現的不記名民調，最早刊登在1824年的報紙上。當時通訊科技尚未普及，報紙業主只能倚賴讀者回信，因此受訪者往往只在幾百人之中，而且也未按回信者的地區等身份資料做分類，故此當時的民調對比現在來說是毫無科學性可言。

但到20世紀初，一份叫《文學文摘》（The Literary Digest）的周刊雜誌，卻以不記名、不分類的民意測驗，預測總統大選而見稱。自1916年起，《文學文摘》都能準確預測每年選情，其中包括1920、1924、1928和1932年的總統人選。到了1936年，這位民調界長勝將軍開出一個對盤：

阿爾夫·蘭登會以57%的選票之差，擊敗獲得43%選票的羅斯福。

《文學文摘》之所以能如此自信滿滿地預言賽果，全因它使用當時全美覆蓋率最大的民調方法——透過電話簿登記者、雜誌訂閱者、私人會所會員名單等個資，向全國一千萬人寄出模擬選票，最後收到二百多萬的回信。

但選舉結果卻是截然不同，羅斯福以61%的選票晉身白宮，成為歷史上少數以大比數勝出的美國總統候選人。《文學文摘》的失效預言，使它從民調界黯然收場；而上文提過的商用民調先驅蓋洛普，卻在同一場賽事裡，依憑5萬人的小規模民調，精準預側羅斯福成功進場。

究竟哪裡出了差錯？

原因在於1936年的大選時值經濟大蕭條，有高達900萬的失業人士沒有穩定收入，又何以能被包括在《文學文摘》所設定的電話使用者、會所人士和雜誌訂閱者的目標之中。《文學文摘》的取樣方法出現大幅度的取樣誤差，把大量低收入人士排除在外；但蓋洛普所使用的是，按特定組別分類的隨機抽樣，在把得出數字方法成全國意見，結果分別顯而易見。

爾後，蓋洛普科學化模式、分組化隨機抽樣的民調成為主流，成功預測之後的幾次選舉。然而，雖然蓋洛普的新式民調擺脫了偏頗取樣的問題，二十年後卻遇上另外一個問題。

商用民意調查的先驅者喬治·蓋洛普創立的蓋洛普民調公司（Gallup, Inc.），雖然至今在民調產業地位歷久不衰，卻也曾有滑鐵盧的過往。
圖／路透社 — 商用民意調查的先驅者喬治·蓋洛普創立的蓋洛普民調公司（Gallup, Inc.），雖然至今在民調產業地位歷久不衰，卻也曾有滑鐵盧的過往。圖／路透社

▎再逢滑鐵盧之後，被數據佔據的新聞版面

來到1948年美國大選，包含蓋洛普在內當時大部分的民調公司，都預計共和黨候選人湯瑪斯·杜威（Thomas Edmund Dewey），會以5%到15%的差距，擊敗民主黨的杜魯門（Harry S. Truman）。但最終投票結果，卻後者反超對手4%勝出——民調界再一次遭到滑鐵盧。

這次的問題出在不少民調公司在大選前的幾個星期前，便提早停止取樣工作，導致早前得出的數據未能緊貼後來選戰的事態轉變。1948年被忽略的時間動態，提醒日後民調工作者要著重全天候的分析，於是今天我們見到密集不分晝夜的分析精神，正是從1948年慘痛教訓中得出。

隨著通訊科技高度成熟，美國社會在70年代的電話覆蓋率，達到90至95%的水平，民調取樣於是再次回到使用隨機電話號碼作為調查媒介。

美國CBS廣播公司最早在1972年開始全國調查，於1975年和紐約時報進行合作民調。據聖荷西州立大學傳播學教授Richard Craig的調查指出，1972年只有兩間媒體主導的民調機構進行過三次測試，去到1988年媒體民調發展到八間機構，合共提供259次民意統計。

時至今日，每次大選年都有國內外的媒體進行不同程度的民意採訪，媒體報導大選的方針，也因此從候選人政見轉移聚焦到數據調查之上。八零年代的紐約時報，大概僅有10%的頭版內容是在分析民意數據，但到了1990年，有超過90%的版面充斥數字化內容。^註1主流媒體過分向數字傾斜，成就了市民對客觀民調無容置疑的信心，不慎忘記一直以來歷史教訓：

任民調如何科學化，都沒可能完全準確。

民調導致媒體出包案例：由於過於信任民調預測杜威勝選，誰也未預料杜魯門會逆轉勝，美國老牌媒體《芝加哥論壇報》在大選結果出爐的當日來不及回收已印刷好的頭版——「杜威擊敗杜魯門」，結果隔一天被喜孜孜的杜魯門高舉報紙調侃。圖／美聯社

▎事前錯估，事後諸葛的川普黑天鵝事件

在今年，當主流傳媒都認為希拉蕊毫無懸念成為總統之時，結果卻令人大跌眼鏡。民意調查的水晶球再次宣告失靈。媒體氾濫使用民調分析時局，間接叫世人信奉從量化得知真相的迷思，掉進了去脈絡化的思想陷阱。無論今屆美國大選所進行的民調多有科學基礎背書，人口取樣的誤差和過分低估出線機會，都被詬病成本屆民調的幕後黑手。

統計學上的「未回覆偏誤」（non-response bias），或是傳播學理論中的「沉默螺旋」（spiral of silence），都可以解釋是大眾傳媒對選舉結果的推選錯誤：前者如當發生對候選人不利的醜聞（希拉蕊的電郵門事件等），都會讓兩派陣營支持者對民調的回答機率，呈現此消彼長之勢，從而影響準確性；後者又認為川普的潛在支持者因為怕遭人白眼，而在民調答覆中選擇否認或沉默。

但是，這些理論並不全面，除了前者因為數據比較波動而無法證明外，後者亦需要一些脈絡，加以補充川普支持者的心理。

在大選前一個星期，美國各大傳媒調查機構如《路透社》、《華爾街日報》等，都認為希拉蕊領先4至5個百分點；反之，只有小數如《洛杉磯時報》等調查，所得結果是川普領先3個百分點。其實在百分比的數據上，若以統計上存在2至3個百分比的誤差標準上，這些民調都不夠精準，更不用提川普還輸掉普選票，在估計川普在普選票領先的民調結果可謂更為失準。

在兩者當選機率上，著名數據調查博客《FiveThirtyEight》更在選前一天，預測希拉蕊的當選機率高達七成以上；《紐約時報》更揚言希拉蕊的當選機率達八成半！雖然我們不能排除那區區15或是30百分點的可能性，但整體來說，希拉蕊的勝算仍是被過份高估。到了最後，川普「爆冷」而出，更被各大媒體事後評為「黑天鵝事件」。

過往報紙頭版未見大篇幅的民調分析，如今數字卻佔據了多數媒體的頭版。隨著投票日逼近，數據圖表成為報紙最吸精易懂的資訊傳播方式；圖為大選前兩天（11月6日）《華爾街日報》（左）頭版以及大選前一天（11月7日）《華爾街日報》頭版（右）。

▎出口民調透露：笨蛋！問題在經濟（？！）

問題都出在哪裡了？「黑天鵝事件」後大家事後諸葛，企圖為這個不似預期的結果以不同的理論框架去解釋，但其實最重要的，不只是套與理論，而是要把解釋賦予脈絡。

在整個選舉氣候上，大家都對不同群組的投票取向持有刻板印象：例如川普因為鼓吹仇外主義，以及惡言侮辱女性，就一定會讓不同族群和女性選民，一面倒站出來投票支持希拉蕊；或是大部分受過高等教育的年青選民，因為比較包融多元價值觀，就一定支持自由派的希拉蕊云云。

然而情況並沒有想像中的簡單，因為某些群組的投票取向，卻與主流偏見產生衝突。根據出口民調，無論在女性或是拉丁裔選民中，希拉蕊的表現均是差於預期。

在女性選民方面，有約54%的女性在是次大選中投票給希拉蕊；對比2012年歐巴馬獲得的55%女性選票，並沒有大幅度增長。而川普方對比2012年的羅姆尼，女性選票僅約流失兩個百分點。值得大家留意的是，仍然有超過五成白人女性投票支持川普。

川普在女性選民的市場中，並非想像中的一場災難，至少坊間仍有些民間組織，在這次大選中公開支持川普，其中最為曯目的組纖，便是由白人女性主導的「Women for Trump」。根據其官網清楚列明支持川普背後的理據，該組織的成員認為川普「thinks outside the box」，她們只著重川普實際的行動及「改變」的形象，並不著重他的言行舉止。

其實和整體白人組別的選民心態如出一轍，除了受夠了白宮精英建制圈子裡「政治正確的虛偽」，並認為川普是一個「改變者（Change Maker）」，能為日益沒落的美國白人勞工階層發聲，改善她們的經濟生活，打擊非法移民對她們生活空間的威脅等等。這種支持川普的理由，是從她們的經濟處境及種族角度出發。因此，川普的狂言，並無影響她們的立場，而天方夜譚的政見，更讓她們認定川普的理念猶如跳出僵化的框框。

雖然其他黑人或拉丁裔女性一面倒支持希拉蕊，但從整體投票取向而言，女性選民對川普並不如主流媒體所說那麼反感。

支持川普的女性選民認為川普能跳出僵化的框框，她們只著重川普實際的行動及「改變」的形象，並不著重他的言行舉止。
圖／路透社 — 支持川普的女性選民認為川普能跳出僵化的框框，她們只著重川普實際的行動及「改變」的形象，並不著重他的言行舉止。圖／路透社

拉丁裔選民的選票，希拉蕊表現更加不濟。川普在競選期間四處散佈墨西哥正在把罪犯與強姦犯送過來美國的傳聞，更力倡在美墨邊境建築圍牆，要求墨西哥政府全數埋單，這些瘋狂的言論，理論上會在拉丁裔選民中引起軒然大波並影響川普選情，然而，一切卻事與願違。

若比較近兩屆大選的出口民調數據，就會發現拉丁裔選民中，只有六成半人投票給希拉蕊，比上屆約七成投票給歐巴馬的數目為少；有趣的是，川普在拉丁裔組別的支持率，比起2012年的羅姆尼，不跌反微升。

投票給川普的拉丁裔選民，他們心裡在想什麼呢？根據美國拉丁裔的小型組織「拉美裔挺川普（Latinos for Trump）」其中古巴裔組織的創辦人Denise Galvez表示，整場選舉輿論失焦，只把焦點放在川普轟動的言論上；她並不相信川普打從心底裡要驅逐所有非法移民、或是認為所有墨西哥人都是罪犯，相反，她支持川普的理據，認為他會制定一個合理的移民政策。同時，她認為大眾受到主流媒體的影響，忽視拉丁裔中保守勢力的聲音——建立強健穩定的邊境秩序——這個組織的綱領訴求。

另一個選民的聲音，來自1979年從多明尼加共和國移民到美國的Josefina Rocabado。她對希拉蕊的競選洗腦感到反感，因為民主黨藍色陣營宣揚「若果不投民主黨，就等於背棄自己的根源」的謬論。此外，日益潦倒的經濟困境，使她覺得改善經濟應為最優先的目標。身為保險公司經理的她，認為自己由過往的中產階層向下流動到中產與基層之間，風光不再。因此，川普以改變建制自居，令她支持這位政治不正確的狂人。

川普打出經濟牌，就像比爾柯林頓在1992年大選時說的：「笨蛋！問題在經濟」（It's the economy, stupid）的道理。在聽了這些在美拉丁裔的聲音後，或許就不難發現，這些人的利益與本土美國人連成一線。

大眾受到主流媒體的影響，忽視拉丁裔中保守勢力的聲音——建立強健穩定的邊境秩序——是「拉美裔挺川普」的綱領訴求。圖為為川普站台的拉丁裔選民。圖／路透社

▎2016美國大選州份民調：隱藏的人口結構問題

再細看地方的情況，某些州份的選前民調結果和實際開票結果，有十分明顯的落差，準確性亦不一。希拉蕊陣營更錯判形勢，痛失了密西根州、威斯康辛州和賓州等原本民主黨的囊中物。

《每日電訊報》的記者柯克（Ashley Kirk）及史考特（Patrick Scott）為此提出了其中一個假設：低學歷白人居多的州份，與這種落差有莫大關係。以愛荷華州和俄亥俄州為例，川普在前者的民調與開票落差達5%左右，而在後者更超過6%。而在這兩個州份，24歲以上沒有大學學歷的白人比例達七成以上，在諸多競爭激烈州份之中名列前茅。主流傳媒似乎在進行民調的過程中，低估了這群「沉默的多數」的不滿情緒。至於這種對希拉蕊這種「精英」的反感，原因大概和以上所提及的白人女性群組大體相同。

威斯康辛州的情況也頗為極端，兩位候選人的民調與實際開票落差達到7.4%！事實上，川普在該州份所取得的票數，和2012年的羅姆尼的票數相約（即使他在當時在這州份輸給歐巴馬）；但希拉蕊比起2012年的歐巴馬，在該州份取得的票數卻少了近25萬，以致今年成為該州自1984年起，第一次投奔共和黨——這或許說明了另一民調數字失準的因素，就是大家都忽略了潛在對希拉蕊的反感，而不是川普特別受到歡迎。

這25萬的票到底如何消失了？根據票站調查所得，在30歲以下的群組中，希拉蕊只有4%的支持率，這比起2012年的歐巴馬時大幅削減了近20%。而且，這群流失的選票，一部分去了第三第四位總統候選人，一部分卻誰也不支持。縱使川普的支持度在該州不是特別出眾，選民對希拉蕊的潛在反感，足以影響大局，這也是主流傳媒所忽視的。

儘管希拉蕊努力在韋恩州立大學催票（圖），民主黨單單在底特律市的韋恩郡（Wayne），就流失了超過5萬張選票。圖／路透社

另一個讓選前民調失準的因素十分特別，就是城市背景的時移世易。

在黑人人口比例達八成得底特律，乃為民主黨的票倉，理應能夠拿下，但底特律在2013年宣布破產，成為全美首座申請破產的大城市。隨著財政出了狀況，公共服務品質下降，加上治安惡化，種種因素加劇了人口外流。根據美國人口普查局，2000年代早期該市的人口為92萬左右，但到了今天只有約68萬人，底特律成為了過去半世紀以來人口下滑最多的城市之一。

根據選前民調，希拉蕊在密西根的勝選率高達九成，領先川普約四個百分點，然而，最終川普卻在該州大捷，一反坊間民調的估算。單單是底特律市的韋恩郡（Wayne），就比起2012年流失了超過5萬張選票——看似微不足道的選票量，要影響密西根州的大局綽綽有餘，因為川普在該區僅以0.3%的輕微差距取勝，即約1萬4千張選票。

這些被忽略的州／城人口流動，隱藏在背後，一點一滴地改變了選民結構，影響最終投票結果。

川普的竄出，反映出民調科學難以解釋現實世界的異質性。正當大家依憑片面民調捕風捉影地祈求黑天鵝不再出現，大選年又把我們從過分使用科學民調的錯覺中搖醒。過分量化，追逐理性，忽略選區背後脈絡種種，將成為本次選舉民調的結語。

如斯驚訝的是，群眾不難發現在資訊爆炸的時代裡，只能通過數字窺探世界一二，高舉大眾科學化的民調之名，卻把身旁種種輕微聲音給掩蓋、沉沒和忽視。