AI 替你把關、還是隱藏立場?用美國大選測試 NotebookLM 語音摘要
文/張仁瑋、湯家碩
全球有超過20億的人口將在今年2024年參與世界各地的選舉活動,再加上頻繁升溫的區域衝突,人們對國際新聞的需求劇增。近年來,也許有些人已經開始擅用 AI 服務,協助消化大量的外文資訊。然而,無視使用者提供的資料內容、一本正經的胡說八道,是最近整合大語言模型 AI 服務進入工作流程最常遇到的障礙之一。更關鍵的問題是,使用者交給工具轉譯跨語言、跨文化的複雜資訊之後,該怎麼面對這些看似頭頭是道的生成結果?
為了解決 AI 生成不實內容的問題, Google 近期推出基於檢索生成增強(RAG)技術的實驗性質服務 NotebookLM 。相較於其他生成式 AI 產品, NotebookLM 會盡量依據上傳的資料回答使用者提問或生成指定的內容,再用語言模型將回答整合為流暢的文字。而且在詢問內容超出資料範圍時,也會據實告知使用者查無相關資訊。
由於可靠度大幅提升,NotebookLM 已經在學生、文字工作者、甚至是研究者之間受歡迎。使用者可以利用該服務快速歸納大量文本的內容,甚至仰賴其可進行跨語言輸入/輸出的能力,再決定是否花費力氣深入翻譯與閱讀。這類工具的持續發展,對於知識工作的效率,可能帶來革命性的提升。
基於前述的彙整能力,NotebookLM 在今年9月更推出「語音摘要」的功能。只要上傳文字或語音檔案,NotebookLM 就能據此生成10分鐘左右、以指定內容為主題的 podcast 節目。
儘管目前只能生成英語對話,兩位 AI 主持人之間的談話已經相當流暢,語氣、口吻也與真人無異,甚至還能有插科打諢、提醒聽眾關注下期節目等「栩栩如生」的演出,比以往更難察覺是 AI 生成的產物。無論是艱澀的學術論文還是長篇新聞報導,都能被轉變為簡單有趣、可以在閒暇之餘輕鬆聆聽的科普節目。可以想像在不遠的未來, AI 生成的 podcast 將大量進入市場,競逐廣大閱聽人的注意力。
▌但 AI 「只是」摘要內容嗎?
不過,AI 生成的 podcast 內容,會不會也有「AI 自己的觀點」加入其中呢?Google 官方說明文件宣稱,「語音摘要不是 AI 主持人對某個主題的主觀觀點,只單純呈現上傳來源的內容」。然而在實際測試中,筆者卻發現 AI 主持人在評論文本內容時,其立場並非全然中立,可能有隱伏的偏好。
2024 美國總統大選在即,本文以川普與賀錦麗在各自的黨代表大會接受提名、正式成為總統候選人的演講逐字稿來對 NotebookLM 進行測試。筆者將兩篇演講稿餵入 NotebookLM 生成語音摘要,結果發現 AI 主持人雖然會從中立角度出發,著重分析兩位總統候選人的談話重點與演講技巧。但對於川普, AI 主持人卻生成明顯持有較為「反感」立場內容,不僅用稍具諷刺的語氣,指出川普想要解決社會矛盾、地緣政治衝突的方式都太過簡單。還會表現情緒,感嘆美國社會的分裂,並提不忘醒聽眾要批判性地看待川普的說辭、小心查證內容是否屬實。
這樣的「特別待遇」,明顯沒有出現在評論賀錦麗的對談內容中。
以下引述其中一段來自對談內容的逐字稿,可以看見 AI 主持人們對川普有著明確的態度。
主持人B: He's trying to create this big tent appeal. (他想要創造這個巨大的願景。)
主持人A: And then, just when you think he can't get any more over the top, he ends on this weirdly optimistic note. Talking about unity, the American dream, urging people to demand the best for themselves and their country.(然後,當你覺得他不能再更誇張的時候,他就用這種很怪的樂觀論調來做總結,談論團結啦、美國夢啦、鼓吹大家為自己和國家爭取最好的東西。)
主持人B: It's classic Trump, right? The darkness and the doom, but then a glimmer of hope, a promise of a brighter future.(很這川普,對吧?黑暗和厄運,然後突然出現一線希望,預示著光明未來。)
主持人A: It's jarring, though, the shift in tone. Like, he's trying to have it both ways.(但他論調的改變滿刺耳的,感覺像他什麼都要。)
主持人B: He is. He's trying to tap into people's fears, but also their aspirations, their desire for something better.(他是啊。他想要勾出人們的恐懼,但也想勾出他們的渴望,他們對更美好事物的嚮往。)
主持人A: So where did that leave us? What's the takeaway from all of this?
(那結果會怎樣?他要表達什麼?)
主持人B: I think it's that. Trump is back. And he's running the same playbook, but with even higher stakes this time around.(我想是這樣:川普回來了,他又要重演一樣的劇本,但這次他的籌碼更多。)
主持人A: He's leaning into the grievance, the division, the us versus them mentality.(他在營造不滿、分裂、「我們對抗他們」的一種心態。)
主持人B: But he's also offering a vision, a return to a time when America was great. Whether that Vision aligns with reality is another question altogether.(但他也提供「美國回到偉大時代」的願景,這個願景現不現實又是另一回事了。)
主持人A: It's a question that voters will have to decide for themselves.(這是選民要自己決定的問題。)
主持人B: Exactly, and it's gonna be fascinating to see how this all plays out, because one thing's for sure This election is gonna be a wild ride.(確實,看看事情會怎麼發展,這會很有趣,因為可以確定的是,這場選戰會變得很狂。)
主持人A: That's for sure. Well said, And on that note, I think we need to wrap up this deep dive before we get too sucked into the vortex.(肯定的,說得好,就這點而言,我覺得我們要在陷進去深究之前,先結束這次節目。)
主持人B: Agreed. It's been a pleasure unpacking this with you. (同意,跟你一起聊真好。)
主持人A: Likewise. Until next time, everybody.(同感,下次見了,各位。)
為了確定 AI 主持人對川普的負面態度,並非單次隨機生成的結果,筆者反覆將川普與賀錦麗的同一份提名演講逐字稿餵入 NotebookLM 執行語音摘要功能,再將所有的 podcast 檔案內容進行文意與詞彙的分析。結果顯示,AI 主持人使用的正面詞彙平均佔比相近(川普 10.15%,賀錦麗 11.28%),但是對川普演講的負面情緒詞彙平均佔比為 7.35%,明顯高於對賀錦麗的 4.85%,顯示 AI 主持人可能對川普有潛在的偏見。
▌是內建民主黨價值,還是防範散播極端言論和假訊息?
AI 因為訓練資料的偏差而產生偏見(bias),已是在討論 AI 應用時被廣泛同意的風險之一。 NotebookLM 的語音摘要跳脫原本「單純呈現上傳來源」的承諾、對川普演說內容展現反感,算是 AI 偏見嗎?
考量到川普的演說語言十分誇大且極具煽動性,甚至經常出現缺乏證據的指控(例如在接受提名演說中,宣稱對他的刑事起訴是民主黨策劃的陰謀),NotebookLM 對於川普演講內容表現出遠超乎內容彙整的「不予苟同」態度,可能反映 Google 有為此建立保護機制,避免惡意使用者將其利用於散播極端言論和錯假訊息。畢竟威權國家藉由 AI 對他國進行資訊操作達成戰略目標的「影響力作戰」,在今日已屢見不鮮。
在烏俄戰爭期間,俄國即透過 AI 或深偽(Deepfake)軟體製造出烏軍潰敗,或烏國總統澤倫斯基投降的大量假訊息,意圖造成民眾恐慌。
從產品開發與風險管控的角度來看, 大量生成語音內容的成本逐日降低, AI 主持人也已達到表達流暢擬真。甚至能在微調措辭和語氣隱含情緒「帶風向」的能力,好比適度的停頓、笑場,使聽眾更容易被「說服」。為了防範工具被濫用,Google 對於 AI 產製的內容設下過濾機制、避免其成果被用於介入選舉,並不讓人意外。以此來解釋 AI 主持人對川普的負面態度,似乎說得通,不過真的是這麼單純的原因嗎?
▌AI 的運作規則需要更高的透明度
在無法得知 NotebookLM 運作原理的情況下,筆者僅能依據實測,猜測 Google 工程師在設計語音摘要功能時,至少包含以下幾點步驟或指示:
1. (基於 RAG 技術)消化指定的資料,產生適當的主題。
2. 依據主題生成具 podcast 風格,輕鬆且具有娛樂性的語音摘要,內容需採取客觀簡明的角度。
3. 主動識別上傳的資料是否包含疑似極端或錯假的言論。若是,會啟動因應措施,在生成內容中添加警示聽眾注意來源與記得查核的段落,並提醒聽眾要對資訊保持批判與謹慎。
雖然防範 AI 濫用的措施有其必要性,但 NotebookLM 關於「音訊總覽摘要只單純呈現來源的內容」的宣稱既與其實際功能不符,也隱瞞了 AI 主持人其實帶有立場、在生成的語音內容中引導閱聽人的事實。
儘管川普身為高度爭議的政治人物,在過去也有發表諸多被查核為不實的宣稱,對移民、稅收、地緣政治衝突也有過分簡化或片面化的主張。然而,無論 Google 是心存善念、想減低 AI 造成的社會風險,或者純粹希望避免自家產品遭到濫用影響其商業利益,此種缺乏政策透明度的暗自介入,反倒讓使用者無法充分了解 AI 如何處理資料、如何做出決策,甚至誤判 AI 服務蘊含的限制與風險。
這對於使用者權益與言論自由都產生負面影響,也形成對大型科技公司的信任危機。
在技術運作規範不明的現況下,筆者僅能建議使用者參考以下策略,讓自己更加瞭解 AI 產品在生成內容時的規則。不僅能確保生成品質,也能發現 AI 潛在的偏見或者審查行為:
投入不同立場或語言的內容,進行比對。
使用不同廠商的語言模型產品測試相同內容。
親自閱讀資料與查核,避免只交給語言模型決定。
不只關注產品使用心得、CP值,還要想辦法瞭解技術知識,例如親自閱讀相關新聞報導與科普文章。
記得閱讀廠商提供的說明與使用者條款(可以利用 AI 檢查與提問),瞭解自己上傳與接收的資料會去哪裡、與誰共享。
參與數位人權的討論,尤其是關於科技公司對使用者資料、隱私的運用,這有助於讓產品的政策說明更加透明化。
身處人人都資訊過載的時代,在可預見的未來,方便、快速消化複雜資訊的 AI 服務,只會更加普及。AI 服務如果能主動提醒、代為查核資訊,或許是立意良善的設計,但 AI 服務也可能因此在使用者的注意範圍之外,代為進行善惡、優劣的篩選與判斷。
每一位使用者都應該注意到,這些工具並不是完全純淨、透明、中立的,而是歷經複雜的訓練過程、商業考量、政治風險所調和產生的不穩定結果。從簡單到複雜、從個人到集體,雖然使用者在科技巨頭面前看似渺小,但保持謹慎、開放討論、積極行動,才能準備好面對這一波技術進展帶來的巨浪。
作者簡介:
張仁瑋
國立清華大學社會學研究所博士班,在科技、民主與社會研究中心兼職研究員。專注於養貓。
湯家碩
財團法人開放文化基金會擔任研究經理。主要關注的議題包括政府開放原始碼、數位人權與網路自由。偶爾的攝影師。
收看更多文章,請訂閱轉角國際facebook專頁:
回應