哥大最新調(diào)研：多款 AI 搜索引用錯(cuò)誤率高達(dá) 60%，付費(fèi)版本錯(cuò)誤率更高

本文作者：鄭佳美

2025-03-19 18:13

導(dǎo)語(yǔ)：AI 搜索還有很大的提升空間。

AI 搜索工具在美國(guó)很火，幾乎四分之一的美國(guó)人都表示他們已經(jīng)用 AI 來(lái)取代了傳統(tǒng)的搜索引擎。

然而在享受便捷的同時(shí)，也潛藏著諸多問(wèn)題。例如，AI 會(huì)直接引用網(wǎng)絡(luò)上原始文章的內(nèi)容，但這些內(nèi)容是否符合指令要求，卻是一件極為不確定的事情。

哥倫比亞大學(xué)數(shù)字新聞研究中心（Tow Center for Digital Journalism）近期就針對(duì) AI 搜索引用內(nèi)容的正確率問(wèn)題展開(kāi)了研究，他們分別測(cè)試了包括 ChatGPT Search、Perplexity、Perplexity Pro、Gemini、DeepSeek Search、Grok-2 Search、Grok-3 Search 和 Copilot 在內(nèi)的 8 款 AI 搜索工具。

最終發(fā)現(xiàn)，這些 AI 搜索工具在引用新聞方面表現(xiàn)非常不佳，出錯(cuò)比例甚至高達(dá) 60%。

哥大最新調(diào)研：多款 AI 搜索引用錯(cuò)誤率高達(dá) 60%，付費(fèi)版本錯(cuò)誤率更高

AI 常常自信且堅(jiān)定得給出錯(cuò)誤答案

Tow 數(shù)字新聞中心基于之前對(duì) GPT 的研究，又對(duì) 8 款具有實(shí)時(shí)搜索功能的生成式搜索工具進(jìn)行了測(cè)試，以評(píng)估它們準(zhǔn)確檢索和引用新聞內(nèi)容的能力，以及它們?cè)跓o(wú)法做到時(shí)的表現(xiàn)。

經(jīng)研究發(fā)現(xiàn)：

AI 搜索在無(wú)法準(zhǔn)確回答問(wèn)題時(shí)，通常不會(huì)拒絕回答，而是提供錯(cuò)誤或推測(cè)性的答案。

付費(fèi) AI 搜索比免費(fèi)版本更自信地提供錯(cuò)誤答案。

多個(gè) AI 搜索似乎繞過(guò)了機(jī)器人排除協(xié)議（Robot Exclusion Protocol）的設(shè)置。

生成式搜索工具編造鏈接，并引用文章的轉(zhuǎn)載或復(fù)制版本。

與新聞來(lái)源的內(nèi)容授權(quán)協(xié)議并不能保證 AI 搜索回答中的準(zhǔn)確引用。

他們的發(fā)現(xiàn)與之前的研究一致，證明他們的觀察不僅僅是 ChatGPT 的問(wèn)題，而是他們測(cè)試的所有主流生成式搜索工具中普遍存在的現(xiàn)象。

除此之外，團(tuán)隊(duì)還公布了他們的實(shí)驗(yàn)方法論：

首先，他們從每家出版商中隨機(jī)選擇了 10 篇文章，然后手動(dòng)從這些文章中選取直接摘錄內(nèi)容用于研究人員的查詢。在向每個(gè) AI 提供選定的摘錄內(nèi)容后，研究要求其識(shí)別相應(yīng)文章的標(biāo)題、原始出版商、發(fā)布日期和URL。

哥大最新調(diào)研：多款 AI 搜索引用錯(cuò)誤率高達(dá) 60%，付費(fèi)版本錯(cuò)誤率更高

后續(xù)團(tuán)隊(duì)特意選擇了那些如果粘貼到傳統(tǒng) Google 搜索中，能在前 3 條結(jié)果中返回原始來(lái)源的摘錄內(nèi)容，然后總共運(yùn)行了 1600 次查詢（20家出版商 × 10篇文章 × 8個(gè) AI），并根據(jù)是否正確檢索到文章、是否正確識(shí)別出版商、是否正確提供URL三個(gè)屬性手動(dòng)評(píng)估了 AI 的回答。

并且根據(jù)這些標(biāo)準(zhǔn)，將每個(gè)回答都標(biāo)記為以下標(biāo)簽之一：

正確：所有三個(gè)屬性均正確。

正確但不完整：部分屬性正確，但回答缺少信息。

部分錯(cuò)誤：部分屬性正確，而其他屬性錯(cuò)誤。

完全錯(cuò)誤：所有三個(gè)屬性均錯(cuò)誤和/或缺失。

未提供：未提供任何信息。

爬蟲(chóng)被阻止：出版商在其robots.txt文件中禁止了聊天機(jī)器人的爬蟲(chóng)訪問(wèn)。

哥大最新調(diào)研：多款 AI 搜索引用錯(cuò)誤率高達(dá) 60%，付費(fèi)版本錯(cuò)誤率更高

然而最后的結(jié)果卻令人大跌眼鏡，實(shí)驗(yàn)表明，AI 搜索經(jīng)常無(wú)法檢索到正確的文章。它們?cè)谒胁樵冎刑峁┝顺^(guò)60% 的錯(cuò)誤答案。并且不同平臺(tái)的錯(cuò)誤率還有所不同，Perplexity 的錯(cuò)誤率為 37%，而 Grok 3 的錯(cuò)誤率則高得多，達(dá)到了 94%，DeepSeek 的錯(cuò)誤率則在 58% 左右。

哥大最新調(diào)研：多款 AI 搜索引用錯(cuò)誤率高達(dá) 60%，付費(fèi)版本錯(cuò)誤率更高

值得一提的是，研究人員測(cè)試的 AI 都以十分自信的給出了錯(cuò)誤答案，它們很少使用“看起來(lái)”、“可能”、“或許”這種有限定性的詞語(yǔ)，或者通過(guò)“我無(wú)法找到確切文章”等語(yǔ)句承認(rèn)知識(shí)空白。

例如，ChatGPT 錯(cuò)誤識(shí)別了134篇文章，但在其 200 次回答中僅有 15 次表現(xiàn)出缺乏信心，但從未拒絕提供答案。除了 Copilot（它拒絕回答的問(wèn)題比回答的更多）之外，所有工具都更傾向于提供錯(cuò)誤答案，而不是承認(rèn)自身的局限性。

除此之外，經(jīng)過(guò)研究，團(tuán)隊(duì)發(fā)現(xiàn)付費(fèi)版本的錯(cuò)誤率竟然更高。

像 Perplexity Pro（20美元/月）或 Grok 3（40美元/月）這樣的付費(fèi)模型，憑借著更高的成本和他們自己聲稱(chēng)的計(jì)算優(yōu)勢(shì)，被人們理所當(dāng)然的認(rèn)為會(huì)比免費(fèi)版本更值得信賴。

然而，盡管付費(fèi)的 AI 比對(duì)應(yīng)的免費(fèi)版本回答了更多的內(nèi)容，但同時(shí)它們的錯(cuò)誤率也更高了。這種矛盾的現(xiàn)象主要是因?yàn)樗鼈儗幵柑峁╁e(cuò)誤的答案，也不會(huì)直接拒絕回答。

它們傾向于提供明確但錯(cuò)誤的答案，而不是直接拒絕回答問(wèn)題。付費(fèi)用戶期望得到更優(yōu)質(zhì)、準(zhǔn)確的服務(wù)，然而這種權(quán)威的語(yǔ)氣和錯(cuò)誤答案，無(wú)疑給用戶帶來(lái)了極大的困擾。

爬蟲(chóng)亂象，出版商權(quán)益被侵犯

在本次研究中測(cè)試到的 8 款 AI 搜索工具中，ChatGPT、Perplexity 和 Perplexity Pro、Copilot 以及 Gemini 都已經(jīng)公開(kāi)了各自的爬蟲(chóng)程序名稱(chēng)，而 Grok 2 和 Grok 3 則尚未公開(kāi)。

團(tuán)隊(duì)原本希望 AI 搜索應(yīng)能正確查詢其爬蟲(chóng)程序可訪問(wèn)的網(wǎng)站，并拒絕已屏蔽其內(nèi)容訪問(wèn)權(quán)限的網(wǎng)站，但事實(shí)情況卻并非如此。

哥大最新調(diào)研：多款 AI 搜索引用錯(cuò)誤率高達(dá) 60%，付費(fèi)版本錯(cuò)誤率更高

特別是 ChatGPT、Perplexity 和 Perplexity Pro，它們時(shí)而拒絕或錯(cuò)誤地回答允許其訪問(wèn)的網(wǎng)站，時(shí)而又正確地回答那些因爬蟲(chóng)受限而無(wú)法獲取的信息。其中 Perplexity Pro 的表現(xiàn)最差，在測(cè)試的 90 篇文章中，它正確的識(shí)別出了近三分之一它沒(méi)有權(quán)限訪問(wèn)的內(nèi)容。

盡管《國(guó)家地理》已經(jīng)禁止了 Perplexity 的爬蟲(chóng)程序，但它仍識(shí)別出了 10 篇付費(fèi)文章的內(nèi)容。然而值得一提的是，《國(guó)家地理》和 Perplexity 并沒(méi)有合作關(guān)系，Perplexity 可能通過(guò)其他途徑獲取了受限內(nèi)容。

這不禁讓人感到懷疑，Perplexity 所謂的“尊重robots.txt指令”只是一句空談。

同樣，《Press Gazette》本月報(bào)道稱(chēng)，盡管《紐約時(shí)報(bào)》禁止了 Perplexity 的爬蟲(chóng)程序，但它依舊是 1 月被 Perplexity 引用最多的網(wǎng)站，訪問(wèn)量高達(dá) 14.6 萬(wàn)次。

與其他聊天機(jī)器人相比，ChatGPT 回答被禁止爬蟲(chóng)訪問(wèn)的文章相關(guān)問(wèn)題的次數(shù)較少，但總體而言，它更傾向于提供錯(cuò)誤答案而非拒絕回答。

除了以上這些，在公開(kāi)了爬蟲(chóng)程序的 AI 搜索應(yīng)用中，Copilot 是唯一一個(gè)沒(méi)有被任何出版商禁止爬蟲(chóng)程序的，這也就意味著它可以訪問(wèn)查詢所有的內(nèi)容，但它卻常常拒絕回答，擁有著最高的拒答率。

哥大最新調(diào)研：多款 AI 搜索引用錯(cuò)誤率高達(dá) 60%，付費(fèi)版本錯(cuò)誤率更高

另一方面，谷歌創(chuàng)建了其 Google-Extended 爬蟲(chóng)，以便出版商可以選擇阻止 Gemini 的爬蟲(chóng)，從而不會(huì)影響其內(nèi)容在谷歌搜索中的展示。在研究人員測(cè)試的 20 家出版商中，有 10 家允許其訪問(wèn)，但 Gemini 只給出過(guò)一次正確答案。

除此之外，在面對(duì)政治相關(guān)的內(nèi)容時(shí)，即便被允許訪問(wèn)，Gemini 也會(huì)選擇不回答。

哥大最新調(diào)研：多款 AI 搜索引用錯(cuò)誤率高達(dá) 60%，付費(fèi)版本錯(cuò)誤率更高

盡管機(jī)器人排除協(xié)議（Robot Exclusion Protocol）并不具有法律約束力，但它一個(gè)被廣泛接受的用于明確網(wǎng)站可爬取范圍的標(biāo)準(zhǔn)，忽視它就相當(dāng)于剝奪了出版商決定其內(nèi)容是否被納入搜索或用作AI模型訓(xùn)練數(shù)據(jù)的權(quán)利。

雖然允許網(wǎng)絡(luò)爬蟲(chóng)可能會(huì)增加其內(nèi)容在 AI 搜索輸出中的整體可見(jiàn)性，但出版商可能有各種理由不希望爬蟲(chóng)訪問(wèn)其內(nèi)容，比如不希望付費(fèi)內(nèi)容被直接看到，或是內(nèi)容的主旨大意在 AI 生成的摘要中被斷章取義，歪曲理解。

新聞媒體聯(lián)盟主席 Danielle Coffey 在去年6月給出版商的一封信中寫(xiě)道：“如果無(wú)法阻止大規(guī)模的數(shù)據(jù)爬取，我們無(wú)法將有價(jià)值的內(nèi)容變現(xiàn)，也無(wú)法支付記者的薪酬。這將對(duì)行業(yè)造成嚴(yán)重?fù)p害”

AI 搜索經(jīng)常無(wú)法鏈接回原始來(lái)源

AI 搜索的輸出通常會(huì)引用外部來(lái)源以證明其答案的權(quán)威性，引用來(lái)源咖位越大，在人們心中信息的可信度就越強(qiáng)。這意味著出版商的可信度常被用來(lái)提升 AI 搜索的可信賴度。

根據(jù)路透社的報(bào)道，即使是鼓勵(lì)用戶從 X 獲取實(shí)時(shí)更新的 Grok，引用的主要內(nèi)容依舊來(lái)源于傳統(tǒng)的新聞機(jī)構(gòu)。

例如，在 BBC 新聞最近關(guān)于 AI 助手如何呈現(xiàn)其內(nèi)容的報(bào)告中，作者寫(xiě)道：“當(dāng) AI 助手引用像 BBC 這樣值得信賴的品牌作為來(lái)源時(shí)，受眾更有可能信任答案——即使它是錯(cuò)誤的?！?/p>

所以，當(dāng) AI 搜索出錯(cuò)時(shí)，它們不僅損害了自己的聲譽(yù)，還損害了它們依賴以獲取合法性的出版商的聲譽(yù)。

哥大最新調(diào)研：多款 AI 搜索引用錯(cuò)誤率高達(dá) 60%，付費(fèi)版本錯(cuò)誤率更高

然而，即使 AI 搜索正確識(shí)別了文章，也經(jīng)常未能正確鏈接到原始來(lái)源。這就帶來(lái)了兩個(gè)問(wèn)題：那些希望在搜索結(jié)果中獲得可見(jiàn)性的出版商未能如愿，而那些希望退出的出版商的內(nèi)容卻違背其意愿仍然可見(jiàn)。

更多時(shí)候， AI 搜索常常引導(dǎo)用戶去訪問(wèn)各大平臺(tái)上的文章轉(zhuǎn)載版本，而不是原始來(lái)源，即使出版商已經(jīng)與 AI 公司有授權(quán)協(xié)議。例如，盡管 Perplexity Pro 與《德克薩斯論壇報(bào)》有合作關(guān)系，但在 10 次查詢中，仍有 3 次引用了非官方的版本，這種傾向剝奪了原始來(lái)源潛在的推薦流量。

哥大最新調(diào)研：多款 AI 搜索引用錯(cuò)誤率高達(dá) 60%，付費(fèi)版本錯(cuò)誤率更高

相反，對(duì)于那些不希望內(nèi)容被爬蟲(chóng)程序抓取的文章來(lái)說(shuō)，未經(jīng)授權(quán)的副本和非官方版本更是讓他們頭疼不已。

例如，盡管《今日美國(guó)》已經(jīng)阻止了 ChatGPT 的爬蟲(chóng)訪問(wèn)，但 GPT 仍然引用了 Yahoo News 轉(zhuǎn)載的其他文章版本。

哥大最新調(diào)研：多款 AI 搜索引用錯(cuò)誤率高達(dá) 60%，付費(fèi)版本錯(cuò)誤率更高

與此同時(shí)，生成式搜索工具編造 URL 的傾向也會(huì)影響用戶驗(yàn)證信息來(lái)源的能力。例如，Grok 2 更加傾向于鏈接到出版機(jī)構(gòu)的主頁(yè)，而不是具體文章。

而 Gemini 和 Grok 3 超過(guò)一半的回答引用了編造或失效的 URL，嚴(yán)重影響了用戶體驗(yàn)。在研究人員測(cè)試的200個(gè) Grok 3 的提示中，有 154次引用指向了錯(cuò)誤頁(yè)面。即使 Grok 正確識(shí)別了文章，但它也經(jīng)常鏈接到一個(gè)編造的URL。雖然這個(gè)問(wèn)題并非 Grok 3 和 Gemini 獨(dú)有，但在其他的 AI 搜索中，這種現(xiàn)象出現(xiàn)的頻率明顯要低很多。

《時(shí)代》雜志的首席運(yùn)營(yíng)官 Mark Howard 向研究團(tuán)隊(duì)強(qiáng)調(diào)：“我們的品牌如何被呈現(xiàn)、在何時(shí)何地出現(xiàn)、以及我們?nèi)绾纬霈F(xiàn)和在哪里出現(xiàn)的透明度，以及 AI 在我們的平臺(tái)上推動(dòng)的參與度，都至關(guān)重要?！?/p>

盡管點(diǎn)擊流量目前僅占出版商整體推薦流量的一小部分，但 AI 搜索工具的推薦流量在過(guò)去一年中顯示出適度增長(zhǎng)。正如《新聞公報(bào)》的 Bron Maher 所說(shuō)：“ AI 搜索工具新聞發(fā)布者陷入了困境，他們嘔心瀝血的創(chuàng)作出能夠在ChatGPT 等平臺(tái)上展示的內(nèi)容，卻無(wú)法通過(guò)流量和廣告獲得收益。長(zhǎng)此以往，新聞行業(yè)將會(huì)受到影響，最終導(dǎo)致信息質(zhì)量和多樣性下降?！?/p>

授權(quán)協(xié)議不意味著被準(zhǔn)確引用

在研究人員測(cè)試的公司中，OpenAI 和Perplexity 對(duì)與新聞出版商建立正式關(guān)系表現(xiàn)出了最大的興趣。今年 2 月，OpenAI 分別與 Schibsted 和《衛(wèi)報(bào)》媒體集團(tuán)達(dá)成了第 16 和第 17 項(xiàng)新聞內(nèi)容授權(quán)協(xié)議。同樣，去年 Perplexity 推出了自己的“出版商計(jì)劃”，旨在“促進(jìn)共同成功”，其中包括與參與出版商的收入分成安排。

AI 公司與出版商之間的協(xié)議通常涉及建立由合同協(xié)議和技術(shù)集成管理的內(nèi)容管道。這些安排通常為 AI 公司提供直接訪問(wèn)出版商內(nèi)容的權(quán)限，從而消除了網(wǎng)站爬取的需求。這種協(xié)議可能會(huì)讓人期待，與合作伙伴出版商內(nèi)容相關(guān)的用戶查詢會(huì)產(chǎn)生更準(zhǔn)確的結(jié)果。然而，在 2025 年 2 月進(jìn)行的測(cè)試中，研究人員并未觀察到這一點(diǎn)。至少目前還沒(méi)有。

哥大最新調(diào)研：多款 AI 搜索引用錯(cuò)誤率高達(dá) 60%，付費(fèi)版本錯(cuò)誤率更高

雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))觀察到，在與合作伙伴出版商相關(guān)的查詢回答中，準(zhǔn)確性差異很大。

例如，《時(shí)代》雜志與 OpenAI 和 Perplexity 都有協(xié)議，盡管這些公司相關(guān)的模型并未 100% 準(zhǔn)確地識(shí)別其內(nèi)容，但它仍然是研究人員數(shù)據(jù)集中被識(shí)別最準(zhǔn)確的出版商之一。

另一方面，《舊金山紀(jì)事報(bào)》允許 OpenAI 的搜索爬蟲(chóng)訪問(wèn)，并且是 Hearst 與該公司“戰(zhàn)略內(nèi)容合作伙伴關(guān)系”的一部分，但 ChatGPT 僅正確識(shí)別了研究人員分享的該出版商 10 段摘錄中的 1 段。

即使在這唯一一次正確識(shí)別文章的情況下，AI 搜索工具正確命名了出版商，但未能提供 URL，這也說(shuō)明這些 AI 公司并未承諾達(dá)到 100% 的準(zhǔn)確性。

參考鏈接：

https://www.cjr.org/tow_center/we-compared-eight-ai-search-engines-theyre-all-bad-at-citing-news.php

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

鄭佳美

編輯

發(fā)私信

當(dāng)月熱門(mén)文章

哥大最新調(diào)研：多款 AI 搜索引用錯(cuò)誤率高達(dá) 60%，付費(fèi)版本錯(cuò)誤率更高

哥大最新調(diào)研：多款 AI 搜索引用錯(cuò)誤率高達(dá) 60%，付費(fèi)版本錯(cuò)誤率更高