丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給鄭佳美
發(fā)送

0

哥大最新調(diào)研:多款 AI 搜索引用錯(cuò)誤率高達(dá) 60%,付費(fèi)版本錯(cuò)誤率更高

本文作者: 鄭佳美   2025-03-19 18:13
導(dǎo)語:AI 搜索還有很大的提升空間。

AI 搜索工具在美國很火,幾乎四分之一的美國人都表示他們已經(jīng)用 AI 來取代了傳統(tǒng)的搜索引擎。

然而在享受便捷的同時(shí),也潛藏著諸多問題。例如,AI 會(huì)直接引用網(wǎng)絡(luò)上原始文章的內(nèi)容,但這些內(nèi)容是否符合指令要求,卻是一件極為不確定的事情。

哥倫比亞大學(xué)數(shù)字新聞研究中心(Tow Center for Digital Journalism)近期就針對 AI 搜索引用內(nèi)容的正確率問題展開了研究,他們分別測試了包括 ChatGPT Search、Perplexity、Perplexity Pro、Gemini、DeepSeek Search、Grok-2 Search、Grok-3 Search 和 Copilot 在內(nèi)的 8 款 AI 搜索工具。

最終發(fā)現(xiàn),這些 AI 搜索工具在引用新聞方面表現(xiàn)非常不佳,出錯(cuò)比例甚至高達(dá) 60%。

哥大最新調(diào)研:多款 AI 搜索引用錯(cuò)誤率高達(dá) 60%,付費(fèi)版本錯(cuò)誤率更高

AI 常常自信且堅(jiān)定得給出錯(cuò)誤答案

Tow 數(shù)字新聞中心基于之前對 GPT 的研究,又對 8 款具有實(shí)時(shí)搜索功能的生成式搜索工具進(jìn)行了測試,以評估它們準(zhǔn)確檢索和引用新聞內(nèi)容的能力,以及它們在無法做到時(shí)的表現(xiàn)。

經(jīng)研究發(fā)現(xiàn):

AI 搜索在無法準(zhǔn)確回答問題時(shí),通常不會(huì)拒絕回答,而是提供錯(cuò)誤或推測性的答案。

付費(fèi) AI 搜索比免費(fèi)版本更自信地提供錯(cuò)誤答案。

多個(gè) AI 搜索似乎繞過了機(jī)器人排除協(xié)議(Robot Exclusion Protocol)的設(shè)置。

生成式搜索工具編造鏈接,并引用文章的轉(zhuǎn)載或復(fù)制版本。

與新聞來源的內(nèi)容授權(quán)協(xié)議并不能保證 AI 搜索回答中的準(zhǔn)確引用。

他們的發(fā)現(xiàn)與之前的研究一致,證明他們的觀察不僅僅是 ChatGPT 的問題,而是他們測試的所有主流生成式搜索工具中普遍存在的現(xiàn)象。

除此之外,團(tuán)隊(duì)還公布了他們的實(shí)驗(yàn)方法論:

首先,他們從每家出版商中隨機(jī)選擇了 10 篇文章,然后手動(dòng)從這些文章中選取直接摘錄內(nèi)容用于研究人員的查詢。在向每個(gè) AI 提供選定的摘錄內(nèi)容后,研究要求其識(shí)別相應(yīng)文章的標(biāo)題、原始出版商、發(fā)布日期和URL。

哥大最新調(diào)研:多款 AI 搜索引用錯(cuò)誤率高達(dá) 60%,付費(fèi)版本錯(cuò)誤率更高

后續(xù)團(tuán)隊(duì)特意選擇了那些如果粘貼到傳統(tǒng) Google 搜索中,能在前 3 條結(jié)果中返回原始來源的摘錄內(nèi)容,然后總共運(yùn)行了 1600 次查詢(20家出版商 × 10篇文章 × 8個(gè) AI),并根據(jù)是否正確檢索到文章、是否正確識(shí)別出版商、是否正確提供URL三個(gè)屬性手動(dòng)評估了 AI 的回答。

并且根據(jù)這些標(biāo)準(zhǔn),將每個(gè)回答都標(biāo)記為以下標(biāo)簽之一:

正確:所有三個(gè)屬性均正確。

正確但不完整:部分屬性正確,但回答缺少信息。

部分錯(cuò)誤:部分屬性正確,而其他屬性錯(cuò)誤。

完全錯(cuò)誤:所有三個(gè)屬性均錯(cuò)誤和/或缺失。

未提供:未提供任何信息。

爬蟲被阻止:出版商在其robots.txt文件中禁止了聊天機(jī)器人的爬蟲訪問。

哥大最新調(diào)研:多款 AI 搜索引用錯(cuò)誤率高達(dá) 60%,付費(fèi)版本錯(cuò)誤率更高

然而最后的結(jié)果卻令人大跌眼鏡,實(shí)驗(yàn)表明,AI 搜索經(jīng)常無法檢索到正確的文章。它們在所有查詢中提供了超過60% 的錯(cuò)誤答案。并且不同平臺(tái)的錯(cuò)誤率還有所不同,Perplexity 的錯(cuò)誤率為 37%,而 Grok 3 的錯(cuò)誤率則高得多,達(dá)到了 94%,DeepSeek 的錯(cuò)誤率則在 58% 左右。

哥大最新調(diào)研:多款 AI 搜索引用錯(cuò)誤率高達(dá) 60%,付費(fèi)版本錯(cuò)誤率更高

值得一提的是,研究人員測試的 AI 都以十分自信的給出了錯(cuò)誤答案,它們很少使用“看起來”、“可能”、“或許”這種有限定性的詞語,或者通過“我無法找到確切文章”等語句承認(rèn)知識(shí)空白。

例如,ChatGPT 錯(cuò)誤識(shí)別了134篇文章,但在其 200 次回答中僅有 15 次表現(xiàn)出缺乏信心,但從未拒絕提供答案。除了 Copilot(它拒絕回答的問題比回答的更多)之外,所有工具都更傾向于提供錯(cuò)誤答案,而不是承認(rèn)自身的局限性。

除此之外,經(jīng)過研究,團(tuán)隊(duì)發(fā)現(xiàn)付費(fèi)版本的錯(cuò)誤率竟然更高。

像 Perplexity Pro(20美元/月)或 Grok 3(40美元/月)這樣的付費(fèi)模型,憑借著更高的成本和他們自己聲稱的計(jì)算優(yōu)勢,被人們理所當(dāng)然的認(rèn)為會(huì)比免費(fèi)版本更值得信賴。

然而,盡管付費(fèi)的 AI 比對應(yīng)的免費(fèi)版本回答了更多的內(nèi)容,但同時(shí)它們的錯(cuò)誤率也更高了。這種矛盾的現(xiàn)象主要是因?yàn)樗鼈儗幵柑峁╁e(cuò)誤的答案,也不會(huì)直接拒絕回答。

它們傾向于提供明確但錯(cuò)誤的答案,而不是直接拒絕回答問題。付費(fèi)用戶期望得到更優(yōu)質(zhì)、準(zhǔn)確的服務(wù),然而這種權(quán)威的語氣和錯(cuò)誤答案,無疑給用戶帶來了極大的困擾。

爬蟲亂象,出版商權(quán)益被侵犯

在本次研究中測試到的 8 款 AI 搜索工具中,ChatGPT、Perplexity 和 Perplexity Pro、Copilot 以及 Gemini 都已經(jīng)公開了各自的爬蟲程序名稱,而 Grok 2 和 Grok 3 則尚未公開。

團(tuán)隊(duì)原本希望 AI 搜索應(yīng)能正確查詢其爬蟲程序可訪問的網(wǎng)站,并拒絕已屏蔽其內(nèi)容訪問權(quán)限的網(wǎng)站,但事實(shí)情況卻并非如此。

哥大最新調(diào)研:多款 AI 搜索引用錯(cuò)誤率高達(dá) 60%,付費(fèi)版本錯(cuò)誤率更高

特別是 ChatGPT、Perplexity 和 Perplexity Pro,它們時(shí)而拒絕或錯(cuò)誤地回答允許其訪問的網(wǎng)站,時(shí)而又正確地回答那些因爬蟲受限而無法獲取的信息。其中 Perplexity Pro 的表現(xiàn)最差,在測試的 90 篇文章中,它正確的識(shí)別出了近三分之一它沒有權(quán)限訪問的內(nèi)容。

盡管《國家地理》已經(jīng)禁止了 Perplexity 的爬蟲程序,但它仍識(shí)別出了 10 篇付費(fèi)文章的內(nèi)容。然而值得一提的是,《國家地理》和 Perplexity 并沒有合作關(guān)系,Perplexity 可能通過其他途徑獲取了受限內(nèi)容。

這不禁讓人感到懷疑,Perplexity 所謂的“尊重robots.txt指令”只是一句空談。

同樣,《Press Gazette》本月報(bào)道稱,盡管《紐約時(shí)報(bào)》禁止了 Perplexity 的爬蟲程序,但它依舊是 1 月被  Perplexity 引用最多的網(wǎng)站,訪問量高達(dá) 14.6 萬次。

與其他聊天機(jī)器人相比,ChatGPT 回答被禁止爬蟲訪問的文章相關(guān)問題的次數(shù)較少,但總體而言,它更傾向于提供錯(cuò)誤答案而非拒絕回答。

除了以上這些,在公開了爬蟲程序的 AI 搜索應(yīng)用中,Copilot 是唯一一個(gè)沒有被任何出版商禁止爬蟲程序的,這也就意味著它可以訪問查詢所有的內(nèi)容,但它卻常常拒絕回答,擁有著最高的拒答率。

哥大最新調(diào)研:多款 AI 搜索引用錯(cuò)誤率高達(dá) 60%,付費(fèi)版本錯(cuò)誤率更高

另一方面,谷歌創(chuàng)建了其 Google-Extended 爬蟲,以便出版商可以選擇阻止 Gemini 的爬蟲,從而不會(huì)影響其內(nèi)容在谷歌搜索中的展示。在研究人員測試的 20 家出版商中,有 10 家允許其訪問,但 Gemini 只給出過一次正確答案。

除此之外,在面對政治相關(guān)的內(nèi)容時(shí),即便被允許訪問,Gemini 也會(huì)選擇不回答。

哥大最新調(diào)研:多款 AI 搜索引用錯(cuò)誤率高達(dá) 60%,付費(fèi)版本錯(cuò)誤率更高

盡管機(jī)器人排除協(xié)議(Robot Exclusion Protocol)并不具有法律約束力,但它一個(gè)被廣泛接受的用于明確網(wǎng)站可爬取范圍的標(biāo)準(zhǔn),忽視它就相當(dāng)于剝奪了出版商決定其內(nèi)容是否被納入搜索或用作AI模型訓(xùn)練數(shù)據(jù)的權(quán)利。

雖然允許網(wǎng)絡(luò)爬蟲可能會(huì)增加其內(nèi)容在 AI 搜索輸出中的整體可見性,但出版商可能有各種理由不希望爬蟲訪問其內(nèi)容,比如不希望付費(fèi)內(nèi)容被直接看到,或是內(nèi)容的主旨大意在 AI 生成的摘要中被斷章取義,歪曲理解。

新聞媒體聯(lián)盟主席 Danielle Coffey 在去年6月給出版商的一封信中寫道:“如果無法阻止大規(guī)模的數(shù)據(jù)爬取,我們無法將有價(jià)值的內(nèi)容變現(xiàn),也無法支付記者的薪酬。這將對行業(yè)造成嚴(yán)重?fù)p害”

AI 搜索經(jīng)常無法鏈接回原始來源

AI 搜索的輸出通常會(huì)引用外部來源以證明其答案的權(quán)威性,引用來源咖位越大,在人們心中信息的可信度就越強(qiáng)。這意味著出版商的可信度常被用來提升 AI 搜索的可信賴度。

根據(jù)路透社的報(bào)道,即使是鼓勵(lì)用戶從 X 獲取實(shí)時(shí)更新的 Grok,引用的主要內(nèi)容依舊來源于傳統(tǒng)的新聞機(jī)構(gòu)。

例如,在 BBC 新聞最近關(guān)于 AI 助手如何呈現(xiàn)其內(nèi)容的報(bào)告中,作者寫道:“當(dāng) AI 助手引用像 BBC 這樣值得信賴的品牌作為來源時(shí),受眾更有可能信任答案——即使它是錯(cuò)誤的?!?/p>

所以,當(dāng) AI 搜索出錯(cuò)時(shí),它們不僅損害了自己的聲譽(yù),還損害了它們依賴以獲取合法性的出版商的聲譽(yù)。

哥大最新調(diào)研:多款 AI 搜索引用錯(cuò)誤率高達(dá) 60%,付費(fèi)版本錯(cuò)誤率更高

然而,即使 AI 搜索正確識(shí)別了文章,也經(jīng)常未能正確鏈接到原始來源。這就帶來了兩個(gè)問題:那些希望在搜索結(jié)果中獲得可見性的出版商未能如愿,而那些希望退出的出版商的內(nèi)容卻違背其意愿仍然可見。

更多時(shí)候, AI 搜索常常引導(dǎo)用戶去訪問各大平臺(tái)上的文章轉(zhuǎn)載版本,而不是原始來源,即使出版商已經(jīng)與 AI 公司有授權(quán)協(xié)議。例如,盡管 Perplexity Pro 與《德克薩斯論壇報(bào)》有合作關(guān)系,但在 10 次查詢中,仍有 3 次引用了非官方的版本,這種傾向剝奪了原始來源潛在的推薦流量。

哥大最新調(diào)研:多款 AI 搜索引用錯(cuò)誤率高達(dá) 60%,付費(fèi)版本錯(cuò)誤率更高

相反,對于那些不希望內(nèi)容被爬蟲程序抓取的文章來說,未經(jīng)授權(quán)的副本和非官方版本更是讓他們頭疼不已。

例如,盡管《今日美國》已經(jīng)阻止了 ChatGPT 的爬蟲訪問,但 GPT 仍然引用了 Yahoo News 轉(zhuǎn)載的其他文章版本。

哥大最新調(diào)研:多款 AI 搜索引用錯(cuò)誤率高達(dá) 60%,付費(fèi)版本錯(cuò)誤率更高

與此同時(shí),生成式搜索工具編造 URL 的傾向也會(huì)影響用戶驗(yàn)證信息來源的能力。例如,Grok 2 更加傾向于鏈接到出版機(jī)構(gòu)的主頁,而不是具體文章。

而 Gemini 和 Grok 3 超過一半的回答引用了編造或失效的 URL,嚴(yán)重影響了用戶體驗(yàn)。在研究人員測試的200個(gè) Grok 3 的提示中,有 154次 引用指向了錯(cuò)誤頁面。即使 Grok 正確識(shí)別了文章,但它也經(jīng)常鏈接到一個(gè)編造的URL。雖然這個(gè)問題并非 Grok 3 和 Gemini 獨(dú)有,但在其他的 AI 搜索中,這種現(xiàn)象出現(xiàn)的頻率明顯要低很多。

《時(shí)代》雜志的首席運(yùn)營官 Mark Howard 向研究團(tuán)隊(duì)強(qiáng)調(diào):“我們的品牌如何被呈現(xiàn)、在何時(shí)何地出現(xiàn)、以及我們?nèi)绾纬霈F(xiàn)和在哪里出現(xiàn)的透明度,以及 AI 在我們的平臺(tái)上推動(dòng)的參與度,都至關(guān)重要?!?/p>

盡管點(diǎn)擊流量目前僅占出版商整體推薦流量的一小部分,但 AI 搜索工具的推薦流量在過去一年中顯示出適度增長。正如《新聞公報(bào)》的 Bron Maher 所說:“ AI 搜索工具新聞發(fā)布者陷入了困境,他們嘔心瀝血的創(chuàng)作出能夠在ChatGPT 等平臺(tái)上展示的內(nèi)容,卻無法通過流量和廣告獲得收益。長此以往,新聞行業(yè)將會(huì)受到影響,最終導(dǎo)致信息質(zhì)量和多樣性下降。”

授權(quán)協(xié)議不意味著被準(zhǔn)確引用

在研究人員測試的公司中,OpenAI 和Perplexity 對與新聞出版商建立正式關(guān)系表現(xiàn)出了最大的興趣。今年 2 月,OpenAI 分別與 Schibsted 和《衛(wèi)報(bào)》媒體集團(tuán)達(dá)成了第 16 和第 17 項(xiàng)新聞內(nèi)容授權(quán)協(xié)議。同樣,去年 Perplexity 推出了自己的“出版商計(jì)劃”,旨在“促進(jìn)共同成功”,其中包括與參與出版商的收入分成安排。

AI 公司與出版商之間的協(xié)議通常涉及建立由合同協(xié)議和技術(shù)集成管理的內(nèi)容管道。這些安排通常為 AI 公司提供直接訪問出版商內(nèi)容的權(quán)限,從而消除了網(wǎng)站爬取的需求。這種協(xié)議可能會(huì)讓人期待,與合作伙伴出版商內(nèi)容相關(guān)的用戶查詢會(huì)產(chǎn)生更準(zhǔn)確的結(jié)果。然而,在 2025 年 2 月進(jìn)行的測試中,研究人員并未觀察到這一點(diǎn)。至少目前還沒有。

哥大最新調(diào)研:多款 AI 搜索引用錯(cuò)誤率高達(dá) 60%,付費(fèi)版本錯(cuò)誤率更高

雷峰網(wǎng)(公眾號:雷峰網(wǎng))觀察到,在與合作伙伴出版商相關(guān)的查詢回答中,準(zhǔn)確性差異很大。

例如,《時(shí)代》雜志與 OpenAI 和 Perplexity 都有協(xié)議,盡管這些公司相關(guān)的模型并未 100% 準(zhǔn)確地識(shí)別其內(nèi)容,但它仍然是研究人員數(shù)據(jù)集中被識(shí)別最準(zhǔn)確的出版商之一。

另一方面,《舊金山紀(jì)事報(bào)》允許 OpenAI 的搜索爬蟲訪問,并且是 Hearst 與該公司“戰(zhàn)略內(nèi)容合作伙伴關(guān)系”的一部分,但 ChatGPT 僅正確識(shí)別了研究人員分享的該出版商 10 段摘錄中的 1 段。

即使在這唯一一次正確識(shí)別文章的情況下,AI 搜索工具正確命名了出版商,但未能提供 URL,這也說明這些 AI 公司并未承諾達(dá)到 100% 的準(zhǔn)確性。

參考鏈接:

https://www.cjr.org/tow_center/we-compared-eight-ai-search-engines-theyre-all-bad-at-citing-news.php


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

哥大最新調(diào)研:多款 AI 搜索引用錯(cuò)誤率高達(dá) 60%,付費(fèi)版本錯(cuò)誤率更高

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說