丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給鄭佳美
發(fā)送

0

當 AI 下場炒 A 股,「推理」成了新的直覺

本文作者: 鄭佳美   2025-10-28 12:16
導語:RETuning:像金融分析師一樣的模型,正在出現(xiàn)。

幾天前,一場名為 “AI Trading Battle” 的實驗在海外社交媒體上火了。主辦方給六個主流大模型(包括 ChatGPT、Gemini、Claude 等)每人一萬美元的虛擬資金,讓它們自由進行加密貨幣交易。結果讓人大跌眼鏡:截至今天,DeepSeek V3.1 實現(xiàn)了超過 126% 的驚人盈利率,而GPT 5 和 Gemini 2.5 Pro 跌破 5,000 美元,虧損率超過 50%。

這場“AI 交易秀”原本旨在展示智能的金融潛力,卻反而揭示了一個更深層的問題:當面對復雜而動態(tài)的金融環(huán)境時,語言模型知不知道他們“為什么下單”呢?

而由香港科技大學、美國羅格斯大學和南開大學聯(lián)合研究團隊發(fā)表的最新論文,則是關于這類問題給出了一個答案。

他們提出了一種名為 RETuning 的方法,讓大語言模型在做出預測前,先搜集證據(jù)、分析邏輯、反思推理,再得出結論。換句話說,模型不再是“憑直覺判斷”,而是學會了“有理有據(jù)地思考”。

研究團隊基于覆蓋中國 A 股市場的大規(guī)模數(shù)據(jù)集,對這一方法進行了系統(tǒng)驗證。結果表明,RETuning 不僅顯著提升了預測準確率,還讓模型的推理過程更清晰、更可信,為金融領域的人工智能研究帶來了新的方向。

當 AI 下場炒 A 股,「推理」成了新的直覺

從準確率到平衡性的顯著提升

在這項研究中,作者利用中國 A 股市場的大規(guī)模股票走勢預測數(shù)據(jù)集,對他們提出的 RETuning(反思式證據(jù)調優(yōu)) 方法進行了系統(tǒng)驗證,結果表明這種方法確實顯著提升了大語言模型在金融預測任務中的表現(xiàn)。

首先,從總體效果來看,RETuning 模型(如 DeepSeek_R1_14B_SFT_GRPO)在三分類任務:預測股票“上漲、持平、下跌”中取得了明顯優(yōu)勢。與主流的基礎模型相比(包括 ChatGPT、LLaMA3-8B、Mistral 等),RETuning 的 F1 分數(shù)平均高出 10% 到 20%,說明它不僅能更準確地區(qū)分股票走勢方向,還能在不同類別之間保持更平衡的預測效果。這種提升在金融任務中非常罕見,因為股票數(shù)據(jù)噪聲大、隨機性強,能有雙位數(shù)的提升已經算是非常顯著的成果。

當 AI 下場炒 A 股,「推理」成了新的直覺

其次,作者特別測試了模型在時間外數(shù)據(jù)(Out-of-Distribution)上的表現(xiàn),也就是讓模型預測它沒見過的股票或未來日期的走勢。結果顯示,RETuning 模型在這種“未來數(shù)據(jù)”上的表現(xiàn)依然穩(wěn)定,沒有明顯掉線,說明它具備一定的泛化能力,能適應不同時間段和不同公司的情況,而不僅僅是“記住了訓練集”。雷峰網

當 AI 下場炒 A 股,「推理」成了新的直覺

在推理階段的實驗中,RETuning 還展示了另一個有趣的現(xiàn)象:作者嘗試通過“多次思考”來提升預測質量。具體做法是讓模型在同一問題上生成多次不同的推理過程(即多次采樣),最后再通過多數(shù)投票確定最終答案。結果發(fā)現(xiàn),當生成次數(shù)在 8 到 16 次之間時,預測準確率會顯著提升;但如果次數(shù)太多(超過 32 次),效果反而會下降。換句話說,模型多想幾次確實有助于它更慎重地決策,但思考太多則會帶來冗余和噪聲,說明推理時擴展存在一個最佳區(qū)間。

當 AI 下場炒 A 股,「推理」成了新的直覺

此外,RETuning 在可解釋性方面也有明顯進步。與傳統(tǒng)的提示式方法(Prompt-Only)不同,RETuning 模型會主動構建一套完整的分析邏輯。它會先從輸入信息中整理出支持“上漲”的證據(jù)和支持“下跌”的證據(jù),分別進行分析,然后再綜合判斷,得出最終預測。也就是說,它不僅給出結果,還會告訴你“為什么這么想”。

當 AI 下場炒 A 股,「推理」成了新的直覺

在人類專家評估中,這種反思式推理輸出被認為更有條理、更符合分析師邏輯。相比之下,傳統(tǒng)模型往往只輸出模糊結論或含糊理由,而 RETuning 的回答更接近人類投資分析報告的寫法:會明確說明影響因素、權衡證據(jù)并形成理性的判斷。研究人員指出,這種變化不僅提升了模型的可信度,也讓 LLM 更適合用于需要解釋性和推理深度的金融場景。

最后,RETuning 模型在多個指標上都優(yōu)于其他對照模型(如只用提示的模型、僅監(jiān)督微調的模型、或使用普通強化學習的模型),說明它結合了監(jiān)督微調、規(guī)則化強化學習與推理時擴展三種思路的優(yōu)勢,是一種綜合改進方案,而不是單一技巧。

當 AI 下場炒 A 股,「推理」成了新的直覺

不僅是結果,更是過程

顯著的性能提升外,是十分系統(tǒng)的實驗過程。RETuning 的實驗過程涵蓋了從數(shù)據(jù)構建到模型訓練、再到驗證評估的完整流程。

首先,研究團隊自己構建了一個叫 Fin-2024 的大規(guī)模數(shù)據(jù)集,用來模擬真實的中國 A 股市場。這個數(shù)據(jù)集非常龐大,包含 5000 多只股票、20 多萬個樣本。每條樣本都整合了來自多個渠道的信息,比如新聞報道、分析師評論、公司財報、量化指標、宏觀經濟數(shù)據(jù),還有類似股票的走勢。然后研究者根據(jù)實際的漲跌幅給樣本打上標簽(漲、跌或持平),平均每條數(shù)據(jù)的文本長度能達到 3 萬多個詞,讓模型能處理非常長的金融文本。

當 AI 下場炒 A 股,「推理」成了新的直覺

在此基礎上,研究團隊采用了三個階段的訓練流程。

第一步是監(jiān)督微調(SFT),這一階段的目標是讓模型學會“怎么分析”。它不直接預測,而是先建立分析邏輯:先提出分析原則,再整理出支持和反對的證據(jù),最后得出結論。這里模型使用 DeepSeek 系列作為基礎(7B、14B、32B 參數(shù)量的版本都有),通過 LoRA 微調來節(jié)省顯存。

當 AI 下場炒 A 股,「推理」成了新的直覺

第二步是基于規(guī)則的強化學習(Rule-based RL),這一步是讓模型變得“更聰明”。研究者設計了一個有三項評分的獎勵機制:格式正確、預測準確、邏輯一致。模型每次生成結果后,都會根據(jù)這三項標準被“打分”,然后通過 GRPO 算法(類似 RLHF 但更穩(wěn)定)不斷調整策略。

當 AI 下場炒 A 股,「推理」成了新的直覺

為了避免模型在太容易或太難的樣本上浪費時間,他們還引入了課程學習(Curriculum Learning)。具體做法是:先讓模型對每個樣本預測 8 次,根據(jù)預測正確的次數(shù)判斷難度,只保留“中等難度”的樣本訓練,并且按照從簡單到復雜的順序訓練,逐步提高模型的推理能力。

最后一步是推理時擴展(Inference-Time Scaling)。這就像是讓模型在做決定前多思考幾次。它會針對同一個問題生成多種不同的推理路徑(比如 8 次、16 次),然后通過多數(shù)投票選出最終預測。實驗發(fā)現(xiàn),這種“多想幾次再決定”的策略,確實能顯著提高預測的穩(wěn)定性和準確率。

當 AI 下場炒 A 股,「推理」成了新的直覺

整個訓練過程在 32 張 NVIDIA H100 GPU 上完成,SFT 階段用了 Xtuner + DeepSpeed 框架,強化學習階段則由 verl 實現(xiàn) GRPO。訓練數(shù)據(jù)是 2024 年 1 月到 11 月的市場數(shù)據(jù),測試在 2024 年 12 月的樣本上完成,還額外用了 2025 年 6 月的數(shù)據(jù)來測試模型在未來數(shù)據(jù)上的泛化能力。最終,RETuning 的表現(xiàn)遠超其他模型,比如 ChatGPT、LLaMA3 和 Mistral,不僅預測更準,還能解釋“為什么這么判斷”。

當 AI 下場炒 A 股,「推理」成了新的直覺

仍有挑戰(zhàn),但方向明確

綜上實驗可以看出,RETuning 不光提升了模型的預測準確率,同時也帶來了較為深層的意義。

首先,它讓大語言模型在金融預測中變得更可解釋了。RETuning 引入了“反思式證據(jù)推理”,讓模型不只是給出結果,而是能先找證據(jù)、再分析、最后下判斷,讓整個推理過程變得清晰、可信。

其次,研究還驗證了推理時擴展這一新思路的可行性。簡單來說,就是讓模型在回答前多想幾次再決定。實驗發(fā)現(xiàn),適度增加思考次數(shù)能顯著提高準確率,但思考太多反而會帶來計算開銷大、收益遞減的問題。

另外,RETuning 團隊還構建了一個覆蓋 5000 多只股票的大型 A 股數(shù)據(jù)集,為金融類大模型的訓練提供了寶貴資源,也為未來在投資情緒分析、經濟新聞理解等方向打下了基礎。雷峰網(公眾號:雷峰網)

當然,這項研究也有一些局限性。模型的表現(xiàn)依然會受到市場噪聲和非理性波動的影響,暫時還不適合直接用于實盤交易,而訓練和推理階段的算力消耗都比較高,尤其是在強化學習和多輪采樣階段。目前的實驗也只驗證了 A 股市場,未來還需要在不同市場和時間段上進一步測試。

雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。

當 AI 下場炒 A 股,「推理」成了新的直覺

分享:
相關文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說