強化學(xué)習(xí)

本專題為雷峰網(wǎng)的強化學(xué)習(xí)專題，內(nèi)容全部來自雷峰網(wǎng)精心選擇與強化學(xué)習(xí)相關(guān)的最近資訊，雷峰網(wǎng)讀懂智能與未來，擁有強化學(xué)習(xí)資訊的信息，在這里你能看到未來的世界。

強化學(xué)習(xí)最新資訊

人工智能學(xué)術(shù)

萬字梳理：揭秘 DeepSeek 中的 RL 與 AGI 下一步丨AIR 2025

Transformer架構(gòu)的非遞歸設(shè)計阻礙了跨層的記憶共享，或限制模型泛化能力。

王悅
02月28日 20:26

AIR2025 強化學(xué)習(xí)DeepSeek
人工智能

UCL強化學(xué)習(xí)派：汪軍與他的學(xué)生們

導(dǎo)語：他們構(gòu)成中國強化學(xué)習(xí)研究的半壁江山。

賴文昕
02月27日 19:15

強化學(xué)習(xí)UCL 汪軍
人工智能

伯克利羅劍嵐：機器人的范式革命，藏在真實世界中

導(dǎo)語：Sergey Levine 對羅劍嵐說，“You really made RL work.”

賴文昕
11月12日 16:23

強化學(xué)習(xí)具身智能伯克利
人工智能

伯克利具身智能圖譜：深度強化學(xué)習(xí)浪尖上的中國 90 后們

導(dǎo)語：吳翼、高陽、許華哲、陳建宇、湯特、段巖、陳曦、張?zhí)旌?、羅劍嵐.....深度強化學(xué)習(xí)與機器人的相映交輝下，是一代英才輩出。

賴文昕
11月12日 16:06

具身智能伯克利強化學(xué)習(xí)
人工智能學(xué)術(shù)

講座預(yù)約丨四位專家大論道：大模型時代的強化學(xué)習(xí)丨GAIR live

洞察未來趨勢，更能夠激發(fā)新的思考，共同推動強化學(xué)習(xí)與大模型技術(shù)的結(jié)合與應(yīng)用

岑大師
08月23日 11:43

強化學(xué)習(xí)大模型研討會
人工智能學(xué)術(shù)

對話南洋理工大學(xué)安波教授：如何讓大語言模型適應(yīng)動態(tài)環(huán)境？丨IJAIRR

智能體實現(xiàn)AGI的自我超越，從與環(huán)境交互做起。

岑大師
07月18日 10:09

Twosome 大模型強化學(xué)習(xí)
人工智能

ChatGPT 加持，決策大模型距離 AGI 更進一步

AI 需要多智能體的相互作用來引發(fā)意識。

黃楠
03月28日 10:50

決策大模型 ChatGPT 多智能體強化學(xué)習(xí)
人工智能學(xué)術(shù)

內(nèi)存減少3%-7%！谷歌提出用于編譯器優(yōu)化的機器學(xué)習(xí)框架 MLGO

谷歌整活！將更快、更小的編譯代碼置入通用型工業(yè)級框架。

我在思考中
07月11日 10:00

強化學(xué)習(xí)機器學(xué)習(xí)策略神經(jīng)網(wǎng)絡(luò)
人工智能學(xué)術(shù)

谷歌大腦新研究：強化學(xué)習(xí)如何學(xué)會用聲音來觀察？

作者在論文中設(shè)計了一系列強化學(xué)習(xí)系統(tǒng)，其能夠?qū)碜原h(huán)境的每種感覺輸入到不相同，卻具有一定聯(lián)系的神經(jīng)網(wǎng)絡(luò)中，值得一提的是，這些神經(jīng)網(wǎng)絡(luò)之間沒有固定的關(guān)系。

我在思考中
10月11日 18:41

谷歌大腦強化學(xué)習(xí)感官替代
人工智能學(xué)術(shù)

告別CPU，加速100-1000倍！只用GPU就能完成物理模擬和強化學(xué)習(xí)訓(xùn)練

Isaac Gym由英偉達開發(fā)，通過直接將數(shù)據(jù)從物理緩存?zhèn)鬟f到PyTorch張量進行通信，可以端到端地在GPU上實現(xiàn)物理模擬和神經(jīng)網(wǎng)絡(luò)策略訓(xùn)練，無需CPU。

我在思考中
09月02日 10:27

英偉達強化學(xué)習(xí)

12 3 4 5...10