StabilityAI獲超1億美元投資并任命新CEO；月之暗面稱沒有開發(fā)海外產(chǎn)品計劃；GPT-5將在一年半后發(fā)布丨AI情報局

本文作者：我在思考中

2024-06-24 10:51

導(dǎo)語：產(chǎn)品推薦：Mojo AI Reveal、RTranslator、ranola

融資快報

Stability AI 獲超 1 億美元投資并任命新的 CEO：The Information消息，Stability AI 已任命 Prem Akkaraju 為新任首席執(zhí)行官。視覺特效公司維塔 Wētā FX 前首席執(zhí)行官 Prem Akkaraju 是包括前 Facebook 總裁 Sean Parker 在內(nèi)的投資者中的一員。報道稱，這些投資者總共出資超過 1 億美元，新的資金可能會縮減一些現(xiàn)有投資者的股份。目前，Stability AI 公司拒絕發(fā)表評論。

OpenAI 以換股方式收購 Rockset，估值最高36億：OpenAI公司在社交平臺上宣布，其收購了領(lǐng)先實時分析數(shù)據(jù)庫公司Rockset，但OpenAI沒有透露交易金額。OpenAI強調(diào)，基于Rockset提供的世界一流的數(shù)據(jù)索引和查詢功能，OpenAI將在其產(chǎn)品中整合Rockset技術(shù)，使公司能夠?qū)⑵鋽?shù)據(jù)轉(zhuǎn)化為可操作的情報。截至去年8月29日，Rockset公司共獲得的融資總額在1億美金左右，投后估值1億-5億美元。

HeyGen獲6000萬美元融資：HeyGen 是一家 2020 年創(chuàng)立于中國的AI 視頻公司，后遷至美國洛杉磯。它允許用戶創(chuàng)建虛擬形象，利用 AI 技術(shù)讓形象用用戶自己的聲音交流，并翻譯成多種語言。該公司目前估值 5 億美元，累計融資 7400 萬美元，本輪由 Benchmark 領(lǐng)投，其合伙人 Victor Lazarte 將加入董事會。其他投資者包括 Conviction、Thrive Capital 和 Bond Capital。HeyGen 擁有超過 4 萬名付費客戶，過去一年中，年化復(fù)訂閱收入從零增長到超過 3500 萬美元，自 2023 年第二季度起已實現(xiàn)盈利。

Waabi 獲 2 億美元資金：加拿大人工智能公司 Waabi 宣布獲得2億美元的新資金，以加速其自動駕駛卡車的研發(fā)和部署。這家多倫多初創(chuàng)公司的全新 B 輪融資由 Uber 和硅谷的 Khosla Ventures 領(lǐng)投，同時還得到了 Nvidia、保時捷和沃爾沃等知名公司的支持。

銀河通用機器人完成7億元天使輪融資：銀河通用是一家多模態(tài)大型機器人研發(fā)商，專注于制造具有嵌入式AGI的機器人，為全球提供通用機器人。投資方包括美團(tuán)點評戰(zhàn)投、北汽產(chǎn)投、商湯國香基金、訊飛基金等頂級戰(zhàn)略及產(chǎn)業(yè)投資方；啟明創(chuàng)投、藍(lán)馳創(chuàng)投、經(jīng)緯創(chuàng)投、源碼資本、IDG資本等頭部財務(wù)機構(gòu)，光源資本擔(dān)任此次融資獨家財務(wù)顧問并參與早期投資。

Vecna Robotics獲得1億美元C輪融資：Vecna Robotics是美國一家自動搬運機器人研發(fā)商，通過自動駕駛汽車提供自主的物料搬運解決方案。本輪融資由Proficio Capital Partners、Blackhorn Ventures、Drive Capital、Fontinalis Partners、高原資本、Impulse VC、Lineage Logistics、Tectonic Ventures、Tiger Global老虎海外投資。

Speak融資2000萬美元：Speak是一款A(yù)I英語學(xué)習(xí)應(yīng)用，通過實時對話和即時反饋幫助用戶提升口語能力。目前估值達(dá)到5億美元，領(lǐng)投方為Buckley Ventures。

科默羅完成新一輪融資：通過整合和優(yōu)化多種傳感技術(shù)，如計算機視覺、語音識別、觸覺反饋、環(huán)境監(jiān)測等，為AI智能體提供泛在普適的感知能力，使其能夠?qū)崟r收集和解析來自周圍環(huán)境的大量數(shù)據(jù)。本輪融資由灝浚投資及產(chǎn)業(yè)龍頭上市公司共同投資，老股東蘭灣資本持續(xù)加注。

商湯科技配售獲多家戰(zhàn)投及頭部海外基金入股：商湯最新公告擬配售B類股份，總籌20.08億港元。本次配售有多家戰(zhàn)略投資人及頭部海外基金入股，現(xiàn)有股東增持。另外，募集資金將用于大模型研究及產(chǎn)品開發(fā)等。

GrayMatter獲4500萬美元B輪融資：GrayMatter是一家智能機器人研發(fā)商，主要依托人工智能算法和機器學(xué)習(xí)等技術(shù)，為工業(yè)機器人開發(fā)機器人大腦，并將其轉(zhuǎn)化為智能助手。由Wellington Management、諾基亞成長基金、Euclidean Capital、Advance Venture Partners、SQN Venture Partners、B Capital Group、Bow Capital、Calibrate Ventures、OCA Ventures、Swift Ventures、3M Ventures投資。

SewerAI獲1500萬美元B輪融資：利用人工智能和計算機視覺技術(shù)在下水道基礎(chǔ)設(shè)施缺陷達(dá)到災(zāi)難性水平之前對其進(jìn)行檢查識別和分析。本輪融資由Burnt Island Ventures、Bentley、Suffolk Ventures、EPIC Ventures、Emerald Venture Capital、Innovius Capital投資。

Particle NEW獲1090萬美元A輪融資：Particle NEW是一家AI新聞閱讀器服務(wù)提供商，專注于推進(jìn)基于AI的新聞閱讀器，旨在為用戶提供定制的新聞流，該服務(wù)仍處于內(nèi)測階段。

（歡迎添加微信AIyanxishe2，了解更多AIGC、融資情況，與志同道合的朋友一同暢聊時新AI產(chǎn)品）

國內(nèi)情報：

月之暗面回應(yīng)進(jìn)軍美國市場，目前沒有開發(fā)和發(fā)布任何海外產(chǎn)品的計劃：

有報道稱“月之暗面員工一直在開發(fā)最近在美國推出的產(chǎn)品，包括一款可在蘋果和谷歌移動應(yīng)用商店上下載的 AI 角色扮演聊天應(yīng)用程序 Ohai 和一款音樂視頻生成器 Noisee?！睂Υ耍轮得婊貞?yīng)表示，“我們目前沒有開發(fā)和發(fā)布任何海外產(chǎn)品的計劃?！?/p>

快手可靈大模型開放圖生視頻，視頻續(xù)寫最長可達(dá)3分鐘：

快手旗下大模型可靈正式推出圖生視頻功能，支持將任意靜態(tài)圖像轉(zhuǎn)化為生動的5s精彩視頻，搭配創(chuàng)作者輸入的不同文本，可生成多種多樣的運動效果。可靈還同步發(fā)布業(yè)內(nèi)領(lǐng)先的視頻續(xù)寫功能，支持對已生成的視頻一鍵續(xù)寫和連續(xù)多次續(xù)寫，單次可讓視頻延續(xù)約5秒，最長可生成約3分鐘視頻，進(jìn)一步展現(xiàn)了該模型強大的想象力和可控性。

阿里云推出首個AI程序員，"分鐘級"完成應(yīng)用開發(fā)：

具備架構(gòu)師、開發(fā)工程師、測試工程師等崗位技能，能完成任務(wù)分解、代碼編寫、測試、問題修復(fù)、代碼提交整個過程，最快分鐘級完成應(yīng)用開發(fā)。據(jù)悉，該AI程序員是基于通義大模型構(gòu)建的多智能體，而此前推出的AI編程工具"通義靈碼"主要輔助程序員進(jìn)行編碼、讀代碼、查找BUG和優(yōu)化代碼等工作，而"AI程序員"則能獨立承擔(dān)整個軟件開發(fā)任務(wù)。

華為云盤古大模型 5.0 發(fā)布，“夸父” 人形機器人現(xiàn)身：

盤古大模型5.0提供了從十億級到萬億級不同參數(shù)規(guī)格的模型；能夠理解和生成包括文本、圖片、視頻、雷達(dá)、紅外、遙感等多種模態(tài)的內(nèi)容，并且支持 10K 超高分辨率圖像理解；復(fù)雜邏輯推理和數(shù)學(xué)能力的增強。盤古大模型采用STCG 技術(shù)，專注于自動駕駛、工業(yè)制造等行業(yè)場景，比如應(yīng)用在寶武鋼鐵集團(tuán)熱軋生產(chǎn)線中，預(yù)計每年多產(chǎn)鋼板2萬余噸、多賺9000余萬元。

華為還與樂聚合作開發(fā)了盤古具身智能大模型，基于此模型，“夸父” 人形機器人可流暢完成識別物品、問答互動、擊掌、遞水等互動演示。

鴻蒙NEXT將AI能力融入系統(tǒng)，小藝升級為智能體：

華為手機端測大模型應(yīng)用帶來AIGC圖像生成、AIGC聲音修復(fù)、AI圖像識別等功能?；诒P古大模型5.0加持，小藝將以“小藝超級智能體”的新形式出現(xiàn)在系統(tǒng)中，用戶可以隨時召喚華為智能助手“小藝”，將文字、圖片、文檔“投喂”小藝，即可高效處理文字、識別圖像、分析文檔。

消息稱字節(jié)旗下 PICO 研發(fā)多款 AI 穿戴設(shè)備，搭載豆包大模型：

據(jù)悉，字節(jié)旗下的 PICO 從去年下半年開始在研發(fā)多個穿戴設(shè)備，這些設(shè)備將搭載 AI。字節(jié)正在招聘 ID 設(shè)計師，負(fù)責(zé)智能設(shè)備的工業(yè)設(shè)計，招聘提到了孵化成果推動落地，團(tuán)隊位于深圳。

騰訊混元文生圖大模型開源訓(xùn)練代碼，發(fā)布LoRA與ControlNet插件：

對外開源混元DiT LoRA 小規(guī)模數(shù)據(jù)集訓(xùn)練方案與可控制插件ControlNet。作為中文原生模型，用戶在通過混元DiT的訓(xùn)練代碼進(jìn)行精調(diào)時，可以直接使用中文的數(shù)據(jù)與標(biāo)簽，無需再將數(shù)據(jù)翻譯成英文。

騰訊推出AI音樂創(chuàng)作模型「琴樂大模型」：

該模型由騰訊音樂娛樂集團(tuán)天琴實驗室和騰訊 AI Lab 聯(lián)合研發(fā)，具備豐富的 AI 作曲和編曲能力。只需輸入中英文關(guān)鍵詞、描述性語句或音頻，「琴樂大模型」就可直接生成音樂，也可為有后期編輯需求的音樂人，提供生成樂譜的能力。

首個多任務(wù)長視頻評測基準(zhǔn)MLVU，GPT-4o 差點沒及格：

智源聯(lián)合北郵、北大和浙大等多所高校推出難度大升級的多任務(wù)長視頻理解評測基準(zhǔn) MLVU ，該基準(zhǔn)旨在提升機器對長視頻內(nèi)容的理解能力，包括視頻、音頻和文本等多模態(tài)信息的綜合分析。MLVU 的難度較大，考驗了算法在多種任務(wù)上的綜合性能，如視頻摘要、問答、分類等。

金沙江創(chuàng)投朱嘯虎稱5年后將沒有獨立大模型公司存在：

金沙江創(chuàng)投合伙人朱嘯虎表示，今年將是AIGC創(chuàng)業(yè)回歸商業(yè)本質(zhì)的開始。5年后將沒有獨立的大模型公司存在。因為沒有商業(yè)模式，價格已經(jīng)在成本以下了，創(chuàng)業(yè)公司沒辦法跟進(jìn)。取而代之的將是專注于AI應(yīng)用的公司或云服務(wù)企業(yè)。朱嘯虎還提到，生成式AI是一個類似于PC、移動互聯(lián)網(wǎng)的十年周期，將是未來10年的長坡厚雪。他判斷，2024將是大模型爭霸之年。另外如果GPT-5未能如期發(fā)布，英偉達(dá)等相關(guān)公司的股價可能要狂跌。

更多國內(nèi)情報：

搭載首個游戲Copilot，能“聽懂人話”的AI隊友：網(wǎng)易伏羲工作室研發(fā)全球首個游戲Copilot，基于多模態(tài)技術(shù)，應(yīng)用于網(wǎng)易旗下永劫手游，化身為“AI隊友”，能夠與玩家進(jìn)行實時語音交互并完成游戲?qū)指鞣N復(fù)雜操作的“智能體”，可提供游戲指導(dǎo)、戰(zhàn)術(shù)分析、情感交流等服務(wù)。

知網(wǎng)宣布CNKI AI學(xué)術(shù)研究助手4.0：該AI學(xué)術(shù)助手結(jié)合AI大模型技術(shù)和高質(zhì)量數(shù)據(jù)，提升文獻(xiàn)檢索、研讀和學(xué)術(shù)創(chuàng)作效率。新增功能包括可控生成、文獻(xiàn)擴(kuò)展、學(xué)者檢索、全文翻譯和學(xué)術(shù)拓展服務(wù)，滿足用戶個性化需求。突出升級是問答式增強檢索和學(xué)者檢索服務(wù)。

CVPR自動駕駛無圖挑戰(zhàn)賽，小米獲全球第二：小米聯(lián)合了北郵，提出了一種關(guān)于道路拓?fù)淅斫獾男路椒ǎ餐瑪孬@第二名。前三被中國玩家包攬，第一名是朗歌科技，第三名為曠視&北理工。知名Tier1博世全球，僅拿到了第四名的成績。據(jù)悉，朗歌科技成立于2021年，背后實際控制人為李書福，控股比例超96%，朗歌董事長劉金良為吉利集團(tuán)董事。

騰訊元寶版本更新，AI 搜索解析能力升級：可支持單文檔最長 1000 萬字的超長文處理，一次性解析最多 50 個文件，單個文件大小不超過 100MB，支持上傳和解析包括多種文件格式。同時支持一鍵生成柱狀圖、折線圖、餅狀圖等數(shù)據(jù)圖表。新版騰訊元寶還支持解析 URL 網(wǎng)址和各類鏈接?，F(xiàn)已接入微信搜索、搜狗搜索等搜索引擎，覆蓋微信公眾號等騰訊生態(tài)內(nèi)容，支持其他互聯(lián)網(wǎng)信源。

國際情報：

OpenAI CTO 稱GPT-5將在一年半后發(fā)布，創(chuàng)意性工作可能消失：

OpenAI CTO Murati表示，只需一年半時間，AI就可以在某些領(lǐng)域達(dá)到博士的智能。根據(jù)她的說法，GPT-3的智能相當(dāng)于幼兒，GPT-4相當(dāng)于聰明的高中生，而下一代模型（GPT-5），將在18個月后發(fā)布，并達(dá)到博士水平。她還表示AI可能會扼殺一些本來不應(yīng)該存在的創(chuàng)意性工作。

美國財政部公布新規(guī)草案，將禁止美國人對中國 AI、芯片等領(lǐng)域的某些投資：

美國財政部發(fā)布一份長達(dá)12頁的規(guī)則草案，要求對美國在半導(dǎo)體和微電子、量子計算和人工智能領(lǐng)域的某些投資進(jìn)行監(jiān)管，禁止或要求限制中國在 AI 和其他技術(shù)領(lǐng)域的投資。美國財政部表示，新規(guī)旨在實施“一項狹義的、有針對性的國家安全計劃”，重點關(guān)注對受關(guān)注國家的某些境外投資。

亞馬遜據(jù)悉將推出AI版Alexa，每月收費5到10美元：

亞馬遜正計劃對其虧損十年之久的語音助手Alexa服務(wù)進(jìn)行重大改造，將AI聊天機器人納入其中，并提供兩個級別的服務(wù)，每月收取5到10美元的費用。新的語音助手將稱為“Remarkable Alexa”，這是亞馬遜重振Alexa服務(wù)的最后嘗試，亞馬遜已經(jīng)要求員工在8月的最后期限前準(zhǔn)備好最新版本的Alexa。

AI學(xué)會篡改獎勵函數(shù)、欺騙研究者，Claude團(tuán)隊稱無法根除的行為，令人不安：

研究人員發(fā)現(xiàn) AI 能夠篡改自己的獎勵函數(shù)來欺騙研究者，雖然這種行為在實際應(yīng)用中并不常見，但研究人員仍未找到有效方法來阻止這種行為。這項研究表明 AI 在特定條件下可能會學(xué)會篡改獎勵函數(shù)，即使在沒有明確訓(xùn)練的情況下。研究人員對 AI 在現(xiàn)實場景中的此類傾向保持謹(jǐn)慎，并強調(diào)這種行為可能是由于規(guī)范博弈的泛化而產(chǎn)生的。

斯坦福大模型評測榜 Claude 3 排名第一，阿里、零一萬物進(jìn)入前十：

這份榜單評估了文本模型在 57 個不同任務(wù)上的準(zhǔn)確性，包括基礎(chǔ)數(shù)學(xué)、美國歷史、計算機科學(xué)、法律等領(lǐng)域。在排名前十的大語言模型中，有兩款國內(nèi)模型：阿里巴巴的 Qwen2 Instruct（72B）和零一萬物的 Yi Large（Preview）。Claude 3 Opus 排名第一，由美國的 Anthropic 公司開發(fā)，亞馬遜是其投資者。OpenAI 的 GPT-4o 和 GPT-4 也分別位列榜單第二和第四。谷歌的 Gemini 1.5 Pro、Meta 的 Llama 3（70B）也進(jìn)入了前十。

Groq免費開放whisper-large-v3模型，支持語音轉(zhuǎn)錄和翻譯：

該模型為用戶提供了強大的語音轉(zhuǎn)錄和翻譯功能，可在Playground或本地項目中使用API。用戶體驗高速轉(zhuǎn)錄，支持多種語言翻譯成英文。Whisper API兼容OpenAI標(biāo)準(zhǔn)，提供語音轉(zhuǎn)文本和翻譯功能，便于集成到應(yīng)用程序中。

GPT-4o挑戰(zhàn)ARC-AGI，71%準(zhǔn)確率成新SOTA：

GPT-4o 突破 ARC-AGI 基準(zhǔn)，該基準(zhǔn)由 Fran?ois Chollets 創(chuàng)建，并被認(rèn)為是衡量通用人工智能進(jìn)展的唯一標(biāo)準(zhǔn)。之前的 ARC-AGI 競賽獲勝者在測試集上僅取得了 21% 的成功率，而 GPT-4o 則在公共測試集上達(dá)到了 50% 的準(zhǔn)確率，在訓(xùn)練集的保留子集上達(dá)到了 71%，成為新的 SOTA。盡管 GPT-4o 的表現(xiàn)令人印象深刻，但由于使用了閉源模型和過多的運行時計算，該成績未能獲得 ARC-AGI 獎項和主要排行榜的資格。

紅杉美國合伙人稱AI兩千億美元的問題，現(xiàn)在變成了六千億美元：

紅杉美國合伙人 David Chan 提出，AI 市場的潛力已經(jīng)從 2000 億美元增長到 6000 億美元，這一轉(zhuǎn)變得益于英偉達(dá)超越蘋果成為全球市值最大公司的推動。David Chan 通過將英偉達(dá)的年收入預(yù)測乘以 2 倍來反映 AI 數(shù)據(jù)中心的總成本，再乘以 2 倍以反映 GPU 最終用戶的使用情況，得出了這一市場規(guī)模的估算。

馬斯克稱特斯拉人工智能硬件占一半，英偉達(dá)/其他硬件占一半：

馬斯克談到特斯拉的冷卻需求稱，今年的電力和冷卻需求約為130兆瓦，但在未來18個月左右將增加到500兆瓦。目標(biāo)是特斯拉人工智能硬件占一半，英偉達(dá)/其他硬件占一半。要么不入局，要么就入局全力一搏。主要是HW4，部分Dojo。然后在明年下半年推出HW5（已更名為AI5）。特斯拉AI5計算機的能力是HW4計算機的約10 倍，整個軟件棧都是特斯拉開發(fā)的。

軟銀創(chuàng)始人孫正義擬在新投資計劃中打造“超級”人工智能：

孫正義稱該公司芯片將支持一個由機器人和強大數(shù)據(jù)中心組成的生態(tài)系統(tǒng)，可以共同治療癌癥、打掃房屋和與孩子一起玩耍?！皩崿F(xiàn)超級人工智能是我要做的事情，”他預(yù)言，超級人工智能可能會在10年內(nèi)出現(xiàn)，其能力將會是人類的1萬倍。

更多國際情報：

消息稱蘋果與 Meta 討論合作，將生成式 AI 引入 Apple Intelligence：報道稱，除了谷歌和 Meta，人工智能初創(chuàng)公司 Anthropic 和 Perplexity 也一直在與蘋果商談，希望把它們的生成式人工智能引入蘋果智能系統(tǒng)。

AI 角色扮演Character.ai流量已達(dá)谷歌搜索 20%：Character.ai通過高效的內(nèi)存架構(gòu)設(shè)計、Attention 狀態(tài)緩存和直接用 in8 精度量化訓(xùn)練等優(yōu)化手段，實現(xiàn)了每秒處理 20000 個 AI 推理請求，達(dá)到了 2024 年谷歌搜索流量的 1/5，并大幅降低了推理成本。

數(shù)據(jù)顯示谷歌已降低 Reddit 對 AI 搜索結(jié)果的影響：據(jù)SERanking 數(shù)據(jù)顯示，Reddit 已經(jīng)不再是谷歌“AI 摘要”功能信息來源的前十名。此前不少用戶反饋谷歌 AI 摘要功能會生成一些奇怪的結(jié)果。

高通開放 AI 模型，助力開發(fā)者打造驍龍 X Elite 平臺智能應(yīng)用：這些模型現(xiàn)已在高通 AI Hub 上提供，涵蓋圖像分類、對象檢測、語義分割和生成式 AI 等領(lǐng)域。注冊開發(fā)者可以獲取這些預(yù)訓(xùn)練模型，快速構(gòu)建人工智能應(yīng)用。

AI在體育領(lǐng)域的潛在應(yīng)用，可根據(jù)網(wǎng)球運動員肢體語言識別情緒：德國研究員利用卷積神經(jīng)網(wǎng)絡(luò)，準(zhǔn)確識別了網(wǎng)球運動員在比賽中通過肢體語言表達(dá)的情緒，該模型的準(zhǔn)確率高達(dá) 68.9%。研究結(jié)果發(fā)表在《知識系統(tǒng)》期刊上。

無需充電、加油，新型機器人開始商用，可自由探索海洋：Seatrec 公司在美國宇航局噴氣動力試驗室的支持下，研發(fā)了一種新型海洋機器人，該機器人不需要充電或加油，能夠消除海底電池殘骸，利用海洋溫度波動產(chǎn)生動能，實現(xiàn)長期自由探索海洋。

AI 大模型會不會講笑話？谷歌 DeepMind 團(tuán)隊實驗顯示，會講，但笑點不多：研究人員發(fā)現(xiàn)，大語言模型生成的大多數(shù)笑話都是“泛泛而談”，鮮有令人驚喜的結(jié)果出現(xiàn)。原因可能是大語言模型的制作者會使用過濾器來防止可能令人覺得反感或受到冒犯的輸出。

史上最貴減持！黃仁勛5天套現(xiàn)5.7億，英偉達(dá)兩天暴跌1.6萬億：黃仁勛在 5 個交易日內(nèi)套現(xiàn)超過 5.7 億元人民幣股份，而英偉達(dá)股價兩天內(nèi)大跌導(dǎo)致市值減少超過 1.6 萬億元人民幣。

Product Hunt 熱榜，Mojo AI Reveal讓logo動起來

Mojo AI Reveal 是一個方便的在線平臺，用戶只需上傳帶有透明背景的 .png 格式 logo，即可利用 AI 技術(shù)生成動感十足的專業(yè)標(biāo)志動畫。操作簡單，即使沒有專業(yè)設(shè)計技能也能輕松上手。上傳文件需小于 25MB，以確保最佳效果。

?https://mojo-app.com/ai?ref=producthunt

GitHub Trending 熱榜，開源實時翻譯助手 RTranslator

RTranslator 是一款專為 Android 設(shè)備設(shè)計的免費開源實時翻譯應(yīng)用程序，支持對話模式、對講機模式和文本翻譯模式，能夠在兩人或多人之間進(jìn)行實時翻譯。該應(yīng)用程序使用 Meta 的 NLLB 進(jìn)行翻譯，OpenAI 的 Whisper 進(jìn)行語音識別，這些 AI 模型在設(shè)備本地運行，確保用戶隱私并支持離線使用。RTranslator 要求設(shè)備至少有 6GB RAM 和一顆足夠快的 CPU，以保證其穩(wěn)定運行。用戶可以通過下載 APK 文件并在首次啟動時下載必要的模型來安裝應(yīng)用。

RTranslator 支持多種語言，不收集任何個人數(shù)據(jù)，完全保護(hù)用戶隱私。作為一款開源應(yīng)用，它的代碼對公眾開放，但使用了一些外部庫和 AI 模型，這些庫和模型的許可證各不相同。雖然目前該應(yīng)用仍處于測試階段，存在一些已知問題，如某些語言的語音合成問題和藍(lán)牙連接不穩(wěn)定問題，但它已經(jīng)展示出極大的潛力。

?https://github.com/niedev/RTranslator?tab=readme-ov-file

開發(fā)者推薦

1.Granola：職場人士的 AI 智能會議筆記應(yīng)用

Granola 是專為持續(xù)連續(xù)會議的職場人士設(shè)計的 AI 智能會議筆記應(yīng)用，能夠?qū)崟r聽寫會議內(nèi)容并在會后增強筆記。目前僅支持 Mac 系統(tǒng)，但 Windows 版本正在開發(fā)中。Granola 不需要會議機器人，通過 Mac 音頻即可進(jìn)行聽寫，并提供可自定義的模板和 GPT-4 集成功能，幫助完成會后行動項如撰寫跟進(jìn)郵件等。該應(yīng)用還支持輕松分享筆記至常用平臺，提供免費試用版和每用戶每月 10 美元的專業(yè)版，被 Zinc 等公司廣泛采用并獲得積極評價。

?https://www.granola.so/

2. Florence-2：微軟開源的輕量級視覺語言模型

Florence-2是微軟開源的輕量級視覺語言模型，使用MIT許可證發(fā)布。它在FLD-5B大規(guī)模數(shù)據(jù)集（包含1.26億張圖像和54億條視覺注釋）上訓(xùn)練，展現(xiàn)出強大的零樣本和微調(diào)能力。該模型在圖像標(biāo)注、目標(biāo)檢測、地面化和分割等多種視覺任務(wù)中表現(xiàn)出色，性能可與大型模型相媲美。Florence-2系列包括參數(shù)為0.23億的base版本和0.77億的large版本，體積小巧，適合移動設(shè)備部署。模型架構(gòu)結(jié)合了DaViT視覺編碼器和基于Transformer的多模態(tài)編碼器-解碼器，為計算機視覺領(lǐng)域帶來新的可能性。

?https://huggingface.co/collections/microsoft/florence-6669f44df0d87d9c3bfb76de

4.Andrej Karpathy 分享 Micrograd 項目：了解神經(jīng)網(wǎng)絡(luò)訓(xùn)練的核心

Andrej Karpathy 在 X 上發(fā)布了一篇帖子，介紹了他的早期項目 Micrograd。這個項目通過 94 行代碼實現(xiàn)了一個標(biāo)量自動微分引擎，這是訓(xùn)練神經(jīng)網(wǎng)絡(luò)的核心。這個過程包括構(gòu)建一個計算圖，輸入數(shù)據(jù)和神經(jīng)網(wǎng)絡(luò)參數(shù)通過基本操作如加法和乘法，最終以一個單一的損失值結(jié)束。然后通過反向傳播和鏈?zhǔn)椒▌t計算梯度，這些梯度指導(dǎo)參數(shù)的調(diào)整以減少損失，從而改進(jìn)網(wǎng)絡(luò)。

Karpathy 強調(diào)，盡管還需要了解計算圖的結(jié)構(gòu)、損失函數(shù)和參數(shù)更新方法等，但這些代碼已經(jīng)體現(xiàn)了訓(xùn)練神經(jīng)網(wǎng)絡(luò)的基本原理。他還分享了 Rumelhart、Hinton 和 Williams 在 1986 年發(fā)表的關(guān)于反向傳播算法的論文鏈接，以及他在 YouTube 上的視頻，詳細(xì)解釋了 Micrograd 的構(gòu)建過程。

?https://github.com/karpathy/micrograd

?https://www.youtube.com/watch?v=VMj-3S1tku0

5.CosmicMan-SDXL 生成高保真度的人類圖像

CosmicMan-SDXL 是一個專門用于生成高分辨率人類圖像的文本到圖像基礎(chǔ)模型，基于 stabilityai/stable-diffusion-xl-base-1.0，并提供了 UNet 檢查點。

?https://huggingface.co/cosmicman/CosmicMan-SDXL

熱議話題

BVP 發(fā)布“State of the Cloud 2024” 報告，聚焦 AI 五大趨勢：

Bessemer Venture Partners 報告重點關(guān)注人工智能領(lǐng)域的五個關(guān)鍵趨勢，分別是：

1.ChatGPT 的爆發(fā)，月度網(wǎng)站訪問量，與 Reddit 和 X 平臺相當(dāng)，顯示出極高的用戶關(guān)注度；

2.大型科技公司戰(zhàn)爭，基礎(chǔ)模型成為新一戰(zhàn)的核心，2023 年約 90% 的私募 GenAI 融資由企業(yè)風(fēng)險投資者推動；

3.模型層的價值集中，風(fēng)險投資流向：2023 年約 60% 的風(fēng)險投資資本流向了模型層，表明人工智能價值創(chuàng)造主要集中在該層面；

4.代碼協(xié)作者的創(chuàng)新熱潮，2023 年在代碼協(xié)作者領(lǐng)域共投資了 39 億美元。GitHub Copilot市場領(lǐng)先，安裝量超過 1400 萬，成為開發(fā)者的熱門工具；

5.AI 原生公司的快速增長，AI 原生公司在收入達(dá)到 10 億美元方面比傳統(tǒng)云服務(wù)提供商快 50%。

敬請期待明日的最新動態(tài)！

AI情報局征集情報合伙人，匯集獨家價值線索！如果您可以提供有關(guān)AI最新成果&行業(yè)內(nèi)幕&獨特產(chǎn)品，請?zhí)砑舆\營微信號：AIyanxishe2備注行業(yè)崗位。

雷峰網(wǎng)(公眾號：雷峰網(wǎng))

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

我在思考中

運營

發(fā)私信

當(dāng)月熱門文章

StabilityAI獲超1億美元投資并任命新CEO；月之暗面稱沒有開發(fā)海外產(chǎn)品計劃；GPT-5將在一年半后發(fā)布丨AI情報局

StabilityAI獲超1億美元投資并任命新CEO；月之暗面稱沒有開發(fā)海外產(chǎn)品計劃；GPT-5將在一年半后發(fā)布丨AI情報局