丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給我在思考中
發(fā)送

0

袁進輝獲近億元天使+輪融資;接棒湯曉鷗,上海AILab主任周伯文探索AI-45°Law;8人6個月從0開發(fā)GPT4o丨AI情報局

本文作者: 我在思考中 2024-07-05 10:30
導語:產品推薦:Ariglad,pyVideoTrans,Widgera,Mutahunter

融資快報

硅基流動完成近億元天使+輪融資:硅基流動是一家專注于AI Infra(AI基礎設施)領域的創(chuàng)業(yè)公司,成立于2023年8月。創(chuàng)始人袁進輝是前OneFlow創(chuàng)始人及CEO,曾任微軟亞洲研究院主管研究員,獲得微軟亞洲研究院院長特別獎。本輪融資由某知名產業(yè)方領投,跟投方包括智譜AI、360和水木清華校友基金等知名企業(yè)及機構,老股東耀途資本繼續(xù)超額跟進,華興資本擔任獨家財務顧問。

AI法律獨角獸Harvey收購失敗,估值縮水:此前Harvey正尋求以至少 20 億美元的估值融資 6 億美元,計劃利用部分資金收購成立25年的法律研究公司 vLex。但以收購告終,本輪融資也縮水。據兩位參與投資的人士透露,Harvey目前預計將在由谷歌母公司 Alphabet 旗下投資機構 GV 領投的一輪融資中籌集約 1 億美元。

傲鯊智能完成數千萬元A+輪投資:傲鯊智能是一家基于外骨骼技術平臺的機器人科技公司。公司主要服務B端工業(yè)市場提供外骨骼機器人產品和配套解決方案。A+輪融資由敦鴻資產領投。 融資資金將用于加速傲鯊智能“千元級外骨骼”及“具身智能”通用人形機器人與外骨骼結合形態(tài)的初步產品發(fā)布。

國帆科技完成2600萬人民幣A輪融資:國帆科技是一家互聯網軟件開發(fā)服務商,該公司旗下擁有抖付通等品牌。本輪融資由字節(jié)資本領投。資金將用于加強技術研發(fā)推動云計算、大數據、人工智能等技術的創(chuàng)新和應用等方面。

Prodia獲1500萬美元融資:Prodia 是一個由 GPU 分布式網絡驅動的人工智能推理平臺,利用Web3基礎設施,以極低的成本提供可擴展的高性能計算資源。本輪融資由Dragonfly領投。

Bitmagic獲400萬美元融資:Bitmagic是芬蘭一家人工智能游戲平臺,可將提示轉化為完全互動的多人 3D 游戲,簡化了游戲開發(fā),無需編碼技能,可通過 Steam Playtest 免費下載。本輪融資由Supercell、Sisu Game Ventures、Zak Phelps、Maarten De Koning、Korea Investment Partners 投資。

Vide獲300萬美元種子輪融資:Vida是美國企業(yè)級AI語音解決方案提供商,本輪融資由Stillmark領投。

Hypertype 獲 60萬歐元融資:Hypertype是一家瑞典營銷科技初創(chuàng)公司,專注于通過人工智能自動化和簡化客戶支持和銷售人員與客戶的溝通。融資由 Butterfly Ventures 和 Bust 的領投,將用于擴大其 AI 服務的市場份額。

OpenFi 獲50萬英鎊種子資金:OpenFi 是一家專注于對話式人工智能的公司,獲得了來自 Bijan Morvaridi、Fortune Green Capital Ltd 和 Foundation Ventures Ltd 的投資。OpenFi 的 SalesTalkAI 通過 WhatsApp、電子郵件和社交生成人類對話。 SalesTalkAI 使用自然語言對話式 AI 來過濾、篩選和培養(yǎng)潛在客戶。

Cartken 宣布籌集2250萬美元融資:Cartken 是一家專注于機器人自主導航技術的初創(chuàng)公司,該公司的技術不受特定環(huán)境限制,能夠在多樣化的環(huán)境中運作。這次投資由 468 Capital 領投,其他參與投資的機構包括 Incubate Fund、LDV Partners 和 Vela Partners,以及全球性的移動技術領導者如 Magna International、三菱電氣、Shell Ventures 和 Volex。

Gendo 獲110 萬美元融資:Gendo 是一個專為建筑師設計的生成式 AI 平臺,它能夠將 2D 繪圖、草圖或文本提示轉換成復雜、逼真的可視化。

若創(chuàng)科技獲硅谷VC美元投資:原大疆光電部負責人洪小平成立深圳若創(chuàng)科技。洪小平曾在伯克利獲得物理學博士學位,并在霍尼韋爾擔任高級科學家,后在大疆主導光電模塊及激光雷達產品的研發(fā)和生產。他是大疆的核心研發(fā)人員之一,與公司共同申請了 187 項專利。新公司的業(yè)務方向為低速機器人。

瑞士 SaaS 平臺 Squirro收購Synaptica:Squirro是一家位于瑞士的企業(yè) SaaS 平臺,專注于生成式 AI、搜索和業(yè)務洞察, Synaptica是美國企業(yè)分類管理和知識圖譜系統 SaaS 提供商。這次收購的目的是將 Synaptica 的強大語義圖技術與 Squirro 的尖端生成式 AI 功能相結合,形成一個強大的平臺,用于知識發(fā)現、對話搜索和業(yè)務流程自動化。

(歡迎添加微信AIyanxishe2,了解更多AIGC、融資情況,與志同道合的朋友一同暢聊時新AI產品)

國內情報:

周伯文接任湯曉鷗,以上海AI Lab主任身份發(fā)表WAIC演講:

周伯文在 WAIC 2024 全體會議上以上海 AI 實驗室主任身份發(fā)表演講,提出了人工智能 45° 平衡律(AI-45° Law),強調從長期視角確保 AI 安全與性能的平衡發(fā)展。他指出,當前 AI 發(fā)展存在失衡,性能提升遠超安全性,導致了所謂的 “Crippled AI” 現象。為了解決這一問題,周伯文提出了可信 AGI 的 “因果之梯”,分為三個階段:泛對齊、可干預和能反思,旨在逐步提升 AI 的安全性和可信度。他還強調了 AI 安全的全球性公共利益,呼吁國際社會共同推進 AI-45° 平衡律的實現。

Kimi論文自曝推理架構,80%流量都靠它:

月之暗面和清華 KVCache.ai 團隊發(fā)布論文,揭示了 Kimi 大模型背后的推理架構 Mooncake,該架構采用分離式設計,通過 KV 緩存優(yōu)化和分布式系統結構,以及基于預測的早期拒絕策略,有效提高了推理服務性能,能夠承擔 80% 以上的流量。

中國首款全尺寸通用人形機器人開源公版機“青龍”發(fā)布:

“青龍”身高 185cm,體重 80kg,全身擁有 43 個主動自由度,關節(jié)峰值扭矩最大 400N?m,算力支持 400TOPS。擁有高度仿生的軀干構型、擬人化的運動控制,支持多模態(tài)機動 / 感知 / 交互 / 操控。其同時具備高機動下肢行走配置、輕量化高精度上肢作業(yè)配置,支持快速行走、敏捷避障、穩(wěn)健上下坡、抗沖擊干擾四大運動功能。“青龍”由人形機器人(上海)有限公司自研,已獲批省部級上海人形機器人制造業(yè)創(chuàng)新中心,并于 2024 年 5 月由工業(yè)和信息化部授牌國家地方共建人形機器人創(chuàng)新中心。

階躍星辰發(fā)布Step-2等三個模型,主打多模態(tài)能力:

Step-2 是一個擁有萬億參數的 MoE 模型,目前處于申請體驗階段。Step-1.5V 展現了在圖片和視頻理解方面的非凡才華,推動了視覺藝術的邊界。Step-1X 則以其 DiT 架構的靈活性,表現出對中國文化元素的深刻理解,實現了東方美學與現代科技的完美融合。

摩爾線程升級夸娥智算集群到首個國產全功能GPU的萬卡規(guī)模集群:

國產GPU公司摩爾線程宣布其人工智能旗艦產品夸娥(KUAE)智算集群解決方案實現重大升級——從千卡擴展至萬卡規(guī)模??偹懔Τ^10EFLOPS,目標是做到有效計算效率超過60%、穩(wěn)定性達99%,能支撐萬億參數級大模型訓練。

商湯發(fā)布可控人物視頻生成大模型Vimi,實現分鐘級視頻:

商湯科技打造的首個面向C端用戶的可控人物視頻生成大模型VImi。Vimi基于商湯日日新大模型的強大能力,僅通過一張任意風格的照片就能生成和目標動作一致的人物類視頻,并支持多種驅動方式,可通過已有人物視頻、動畫、聲音、文字等多種元素進行驅動。

網易伏羲發(fā)布機器人品牌“靈動” 推出“易生諸相”多模態(tài)大模型:

靈動由網易伏羲依托自主研發(fā)的工業(yè)級大型模型和AOP技術理念精心打造,旗下推出的兩款旗艦產品——挖掘機器人和裝載機器人,已經在超過50個省級重點項目中投入使用,服務于礦山、港口、攪拌站、學校等多樣化的應用環(huán)境。網易伏羲還展示了其最新研發(fā)的“易生諸相”多模態(tài)大型模型,以及名為“丹青約”的多模態(tài)智能體助手。

騰訊云發(fā)布全新自研大數據高性能計算引擎Meson:

通過軟硬一體加速和智能技術的綜合應用,該引擎能顯著為AI等場景下的大數據任務提供更優(yōu)的計算性能,并節(jié)省更多計算資源。比如,在數據湖場景下,Meson能夠助力單個數據查詢分析提速6倍,在微信讀書“AI問書”項目中,Meson助力大數據任務節(jié)省了9成的資源消耗。

騰訊混元DiT升級,推出6G小顯存版本,支持Kohya訓練:

騰訊混元文生圖大模型(混元DiT)宣布開源小顯存版本,僅需6G顯存即可運行,對使用個人電腦本地部署的開發(fā)者十分友好,該版本與LoRA、ControlNet等插件,都已適配至Diffusers庫;并新增對Kohya圖形化界面的支持,讓開發(fā)者可以低門檻地訓練個性化LoRA模型;同時,混元DiT模型升級至1.2版本,在圖片質感與構圖方面均有所提升。

Agent再升級!昆侖萬維、智源等聯合發(fā)布計算機控制框架 “Cradle”:

這一AI框架使智能體無需特別訓練,直接像人一樣控制鍵盤和鼠標,與任意開閉源軟件進行交互,不依賴任何內部API。Cradle是首個能夠同時玩轉多種商業(yè)游戲和操作各類軟件應用的AI框架,其論文、項目和代碼均已開源。在具有挑戰(zhàn)性的benchmark OSWorld上擊敗了使用真值標簽的基線方法。

北京計劃2025年智算供給規(guī)模達45EFLOPS,兩年打造AI原生城市:

北京市經濟和信息化局總經濟師、數字經濟專班執(zhí)行長唐建國表示:“北京市明確提出,到2025年本地智算供給規(guī)模達到45EFLOPS,形成北京市內東西南北四個億級以上算力中心,構建‘京津冀蒙’算力供給走廊,為人工智能大模型的訓練和推理應用提供高效的算力供給。同時,推出一系列人工智能商業(yè)場景,預計利用兩年時間打造AI原生城市?!?/p>

李彥宏稱沒有應用,基礎模型一文不值,商業(yè)化閉源模型最能打:

百度創(chuàng)始人、董事長兼首席執(zhí)行官李彥宏談及2023年國內出現了百模大戰(zhàn),造成了社會資源的絕大浪費,但也使得國內追趕世界上最先進的基礎模型能力得到建立。李彥宏強調閉源模型的優(yōu)勢,稱激烈競爭環(huán)境下,商業(yè)化閉源模型最能打。另外,沒有應用,基礎模型一文不值。同時他稱智能體是最看好的AI應用方向。最簡單的AI應用開發(fā)就是智能體,未來將會有數百萬量級的智能體出現,而搜索是智能體分發(fā)的最大入口。

他還指出要避免掉入“超級應用陷阱”,認為一定要出現一個10億DAU的APP才叫成功,這是移動時代的思維邏輯。AI時代,規(guī)律可能不是這樣的,“超級能干”的應用比只看DAU的“超級應用”更重要,只要對產業(yè)、對應用場景能產生大的增益,整體價值就比移動互聯網要大多了。

商湯科技 CEO 徐立稱AI 行業(yè)很熱但未到“超級時刻”,需要應用來支撐:

商湯科技董事長兼 CEO 徐立指出,當前 AI 行業(yè)確實很熱,但“還沒有到一個超級時刻”—— 因為 AI 暫未真正走進行業(yè)垂直應用,或引起廣泛變化。當下的大模型只是一個“記憶器”,只是背下了所有的知識點,僅有的一點點智能其實是來自互聯網上的數據背后帶有的一個“高階邏輯思維鏈”。在談到“超級時刻”時徐立補充說,超級時刻和應用是相互成就的。“超級時刻”帶來認知變化,才能推動應用。如果有應用來支撐,那么當下就是“超級時刻”。“就像 iPhone 一樣,因為有了平臺,后面才有 App Store 的生態(tài)。所以我想,這個時代是否是 AI 的超級時刻,一個關鍵就在于應用?!?/p>

丘成桐稱人工智能要重視上游的基礎學科:

菲爾茲獎首位華人得主丘成桐表示,“人工智能的上游、中游、下游要同步做,上游(基礎學科)要領導,中、下游要幫忙,中國尤其要重視上游的工作?!?/p>

中國移動董事長楊杰稱擅長使用 AI 的人將替代不會使用 AI 的人:

楊杰表示:“AI 到底是人類的助手還是對手、是機遇還是威脅,已經成為全社會共同的話題。我個人認為,AI 不會取代人類智能,但是會重構很多行業(yè)和領域,擅長使用 AI 的人將會替代不會使用 AI 的人?!?/p>

華為云 CEO 張平安稱中國的 AI 應追求在行業(yè)領域構筑大模型的全球領先地位:

華為常務董事、華為云 CEO 張平安表示,中國的 AI 發(fā)展離不開算力基礎設施的創(chuàng)新,并且要敢于開放行業(yè)場景,讓 AI 在行業(yè)應用上領先。張平安提出,中國的 AI 發(fā)展道路,追求的應該是在行業(yè)領域構筑大模型的全球領先地位。如果各行各業(yè)都積極擁抱 AI,積極地開放行業(yè)的業(yè)務場景,中國很有機會在 2B 領域構筑起全球的領先優(yōu)勢。

國際情報:

搶跑OpenAI發(fā)布語音助手,法國Kyutai實驗室演示自帶70種情緒AI:

法國開源AI研究實驗室Kyutai發(fā)布實時語音多模態(tài)模型Moshi,具備看、聽、說等功能。該實驗室的八人研究團隊耗時六個月從零開始開發(fā)。Moshi對標OpenAI GPT-4o,可以聽取人的語音提問后進行實時推理回答內容,能夠以 70 種情緒和風格進行交流,并且可以在 Kyutai 的網站上進行免費的交互式演示。Kyutai 計劃公開 Moshi 模型的代碼和權重。

特斯拉二代人形機器人Optimus亮相WAIC,行走速度提升30%:

2024世界人工智能大會上,特斯拉二代人形機器人Optimus正式亮相。特斯拉介紹,二代Optimus在直立行走的基礎上,行走速度提升了30%;其手指還“進化”到除了感知和觸覺,可以在輕握雞蛋和搬運重物時做到“游刃有余”。近期二代 Optimus 已經在特斯拉工廠嘗試“打工”。借助視覺神經網絡和 FSD 芯片,二代 Optimus 可以模仿人類操作,進行電池的分揀訓練。

macOS 版 ChatGPT 被指以純文本存儲 AI 對話,OpenAI 緊急更新修復:

開發(fā)者Pedro Vieito在Thread平臺發(fā)布動態(tài),表示 macOS 版 ChatGPT 應用會以純文本方式在計算機上存儲用戶對話,可能被惡意行為者訪問。OpenAI 公司回應稱已更新其應用,對存儲在 Mac 設備上的聊天記錄進行了加密處理。

微軟更新支持文檔,鼓勵開發(fā)者為 Win11 開發(fā) AI 應用:

微軟公司更新了支持文檔,鼓勵開發(fā)者在 Windows 11 系統中充分利用 AI 功能,打造優(yōu)質應用程序。文檔介紹了相關專業(yè)術語和內容,推薦開發(fā)者使用 OnnxRuntime 等框架來使用本地或者云端的 AI 模型,除了 C++ 和 Python 之外,還推薦使用 C# 開發(fā) Windows 應用程序。同時,微軟提醒開發(fā)者要注意數據隱私和安全問題,鼓勵公開數據收集情況,用戶應對數據擁有控制權。

Perplexity AI發(fā)布 Pro Search,提升問題解決與代碼執(zhí)行能力:

新版Pro Search不僅能處理更復雜的查詢,還具備多步推理能力,能執(zhí)行高級數學和編程計算,提供更全面的調研結果。通過整合Wolfram|Alpha引擎,Pro Search在解決復雜數學問題方面的準確性和速度得到顯著提升。所有用戶每四小時可免費使用Pro Search五次。Perplexity Pro訂閱者則享有幾乎無限制的每日使用權限。

Cloudflare 推出一鍵阻止AI機器人網絡爬蟲的新方法:

Cloudflare發(fā)布了新的免費工具,用于防止 AI 機器人爬取其托管網站的數據,以訓練 AI 模型。Cloudflare 通過分析 AI 機器人和爬蟲的流量,優(yōu)化了自動機器人檢測模型,以便更準確地識別和標記那些試圖模仿瀏覽器使用者行為以逃避檢測的 AI 機器人。此外還設立了一個表單,供主機商報告可疑的 AI 機器人和爬蟲,并承諾隨著時間的推移不斷手動將 AI 機器人列入黑名單。

ElevenLabs發(fā)布消音神器VOICE ISOLATOR,可去除音頻中的背景噪音:

VOICE ISOLATOR不僅能消除不需要的背景噪音,還能從任何音頻中提取出清晰的對話,讓播客、采訪或電影聽起來就像在專業(yè)錄音室錄制的一樣。它的Extract vocals功能可以增強人聲,同時清除街道噪音、麥克風雜音以及其他任何不需要的背景噪音。

三星放緩汽車半導體開發(fā),專注于人工智能芯片:

三星負責芯片設計的系統LSI部門正在進行業(yè)務和組織重組,將優(yōu)先發(fā)展AI芯片。此次從事汽車處理器“Exynos Auto”開發(fā)的的人員已在該部門內重新分配到AI系統級芯片團隊,該團隊現在是三星設計工作的重點。目前,該部門集中了100-150名專門設計人員,致力于AI芯片設計。

一開發(fā)者在 Google Drive 上運行了整個操作系統:

普渡大學計算機科學專業(yè)學生 Sambhav S. 完成了一項創(chuàng)新的技術項目,該項目能夠讓完整的 Linux 發(fā)行版直接從 Google Drive 啟動。他利用 FUSERAM 磁盤技術,在 Linux 啟動過程中直接從 Google Drive 加載操作系統的關鍵組件、應用程序和網絡二進制文件。最終成功地在一臺沒有本地存儲空間的備用筆記本電腦上啟動了這個系統。雖然速度較慢,權限和屬性也受到影響,但仍然可用。Sambhav 認為這種技術可能有實際應用,比如從 Git 倉庫或 SSH 連接啟動環(huán)境,甚至可能讓公司完全依賴云技術而不是硬件存儲。

IBM公布其完整的6.48 TB LLM訓練數據集:

這個數據集經過嚴格的預處理后,縮減為2.07TB,減少了68%。對于確保高質量、無偏見、符合倫理和法律的數據集,以滿足企業(yè)應用場景需求至關重要。數據集由多個來源精心策劃而來,包括 arXiv、Common Crawl、DeepMind Mathematics、Free Law、GitHub Clean、Wikimedia 等。IBM 發(fā)布了四個 Granite 代碼模型的版本,參數范圍從30億到340億。

比爾蓋茨稱現在對AI的狂熱遠超互聯網泡沫:

蓋茨曾預言每個辦公桌上都會有一臺電腦,現在他又預言每個人的耳邊都將配備一個人工智能助手。他指出,目前對人工智能的狂熱遠超過去互聯網泡沫時期,進入人工智能領域的門檻非常低,資本正在以前所未有的速度涌入這個新領域。雖然谷歌和微軟等大公司在人工智能領域擁有大量資本,但這并沒有阻止其他公司在基礎能力或垂直領域的發(fā)展。人工智能技術在全球經濟中所占的份額雖然相對較小,但其潛力巨大,即使是小型機構也能借助這些工具與大型機構競爭,并提供更優(yōu)質的服務。

更多國際情報:

谷歌母公司 Alphabet CEO 皮查伊減持公司股票,套現超 420 萬美元:皮查伊本次出售股票是根據預先制定的 10b5-1 交易計劃進行的,此類計劃允許公司內部人士在預定時間出售股票,以避免因利用內幕信息交易而受到指控。

Google AI Overviews新研究,SE Ranking的全新發(fā)現:Google 的 AI Overviews 功能僅出現在 8.71%的 SERPs 中,用于 100K 關鍵詞,比之前的 64%有了顯著的下降。具有更多單詞、較低搜索量和較低 CPC 的用戶查詢更有可能觸發(fā) AI 生成的回應。

Alphabet將放棄其礦業(yè)機器人農業(yè)初創(chuàng)公司Mineral:這是由于激烈的行業(yè)競爭和微薄的利潤率。Mineral 曾是 Google 的 X 實驗室的一部分,該實驗室也是 Google 眼鏡和 Waymo 自動駕駛汽車部門的孵化器。

谷歌等科技巨頭承認AI可能會損害其業(yè)務:在他們提交給美國證券交易委員會的年度財報中,谷歌母公司 Alphabet 指出,AI 產品和服務可能會引發(fā)道德、技術、法律、監(jiān)管等挑戰(zhàn),影響品牌形象和市場需求。Meta、微軟和甲骨文也提到生成式 AI 帶來的錯誤信息傳播、有害內容滋生、知識產權侵犯和數據隱私泄露等問題。

聯合國報告稱中國生成式AI專利申請量世界第一:據聯合國保護知識產權機構數據顯示,中國在人工智能發(fā)明方面申請的專利數量是美國的六倍。

任天堂反對在游戲中使用生成式AI:任天堂總裁古川俊太郎認為 AI 侵犯知識產權,生成式 AI 制作的內容缺乏個性化與任天堂注重的原創(chuàng)性和創(chuàng)造力不符。

Zepp Health推搭載GPT-4o的 Zepp OS 4 智能手表操作系統:Zepp OS 的主界面允許用戶通過自然語言交互來控制設備。用戶可以通過說出指令來管理設置、回復 WhatsApp 等應用程序的消息,并發(fā)起藍牙電話。

蘋果中國官網上線iOS 18介紹頁面,全程未提AI:由于技術限制及政策考量,ChatGPT與Apple Intelligence在中國市場暫時無法提供服務,這也直接導致了iOS18中的AI功能在國內的缺席,從而未在官網介紹中占據一席之地。

Product Hunt 熱榜, AI驅動的知識庫Ariglad

Ariglad是一款創(chuàng)新的AI工具,專注于自動化知識庫的創(chuàng)建和更新。它能夠無縫整合來自Zendesk、支持票據和Slack等多個渠道的信息,為企業(yè)提供一站式的幫助中心解決方案。通過分析海量數據,Ariglad已生成超過30,000條建議,處理了500,000多張支持票據。

這款工具簡化了知識庫的維護過程,確保了信息的實時更新和安全性(獲得SOC2認證)。通過自動識別知識空白、整合產品更新和利用Slack對話,Ariglad幫助企業(yè)節(jié)省時間成本,同時提高客戶滿意度。在當今81%的客戶傾向于自助尋找答案的背景下,Ariglad為企業(yè)提供了維護高質量、始終最新的知識庫的有力工具。

?https://www.ariglad.com/?ref=producthunt

GitHub Trending 熱榜,一鍵視頻翻譯+配音工具pyVideoTrans

通過簡單操作實現視頻語音識別、字幕翻譯+配音,生成帶有字幕+配音的新視頻(把視頻從一種語言翻譯成另一種語言并配音);支持自動視頻翻譯,集成faster-whisper模型,支持自定義huggingface模型; 集成批量處理工具,批量語音轉字幕、批量字幕翻譯和批量配音;支持多種配音和翻譯渠道,如edgeTTS、AzureTTS、OpenAiTTS、Elevenlabs、Google、ChatGPT、DeepL、Gemini等;翻譯渠道替換為本地模型,配音渠道替換為clone-voice,即可實現完全本地離線視頻翻譯

?https://pyvideotrans.com/

開發(fā)者推薦

1.Widgera:無代碼網站開發(fā)新選擇

Widgera是一款新興的無代碼網站和應用開發(fā)平臺,專為初創(chuàng)企業(yè)和中小企業(yè)打造。該平臺目前處于Alpha 0.0.11階段,提供拖放式界面和高度定制化功能,無需編碼或設計技能即可創(chuàng)建強大的網站和應用。

Widgera的核心優(yōu)勢在于其簡便性和靈活性。用戶可輕松添加電子商務、預訂等功能,并享受內置支付系統。平臺還運用動態(tài)界面?zhèn)€性化技術,根據用戶行為調整內容。目前Widgera免費使用,計劃在2024年11月推出Beta版本后采用每月29美元的定價模式。

?https://widgera.com/?ref=producthunt

2.AI驅動的開源測試工具Mutahunter

Mutahunter是一款基于大型語言模型的突變測試工具,引起開發(fā)者關注。這個開源項目支持多種編程語言,通過AI生成上下文相關的錯誤注入,模擬真實世界的軟件漏洞。其特點包括自托管選項、與Tree-Sitter的集成,以及詳細的覆蓋率報告生成。

該工具旨在提高代碼質量并增強開發(fā)流程,其實際效果和在不同開發(fā)環(huán)境中的適用性仍有待進一步驗證。

?https://github.com/codeintegrity-ai/mutahunter?utm_source=uwl.me

前沿技術

1.港大字節(jié)開源自回歸文生圖模型LlamaGen,圖像生成如此簡單:

LlamaGen在GitHub上獲得了近900顆星標的認可。在ImageNet測試基準上,LlamaGen的表現超越了LDM、DiT等擴散模型。LlamaGen的技術實現基于幾個關鍵設計原則:圖像壓縮/量化器、可擴展的圖像生成模型,以及高質量的訓練數據。研究團隊采用了與VQ-GAN相似的CNN架構,將連續(xù)圖像轉化為離散Token,并在兩個階段的訓練過程中,顯著提升了圖像的視覺質量和分辨率。

?項目地址:https://top.aibase.com/tool/llamagen

?在線體驗地址:https://huggingface.co/spaces/FoundationVision/LlamaGen

2.首個開源、原生多模態(tài)生成大模型Anole,破圖文交互:

上海交通大學 GAIR 團隊開發(fā)了全球首個完全開源、自回歸、原生的多模態(tài)大模型 Anole,它能夠通過純 "token" 自回歸預測實現文字與圖像的生成。Anole 基于 Meta AI 的 Chameleon 模型,通過精心構建的約 6,000 張圖像數據集進行微調,實現了出色的圖像生成和理解能力。該模型不僅能夠生成圖像并附帶相關文本描述,還能夠根據文本生成圖像,并且在初步測試中表現出卓越的能力,能夠產生高質量的圖像和交錯的文本 - 圖像內容,與用戶提示密切吻合。GAIR 團隊已經對 Anole 項目進行了全方位開源,提供了模型微調代碼、權重轉換代碼、推理代碼、以及用于微調的 5k + 圖片,以及詳細的使用教程,旨在幫助研究人員更容易上手和實驗。

?https://gair-nlp.github.io/anole

3.InstantStyle-Plus: 文本生圖的風格革新

InstantStyle-Plus是一項由Haofan Wang團隊開發(fā)的創(chuàng)新技術,旨在解決文本到圖像生成中的一個關鍵挑戰(zhàn):如何在轉換視覺風格的同時保持原始內容的完整性。這項技術巧妙地將風格遷移任務分解為風格、空間結構和語義內容三個核心元素,通過輕量級處理實現高效的風格注入。

該技術的獨特之處在于其多方面的創(chuàng)新:使用反轉內容的潛在噪聲和可插拔的Tile ControlNet保持原始布局,集成全局語義適配器提高語義保真度,并采用風格提取器作為判別器提供額外的風格指導。盡管目前仍處于預實驗階段,InstantStyle-Plus已展示出在實際應用中的巨大潛力,為未來的圖像生成和風格遷移技術開辟了新的可能性。

?https://instantstyle-plus.github.io/?utm_source=uwl.me

4.Magic Insert: 跨風格圖像融合的魔法師

Magic Insert允許用戶將任意風格的圖像主體無縫融入到風格迥異的目標圖像中,同時保持主體的原有風格和真實感。它通過巧妙地結合風格感知個性化和對象插入兩大技術,克服了傳統圖像合成方法的局限。

該技術的核心在于其獨特的兩步流程:首先,利用LoRA和學習到的文本令牌對預訓練模型進行微調,實現風格感知個性化;其次,通過引導領域適應技術,將專門的對象插入模型應用于多樣化的藝術風格。

?https://magicinsert.github.io/

5.書生浦語:開源 InternLM 2.5 系列模型

InternLM/InternLM 是一個公開的 GitHub 倉庫,最近發(fā)布了 InternLM2.5 版本,其中包括 7B 參數規(guī)模的基礎和聊天模型。這個版本具有 1M(10^6)的上下文支持能力,這意味著模型能夠處理大量的文本輸入,適用于復雜的自然語言處理任務。

?https://github.com/InternLM/InternLM/

大牛洞見

OpenAI 聯合創(chuàng)始人 Andrej Karpathy 解釋了新的計算范式

“我們正在進入一個新的計算范式,大語言模型就像CPU一樣,使用Token而不是字節(jié),并且有一個上下文窗口而不是RAM。這就是大語言模型操作系統?!?/p>

Andrej指出,人工智能領域在過去15年中經歷了巨大的發(fā)展,從最初的學術研討到現在的廣泛應用,這種變化令人矚目。尤其是大語言模型的興起,徹底改變了計算的范式,使得計算不僅僅是處理字節(jié),而是處理語言和上下文,這為人工智能的應用打開了新的大門。

他回顧了自己在OpenAI的經歷,描述了公司從八個人在公寓里工作到如今成為市值近千億美元的行業(yè)巨頭的歷程。通過一個個小項目的積累和發(fā)展,OpenAI最終實現了巨大的突破。Andrej特別強調了項目經驗的重要性,很多看似不起眼的小項目最終可能會帶來意想不到的巨大影響。

? https://www.youtube.com/watch?v=tsTeEkzO9xc

敬請期待明日的最新動態(tài)!

AI情報局征集情報合伙人,匯集獨家價值線索!如果您可以提供有關AI最新成果&行業(yè)內幕&獨特產品,請?zhí)砑舆\營微信號:AIyanxishe2備注行業(yè)崗位。

雷峰網(公眾號:雷峰網)

雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知。

袁進輝獲近億元天使+輪融資;接棒湯曉鷗,上海AILab主任周伯文探索AI-45°Law;8人6個月從0開發(fā)GPT4o丨AI情報局

分享:
相關文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說