0
近兩年,芯片設(shè)計(jì)產(chǎn)業(yè)上云的趨勢越來越明顯。
“芯片的制程越來越先進(jìn),對(duì)公司IT基礎(chǔ)設(shè)施的要求也更高。項(xiàng)目前期可以算清楚算力和存儲(chǔ)的需求,但如果項(xiàng)目過程中有一些變更,可能會(huì)突然需要很多算力?!盇I芯片公司燧原科技IT負(fù)責(zé)人Vincent感觸頗深,“為了應(yīng)對(duì)突發(fā)的算力需求,我們想借助云計(jì)算的能力,也找主流云廠商都聊過,但很難做最終決定?!?/p>
這邊芯片公司遲遲沒有決定,那邊的云計(jì)算廠商還沒明白,芯片設(shè)計(jì)公司為什么不將芯片仿真環(huán)節(jié)部署在云上?
騰訊云HPC芯片仿真上云架構(gòu)師Cedric在與行業(yè)客戶溝通后,了解到接觸客戶前的想法,“芯片設(shè)計(jì)公司對(duì)數(shù)據(jù)的安全非常敏感,要先解決客戶最關(guān)心的問題?!?/p>
芯片設(shè)計(jì)這個(gè)傳統(tǒng)的行業(yè),在面對(duì)芯片設(shè)計(jì)越來越復(fù)雜,產(chǎn)品迭代速度加快的挑戰(zhàn)下,正主動(dòng)尋求借助云計(jì)算的能力更快設(shè)計(jì)出更好的芯片。云計(jì)算提供商,也恰好在探索與更多傳統(tǒng)行業(yè)的結(jié)合,推動(dòng)數(shù)字化的發(fā)展。包含芯片設(shè)計(jì)在內(nèi)的高性能計(jì)算(HPC)就是騰訊云近兩年一個(gè)重要的方向。
于是,芯片設(shè)計(jì)公司和云計(jì)算提供商一拍即合,開始將芯片仿真驗(yàn)證也搬到了云上。
但擺在雙方眼前的問題,除了技術(shù)的挑戰(zhàn),還有多方的磨合以及行業(yè)認(rèn)知等諸多挑戰(zhàn)。
好在方法總比問題多,騰訊云、速石科技、燧原科技共同合作,用存算分離混合云架構(gòu)成功實(shí)現(xiàn)業(yè)內(nèi)首個(gè)先進(jìn)制程大芯片仿真上云,讓眾多想要在云上設(shè)計(jì)芯片的公司又多了幾分信心。
也指明了,芯片設(shè)計(jì)上云的趨勢勢不可擋。
芯片公司上云的最大顧慮——數(shù)據(jù)安全
“我們不會(huì)借用云計(jì)算的能力設(shè)計(jì)芯片,芯片設(shè)計(jì)公司的核心資產(chǎn)就是芯片設(shè)計(jì)的代碼和知識(shí)產(chǎn)權(quán),如果將其放在云上,相當(dāng)于我們的核心資產(chǎn)放在了別人那里,安全性是我最大的擔(dān)憂?!边@是一家初創(chuàng)公司CEO和雷峰網(wǎng)交流時(shí)對(duì)芯片設(shè)計(jì)上云的看法,這其實(shí)也代表了許多有超過十年從業(yè)經(jīng)驗(yàn)的芯片老兵對(duì)芯片設(shè)計(jì)上云的擔(dān)憂。
芯片老兵們的擔(dān)憂不無道理,但同樣現(xiàn)實(shí)的問題是,芯片設(shè)計(jì)的復(fù)雜度越來越高,市場的需求越來越多樣且變化越來越快,想要用更短時(shí)間設(shè)計(jì)出更好的芯片,借用云的彈性優(yōu)勢是個(gè)好選擇。
芯片設(shè)計(jì)分為前端設(shè)計(jì)和后端設(shè)計(jì)兩大部分。無論是前端還是后端設(shè)計(jì),為了保證設(shè)計(jì)出的芯片符合設(shè)計(jì)的目標(biāo)性能和功能,仿真驗(yàn)證必不可少。有數(shù)據(jù)顯示,部分芯片設(shè)計(jì)驗(yàn)證所耗費(fèi)的時(shí)間通常高達(dá)整個(gè)芯片設(shè)計(jì)周期的70%。
這就意味著,想要加速芯片設(shè)計(jì),縮短仿真驗(yàn)證的時(shí)間成為關(guān)鍵,而想要縮短仿真驗(yàn)證時(shí)間,算力的支撐又是關(guān)鍵。
芯片設(shè)計(jì)的前端和后端對(duì)算力的需求不同,前端是單線程、高并發(fā)、原數(shù)據(jù)密集式的小文件為主,后端的設(shè)計(jì)仿真是多線程、大文件。并且,設(shè)計(jì)的芯片制程越先進(jìn)對(duì)算力的需求越高,成熟制程和先進(jìn)制程節(jié)點(diǎn)對(duì)算力需求差別可以達(dá)到指數(shù)級(jí)。
這就給芯片設(shè)計(jì)公司的IT基礎(chǔ)設(shè)施帶來了敏捷性、成本、運(yùn)維等方面的挑戰(zhàn)。所謂的敏捷性,就是企業(yè)的IT部門越來越難以依賴經(jīng)驗(yàn)建設(shè)合適的基礎(chǔ)設(shè)施,超前部署算力資源會(huì)帶來巨大的成本負(fù)擔(dān),算力不足又難以快速滿足突發(fā)的、波動(dòng)的負(fù)載。
“開發(fā)大芯片難免遇到意外情況,比如,突然遇到一個(gè)需要緊急修復(fù)的問題,就需要大量的算力作為支撐。這種意外的增量,有時(shí)候難以預(yù)測,云計(jì)算的彈性計(jì)算能力,能夠幫助我們應(yīng)對(duì)這種突發(fā)狀況。”燧原科技項(xiàng)目負(fù)責(zé)人Eli表示,“云計(jì)算能讓我們最快1個(gè)小時(shí)就部署好我們所需的全部資源。”
與之形成鮮明對(duì)比的是,如果芯片設(shè)計(jì)公司自己建設(shè)IT基礎(chǔ)設(shè)施,需要8-12周的時(shí)間,在疫情和缺芯的時(shí)候,這個(gè)周期也隨之拉長。
除了周期問題,成本也是芯片設(shè)計(jì)上云的重要考量。
“從純財(cái)務(wù)的角度僅僅對(duì)比買服務(wù)器和上云的成本,均攤到每個(gè)月,上云成本會(huì)更高一些。但從綜合成本的角度,我們節(jié)省的時(shí)間、人力、機(jī)房及運(yùn)維成本,加上效率的提升,上云更有優(yōu)勢?!盫incent表示,“我們對(duì)算力有迫切的需求,即便如此我們也只能大膽假設(shè),小心求證。”
2018年開始就率先在國內(nèi)推廣芯片設(shè)計(jì)上云的速石科技,在接觸了大量芯片公司后對(duì)此也深有體會(huì),速石科技技術(shù)總監(jiān)陳琳濤就說,“不同類型的公司對(duì)安全的要求所有不同,我們幫助客戶選定場景、上云的邏輯,在燧原這個(gè)項(xiàng)目里,基于騰訊和速石共建的一站式芯片研發(fā)平臺(tái)產(chǎn)品,使用的存算分離混合云這種部署方案,大大簡化了上云場景選擇和數(shù)據(jù)準(zhǔn)備過程,非常適用于先進(jìn)制程的公司?!?/p>
安全性一方面是對(duì)其設(shè)計(jì)代碼和數(shù)據(jù)的安全的擔(dān)憂,另一方面是對(duì)于整個(gè)芯片項(xiàng)目安全的擔(dān)憂。
“我們與騰訊云和速石的合作,首先只選擇了將仿真這一個(gè)點(diǎn)放在云上?!?燧原科技項(xiàng)目負(fù)責(zé)人Eli解釋,“我們需要把整個(gè)項(xiàng)目的風(fēng)險(xiǎn)控制在可控的范圍,這次把一個(gè)業(yè)務(wù)搬上云三方團(tuán)隊(duì)花了五六個(gè)月時(shí)間去實(shí)現(xiàn)。這是需要磨合的過程,通過一個(gè)項(xiàng)目起步,才能逐步擴(kuò)大使用的規(guī)模?!?/p>
那設(shè)計(jì)大芯片的燧原科技是怎么邁出第一步擁抱云計(jì)算的?
存算分離混合云架構(gòu),芯片設(shè)計(jì)上云的定心丸
真要打動(dòng)客戶,還得拿出真正能解決客戶問題的方案。
“基于安全性以及公司安全的考慮,燧原希望將所有的數(shù)據(jù)都放在本地,只有彈性計(jì)算的部分放在云上,并且中間數(shù)據(jù)不能存儲(chǔ)?!盋edric說,“在燧原的啟發(fā)和建議下,我們和速石一起,快速響應(yīng),最終給出了存算分離的混合云解決方案。”
騰訊云聯(lián)合速石科技給出的“存算分離”的混合云計(jì)算架構(gòu),能夠在保障核心代碼存儲(chǔ)在本地的前提下,通過云端調(diào)度平臺(tái)與本地計(jì)算集群打通,計(jì)算任務(wù)能夠靈活選取本地或云端算力隊(duì)列。這得益于混合云架構(gòu)以及存算分離優(yōu)勢的結(jié)合。
在混合云的架構(gòu)下,可以按研發(fā)提交作業(yè)的實(shí)際情況選擇最佳的算力隊(duì)列,對(duì)內(nèi)存敏感型任務(wù)選擇大內(nèi)存云主機(jī)隊(duì)列,對(duì)計(jì)算敏感型選擇裸金屬物理機(jī)隊(duì)列,滿足研發(fā)設(shè)計(jì)仿真過程中的彈性資源作業(yè)需求,縮短研發(fā)仿真周期。同時(shí),速石平臺(tái)的云原生調(diào)度器能不改變用戶的使用習(xí)慣,讓使用者無感地調(diào)用云資源,對(duì)資源的調(diào)用更加便捷,減少上云的學(xué)習(xí)成本。
“存算分離的方案在其它行業(yè)也有,但做法是在同一個(gè)自治域內(nèi)優(yōu)化存儲(chǔ)成本和計(jì)算效率。我們給燧原的方案是在兩個(gè)自治域,也就是混合云中一部分在云上,一部分在云下,云下的管理權(quán)限屬于燧原,能夠充分保證數(shù)據(jù)的安全性,云上的部分是騰訊云與速石一起做。”Cedric介紹。
“有了存算分離的混合云方案,芯片設(shè)計(jì)公司減少了數(shù)據(jù)流轉(zhuǎn)步驟,統(tǒng)一了數(shù)據(jù)安全訪問策略,在不改變?cè)葦?shù)據(jù)使用規(guī)范和要求的前提下,滿足了用戶的安全需求,對(duì)芯片設(shè)計(jì)上云起起到了積極推動(dòng)的作用?!标惲諠餐瑫r(shí)指出,
“此次存算分離解決方案,對(duì)混合云建設(shè)架構(gòu)要求很高,對(duì)網(wǎng)絡(luò)的時(shí)延、帶寬的吞吐率和效率都有更高要求,這對(duì)合作的三方都是挑戰(zhàn),但我們基礎(chǔ)騰訊云的IaaS,以API的方式調(diào)用騰訊云的資源,充分發(fā)揮我們的技術(shù)能力,搭建PaaS,共同實(shí)現(xiàn)了目標(biāo)?!?/p>
特別是針對(duì)芯片設(shè)計(jì)客戶最關(guān)心的安全問題,騰訊云通過一系列的安全技術(shù)和措施來贏得客戶的信任和降低對(duì)安全問題的擔(dān)憂。
Cedric還提到:“終端層面,騰訊云零信任安全的iOA的方案保障各地的研發(fā)工程師可以無縫地體驗(yàn)一致的仿真環(huán)境,同時(shí)確保終端安全。
傳輸層面,騰訊和燧原使用超大的帶寬的專線保障,確保整個(gè)傳輸通道的安全可信?!?/p>
云上,雖然混合云的架構(gòu)下云上沒有數(shù)據(jù),但騰訊云的主機(jī)安全保障整個(gè)計(jì)算環(huán)境是安全授信,能夠確保整個(gè)計(jì)算過程不會(huì)有入侵、數(shù)據(jù)泄露、勒索病毒等問題。
Vincent表示,存算分離的混合云方案,確實(shí)降低了我們對(duì)數(shù)據(jù)安全的擔(dān)憂,這次三方和合作是一個(gè)非常好的嘗試。
這也是一次充滿挑戰(zhàn),但結(jié)果喜人的嘗試。雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))了解到,騰訊云和速石科技?xì)v時(shí)6個(gè)月,前后投入超過50人天,進(jìn)行了為期1個(gè)多月壓力和穩(wěn)定性測試。最終,燧原此次仿真上云,總體任務(wù)并發(fā)量通過云端彈性同步提高,縮短仿真周期30%-50%,節(jié)省了可觀的IT投入的綜合效益。
燧原對(duì)于這次的嘗試也十分滿意。Eli說:“這次三方的合作,不僅讓我們享受到了騰訊云彈性的優(yōu)勢,也充分利用了速石平臺(tái)對(duì)業(yè)務(wù)場景的優(yōu)化和CAD能力,加快了整個(gè)項(xiàng)目的研發(fā)進(jìn)度,實(shí)現(xiàn)了成本的節(jié)省,找到了上云一個(gè)好的突破口和嘗試的方向。接下來我們更多的團(tuán)隊(duì)也會(huì)考慮上云。”
芯片設(shè)計(jì)上云勢不可擋
解決客戶最大的擔(dān)憂,還能帶來成本優(yōu)勢之后,芯片設(shè)計(jì)上云的趨勢更加明確。
“最近我們和許多芯片客戶推廣存算分離的混合云方案,很多客戶聽了之后非常感興趣,并且,已經(jīng)有幾家客戶同樣采用這個(gè)方案落地。” 速石科技大客戶經(jīng)理鄧雄偉透露。
存算分離混合云的方案很好,但其他情況的芯片客戶也有全云的方案選擇。
騰訊云高性能計(jì)算行業(yè)高級(jí)經(jīng)理Kevin說,“已經(jīng)有線下IDC資產(chǎn)的芯片公司,要利用已有的資產(chǎn),對(duì)安全也有更多的顧慮,這時(shí)候存算分離的混合云方案比較合適。但對(duì)于一些小型的初創(chuàng)公司,沒有線下IDC的存量資產(chǎn),或者對(duì)安全顧慮較少的公司會(huì)更擁抱云計(jì)算,這時(shí)候我們首推全云的方案,這樣成本更低,效率更高?!?/p>
當(dāng)下,無論是更適合混合云方案還是適合全云方案的公司都在積極了解芯片設(shè)計(jì)上云。
陳琳濤指出,“我們接觸最多的有兩類公司,一類是少于100人的初創(chuàng)公司,這類公司在3000多家中國芯片設(shè)計(jì)公司中占比超過八成,他們?cè)跀U(kuò)張業(yè)務(wù)的過程中,有很強(qiáng)的算力需求,需要大量IT或者我們這種研發(fā)云平臺(tái)能力支撐公司的業(yè)務(wù)輕量級(jí)快速擴(kuò)張。另一類就是像燧原這樣有自建IDC,設(shè)計(jì)大型芯片的公司,他們對(duì)資本的使用率有很高要求,在探尋混合云的方式。這兩類客戶在推進(jìn)的時(shí)候都非常有效?!?/p>
“芯片設(shè)計(jì)公司上云最近兩三年是蓬勃發(fā)展的階段,就像是五六年前世界500強(qiáng)上云的趨勢一樣,芯片設(shè)計(jì)公司上云也會(huì)經(jīng)歷這樣的過程?!标惲諠J(rèn)為。
身處數(shù)字化的浪潮中,傳統(tǒng)且成熟的芯片行業(yè)也正在迎來上云的浪潮中,芯片設(shè)計(jì)全流程上云是可以預(yù)見的趨勢,同時(shí)也可以看到,整個(gè)芯片產(chǎn)業(yè)鏈也都在擁抱上云。
Kevin還提到,高性能計(jì)算領(lǐng)域是一個(gè)可見的巨大潛力的藍(lán)海,除了芯片仿真,騰訊也會(huì)持續(xù)加大投入,布局更多比如云渲染、生命科學(xué)等多個(gè)高性能計(jì)算賽道。
在這樣的趨勢下,為什么不試試去云上設(shè)計(jì)芯片呢?
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。