0
地球自轉一圈需要24小時,那么你知道脈沖星(不斷發(fā)出脈沖信號的中子星)自轉一周需要多久嗎?
答案是:按秒計算。
即便是目前發(fā)現轉速“最慢”的脈沖星(編號J0250+5854),它自轉一周可能也只需要23秒。而轉速快的脈沖星,它可能在你一眨眼的功夫就已經偷偷跑了幾十個轉了。
因而,我們人類用肉眼是很難直觀感受到脈沖星的頻率。約定俗成的手段是,利用射電天文望遠鏡對脈沖星發(fā)出的射電信號特征進行提取,然后將這部分特征通過二維空間的方式表達出來。科學家通過對這些數據進行相應的追蹤觀測,才能夠發(fā)現脈沖星的痕跡。
但這一切帶來的工作量都太大了。
2021世界人工智能大會期間,馬化騰宣布了騰訊與國家天文臺的合作,雙方合作的項目,主要是借助騰訊云的計算、存儲能力與騰訊優(yōu)圖實驗室AI算法的能力,為中國天眼FAST尋找脈沖星提速。
一家是互聯網公司里的實驗室,一家是從事基礎科研的天文臺,如何開啟探星業(yè)務?
找星星的人
中國科學院國家天文臺研究院、FAST首席科學家李菂向雷鋒網透露,雙方合作期間已經被驗證的新脈沖星已經有5顆了。
讓人興奮的數字。
實際上,這場興奮最初源于1967年和1993年的兩次脈沖星觀測發(fā)現,其意義引發(fā)了全世界天文學家對脈沖星探索的強烈熱情。
而在中國天眼落成之前,中國的望遠鏡和中國工作的科學家從來沒有發(fā)現過新的脈沖星。
2016年9月,全球最大的500米單口徑球面射電望遠鏡FAST落成,也就是我們如今常說的“中國天眼”。
過去幾年,僅中國天眼FAST一家就已經觀測到近350顆脈沖星,占全球已發(fā)現脈沖星總數(近3000顆)的十分之一。
可以說,中國科學家在利用天眼作為天體設備搜尋脈沖星方面,已經具備一定的領先性和成熟經驗。
而這一領先性有望被再度提升。
2021年,騰訊優(yōu)圖實驗室主動找到李菂老師團隊,希望能利用騰訊自身在AI算法、計算資源調度等方面的優(yōu)勢,為航天探星做出一些努力。
經過前期的一系列交流和探索后,雙方很快就在春節(jié)后正式確立了項目:即利用 AI 幫助中國天眼 FAST 處理每天接收到的龐大數據量,并通過視覺 AI 分析找到脈沖星線索。
李菂老師告訴雷鋒網:
“首先,科學家捕捉到的脈沖星發(fā)出的射電信號,其實是一個對電磁場的高速采樣。通過信號處理和頻譜分析,得到的是一個視頻流,也就是動態(tài)譜。衡量的一個維度是時間,另一個維度是頻率。不過,這種頻率非???,通常人眼和人腦是沒有辦法處理的,實際上包括計算機視覺,如今處理的絕大多數情況是靜態(tài)的照片。
從70年代脈沖星首次被驗證時,大家就在沿用類似的方式,將視頻流一段一段截取出來,但截出來的采樣量還是太大了。因此,我們需要再做進一步的信息提取,最終會形成各種類型的特征圖,給科研工作者進行判斷?!?/p>
復雜的圖像數據
優(yōu)圖實驗室在這個過程中做的,其實就是將交給科研工作者判斷的特征圖,交給機器來處理判斷。當然這部分特征圖也是經過處理后的適合計算機視覺領域處理的圖像數據。
騰訊優(yōu)圖實驗室副總經理黃飛躍向雷鋒網指出:
“一般來講不管是人眼還是機器視覺都有可能漏掉(星星)。但首先漏掉了可能我們也沒有辦法知道;其次我們現在更多關注的是準確率,畢竟要處理的數據量太大了,存量數據都還沒有處理完?,F在首要是先把容易找的先找到,漏掉一些沒有關系,之后再進行進一步的細篩?!?/p>
這個過程就好比是粗篩和預處理,利用AI的方式解決掉(如針對缺少標注數據問題,采用了小樣本學習、遷移學習方法),然后留下的少部分樣本,再經過人工再次比對確認。從整個流程的效率和識別的準確率上都有比較高的提升。
從結果來看,FAST一周產生的數據,大約相當于3000 萬張信號圖。如果以人工肉眼按照 1 張/秒速度,在不吃不喝不休息的條件下,需要用一年的時間。如果通過 AI 處理,只需要 3 天時間就可以處理 FAST 的 1 個月數據,極大的節(jié)省了人工時間成本。
從磨合到共同促進
在與優(yōu)圖實驗室合作之前,并不代表天眼FAST沒有嘗試過與機器學習等交叉學科的探究。
“雖然我們是基礎學科,但它與工業(yè)界能夠做到的技術是息息相關的。實際上,有一小部分關鍵技術是從基礎研究的需求里提出的,這是一個相互促進的過程。”李菂說道。
例如,FAST團隊就已經普遍在嘗試使用AI技術,FAST團隊中的一位研究員,在2014年就已經利用深度學習模型找到了脈沖星。但問題就在于團隊一般只能獲得到一些公共的工具,他們缺乏的正是具備底層開發(fā)的專業(yè)研發(fā)人員和能力。
而與之磨合的優(yōu)圖實驗室其實也不乏有天文愛好者,甚至有研究員此前曾針對天文信號分析做過研究。再后來,團隊愈加意識到計算機視覺等AI技術對天文臺探星工作的可能性。
在黃飛躍看來,“在騰訊內部有很多的項目是自下而上進行的,很多很小的團隊其實是因為興趣而產生。如果說之前我們解決的是生存問題,現在我們解決的是情懷問題?!?/p>
騰訊優(yōu)圖實驗室定位于應用與研究兩步走:一是在計算機視覺技術的產業(yè)落地;二是有更多科研性的探索。出于這樣的初衷,實驗室內部會不定期挖掘、探索新的方向。
或許,正是因為這樣的機緣為雙方接下來的合作做了良好鋪墊。
實驗室也要理解用戶
此次大會,我們明顯還看到一個信號:優(yōu)圖實驗室在AI的規(guī)?;矫骈_始形成自己的節(jié)奏。
過去很長一段時間里,互聯網大廠的AI實驗室更強調對前沿技術的探索,單純拼科研成果,而不是經濟效益。
大會現場,騰訊云副總裁、騰訊優(yōu)圖實驗室總經理吳運聲宣布推出TI ONE、TI Matrix、TI DataTruth三大AI底層平臺,包括算法開發(fā)、模型訓練、數據標注和數據處理等一系列開發(fā)能力。目前騰訊云已經開放超過300項人工智能的能力,超過50個人工智能解決方案。
據騰訊官方介紹,TI ONE提供了一套從數據處理、算法開發(fā)、模型訓練、模型自動調優(yōu)到模型在線推理服務、離線批量預測發(fā)布的一站式 AI 開發(fā)平臺;TI Matrix靈活組合多項AI關鍵能力,打通了AI從模型到業(yè)務落地“最后一公里”;TI DataTruth是一款數據標注平臺,可提升數據采集和數據標注能力。
從列舉的一些案例中,不難發(fā)現:從過去的消費互聯網領域,到如今工業(yè)、金融、傳媒等產業(yè)互聯網領域,都已經有了騰訊優(yōu)圖落地的身影。
在吳運聲看來,過去幾年騰訊優(yōu)圖在落地產業(yè)的改造上更像是“打了一些釘子,這是必要的,但也都是單點,想要形成規(guī)?;€是有一定難度的?!?/p>
這說明:實驗室更加從用戶視角開始理解問題。
在會后的媒體對話中,吳運聲提到,
“目前技術落地到行業(yè)的一個很大挑戰(zhàn)就是行業(yè)知識的不了解。在過去,很多AI科研人員如果不了解行業(yè),做出來的東西跟行業(yè)的需求始終有一個隔閡在。比如我們內部實驗室評測的各項指標都很好,但就是很難落地到行業(yè)。因此,我們需要跟隨行業(yè)專家進行非常深入的迭代性交流和技術解決,才能讓實驗的結果變得真正可用?!?/p>
當科研與應用不再沖突
與之相呼應的是,與上述天眼FAST項目的合作,其實是騰訊科技向善的一個標桿案例。
這與我們所在乎的AI助力行業(yè)究竟是不是一種矛盾?
吳運聲表示,“騰訊做每一件事情不一定都是要考慮短期的經濟價值,還要考慮對社會價值的長遠影響。實際上,與天文臺的交流與合作中,我們也會發(fā)現,利用多模態(tài)技術解決探星問題是一個比較好的思路。實際上這對我們自身的底層技術得到打磨也會帶來良好的影響?!?/p>
其實,觀察騰訊各大科技實驗室近段時間的表現,你會發(fā)現:它們開始主動出擊,頻繁與云業(yè)務等各部門聯動起來,作為整體解決方案打包出去的同時,也會為了落地要行業(yè)、要場景,為了規(guī)?;性颇芰Φ闹巍?/p>
仰望星空,但同時也要腳踏實地。實打實地看到些效果、成果,才是激勵這群科研工作者的最強動力。
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。