0
本文作者: 李秀琴 | 2018-03-19 00:17 |
雷鋒網(wǎng)·AI金融評(píng)論按:目前,大多數(shù) ICO 不受政府法規(guī)的約束,交易平臺(tái)或機(jī)構(gòu)缺乏一套嚴(yán)密的評(píng)估體系,這也直接導(dǎo)致了 ICO 詐騙事件的層出不窮(注:典型案件可參考《史上最大ICO代投詐騙:帶頭人“李詩琴”疑跑路,涉案金額超6000萬元》了解)。日前,香儂科技創(chuàng)始人、斯坦福大學(xué)博士李紀(jì)為聯(lián)合美國加州大學(xué)圣塔芭芭拉分校、斯坦福大學(xué)共同提出了一種基于深度學(xué)習(xí)的加密貨幣 ICO 詐騙鑒別系統(tǒng)——IcoRating,以試圖改善這一局面。
據(jù)悉,IcoRating系統(tǒng)由李紀(jì)為和其團(tuán)隊(duì)基于 NLP 技術(shù)分析了市面上共 2251 種數(shù)字貨幣而得出。他們調(diào)查了這些數(shù)字貨幣的各個(gè)方面,包括生命周期、價(jià)格 變化和白皮書內(nèi)容、創(chuàng)始團(tuán)隊(duì)、Github 資料庫和官網(wǎng)等 ICO 信息,從而預(yù)測并實(shí)現(xiàn)了識(shí)別詐騙 ICO 項(xiàng)目的0.83的精確度。
對(duì)此,該團(tuán)隊(duì)在論文中表示:
我們希望這項(xiàng)工作能夠幫助投資者識(shí)別ICO詐騙項(xiàng)目,并自動(dòng)評(píng)估和分析ICO項(xiàng)目。
2017年,902個(gè)基于眾籌的數(shù)字貨幣中,45.6%已經(jīng)失敗
加密貨幣正獲得前所未有的關(guān)注和理解。與中心 化的電子貨幣和中央銀行系統(tǒng)不同,大多數(shù)數(shù)字法幣不受中央和地方機(jī)構(gòu)的監(jiān)管。對(duì)這些去中心化 的系統(tǒng)的控制,可通過一個(gè)開放、持續(xù)增長的分布式賬本——區(qū)塊鏈來實(shí)現(xiàn)。
如圖1所示,在過去 三年中,數(shù)字貨幣的市 場資本化程度得到了巨幅的提升。根據(jù) Cryptocurrency Market Capitalizations 提供的數(shù)據(jù),加密貨幣的單日最高交易量已接近2017年紐約證券交易所交易量的日平均值。
圖:2013年7月至2018年1月的數(shù)字貨幣市場資本化情況
由于其去中心化的本質(zhì),數(shù)字貨幣的眾籌融資并不需要具備風(fēng)險(xiǎn)投資的所有必要條件,而是通過 ICO 來完成。ICO,也稱為首 次代幣發(fā)售,是用區(qū)塊鏈將使用權(quán)和加密貨幣合二為一,來為開發(fā)、維護(hù)、交換相關(guān)產(chǎn)品或者服務(wù)的項(xiàng)目進(jìn)行融資的方式(注:參考“ICO”的維基百科)。
在 ICO 中,投資者用法 定貨幣(例如美元、人民幣)或其他加密貨幣(例如BTC、ETH)來獲得眾籌的加密貨幣。當(dāng) ICO 完 成后,這些用于眾籌的加密貨幣將具備貨幣的功能單位。新型幣種在發(fā)行前,一般會(huì)先準(zhǔn)備一個(gè)白皮書,以詳細(xì) 介紹這個(gè)幣種的商業(yè)性、技術(shù)性和金融性特征。
從圖2可以看出,ICO 項(xiàng)目的數(shù)量 從2013年7月到2017年1月一直呈現(xiàn)穩(wěn) 步增長的 態(tài)勢(shì),并在 2017 年突飛猛進(jìn)。
圖:2013年7月至2018年1月的ICO項(xiàng)目增長情況
盡管 ICO 能提供公平合法的投資機(jī)會(huì),但眾籌的便利也為一些不擇手段的企業(yè)通過 ICO 謀利創(chuàng)造了機(jī)會(huì)和激勵(lì)機(jī)制。群涌而起的 ICO,其中不乏一些項(xiàng)目發(fā) 起人以通過眾 籌抬高加密貨幣的價(jià)值,從而快速出售貨幣以獲利。除此之外,加密貨幣的去中心化本 質(zhì)也給政府監(jiān)管帶來了重大挑戰(zhàn)。
根據(jù)Engadget數(shù)據(jù)顯示,2017年,902個(gè)基于眾籌的數(shù)字貨幣中,45.6%已經(jīng)失敗。從圖3和圖4來看,還有一個(gè)更為嚴(yán)重的問題。
圖3和圖4中,x軸上的間隔代表(ICO)價(jià)格的變 化范圍,而y軸上的對(duì)應(yīng)值 則表示 ICO 項(xiàng)目貢獻(xiàn)的百分比??梢钥闯觯?/p>
4.56% 現(xiàn)有 ICO 項(xiàng)目在發(fā)行半年后都遭受了價(jià)格下跌,其程 度甚至超過 99.9%,而在發(fā)行一年后,這個(gè)比例上升到6.89%;
約有 29% 的項(xiàng)目在發(fā)行半年后,價(jià)格下跌了80%以上,一年 后,這個(gè)比例增長到驚人的 39.6%。
雖然這樣說可能有點(diǎn)不負(fù)責(zé)任——即每一個(gè)在發(fā)行后價(jià)格急劇下跌的 ICO 項(xiàng)目都是騙局,但在 ICO 前建立一個(gè)可靠的 ICO 信用評(píng)級(jí)系統(tǒng)來評(píng)估數(shù)字貨幣是必要而迫切的。
在這種情況下,李紀(jì) 為研究團(tuán) 隊(duì)提出了 IcoRating 這種基于機(jī)器學(xué)習(xí)的 ICO 評(píng)分系統(tǒng)。通過分析 2251 個(gè) ICO 項(xiàng)目,該團(tuán)隊(duì) 將數(shù)字貨幣 的生命周期 和價(jià)格變化以 及各種 級(jí)別的 ICO 信息(包括其白皮書、創(chuàng)始團(tuán)隊(duì)、Github 資料庫、網(wǎng)站等)相 關(guān)聯(lián)。在最佳設(shè)置 的情況下,該項(xiàng)目 能夠以0.83的精確度和0.80的F1分?jǐn)?shù)來識(shí)別ICO詐騙項(xiàng)目。
與人類設(shè)計(jì)的評(píng)分系統(tǒng)相比,IcoRating 系統(tǒng)具有兩個(gè)關(guān)鍵優(yōu)勢(shì):
客觀性:機(jī)器學(xué)習(xí)模型涉及的先驗(yàn)知識(shí)更少,可從數(shù)據(jù)中學(xué)習(xí)因果關(guān)系,這與需要大量人類專家的人類評(píng)級(jí)系統(tǒng)相反,而人 類專家不可避免會(huì)引入偏見。
不會(huì)被人為隨意篡改:信用評(píng)級(jí)的結(jié)果是通過黑盒培訓(xùn)從機(jī)器學(xué)習(xí)模型中輸出的。這個(gè)過程不用那么多的人員參與和干預(yù)。
加密貨幣、區(qū)塊鏈和ICO
在李紀(jì)為這篇論文的 第二個(gè)章節(jié)中,主要介紹了加密貨幣、區(qū)塊鏈和 ICO 的相關(guān)信息。如果密切關(guān)注幣圈和鏈圈的人士可能對(duì)這三個(gè)概念已諳熟于心。
1、加密貨幣
加密貨幣是“一種數(shù)字資產(chǎn)”,被視作交易媒介,通過加密技術(shù)以確保交易。大多數(shù)加密貨幣是去中心化的。第一個(gè)真正意義上的去中心化加密貨幣是比特幣(也稱BTC),由一個(gè)或一群不明身份的人在 2009 年以 Satoshi Nakamoto(中本聰)之名創(chuàng)建。自 BTC 出現(xiàn)以后,各種加密貨幣蜂擁而至,其中最知名的包括 Ethereum(簡稱ETH)、Ripple(簡稱RIP)、EOS 和 NEO。
2、區(qū)塊鏈
加密貨幣的交易由區(qū)塊鏈提供驗(yàn)證。人們可以將區(qū)塊鏈視為分布式賬本。它可以不斷增長并永久紀(jì)錄雙方之間的所有交易。每條紀(jì)錄都稱為一個(gè)區(qū)塊,包含鏈接到前一個(gè)區(qū)塊、時(shí)間戳和交易數(shù)據(jù)的加密哈希指數(shù)。該賬本以分布形式被所有參與者擁有,且記錄只能在改變所有后續(xù)網(wǎng)絡(luò)區(qū)塊的情況下得到更改。當(dāng)交易發(fā)生時(shí),會(huì)廣播給網(wǎng)絡(luò)中的所有節(jié)點(diǎn)。區(qū)塊鏈?zhǔn)褂枚喾N時(shí)間戳方案,如 PoW(工作證明)或 PoS(股權(quán)證明)。
區(qū)塊鏈的概念消除了數(shù)據(jù)集中存儲(chǔ)而帶來的風(fēng)險(xiǎn):沒有集中的故障點(diǎn),數(shù)據(jù)對(duì)每個(gè)參與者都是透明的。
3、ICO
如前所述,ICO 是以加密貨幣為中心的眾籌融資手段,其可為早期項(xiàng)目提供眾籌機(jī)會(huì),逃避風(fēng)險(xiǎn)投資家、銀行和證券交易所規(guī)則的限制。它們還提供了超越風(fēng)險(xiǎn)投資或私募股權(quán)投資的投資機(jī)會(huì),二者是早期投資機(jī)會(huì)的主導(dǎo)。
另一方面,由于缺乏監(jiān)管,ICO 給投資者帶來了重大風(fēng)險(xiǎn)。不同國家對(duì) ICO 和加密貨幣有不同的規(guī)定。例如,中國政府禁止所有 ICO,而美國證監(jiān)會(huì)(SEC)則表示它有權(quán)對(duì) ICO 施行聯(lián)邦證券法,而委內(nèi)瑞拉政府則推出了自己的加密貨幣petromoneda(簡稱石油幣)。
IcoRating系統(tǒng)驗(yàn)證過程、方法
1、白皮書分析:內(nèi)容差異巨大
在 IcoRating 系統(tǒng)的驗(yàn)證過程中,該研究團(tuán)隊(duì)從各種平臺(tái)包括 CryptoCompare、CoinMarketCap和CoinCheckup一共收集了2251個(gè) ICO 項(xiàng)目信息。并在這些項(xiàng)目中獲得了 1317 份白皮書。
表1:ICO白皮書的各項(xiàng)統(tǒng)計(jì)數(shù)據(jù)
如表1所示,其顯示了 ICO 白皮書的各項(xiàng)統(tǒng)計(jì)數(shù)據(jù),包括平均值、標(biāo)準(zhǔn)差,最大和最小字?jǐn)?shù)和句子數(shù)。研究團(tuán)隊(duì)從中得出一個(gè)顯著特征 ,白皮書的長度差異明顯。最多的一份白皮書中包含 6228 個(gè)句子,最少 38 個(gè)。具體地說,隨機(jī)抽樣的 10 份白皮書中的句子數(shù)量分別為886、143、38、967、3379、6228、496、2057、3075 和 298。雖然白皮書的篇幅不一定能反映 ICO 項(xiàng)目的質(zhì)量,但從中也能看出 ICO 白皮書內(nèi)容的巨大差異。
李紀(jì)為研究團(tuán)隊(duì)在收集而來的 白皮書上運(yùn)行了一個(gè)隱含狄利克雷分布(Latent Dirichlet Allocation:簡稱LDA)模型。LDA 是一種生成 性的統(tǒng)計(jì)模型,可以將文檔集中每篇文檔的主題并以概率分布的形式給出,從而通過分析一些文檔抽 取出它們的主題(分布),便可以根據(jù)主題(分布)進(jìn)行主題聚類或文本分類。同時(shí),它是一種典型的詞袋模型,即一篇文檔是由一組詞構(gòu)成,詞與詞之間沒有先后順序的關(guān)系。
2、IcoRating:一個(gè)基于機(jī)器學(xué)習(xí)的評(píng)級(jí)模型
在描述創(chuàng)始團(tuán)隊(duì)信息時(shí),研究團(tuán)隊(duì)的數(shù)據(jù)以下述信息為藍(lán)本:
Justin Sun,生于1990年,本科畢業(yè)于北京大學(xué),碩士 畢業(yè)于賓夕法尼亞大學(xué),是移動(dòng)社交應(yīng)用陪我和 TRON 的創(chuàng)始人兼 CEO,Ripple 大中華區(qū)的前首席代表。獲 2011 年亞洲周刊封面人物;2014年達(dá)沃斯全 球杰出青年;2015年 CNTV 年度新人物;2017年福布斯亞洲 Under30 企業(yè)家...
研究人員的目標(biāo)是自 動(dòng)從創(chuàng)始團(tuán)隊(duì)成員中提取 最重要的特征,并將其視為 NLP 標(biāo)簽問題。為此,他們定義 了5類標(biāo)簽:出生年份、大學(xué)、學(xué)位、公司和所獲獎(jiǎng)項(xiàng),并將數(shù)據(jù)集分為不同種類進(jìn)行培訓(xùn)、開發(fā)和測試。
IcoRating 對(duì) ICO 項(xiàng)目使用的知識(shí)非常少,但卻能夠從真實(shí)世界中收集的數(shù)據(jù)集中學(xué)習(xí)到各個(gè)功能的重要性。
如前所述,IcoRating 是一個(gè)基于機(jī)器學(xué)習(xí)的評(píng)級(jí)模型。它使用的是 監(jiān)督學(xué)習(xí)模型。在標(biāo)準(zhǔn)監(jiān)督學(xué)習(xí)設(shè)置中,研究人員希望找到模型 F,可使輸入 x 映射至輸出 y:
這個(gè)公式中,輸入“x”代表“一個(gè) ICO 項(xiàng)目”,其中包括公開可 用信息的不用方面;輸出“y",該值介于0到1之間,是一個(gè)二進(jìn)制 變量,用于 指示該 ICO 項(xiàng)目是否為 詐騙項(xiàng)目;“F”代表預(yù)測函數(shù)。
在訓(xùn)練期間,我們將 ICO 項(xiàng) 目一年的價(jià) 格變化作為訓(xùn)練的信號(hào),試圖通過已知的 ICO 信息來預(yù)測其價(jià)格變化。預(yù)測函數(shù) F 由最大化預(yù)測 ICO 價(jià)格變化和黃金標(biāo)準(zhǔn)價(jià)格變化之間的L2差異來學(xué)習(xí)。
其中,在收集到的 2251 個(gè)項(xiàng)目中,研究人員收集了 1482 個(gè)項(xiàng)目的歷史價(jià)格,且這些 ICO 項(xiàng)目至少實(shí)行了一年及以上(截止到本研究進(jìn)行時(shí))。
在測試期間,F(xiàn)(x)可預(yù)測 價(jià)格變化,如果預(yù)測價(jià)格低于其 ICO 價(jià)格的“m”值,則可認(rèn)為該項(xiàng)目為詐騙。在本次研究中,研究人員根 據(jù)要求將“m”設(shè)置為 0.01、0.1和1。
IcoRating測試結(jié)果
測試結(jié)果通過不同的特征組 合來識(shí)別 ICO 詐騙項(xiàng)目的結(jié)果,這些組合由白皮書、Github 資料庫、創(chuàng)始團(tuán)隊(duì)、網(wǎng)站這四個(gè)特征任意組合而呈。
隨著 “m” 值從0.01增加到0.1,再增加到1,詐騙項(xiàng)目的比例逐漸增加,精度逐漸提高,召回率也在逐漸降低。
最終測試結(jié)果顯示,白皮書 和 Github 資料庫是最 重要的兩 類特征。在 “m” 被設(shè)置為0.1和0.5時(shí),其獲得的 F1 分?jǐn)?shù)均為0.7。通過增加更多的特征,研究人員得到了更高的精確度和更低的召回率。當(dāng)將所有特征組合考慮進(jìn)去時(shí),IcoRating 模型在“m值被設(shè)置為1”時(shí),其預(yù)測的 ICO 詐騙項(xiàng)目 實(shí)現(xiàn)了0.83的精確度、0.77 的召回率和 0.80 的 F1 分?jǐn)?shù)。
雷鋒網(wǎng)·AI金融評(píng)論注:該篇論文來自于https://arxiv.org/pdf/1803.03670.pdf,雷鋒網(wǎng)·AI金融評(píng)論對(duì)其進(jìn)行重點(diǎn)編譯。
——————全文完——————
【今日福利】
比特幣等虛擬貨 幣的波動(dòng)性總是出乎 人意料,資本和人心難以捉摸,但價(jià)格的另一 影響因素卻樸素得多——技術(shù)和應(yīng)用 價(jià)值。這也是2017年區(qū)塊鏈行業(yè)的關(guān)鍵詞。過去的一年,在眾多大小公司涌入?yún)^(qū)塊鏈,POC 項(xiàng)目和 代幣遍地開花的同時(shí),也有一些先行者呼吁,“不要為了區(qū)塊鏈而區(qū)塊鏈”。
技術(shù)的發(fā)展 永無止境,在這條探索的道路上,我們看到的不只是尸骨,還有正在建造的座座豐碑。2017年,雷鋒網(wǎng)曾與數(shù)十家區(qū)塊鏈行業(yè)傳統(tǒng)企業(yè)、新創(chuàng)公司進(jìn) 行對(duì)話,并報(bào)道?,F(xiàn)在我們選取了其中8家代表性機(jī)構(gòu)的實(shí)踐 案例,包括工商銀行、招商銀行、平安集團(tuán)、銀聯(lián)、螞蟻金服等,匯編成特輯報(bào)告。除此外,還有20+智能金融公司案例,涵蓋普惠金融、風(fēng)控信貸、財(cái)富管理等議題。
以下為特輯部分目錄:
● 世界經(jīng)濟(jì)論壇報(bào)告:全方位評(píng)估 Fintech 將如何顛覆金融業(yè)競爭格局,包括路徑、模式和終局
● 前瑞銀大牛:區(qū)塊鏈如何變革傳統(tǒng)金融兩大應(yīng)用模式?
● 區(qū)塊鏈+金融,帶你直擊實(shí)踐應(yīng)用中的需求和痛點(diǎn)
● 比特幣、以太坊、區(qū)塊鏈、代幣、ICO,你需要知道的一切都在這了
....
戳這里( http://www.ozgbdpf.cn/specialEdition/detail/s/5a4c9564b9e38),查看雷鋒網(wǎng) Fintech 年度特輯全文。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。