a new ai cloud computing service, powered by blockchain ... ·...

57
A new AI cloud computing service, powered by blockchain technology Q2 2018

Upload: others

Post on 22-Jun-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: A new AI cloud computing service, powered by blockchain ... · 實作困難、開發成本過高、必須購買強大硬體設備、算力不足等。 以個人或實驗室為例,想自行建構分散式運算系統,即便使用已開發良好

A new AI cloud computing service, poweredby blockchain technology

Q2 2018

Page 2: A new AI cloud computing service, powered by blockchain ... · 實作困難、開發成本過高、必須購買強大硬體設備、算力不足等。 以個人或實驗室為例,想自行建構分散式運算系統,即便使用已開發良好

目錄1. 理念與使命 ..............................................................................4

2. 序論 .......................................................................................5

2.1 什麼是AIgatha...............................................................6

2.2AIgatha的核心理念.........................................................6

2.3AIgatha想做什麼 ............................................................7

2.4 市場痛點........................................................................8

2.4.1 數位幣挖礦的生態 ..................................................9

2.4.2 大數據運算的生態:以科學應用為例..........................9

2.4.3 分散式運算的瓶頸 ................................................11

2.4.4 雲端運算的隱憂 ...................................................11

2.4.5 人工智慧的困境 ...................................................12

2.5 技術總覽.......................................................................13

2.6 智能合約.......................................................................17

2.7 技術連結.......................................................................17

2.8 我們將為世界帶來些什麼.................................................18

3. AIgatha 技術 ........................................................................19

3.1 分散式運算服務(DistComp@Home).................................20

3.2DistComp應用程式接口(API).........................................21

3.3 人工智慧服務平台 (iMLOv)..............................................23

3.4iMLOv實際的預測結果畫面 .............................................25

3.5iMLOv網站服務介面......................................................26

Page 3: A new AI cloud computing service, powered by blockchain ... · 實作困難、開發成本過高、必須購買強大硬體設備、算力不足等。 以個人或實驗室為例,想自行建構分散式運算系統,即便使用已開發良好

4. 發展路線圖 ............................................................................27

4.1LUCA..........................................................................28

4.2Pangu..........................................................................30

4.3IChing.........................................................................34

4.4Xirang.........................................................................37

4.5 使用者的介面.................................................................39

5. 以往的技術應用案例 ................................................................42

5.1 高效率蛋白質結構比對系統 ..............................................43

5.2CPred..........................................................................45

5.3CirPred........................................................................47

5.4imSuper......................................................................48

附錄 A:人工智慧 Case ..............................................................50

範例一:PredictingSurvivalontheTitanic..........................51

範例二:BreastCancerWisconsinDataSet..........................52

範例三:MortalityOutcomesforFemalesSuffering

MyocardialInfarction............................................53

附錄 B:iMLOv .......................................................................54

Page 4: A new AI cloud computing service, powered by blockchain ... · 實作困難、開發成本過高、必須購買強大硬體設備、算力不足等。 以個人或實驗室為例,想自行建構分散式運算系統,即便使用已開發良好

4

我們相信,讓懷抱美善創意的人們都能更容易實現夢想,這世界會更快地邁向美好。

使命MISSION我們的使命,是要讓每個有理念的人都能加速實現創意,推動文明的進

展。憑藉強大的區塊鏈算力、極簡化的分散式運算與人工智能平台和公平多贏的合作模式,讓創意的設計者、算力的提供者與平台的開發者都能獲得充分的報償與成就感。

願景VISION我們的願景,是成為分散式運算和人工智能的領導品牌,為個人與企業

提供強大的科技支援。

1. 理念與使命

Page 5: A new AI cloud computing service, powered by blockchain ... · 實作困難、開發成本過高、必須購買強大硬體設備、算力不足等。 以個人或實驗室為例,想自行建構分散式運算系統,即便使用已開發良好

2.序

Page 6: A new AI cloud computing service, powered by blockchain ... · 實作困難、開發成本過高、必須購買強大硬體設備、算力不足等。 以個人或實驗室為例,想自行建構分散式運算系統,即便使用已開發良好

6

2.1 什麼是 AIgatha

2.2 AIgatha 的核心理念

Algatha之命名發想於電影「關鍵報告」(TheMinorityReport)。電影中的未來世界,所有犯罪事件都可被預測並防止,全仰賴警方的高科技「先知預視系統」。此系統結合了三位基因突變的超能力者,其中,女孩阿嘉莎(AgathaLively)是預測能力最強的先知。先知們的預知結果被高科技設備讀取分析,警方藉此預防犯罪,人們也非常愛戴他們。

Algatha團隊並沒有超能力,卻有長年的人工智慧開發經驗。雖然電影中的犯罪預防確實可以是人工智慧的應用,Algatha的目標卻是更全面的:我們希望透過人工智慧,為人們實現各種創意、解決生活中的疑難雜症。放眼當下,人工智慧的應用往往仰賴高深的資訊能力與昂貴硬體,導致科技資源主要掌握於少數科研單位或財力雄厚的團體。

我們認為,任何有理念的人都不該被海量資料的運算延宕成長,也不該因昂貴的硬體苦惱。我們開創,簡單的執行平台,讓人人能擁有自行研發與解決問題的能力。我們相信,人工智慧可以不僅是口號、不僅是少數人掌握的技術。我們預見,人工智慧能紮實地運用在日常生活,為人們解決多元化的問題,讓每個人都有能力成為「先知」。

AIgatha團隊的系統設計與開發理念有三:

資源平等:讓科技資源更均衡地共享,使每個有理念的人都能加速實現創意,不再受限於昂貴硬體與緩慢的運算速度。

重視個人:AIgatha是個平民化的分散運算與人工智能平台,讓小螞蟻可以挑戰大象,任何個人都不再需要專業的技術部門支援,便擁有快速開發演算法、精準分析與預測問題的能力。

簡單實用:系統簡單、介面平易、功能實用。

Page 7: A new AI cloud computing service, powered by blockchain ... · 實作困難、開發成本過高、必須購買強大硬體設備、算力不足等。 以個人或實驗室為例,想自行建構分散式運算系統,即便使用已開發良好

7

2.3 AIgatha 想做什麼創意,推動了文明進展與科技進步。實現創意,需要足夠資源。隨著社會

分工細緻化,實現創意所需要的資源往往越趨複雜昂貴且分配不均。現代社會,處處充滿商機,創意人人可有,但能否實現就看誰先掌握資源。另一方面,隨著文明進展與全球公民意識覺醒,許多議題愈發受重視,如能源、糧食、氣候、環保、疾病等,許多有理想的人開始為這些議題投注創意、尋求解答,然而,好的理念能否實現,往往仍取決於掌握多少資源。

分散式運算與人工智慧,是能幫助人們實現創意的關鍵科技。然而,小至個人投資大至全球化議題的創意,現今往往只有少數公司如Google、Amazon、Facebook等或專業科研單位擁有充足的硬體算力與軟體技術能快速實現。一些有理念的個人或中小企業常因為缺乏資源,眼看著好創意被人先實現。

我們希望讓任何人都擁有自主研發與實現創意的能力,提升人們的生活品質,並協助全球文明進展。AIgatha團隊致力於透過區塊鏈技術,建立任何人都可輕易使用且高效、安全的分散式運算系統與人工智慧平台,讓使用者快速實作創意。透過我們的區塊鏈資源共享機制,人人都可提供電腦設備來協助解決世界上各種議題,獲得成就感與實質收益,讓礦工在維護區塊鏈的同時,也為改善世界盡份心力。

AIgatha的分散式運算系統DistComp@home與人工智慧平台iMLOv已發展多年,並實際運用在許多科學研究中,如:iSARST、CPSARST、DS-SARST、CPred、CirPred、imSuper。我們有信心,將多年來熟稔的核心技術推展至廣大的區塊鏈上,建立屬於每個人的創意項目運算區塊鏈。我們由衷相信,實現每個人的一小步,將成就世界的巨大進步。

Page 8: A new AI cloud computing service, powered by blockchain ... · 實作困難、開發成本過高、必須購買強大硬體設備、算力不足等。 以個人或實驗室為例,想自行建構分散式運算系統,即便使用已開發良好

8

2.4 市場痛點區塊鏈是目前非常熱門的議題,許多人在區塊鏈上發展應用。AIgatha目

標是將分散式運算與人工智慧結合到區塊鏈上,下方我們整理目前各議題已存在的問題。

Page 9: A new AI cloud computing service, powered by blockchain ... · 實作困難、開發成本過高、必須購買強大硬體設備、算力不足等。 以個人或實驗室為例,想自行建構分散式運算系統,即便使用已開發良好

9

2.4.1 數位幣挖礦的生態比特幣是中本聰於 2009 年 1 月 3日,基於區塊鏈技術所創立的電子現金

系統。比特幣是目前知名度與市場總值最高的加密貨幣。任何人皆可通過電腦運算來參與比特幣活動,這樣的行為稱為「挖礦」。由於比特幣網路會將所有的歷史交易紀錄都儲存在區塊鏈中,比特幣的交易就像是在區塊鏈的共同帳本上「記帳」。使用電腦裝置挖礦,並保障比特幣區塊鏈持續運作的人被稱為「礦工」。

截至今日,比特幣挖礦之電力消耗已超越162個國家的單年電力消耗總和。據"BitcoinEnergyConsumptionIndex"統計,截至12月19日,比特幣過去一年挖礦的電力總消耗已累計達35.14兆瓦小時(TWh),約占全球總電力消耗的0.16%;相當於供應320萬戶美國家庭的電力,若全球的比特幣礦工自成一國,該國的電力消耗排名可排到全球第59名。也有報告指出,若比特幣的能源消耗持續以每月 30%的速度成長,預計到 2020 年 2月,比特幣挖礦的電力消耗就會超過目前全球總電力消耗,也就是22,383兆瓦小時。屆時,全球將面臨無電力可用的困境。

長久以來,礦工挖礦是為了維護區塊鏈的運作而付出大量的運算與電力。這樣的情況不禁讓我們思考,在礦工維護區塊鏈運作的同時,是否能賦與更多價值。因此,AIgatha在設計之初,便希望為礦工與世界建築起互益的橋樑。

2.4.2 大數據運算的生態:以科學應用為例近年來,由於科技的進步,硬體設備發展成熟,使得繪圖處理器(GPU)

比過去有更好的能耗比與性價比,因此,在某些領域,GPU的使用率逐漸取代傳統的中央處理器(CPU)。以往需要高性能計算系統的分子動力模擬程序,因為高性能計算領域突飛猛進而大有斬獲。但可惜的是,不管在哪個國家、哪個學術領域,龐大的運算資源往往只掌握在少數頂尖的實驗室。

Page 10: A new AI cloud computing service, powered by blockchain ... · 實作困難、開發成本過高、必須購買強大硬體設備、算力不足等。 以個人或實驗室為例,想自行建構分散式運算系統,即便使用已開發良好

10

早在十多年前,由加州大學柏克萊分校電腦學系發展出的分散式運算系統BONIC(BerkeleyOpenInfrastructureforNetworkComputing,即「柏克萊開放式網路計算平台」),就已經設立可以讓自願者為科學議題貢獻電腦算力的平臺,其目的是集合世界上閒置的電腦,為該平臺上的科學專案分擔龐大的計算量。然而,因為協助運算並不能為自願者帶來實質獲利,所以即便經過了十多年,平臺上的總算力卻仍顯低弱。

反觀區塊鏈之數位貨幣交易,由於礦工分享算力後自身能有收益,所以凝聚了大量礦工來支持算力。以比特幣為例,目前全網算力是BOINC的 565 萬倍。AIgatha將在區塊鏈上實作分散運算系統,建立以項目運算為導向的區塊鏈體系,將大部分算力轉移至各類大數據分析與科學運算上,以期加快人類文明的進展速度。

Page 11: A new AI cloud computing service, powered by blockchain ... · 實作困難、開發成本過高、必須購買強大硬體設備、算力不足等。 以個人或實驗室為例,想自行建構分散式運算系統,即便使用已開發良好

11

現行的分散式運算系統面臨到一些挑戰,在開發層面主要的問題包括自行實作困難、開發成本過高、必須購買強大硬體設備、算力不足等。

以個人或實驗室為例,想自行建構分散式運算系統,即便使用已開發良好的套件如ApacheHadoop或ApacheSpark,使用者仍須具備專業的程式設計能力。不僅技術門檻高,還要花費大量時間,而且往往沒有足夠資金購買大量電腦以提供龐大算力。以中小企業來說,即便跨過了建置技術門檻,也不容易隨著日益龐大的數據量與運算複雜度而持續添購設備,況且設備的維護與汰換等都需要成本。以上種種,使得自行開發所要負擔的風險與金錢相當巨大。

2.4.4 雲端運算的隱憂近來年,Amazon、Google、IBM和Microsoft等企業,在雲端產業爭

相佈局,採用雲端運算帶來許多便利,但也有一些問題。以下是幾個採用雲端運算常見的隱憂:

1.機密洩露:機密資料儲存於服務供應商,公司無法掌控其安全性。這包含了專利侵權、數據模仿,抄襲和複製等將嚴重損害公司利益的可能性。

2.營運依賴:公司的 IT 系統需架構在服務供應商的硬體設備裡,這代表公司所承擔的 IT風險(Informationtechnologyrisk)將不可控制。而日後公司 IT 系統若不再委外,系統移植也是一大問題。

3.服務計價:服務供應商需投入新的硬體資源並持續開發軟體來保持市場競爭力,相關成本將反應在服務計價上,對僅使用輕量運算的用戶而言,雲端運算價格並不友善。

2.4.3 分散式運算的瓶頸

Page 12: A new AI cloud computing service, powered by blockchain ... · 實作困難、開發成本過高、必須購買強大硬體設備、算力不足等。 以個人或實驗室為例,想自行建構分散式運算系統,即便使用已開發良好

12

近年來由於人工智慧的盛行,讓許多企業開始重視這領域。但人工智慧在硬體、軟體、服務都正在處於發展中,還有很大的待成長空間。就硬體開發來看,新創公司若想生產人工智慧應用的客製化晶片,或設計專用化的硬體,往往要歷時好幾年才能上市;而若是要設計應用層面比較廣的通用型晶片,其晶片效能通常較弱,可能無法與大公司競爭。如果所設計的硬體是用在深度學習類的演算法,因為涉及大量平行計算,會產生過度耗電的問題。

就軟體開發而言,技術門檻極高,需要專門的程式設計人員,還需要大量的硬體設備來支持算力,個人或小型研發團隊往往難以負荷。若使用雲端服務,微軟、Google 等大公司所提供的人工智慧解決方案,通常是為大型企業提供協助,較少為個人、實驗室或中小企業做課製化服務。在微軟待了十年,負責發展微軟語音助理Cortana的杜奕瑾,曾表示微軟、Google 等大公司,不為十億美元以下、太小的垂直市場的領域提供解決方案。

因此,我們認為這是一個機會,對於缺乏算力或是沒有辦法自行開發人工智慧演算法的人,AIgatha提供一個簡單易用的人工智慧服務平台,讓每個人都能簡單從事大量數據分析預測,不僅大幅節約開發成本,並能快速有效地提高做決策的精準度。

凡此種種,我們深刻認識到市場上的既有問題,做為解決之道,我們提出了一個嶄新的系統架構。

2.4.5 人工智慧的困境

Page 13: A new AI cloud computing service, powered by blockchain ... · 實作困難、開發成本過高、必須購買強大硬體設備、算力不足等。 以個人或實驗室為例,想自行建構分散式運算系統,即便使用已開發良好

13

2.5 技術總覽AIgatha 各階段

第一階段:LUCA與Pangu同時進行,在區塊鏈上建立一個分散式運算平台 (DistComp@home),透過區塊鏈來記錄礦工的工作證明與礦工資訊,以及所有運算項目的任務分配情況。使用者可以透簡單的API與服務平台進行對接來發佈運算項目,礦工也能在此階段提供算力,藉此獲得收益。

第二階段:IChing,在分散式運算平台上建立人工智慧服務平台(iMLOv),提供軟體開發者與使用者使用。開發者在平台上提供自行開發的AI演算法做測試與販售,使用者可以在平台上找尋適合自己問題的演算法。如果使用者不知道使用哪種演算法,AIgatha將提供一組通用的演算法來進行預測服務。

第三階段:Xirang,主題式應用。AIgatha團隊會在這階段自行活用分散運算與人工智慧平台從事團隊感興趣且有益社會的項目運算。例如發展一個抗體結構預測系統,提供藥廠與醫學科研單位做藥物研發,讓嘗錯率下降,加快開發速度、降低成本。

Page 14: A new AI cloud computing service, powered by blockchain ... · 實作困難、開發成本過高、必須購買強大硬體設備、算力不足等。 以個人或實驗室為例,想自行建構分散式運算系統,即便使用已開發良好

14

AIgatha 系統架構

AIgatha是建構在區塊鏈上的雲端服務系統,上面搭載著AIgatha的分散式計算平台DistComp@Home,透過與區塊鏈的結合,提出一個簡易的API對接窗口,讓使用者能夠開發演算法進行項目運算,並透過區塊鏈將項目任務送至礦工進行計算。

而在分散式運算平台的基礎建設上,建構一套簡單易用的人工智慧服務平台(iMLOv),只要蒐集到足夠的數據,就能透過這個AI平台取出重要的參數,更進一步的進行預測。如果是開發者iMLOv也設計了一個演算法的API接口,讓開發者可以測試自行開發的人工智慧演算法,進而找到許多問題的人工智慧解決方案,最終能夠在iMLOv平台上販賣自己的演算法給使用者。此外AIgatha在人工智慧服務平台上,建立自己的抗體預測平台。透過這個抗體預測平台降低製藥的嘗錯率,為製藥市場開啟新的里程。

Page 15: A new AI cloud computing service, powered by blockchain ... · 實作困難、開發成本過高、必須購買強大硬體設備、算力不足等。 以個人或實驗室為例,想自行建構分散式運算系統,即便使用已開發良好

15

AIgatha 的網路架構

AIgatha 的 網 路架構包括使用者(User)、礦工(Miner) 與時空堡壘節點(ChronosFortress)。

在AIgatha系統架構裡,是由三層平行結構組成,分別是使用者與礦工組成的應用層、時空堡壘節點群的服務層以及區塊鏈的紀錄層。

使用者或礦工必須透過鄰近的時空堡壘節點來與區塊鏈溝通。傳統在區塊鏈上進行驗證的資料內容是交易的代幣數值,也就是金流,AIgatha系統將原本的金流取代成資料流。

當使用者上傳一個專案到時空堡壘,時空堡壘將會紀錄專案的資訊( 專案編號、任務編號、專案發起人資訊、專案敘述、專案檔案大小、上傳日期 ),當時空堡壘將專案分割成任務時,被礦工獲取的任務的過程也會被時空堡壘上傳並詳細記載在區塊鏈裡面。所以使用者與礦工的所有行為都會被公開透明化,任何人可以清楚的了解哪些專案曾經被哪些礦工運算。

Page 16: A new AI cloud computing service, powered by blockchain ... · 實作困難、開發成本過高、必須購買強大硬體設備、算力不足等。 以個人或實驗室為例,想自行建構分散式運算系統,即便使用已開發良好

16

使用者:使用者可透過AIgatha服務平臺,編寫待進行分散式運算的專案程式碼,並上傳專案資料至鄰近的時空堡壘節點。

礦工:礦工電腦安裝完應用程式之後,連上網際網路,並加入鄰近的時空堡壘節點,將個人電腦資訊上傳至鄰近時空堡壘節點。礦工可接收來自時空堡壘的任務,並進行區塊鏈的維護。

時空堡壘節點:提供各種網路服務,是一個連接使用者、礦工與區塊鏈之間的伺服器節點,能進行任務資訊更新、分派任務、評估專案所需總算力、監

時空堡壘節點群會彼此偵測對方是否存活,當時空堡壘發現不存在二個或以上的時空堡壘節點與自身擁有相同任務資料時,便將自身資料備份到鄰近節點。這樣做是確保系統不會因為因為某一時空堡壘節點損壞而遺失資料。

資料同步

偵測節點

時空堡壘節點

Page 17: A new AI cloud computing service, powered by blockchain ... · 實作困難、開發成本過高、必須購買強大硬體設備、算力不足等。 以個人或實驗室為例,想自行建構分散式運算系統,即便使用已開發良好

17

控礦工運算進度、整合運算結果並核銷工作證明與更新區塊鏈上的歷史紀錄等等工作。在未來,我們會做到讓用戶上傳任務到時空堡壘節點之前,會先經由用戶本機分割檔案並且加密封裝,以確保用戶資料的安全性與隱私性。

詳細的販售方式請詳見商業白皮書(AIgathaBusinessOverview)。

智能合約源代碼細節與規則目前已公佈在Github網站,歡迎加入我們的社群以取得最新資訊。

2.6 智能合約

DistComp@home源代碼細節目前已公佈在Github網站,歡迎加入我們的社群以取得最新資訊。

iMLOv主系統目前架在學術伺服器,不方便被訪問。但是我們提供了一個測試用的互動式平臺,您可以透過此連結拜訪,相信透過操作我們的測試平臺,您會更加瞭解AIgatha的核心理念。

如果您有任何想要測試的資料集,歡迎聯繫我們團隊。

2.7 技術連結

Page 18: A new AI cloud computing service, powered by blockchain ... · 實作困難、開發成本過高、必須購買強大硬體設備、算力不足等。 以個人或實驗室為例,想自行建構分散式運算系統,即便使用已開發良好

18

分散式運算應用區塊鏈

AIgatha建立一條屬於每一個人的分散式運算區塊鏈,在這條區塊鏈上我們為每個人提供算力與人工智慧的解決方案。不管個人、實驗室或企業都能夠使用我們的分散式計算平台所提出的簡易 API進行演算法開發,不在為算力或硬體設備所苦,減少問題求解的時間。

另外,我們將區塊鏈的資訊流透明化,保障使用者的專案安全性。並讓礦工在維護帳本的同時,進行專案運算,賦予礦工更多價值。

2.8 我們將為世界帶來些什麼

人工智慧服務平台

人工智慧服務平台提出一個簡單易用的使用者介面,目的是為了讓不懂人工智慧的人也能輕易上手。

使用者只需要著重於數據的蒐集,就能透過平台找出數據中重要的特徵值,並進行數據的預測。另外人工智慧服務平台開放開發者上來實作人工智慧演算法,並進行演算法的販售,讓使用者有更多元的解決方案做選擇。

AIgatha 各類自主應用

以發展抗體結構預測系統為例。過去AIgatha已開發精准的蛋白質骨架設計與結構預測系統,能用以設計抗體氨基酸序列、預測抗體結構。已開發精准的分子間結合能力預測工具,協助判定所設計出之抗體藥能否與標靶分子高度專一性結合。以上技術核心,使我們有信心能建立人類抗體結構預測系統,以高效率開發抗體藥。

關於AIgatga 預計開發的應用平臺服務,請詳閱商業白皮書。

Page 19: A new AI cloud computing service, powered by blockchain ... · 實作困難、開發成本過高、必須購買強大硬體設備、算力不足等。 以個人或實驗室為例,想自行建構分散式運算系統,即便使用已開發良好

3. A

Igat

ha 技

分散式運算與人工智慧是 AIgatha 團隊已運用多年的核心技術,對於如何在區塊鏈上建置及活用這兩大技術平台,AIgatha 有獨到的解決之道。

Page 20: A new AI cloud computing service, powered by blockchain ... · 實作困難、開發成本過高、必須購買強大硬體設備、算力不足等。 以個人或實驗室為例,想自行建構分散式運算系統,即便使用已開發良好

20

3.1 分散式運算服務 (DistComp@Home)

DistComp@Home 靄運算基本架構、原理

分散式運算有兩大類型,一是個人式佈署,另一是網路服務商的雲端運算。要建置個人式佈署的分散運算系統(如ApacheSpark),建置者必須具備相當好的軟硬體操作技術,佈署完成後,要在該系統上實作專案,也需要專業的程式設計能力。而雲端運算如Google、Amazon則是無法將雲端上的系統移植到自己的電腦上運作。

因 此, 我 們 開 發 了 一 個 跨 平 台 的 分 散 式 運 算API, 稱 為DistComp@Home,讓分散式運算系統建置極簡化、分散運算式專案程式開發無痛化,任何看得懂簡單的文本程式語言的人都有能力掌握。

另外,我們提出了一個稱為靄運算 (mist computing)的嶄新雲端運算架構,有別於傳統模式,解決了雲端運算缺乏安全性、隱私性以及衍生依賴性等問題( 請詳閱2.4.4節 )。與已知的雲、霧、霾運算不同,使用者只要學會如何在區塊鏈上使用我們的分散式運算平台,便能以最低成本與時間在家用相同模式建構自己的私有雲。利用AIgathatechnology所提供的分散式家用套組( 包含Server、Node端應用程式以及與區塊鏈版本相同的使用者API)輕鬆串聯自家電腦。

DistComp@Home的完整結構包括任務流管理(Tasklogger)、任務分派(Servers)、任務運算節點(Nodes)、使用者端程式(ClientAPI)四大部分。

分別對應AIgatha之區塊鏈分散運算式系統的區塊鏈(Blockchain)、主節點(Masternodes)、礦工節點(Minernodes) 及使用者端程式(ClientAPI),基本運作方式一致。使用者透過API發送實作的分散運算程式碼與資料至任務分派中心,再由該中心派送給各運算節點,各節點將運算結果交還任務中心組裝完整後回傳給使用者,整個過程都由任務流管理加以記錄、監控。

Page 21: A new AI cloud computing service, powered by blockchain ... · 實作困難、開發成本過高、必須購買強大硬體設備、算力不足等。 以個人或實驗室為例,想自行建構分散式運算系統,即便使用已開發良好

21

DistComp@Home 應用成果

3.2 DistComp 應用程式接口 (API)

AIghtha團隊已運用DistComp@Home開發出相當多科學運算系統解決蛋白質結構生物學之議題。例如所建立的iSARST系統,自2009年至今都是全球最快速且準確度最高的複合式蛋白質結構比對系統( 請詳閱5.1 節 )。CPred自2012年以來,一直是全球最快且最精準的蛋白質環形結構重組切位分析系統( 請詳閱5.2 節 )。正準備發表的imSuper與CirPred則是全球最快速精準的蛋白質二級結構預測與環形重組結構預測系統( 請詳閱5.3、5.4節 )。

AIgatha的分散運算式系統配備圖形化API、純文字模式API,提供使用者最無痛的專案開發環境,且將程式設計的難度降至最低。

舉例而言,如果我們要用PHP程式語言將1~100共100個數字分成10組,交由10個運算元件幫我們算出每個數字的三次方並顯示在電腦畫面上,若不使用AIgatha的DisCompAPI,程式要寫成這樣:

Page 22: A new AI cloud computing service, powered by blockchain ... · 實作困難、開發成本過高、必須購買強大硬體設備、算力不足等。 以個人或實驗室為例,想自行建構分散式運算系統,即便使用已開發良好

22

其中充滿複雜的巢狀結構及分散運算邏輯,需要專業的程式設計能力才容易寫作。但若使用AIgatha的DisCompAPI,程式只要兩列,程式設計初學者都能輕鬆完成:

分散運算式程式設計無痛化,可為使用者大幅節約系統開發之金錢及時間成本,且讓原本只有專業人士與企業才有實力或資金解決並從中獲利的議題,現在一般人都有辦法解決與獲利。

Page 23: A new AI cloud computing service, powered by blockchain ... · 實作困難、開發成本過高、必須購買強大硬體設備、算力不足等。 以個人或實驗室為例,想自行建構分散式運算系統,即便使用已開發良好

23

3.3 人工智慧服務平台 (iMLOv)人工智慧(ArtificialIntelligence,AI)是由機器所表現出來的擬人智慧,

通常是透過電腦程式實現的仿人類思維或行為的技術,包括學習、預測、規劃、交流、推理、感知、組織資訊、操作物體等。其中,機器學習與預測是幫助分析、歸納數據的重要技術,有助人們依據過往數據對未知結果做出預測,是大數據分析和人工智慧的關鍵技術,也是其他多項人工智慧領域的底層技術。我們的iMLOv(integratedMachineLearningandOptimizationserver)人工智慧平台,便是個能應用於各類數據預測與規劃求解,協助人們做出精準決策的機器學習與預測系統。

在這個大數據時代,當所有類型的資訊呈爆炸性成長,分析量遠超過人力所能負荷時(例如:蛋白質結構資料、影像分析辨識、公共衛生數據等),不難想像人工智慧與機器學習將成為各行各業攀上時代尖端的必備武器。

然而,大多數機器學習軟體或系統,用戶需要熟悉作業系統或純指令操作環境,並且透過編寫程式來處理輸入與輸出資料,甚至,必須理解演算法細節與參數設定理論。另外,多數軟體的預測結果呈現方式相當複雜,沒有資訊或數據分析的專業背景將不易理解。因此,我們希望創造一個友善的用戶介面。讓沒有資訊技術背景的人,也能輕鬆掌握機器學習這項利器。

Page 24: A new AI cloud computing service, powered by blockchain ... · 實作困難、開發成本過高、必須購買強大硬體設備、算力不足等。 以個人或實驗室為例,想自行建構分散式運算系統,即便使用已開發良好

24

一旦機器學習成為每個人的基本能力,各種學術與應用領域的大發現和技術爆炸都將隨之到來。我們的iMLOv系統,正是個能讓所有人簡單上手的機器學習系統。目前,已整合的演算法包括決策樹、支援向量機、類神經網路、隨機森林、基因演算法等。除了大數據預測,亦能透過AIgatha的專利演算法來協助用戶分析各類原始數據的關鍵性程度,讓使用者不僅獲得「答案」,更知道「原因」。

在此之前,我們運用iMLOv系統,已經在蛋白質結構生物學領域取得了一些進展,如環狀結構重組(circularpermutation)和結構域交換現象(3Ddomainswapping)。這些結構現象難以用傳統的方法加以研究,我們早年曾針對這兩主題,開發過專門的分析演算法,簡稱為CPSARST和DS-SARST,然而由於這些演算法準確度有限,在從事蛋白質大數據分析與精準資料庫建置時,無法帶來真正的便利。以結構域交換現象為例,建置資料庫的過程有超過20 萬筆資料舊版DS-SARST演算法無法精準判定,需要人工分析。為解決龐大人力損耗,我們導入了iMLOv系統到新版的上述演算法中,使CPSARST的結構搜尋比對精度從52.9%提高到87.3%,DS-SARST則從76.6%提高到95.2%。

根據先前的使用經驗,我們相信AIgatha的人工智慧服務平台 iMLOv將能紮實地運用在每個人的日常生活裡,為人們解決各式各樣的問題,精準預測、輕鬆決策,讓人工智不再只是口號或少數專業人士才能擁有的武器。

Page 25: A new AI cloud computing service, powered by blockchain ... · 實作困難、開發成本過高、必須購買強大硬體設備、算力不足等。 以個人或實驗室為例,想自行建構分散式運算系統,即便使用已開發良好

25

3.4 iMLOv 實際的預測結果畫面最初始版本的iMLOv系統是個函式庫,只能透過程式編程引用。新版本

的iMLOv系統則配備了一個完整的WebServer,並強調其友善易操作的介面。我們簡化了人工智慧軟體的操作流程與複雜的參數設定,使用者只需要蒐集歷史數據並提供簡單的資料格式,透過直覺化的圖形操作介面,即可使用複合式人工智慧演算法,來獲得預測模型、數據分析與重要特徵值挑選。

iMLOv系統是一個廣域型的人工智慧服務平台,透過我們的獨家開發的決策機制,針對不同領域的議題,整合各類人工智慧演算法的預測結果,集各家之所長做出精準的判斷。所以任何問題丟上來都有相當的準確率。

目前釋出的iMLOv版本,在二元分類的議題裡,平均準確率約80%~90%,對於某些領域的議題可以達到95% 以上的準確度。為了展示其廣用性,我們尋找了幾個不同領域的議題來做演練,以下是iMLOv系統實際演練的範例結果,相關資料集數據可從UCIrvineMachineLearningRepository獲得。更多的範例結果請詳閱附錄A。

範例一:Adult Data Set

Page 26: A new AI cloud computing service, powered by blockchain ... · 實作困難、開發成本過高、必須購買強大硬體設備、算力不足等。 以個人或實驗室為例,想自行建構分散式運算系統,即便使用已開發良好

26

數據集名 AdultDataSet

數據集說明 根據 1994 年人口普查數據,透過一些特徵值進行預測,預測個人每年的年收入是否超過 50,000 美金。

本系統的初始設定 本系統的預測結果原始數據量 32561 運算時間 4840.49s訓練集數量 21707 準確率 86.5%測試集數量 10854交叉驗證方法 N-foldcrossvalidation(N=3)統計分組法 : Random數據集內容屬性說明Class 2 income <=50K,>50KFeature 15 age 年齡education-num 受教育時間 fnlwgt 序號sex 性別(Female,Male) hours-per-week 每周工作小時數capital-gain 資本收益 capital-loss 資本損失race 種族(White,Asian-Pac-Islander,Amer-Indian-Eskimo,Other,Black)education 教育程度(Bachelors,Some-college,11th,HS-grad,Prof-school,Assoc-

acdm,Assoc-voc,9th,7th-8th,12th,Masters,1st-4th,10th,Doctorate,5th-6th,Preschool)

marital-status 婚姻狀況(Married-civ-spouse,Divorced,Never-married,Separated,Widowed,Married-spouse-absent,Married-AF-spouse)

workclass 工作類別 (Private,Self-emp-not-inc,Self-emp-inc,Federal-gov,Local-gov,State-gov,Without-pay,Never-worked)

occupation 職業(Tech-support,Craft-repair,Other-service,Sales,Exec-managerial,Prof-specialty,Handlers-cleaners,Machine-op-inspct,Adm-clerical,Farming-fishing,Transport-moving,Priv-house-serv,Protective-serv,Armed-Forces)

relationship 關係(Wife,Own-child,Husband,Not-in-family,Other-relative,Unmarried)

native-country 國籍(United-States,Cambodia,England,Puerto-Rico,Canada,Germany,Outlying-US(Guam-USVI-etc),India,Japan,Greece,South,China,Cuba,Iran,Honduras,Philippines,Italy,Poland,Jamaica,Vietnam,Mexico,Portugal,Ireland,France,Dominican-Republic,Laos,Ecuador,Taiwan,Haiti,Columbia,Hungary,Guatemala,Nicaragua,Scotland,Thailand,Yugoslavia,El-Salvador,Trinadad&Tobago,Peru,Hong,Holand-Netherlands.)

3.5 iMLOv 網站服務介面iMLOv的使用者界面非常簡潔易用。用戶可按照網站所說明的格式上傳

數據文件,其中最簡單的是用Excel(或類似軟件)所創建的csv文件。資料上傳後,對一般使用者而言,參數設置無需調整,基本上只要持續用滑鼠點擊「下一步」即可進行人工智慧計算。結果頁面提供簡明的敘述來幫助使用者理解預測結果。詳細的網站服務介面與操作流程請查閱附錄B。

Page 27: A new AI cloud computing service, powered by blockchain ... · 實作困難、開發成本過高、必須購買強大硬體設備、算力不足等。 以個人或實驗室為例,想自行建構分散式運算系統,即便使用已開發良好

4.發

展路

線圖

我們將分為四個階段來詳細解說

AIgatha的技術實作步驟,包括區塊鏈、分散式運算平台、人工智慧服務平台與多元化主題式應用平台。各階段皆有詳細理念與運作模式之說明,讓大家了解AIgatha如何建構系統,及系統背後的營運模式。

Page 28: A new AI cloud computing service, powered by blockchain ... · 實作困難、開發成本過高、必須購買強大硬體設備、算力不足等。 以個人或實驗室為例,想自行建構分散式運算系統,即便使用已開發良好

28

4.1 LUCA「LUCA」全名是Lastuniversalcommonancestor,係由演化論推導

出來的假設,最後共同祖先在距今約 35 億至 38 億年出現,代表地球上所有生命的共同起源,「LUCA」分化出細菌與古菌,演化成各種生命。

AIgatha所有科技將建構在分散式運算的區塊鏈之上,以此宗旨為出發點,我們將這個區塊鏈系統稱為「LUCA」,「LUCA」乘載AIgatha未來所有發展的應用平臺,我們將在以下描述「LUCA」架構的細節。

使用者:即是消費者,可用AIgatha代幣購買所有服務。

開發者:在AIgatha私有鏈上開發各種應用平臺或API給予使用者使用。

礦工:維護AIgatha私有鏈帳本、提供來自應用平臺上Project的算力,獲得工作證明 (ProofofWork)。

AIgatha的區塊鏈架構採用公有鏈對接私有鏈的方式。目前AIgatha初期所採取的方式是公有鏈使用乙太坊所提出的智能合約,專門處理代幣交易的環節。私有鏈由我們開發全新的區塊鏈架構,在這條私有鏈中,礦工部分的算力是用於大數據分析計算,部分的算力維護帳本,而私有鏈區塊裡所記載的內容均為任務的流向與相關資訊。

由基金會與AIgatha礦工維護資料的流向

架構在以太坊,由以太坊礦工維護龐大的交易量

由協議轉換工作證明成AIgatha代幣

使用者/開發者

AIgatha礦工

Page 29: A new AI cloud computing service, powered by blockchain ... · 實作困難、開發成本過高、必須購買強大硬體設備、算力不足等。 以個人或實驗室為例,想自行建構分散式運算系統,即便使用已開發良好

29

「LUCA」架構的特色如下

1. 使用公有鏈與私有鏈結合,將代幣交易與項目運算分開。2. 讓礦工不僅是維護帳本,並進行項目運算,賦予礦工更多價值。

以太坊是成熟且有大量礦工支持的區塊鏈,所以我們選擇將AIgatha代幣使用以太坊智能合約作為交易時的媒介,另一方面,亦可避免在AIgatha發展的初期,因礦工不足導致交易代幣時的堵塞。

最後,我們預計在3年之後評估AIgatha的全網算力,來決定AIgatha是否能夠成為完全獨立的區塊鏈( 全網算力足夠維持AIgatha帳本的運作及專案的運算 )。在AIgatha成為獨立的區塊鏈之前的這段時間裡,礦工可藉由在私有鏈上獲得的工作證明來換取建置在以太坊上AIgatha代幣。關於保留給礦工的AIgatha代幣比例與轉換方式,請詳閱AIgatha商業白皮書。

總結:建立AIgatha的私有鏈,並使礦工藉由工作證明轉換到交易鏈上的系統。這階段我們稱之為「LUCA」。

Page 30: A new AI cloud computing service, powered by blockchain ... · 實作困難、開發成本過高、必須購買強大硬體設備、算力不足等。 以個人或實驗室為例,想自行建構分散式運算系統,即便使用已開發良好

30

4.2 Pangu 盤古是東方神話中開天闢地的神祇,傳說天地及萬物都由其身軀和器官變

化而成,是全世界神靈仙靈和物靈的主神。以此內涵為出發點,此階段將是建構未來各種平臺服務的基石。

在這階段,我們將實做分散式系統於區塊鏈上,我們在以下描述「Pangu」架構的細節。

使用者上傳專案資料至鄰近時空堡壘節點。

時空堡壘節點:1.切割專案為任務。2.檢查錯誤程式代碼。3.評估算力並報價。

將任務放入任務池,等待礦工撈取任務。

任務池:當礦工撈取任務運算時,上傳相關資訊至區塊鏈。

切割專案

代碼檢查

算力評估

Page 31: A new AI cloud computing service, powered by blockchain ... · 實作困難、開發成本過高、必須購買強大硬體設備、算力不足等。 以個人或實驗室為例,想自行建構分散式運算系統,即便使用已開發良好

31

每當礦工獲取任務,時空堡壘節點會持續監督任務運算情況,並紀錄資訊至區塊鏈。

當任務運算完畢時,礦工將任務結果回傳至時空堡壘節點。伺服器會記載回傳資訊紀錄至區塊鏈。

當礦工將專案的運算結果全部回傳至時空堡壘節點後。由伺服器驗證並整合專案後回傳給使用者。

每當專案被完成,相關資訊都會被記載到區塊鏈。

Page 32: A new AI cloud computing service, powered by blockchain ... · 實作困難、開發成本過高、必須購買強大硬體設備、算力不足等。 以個人或實驗室為例,想自行建構分散式運算系統,即便使用已開發良好

32

「Pangu」架構的特色如下

1. 根據專案需使用的運算力成本作為支付價格,在任務池裡,每個任務將會被複數個礦工獲得並進行運算。

2. 複數個礦工獲得同一種任務 ,可提高任務的回傳率 (return rate) 以及將計算結果作為重覆驗證使用,確保使用者成功獲得計算結果。

3. 根據區塊鏈的特性,公開且透明化任務的動向,例如:由哪些礦工運算、運算時間等等,改善現有分散式運算產品「黑箱操作」 (black-box operation) 的問題。

4. 透過任務分派的機制設計,讓每一個礦工即使礦工成計算,也難以拼湊整體專案的資料全貌,解決以往雲端運算安全性的問題 ( 請詳閱 2.4.4 、 3.1 章節 )。

5. 靄運算 (mist computing) ,可改善以往雲端運算,依賴性的問題 ( 請詳閱 2.4.4 、 3.1 章節 )。

6. 白名單機制,需通過身分驗證方可使用系統,避免系統被惡意使用。7. 簡單且直覺化的使用介面與分散式運算對接 API ,讓使用者可以快速

地使用分散式運算來解決各項問題。

使用者:根據AIgatha提供的應用程式介面( 請詳閱4.5章節 )編寫程式碼,執行專案運算,並且以AIgatha代幣作為支付的代價(cost)換取運算結果。

礦工:我們會提供專用的應用程式作為AIgatha的礦工使用介面( 請詳閱4.5章節 ),礦工可透過應用程式隨時獲取任務池裡的任務來計算與監控本機運算的狀況。另外,礦工可以看到的任務會依據礦工電腦的算力來做區分等級。

時空堡壘:初期為AIgatha提供伺服器,將使用者的專案(job)平均地切割成數等份的任務。我們會先預估每個專案所需要花費的算力,計算出使用者需支付的代價,並鎖定使用者的錢包裡相同價值的AIgatha代幣,接著將任務放到任務池中,使礦工獲取並下載任務進行運算。

Page 33: A new AI cloud computing service, powered by blockchain ... · 實作困難、開發成本過高、必須購買強大硬體設備、算力不足等。 以個人或實驗室為例,想自行建構分散式運算系統,即便使用已開發良好

33

未來目標

在未來系統成熟之後,「AIgatha基金會」僅做系統上的更新與維護,以下是我們的目標條列細述:

1. 每個使用者都可以由自己的電腦切割專案。 2. 在行動裝置上也能執行切割專案與派送的工作。3. 要做分散式運算的任務可直接送到礦工的電腦上做計算,不再完全需

要透過 AIgatha 提供的伺服器來做切割專案與傳送任務。4. 在全球各區域佈署時空堡壘節點,每個節點都擁有獨自處理專案的功

能。5. 與其他產品相較,我們強調「保障用戶資料機密性」的特點,用戶上

傳任務到時空堡壘節點之前,會先由用戶本機分割檔案並且加密封裝,保障用戶資料的安全性與隱私性。

6. 時空堡壘節點彼此會同步資訊,在這樣的系統下,單一節點是否存活,便不會影響整體區塊鏈的運作。

7. 使用 SHA-3 (Secure Hash Algorithm 3) 進行加密專案與任務。8. 它的誕生,將提供給使用者一個省心、穩定的專案計算環境。使用

「Pangu」做大量計算時,不需要簽定租用協議,不需要關心作業系統架構,不需要關心硬體配置,可以隨著專案的發展滿足各種需求。

以「LUCA」為基礎,在上面構築分散式運算系統,這階段我們稱之為「Pangu」。

Page 34: A new AI cloud computing service, powered by blockchain ... · 實作困難、開發成本過高、必須購買強大硬體設備、算力不足等。 以個人或實驗室為例,想自行建構分散式運算系統,即便使用已開發良好

34

4.3 IChing易經距今已7000多年歷史 ,是東方最早的預測系統的雛型。德國哲學家

萊布尼茲(GottfriedWilhelmLeibniz)由於易經的啟示領悟了二元對數,進而奠定電腦運作的原理。卡爾·榮格 (CarlGustavJung)曾對易經評價:「易經包含著東方文化的精神和心靈;幾千年偉大智者的共同傾注,歷久而彌新,仍然對理解它的人,展現著無窮的意義和無限的啟發。」

在這階段,我們將實做各類型的人工智慧服務平台於區塊鏈上,我們在以下描述「IChing」架構的細節。

使用者:以AIgatha代幣作為支付的代價來獲得各類型的人工智慧預測服務( 請詳閱商業白皮書5.2章節 )。

開發者:開發者可在上面測試自己的人工智慧演算法,也可以販售人工智慧服務。

礦工:我們會提供專用的應用程式作為AIgatha的礦工使用介面( 請詳閱4.5章節 ),礦工可透過應用程式介面隨時獲取任務池裡的任務與監控本機運算的狀況,礦工可以看到的任務會依據礦工電腦的算力來區分等級。

時空堡壘:初期為AIgatha提供伺服器,將使用者的專案平均地切割成數等份的任務。另外,我們會先預估每個專案所需要花費的算力,計算出使用者需支付的代價,並鎖定使用者的錢包裡相同價值的AIgatha代幣,接著將任務放到任務池中,使礦工獲取並下載運算。

Page 35: A new AI cloud computing service, powered by blockchain ... · 實作困難、開發成本過高、必須購買強大硬體設備、算力不足等。 以個人或實驗室為例,想自行建構分散式運算系統,即便使用已開發良好

35

AIgatha 的人工智慧服務平台有以下幾項特點:

1. 簡單的資料格式:使用者只要將數據資料整理成 csv 格式,即可透過 AIgatha 人工智慧服務平臺做預測服務。

2. 直覺化的圖形操作介面:不需要繁瑣的開發過程以及背景知識即可使用 AIgatha 人工智慧服務平臺。

3. 複合式人工智慧演算法:AIgatha 人工智慧服務平臺實作多種現今熱門的人工智慧演算法,並將預測結果以統計及 AIgatha 所發展的技術歸納出最佳化的結果。

4. 提供預測模型:使用者可以下載由 AIgatha 人工智慧服務平臺建立好的預測模型,方便下次預測類似問題時候使用。

5. 強力的數據和分析:挖掘大數據和機器學習,更快地找到答案,打造出更好的應用,協助使用者以最短時間內完成產品。

6. 隱私與安全保障:AIgatha 人工智慧服務平臺完全以數據角度做出預測結果,使用者無需提供任何有關資料集內的特徵值名稱、敘述 。而時空堡壘節點提供邊緣緩存服務,實現隱密,一致和可擴展的性能。

7. 重要特徵值挑選:AIgatha 人工智慧服務平臺提供特徵值篩選服務,讓使用者可得知對於該資料集而言,哪幾項特徵值才是最主要決定預測結果的項目。讓使用者不僅獲得「答案」,更能知道「原因」。

8. 詳細完整的預測分析報告:使用者可以經由加值服務獲得該資料集的完整預測分析報告,報告書裡會呈現 AIgatha 技術分析相關領域背景值等資訊。

為了讓使用者瞭解AIgatha人工智慧服務平臺的特點,我們提供了測試網站的操作流程(請詳閱附錄B),我們預計眾籌結束之後開放這個測試網站,在這個的測試網站裡,使用者可以試著上傳csv資料檔來獲得預測結果。由於是測試版本,我們將會限制特徵值與歷史資料筆數的上限。

Page 36: A new AI cloud computing service, powered by blockchain ... · 實作困難、開發成本過高、必須購買強大硬體設備、算力不足等。 以個人或實驗室為例,想自行建構分散式運算系統,即便使用已開發良好

36

未來目標

1. 更多樣與更專門主題性的人工智慧演算法加入平臺服務。2. 開發專為客戶端設計簡學易懂的人工智慧開發環境。3. 提升擴容性,對接各界的人工智慧演算法窗口。4. 更多的人工智慧演算法可在區塊鏈上實作、販售。5. 區塊鏈上的全網算力支援與分散式運算做為開發者的算力來源。6. 增加開發者所獲得的 AIgatha 代幣比例,提高開發者開發意願,解決

更多現今的許多議題。

以「Pangu」為基礎,在上面構築人工智慧服務平台,這階段我們稱之為「IChing」。

Page 37: A new AI cloud computing service, powered by blockchain ... · 實作困難、開發成本過高、必須購買強大硬體設備、算力不足等。 以個人或實驗室為例,想自行建構分散式運算系統,即便使用已開發良好

37

4.4 Xirang 息壤是古代傳說中的一種神物,所謂「息壤」就是自己可以自動生長的土

壤。我們希望全世界的人們都可以利用AIgatha的服務平臺,實現他們的點子,積沙成塔(Everygreatthingisnothingbutalotoflittleones)。使用者、開發者、礦工在AIgatha區塊鏈系統裡互助互惠,生生不息。

在這階段,我們將以現有的架構,實做各種類的預測平臺系統( 請詳閱商業白皮書5.2章節 ),另一方面,完善開發介面並協助更多開發者可以利用我們的平臺開發專案平臺,最後,我們會在「Xirang」階段於世界各處佈署時空堡壘節點,達成最終目標。

AIgatha的技術是一種平民化的過程,例如精準醫療,是能夠制定出符合個人需求的治療策略,使得治療的方法與藥品的使用更加精確( 包括合理且安全的藥物劑量 ),這些都是需要量身定造。為了制定出個人化醫療決策模式,醫師將病患個人資料,例如性別、身高、體重、年齡、種族、血型、基因檢測、代謝檢測、過去病史、家族病史等作為分析資料,找出最適合治療方法與藥品,這些過程是需要醫師臨床檢驗與治療經驗來剖析,所以難以落實到一般大眾身上。

但是透過大數據的分析、臨床文獻資訊匯聚成為人工智慧的預測模型,做為藥物潛在作用標的與疾病關係驗證,即能實現精準醫療的普及化。

AIgatha團隊在設計系統時,秉持著簡單易用的精神,希望所提供的服務能夠深入到每一個人,將區塊鏈的精神紮實的落地應用。我們希望,任何缺乏資源的個人、實驗室與中小企業,都能利用AIgatha的技術來大量降低開發過程的成本與時間。

Page 38: A new AI cloud computing service, powered by blockchain ... · 實作困難、開發成本過高、必須購買強大硬體設備、算力不足等。 以個人或實驗室為例,想自行建構分散式運算系統,即便使用已開發良好

38

AIgatha 最終的目標,是希望建立一套完整的區塊鏈系統,包含

1. 各個待解的問題,可利用此鏈尋求解決方案。2. 利用區塊鏈特性,保存大量數據、數據來源可靠度。3. 透過此平臺能從大量數據中,找出關鍵的資料。4. 集中資源並且加速技術的發展。5. 開放式的應用平臺開發。6. 友善、簡單易懂、圖形化的開發介面。7. 開發者:利用此鏈已有的算力,只需專注於開發演算法。8. 使用者:消費 AIgatha 代幣,即能獲得解決問題的服務。9. 減輕個人、中小型實驗室、企業自主研發的負擔。

2017年是貧富差距最大的一年,未來,這樣的情況只會越來越加劇。願世界上的每一個人,都能利用AIgatha的平臺加速實現他的理想。聚集每個人的夢想並加以實現,為全人類的進展邁出一大步。

Page 39: A new AI cloud computing service, powered by blockchain ... · 實作困難、開發成本過高、必須購買強大硬體設備、算力不足等。 以個人或實驗室為例,想自行建構分散式運算系統,即便使用已開發良好

39

4.5 使用者的介面我們提供直覺的圖形化介面給不同目的用戶( 礦工、開發者、使用

者 ),而所有用戶必需通過身份驗證,即可使用AIgatha的客戶端系統。以下是客戶端的應用程式畫面及介紹:

用戶登入時可以看到三個選項,分別是礦工、一般使用者、發展者。

用戶必需先通過身份驗證取得帳戶之後,方可使用客戶端的系統。

Page 40: A new AI cloud computing service, powered by blockchain ... · 實作困難、開發成本過高、必須購買強大硬體設備、算力不足等。 以個人或實驗室為例,想自行建構分散式運算系統,即便使用已開發良好

40

用戶選擇一般用戶登入,可以獲得錢包資訊展示。用戶除了觀看錢包資訊之外,亦可操作錢包功能。

一般使用者可以使用此介面瀏覽目前已經開發完成的專案平臺,透過付費AIgatha使用平臺功能。

Page 41: A new AI cloud computing service, powered by blockchain ... · 實作困難、開發成本過高、必須購買強大硬體設備、算力不足等。 以個人或實驗室為例,想自行建構分散式運算系統,即便使用已開發良好

41

用戶選擇礦工登入,可以獲得任務池目前的資訊,在池子裡可以展示目前在節點上已存在並等待解決的任務,礦工可以勾選自動獲取任務,讓系統自動獲得任務運行。或經由手動方式,點擊任務,選擇感興趣的專案進行運算。礦工可在右方的任務列表裡查詢目前正在運算與等待運算的任務詳細資訊。

礦工成功完成任務之後,將結果回傳至時空堡壘,經確認無誤之後,即可獲得工作證書(Workcertification)與運算力報酬。詳細的專案計算資訊將記錄於工作證書。

Page 42: A new AI cloud computing service, powered by blockchain ... · 實作困難、開發成本過高、必須購買強大硬體設備、算力不足等。 以個人或實驗室為例,想自行建構分散式運算系統,即便使用已開發良好

5.以

往的

技術

應用

案例

以下介紹 AIgatha 已從事的部分 研究成果,這些研究過程中所創建的網路系統,都是架構在我們的人工智慧與分散式運算平台上,用以解決目前生物醫學上的許多實際問題。

Page 43: A new AI cloud computing service, powered by blockchain ... · 實作困難、開發成本過高、必須購買強大硬體設備、算力不足等。 以個人或實驗室為例,想自行建構分散式運算系統,即便使用已開發良好

43

5.1 高效率蛋白質結構比對系統

為了幫助全球研究者研究蛋白質間的特殊結構現象並據此發展新型態的蛋白質工程技術,我們曾於 2009 年發表了全球最快速且能偵測蛋白質環形結構重組現象的蛋白質結構搜尋比對系統iSARST。現在,我們大程度擴充此系統:(1)新功能:偵測蛋白質結構域交換現象。(2)大幅提升準確度:在各演算法中引入先進的iMLOv人工智慧系統。(3)運算速度強化:全平台透過DistComp@Home分散式運算系統建置,整合更多運算單元,有效縮短運算時間。相信此系統將極有助於蛋白質研究與相關工程技術之發展。

iSARST的初始版本是建構在一個以NFS(NetworkFileSystem)為資料分享機制的分散式運算環境中。其演算法設計概念是「快篩後優化」,因而得以同時保有其所使用的搜尋引擎( 包括SARST與CPSARST)的高速特性,及所使用的結構比對引擎的高精確度(FAST,TM-align與SAMO)。

雖然此版本的iSARST獨步全球,首創對蛋白質環形結構重組現象之偵測能力,卻未能提供足以讓使用者輕鬆判斷蛋白質間環形結構重組程度的指標。為了確認結構重組程度,使用者必須自行檢視蛋白質結構,過程需要深厚的結構生物學經驗。由於蛋白質結構資訊量正爆炸性增長,此版本的分散運算架構已漸難負荷,再者,若結構分析最終仰賴人工,將不切實用。

Page 44: A new AI cloud computing service, powered by blockchain ... · 實作困難、開發成本過高、必須購買強大硬體設備、算力不足等。 以個人或實驗室為例,想自行建構分散式運算系統,即便使用已開發良好

44

於是,我們開發了新版的iSARST,其底層分散式運算環境是我們團隊自行研發的DistComp@Home系統,全系統的運作速度與穩定度因而大幅提升。另外,在所有快篩演算法中增加了人工智慧運算,所使用的套件是我們自行研發的iMLOv,使快篩階段的準確度大幅提升,甚至超越了優化階段所使用的結構比對引擎。此iMLOv系統之應用帶來一個絕佳優點:對所偵測的每一個結構現象,都提供了一個簡單的可信度指標,讓使用者輕鬆判斷資訊可信度。

iSARST2017年版的一項新功能是偵測蛋白質結構域交換(3Ddomainswapping)現象之能力。結構域交換是蛋白質形成寡聚合體的機制之一。具有此現象的蛋白質可被視為具備兩種結構狀態:形狀相對封閉的單體狀態,以及形狀開展的寡聚體狀態。了解結構域交換現象或有助人們找到蛋白質沉積性疾病( 如狂牛症、阿茲海默症等 )的治療方法,更有助開發能自主聚合的生物材料。然而,此現象難以透過一般的蛋白質結構比對分析軟體加以偵測。我們在iSARST中新增的結構域交換現象偵測演算法( 稱為DS-SARST),精準度高達 95.2%,比當前最準確的演算法ADiDoS的 76.6%高出甚多。

欲使用iSARST2017,使用者可以一次上傳多個蛋白質結構代號或檔案,針對每一個上傳的結構,iSARST會回報一系列結構類似物或有特殊結構關聯性的蛋白質。另提供方便好用的互動式的結構疊合展示,以利使用者進行結構分析、檢視。iSARST是全球第一個能大批量偵測蛋白質特殊結構關聯性的系統。期前一代系統已運作 8年,共為人們分析過一萬兩千多個蛋白質。截至目前,iSARST 與其相關演算法已被全球期刊引用超過百次,且至少已有一個蛋白質結構資料庫及一個蛋白質工程產物是因使用iSARST而開發完成。

Page 45: A new AI cloud computing service, powered by blockchain ... · 實作困難、開發成本過高、必須購買強大硬體設備、算力不足等。 以個人或實驗室為例,想自行建構分散式運算系統,即便使用已開發良好

45

蛋白質環形結構重組現象可被視為蛋白質的原始開頭與結尾兩端被串連後,在中間某位置切開,形成新的開頭與結尾。環形結構重組蛋白跟未重組前的親源蛋白通常結構極為相似,功能與活性也高度保留,甚至可能擁有比親原蛋白更高的穩定度、更強的活性或更廣用的功能。因此,蛋白質環形結構重組已被發展成一種蛋白質工程技術,應用在許多領域,例如研究蛋白質摺疊、改良酵素活性、設計雙聯蛋白質等。由於蛋白質環形結構重組實作起來非常昂貴,而且蛋白質上並非任何位置都能進行此類結構重組,若能開發精準的蛋白質環狀重組切位預測方法,將對生物科技之發展大有助益。在此之前,全球最精準的此類預測方法是依據蛋白質結構特徵指標"closeness"所開發的,以DHFR( 二氫葉酸還原酶 )標準資料作驗證,其精準度分數AUC為0.70( 滿分1.0);以CPDB( 蛋白質環狀結構重組資料庫 )做大規模測試,靈敏度指標sensitivity 為0.63( 最高1.0)。我們在2012年開發了一個預測系統稱為CPred,透過整合四種人工智慧演算法與46個蛋白質特徵指標,使得預測精準度在DHFR高達0.91,靈敏度在CPDB為0.72。

5.2 CPred

Page 46: A new AI cloud computing service, powered by blockchain ... · 實作困難、開發成本過高、必須購買強大硬體設備、算力不足等。 以個人或實驗室為例,想自行建構分散式運算系統,即便使用已開發良好

46

2012年版的CPred只能對已確定結構的蛋白質做分析,然而目前絕大多數蛋白質的結構其實尚未解出。為了拓展蛋白質環形重組的應用,我們開發了新一代CPred,此版本可對只知道胺基酸序列而結構未知的蛋白質做精準預測。在開發CPred2016的過程中,我們挑選了28項蛋白質胺基酸序列特徵指標,並使用iMLOv人工智慧系統整合了三種機器學習演算法來做分析。透過一個以科技文獻為基礎建置而成的標準資料集( 正面答案數 : 反面答案數=75:101),以及一個去重複的CPDB資料集(1,059個正面答案 )加以訓練,再用DHFR( 正面答案數 : 反面答案數=76:83)與 lipase( 脂肪酶 B)資料集( 正面答案數 : 反面答案數=63:33),以及一個去重複的GDB資料集( 蛋白質重組結構資料庫,4,765個正面答案 )加以驗證。上述任兩資料集之間的序列相同度都低於 40%。結果,我們的AUC對DHFR資料集為0.83,對lipaseB資料集為0.72,對GDB的靈敏度為0.71,比起許多以結構為基礎的預測方法都要精準。

自前一版本CPred發表以來,已被相關科學著作引用 20 次且至少有一個結構重組蛋白是因為使用CPred而開發成功。而今,新版本CPred以序列為基礎的預測能力已達實用水平,我們相信將更有助於推動蛋白質環形結構重組技術之應用。

CPred的使用方式非常簡單,使用者只須上傳一個蛋白質結構或胺基酸序列即可進行預測。結果頁面對蛋白質上每一個位置都提供了重組切位可行性指標。如果所上傳的是個結構檔案,所有可行性指標在結構展示介面上有清晰的整合式圖示。如果所上傳的是個胺基酸序列,CPred還會順帶預測各胺基酸的二級結構類型。新版以序列為基礎的預測程式在2015年七月就已加入CPred網站,供研究與教育用途,目前已有超過5,000個蛋白質被分析過。

Page 47: A new AI cloud computing service, powered by blockchain ... · 實作困難、開發成本過高、必須購買強大硬體設備、算力不足等。 以個人或實驗室為例,想自行建構分散式運算系統,即便使用已開發良好

47

5.3 CirPred

在這份研究中,我們為「蛋白質環形結構重組技術」開發了全球第一個結構預測與「連接子」預測系統。

蛋白質環形結構重組現象可被視為蛋白質的原始開頭與結尾兩端被串連後,在中間某位置切開,形成新的開頭與結尾。此現象已被人為創造成一種蛋白質工程技術,應用在許多領域,例如研究蛋白質摺疊、改良酵素活性、設計連合蛋白質等。環形結構重組實作上比一般的蛋白質工程技術(如突變、刪除、新增胺基酸)困難且昂貴。另外,由於蛋白質上並非每個位置都可以成功成為環形重組切位(某些位置切開後蛋白質將失去穩定結構),環形結構重組作為一種蛋白質技術,開發過程往往涉及多次嘗試錯誤,致使造價更加高昂。我們過去曾開發精準的環形重組切位預測系統,然而,環形重組切割後的蛋白質會有什麼樣的結構,目前並無任何有效的辦法可以預測,因此,什麼切位可以製造出開發者想要的活性或具備良好工業應用價值的蛋白質也難以預知。此外,許多蛋白質在實作環形重組的過程中必須增添一段「連接子」來串連原始的開頭與結尾端點,目前沒有任何系統可以幫忙預測或設計連接子,只能靠試誤。

CirPred提供三種操作模式:1.基本型環形重組結構預測2.重度變異型環形重組結構預測3.連接子設計。如果使用者已自行設計好連接子,可以使用模式1。如果使用者在原始蛋白質上做了重度人為修改,模式2將提供

Page 48: A new AI cloud computing service, powered by blockchain ... · 實作困難、開發成本過高、必須購買強大硬體設備、算力不足等。 以個人或實驗室為例,想自行建構分散式運算系統,即便使用已開發良好

48

非常大幫助,因實測結果顯示,即使90%的原始胺基酸序列都已被改動,CirPred仍能精準預測出改動後的蛋白質結構。如果連接子是必要的但使用者不知如何設計,可以活用模式3。在此模式下,CirPred會自動設計出30種可行的連接子方案,且每一種都預測出結構能量供開發者參考。使用時CirPred 時,須提供原始蛋白質結構並告知所選定的切位。運算完成後,詳細的結構預測結果,以及新結構與原始結構的差異,會有非常簡易詳實且互動化的圖形化呈現。如果「退火」功能沒有被啟用,一般預測在3分鐘內即可完成。

根據對CPDB(蛋白質環形結構重組資料庫)中的4,169 組資料的實際測試,CirPred預測出來的結構跟實際結構的平均重合程度高達91.3%,且平均結構偏差只有3.35Å。即便待預測結構與親源蛋白質的胺基酸序列相同度低於10%,平均重合程度仍高達87.9%,平均結構偏差僅3.92Å。

CirPred的最初版本開發於2011年 11 月,且已經過數次更新。目前共測試過至少9,600個蛋白質,有七個科研團隊曾參與其測試。

5.4 imSuper

Page 49: A new AI cloud computing service, powered by blockchain ... · 實作困難、開發成本過高、必須購買強大硬體設備、算力不足等。 以個人或實驗室為例,想自行建構分散式運算系統,即便使用已開發良好

49

蛋白質二級結構預測有非常多實際應用。雖然這是個「古老」的學術研究主題,且已有非常多演算法被開發出來,但預測準確度仍有相當大改善空間。截至目前,只有少數幾個演算法能夠達到80%以上的預測準確度,且單一筆運算往往耗時幾十分鐘乃至數小時。

我們開發了一個高效率二級結構預測系統,簡稱為imSuper,且預期將成為所有需要從是蛋白質結構分析預測的研究者的重要工具。此系統可快速且精準地對大量蛋白質序列做二級結構預測。經過嚴格的機器學習訓練後(僅使用 500 個蛋白質),透過CASP12與TS115標準資料集的測試(與訓練資料集的相同度皆低於25%),其平均準確度高達93.5%,已接近二級結構預測的理論極限。

imSuper的高準確度是因為我們設計了一組非常好的特徵值,並以我們開發的人工智慧系統iMLOv為機器學習與預測的演算法後盾。此外,我們的DistComp@Home分散運算系統也被應用來加速整個運算流程,使單一蛋白質的平均計算時間小於1分鐘。就我們所知,imSuper是當前最精準的二級結構預測系統,且其速度為常見演算法的數十倍快。由於準確度與速度是二級結構在科研應用上的最大限制因子,我們相信imSuper之誕生將大有益於各類蛋白質基礎科學與科技應用的進展。

使用者只需輸入純文字的蛋白質胺基酸序列即可透過 imSuper 進行預測。無論 8分類型或 3分類型的二集結構imSuper都可預測。其結果畫面非常簡明且充分圖形化,對每一個胺基酸都提供了預測信心指標,有助使用者檢視與進階分析。另外,我們還設計了一個純文字的操作介面,方便專業的研究者或欲從事大批量分析的使用者運用。

imSuper的原型系統在2017年二月便已開發完成,目前已分析超過9,000個蛋白質且共有11個研究團隊參與其開發和測試。

Page 50: A new AI cloud computing service, powered by blockchain ... · 實作困難、開發成本過高、必須購買強大硬體設備、算力不足等。 以個人或實驗室為例,想自行建構分散式運算系統,即便使用已開發良好

附錄

A:人

工智

慧Ca

se

以下例舉數個 AIgatha 透過 iMLOv 服務平台所做的一些人工智慧運算案例。是接續第 3.4 章節─ iMLOv 實際的預測結果畫面後續的其它案例。

Page 51: A new AI cloud computing service, powered by blockchain ... · 實作困難、開發成本過高、必須購買強大硬體設備、算力不足等。 以個人或實驗室為例,想自行建構分散式運算系統,即便使用已開發良好

51

範例一:Predicting Survival on the Titanic數據集名 PredictingSurvivalontheTitanic

數據集說明 鐵達尼號是一艘奧林匹克級郵輪,是當時最大的客運輪船,但因為人為錯誤,於1912年4月14日23點40分撞上冰山,事發2小時40分鐘後,即4月15日凌晨02點20分,船裂成兩半後沉入大西洋,死亡人數超越1500人,堪稱20世紀最大的海難事件,同時也是最廣為人知的海難之一。依據個人資料與船票資料來判斷是否存活率高。

本系統的初始設定 本系統的預測結果原始數據量 1313 運算時間 84.49s訓練集數量 875 準確率 80.34%測試集數量 438交叉驗證方法 N-foldcrossvalidation(N=3)統計分組法 : Random數據集內容屬性說明Class 2 Survived 是否存活(0:否1:是)Feature 9 Pclass 社會經濟地位等級(1: 上

等2:中等3:低等)Name 姓名 AGE 年齡 (年齡小於1會有小

數點 )sex 性別(Female,Male) Fare 票價SibSp 在船上的父母家長及子女

總數Ticket 船票編號

Cabin 座艙編號

Page 52: A new AI cloud computing service, powered by blockchain ... · 實作困難、開發成本過高、必須購買強大硬體設備、算力不足等。 以個人或實驗室為例,想自行建構分散式運算系統,即便使用已開發良好

52

範例二:Breast Cancer Wisconsin Data Set

數據集名 BreastCancerWisconsin(Original)DataSet數據集說明 威斯康辛大學麥迪遜分校醫院 - 乳腺癌患者臨床病例 699人,依據細胞樣本的

屬性來判定乳腺癌是良性腫瘤還是惡性腫瘤。本系統的初始設定 本系統的預測結果原始數據量 699 運算時間 2.47s訓練集數量 466 準確率 96.85%測試集數量 233交叉驗證方法 N-foldcrossvalidation(N=3)統計分組法 : Random數據集內容屬性說明Class 2 outcome 良性腫瘤或惡性腫瘤(

0:benign1:malignant)Feature 10 ClumpThickness 腫塊厚度UniformityofCellSize 細胞大小 UniformityofCell

Shape細胞形狀

MarginalAdhesion 邊緣附著力 SingleEpithelialCellSize

單獨上皮細胞大小

BareNuclei 裸細胞核 BlandChromatin 淡染色質NormalNucleoli 正常細胞核 Mitoses 分裂激素

Page 53: A new AI cloud computing service, powered by blockchain ... · 實作困難、開發成本過高、必須購買強大硬體設備、算力不足等。 以個人或實驗室為例,想自行建構分散式運算系統,即便使用已開發良好

53

範 例 三:Mortality Outcomes for Females Suffering Myocardial Infarction

數據集名 MortalityOutcomesforFemalesSufferingMyocardialInfarction

數據集說明 調查 1981-1983 年期間心肌梗塞病患1295 名,哪些行為或疾病發生後容易造成心肌梗塞死亡率上升。

本系統的初始設定 本系統的預測結果原始數據量 1295 運算時間 17.26s訓練集數量 863 準確率 80.08%測試集數量 432交叉驗證方法 N-foldcrossvalidation(N=3)統計分組法 : Random數據集內容屬性說明Class 2 outcome 是否存活(0:否1:是)Feature 9 age 年齡yronset 發病年份 premi 以前的心肌梗塞事件,有

水平的因素y,n,nk不知道

smstat 吸煙狀況,c目前水平的一個因素,x吸煙者,n不吸煙者,nk不知道

diabetes 糖尿病有水平的因素 y,n,nk 不知道 (y,n,nk)

highbp 高血壓,與水平的因子y,n,nk不知道

hichol 高膽固醇水平的因素y,n,nk不知道

angina 有水平的因素 y,n,nk不知道

stroke 行程有水平的因素y,n,nk不知道

Page 54: A new AI cloud computing service, powered by blockchain ... · 實作困難、開發成本過高、必須購買強大硬體設備、算力不足等。 以個人或實驗室為例,想自行建構分散式運算系統,即便使用已開發良好

附錄 B:iMLOv

Page 55: A new AI cloud computing service, powered by blockchain ... · 實作困難、開發成本過高、必須購買強大硬體設備、算力不足等。 以個人或實驗室為例,想自行建構分散式運算系統,即便使用已開發良好

55

使用者需先創建CSV文件,格式如下圖所示

上傳至服務器之後,將顯示文件基本資訊,並可選擇資料分群方法

Page 56: A new AI cloud computing service, powered by blockchain ... · 實作困難、開發成本過高、必須購買強大硬體設備、算力不足等。 以個人或實驗室為例,想自行建構分散式運算系統,即便使用已開發良好

56

持續「下一步」鼠標點擊,選擇演算法或調整細部參數,或使用預設值讓系統自動設定參數

最後步驟,確認資料與設定無誤後即可送出專案

Page 57: A new AI cloud computing service, powered by blockchain ... · 實作困難、開發成本過高、必須購買強大硬體設備、算力不足等。 以個人或實驗室為例,想自行建構分散式運算系統,即便使用已開發良好

57

等待預測結果頁面

當使用者勾選「預測」選項的時候,表示使用者除了要做訓練得到模型之外,並且還要利用此訓練的模型來預測他的問題的答案。結果頁面如以下所示,系統不僅會提供分群的答案,並會表示每一個答案的概率,這意味著使用者可以參考這些概率來做出更適合的決策。在未來我們會將特徵值的影響程度也納入結果展示,讓使用者可以透過我們的系統篩選何謂重要的特徵值,進而成為該領域的專家。