什麼是TRE?Trusted Research Environment (TRE) 我們翻譯成「信任研究環境」,也有翻譯成「被信任的研究環境」、「受信賴的研究環境」或「可信任的研究環境」,而類似概念的英文說法也有 Secure Data Environment或是Data Safe Haven;最早提出TRE概念的是英國的Health Data Research團隊 (HDR UK) [1],HDR UK設計TRE [2] 來檢視與其合作的英國各資料庫管理單位的運作,是個清楚且包含資料運用各面向的模組。
「信任研究環境」的主要觀念是將數據分析帶到資訊安全環境執行 (bring analysis to the data),研究人員研究所需要的資料集不是直接被提供一個備份,而是讓研究人員可以去存取被存放在資訊安全環境的資料集,這種作法有時也被稱作「不落地」,如此較能夠確保資料的存取是在安全的資訊環境,也能較能確保個人資料的保護;同時,也因為避免了重複的備份動作,而減少了相關的傳輸與儲存的費用,而在資訊安全的環境下也可以妥善管控資料下載 [3]。
數據從建置到運用的過程會歷經各類利害關係人(stakeholders),這些利害關係人包含了:資料提供者、資料建置者、資料管理者、資料經營者與資料使用者;資料提供者是指其個人健康的相關資訊被收集的病人或公眾,以台灣的健保資料庫為例,幾乎所有的台灣民眾都是資料提供者;每個資料集的產生基本上都是需要經過專業規劃設計資料的收集方法與測量方式,才足以獲得有效的資訊,因此資料建置者常常是投注領域知識(domain knowledge)的專業研究人員,資料庫建置的建置通常都會耗費相當多的人力物力資源及時間進行收集與建置,因此大部分時間資料建完成後建置者會希望能夠妥善保存與管理,做為能夠持續以資料分析來獲得資訊的資源,而被委以管理資料的資料管理者就需要負責資料保存及提供使用的監管責任,我們所熟知的衛生福利部衛生福利資料科學中心就是很好的例子,資料經營者會是著重於推廣資料運用的面向,很多時候是和資料管理者同單位,資料使用者就廣泛地涵蓋了運用資料分析提供醫學或科學領域研究證據的研究人員,像是當前從事比較效益研究、藥物流行病學、生物統計或生物資訊等研究人員。其實在目前的社會裡,每個人都會是,資料提供者、資料建置者、資料管理者、資料經營者或資料使用者,其中至少一個角色!
HDR UK將數據使用過程中所關聯到的各類利害關係人(stakeholders)的相關因素統整在5個安全面向(表一),HDR UK稱呼是「five safes」,主要的訴求就是整個運用資料進行研究的過程能夠被所有的利害關係人信任,要能夠滿足研究人員執行研究分析時環境與工具的需求,同時能夠讓公眾與資料管理單位信任符合資訊安全,因此這五個安全面向說明了需要注意的資訊系統及規範的原則 [2]。
表一:信任研究環境的五個安全面向(TRE 5 safes)
名稱 | 說明 |
---|
安全的人員 Safe people | 使用資料的人是受過資料分析訓練的研究人員,在使用資料前有獲得審查同意,並簽署保密協議。 |
安全的計畫 Safe projects | 數據資料使用於經倫理審查通過且有明顯公眾利益的研究計畫。 |
安全的設置 Safe settings | 數據資料使用於經倫理審查通過且有明顯公眾利益的研究計畫。 |
安全的資料 Safe data | 資料都必須去識別化以保護隱私個資。 |
安全的產出 Safe outputs | 分析結果釋出前須經過審查以確保無法辨識個體。 |
表格內容參考HDR UK[2]
TRE的5個安全面向安全的人員Safe people:這裡的人員(people)指的是申請資料使用的研究人員,由於數據資料分析是個專業領域,需要經過足夠專業知識及技術訓練才具有執行數據分析的能力,因此接觸到資料的人,通常是需要受過資料分析訓練的研究人員;因此就如同醫師或藥師是否具有執業資格的概念一樣,研究人員是否具有資料分析的能力是需要納入考量;此外,研究人員在使用資料之前,TRE需要能夠確認其身分及研究人員本人也須同意並簽署具有法律約束力的使用條款 [3]。
安全的計畫Safe projects:數據資料研究也是屬於科學及醫學研究的範圍,因此也必須遵守相關的倫理規範,TRE需要把關數據資料使用的研究計畫是經過倫理審查通過且有明顯公眾利益的研究計畫;TRE需要規畫相關的審查功能,集合各個領域的專家組成委員組織,透過建立審查的系統,審核擬申請計畫之實驗目的、達成目標、執行區間以及預計完成時間等資訊,並且在通過執行後,持續追蹤計畫狀況,維持計畫執行中資料使用狀態的透明度,計畫結束後之要追蹤實際成果,落實提升社會公益 [3]。
安全的設置Safe settings:為了建置數據使用的資訊安全環境非常重要,一方面是透過資訊安全和過程透明以確保公眾和資料管理者的信任,另一方面是需要確保對於資料使用者友善,盡可能容易於用於研究分析。在這個條件下,操作的系統必須是安全的,不能輕易被駭客從外部入侵竊取資訊,也不能讓核可過的操作人員能夠輕易找到漏洞執行超出同意範圍的行為;同時因顧及過程透明及信任的問題,監管單位是可以在此系統進行審核。在操作時,使用者登入情形、計畫執行狀況,也會被系統所記錄,以便審核人員追蹤使用狀況(例如:避免共用帳號),同時達到維持safe people、safe projects的目的。此外,在嚴密的安全系統下,為避免過度阻礙研究人員進行研究,TRE平台也朝向打造特定網路空間,在此空間中研究人員允許攜入(上傳)或撰寫個人程式工具,除了用網路空間控管安全性外,檔案、程式的格式也將受到管制。這樣的管制除了是用來維護平台資訊安全,確保不會有電腦病毒的問題外,各平台統一格式管制也將方便研究人員跨平台使用自己設計的工具,使得研究人員更容易攜入自己的分析工具在系統上操作 [3]。
安全的資料Safe data:資料安全是要確保資料不管在研究人員手上、資料保管人手上,甚至是不慎外流,都不會造成個人隱私的危害。雖然TRE對於研究人員(資料使用者)會進行管控,也會簽屬相關規範(法律)文件,但這樣還不能滿足是主動防護的要求。安全的數據保護-將數據導入安全環境的流程中,有個最重要的步驟為「去識別化」。以往的做法是模糊化加上限制資料申請的區塊(如:資料最小使用原則),避免獲得資料的人員藉由比對資料揭露個人資訊,隨著資訊加密的技術發展,現在則能透過加密、轉換程式來達成這個目的,以最大限度降低個人意外重新識別的風險,這對於未來研究和創新以TRE為使用基礎至關重要,要獲的資料提供者以及社會大眾對TRE的信任才能永續經營 [3]。
安全的產出Safe outputs:如同安全的設置(Safe settings)中所述,TRE必須在安全環境與外界之間設置屏障以及審查窗口,以防止未經授權的數據或程式工具以任何方式進出。因此除了上述資料、分析工具的安全審查資料,分析結果也須先被審查,確保沒有識別個資的風險後才能釋出。當前審查的方法是以人工審查,通常由監管單位進行最終審查結果的發布。和前述許多自動化的審核流程相比,如同Safe project的審查,這部分也是一個潛在的耗時步驟。因此,建置TRE需要積極探索、開發自動化或部分自動化方法的輔助方法,促使降低研究人員的等待時間進而提升使用TRE平台的意願,這也將利於TRE的發展性和持續性 [3]。
TRE 實例-衛生福利部衛生福利資料科學中心若以目前的衛生福利部衛生福利資料科學中心(簡稱:資科中心)的各項規範來檢視「信任研究環境」,在「安全的人員」方面,研究人員需要先通過資科中心審查同意,同時要進入獨立作業區之前也需要經過證件核對, 並簽署保密協議;在「安全的計畫」方面,在資科中心執行的研究計畫都需要經過經醫學研究倫理委員會通過(IRB),並且要在IRB有效期內,資科中心也有設立審查機制審核資料申請案;在「安全的設置」方面,申請案主要都是在獨立作業區進行,全台有10獨立作業區分散在北中南東的各大學或研究機構,資料分析必須在獨立作業區內進行,區域內設置有監視攝影機及螢幕側錄;在「安全的資料」方面,資科中心內部的資料都是經去識別化處理,同時申請案審查時也必須符合最小使用原則;在「安全的產出」方面,研究結果資料須經審查,釋出的結果統計量不可是來於小於3個案數。獨立作業區是需要研究人員到特定的管控場所進行資料分析,對於資料分析環境而言不能算是方便,尤其近期獨立作業區的分析位置預約困難, 致使數據分析的時間嚴重被壓縮而影響計畫的進度與品質,因此就非常期待能有雲端分析環境的建置。
結語:建置「信任研究環境」的核心工作是讓資料從建置到運用過程中所有利害關係人能夠在彼此信任的基礎下有效率的合作,資料提供者及管理者能夠在資訊安全的環境下提供豐富而且有價值的資料庫,研究人員能夠在友善的環境下進行數據分析,進而產出能夠增進社會福祉的成果,因此建議資料庫管理單位可以參考「信任研究環境」的五個安全面向來檢視各資料庫管理單位的運作。