講者 : 李修安 博士後研究員
關鍵字: TRE、OPMD、FHIR、OMOP、BC platforms
文 / GHD團隊 / 曾文昶、李修安、陳冠文、劉貞沂、燕洛嫺、張立鑫
單一窗口團隊(GHD團隊)成立的目標是基於5 Safes原則建構「信任研究環境」(Trusted Research Environment, TRE)進行數據分析,並提供外部資料代管與數據安全環境分析應用服務。本年度團隊完善了TRE操作流程設計、應用架構規劃與上線,目前採用BC platforms軟體進行服務,並於2024台灣健康大數據整合服務平台年會中進行實機演示。
實機演示測試資料包含國衛院癌症研究所-口腔癌前病變(Oral Potentially Malignant Disorder, OPMD)研究模擬資料,以及衛生福利資料科學中心教學用模擬檔,透過資料管理者及資料使用者身分設定,模擬由研究團隊委託資料管理,由GHD團隊協助資料處理、上傳平台、後續使用者於平台進行分析並進行研究產出之情境,流程如下:
圖一: TRE平台架構示意圖
圖二: 現場演示情境介紹
1. 資料管理者將委託管理之資料進行資料清洗後,透過表單對應及資料轉換系統,協助進行國際標準轉換(FHIR、OMOP),提供後續平台應用、以及其他國際合作。
圖三: 資料轉換FHIR格式現場實機畫面
圖四: 資料轉換OMOP格式現場實機畫面
2. 資料管理者協助將轉換資料上傳至平台,提供資料使用者進行整合資料檢索,搜尋目標研究族群,並依照搜尋結果於平台進行資料申請。
圖五: BC platforms cohort搜尋及視覺化
3. 資料管理者審核資料申請,並依照許可申請之搜索結果,將符合條件之資料集,上傳至Workspace的資料使用空間。
4. 核准之資料使用者,於Workspace利用分析軟體,如R、python等,進行資料處理、分析,分析後將研究結果申請輸出。
5. 輸出結果審核通過後,將結果利用如以電子郵件等方式交付資料使用者。
整段過程,平台的使用皆需透過VPN連線,帳號登入及雙因子認證後,才能於平台上進行操作,於此情境下,對應5 safes原則之管控措施如下所示:
1. Safe people:僅經過認證,並簽署具有法律約束力的保密協議使用條款之使用者及管理者,可以進行平台的登入。
2. Safe projects:於TRE環境上進行資料研究,同樣需要檢附研究計畫,並通過如專家委員審查、IRB審查等。
3. Safe data:平台上分析之資料,需經過去識別化處理,於Workspace分析資料,透過防止資料出庫,避免資料外流之問題。
4. Safe settings:平台使用需透過特定VPN連線,並定期進行資安防護檢定,資料使用者操作過程也會透過系統Log進行記錄,用以追蹤使用者是否進行非法操作。
5. Safe outputs:分析結果攜出前,透過資料管理單位審查,確保沒有識別個資的風險後才能釋出。
圖六: 5 safes管理流程示意圖
GHD團隊在建構信任研究環境的前提下也最大程度的保留了資料分析的彈性,透過Workspace中提供的Jupyter Notebook、R studio server支援Python, R, Julia三種資料分析、統計、機器學習常用的程式語言,團隊同時能協助使用者安裝需要之python packages或R libraries,具有相當的可擴充性。
圖七: BCP Jupyter Notebook
在實機演示的環節,團隊成員利用Jupyter Notebook環境,同時運用R語言和Python進行了一系列的數據分析和統計建模。這不僅展現了系統的跨語言兼容性,也凸顯了其在處理複雜數據分析任務時的靈活性。具體而言,團隊首先展示了如何透過BC Platform的python module存取被授權的數據。這一步驟強調了系統在數據隱私和安全方面的嚴格控制。隨後,GHD團隊並示範了描述性統計與統計檢驗,包含卡方檢定(Chi-square test)與 T檢定(T-test)。隨後應用Lasso回歸(Lasso regression)進行特徵選擇,有效識別最具預測力的變數,並基於選定的變數,構建了邏輯回歸(Logistic regression)模型,用於預測二元結果,同時採用蒙特卡洛交叉驗證(Monte-Carlo cross validation)方法,全面評估模型的穩定性和泛化能力。最終透過R強大的視覺化能力繪製Forest plot與Nomogram。整個演示過程不僅展示了系統在處理複雜數據分析任務時的強大功能,也凸顯了其用戶友好的界面和操作流程。
圖八: 資料視覺化
GHD團隊期許與各資料管理單位及資料平台合作,並提供資料國際標準轉換及研究諮詢服務,共同建立「信任研究環境」,在確保資料安全情況下,同時盡可能維持對資料使用者友善之環境,提供了一個強大且靈活的工具平台,以符合數據科學和生物統計學研究的需求,促進研究產出。
圖九: 現場演示流程說明
圖十: BC platforms資料表權限設定說明