AI時代的觀察性健康數據研究 - 以OMOP CDM為例
講者 : 許明暉教授 臺北醫學大學數據處 數據長 / 臺北醫學大學大數據科技及管理研究所 所長 / 教授
關鍵字: OMOP CDM、AI、OHDSI
文 / GHD團隊 / 李修安、沈衍如
圖一:許明暉教授演講剪影
臺北醫學大學數據處數據長許明暉教授於年會中以「AI時代觀察性健康數據的研究方法」進行數據應用的重要性演講,特別是針對OMOP CDM(通用醫療觀察資料模型)的應用,演講中說明觀察性健康數據的發展趨勢、AI技術在數據分析中的應用,以及OMOP CDM在提升健康數據研究互通性(interoperability)和準確性(accuracy)的重要性。
隨著AI技術的快速發展,在健康數據的聽、說、讀、寫、翻譯、繪圖、影像辨識、數據分析、動畫製作等方面已經顯現出突破性進展,這些技術不僅能夠從自由文本(如:病理報告)中擷取結構化資訊,還能提高數據分析的效率和準確性。AI技術的進步很大程度上得益於硬體算力的突破,尤其是GPU的發展。GPU的高性能計算能力使得大量數據可以在短時間內進行處理和分析,進而加速AI算法在健康數據分析中的應用。
OMOP CDM是一種標準化的數據模型,專門用於統一不同數據源的結構和內容,以便於跨機構、跨國家甚至全球的數據互通性。許教授強調,OMOP CDM在觀察性健康數據研究中具有關鍵作用,因為它能夠將異構數據轉換為可比較的格式,進一步支援多中心研究和大規模數據分析。OMOP CDM是OHDSI項目的核心組成部分。OHDSI是一個國際性的研究聯盟,推動開放科學數據分析和觀察性健康數據研究,OHDSI社群利用OMOP CDM開展多中心、多國的研究,這種模式有助於提升數據的互操作性互通性和研究結果的可比性。目前臺灣的多家醫院已經採用了OMOP CDM來進行數據標準化,並參與了國際研究,如2023年在《JAMA Network Open》上發表的一項由7個國家、11家醫院共同完成的研究。
圖二:OHDSI資料標準化 [Ref:演講投影片]
圖三:OHDSI資料標準化詞彙 [Ref:演講投影片]
All of Us是美國國家衛生研究院(National Institutes of Health, NIH)發起的一項大型觀察性健康數據計畫,目的是收集和分析多樣化的健康數據,支援精準醫療的發展,利用OMOP CDM對收集到的健康數據進行標準化處理,這些數據來自電子健康記錄、基因體數據、實驗室結果等多種來源。另外,AI技術在All of Us計畫中被用來分析和預測不同健康指標的發展趨勢,例:預測某些疾病的發生率、治療效果等。AI算法的使用可以在大規模數據中快速識別出潛在的健康風險,並提供治療策略的建議,進而完善個人化醫療。
由於觀察性健康數據來自不同的機構,其數據品質可能存在差異。為了提升數據分析的準確性,需要對數據進行預處理,包括數據清洗、標準化和一致性檢查。
在使用觀察性健康數據時,必須遵守數據隱私保護規範,例如去識別化處理。演講中特別強調了去識別數據在AI研究中的重要性,因為這種數據處理方式不屬於人體研究範疇,因而可以在更大的範圍內進行分析和應用,AI算法的複雜性和黑箱性使得結果的解釋變得困難,未來的研究應該更加關注算法的透明性和可解釋性,以便提升AI應用在醫療數據分析中的可信度。
標準化資料欄位與AI技術的結合將成為未來健康數據研究的主要趨勢。隨著更多國際合作項目的推進和技術的進一步發展,標準化數據為AI發展提供基礎,提供更智慧的醫療解決方案。