大數據挖掘在虛擬醫葯科研方面的思考

大數據挖掘在虛擬醫葯科研方面的思考
1.基於大數據挖掘的虛擬醫葯科研案例
數據挖掘發展到今天,按照時下的概念應該到了「大」數據挖掘的時代了。我們還是先從幾個相關案例開始吧。
1.1 虛擬臨床試驗-大數據採集
我們首先來看這樣一個案例。2011年06月,輝瑞制葯有限公司宣布開展一項「虛擬」臨床研究,該項研究是一個得到美國食品和葯物管理局批準的試點項目,首字母縮寫為「REMOTE」。「REMOTE」項目是在美國開展的第一項病人只需使用手機和互聯網、而不用重復跑醫院的臨床研究,該項目的目標是要確定此類「虛擬」臨床研究能否產生和傳統臨床研究一樣的結果。而傳統的臨床研究要求病人住在醫院附近,並且定期前往醫院或診所進行初次檢查和多次後續檢查。如果這一項目有效,那它可能意味著全美國的病人都能參加今後的許多醫學研究。這樣一來,原先的科研項目中未得到充分代表的群體將得以參加,數據收集速度將大大加快,而且成本也很可能會大幅下降,參與者退出的幾率也很可能會降低不少。
從上例中,我們可以看到,利用互聯網可以收集遠遠大於傳統臨床科研樣本數目的超大量病人的臨床數據,而且其中有些臨床數據可能來自於更加便捷的可穿戴健康監測設備。如果這樣的研究,在科研設計嚴謹、質量標准得到有效執行、各種誤差得到有效控制的情況下,科研的效率和成果的可信度可以顯著提高。正如輝瑞公司首席醫療官弗蕾達?劉易斯-霍爾所說的:「讓更多樣化的人群得以參與研究有可能會推動醫學進步,並為更多的病人帶來更好的療效。」
1.2 虛擬葯物臨床試驗-大數據挖掘
我們再來看另外一個案例。1992年,抗抑鬱葯物帕羅西汀(Paxil)獲准上市;1996年,降膽固醇葯物普拉固(Pravachol)正式開售。兩種葯品生產企業的研究證明:每種葯物在單獨服用時是有效且安全的。可是,患者要是同時服用兩種葯是否安全,沒有人知道,甚至很少有人想過。美國斯坦福大學的研究人員應用數據挖掘技術分析了數萬例患者的電子病歷後,很快發現了一個出人意料的答案:同時服用兩種葯物的患者血糖含量較高。這對於糖尿病患者來說影響很大,過多的血糖對他們來說是一種嚴重的健康威脅!科學家還通過分析血糖檢測結果和葯物處方,來尋找隱藏的規律。
對於單個醫生來說,他所經歷的同時服用這兩種葯物的病人是很有限的,雖然其中可能有少數的糖尿病患者莫名其妙地血糖升高了,但醫生很難意識到這是由於病人同時服用了Paxil和Pravachol造成的。因為這是一種掩藏在大數據中的隱含規律,如果不是有人有目的地專門研究Paxil和Pravachol聯合用葯的安全性的話,個體醫生是很難揭示這個規律的。但是,臨床葯品成千上萬,我們怎麼可能對任意組合的兩、三種葯聯合應用的安全性和有效性進行逐一研究呢?數據挖掘很可能是一種有效的、快速的、主動式的探索多種葯聯合應用問題的方法!
研究者不必再召集患者去做臨床試驗,那樣做的話花費太大了。電子病歷及其計算機應用的普及為醫療數據挖掘提供了新的機遇。科學家不再局限於通過召集志願者來開展傳統的課題研究,而是更多地從現實生活中的實驗中,如日常的大量的臨床案例中篩選數據並開展虛擬科研,這些並非來自計劃的課題立項的實驗數據保存在許多醫院的醫療記錄中。
類似本案例,應用數據技術使得研究人員可以找出在葯物批准上市時無法預見的問題,例如一種葯物可能對特定人群產生怎樣的影響。另外,對醫療記錄的數據挖掘不僅將為研究帶來好處,還會提高醫療服務系統的效率。
1.3 虛擬葯物靶標發現-知識發現
我們再看看這樣的一類研究。通常新葯研發的過程都比較漫長,投入巨大,風險也很高。有數據表明,新葯研發的平均時間長達15年,平均耗費超過8億美元。但是,由於葯物療效的不佳和毒副作用太高,使得許多葯物的研發經常在臨床階段就失敗了,造成了巨大的經濟損失。作為葯物研發的源頭,葯物靶標的發現和識別對葯物的研發成功率具有舉足輕重性的作用。隨著生物信息技術的不斷發展,以及蛋白質組學數據、化學基因組學數據的日益增長,應用數據挖掘技術結合傳統生物實驗技術,可為葯物新靶標的發現提供新的技術手段,為靶標識別預測提供新的方法。構建葯物靶標資料庫,利用智能計算技術和數據挖掘技術對現有的葯物靶標數據開展深入探索,以期發現新的葯物靶標正是這樣一類研究,我們也稱之為葯物靶標的知識發現。
傳統的葯物靶標的發現,通常大都是通過大量的、反復的生物化學實驗來實現的,不僅成本高、效率低,成功率也很低,猶如瞎子摸象一樣,不好掌握方向。而應用數據挖掘這一自動的、主動的、高效的探索技術,可以開展虛擬葯物靶標發現,不僅大大加快了葯物靶標發現的進程,而且大幅減少了生物化學實驗的次數和成本,同時也提高了傳統生化實驗的成功率。
2. 數據挖掘在虛擬醫葯科研上的應用
大數據時代,醫葯研發面臨更多的挑戰和機遇,為了更好的節約研發成本,提高新葯研發成功率,研發出更有競爭力的新葯,可以應用數據挖掘技術開展虛擬醫學科研和葯物研究。數據挖掘在虛擬醫葯科研上的應用,可以總結為如下幾個方面。
2.1 通過預測建模幫助制葯公司降低研發成本提高研發效率。模型基於葯物臨床試驗階段之前的數據集及早期臨床階段的數據集,盡可能及時地預測臨床結果。評價因素包括產品的安全性、有效性、潛在的副作用和整體的試驗結果。通過預測建模可以降低醫葯產品公司的研發成本,在通過數據建模和分析預測葯物臨床結果後,可以暫緩研究次優的葯物,或者停止在次優葯物上的昂貴的臨床試驗。
2.2 通過挖掘病人數據,評估招募患者是否符合試驗條件,從而加快臨床試驗進程,提出更有效的臨床試驗設計建議。例如: 通過聚類方法對患者群體進行聚類,尋找年齡、性別、病情、化驗指標等方面的特徵,判定是否滿足試驗條件,也可以根據這些特徵更好的設立對照組。
2.3 分析臨床試驗數據和病人記錄可以確定葯品更多的適應症和發現副作用。在對臨床試驗數據和病人記錄進行分析後,可以對葯物進行重新定位,或者實現針對其他適應症的營銷。通過關聯分析等方法對試驗數據進行挖掘可能會發現事先想不到一些成果,大大提高數據的利用程度。
2.4 實時或者近乎實時地收集不良反應報告可以促進葯物警戒。葯物警戒是上市葯品的安全保障體系,對葯物不良反應進行監測、評價和預防。通過聚類、關聯等大數據挖掘手段分析葯品不良反應的情況,用葯、疾病、不良反應的表現,是否跟某種化學成分有關等。例如不良反應症狀的聚類分析,化學成分與不良反應症狀的關聯分析等。另外在一些情況下,臨床實驗暗示出了一些情況但沒有足夠的統計數據去證明,現在基於臨床試驗大數據的分析可以給出證據。
2.5 針對性葯物研發:通過對大型數據集(例如基因組數據)的分析發展個性化葯物。這一應用考察遺傳變異、對特定疾病的易感性和對特殊葯物的反應的關系,然後在葯物研發和用葯過程中考慮個人的遺傳變異因素。很多情況下,病人用同樣的用葯方案但是療效卻不一樣,部分原因是遺傳變異。針對同病種的不同的患者研發不同的用葯,或者給出不同的用法。
2.6 對葯物化學成分的組合和葯理進行挖掘,激發研發人員的靈感。例如針對於中醫葯物研發,用數據挖掘手段對於中葯方劑和癥候進行分析研究,探討方劑和針對症狀之間的聯系,從功效、歸經、葯性和葯味等方面進行分類特徵分析。
3. 虛擬葯物臨床試驗分析系統
現在越來越多的臨床科研和葯物臨床試驗都是從日常的臨床工作中生成的大數據中經過嚴格的條件篩選來提取數據的。正如我們在本文1.1和1.2中提到的案例一樣,所謂虛擬葯物臨床試驗,是以更廣泛的臨床數據採集,和從海量的醫院電子化的病歷中按照事先的設計需求經過嚴格的條件篩選來開展的,雖然是虛擬的方法而不是傳統的方法,這種葯物臨床試驗研究有樣本代表更廣泛、成本低、效率高、研究成果更豐富等優點。採用虛擬研究的方法可以完全替代某些傳統的葯物臨床研究,也可以作為某些傳統的葯物臨床研究的預試驗或探索性研究,以使真正的葯物臨床研究工作多、快、好、省。我們現在來看一下虛擬葯物臨床試驗分析系統是如何工作的。
3.1 虛擬葯物研究的基本思路
1、建設葯物臨床試驗數據倉庫,充分整合和積累的臨床數據和葯物應用數據。 2、設計、選取葯物臨床試驗的觀察組樣本與對照組樣本。 3、應用數據挖掘技術探索葯物對於疾病治療的效果和產生的副作用。 4、應用統計學技術進行葯物臨床試驗效果的推斷和評價。
3.2 建立葯物臨床數據倉庫
建設葯物臨床試驗數據倉庫有兩種途徑,一種是通過經典的葯物臨床試驗設計來定製化和採集相關數據,傳統的方法主要記錄在紙質文檔上,也有專門數據錄入軟體,這種方法採集的數據是按照預先設計進行的,直接形成葯物臨床試驗的專用數據,但通常樣本數據量不會太大;另外一種是將醫院大量的、歷史的臨床用葯數據進行抽取、變換、裝載,然後充分整合積累的其他臨床數據和葯物應用數據,形成葯物臨床試驗數據源,為生成葯物臨床試驗數據提供支撐,這樣的樣本數據量可能很大,我們後面演示的方法就是採用種數據進行「虛擬」樣本篩選和分析的。
3.3 葯物臨床試驗樣本設計
葯物臨床試驗樣本根據葯物研究的需要可以有很多設計,例如單因素單水平設計,單因素兩水平設計,單因素多水平設計,配對設計設計,區組設計設計,重復測量設計等。我們這里以兩因素區組設計為例來介紹一下樣本篩選。本例僅以方法演示為目的,不考慮嚴格的醫學專業意義。
本研究的疾病為動脈硬化心臟病,處理因素為葯物應用,共有三種葯物,分別為倍他樂克、諾和靈、硝酸異山梨脂。區組因素為年齡,分了三個年齡段。觀察指標為血鈉。我們科研設計按照「三要素、四原則」進行數據篩選。所謂「三要素」是研究人群,處理因素和觀察對象。所謂四原則是指隨機、對照、重復、均衡等原則。按照如下圖一的輸入條件,可以將數據集篩選出來,然後再用統計分析工具進行統計分析。

3.4 葯物臨床數據挖掘
應用數據挖掘技術不僅可以提高葯物臨床數據的利用程度,而且可以探索和發現葯物臨床應用中的新的積極作用和新的消極作用。利用多種數據挖掘方法分析臨床試驗數據和病人的電子化數據,可以確定葯物更多的適應症和發現未知的副作用。在對臨床試驗數據和病人記錄進行挖掘分析後,可以對葯物進行重新定位,或者實現針對其他適應症的推廣應用。通過對葯物試驗數據進行挖掘可能會發現意想不到一些成果,大大提高數據的應用效益。
如本例,我們使用數據挖掘的方法深入研究葯物對於實驗室指標的影響。探索和發現葯物臨床應用中的正負影響,可以通過觀察病人用葯前後的很多醫學特徵和生理指標來進行,而觀察更加客觀的各種實驗室指標是很多葯物研究的必備設計之一。下面是一個應用倍他樂克葯物治療冠心病的研究,我們應用了數據挖掘的有關技術分析了倍他樂克的血葯濃度的變化對病人各個實驗室指標的影響,如下圖二,顯示了部分實驗室指標的影響結果。

以上結果需要與臨床醫務人員以及葯物研究人員共同探討。在刨去了各種人為因素以及業務系統客觀影響因素之後,我們可以發現先前未知的倍他樂克對病人生理指標的影響,其中有些影響在醫學上可能是積極的,而有些影響在醫學上可能是反面的。
3.5 統計分析設計
虛擬葯物臨床試驗分析系統的統計分析模塊,包含了葯物研發中常用的統計分析方法,如T檢驗、方差分析、相關分析、回歸分析、非參數檢驗等,設計思路按照統計學思維,首先對數據進行驗證,根據驗證結果選擇統計分析方法。下面我們以重復測量設計為例進行說明。
本研究的疾病為動脈硬化心臟病,處理因素為葯物應用倍他樂克,觀察指標為我們從數據挖掘中發現有影響的血鉀指標。我們可以使用3.3提供的模塊對篩選的樣本進行提取和分析,也可以從本模塊直接選取所需的數據並分析。重復測量分析有兩種方法,一個是Hotelling T2檢驗,另一個是方差分析,本系統提供了這兩種統計檢驗方法。
部分樣本數據如下圖三所示:

這里,我們僅觀察一下方差分析方法的結果輸出,如下圖四所示。

從圖中我們可以看到,根據P值得到:處理因素「倍他樂克」葯物對血鉀起作用,測量時間對血鉀有影響,處理因素和測量時間有交互影響。從而驗證了我們應用數據挖掘得到的結果。
4. 數據挖掘在中葯研發上的應用
以上內容,我們重點是以西葯的研究應用為例來說明以數據挖掘為特色的虛擬醫葯研究的方法。其實,數據挖掘和虛擬葯物研究還非常適合於中醫中葯的研究工作,因為中醫學本身是一個經過幾千年不斷摸索、積累和驗證的、知識體系龐大的、具有完整理論體系的醫學科學,但我們還需要應用現代知識不斷地深入理解、挖掘、提高和應用,以便與現代科學能更好地融合。而數據挖掘正是探索和解釋中醫學奧秘的有力工具!
國內許多單位也開展一些中醫中葯數據挖掘的局部性的嘗試。現在,我們就將這些數據挖掘在中醫中葯研究中的嘗試加以匯總,分列如下: 1、中葯配方中的文本數據挖掘; 2、對「葯理」起關鍵作用的「有效成分」——單體或化學成分的挖掘; 3、中葯方劑配伍規律的數據挖掘與研究; 4、方劑配伍物質基礎與葯效如(證侯、症狀)關系的數據挖掘; 5、方劑配伍的用量與方劑效用級別間的關系(量效關系及模型) 挖掘; 6、中葯葯性理論與中葯有效成份的關系挖掘; 7、方劑中各葯味間的相關性挖掘; 8、相似病症的隱含相似關系挖掘; 9、同種疾病不同葯方的相似性和差異性的挖掘和研究。 10、數據挖掘用於不確切病症的分類和研究。

❷ 大數據挖掘常用的方法有哪些

1. Analytic Visualizations(可視化分析)

不管是對數據分析專家還是普通用戶,數據可視化是數據分析工具最基本的要求。可視化可以直觀的展示數據,讓數據自己說話,讓觀眾聽到結果。

2. Data Mining Algorithms(數據挖掘演算法)
可視化是給人看的,數據挖掘就是給機器看的。集群、分割、孤立點分析還有其他的演算法讓我們深入數據內部,挖掘價值。這些演算法不僅要處理大數據的量,也要處理大數據的速度。

3. Predictive Analytic Capabilities(預測性分析能力)
數據挖掘可以讓分析員更好的理解數據,而預測性分析可以讓分析員根據可視化分析和數據挖掘的結果做出一些預測性的判斷。

4. Semantic Engines(語義引擎)
由於非結構化數據的多樣性帶來了數據分析的新的挑戰,需要一系列的工具去解析,提取,分析數據。語義引擎需要被設計成能夠從「文檔」中智能提取信息。

5. Data Quality and Master Data Management(數據質量和數據管理)

數據質量和數據管理是一些管理方面的最佳實踐。通過標准化的流程和工具對數據進行處理可以保證一個預先定義好的高質量的分析結果。

❸ 職業體檢中,大數據的挖掘難度大不大

難度大,數據的深度發掘從來都不容易,而且不是一朝一夕的。現在很多公司都有大數據概念,但是真正落到實處的少之又少,推薦看看搜前途,值得參考。

❹ 何謂大數據大數據的特點,意義和缺陷.

大數據(big data),指無法在一定時間范圍內用常規軟體工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。

大數據的5V特點(IBM提出):Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價值密度)、Veracity(真實性)。

大數據,更多的功能是分析過去,提醒現在,展望未來。廣泛應用於商業領域,藉以實現精準營銷,預測趨勢,實現商業利益的最優與最大。體現的價值為:

(1)利用大數據針對大量消費者的消費習慣,精準提供產品或服務;

(2)利用大數據做服務轉型,做小而美模式;

(3)不能充分利用大數據價值的企業,將會在互聯網壓力之下搖搖欲墜。

國家通過結合大數據和高性能的分析,是指效率更加提高,同時也能降低國家運行成本。如:

(1)為成千上萬的車輛規劃實時交通路線,躲避擁堵;

(2)及時解析問題和缺陷的根源,是制度更加完善。

(3)使用點擊流分析和數據挖掘來規避欺詐行為。

大數據的缺陷:

企業遭到黑客攻擊,客戶的資料大量非法流出,再利用大數據分析挖掘,人群進行分類排除,從而讓人更容易受騙。

(4)大數據挖掘健康狀態擴展閱讀:

2016年3月17日,《中華人民共和國國民經濟和社會發展第十三個五年規劃綱要》發布,其中第二十七章「實施國家大數據戰略」提出:把大數據作為基礎性戰略資源,全面實施促進大數據發展行動,加快推動數據資源共享開放和開發應用,助力產業轉型升級和社會治理創新。

具體包括:加快政府數據開放共享、促進大數據產業健康發展。

❺ 大數據分析,挖掘和應用服務能力建設情況指的是什麼

1. 開源大數據生態圈
Hadoop HDFS、Hadoop MapRece, HBase、Hive 漸次誕生,早期Hadoop生態圈逐步形成。
開源生態圈活躍,並免內費,但Hadoop對技術要求高,容實時性稍差。

2. 商用大數據分析工具
一體機資料庫/數據倉庫(費用很高)

IBM PureData(Netezza), Oracle Exadata, SAP Hana等等。

數據倉庫(費用較高)
Teradata AsterData, EMC GreenPlum, HP Vertica 等等。

數據集市(費用一般)
QlikView、 Tableau 、國內永洪科技Yonghong Data Mart 等等。

前端展現
用於展現分析的前端開源工具有JasperSoft,Pentaho, Spagobi, Openi, Birt等等。
用於展現分析商用分析工具有Cognos,BO, Microsoft, Oracle,Microstrategy,QlikView、 Tableau 、國內永洪科技Yonghong Z-Suite等等。
-

❻ 醫療大數據的分析和挖掘發展現狀如何未來會有什麼樣的應用前景

如今是大數據時代,前景自然好了,據前瞻產業研究院《2016-2021年中國行業大數據市場發展前景預測與投資戰略規劃分析報告》顯示,總的來說,醫療大數據應用主要體現在臨床操作、研發、新的商業模式、付款/定價、公眾健康五大領域,在這些場景中,大數據的分析和應用都將發揮巨大的作用。
醫療大數據的應用對於臨床醫學研究、科學管理和醫療服務模式轉型發展都具有重要意義,而大數據技術的運用前景是十分光明的。
醫院和醫療行業面臨的大數據主要有醫學影像、視頻(教學、監控)及文獻等非結構化數據。由於這些數據增長很快且結構復雜,給數據管理和利用帶來較大的壓力,存儲與管理成本不斷提高,數據利用困難、利用率低。除了數據數量和形態的迅速增加,醫療數據還需要越來越長的保留期。一旦存儲系統的安全性出現問題,導致醫療數據丟失,醫院會面臨嚴重不良局面。醫療大數據的應用要保證數據的全面性、准確性、實時性和使用的便捷性,要能快速運算和快速展現,要與日常工作平台緊密結合。
國人已經把健康大數據上升為國家戰略,而面對「大數據」的挑戰,醫院必須考慮三大主要問題。
(1) 數據存儲是否安全可靠?因為系統一旦出現故障,首先考驗的就是數據的存儲、災備和恢復能力。如果數據不能迅速恢復,而且恢復不能到斷點,則將對醫院的業務、患者滿意度構成直接損害。
(2) 如何提高醫院運行和服務的效率?提高效率就是節省醫生的時間,從而緩解醫療資源的緊張狀況,在一定程度上可以幫助解決「看病難」的問題。
(3) 如何控制大數據的成本?存儲架構是否合理,不僅影響醫院IT系統的成本,而且關乎醫院的運營成本,醫療數據激增,使醫院普遍存在著較大的存儲擴容壓力。如今,醫院的存儲設備大多是由不同廠商構成的完全異構的存儲系統。這些不同的存儲設備利用各自不同的軟體工具來進行控制和管理,這樣就增加了整個系統的復雜性,使管理成本非常高。
未來,大數據必將影響醫療行業,未來醫療行業的大數據將會具體應用在:臨床輔助決策,醫療質量監管,疾病預測模型,臨床實驗分析。其發展空間有:個人健康門戶,慢病管理和健康管理,電子病歷和臨床質量監控,醫學知識管理,臨床路徑和循證醫學,遠程醫療和移動醫療,醫學研究數據倉庫和共享平台,跨醫療機構協作平台。

❼ 大數據挖掘中的流數據什麼意思

流數據是指由數千個數據源持續生成的數據,通常也同時以數據記錄的形式發送,規模較小(約幾千位元組)。流數據包括多種數據,例如客戶使用您的移動或 Web 應用程序生成的日誌文件、網購數據、游戲內玩家活動、社交網站信息、金融交易大廳或地理空間服務,以及來自數據中心內所連接設備或儀器的遙測數據。此類數據需要按記錄或根據滑動時間窗口按順序進行遞增式處理,可用於多種分析,包括關聯、聚合、篩選和取樣。
藉助此類分析得出的信息,公司得以深入了解其業務和客戶活動的方方面面,例如服務使用情況(用於計量/計費)、伺服器活動、網站點擊量以及設備、人員和實物的地理位置,從而迅速對新情況做出響應。

❽ 大數據挖掘方法有哪些

方法1.Analytic Visualizations(可視化分析)


無論是日誌數據分析專家還是普通用戶,數據可視化都是數據分析工具的最基本要求。可視化可以直觀地顯示數據,讓數據自己說話,讓聽眾看到結果。


方法2.Data Mining Algorithms(數據挖掘演算法)


如果說可視化用於人們觀看,那麼數據挖掘就是給機器看的。集群、分割、孤立點分析和其他演算法使我們能夠深入挖掘數據並挖掘價值。這些演算法不僅要處理大量數據,還必須盡量縮減處理大數據的速度。


方法3.Predictive Analytic Capabilities(預測分析能力)


數據挖掘使分析師可以更好地理解數據,而預測分析則使分析師可以根據可視化分析和數據挖掘的結果做出一些預測性判斷。


方法4.semantic engine(語義引擎)


由於非結構化數據的多樣性給數據分析帶來了新挑戰,因此需要一系列工具來解析,提取和分析數據。需要將語義引擎設計成從“文檔”中智能地提取信息。


方法5.Data Quality and Master Data Management(數據質量和主數據管理)


數據質量和數據管理是一些管理方面的最佳實踐。通過標准化流程和工具處理數據可確保獲得預定義的高質量分析結果。


關於大數據挖掘方法有哪些,青藤小編就和您分享到這里了。如果您對大數據工程有濃厚的興趣,希望這篇文章可以為您提供幫助。如果您還想了解更多關於數據分析師、大數據工程師的技巧及素材等內容,可以點擊本站的其他文章進行學習。