本發(fā)明屬于生物數(shù)據(jù)分析,特別涉及一種肝細胞癌數(shù)據(jù)處理方法及系統(tǒng)。
背景技術:
1、肝細胞癌(hepatocellular?carcinoma,hcc)是最常見的惡性腫瘤之一。目前肝癌的流行病學現(xiàn)狀不容樂觀,需要在hcc的預防、診斷、治療、預后評估的各個方面需求新的突破點。
2、需要說明的是,多數(shù)基于機器學習理論構建的預后預測模型采用事先確定的算法,使其獲得的預測結果充滿了主觀性,并且往往不能發(fā)揮模型的最大預測效能。
技術實現(xiàn)思路
1、基于此,本發(fā)明實施例當中提供了一種肝細胞癌數(shù)據(jù)處理方法及系統(tǒng),旨在建立預后模型,提高預測準確性。
2、本發(fā)明實施例的第一方面提供了一種肝細胞癌數(shù)據(jù)處理方法,所述方法包括:
3、利用cibersort工具結合加權基因共表達網絡分析,篩選與m2型巨噬細胞浸潤存在正向相關的基因集;
4、通過差異表達分析以及預后相關性分析,從所述基因集中確定具有預后價值的目標基因;
5、獲取包含所述目標基因的數(shù)據(jù)集,采用綜合性機器學習算法,在各數(shù)據(jù)集中生成對應的若干預后預測模型;
6、計算不同數(shù)據(jù)集下各預后預測模型的c-index,并計算c-index的平均值,確定c-index的最大平均值對應的預后預測模型;
7、判斷c-index的最大平均值對應的預后預測模型是否唯一;
8、若是,則將c-index的最大平均值對應的預后預測模型確定為目標預后預測模型;
9、若否,則根據(jù)不同數(shù)據(jù)集下各預后預測模型的c-index,分別計算c-index的最大平均值對應的預后預測模型的復雜度,并將復雜度最小值對應的預后預測模型確定為目標預后預測模型。
10、進一步的,數(shù)據(jù)集為肝細胞癌用戶的rna-seq數(shù)據(jù)集,包括tcga數(shù)據(jù)集、icgc數(shù)據(jù)集、gse14520數(shù)據(jù)集和gse76427數(shù)據(jù)集?。
11、進一步的,所述利用cibersort工具結合加權基因共表達網絡分析,篩選與m2型巨噬細胞浸潤存在正向相關的基因集的步驟包括:
12、將tcga數(shù)據(jù)集中的整體rna測序數(shù)據(jù)帶入cibersort工具,生成對應數(shù)據(jù)集中每個肝細胞癌樣本的免疫細胞浸潤表達矩陣;
13、采用加權基因共表達網絡分析,對數(shù)據(jù)集中每個肝細胞癌樣本的免疫細胞浸潤表達矩陣進行分析;
14、將鄰域關系轉換為拓撲重疊矩陣,根據(jù)不同拓撲重疊矩陣度量的平均值聚類成鏈層次結構,并確定與m2型巨噬細胞浸潤存在正向相關的基因集。
15、進一步的,所述采用加權基因共表達網絡分析,對數(shù)據(jù)集中每個肝細胞癌樣本的免疫細胞浸潤表達矩陣進行分析的步驟中,獨立度β值設置為0.9,并且選取平均表達量>0.5的肝細胞癌樣本進行分析。
16、進一步的,所述通過差異表達分析以及預后相關性分析,從所述基因集中確定具有預后價值的目標基因的步驟包括:通過轉錄組表達差異分析,以|logfc|≥1.5為閾值,確定tcga數(shù)據(jù)集中的在肝細胞癌組織與正常肝臟組織之間的第一差異表達基因,其中,|logfc|為對數(shù)化的倍數(shù)變化的絕對值;
17、尋找所述第一差異表達基因與m2型巨噬細胞的相同成員,確定肝細胞癌組織與正常肝臟組織之間的第二差異表達基因;
18、采用cox回歸分析法,比較所述第二差異表達基因的表達與肝細胞癌用戶的總體生存時間的相關性,確定所述目標基因。
19、進一步的,所述綜合性機器學習算法包括survivalsvm、superpc、enet、stepcox、ridge回歸、plsrcox、rsf和gbm在內的8種單一算法和22種聯(lián)合算法。
20、進一步的,所述根據(jù)不同數(shù)據(jù)集下各預后預測模型的c-index,分別計算c-index的最大平均值對應的預后預測模型的復雜度的步驟包括:
21、確定c-index的最大平均值對應的預后預測模型的似然函數(shù),似然函數(shù)中包括預后預測模型的參數(shù)向量;
22、將似然函數(shù)取對數(shù),得到對數(shù)似然函數(shù),然后對參數(shù)向量求導并令導數(shù)為零,求解出使得對數(shù)似然函數(shù)最大的參數(shù)估計值,得到最大似然估計值;
23、確定c-index的最大平均值對應的預后預測模型的參數(shù)數(shù)量,根據(jù)所述參數(shù)數(shù)量和所述最大似然估計值,計算得到復雜度;
24、根據(jù)數(shù)值從大到小,將不同數(shù)據(jù)集下各預后預測模型的c-index進行排名,根據(jù)排名結果以及數(shù)據(jù)集的重要程度,確定不同數(shù)據(jù)集下各預后預測模型的c-index對應的調整因子;
25、根據(jù)所述調整因子和所述復雜度,計算得到目標復雜度。
26、本發(fā)明實施例的第二方面提供了一種肝細胞癌數(shù)據(jù)處理系統(tǒng),用于實現(xiàn)第一方面提供的肝細胞癌數(shù)據(jù)處理方法,所述系統(tǒng)包括:
27、篩選模塊,用于利用cibersort工具結合加權基因共表達網絡分析,篩選與m2型巨噬細胞浸潤存在正向相關的基因集;
28、第一確定模塊,用于通過差異表達分析以及預后相關性分析,從所述基因集中確定具有預后價值的目標基因;
29、生成模塊,用于獲取包含所述目標基因的數(shù)據(jù)集,采用綜合性機器學習算法,在各數(shù)據(jù)集中生成對應的若干預后預測模型;
30、計算模塊,用于計算不同數(shù)據(jù)集下各預后預測模型的c-index,并計算c-index的平均值,確定c-index的最大平均值對應的預后預測模型;
31、判斷模塊,用于判斷c-index的最大平均值對應的預后預測模型是否唯一;
32、第二確定模塊,用于若判斷c-index的最大平均值對應的預后預測模型唯一,則將c-index的最大平均值對應的預后預測模型確定為目標預后預測模型;
33、第三確定模塊,用于若判斷c-index的最大平均值對應的預后預測模型不唯一,則根據(jù)不同數(shù)據(jù)集下各預后預測模型的c-index,分別計算c-index的最大平均值對應的預后預測模型的復雜度,并將復雜度最小值對應的預后預測模型確定為目標預后預測模型。
34、本發(fā)明實施例的第三方面提供了一種計算機可讀存儲介質,其上存儲有計算機程序,該程序被處理器執(zhí)行時實現(xiàn)第一方面提供的肝細胞癌數(shù)據(jù)處理方法。
35、本發(fā)明實施例的第四方面提供了一種電子設備,包括存儲器、處理器以及存儲在存儲器上并在處理器上運行的計算機程序,所述處理器執(zhí)行所述程序時實現(xiàn)第一方面提供的肝細胞癌數(shù)據(jù)處理方法。
36、本發(fā)明實施例當中提供的一種肝細胞癌數(shù)據(jù)處理方法及系統(tǒng),該方法通過利用cibersort工具結合加權基因共表達網絡分析,篩選與m2型巨噬細胞浸潤存在正向相關的基因集;通過差異表達分析以及預后相關性分析,從所述基因集中確定具有預后價值的目標基因;獲取包含所述目標基因的數(shù)據(jù)集,采用綜合性機器學習算法,在各數(shù)據(jù)集中生成對應的若干預后預測模型;計算數(shù)據(jù)集在對應預后預測模型的c-index,并根據(jù)c-index和預后預測模型的復雜度,篩選目標預后預測模型,最終篩選得到的目標預后預測模型相比于傳統(tǒng)的在研究開始時就選定算法進行建模,其反映的預測結果更加具有客觀性和真實性,同時,該目標預后預測模型的預測準確性得到提高。