2025年2月5日,中國(guó)科學(xué)院廣州生物醫(yī)藥與健康研究院與北京大學(xué)生物醫(yī)學(xué)前沿創(chuàng)新中心(BIOPIC)/昌平實(shí)驗(yàn)室合作在Small Methods期刊上發(fā)表題為Learning Phenotype Associated Signature in Spatial Transcriptomics withPASSAGE的研究論文。該研究創(chuàng)新性地將整張切片作為計(jì)算建模的對(duì)象,提出了切片級(jí)別嵌入(slice-levelembedding)的深度學(xué)習(xí)算法,有效地增強(qiáng)了算法的計(jì)算效率和可擴(kuò)展性,可應(yīng)用到大規(guī)模異質(zhì)性空間轉(zhuǎn)錄組學(xué)數(shù)據(jù)的表型關(guān)聯(lián)空間特征識(shí)別。
生命是細(xì)胞有序排列構(gòu)成的整體。單個(gè)細(xì)胞在脫離生物體后難以獨(dú)立發(fā)揮功能。因此需要聯(lián)合細(xì)胞所處的微環(huán)境和空間位置來(lái)全面理解細(xì)胞功能。隨著近年來(lái)空間組學(xué)技術(shù)的迅猛發(fā)展,已經(jīng)基于多種技術(shù)平臺(tái)產(chǎn)生了大量來(lái)自不同組織、器官的空間組數(shù)據(jù),如何精準(zhǔn)表征這些快速增長(zhǎng)的海量大規(guī)模異質(zhì)性數(shù)據(jù),不僅是相應(yīng)人工智能方法開(kāi)發(fā)的重大挑戰(zhàn),也是有效解析其中蘊(yùn)含豐富生物醫(yī)學(xué)信息的前提。
當(dāng)前的一些計(jì)算方法主要關(guān)注于單個(gè)或數(shù)個(gè)切片中細(xì)胞級(jí)別特征,對(duì)大量空間轉(zhuǎn)錄組學(xué)切片數(shù)據(jù)處理的效能不足。有別于此,PASSAGE提出基于多層次注意力的大規(guī)模異構(gòu)空間組學(xué)表征方法,從空間組切片(slice)、細(xì)胞與分子多個(gè)層次進(jìn)行不同粒度的表征學(xué)習(xí)與解析,有效增強(qiáng)了計(jì)算效率和可擴(kuò)展性。具體來(lái)說(shuō),PASSAGE在基于圖注意力自編碼器的細(xì)胞級(jí)表征基礎(chǔ)上設(shè)計(jì)了注意池化層(attention pooling layer),將同一切片的所有細(xì)胞加權(quán)融合成切片級(jí)表征,而后通過(guò)由表型信息指導(dǎo)的對(duì)比學(xué)習(xí)策略對(duì)切片級(jí)表征進(jìn)行優(yōu)化,并進(jìn)而采用非負(fù)矩陣分解方法獲得基因級(jí)別的注意力分?jǐn)?shù),從而實(shí)現(xiàn)對(duì)特定表型關(guān)聯(lián)空間組學(xué)特征的有效解析(圖1)。
例如,針對(duì)來(lái)自兩個(gè)不同空轉(zhuǎn)平臺(tái)(ST,Visium)、42個(gè)不同病人的103張乳腺組織與乳腺癌切片,PASSAGE不僅有效處理了不同樣本之間存在的批次效應(yīng),從而準(zhǔn)確識(shí)別出不同病人切片中與腫瘤相關(guān)的結(jié)構(gòu)區(qū)域(圖2A)。與此同時(shí),PASSAGE引入的分子水平注意力表征可從注意池化層權(quán)重中獲得與表型高度相關(guān)的基因集,如乳腺癌案例中PASSAGE識(shí)別的基因在之前的乳腺癌研究中已被發(fā)現(xiàn)與疾病進(jìn)程高度相關(guān),從而體現(xiàn)了模型較高的生物學(xué)可解釋性(圖2B)。此外,PASSAGE在鱗狀細(xì)胞癌數(shù)據(jù)集與三級(jí)淋巴結(jié)陽(yáng)性的腎細(xì)胞癌數(shù)據(jù)集的表現(xiàn)均體現(xiàn)了方法的優(yōu)良可拓展性,有望為癌癥等復(fù)雜疾病的空間特征和分子機(jī)制解析提供全新思路。
值得指出的是,上述多尺度表征學(xué)習(xí)架構(gòu)使得PASSAGE可以有效實(shí)現(xiàn)針對(duì)大規(guī)模異質(zhì)性空間轉(zhuǎn)錄組學(xué)數(shù)據(jù)的相關(guān)組學(xué)特征系統(tǒng)性解析,一張常規(guī)4090消費(fèi)級(jí)別GPU卡的算力即可達(dá)到平均每分鐘600個(gè)空間點(diǎn)/細(xì)胞的處理速度。隨著融入更多的訓(xùn)練數(shù)據(jù)以及對(duì)架構(gòu)進(jìn)一步優(yōu)化,PASSAGE有潛力構(gòu)建空間轉(zhuǎn)錄組學(xué)的基礎(chǔ)性人工智能算法模型。
中國(guó)科學(xué)院廣州生物醫(yī)藥與健康研究院彭廣敦研究員、北京大學(xué)生物醫(yī)學(xué)前沿創(chuàng)新中心(BIOPIC)/昌平實(shí)驗(yàn)室高歌教授和曹智杰博士為該論文共同通訊作者,實(shí)驗(yàn)室二年級(jí)碩士研究生郭臣凱與北京大學(xué)生命科學(xué)學(xué)院博士生夏辰睿為論文的共同第一作者。研究工作得到了國(guó)家自然科學(xué)基金、國(guó)家重點(diǎn)研發(fā)計(jì)劃、中國(guó)博士后基金、基因功能研究與操控全國(guó)重點(diǎn)實(shí)驗(yàn)室、北京未來(lái)基因診斷高精尖創(chuàng)新中心和昌平實(shí)驗(yàn)室的支持。
圖 1PASSAGE模型的結(jié)構(gòu)示意圖
圖2 ?A)PASSAGE在乳腺癌案例中成功學(xué)習(xí)到良好的切片級(jí)表征與所識(shí)別的表型關(guān)聯(lián)空間特征?B)PASSAGE在乳腺癌案例中成功學(xué)習(xí)到與表型關(guān)聯(lián)空間特征高度關(guān)聯(lián)的基因集
附件下載: