首頁 資訊 跨物種細胞圖譜:陳

跨物種細胞圖譜:陳

來源:泰然健康網(wǎng) 時間:2025年06月01日 07:02
The Cross-Species Cell Atlas: Chan Zuckerberg Initiative Releases TranscriptFormer AI Model

美國英語科技、生物

新聞源:GEN - Genetic Engineering and Biotechnology News

2025-04-30 21:00:00閱讀時長4分鐘1709字

TranscriptFormerAI模型細胞生物學(xué)人類健康疾病狀態(tài)識別細胞療法免疫系統(tǒng)疾病檢測預(yù)防細胞類型分類跨物種分析

內(nèi)容摘要

陳-扎克伯格倡議(CZI)發(fā)布了新的生成式AI模型TranscriptFormer,該模型基于覆蓋15億年進化的單細胞轉(zhuǎn)錄組學(xué)數(shù)據(jù)訓(xùn)練而成,能夠跨物種探究細胞生物學(xué),為治療應(yīng)用提供支持。

“嘿,模型,如果我用某個細胞類型的標(biāo)記基因提示你,你能完成這些基因表達的轉(zhuǎn)錄因子嗎?” 陳-扎克伯格倡議(CZI)的人工智能負責(zé)人Theofanis Karaletsos提出了這個問題。他設(shè)想了一個未來,在這個未來中,科學(xué)家不再需要通過大量的文獻、數(shù)據(jù)和實驗來提出一個非常具體的生物學(xué)問題。

相反,Karaletsos看到了一個轉(zhuǎn)折點,即AI模型可以從大數(shù)據(jù)中提取模式,按需產(chǎn)生有意義的生物學(xué)見解,這與查詢ChatGPT和瀏覽數(shù)百本圖書館書籍之間的區(qū)別。

為了實現(xiàn)這一愿景,Karaletsos和他的CZI同事發(fā)布了TranscriptFormer,這是一種生成式多物種模型,用于跨生物體探究細胞生物學(xué)。

這篇預(yù)印本已發(fā)布在bioRxiv上,尚未經(jīng)過同行評審,作者展示了TranscriptFormer可以被提示預(yù)測特定細胞類型的轉(zhuǎn)錄因子和基因-基因相互作用,這些預(yù)測與獨立實驗觀察結(jié)果一致。

TranscriptFormer是在來自12個不同物種的超過1.1億個細胞的單細胞轉(zhuǎn)錄組學(xué)數(shù)據(jù)上訓(xùn)練的,從而涵蓋了15億年的進化。該模型的其他廣泛功能包括疾病狀態(tài)識別、比較生物學(xué)、編碼多層次生物結(jié)構(gòu)等。

“如果你考慮細胞圖譜領(lǐng)域,人們在過去十年里一直在生成數(shù)據(jù),但沒有人知道如何將這些數(shù)據(jù)整合成一個單一的參考。”CZI科學(xué)負責(zé)人Stephen Quake博士在接受《GEN》雜志采訪時說,“我們認為TranscriptFormer可以像對所有細胞圖譜數(shù)據(jù)進行基因組組裝一樣。”

Quake表示,TranscriptFormer將在設(shè)計合成生物學(xué)和細胞療法的工程細胞狀態(tài)方面提供強大的應(yīng)用,同時還能提供進化見解,以理解物種之間的關(guān)系。

TranscriptFormer是CZI虛擬細胞計劃的一個進步,這是非營利組織在四月份設(shè)定的四個科學(xué)重大挑戰(zhàn)之一,旨在通過AI和生物學(xué)的交叉來改變?nèi)祟惤】?。其他挑?zhàn)包括開發(fā)成像技術(shù)以繪制復(fù)雜的生物系統(tǒng)圖譜,創(chuàng)建新的工具以實時測量組織中的炎癥,以及利用免疫系統(tǒng)進行疾病的早期檢測、預(yù)防和治療。

此外,CZI認為“你需要更多的數(shù)據(jù)”,同時在選擇要生成的數(shù)據(jù)時要有策略。TranscriptFormer的發(fā)布緊隨CZI于二月份宣布的十億細胞項目,該項目與10X Genomics和Ultima Genomics合作,生成前所未有的十億細胞數(shù)據(jù)集,以推動生物學(xué)中AI模型的快速發(fā)展。

CZI并不是唯一涉足虛擬細胞領(lǐng)域的實體。本周早些時候,Arc研究所宣布了擴展Arc虛擬細胞圖譜的努力。這家位于帕洛阿爾托的研究機構(gòu)也以在大數(shù)據(jù)驅(qū)動的AI方面進行大規(guī)模投資而聞名。今年二月,Arc與Nvidia合作構(gòu)建的基因組基礎(chǔ)模型Evo 2引起了轟動,成為迄今為止最大的公開可用的生物AI模型。

什么是細胞類型

根據(jù)作者的說法,TranscriptFormer展示了擴大進化預(yù)訓(xùn)練數(shù)據(jù)如何增強模型在任務(wù)和物種上的泛化能力。

“我們沒有賦予模型關(guān)于‘什么是細胞類型’或‘什么是物種’的知識。它看到數(shù)百萬個細胞并學(xué)習(xí)出現(xiàn)的結(jié)構(gòu),”Karaletsos告訴《GEN》。

在細胞類型分類中,TranscriptFormer成功地識別了新物種的細胞類型,這些新物種在訓(xùn)練過程中未見過,并且相隔超過6.85億年的進化距離。在疾病狀態(tài)預(yù)測中,該模型有效地分離了感染SARS-CoV-2的健康和患病細胞,無需特定的COVID-19細胞數(shù)據(jù)集。TranscriptFormer還能夠?qū)W習(xí)多層次生物結(jié)構(gòu)的出現(xiàn)特性,并根據(jù)不同的組織環(huán)境對細胞進行聚類。

此外,Karaletsos強調(diào),跨物種分析的能力提供了闡明模型生物如何轉(zhuǎn)化為人類的機會。

“我們知道小鼠教會了我們很多關(guān)于毒性和一期臨床試驗的知識,但在機制上,我們還沒有一個模型來預(yù)測哪些東西會轉(zhuǎn)移,哪些不會?!盞araletsos告訴《GEN》?!癟ranscriptFormer是這一軌跡上的堅實第一步?!?/p>

至于我們是否已經(jīng)到達了生物數(shù)據(jù)的ChatGPT提示器階段,Karaletsos表示TranscriptFormer還有很長的迭代增長之路。展望未來,團隊將專注于擴展模型數(shù)據(jù)到更多樣化的物種和多種模態(tài),如蛋白質(zhì)組學(xué)和基因組學(xué),以進一步增加其泛化范圍。

TranscriptFormer在CZI的虛擬細胞平臺上公開可訪問,代碼可在GitHub上獲得。此外,研究社區(qū)已發(fā)布了一個跨物種細胞預(yù)測的演示教程筆記本。


(全文結(jié)束)

相關(guān)知識

人類細胞圖譜將成為健康研究的“谷歌地圖”
中國科學(xué)家系統(tǒng)揭示人類消化道“發(fā)育細胞圖譜”
《自然》重磅專題:“人類細胞圖譜”40余篇論文齊發(fā),重新認識人體!一文看懂三大新進展
促進細胞新陳代謝
單細胞多組學(xué)分析揭示哺乳期母體低蛋白飲食對子代的跨代傳遞
綠色細胞食品批發(fā)
合理膳食是健康的基礎(chǔ),細胞通過氧化分解有機物獲得能量,脂肪、蛋白質(zhì)等有機物可以作為細胞呼吸的原料,也可以相互轉(zhuǎn)化。如圖是人體肝細胞內(nèi)的部分生化反應(yīng)及其聯(lián)系的示意
多發(fā)性硬化癥基因組圖譜暗示免疫細胞對疾病的敏感性
科學(xué)網(wǎng)—細胞的基本生命活動——新陳代謝
細胞培養(yǎng)生物污染有哪些?

網(wǎng)址: 跨物種細胞圖譜:陳 http://m.u1s5d6.cn/newsview1349330.html

推薦資訊