深勢科技發布三維分子預訓練模型Uni-Mol,有望加速藥物設計的發展

用微觀的視角來看現實世界會是怎樣的?那里有數以萬計的生物分子,與細胞中的蛋白質、核酸等不斷地自由組合與拆解中,再生成新的產物。

通常,藥物分子性質由分子、骨架和整體分子所決定,其分子的結構性質則直接影響著藥物性質和生物利用度。分子有千萬種組合的方式,就藥物設計領域而言,藥物分子的多樣結構也使候選藥物的化學空間變得更大。

而從生物學的角度來看,分子的性質和藥物的作用主要取決于分子的三維結構。因此,在藥物設計中,分子表征學習模型和臨床試驗顯得尤為重要。目前的分子表征學習(MRL)模型一般用一維序列或二維圖結構作為輸入,并且在大多數性能預測任務中表現良好。

然而,這也限制了它們在實際應用中結合分子 3D 資訊的能力,尤其是 3D 相關任務的建模。因此,如何進一步提高現有 MRL 模型的性能和擴展其應用范圍,是該領域一直以來亟待解決的問題。

近日,深勢科技團隊發布了目前藥物設計領域第一個通用的大規模三維 MRL 框架 Uni-Mol,以擴大分子表征學習(MRL)的應用范圍和表征能力。5 月 26 日,相關論文以《Uni-Mol:通用的三維分子表征學習框架》(Uni-Mol: A Universal 3D Molecular Representation Learning Framework)為題在ChemRxiv上預發表。

該論文顯示,Uni-Mol 包含兩個有相同架構的模型,一個是由 2.09 億個分子三維構象數據訓練的分子預訓練模型,一個是由 320 萬個蛋白口袋數據訓練的口袋預訓練模型。Uni-Mol 在 14/15 分子性質預測任務中表現優于 SOTA。值得關注的是,在 3D 相關的任務,包括蛋白質-配體結合位點預測、分子構象生成等下游任務中表現尤其出色。

圖丨Uni-Mol 框架示意圖(來源:ChemRxiv)

與現有大多數分子表征學習模型的不同之處在于,Uni-Mol 跳出大多模型所采用的一維序列或二維圖結構,而是直接利用分子三維結構作為模型輸入和輸出,利用分子的三維資訊訓練模型。

這一三維 MRL 框架 Uni-Mol 由三個部分組成,即基于 Transformer(基于自注意力機制的一個深度學習模型)的骨干處理 3D 數據、兩個分別學習分子表征和口袋表征的預訓練模型、以及面向各類下游任務的微調策略。

大規模 3D 分子表征學習

表征學習(或預訓練,自監督學習)指的是在大量無標注數據上學習數據高維表征的一種學習范式,例如自然語言處理(NLP)的 BERT 和 GPT、計算機視覺(CV)的 ViT 等。

表征學習存在一個共同點,即無標簽的數據極為豐富,而有標簽的相關數據則相對有限。在藥物設計領域的應用亦是如此。一般而言,機器多在大規模的無標簽數據上進行預訓練,然后,在有標簽的數據上進行微調,幫助模型從有限的監督信號中提取更多的資訊。

為了利用大規模無標簽數據進行預訓練,該團隊創建了兩個大型數據集,并且也將開源 209M 的分子三維構象數據集和 3M 候選蛋白質口袋數據集,分別用于分子和蛋白口袋的兩個預訓練模型。

分子預訓練數據集是基于多個可購買的分子數據集構造。數據集包含大約 1900 萬個分子,共 2.1 億個 3D 分子構象。蛋白質口袋預訓練數據集來自于蛋白質資料庫庫(RCSB PDB),研究人員從資料庫中生成一個由 320 萬個候選口袋組成的數據集用于口袋預訓練。

在實際應用中,蛋白質口袋直接參與了許多藥物設計任務,對候選蛋白質口袋的預訓練可以提高與蛋白質-配體結構和相互作用的相關任務性能。

圖丨Uni-Mol 模型架構。左圖:整體預訓練架構;中間:模型輸入,包括原子和和原子間空間位置編碼;右圖:原子對的表征和它的更新過程(來源:ChemRxiv)

基于 Uni-Mol 的下游任務實驗

為了進一步驗證 Uni-Mol 模型的有效性,研究人員對多個下游任務進行了廣泛實驗,包括分子性質預測、分子構象生成、口袋性質預測和蛋白-配體結合位點預測。

分子性質預測是新藥發現的重要一環。MoleculeNet 是一個被廣泛使用的分子性質基準預測,包括聚焦于分子不同層次屬性的數據集。該研究實驗的 15 個數據集均來自于 MoleculeNet,研究團隊采用了骨架劃分的方式。

在 3D 結構強相關的回歸任務上,例如在水化自由能(ESOL, Freesolv),親脂性(Lipo),物化性質(QM7、QM8、QM9)上,與之前的 SOTA 相比有平均提升 21% 的效果。

圖丨Uni-Mol 在分子性質預測的實驗結果(來源:ChemRxiv)

在分子構象生成(molecular conformation generation)實驗中,Uni-Mol 評價 AI 模型生成構象多樣性的指標 Coverage 和精準指標 Matching 基本上全面超越現有的基準線。

圖丨Uni-Mol 在分子構象生成的實驗結果(來源:ChemRxiv)

此外,研究團隊進行了口袋性質預測實驗。可藥物性,指的是候選蛋白口袋與特定分子配體產生穩定結合的能力,是候選蛋白口袋的關鍵屬性之一。Uni-Mol 在口袋藥性數據集 NRDLD 上的準確率、召回率、精確度和F1得分是最高的。

在基準數據集中,預訓練的 Uni-Mol 模型在四個分數上都優于非預訓練的模型。這表明,對候選蛋白質口袋的預訓練可以改善口袋屬性預測任務。

圖丨蛋白質-配體結合位點預測模型框架,編譯器使用兩路預訓練 Uni-Mol 分表表征分子和口袋,解碼器使用同樣結構的隨機初始化的 Uni-Mol(來源:ChemRxiv)

蛋白質-配體結合的預測,是基于結構的藥物設計中最重要的任務之一。Uni-Mol 結合了分子和口袋預訓練模型來學習基于距離矩陣的打分函數,后對復雜的構象進行采樣和優化,并在基準數據集上確保了結果的可泛化性。通過結合分子模型和口袋預訓練模型,Uni-Mol 在蛋白質-配體結合任務中顯著超過了普遍使用的對接工具。

打分函數即通過定量化評估藥物與靶標蛋白的相互作用為藥物研發中的藥效評估提供理論依據,該方法目前廣泛應用于基于結構的計算輔助藥物設計。

通常來說,對藥-靶的相互作用的評估步驟有兩步,第一步是對接過程(docking process),主要指構象搜索,找出潛在的結合位點(binding pose);第二步是打分過程(scoring process),通常指打分,以預測藥-靶結合力。

而 Uni-Mol 在 docking power 和 binding pose 兩項評估結合最關鍵的指標上均表現出色,在打分函數測評上超越了一系列主流對接處理工具,以及基于 AI 的打分函數模型。在 binding pose 預測能力上面,對于 CASF-2016 基準數據集預測的準確結合構象的比例超過目前主流的工具約 35%。

圖丨蛋白質-配體結合位點預測模型在 CSAF-2016 上的測試結果(來源:ChemRxiv)

從研究結果來看,3D 分子表征學習框架 Uni-Mol 十分理想,該框架的提出或有利于藥物設計領域的進一步拓展和深耕。目前,藥物設計領域一直缺乏高質量的公開數據集,許多公開數據集無法滿足實際需求。而該項研究成果或有助于未來藥物設計領域高質量基準的增多,或將加速新藥發現與藥物設計的發展。

-End-

參考:

https://chemrxiv.org/engage/chemrxiv/article-details/628e5b4d5d948517f5ce6d72

0 条回复 A文章作者 M管理員
    暫無討論,說說你的看法吧