您好!欢迎访问上海牧荣生物科技有限公司网站!
咨询热线

17621170138

当前位置:首页 > 技术文章 > SugarGPT:展望糖信息学的未来

SugarGPT:展望糖信息学的未来

更新时间:2024-03-06      点击次数:542

人工智能在糖生物学领域的早期应用

糖组学人工智能的实施始于 20 世纪 90 年代的质谱分析流程,其中应用机器学习算法来预测糖肽片段强度 [2]。随着对蛋白质糖基化模式的日益重视,研究人员希望通过研究 N-糖基化和较少研究的 O-糖基化的氨基酸序列来更详细地表征糖基化位点。尽管已知聚糖连接发生在丝氨酸或苏氨酸的氧上,但邻近氨基酸对 O-糖基化的作用尚未阐明。

在第一代人工智能工具时代,糖基化位点数据集是从组织样本和活检中的蛋白质中收集的,这些数据可在UniPep [3] 和N-GlycositeAtlas [4] 等数据库中获取。此外,还开发了NetNGlyc [5] 和YinOYang [6] 等人工神经网络工具,以使用已知的聚糖数据作为训练集来预测新的 N- 和 O- 糖基化位点。 2005年至2015年间,神经网络的预测能力通过支持向量机和随机森林算法得到了提高。基于这些算法,GlycoMine等软件解决方案[7]使用基于氨基酸序列以及聚糖的结构和功能特征的多层预测来改进糖基化位点预测。

糖基化分析机器学习算法的进展

 如今,随着基因组学、转录组学、蛋白质组学以及计算方法的结合,人工智能对糖生物学的影响不断扩大,极大地增强了位点预测和聚糖分析。例如,Moon 等人。开发了一种随机森林算法,该算法采用聚糖立体异构体的空间和电子参数来准确预测特定异构体的选择性结合[8]。安东尼库迪斯等人。在基于系统的方法中使用人工神经网络,其中开发了化学计量模型来预测糖基化酶通量和随后的聚糖丰度[9]。

与此同时,其他平台,例如Glycowork,专注于处理广泛的聚糖数据,以揭示生物体特异性的聚糖谱 [10]。  

除了位点预测和分析之外,人工智能工具还有助于更好地理解聚糖和细胞表型之间的复杂关系。秦等人。引入了一种算法,该算法使用单细胞 SUGAR-seq 数据来预测导致 N-聚糖分支的基因以及不同分支对小鼠模型中 T 细胞亚型的影响 [12]。有趣的是,这些基因在细胞亚型之间的差异表达分析中并未被发现,这凸显了深度学习在表型分析中的价值。

另一个令人兴奋的工具是GlyCompareCT,顾名思义,它通过将不同数据集中的聚糖基序分解为聚糖子结构来比较它们的组成和丰度 [13]。这允许用户从子结构生成完整的图案集。 GlyCompareCT 基于 Python 的特性使其成为一个用户友好的工具,可以通过命令行运行。

糖信息学的挑战和未来方向

虽然多种糖信息学工具可以有助于我们对糖基化的理解,但需要做更多的工作将下一代机器学习整合到糖生物学中。特别是,深度学习工具在处理大型非结构化数据集时非常有用。AlphaFold [14] 是利用深度学习来预测蛋白质结构(包括其可能的折叠状态)的开创性项目之一。也就是说,该平台只能处理蛋白质序列,因此缺乏对糖基化和其他翻译后修饰的预见性。

最近,深度学习方法开始用于从序列数据推断糖基转移酶的结构和功能。陶哈莱等人。开发了一个工作流程,使用监督式深度学习从蛋白质序列推断糖基转移酶的折叠状态,这使他们能够预测其糖供体特异性[15]。随后,新的工具,如GlyNet [16]、SweetTalk [17] 和glyBERT [18] 开始出现,对支链和非线性聚糖的合成具有改进的预测价值。相同的工具也可用于预测蛋白质糖基化位点[19]。

糖生物学的主要挑战之一是缺乏广泛的糖组学数据,这阻碍了新聚糖结构的发现。下一代人工智能模型可以通过结合聚糖结构之外的新功能来克服这个问题。这些特征可以从组学数据中提取,这些数据提供有关上游(例如前体单糖)和下游过程(对信号通路的影响)的信息。由于几种聚糖可以共享共同的合成步骤或表现出类似的下游效应,因此这些知识可以显着扩大预测聚糖的范围[20]。

最后,可以利用机器学习工具联盟来了解宿主与病原体的相互作用。特别是,预见跨物种传播的能力可以帮助规避未来流行病的影响。首先,评估不同物种的相似聚糖结构可以揭示宿主受体-聚糖相互作用,从而允许病毒进入,从而了解哪些生物体容易受到病毒入侵。它还可以揭示病原体如何利用糖基化来模仿宿主聚糖来逃避免疫反应。此外,输入的组合,例如人类和所研究的动物之间的聚糖相似性和系统发育距离,可以告诉我们导致宿主转向人类的致病突变的可能性。初步模型,例如SweetNet,利用下一代机器学习工具(例如图卷积神经网络)来识别流感病毒和轮状病毒上的聚糖受体,同时揭示结合特异性[21]。这种方法可以推广到其他几种病毒蛋白,以解释它们如何在人类中传播。

结论

人工智能模型的持续开发和多组学的整合对于解决糖生物学中的各种问题具有不可估量的价值。这些包括但不限于糖基转移酶结构、蛋白质上的糖基化位点、复杂聚糖对细胞功能的影响、病原体-宿主相互作用和免疫肿瘤学(即肿瘤微环境)。从人工智能模型中获得的新见解将帮助研究人员进行更有针对性的研究,以了解糖基化在健康和疾病中的作用。

扫一扫,关注微信
地址:上海市嘉定区安亭镇新源路155弄16号新源商务楼718室 传真:Shanghai Mulong Biotechnology
©2024 上海牧荣生物科技有限公司 版权所有 All Rights Reserved.  备案号:沪ICP备2022017655号-1