报告人:清华大学 王童
题目:蛋白质结构片段库构建算法及其在结构预测中的应用
摘要:蛋白质结构从头预测是结构生物学领域最为重要和最具挑战性的问题之一, 而片段组装法已经成为从头预测法中最为流行的构象搜索算法。结构片段库的质量是决定构象搜索算法效率和结构预测模型准确性的重要基础。在本研究中,我们首先基于逻辑回归模型设计了蛋白质结构片段库构建算法 LRFragLib。LRFragLib 利用一级序列、氨基酸的理化性质和二级结构信息作为特 征,为目标蛋白搜索 7-10 个残基的模板片段。与其他优秀的算法相比,LRFragLib 算法显著地提升了片段库中近天然态片段的比例,并结合从头开始的结构预测程序,预测出更为准确的蛋白质模型。随后,我们基于 LRFragLib 产生的结构片段 库为蛋白质从头折叠程序REMC设计了主链二面角置换模式FragMove。FragMove 的加入,全面提升了 REMC 程序预测模型的二级结构和三维结构的准确率并加快 了构象搜索的过程。在第三阶段的研究中,我们利用最新的深度学习技术,设计 了构建 7-15 个残基模板片段的 DeepFragLib 算法。DeepFragLib 由基于双向 LSTM 网络并经知识蒸馏技术压缩的分类模型模块、基于 ResNeXt 架构并含有我们设计 的周期空洞卷积层的回归模型模块和片段选择模块组成。系统的实验分析表明, DeepFragLib 算法的表现全面超过了包括 LRFragLib 在内的其他片段库构建算法。 更重要的是,通过对其与 Rosetta 结合产生的结构预测模型分析,DeepFragLib 算 法有效地提升了蛋白质结构预测的准确性。
报告人:清华大学 毛闻志
题目:蛋白质残基接触预测及其在蛋白质结构预测中的应用
摘要:在蛋白质的天然态构象中,残基与残基之间的接触信息包含了非常丰富的蛋白质结构信息。随着蛋白质序列数据库的积累、蛋白质残基共进化算法的进步、以及机器学习和深度学习算法的发展,蛋白质残基接触预测逐渐成为预测蛋白质三维结构的重要手段之一。利用蛋白质残基接触预测,可以大大降低预测蛋白质三维结构的复杂度,降低三维结构的搜索空间,提高蛋白质结构预测的效率与准确率。目前,主要的蛋白质残基接触预测算法都将蛋白质的共进化信息矩阵视为图像,再使用图像处理领域中成熟的算法或神经网络来对蛋白质残基接触矩阵进行预测。这些算法都取得了不错的成绩。但这些算法中往往没有充分利用到我们已知的生物学中的先验知识。如何将生物学中积累得到的一些规律性知识有效地结合到蛋白质残基接触预测算法中,以提高算法预测效率与准确性,成为这一领域未来发展的一个重要方向。本研究提出了RDb2C与AmoebaContact两种算法,分别针对蛋白质中β残基间的接触与一般性的残基接触进行预测。由于蛋白质中β残基间接触在接触矩阵中一般表现为条带状信号,RDb2C使用了图像处理中的脊检测算法,有针对性地对条带状的信号进行提取,再利用随机森林算法构建预测模型。从而在高噪声的数据中,更有效地对β-β残基接触进行预测,得到了比当前最优算法更好的预测准确性。AmoebaContact算法进一步对一般性的残基间接触进行预测。针对蛋白质接触的稀疏性,本文在AmoebaContact算法中引入了行标准化与列标准化两种操作,将蛋白质残基接触的稀疏性限制整合入深度学习框架内,并带来了性能的提升。AmoebaContact算法也不再局限于图像处理领域中常用的固定架构,而是利用自动化神经网络架构搜索技术寻找更适合于蛋白质残基接触预测任务的网络架构。通过将AmoebaContact算法推广到不同残基接触阈值,可以得到一系列蛋白质残基间的接触约束。我们在此基础上设计了基于梯度下降的GDFold算法对蛋白质的结构进行预测,并获得与当前一流算法准确性相当的蛋白质结构预测性能。