提到蛋白质解析,很难不想到 DeepMind 实验室(神之实验室,真的厉害),2018年 DeepMind 实验室推出蛋白质折叠结构预测模型 AlphaFold,可从氨基酸序列计算和预测蛋白质的结构,不止奠定了其在AI领域的领头羊位置,同样也显现了深度学习广泛应用于其他领域的强大魅力,生物学就是个很好的典型。
自从深度学习可用于攻克生物学难题后,越来越多的实验室投身其中,谷歌就是其中之一。
今近日谷歌发布了可用于蛋白质解析的模型 ProtENN,直接登顶 Nature 子刊《Nature Biotechnology》。(巨牛啊)
那谷歌推出的 ProtENN 有什么强大之处吗?ProtENN 方法可以帮助在 Pfam 的蛋白质功能注释集中添加大约 680 万个条目,大约相当于过去十年的新增条目总和,将 Pfam 的覆盖范围扩大了9.5%以上。这是一个非常巨大的突破。
谷歌是如何做到这点的呐?我们先来看一下当前蛋白质解析存在的问题:
- 当前蛋白质序列的比对不考虑不同部分的氨基酸的相互作用,仅限于线性序列的比对。但真实世界的氨基酸序列不会停留在一行线性序列中,甚至会发生折叠。
- 另外蛋白质序列比对需要消耗巨量的算力,如果将其应用于超大型数据集,成本会非常高。
谷歌发现这一点,他们想到了使用扩张卷积神经网络(CNN),CNN 特别适合于模拟非局部成对氨基酸之间的相互作用,并且可以在 GPU 等现代 ML 上进行训练和预测。
于是谷歌训练了 ProtCNN,这是一个一维的 CNN ,来预测蛋白质序列分类。同时还设置了一组独立训练的 ProtCNN 模型,目的是通过开发一种可靠的机器学习方法来补充传统的基于对齐的方法的缺陷。
蛋白质存有共有祖先,因此不同的蛋白质会存在部分相同的氨基酸序列。如果不对这部分氨基酸序列做处理,这部分氨基酸就会与训练数据高度相似的样本所影响,因此要避免这种情况的出现。
谷歌采用了两层评估模型。
- 第一层评估按照蛋白质序列样本按序列相似性进行聚类,并将整个聚类放入训练集或测试集中
- 第二层评估使用随机拆分的训练和测试集,根据对样本分类难度的评估来对样本进行分层
最终实验证明,ProtENN 具备更好的泛化能力。
AI 世界真的是越来越卷了~~~