人工智能如何生成分子?

深度学习和人工智能促进了包括化学信息学在内的所有科学领域的进步。这一领域迄今为止最令人印象深刻的进展之一是深层分子生成模型,Josep Arus-Pous和Ola Engkvist对此进行了讨论。

深层的分子生成模型…使大量的分子能够从一小部分已知的分子中生成

化学信息学的主要目标之一是通过探索整个化学空间来设计新的分子。这个虚拟化学空间由所有可能的分子组成,据估计大约有10^60个分子。

直到最近,化学太空探索都是通过遗传算法生成分子,或者将小分子结合成大分子来完成的。

另一种仍在进行中的方法是生成数据库(GDB)项目,该项目旨在枚举所有分子,直到一定数量的非氢原子。迄今为止,类药物化学空间的11、13和17个原子已经列举出来,并产生了分别有2500万、10亿和1650亿分子的数据库。

然后可以搜索这些巨大的数据库来寻找新的感兴趣的分子。随着化学空间随着原子数量呈指数级增长,探索更大范围的化学空间变得越来越困难。

在许多科学学科中,深度学习和人工智能(AI)为化学信息学开辟了新的前景。例如,我们可以用来自不同来源的数据训练神经网络来预测分子的毒性,或者我们可以设计算法来获得合成任何分子所需的所有步骤。

但迄今为止最令人印象深刻的进展之一是深层分子生成模型,它能从一小部分已知分子中生成大量分子。

特别是递归神经网络(RNNs)分子以一种名为smile的文本格式表示在探索化学空间方面非常成功。

他们工作类似于手机键盘的自动完成功能和构建分子逐字符已经考虑到生成的部分分子模型(图1),学习如何创建分子从训练数据,生成的分子倾向于显示相同的属性作为训练集。

图1:使用递归神经网络(RNN)和SMILES语法生成阿司匹林的过程RNN一个字符一个字符地创建分子,然后从所有可能字符的概率分布中抽取下一个字符。根据之前生成的数据,模型会改变被采样的不同字符的概率。
©作者

因此,可以通过从RNN中反复生成(也称为采样)分子来探索训练集周围的化学空间。

分子生成模型的缺点之一是对它们进行了替换采样:当模型被多次采样时,可能会出现重复的分子。这就产生了这样一种情况,即该模型似乎生成了一组不同的分子,但它正在重复生成同一组分子。

或者,模型可以生成大量与训练集完全无关的分子,这意味着模型没有从训练集分子中学习。在我们的研究中,我们开发了一种基准测试方法,能够检测这两种情况。

为了做到这一点,我们在前面提到的GDB-13分子数据库的一个子集上训练模型,我们对这个模型采样20亿次,然后计算有多少唯一生成的分子是GDB-13的一部分,又有多少是它之外的。然后,根据模型从一个小样本中学习时能够生成整个数据库的多少,对模型进行排序。

我们用这种方法基准几个分子生成模型有两种表达分子的方式:典型的微笑和随机的微笑。这种基于文本的表示是通过给分子中的原子编号,然后遍历它来构建的,如果是碳就加一个“C”,如果是氧就加一个“O”,等等(图2)。

图2:从阿司匹林产生微笑线的过程。注意,通过改变原子顺序,可以获得不同的微笑。
©作者

默认情况下,大多数化学软件计算一个唯一的原子编号,称为规范排序,而规范微笑就是由此产生的。当这个原子编号被随机化时,可以得到代表同一分子的不同的SMILES字符串,从而得到随机化的SMILES。

在训练过程中,使用标准笑容的模型总是对每个分子使用相同的表示,而使用随机笑容的模型则一直在改变它。这使得模型可以从不同的角度看到相同的分子,每次学习不同的信息。

当比较模型训练子集一百万GDB-13分子(0.1%的数据库)规范和随机微笑,结果表明,规范微笑模型能够生成GDB-13高达70%,而随机微笑模型更好的工作,获得高达83%的整个数据库。

我们还使用了更小的训练集,当随机的smile模型使用1000个分子(GDB-13的0.0001%)进行训练时,获得了整个数据库的34%,而标准smile模型只生成了14%。

考虑到随机微笑所获得的改善,我们在使用ChEMBL数据库训练的模型上进行了最后一个实验。这个数据库包含了150万个从文献中获得的分子样本,这些样本代表了整个已知的类药物化学空间。

结果表明,随机微笑训练的模型从20亿样本中产生了大约13亿独特分子,这几乎是标准微笑的分子数量的两倍。

此外,我们还证明了由标准smile模型生成的任何分子都可以由随机smile模型生成,反之则不行。

综上所述,用小分子样本训练的生成模型有能力在概率上持有大的化学空间。然后,通过广泛的采样和过滤,或者通过使用诸如强化学习

拥有能够从小的训练集向生成的分子传递尽可能多的信息的结构对于药物发现是极其重要的,而随机微笑则是在这个方向上的一种改进。

这些已开发的方法目前在阿斯利康的许多药物研发项目中使用,我们希望在适当的时候向科学界报告将其应用于内部项目的结果。

在物理科学主页上查看最新的文章

评论