以字节速度搜索:加速相似度和子结构搜索

发布者 188金宝慱官网送188在7月29日,2020年9:48:00

可能存在的类药物分子数量是惊人的。估计最高可达10个60比宇宙中原子的数量还多。

数十亿的商业上可获得的合成可接近药物样分子的收集,这些系列定期扩展,而化合物的虚拟集合可以超过千分之一的分子。

为了解决可访问化学空间的快速增长所带来的挑战,OpenEye Scientific一直专注于加速CPU和GPU的分子搜索算法,特别是GraphSim TK的相似性搜索和OEChem TK的子结构搜索。188金宝慱官网送188由于最近的这些升级,你现在能够在几秒钟内搜索10亿个分子。

相似性搜索

生成指纹

指纹学提供了分子结构的基本编码。尽管指纹只能代表局部结构特征,而不能代表它们在分子中的相对位置,但在一系列的相似性和多样性研究中,指纹已经被证明是非常成功的。

GraphSim TK提供三种指纹类型,可彻底编码分子:路径(日光状),圆形(ECFP)和树。可以在多线程过程中预先生成这些指纹并存储在指纹二进制文件中。

搜索指纹

快速指纹搜索的过程如图1所示。有三种方法来搜索预先生成的指纹:内存中,内存映射, 和CUDA

内存(CPU)方法涉及将所有指纹预加载到内存中并执行内存中的搜索。这呈现了最快的CPU搜索,以牺牲负载时间和存储器的限制为代价。

当使用内存映射(CPU)方法没有负载时间惩罚或内存限制,但搜索本身略微慢。

这两种搜索模式现在可以使用多个线程执行(通过新的SortedSearch方法)。如图2所示的性能改进。

新方法不仅返回最佳相似性匹配,而且还保留整个数据集的分数分配,并提供对搜索进度的访问。

图1:快速指纹搜索过程示意图。


图1:
快速指纹搜索过程的示意图表示。

CUDA模式是支持GPU的计算200 x计算速度快于单线程CPU模式。CUDA模式包括在进行相似度计算之前将所有指纹预加载到GPU内存中。CUDA模式适用于N × N的相似度计算,但搜索受GPU内存可用性的限制,如果整套指纹无法预加载到GPU内存中,则会退回到内存映射CPU模式。

Boda-blog-figure-2-1

图2:搜索4096位树指纹和检索前10个命中的性能。

GraphSim TK提供直接和用户友好的API(参见图3)以执行相似性搜索。还可以使用执行n x n搜索或构建群集稀疏矩阵的功能。


Boda-blog-figure-3

图3:快速指纹搜索过程的Python代码片段。

子结构的搜索

亚结构搜索方法识别包含用户定义的部分结构的化合物(即键和原子的图案),而不管发生了查询的环境。在图论中,这个问题称为Subgraph同构,计算理论家称为NP-Tress的问题类。

OEChem TK实现了几种不同的方法以加速子结构搜索算法:

  • 优化查询分子的表达式
  • 预筛选
  • 多线程搜索

预审

屏幕是编码查询和目标分子的全局和本地特征的位向量。这是加速搜索的最有效的方法之一,因为可以快速消除清楚不能与查询匹配的目标分子。仅通过筛选阶段的分子进行更昂贵的原子验证。


Boda-blog-figure-4-1

图4:如果查询分子包含目标分子中不存在的特征(位),则可以从进一步考虑中排除目标。

筛选悖论:较大的分子需要更长的时间来搜索(一个原子一个原子),但它们有更多独特的特征,因此,更容易筛选出。

Boda-blog-figure-5

图5:Oechem TK基于查询分子的来源提供三种类型的内置屏幕。

使用不同的查询集和多个分子数据库对所有屏幕类型进行严格测试,以提高它们的效率(参见图5),并确保它们不会消除真正的阳性匹配。

Boda-blog-figure-7

图6:屏幕效率。100.0%的意味着没有检测到误报,即通过筛查阶段的每种分子是真实匹配。

子结构搜索数据库是带有准备好的分子和预构建屏幕的OEB二进制文件。数据库生成过程是多线程的,可以实现这种规模的加速。

子结构搜索引擎可以通过两种方式初始化:在记忆中molecule-database

在记忆中Mode提供了搜索数据集的最快方式,但它是内存密集型的,因为它在内存中同时保存屏幕和分子。

molecule-database模式只将屏幕保存在内存中;只有未屏蔽的分子必须按需加载到存储器中。这种方法可能更慢,但使用的内存明显更少,允许用户搜索更大的数据集。

Boda-blog-figure-8

图7:使用MDL查询的基于屏幕的多线程子结构搜索的性能。

了解更多GraphSim TKOEChem TK以及我们的其他用于创建自定义应用程序,脚本和Web服务的编程库,请访问我们的188appcob 页。


请在下面评论这篇博文。

最近的博客文章

占位符

以字节速度搜索:加速相似度和子结构搜索

阅读更多
占位符

Openeye发布额外的GIGA规模虚拟筛选Covid-19数据供公众使用

阅读更多
占位符

Openeye部署Overion Molecular Design平台,寻找Covid-19治疗;自由地提供结果

阅读更多
Baidu