以字节速度搜索:加速相似性和子结构搜索

张贴了 188金宝慱官网送1882020年7月29日上午9:48:00

可能存在的类药物分子数量惊人。估计数高达1060,超过宇宙中原子的数量。

商业上可获得的合成药物样分子的集合现在已经达到数十亿,而且这些集合正在定期扩大,而化合物的虚拟集合可能超过一万亿个分子。

为了解决可访问化学空间大小的快速增长所带来的挑战,Openeye科学公司一直专注于加速我们的CPU和GPU的分子搜索算法,特别是在oechem Tk中的Graphsim TK和子结构搜索中的相似性搜索。188金宝慱官网送188由于这些最近的升级,您现在可以在几秒钟内搜索十亿分子。

相似性搜索

生成指纹

指纹图谱提供了分子结构的基本编码。尽管指纹只能代表局部结构特征,而不能代表它们在分子内的相对位置,但它们在一系列相似性和多样性研究中已被证明是非常成功的。

graphsim tk.提供三种指纹类型,可彻底编码分子:路径(夏令),圆形(ECFP)和树。这些指纹可以在多线程过程中预先生成并存储在指纹二进制文件中。

搜索指纹

快速指纹搜索的过程如图1所示。有三种方法可以搜索预先生成的指纹:内存,内存映射,及CUDA.

内存中(CPU)方法涉及将所有指纹预加载到内存中并执行内存中的搜索。这呈现了最快的CPU搜索,以牺牲负载时间和对存储器大小的搜索限制。

当使用内存映射(CPU)方法没有加载时间限制或内存限制,但搜索本身稍微慢一些。

现在可以使用多个线程来执行这两个搜索模式(通过新的线程来执行sortedsearch.方法)。请参阅图2所示的性能改进。

新方法不仅返回最佳相似性匹配,还可以保留整个数据集的分数分布,并提供对搜索进度的访问。

图1:快速指纹搜索过程的示意图。


图1:
快速指纹搜索过程的示意图。

CUDA.模式是一种支持GPU的计算,可提供200克比单螺纹CPU模式更快的计算。CUDA模式涉及在执行相似性计算之前将所有指纹预装入GPU存储器。CUDA模式适用于N X N相似度计算,但搜索受GPU存储器可用性的限制,如果整个一组指纹不能预加载到GPU存储器,则将返回到存储器映射的CPU模式。

Boda-Blog-Figk-2-1

图2:搜索4096位树指纹和检索前10个命中率的性能。

graphsim tk.提供简单和用户友好的API(参见图3)以执行相似性搜索。还可以使用执行n x n搜索或构建群集稀疏矩阵的功能。


博达博客图3

图3:快速指纹搜索过程的Python代码片段。

子结构搜索

亚结构搜索方法识别包含用户定义的部分结构的化合物(即键和原子的图案),而不管发生了查询的环境。在图论中,这个问题称为Subgraph同构,一个问题类,计算理论家呼叫NP-Tress。

OEChem TK采用了几种不同的方法来加速子结构搜索算法:

  • 优化查询分子的表达式
  • 预筛选
  • 多线程搜索

预筛选

屏幕是编码查询和目标分子的全局和本地特征的位向量。这是加速搜索的最有效的方法之一,因为可以快速消除清楚不能与查询匹配的目标分子。仅通过筛选阶段的分子经受更昂贵的原子验证。


博达博客图4-1

图4:如果一个查询分子包含一个目标分子中不存在的特征(位),那么这个目标可以从进一步考虑中消除。

筛选悖论:较大的分子需要更长时间才能搜索(逐个原子),但是它们具有更独特的功能,因此更容易筛选出来。

博达博客图5

图5:OEChem TK根据查询分子的来源提供三种类型的内置屏幕。

所有屏幕类型都使用不同的查询和多个分子数据库进行严格测试,以提高其效率(参见图5)并确保它们不会消除真正的正匹配。

博达博客图7

图6:屏幕效率。100.0%表示未检测到假阳性,即通过筛选阶段的每个分子都是真实匹配的。

子结构搜索数据库是具有准备的分子和预构建屏幕的OEB二进制文件。数据库生成过程是多线程启用的速度启动。

可以以两种模式初始化子结构搜索引擎:记忆中分子数据库

记忆中模式提供了搜索数据集的最快方式,但它是内存密集型的,因为它在内存中同时保存屏幕和分子。

分子数据库模式仅在内存中保持屏幕;只需按需将无法筛选的分子加载到记忆中。此方法可以较慢,但使用显着较少的内存,允许用户搜索更大的数据集。

博达博客图8

图7:使用MDL查询的基于屏幕的多线程子结构搜索的性能。

了解更多关于graphsim tk.OEChem TK以及我们的其他编程库用于创建自定义应用程序,脚本和Web服务,请访问我们的188appcob 页。


在此博客文章下提供以下评论。

最近的博客文章

占位符

以字节速度搜索:加速相似性和子结构搜索

阅读更多
占位符

Openeye发布额外的GIGA级虚拟筛选Covid-19数据供公众使用

阅读更多
占位符

Openeye部署Overion Moleclular设计平台以找到Covid-19治疗剂;自由地提供结果

阅读更多
Baidu