论文:Neural Distance Embeddings for Biological Sequences (NeurIPS 2021)

一、简介

问题

使用深度学习模型拟合传统蛋白质相似性计算过程,利用训练后的模型提取查询蛋白质序列与蛋白质库中其余蛋白质序列的嵌入表示(embedding)并计算距离(distance)。

本文贡献

  • 引入了Neural Distance Embeddings(NeuroSEED),一个通用的框架,用于将序列映射到几何向量空间,并将现有方法重新定义为该框架的一部分。

  • 展示了双曲空间如何对生物序列的数据相关分析带来显著改进。

  • 提出了几种启发式方法,用于解决经典的生物信息学问题,并且这些方法可以构建在NeuroSEED嵌入之上,相对于传统基线方法,能够显著减少运行时间。

二、相关工作

  • Hyperbolic geometry

    双曲几何是一种非欧几何,具有恒定的负曲率截面,通常被称为树的连续版本,因为它能够以任意低的失真嵌入树。将具有隐含或显式分层结构的对象映射到双曲空间的优势在其他领域也有所展示。相比之下,本工作处理的是由生物序列中的编辑距离定义的非常不同的空间,并且与大多数先前的工作不同,我们不仅仅为一组特定的数据点推导嵌入,而是训练一个编码器将该领域中的任意序列映射到空间中。

三、方法

Untitled

ML

C++11及之后新特性 «
Prev «
» 渲染相关笔记
» Next