成功开发基因融合检测算法SOAPfuse
华大基因成功开发出一种基因融合检测算法SOAPfuse。该算法具有准确率高、敏感性强、精度高、资源消耗少等优点,主要采用局部穷举算法和一系列精细的过滤策略,来对基因融合进行快速、的检测。SOAPfuse的研究结果已于2013年2月14日在《基因生物学》(Genome Biology)杂志上在线发表。
基因融合是指染色体上两个异位的基因嵌合在一起,形成一个嵌合基因的现象。这种现象一般是由于染色体发生易位、缺失或者倒置造成的,它们在癌症的发生上扮演着重要的角色,并且可以作为诊断和治疗癌症的靶标。基因融合现象zui早在血液系统恶性肿瘤中被发现,其中以慢性粒细胞白血病中 BCR-ABL基因融合zui为经典。随着对基因融合的深入研究,科研人员发现,除血液系统肿瘤外,在实体瘤中也存在着基因融合现象,例如新近发现的前列腺癌中的TMPRSS2-ERG、小细胞肺癌中的EML4-ALK、结直肠癌中的VTI1A-TCF7L2等基因融合。
传统基因融合研究方法主要基于PCR和荧光原位杂交(FISH)技术,这两种技术具有通量低、操作复杂、不便于大规模样品筛查的缺点。而高通量RNA测序技术(RNA-Seq)的出现大大加快了基因融合研究的进展。RNA-Seq具有通量高、成本低、检测精度高和检测范围广的优点,其与全基因组测序相比,不仅能找到由于重排导致的基因融合,还能找到更多转录水平上的融合。
目前,已有一些通过RNA-Seq技术寻找基因融合的软件,但是这些软件或多或少存在各种不足,例如计算资源消耗严重,检测率低,准确度低等。为了克服这一系列问题,华大科技经过深入研究,开发出一种新的算法—SOAPfuse。该算法首先通过比对到基因组和转录本中双末端(pair end)关系的序列寻找候选的基因融合,然后采用局部穷举算法和一系列精细的过滤策略,在尽量保留真实融合的情况下过滤掉其中假阳性的基因融合。模拟数据和真实验证数据的综合测评表明,SOAPfuse与其他方法相比具有更高的灵敏度和特异性,并且可以大大减少资源消耗。此外,该算法还具有融合断点预测和可视化功能。这些功能能够极大提高基因融合的检测效率,大力推动疾病尤其是肿瘤的研究,这对临床分子分型和肿瘤新药的开发具有重要意义。