SAVANA：长读长测序精准解析癌症基因组畸变

导语： 癌症基因组的复杂性一直以来都是科研人员面临的巨大挑战。结构变异（SVs）和拷贝数变异（SCNAs）作为驱动肿瘤演化的关键因素，其精准识别对于癌症的诊断、治疗和预后至关重要。然而，传统的短读测序技术在解析复杂基因组区域时存在局限性。近日，欧洲分子生物学实验室（EMBL）的研究团队开发了一种名为SAVANA的新算法，利用长读长测序技术，实现了对体细胞变异的高灵敏度和高特异性检测，为癌症研究带来了新的曙光。

癌症基因组的“迷雾”：结构变异与拷贝数变异

癌症并非单一疾病，而是由多种基因组变异驱动的复杂疾病集合。在这些变异中，结构变异（SVs）和拷贝数变异（SCNAs）扮演着至关重要的角色。

结构变异（SVs）： 指的是基因组DNA序列的大规模重排，包括缺失、插入、倒位、易位和复制等。这些变异可以改变基因的结构和功能，影响蛋白质的表达水平，从而驱动肿瘤的发生和发展。例如，某些SVs可能导致抑癌基因的失活或癌基因的激活，从而促进肿瘤细胞的生长和转移。
拷贝数变异（SCNAs）： 指的是基因组特定区域DNA序列的拷贝数发生改变，可以是增加（扩增）或减少（缺失）。SCNAs可以影响基因的表达水平，从而改变细胞的生物学行为。例如，癌基因的扩增可能导致其过度表达，从而促进肿瘤细胞的生长和增殖；抑癌基因的缺失则可能导致其功能丧失，从而解除对肿瘤细胞生长的抑制。

SVs和SCNAs并非孤立存在，它们之间常常相互作用，共同驱动肿瘤的演化。例如，某些SVs可能导致SCNAs的发生，而SCNAs又可能反过来影响SVs的稳定性。因此，全面了解SVs和SCNAs的特征和相互作用，对于深入理解癌症的发生机制至关重要。

短读测序的局限性：难以穿透基因组的“迷雾”

传统的短读测序技术（如Illumina平台）在基因组研究中发挥了重要作用，但其读长较短的特点也使其在解析复杂基因组区域时存在局限性。

难以解析重复序列： 人类基因组中存在大量的重复序列，这些序列往往具有高度的相似性，短读测序技术难以准确地将这些序列定位到基因组的正确位置。这导致短读测序技术在解析重复序列区域的SVs和SCNAs时存在困难。
难以解析复杂重排区域： 癌症基因组中常常存在复杂的重排区域，这些区域可能包含多个SVs，短读测序技术难以准确地确定这些SVs的位置和方向。这导致短读测序技术在解析复杂重排区域的SVs时存在困难。
难以确定变异的相位： 短读测序技术只能提供单个DNA片段的序列信息，无法确定不同变异之间的相位关系。这导致短读测序技术在解析多个变异共存的区域时存在困难。

由于上述局限性，短读测序技术在癌症基因组研究中常常遗漏大量的关键信息，导致对肿瘤演化的理解不够全面。

长读测序的崛起：照亮基因组的“灯塔”

长读测序技术（如PacBio和Oxford Nanopore）能够读取长达兆碱基的DNA片段，克服了短读测序技术的局限性，为癌症基因组研究带来了新的机遇。

能够解析重复序列： 长读测序技术能够跨越重复序列区域，准确地将序列定位到基因组的正确位置。这使得长读测序技术能够解析重复序列区域的SVs和SCNAs。
能够解析复杂重排区域： 长读测序技术能够覆盖整个复杂重排区域，准确地确定SVs的位置和方向。这使得长读测序技术能够解析复杂重排区域的SVs。
能够确定变异的相位： 长读测序技术能够提供长片段的序列信息，确定不同变异之间的相位关系。这使得长读测序技术能够解析多个变异共存的区域。

然而，早期的长读测序技术存在高成本、低通量和高误差率的问题，限制了其在癌症研究中的应用。随着技术的不断发展，长读测序的成本逐渐降低，通量不断提高，误差率也得到了显著改善。这使得长读测序技术在癌症研究中的应用越来越广泛。

SAVANA算法：精准测量细胞畸变的“利器”

为了充分利用长读测序技术的优势，欧洲分子生物学实验室（EMBL）的研究团队开发了SAVANA算法。SAVANA算法旨在利用长读测序数据，实现体细胞变异的高灵敏度和高特异性检测，同时推断肿瘤纯度和倍性。

SAVANA算法的核心思想是深度分析长读测序数据，提取与SVs和SCNAs相关的特征，然后利用机器学习算法对这些特征进行分类，从而实现对体细胞变异的精准检测。

特征提取： SAVANA算法提取了70余个特征，包括断点位置、支持读长、比对质量、覆盖深度、GC含量等。这些特征能够全面反映SVs和SCNAs的特征，为后续的分类提供依据。
机器学习： SAVANA算法利用机器学习算法（如随机森林和支持向量机）对提取的特征进行分类，从而实现对SVs和SCNAs的检测。机器学习算法能够自动学习特征之间的关系，提高检测的准确性和灵敏度。
肿瘤纯度和倍性推断： SAVANA算法还能够根据长读测序数据推断肿瘤的纯度和倍性。肿瘤纯度指的是肿瘤样本中肿瘤细胞的比例，倍性指的是肿瘤细胞中染色体的拷贝数。肿瘤纯度和倍性是影响肿瘤演化的重要因素，对癌症的诊断和治疗具有重要意义。

SAVANA算法的优势：高灵敏度与高特异性

与传统的短读测序算法相比，SAVANA算法具有以下优势：

高灵敏度： SAVANA算法能够检测到低频率的体细胞变异，即使这些变异只存在于少数肿瘤细胞中。这对于早期癌症的诊断和治疗具有重要意义。
高特异性： SAVANA算法能够区分真实的体细胞变异和测序错误，避免假阳性结果的出现。这对于癌症的精准治疗具有重要意义。
能够解析复杂基因组区域： SAVANA算法能够解析重复序列和复杂重排区域的SVs和SCNAs，克服了短读测序技术的局限性。
能够推断肿瘤纯度和倍性： SAVANA算法能够根据长读测序数据推断肿瘤的纯度和倍性，为癌症的诊断和治疗提供重要信息。

SAVANA算法的应用前景：助力癌症研究与临床实践

SAVANA算法的开发和应用，为癌症研究和临床实践带来了广阔的前景。

癌症机制研究： SAVANA算法能够帮助科研人员更全面地了解癌症基因组的变异特征，深入研究癌症的发生机制和演化规律。
癌症诊断： SAVANA算法能够用于癌症的早期诊断和分子分型，为患者提供更精准的治疗方案。
癌症治疗： SAVANA算法能够用于指导癌症的靶向治疗和免疫治疗，提高治疗的疗效。
药物研发： SAVANA算法能够用于筛选新的抗癌药物，加速药物研发的进程。

结论：长读长测序与SAVANA算法的结合，开启癌症研究新篇章

SAVANA算法的开发是长读长测序技术在癌症研究领域的一项重要突破。该算法能够利用长读测序数据，实现对体细胞变异的高灵敏度和高特异性检测，为癌症研究和临床实践带来了广阔的前景。随着长读测序技术的不断发展和SAVANA算法的不断完善，我们有理由相信，在不久的将来，我们将能够更全面地了解癌症的基因组特征，更精准地诊断和治疗癌症，最终战胜这一威胁人类健康的重大疾病。

参考文献：

SAVANA: reliable analysis of somatic structural variants and copy number aberrations using long-read sequencing. Nature Methods (2025). https://www.nature.com/articles/s41592-025-02708-0

>>> Read more <<<

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

SAVANA：长读长测序精准解析癌症基因组畸变

作者智能小编

癌症基因组的“迷雾”：结构变异与拷贝数变异

短读测序的局限性：难以穿透基因组的“迷雾”

长读测序的崛起：照亮基因组的“灯塔”

SAVANA算法：精准测量细胞畸变的“利器”

SAVANA算法的优势：高灵敏度与高特异性

SAVANA算法的应用前景：助力癌症研究与临床实践

结论：长读长测序与SAVANA算法的结合，开启癌症研究新篇章

相关文章

永新光学 (603297.SH) ：国产替代与新兴业务驱动下的价值重估

来伊份：转型阵痛中的价值重塑与未来突围

北方稀土 (600111.SH): 战略核心资产的价值重估——迎接“戴维斯双击”

发表回复取消回复

为您推荐

永新光学 (603297.SH) ：国产替代与新兴业务驱动下的价值重估

来伊份：转型阵痛中的价值重塑与未来突围

北方稀土 (600111.SH): 战略核心资产的价值重估——迎接“戴维斯双击”

国之重器，芯之所向：新周期与大国博弈下的中芯国际(688981.SH)价值重估

作者智能小编

癌症基因组的“迷雾”：结构变异与拷贝数变异

短读测序的局限性：难以穿透基因组的“迷雾”

长读测序的崛起：照亮基因组的“灯塔”

SAVANA算法：精准测量细胞畸变的“利器”

SAVANA算法的优势：高灵敏度与高特异性

SAVANA算法的应用前景：助力癌症研究与临床实践

结论：长读长测序与SAVANA算法的结合，开启癌症研究新篇章

相关文章

发表回复 取消回复

为您推荐

发表回复取消回复