CUNY SPH 的研究人员及其同事最近发布了一种强大的新数据结构,用于分析用于开源统计计算的基因组数据。
在基因组研究中,科学家分析 DNA 的各个方面,例如拷贝数、突变和化学修饰,以了解基因如何发挥作用以及如何导致癌症等疾病。然而,这些实验产生的数据提出了在进行任何统计分析之前需要克服的信息学挑战:就像一个拼图的碎片不能整齐地拼在一起,每个样本在不同的基因组位置都有观察结果。
为应对这一挑战,纽约市立大学 SPH 校友和高级数据科学家 Marcel Ramos、副教授 Levi Waldron 以及来自哈佛大学 TH Chan 公共卫生学院、哈佛医学院和 Roswell Park 综合癌症中心的同事开发了一种名为“RaggedExperiment”的新方法R/Bioconductor 统计编程环境。它允许有组织地表示这种“参差不齐”的基因组数据,保留所有信息并提供工具,使以不同方式转换和分析此类数据变得更加容易。
“在用于多组学数据分析的 Bioconductor 生态系统中,没有用于无损表示参差不齐的基因组数据的 Bioconductor 数据类,也没有用于促进灵活转换为矩阵表示(例如编码突变的数量或每个基因的拷贝数)的方法,”说拉莫斯。“RaggedExperiment 为基因组数据分析师的工具箱添加了一个更强大、更高效、更不容易出错的工具。”
“Marcel 多年来开发和改进了这个软件,它已经找到了一个重要的用户群,所以我很高兴正式描述它并将其发表在生物信息学领域的顶级期刊之一,”Waldron 说。“通过增强我们分析和理解基因组数据的能力,这一发展为提高我们对疾病的认识和开发更好的治疗方法开辟了新的可能性。”
RaggedExperiment 包根据 Bioconductor 项目的 Artistic 2.0 许可公开提供,用于开源生物信息学,并在GitHub上进行开放开发和问题跟踪。