剑桥大学肿瘤研究所的Florian Markowetz,在17年3月的PLOS Biology上发表了一篇同名文章《All biology is computational biology》,为搞计算的人在生物研究中的贡献正名。Florian提到了大部分人对计算的看法,诸如文章署名时,搞计算的被放在后面。他也提到自己曾经的一次面试:被质疑缺乏对生物学的深度理解,和科研能力,被认为“过度依赖合作者”(即没有第一作者的文章。因为第一作者通常不是搞计算的人)。
Florian随后列举计算对生物学的贡献,以及它举足轻重的作用。
- Computational biology brings order into our understanding of life
- Computational biology lets you see the big picture
- Computational biology provides an atlas of life
- Computational biology turns ideas into hypotheses
他举个两个文章的例子,非常有意思。这两篇文章中,提出了肿瘤形成过程两个非常重要的生物学问题:1.每一种肿瘤中都有大量的突变,然而这些突变有没有规律?不同肿瘤对突变的是否偏好性?能否溯源到哪种环境因素或遗传因素与其有关联?2. 即便在单一肿瘤里,这些大量 的突变是不是一直不变的?即在突变在肿瘤进化中的表现。每个人对于这些问题,都会有一个大概的假设,但是具体实施时,怎样衡量这些变化?这要依靠提炼问题,将其数量化,并衡量,也就是“计算”。归根到底,上述两个问题可以变成mutation signature和heterogeneity是怎样度量的?
这两篇文章引申出一个重要的话题。怎样面对大数据进行归纳,怎样度量一些有深度的生物学现象,如果没有计算的思维,单凭生物学知识背景是很难处理这些的。更不用提在科研过程中,想到的一些新idea,需要数据去提问。个人认为,这些思维方式远远超过目前烂大街的测序数据处理方法,因为后者比较容易掌握。
Florian在文末写到,“Rest in peace, computational biology“ (安息吧,计算生物学)。言外之意是,请不要因为特意区别对待我们,而叫我们“计算生物学”,我们就是生物学,这是一项每个生物学研究者都应该具备的知识!
曾经给自己制定了一个自学的计划,利用相当长一段时间了解:处理“基因“的二代测序生物信息知识,和处理”蛋白“的同源建模、对子对接和分子动力学模拟等知识。因为当时觉得自己统计功底很好,而且感受到了生物信息学在科研中的作用,所以早早开始了自学的计划,也得到了若干专业人的指导。学习过程还是很辛苦的,但收获很大。
无论wet lab里的人,还是dry lab里的人,都应该去了解计算生物学,不期待能掌握其中的具体数学算法,但需要知道这些新的方法能自己带来什么。甚至需要亲自去实践每一种数据处理的过程,有了这些经历,结合实验,会有一番不同的科研体验。