研究小分子(药物小分子和环境污染物)与生物大分子(蛋白质和DNA)之间的直接相互作用,有助于理解它们进入机体后的作用靶点、如何干扰生物大分子与其它小分子正常的相互作用、以及作为始发信号如何引发下游的分子生物学变化,这应该是各种生物学机制研究的根本。
记录我的所见、所闻、所学、所得 Email:sunnysean@qq.com
研究小分子(药物小分子和环境污染物)与生物大分子(蛋白质和DNA)之间的直接相互作用,有助于理解它们进入机体后的作用靶点、如何干扰生物大分子与其它小分子正常的相互作用、以及作为始发信号如何引发下游的分子生物学变化,这应该是各种生物学机制研究的根本。
以前试图用三维地形图可视化二维空间中任意点的取值,演示用。如同MATLAB中peak函数产生一个二维矩阵,用surf或者mesh可视化。但peak函数不能指定”峰”在什么位置,而手工设定某点为任意值时,该点与周围没有平滑的过度,特别是设置了任意多个点的值,计算很麻烦。今天突然想到了类似Photoshop高斯模糊的方法可能行。恰好MATLAB中有fspecial(设置滤波器)和imfilter(应用滤波器)函数,果然可以。
ChIP-seq数据分析时,可产生各种各样的Peak。四个例子:
从NCBI上下载了dbSNP150 common的数据,vcf格式,解压后共8G。我只需要chr、start、end、rs id、ref、alt、type、frequency信息,并整理成bed格式。chr、start、end、rs id、ref、alt各自为一个字段,并通过tab隔开,而其它各种信息合并为一个字段,以;分隔。数据量小时,联合使用notepad++替换字符串和Excel处理格式,即可生成各种生信格式。但数据量太大(若是all版本,有20多G),笔记本上不能打开,即便打开操作很卡。
本科毕业时报研究生专业,选择了Toxicology。初衷是Public Health各专业里,只有Toxicology才用到各种分子生物学和细胞生物学实验技术。那时还没接触科研,私以为Toxicology是一门“高大上”的专业,当时以为如此。
我们研究基因组时,在生物学上的研究对象是sequence,即ATGC序列。与sequence不同,genomic feature(在Bioconductor中对应GRange/IRange对象)不显示ATGC内容,而着重强调各种feature (如gene, transcript, UTR, promoter, exon, intron, SNV, INDEL等功能元件)在(特定版本)基因组上的位置,包括染色体、正负链、起止位置等。因此,feature是sequence的数字化表示;一个特定的feature与一段sequence是一一对应的。这样可以把一个自然现象加以数学化,便于统计分析。
计算生物学是重要的科研工具。在大数据时代,计算常辅以并行计算技术以加快计算速度。我一直认为数据处理最重要的步骤不在分析阶段,而在预分析,也就是数据探索阶段。掌握了并行计算方法,可以更自由地探索大数据。比如,在我们医学领域里,进行探索研究时会不断地形成各种假设,也会突然冒出新的想法,需要一一去探索。没有高效率的计算能力,繁琐的运算会让大部分人中途而止,研究得不到尽兴。数据越大,这种瓶颈越明显。
基因注释数据库是描述基因组上gene、transcript、exon、intron等结构的染色体序号、正负链、起止位置、标准名称等信息的数据库。有三大注释库: RefSeq(refGene), UCSC(knownGene), Ensembl(ensGene)。另外,常用的GENCODE Annotation结合了Havana manual gene annotation和Ensembl automated gene annotation。Ensembl浏览器显示即是GENCODE Annotation,二者等同)。