高效、务实、严谨、敬业
服务目录
技术服务
技术专题
联系我们

联系我们

广州赛诚生物科技有限公司
广州市黄埔区学大道揽月路广州企业孵化器B座402
电话:020-85625352
手机:18102256923、18102253682
Email:servers@gzscbio.com
Fax:020-85625352
QQ:386244141

项目名称:Chip差异Peak分析结果及报告

所属分类:生物信息学分析

联系电话:020-85625352

QQ:386244141

Email:servers@gzscbio.com

技术服务描述

Chip差异Peak分析结果及报告


1. 概述

1.1. 背景及分析流程简介

  为了理解细胞中更为复杂的生物过程,许多研究已在通过比较ChIP-seq的差异获得的不同数据。越来越多的ChIP-seq实验正在研究多种实验条件(例如各种治疗条件,几个不同的时间点和不同的治疗剂量水平)下的转录因子结合,组蛋白修饰的差异。差异富集在生物学和医学研究中已变得具有实际重要性。 为了建立对比条件消除误差,我们对数据进行了以下流程处理:我们首先将A与B两组的结果进行共有Peak区域基因计算,对于有共有区域(overlap)的Peak,计算最高峰位点并向其两侧各延伸250bp作为合并峰计算区域,对每个区域进行的每组样本进行reads表达定量,进行差异Peak的计算,筛选出差异Peak,进行临近3K注释到基因上,进行基因集富集分析。

  本组实验结果,我们处理的是有两组重复的DiffPeak数据对比,我们的差异Peak筛选标准为:|log2FC| > 1 && FDR < 0.05

分析流程:






1.2. 结果汇总

路径说明
差异Peak分析结果, 目录: Results/
Results/*DiffPeakInfo.xls差异Peak计算的所有结果
Results/*DiffPeakInfo.bed差异Peak计算的所有结果的bed文件
Results/*DiffPeakInfo_FC2-q0.05.xls差异Peak计算结果按阈值筛选后结果
Results/*DiffPeakInfo_FC2-q0.05.bed差异Peak计算结果按阈值筛选后结果的bed文件
Results/*DiffPeakInfo_FC2-q0.05_GAIN.bed差异Peak计算结果按阈值筛选后结果的bed文件(差异上调)
Results/*DiffPeakInfo_FC2-q0.05_LOSS.bed差异Peak计算结果按阈值筛选后结果的bed文件(差异下调)
Results/*DiffPeakInfo_FC2-q0.05_PeakAnno.xls差异Peak计算结果按阈值筛选后结果的临近注释文件
Results/*DiffPeakInfo_FC2-q0.05_PeakAnno.sorted.xls同上,差异Peak计算结果按阈值筛选后结果的临近注释文件
(按annotation(Promoter), Fold, FDR列排序)
Results/*DiffPeakInfo_FC2-q0.05_PeakAnno_gene.bed注释到的基因(转录本)信息标记bed文件
差异Peak分析绘图结果, 目录: Results/Plot
Results/Plot/1cor_peakScore_*.pngpeak相关性热图分析
Results/Plot/1pca_peakScore_*.pngpeak相关性PCA分析
Results/Plot/2cor_readCount_*.png共有区域的readCount相关性热图分析
Results/Plot/2pca_readCount_*.png共有区域的readCount相关性PCA分析
Results/Plot/*_1cor.png差异Peak相关性热图分析
Results/Plot/*_2pca.png差异Peak的PCA分析
Results/Plot/*_3ma.png差异Peak的MA图
Results/Plot/*_4vol.png差异Peak的火山图
Results/Plot/*_5box.png差异Peak的箱型图
Results/Plot/*_6heatmap.png差异Peak的热图
显著差异Peak的临近基因集富集分析, 目录: Results/Enrich/
Results/3.Enrich/*/各组差异Peak的临近注释基因集的富集分析结果目录
Results/3.Enrich/*.html辅助查看富集结果的网页文件
Results/3.Enrich/*/*-p.adjust1.00.csv富集分析结果列表(原始)
Results/3.Enrich/*/*-p.adjust0.05.csv富集分析结果列表(按padj<0.05筛选后)
Results/3.Enrich/*/*.pdf富集分析的绘图高清文件



* 以上重要结果为加粗显示。


2. 分析流程

2.1. 重叠区域的计算


2.1.1. PeakScore相关性分析

  为了进行后续的差异Peak的富集程度比较,我们需要合并Peak比较区域,在overlap的共有区域计算前,我们需要先了解各组内的peak重复性情况。 对Treat组和Control组进行PeakScore相关性热图分析,PCA分析。



Results/Plot/1cor_peakScore_Demo_A-B.png

Results/Plot/1cor_peakScore_Demo_C-D.png

Results/Plot/1pca_peakScore_Demo_A-B.png

Results/Plot/1pca_peakScore_Demo_C-D.png




2.1.2. readsCount相关性分析

  我们选取至少含有overlap区域>=2个样本的callPeak区域结果,计算最高峰位点并向其两侧各延伸250bp作为合并峰计算区域,对每个区域每组样本进行reads表达定量。 随后,我们对各组进行readsCount的相关性热图分析,PCA分析。



Results/Plot/2cor_readCount_Demo_A-B.png

Results/Plot/2cor_readCount_Demo_C-D.png

Results/Plot/2pca_readCount_Demo_A-B.png

Results/Plot/2pca_readCount_Demo_C-D.png




2.2. 差异Peak的计算

2.2.1. 差异Peak的相关性计算及显著性差异Peak的筛选

  通过计算两组之间的合并区域的表达差异,我们能获得两组比较计算的差异Peak所有结果。 通过相关性热图及PCA,可以看出组内的差异peak计算的相关性好坏,一般而言好的结果能明显区分开。 通过阈值|log2FC| > 1 & FDR < 0.05进行筛选获得显著差异Peak筛选结果,进行相关性热图,PCA,火山图,热图绘制如下。

  通过差异Peak分析,我们得到了基因组范围内的差异Peak信息,为进一步得到差异Peak附近的临近基因信息,我们使用Chipseeker进行进一步注释,得到Peak所对应的临近注释基因,并给出Peak在Promoter的上下游3k,或之外的Intron、Exon等区域的位置及距离等信息的注释文件: Results/*DiffPeakInfo_FC2-q0.05_PeakAnno.xls



Results/Plot/Demo_A-vs-B_1cor.png

Results/Plot/Demo_C-vs-D_1cor.png

Results/Plot/Demo_A-vs-B_2pca.png

Results/Plot/Demo_C-vs-D_2pca.png

Results/Plot/Demo_A-vs-B_4vol.png

Results/Plot/Demo_C-vs-D_4vol.png

Results/Plot/Demo_A-vs-B_6heatmap.png

Results/Plot/Demo_C-vs-D_6heatmap.png




Results/*DiffPeakInfo_FC2-q0.05_PeakAnno.xls表头说明:



表头说明
peakname差异Peak的name
seqnames差异Peak所在染色体
start差异Peak在参考序列上的起始位置
end差异Peak在参考序列上的终止位置
width差异Peak的长度信息
strand正负链信息
ConcGroup1和Group2平均值进行log2标准化后的计数
Conc_Group1Group1进行log2标准化后的计数
Conc_Group2Group2进行log2标准化后的计数
FoldGroup1与Group2的差异倍数(进行log2标准化)
p.value差异Peak的置信度计算
FDR差异Peak的多重校验FDR
change上下调标记,上调标记为GAIN,下调标记为LOSS
annotationpeak注释信息(对于注释到基因上等注释信息的描述)
geneChr注释基因的染色体信息
geneStart注释基因的起始位置
geneEnd注释基因的终止位置
geneLength注释基因的长度
geneStrand注释基因的正负链
geneId注释基因的EntrezID
transcriptId注释基因的转录本名字
distanceToTSS被注释Peak距离TSS的距离
ENSEMBL注释基因的ENSEMBL名
SYMBOL注释基因的SYMBOL名
GENENAME注释基因的基本描述信息





2.2.2. 差异Peak注释基因的富集分析

  将上述临近注释得到的基因集,进一步进行GO和KEGG富集分析,得到差异Peak筛选结果的临近注释基因富集结果。结果文件说明及解读,同CHIP标准分析流程报告。

  结果目录: Results/Enrich/


3. 结果的IGV可视化

  为了得到较为直观的测序分析结果,我们一般需要借助可视化工具,IGV在这个过程中扮演十分出色的角色,他不仅展示了不同样本测序覆盖情况,还常常用于联合分析,如mRNA的测序变化与chip测序的变化。 在此项目中,我们用于差异Peak的筛选与评估,我们可将分析结果文件导入,步骤如下:

  1. 导入CHIP分析结果,即前面我们的Chip标准分析结果中.bigwig.narrowPeak文件。

  2. 导入CHIP的差异Peak分析结果,即本分析中所得到的bed结果。

  3. 调节数据显示范围:

    • bigwig 高度范围显示调节:按住 ctrl / command 选中多个.bigwig文件,右击点击 Set Data Range...。 为方便对比,在对比不同区域Peak时,可手动调节显示范围。

    • bed / gene 重叠区域展开设置: 右击bed文件,点击 Expanded 设置展开。

  4. 搜索感兴趣的 Peakname / SYMBOL: 在第一排第三个框内输入Peakname / SYMBOL名,点击GO即可搜索。如果搜索不到,可尝试点击Reload重新加载。


筛选的 Peakname / SYMBOL 的一些方法:

  • 搜索感兴趣的Peak,可参考:Results/*DiffPeakInfo_FC2-q0.05_PeakAnno.sorted.xls,该文件按annotation(Promoter), Fold, FDR列排序, 即Promoter上游3K区域差异倍数较大的结果将被优先排序。 排名较前的结果具有一定的显著差异Peak筛选价值。

  • 搜索感兴趣的Gene,可根据生物学功能研究,挑选出较有意义的功能富集结果的基因集,反向去看差异Peak变化情况。 上述分析的功能富集结果具有一定的参考意义。


Demo展示:

  一个示例如下,在该IGV中通过可视化,可读出的信息有:在 A vs B 的差异Peak对比中, Peakname 为 54218542195422054221 的这些Peak比较区域, A相对B具有显著下调趋势,它们都被临近注释到CCL2基因上,注释类型为3K内的Promoter。

示例图: