r语言差异基因做go geo差异表达分析r语言( 二 )


看表达倍数的同时还需结合基因表达丰度,信号值太低的基因会在后续的验证实验中检测不到 。3差异基因图表解读在差异结果的图形展示结果中,主要是火山图和聚类图 。火山图火山图只针对两分组且有生物学重复的情况 。
如何看火山图呢?火山图可反映总体基因的表达情况,横坐标代表log2(Fold Change),纵坐标表示-log10(P值),每个点代表一个基因,颜色用以区分基因是否差异表达,图中橙色的点代表差异表达基因,蓝色的点代表没有差异表达的基因 。聚类图聚类图可以衡量样本或基因之间表达的相似性 。
如上图所示的聚类图中 , 横坐标代表样本聚类,一列代表一个样本,聚类基于样本间基因表达的相似性,样本间基因表达越接近,靠的越近,以此类推 。
纵坐标代表基因聚类 , 一行代表一个基因,聚类基于基因在样本中表达的相似性,基因在样本中表达越接近,靠的越近,以此类推 。
色阶代表基因表达丰度,越红代表上调得越明显,越绿代表下调得越明显 。
如何做聚类图请戳往期推送做个聚类图只需1分钟
差异基因有了,如何挑选潜在基因进行实验验证呢?
关键还在于感兴趣点在哪了 。粗略的看,可以先看KEGG或者GO功能分类,看差异基因具体富集在哪些通路或功能 。
比如关注的是细胞内酸合成关键酶 , 可以重点看酸合成和碳流相关通路 。具体如何看KEGG或者GO功能分类,请听下回分解 。
R语言初学笔记:差异表达基因setwd("E:/GSE25066")#环境设置
library(limma)#加载差异分析包limma
#将分组文件加载到环境中,分组信息第一列为样本名,第二列为分组信息如“high”“low”
targets-read.csv("group.csv")
#将表达矩阵加载到环境中,行为基因,列为样本,这里应该注意去除重复项 。
eset-read.csv("expreset-basal1.csv",row.names = "symbol")
targets$Target=gsub("_",".",targets$Target)##若数据中存在特殊符号,将"_"替换成“.”,也可以不替换
##该数据集中实际存在不符合R的命名原则,所以在没个分类前加一个“F”,具体自己定
targets$Target=c(paste0("F",c(targets$Target),collapse = NULL,sep=""))
colnames(targets)=c("FileName","Target")#更改列名,为了和limma包中的一致
lev-unique(targets$Target)##使用unique()函数进行去重
f - factor(targets$Target, levels=lev)
design - model.matrix(~0+f)
colnames(design) - lev
cont.wt - makeContrasts("high-low",
+levels=design)
fit - lmFit(eset, design)#前面矩阵的row.name=“symbol”
fit2 - contrasts.fit(fit, cont.wt)
fit2 - eBayes(fit2)
tT=topTable(fit2, adjust="BH",sort.by="logFC",n=Inf)
tT = subset(tT, select=c("adj.P.Val","P.Value","logFC"))
colnames(tT)=c("FDR","P.Value","logFC")
write.csv(tT,"DEGbasal.csv")
#最后的tT就是得到的差异基因,其中包含基因,P.Value和logFC
r语言差异基因做go的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于geo差异表达分析r语言、r语言差异基因做go的信息别忘了在本站进行查找喔 。