edger 分析基因差异,差异表达的基因做WGCNA分析

大多数差异分析软件(如DESeq和edgeR)以可比对的原始readscount作为输入，利用负二项分布模型估计基因差异在样本间的表达概率。EdgeR和DESeq2 ，基因RNA-seq中的表达计算和表达差异分析原文链接:基因RNA seq中的表达计算和表达差异，2)readcount计算；3)归一化3)read count；4)差异Expression分析；背景知识:1)对比:一般对比:BWA、肥皂开口缝隙对比:礼帽(领结2)；2)Readcount:舍弃平均分布，使用Uniqueregion估计并重新分布表达式计算的本质目标基因表达式相对于参考系中表达式的值。
1、转录组表达定量-Readcount?CPM?RPKM?FPKM?1 。readcount值的概念:匹配到某个基因的读取次数。用途:用于换算CPM、RPKM、FPRM等后续指标；同时，作为基因XOR分析software的输入值(如DESeq和edgeR) ，也就是说差异分析的结果来自readcount的计算，而不是CPM、RPKM和FPKM 。2.CPM: CountSpellion数值概念:计算公式:CPMA/mappedreads*A是某基因的readcount 。
2、生信如何在数据库中筛选某个基因低表达的患者在生物信息学数据库中筛选某个基因低表达的患者，可以采用基因表达谱数据分析的方法。具体步骤如下:1 .在公共数据库中搜索基因的表达谱数据集。2.利用相应的生物信息学工具下载基因表达谱数据集。3.使用数据处理软件对下载的基因表达谱数据进行预处理，包括数据清洗、标准化和规范化。4.进行差异Expression分析，比较不同组间基因的表达水平，筛选出基因低表达的患者。
3、ReadcountCPMRPKMRNAseq哪个值是表达水平？1.Readcount(1)数值概念:与geneA匹配的读取次数。(2)用途:用于换算CPM、RPKM等后续指标；作为基因expression差异分析的输入值。大多数差异分析软件(如DESeq和edgeR)以可比对的原始readscount作为输入，利用负二项分布模型估计基因差异在样本间的表达概率。
如果用一些修正后的指标，比如RPKM作为输入，是不合理的。2.CPM: CountSpellion (1)数值概念:计算公式:CPMC/N*设c为与geneA匹配的阅读数， N为与所有基因匹配的阅读总数。(2)用法:在某些情况下，我们只想知道每个基因所覆盖的相对读取次数，而不想修正它的长度，所以我们会使用这个指标。
4、RNA-seq 分析normalization方法之TMM【edger 分析基因差异,差异表达的基因做WGCNA分析】使用过程中存在一些问题，要仔细了解。归一化的方法很多，适应的条件也不一样。下面两篇比较清楚。建议你看看。参考:package edgeR中calcNormFactors()函数的默认方法是TMM，用于原始的RNAseqcounts数据，不做其他处理。参考原作者的文章作为微分表达式分析的扫描规范化方法FRNASEQData 。Markdrobinsonand Aliciaoshlack ，作者根据经验提出一个假设，即个体间基因的表达水平大部分没有发生太大变化，只有少数发生了变化。