单细胞入门(1)——介绍
一、单细胞转录组测序流程介绍
单细胞测序能够探索复杂组织中单个细胞的不同生物学特性,帮助我们认识细胞与细胞之间的差异。这些检测方法有助于研究细胞谱系、细胞功能、细胞分化、细胞增殖和细胞应答,提升我们对复杂生物系统的理解,包括肿瘤、中枢神经系统(CNS)、免疫系统和生殖发育等。
1.一般基础分析流程
01 测序原始数据的处理
测序原始数据通常指测序下机得到的fastq文件,需要经过一定的处理,将其中我们需要的信息,如barcode,UMI以及基因的序列等,给提取出来,方便下一步分析。通过这步分析,我们可以得到关注的barcode、UMI以及基因的序列。
工具:fastp、 cutadapt、 trimmomatic等分析工具
目的:去除测序时引入的连续的N、低质量reads、以及建库时引入的接头序列等。
02 获得表达矩阵
处理完fastq之后,我们需要从中分析出每个细胞中基因表达的信息,即获得表达矩阵。表达矩阵中包含了每个细胞转录组中各个基因表达水平的信息,是我们后续各类分析的基础。我们可以统计得到细胞的个数,各个细胞表达的基因数等信息。同时,通过对这些信息的统计分析,我们还可以判断单细胞测序数据整体的质量,为后面的分析步骤提供依据和参考。
工具:STAR或者salmon,kallisto等比对工具
目的:将测得的序列片段比对到参考基因组或者转录组,同时根据建库时的barcode白名单对每个真实捕获到的细胞barcode进行比对,分出每个细胞的基因表达矩阵。
单细胞测序数据质控的指标有很多,比如:
①细胞数 Number of Cells:即捕获到的细胞数,是通过分析与细胞关联的条形码的数目计算出来的。根据这个值,我们可以知道这次单细胞测序捕获了多少细胞。
②中值UMI数 Median UMI Counts per Cell:这个指标代表的是每个细胞中被检测到UMI数据的中位数。UMI是目前许多高通量单细胞测序平台用到的一种分子标签,会给细胞中每个被捕获的mRNA分子打上一个独特的标签,用来在分析中校准基因的表达量。通过这个指标,我们可以了解到每个高质量细胞中大概有多少个mRNA分子被捕获到。
③中值基因数 Median Genes per Cell:这个指标代表的是每个细胞中被检测到基因数目的中位数。虽然人体一共有约2万个基因,但由于转录水平的不同和测序量的限制,每个细胞中能测到的基因只是这2万个中的一部分——当然,我们希望能测到的基因越多越好。这个指标可以让我们了解到,在这次单细胞测序实验中,每个细胞中大概有多少个基因被测到。
03细胞过滤
上一步中我们得到了所有细胞中基因表达的信息,但并不是每个细胞中信息的质量都符合我们后续分析的标准,因此,我们需要对细胞进行过滤,以便获得相对完好的细胞。
在单细胞测序分析中,过滤的标准往往是某些特定基因的表达量,用来鉴别出质量欠佳的细胞,将其过滤掉。其中最重要的参考标准是基因数以及线粒体基因表达情况。
以下3幅小提琴图,分别展示了基因数,mRNA分子总数、线粒体基因占比这三个常用的过滤指标。
①首先可以通过基因数、mRNA分子数、线粒体基因占比三个参数进行质控去除质量差的细胞。
②如果nFeature_RNA 过低,表示该细胞可能已经死亡或将要死亡或者可能是空液滴。
③如果nFeature_RNA 与 nCount_RNA 数值过高,表示细胞在形成油包水的结构制备过程中,两个或者多个细胞被包裹在一个液滴中。
④如果线粒体基因占比较高,则说明细胞的质量较差。这是因为线粒体基因会在受损或凋亡细胞表达升高,因而线粒体基因占比较高,表明细胞可能已经受损或者正处于凋亡过程中。
每种细胞或组织类型如何设定线粒体阈值,要依实际情况而定。比如某些细胞的呼吸作用很旺盛,其线粒体基因的比例就会可能很高,而不是因为细胞破裂或者细胞状态不好引起的。而有些细胞本来基因的表达数就很少,比如中性粒细胞。所以这三个参数的设置要根据细胞类型而设置。
04降维和聚类
拿到过滤后的细胞后,我们就可以进行进一步的分析,了解样本中有哪些类型的细胞,每个细胞分别属于哪种细胞类型,甚至细胞亚型。要做到这一点,我们首先要知道哪些细胞是属于同一类的,这就需要进行降维和聚类。
降维——就是把多维度的复杂数据用更少的维度展示出来,同时尽量保留原始数据中的主要信息。比如照片和地图,从三维的地球到二维的世界地图,就是对三维物体和真实世界的一种降维展示
聚类——就是把相似的类别聚在一起。单细胞测序分析的降维聚类图,就是将各个细胞的基因表达情况在二维平面上展示出来,并且将基因表达特征近似的细胞聚在一起。在降维聚类图中,细胞间的距离是由它们表达谱的相似程度决定的。表达谱相似的细胞会聚在一起,被标记为同一种颜色,提示它们可能属于同一种细胞类型,为后续判断细胞类型提供分析基础。比如,
05 找到细胞簇的Maker基因
对于上一步中发现的每一个细胞簇(cluster,即降维聚类图中聚在一起的一群细胞),我们可以通过分析找到在其中特异表达的cluster marker基因,用于后续的细胞类型注释分析。
在通常情况下,我们会将某一个cluster与其他所有cluster相比的差异基因作为这个cluster的marker基因。当然,如果需要的话,也可以计算两实验组间或者两cluster间的差异基因来作为marker。
工具:Seurat软件包内的FindMarkers函数。
06细胞类型注释
在得到细胞簇以及它们的marker基因后,我们就要对这些细胞簇的细胞类型进行判定,这一步就是细胞类型注释。细胞类型注释是基于不同细胞类型中特异表达的marker基因来进行的。在第五步中,我们找到了每个细胞簇的marker基因,如果某个细胞簇的marker和某个细胞类型的marker基因相符,就可以被判定为对应的细胞类型。
这一步是单细胞分析中非常重要的环节,有一些细胞自动注释软件可以帮助我们定义细胞类型,
工具:singleR或者scCATCH。 受限于前期实验设计或数据分析的差异,自动注释的结果有时并不能与预期相符,可以通过单细胞公共数据库(比如CellMarker、PangLaoDB、CancerSCEM、SingleCellPortal等)或者已发表文章提高注释准确度(相关的网站放在下方)
进行了注释后,我们在降维聚类图上看到的,就不再是以数字编号的细胞簇,而是有名有姓的具体细胞类型。
当我们获得了完整的细胞类型注释后,就可以开始进行下游的深入分析,比如不同细胞类型的差异基因、通路富集,也可以进行拟时序分析、细胞通讯分析等等,对样本中各类细胞的功能、状态和相互作用进行更加深入详细的分析。
二、相关的数据库
细胞注释参考数据集可以参考以下网站:
(1)CellMarker:CellMarker2.0,旨在为人类和小鼠组织中的各种细胞类型提供全面而准确的细胞标记资源。通过人工整理超过100000篇已发表论文,4124 个条目,包括细胞标记信息、组织类型、细胞类型、肿瘤信息和来源,收集了158个人体组织、亚组织中467个细胞类型的13,605个细胞标记物和81个小鼠组织、亚组织中389个细胞类型的9,148个细胞标记物,并存放在CellMarker中。主要用途包括:①浏览人和小鼠不同组织的不同细胞中的细胞标记;②在人和小鼠的任何感兴趣的组织中检索特定细胞类型的细胞标记;③通过生动的统计图表获取每种细胞类型中细胞标志物的流行情况;④下载人和小鼠不同组织不同细胞类型的细胞标志物。
(2)PanglaoDB:https://panglaodb.se/index.html,是一个面向对探索小鼠和人类单细胞RNA测序结果分析的单细胞转录组数据库。其中包含超过1000个单细胞实验的预处理和预分析结果,涵盖大多数单细胞平台数据的分析流程,基于来自各种组织和器官超过400万个细胞。同时包含6000多个marker基因,是一个主要用于细胞分群注释的marker数据库。数据主要源于已经公开发表的单细胞转录组数据。
(3)Single Cell Portal - Broad Institute:https://singlecell.broadinstitute.org/single_cell,该网站最初是作为BRAIN(推进创新神经技术方面的脑研究)
计划的一部分而开发的,可以从https://github.com/broadinstitute/single_cell_portal/wiki获得网站布局概览,该数据库目前收录99个study中的340万种细胞,主要用于多个高度交互的可视化分析,了解细胞和细胞子集如何聚集。通过可视化细胞绘制并按元数据分组的基因表达,例如,通过不同测试或通过新细胞群来探索基因。发现基因在不同细胞簇上的表达,探索其在不同细胞群中的表达模式。此外,用户还可以下载数据、表达矩阵或FASTQ文件进行个性化分析。
(4)Single Cell Expression Atlas - EMBL-EBI:Home < Single Cell Expression Atlas < EMBL-EBI,该数据库由欧洲分子生物学实验室(EMBL)进行统计分析,是世界上最大的基因组学科学和技术专业知识集合之一。如果要搜索mouse的xxx data,点击Browse experiments,将Kingdom调成Animals,在Search all columns中输入“xxx”,可以看到有关lung的experiments。
(5)Mouse Cell Atlas:MCA | Mouse Cell Atlas,浙江大学郭国骥团队的小鼠单细胞数据库,也可以从文章中(Mapping the Mouse Cell Atlas by Microwell-Seq)直接下载:MCA DGE Data
(6)CancerSEA:CancerSEA - Database Commons,以单细胞水平全面解码肿瘤细胞不同功能状态的数据库,用途包括:①提供肿瘤单细胞功能状态图谱,涉及25种肿瘤类型的41900个肿瘤单细胞的14种功能状态;②查询基因(包括PCG 和 lncRNA)或感兴趣的基因列表与不同肿瘤类型相关的功能状态;③以单细胞分辨率提供与功能状态高度相关的pCG/lncRNA库。
(7)Mouse Cell Atlas:MCA | Mouse Cell Atlas,SCPortalen
收录的信息包括了单细胞的图片、数据和序列,在这个数据库中可以通过细胞和数据集(dataset)进行搜索下载,点击Datasets→transcriptome data,数据下载。
(8)scRNASeqDB:scRNASeqDB,
是由休斯顿德克萨斯大学健康科学中心的研究人员设计,几乎包括所有目前可用的人类单细胞转录组数据集(n = 38),涵盖有人类细胞系或细胞类型共计200种和13,440个样本。该 数据库还提供了不同状态细胞基因表达的详细信息,以及一些特征,包括基因表达的热图和箱线图、基因相关矩阵、GO分析和通路注释。用户还可以将scRNASeq数据集提交到数据库进行分析。检索时,可以通过基因或者细胞来进行分析。
(9)Human cell atlas, HCA:HCA Data Portal ,在单细胞水平研究人体,①人类细胞图谱对人体中的所有细胞类型和亚型进行分类,②识别、比较细胞的不同状态;③追踪细胞发育轨迹,④揭示从发育至成年期间所涉及的细胞和过程。
(10)Jingle Bells: Jinglebells – Tal Shay,从单细胞水平可视化分析RNA-Seq数据的标准化单细胞数据集库,根据文献研究对象将单细胞数据划分为免疫和非免疫类。
(11)DISCO: https://www.immunesinglecell.org/,DISCO整合了来自4593个样本的超过1800万个细胞,涵盖107个组织、细胞系或类器官、158种疾病和20个平台,数据以模块化形式呈现。该数据库提供了三种在线工具,即Online FastIntegration、Online CELLiD和CellMapper,用于单细胞RNA-seq数据的集成、注释和投影到选定的图集中。
(12)SC2disease:http://easybioai.com/sc2disease/,主要用来分析不同疾病中异常细胞和正常细胞的差异基因表达谱。疾病包括:乳腺癌、黑色素瘤、2型糖尿病、少突胶质细胞瘤、慢性粒细胞白血病、肝癌、肺癌、H3K27M胶质瘤、巴雷特食管、老年痴呆症、类风湿关节炎、自闭症谱系障碍、狼疮性肾炎、胰腺导管腺癌、多发性硬化症、髓母细胞瘤、星形细胞瘤、亨廷顿病、雷特综合征、年龄相关性黄斑变性、动脉粥样硬化和疱疹病毒感染。
(13)scQuery:https://scquery.cs.cmu.edu/,通过自动化管道来下载、处理和注释公开可用scRNA-seq数据集的方法,以实现大规模的监督表征。该数据集代表来自500多个不同scRNA-seq 研究的表达实验,代表 300种独特的细胞类型,以及总计近150K的表达谱。数据来源是GEO和ArrayExpress数据库中的scRNA-seq数据。可以上传数据进行单细胞分析,用于确定细胞类型、关键基因等。
(14)BloodSpot:http://servers.binf.ku.dk/bloodspot/,是一个提供健康和恶性造血中基因和基因特征的基因表达谱DE 数据库,包含来自人类和小鼠的数据。还可显示样本之间层次关系的交互式树,以及Kaplan-Meier生存图。该数据库被细分为几个可供浏览的数据集,是一个专门用于健康和血液病单细胞转录组分析的数据库。
(15)SCPortalen:http://single-cell.clst.riken.jp/,是日本开发的一个单细胞测序数据库,旨在使在不同的环境中得到的单细胞测序数据具有可比性和可重用性,涵盖了人类和小鼠单细胞转录组学数据集,这些数据集可从INSDC网站公开获得。除了转录组学数据,SCPortalen还提供了对单细胞图像的访问权限。通过SCPortalen的Web界面,用户可以轻松搜索、分析和下载感兴趣的单细胞数据集。
(16)SCDevDB:https://scdevdb.deepomics.org/,包含10个数据集,涵盖18413个单细胞和176个细胞组。根据数据资源号,这些细胞群被分为35个发育阶段,每个哺乳动物个体都是从全能受精卵发育而来的。哺乳动物的着床前发育是一个复杂的过程,包括从1细胞到2细胞、2细胞到4细胞、4细胞到8细胞、8细胞到16细胞以及16细胞到胚泡的一系列细胞分裂。几乎所有的人体组织都来自胚胎细胞,然后根据多细胞生物的发育过程构建发育树。SCDevDB是一个发育相关的单细胞数据库。
(17)KIT:http://humphreyslab.com/SingleCell/,是一个用于肾脏单细胞数据集的在线数据库,允许用户从小鼠或人肾和人肾类器官单细胞数据集中查询基因表达。文库是使用所示的细胞或细胞核以及InDrop、DropSeq或10X Chromium平台创建的。数据库涵盖健康成人肾脏-上皮细胞,人体排斥肾同种异体移植活检组织,健康成人肾脏组织,肾脏类器官,人类胎儿肾脏,人类糖尿病肾和人肾snRNA/ATAC-seq等组织器官的空间转录组数据。
(18)VascularSingleCells:http://betsholtzlab.org/VascularSingleCells/database.html,该数据库是成年小鼠脑和肺血管和血管周围细胞的单细胞基因表达数据库,Christer Betsholtz团队主要研究胚胎发育、成人健康和疾病中血管生成、血管通透性和其他血管功能的细胞和分子机制,主要关注微血管周细胞和血管周围成纤维细胞,这是围绕大脑血管的两组不同的细胞。他们还开发了其他针对小鼠脑组织单细胞测序的数据库。
(19)TISCH:http://tisch.comp-genomics.org/home/,TISCH数据库是专门用于肿瘤免疫浸润分析的单细胞数据库。数据来源明确,主要是GEO和ArrayExpress的数据,包括28种肿瘤类型,79个数据集,2045746个细胞,既有人类细胞,也有小鼠细胞;既有治疗的,也有未治疗的。因此,涵盖的单细胞类型比较全面。数据处理的流程包括数据收集、样本质控、数据前处理,数据集信息,数据集模块,基因模块和数据下载。
(20)scTPA:http://sctpa.bio-data.cn/sctpa/,用于通路激活特征的单细胞转录组分析的网络工具。scTPA用于分析人和小鼠中通路激活特征的单细胞基因表达。基于众所周知的生物通路或用户定义的通路,scTPA通过测量单个细胞的通路激活,进行聚类分析并识别细胞类型特异性激活通路,从而更好地了解通路中的细胞类型和状态取向的观点。
(21)SpatialDB:https://www.spatialomics.org/SpatialDB/,是第一个专门从已发表论文中整理空间转录组数据的公共数据库,旨在为组织中的空间基因表达谱提供全面而准确的资源。目前,SpatialDB包含由8种空间分辨转录组技术生成的24个数据集的详细信息,允许用户在线浏览所有 8 种技术的空间基因表达谱,并比较相同或不同技术生成的任意两个数据集的空间基因表达谱。SpatialDB提供了由SpatialDE和Trendsceek识别的空间可变 (SV) 基因,能提供空间分辨转录组图谱,包括人类、小鼠、果蝇、秀丽隐杆线虫和斑马鱼组织的数据集,用于快速检索特定组织中空间基因表达的分析,GO和KEGG富集分析。
(22)iSyTE:https://research.bioinformatics.udel.edu/iSyTE/ppi/index.php,眼科研究界已经在不同阶段的野生型小鼠晶状体和来自表现晶状体缺陷或白内障的特定基因扰动小鼠突变体的晶状体组织上生成了数百个微阵列数据集。该数据库分析了使用标准 Affymetrix 和 Illumina 平台生成的所有晶状体微阵列基因表达数据集,并开发了iSyTE用于眼睛基因发现的集成系统工具。它允许有效访问和可视化这些分析的数据集,同时也促进各种下游分析,是一个专注于研究眼睛发育的单细胞数据库。
(23)DBTMEE:https://dbtmee.hgc.jp/,DBTMEE是一个小鼠早期胚胎转录组的数据库,通过超大规模全转录组分析建立基因表达谱。通过对超过1.5×10^5个MII 卵母细胞进行测序,以分析男性和女性基因组结构从受精到ZGA,到合子基因组依赖性细胞周期的转变。DBTMEE还包含其他公共资源,可以系统地了解从受精到ZGA的男性和女性基因组动态,可用于探索参与基因组激活程序的基因的遗传和表观遗传特征,特别是确定参与受精卵母细胞转录起始的潜在关键转录因子 (TF)。
(24)CeDR Atlas:https://ngdc.cncb.ac.cn/cedr,CeDR是从单细胞水平对人类、小鼠和细胞系的组织细胞类型特异性药物反应分析的数据库。CeDR为细胞的药物反应谱提供了直接参考,不仅包括疾病细胞类型,还包括正常细胞类型。CeDR 以细胞分辨率推断药物反应,并阐明联合治疗的设计和耐药性甚至药物副作用的识别。
(25)Aging Atlas:https://ngdc.cncb.ac.cn/aging/index,旨在编译由一系列高通量组学技术创建的大型基因表达和调控数据集。数据库目前包括五个模块:转录组学、表观组学、单细胞转录组学、蛋白组学和药物基因组学。Aging Atlas提供用户友好的功能来探索与年龄相关的基因表达变化,并为来自衰老相关研究的原始多组学数据提供下载服务。
(26)Gut Cell Atlas:https://www.gutcellatlas.org/,该数据库是一个肠道组织的单细胞测序数据库。其中,时空肠细胞图谱,来自胎儿、儿科、成人供体和多达 11 个肠道区域的428K 肠道细胞的完整单细胞 RNA-seq 数据集;胎儿和儿科细胞图谱,从受孕后 6-11 周的人类肠道发育中分离出的62,849 个细胞 的单细胞转录组。该数据包括来自双空肠、回肠和结肠的肠细胞;结肠免疫图谱,结肠作为屏障组织,代表了一种独特的免疫环境,免疫细胞对不同的微生物群落表现出耐受性,这些微生物群落统称为微生物组。
(27)StemMapper:http://stemmapper.sysbiolab.eu/,拥有超过798个小鼠和166个人类的干细胞转录组,数据主要从GEO收集,代表51种小鼠干细胞、祖细胞及其后代的表达谱和19种人类干细胞、祖细胞及其子代的表达谱。
(28)ColorCells:https://rna.sysu.edu.cn/colorcells/,一个比较分析lncRNAs和miRNA在单细胞RNA-Seq数据中的表达、分类和功能的平台。ColorCells分析了5个物种的167913个scRNA-Seq数据。lncRNA的整合注释揭示了大量细胞特异性lncrRNA及其性质。
(29)SPICA:https://spica.epfl.ch/projects,是免疫细胞单细胞 RNA-seq 数据的网络资源。与其他单细胞数据库相比,SPICA 拥有精心策划的细胞类型特异性参考图谱,这些参考图谱以高分辨率描述免疫细胞状态,并发布了在这些图谱背景下分析的单细胞数据集。此外,用户可以在现有图集的上下文中私下分析自己的数据。
(30)GRNdb:http://www.grndb.com/,基因调控网络对于理解基因表达调控和表达异质性的机制至关重要。GRNdb是一个免费访问且用户友好的数据库,用于方便地探索和可视化由转录因子(TF)和下游靶基因形成的预测调控网络,基于大规模 RNA-seq 数据以及已知的TF-各种人和小鼠条件的目标关系。GRNdb 中的所有规则都是根据组学数据预测的,而不是通过实验确定的。用户可以轻松搜索、浏览和下载单细胞或批量水平的各种条件的 TF-target 对和相应的基序,同时研究一系列基因的表达谱并分析基因之间的关联不同TCGA肿瘤的表达水平和患者的存活率。
(31) CellPhoneDB:https://www.cellphonedb.org/,是一个公开的受体、配体及其相互作用的资料库。亚基结构包括配体和受体,准确地代表异质复合物。这是至关重要的,因为细胞-细胞之间的通信依赖于多亚基蛋白复合体,这超越了大多数数据库和研究中使用的二进制表示。集成了与蜂窝通信有关的现有数据集和新的人工审查信息。CellPhoneDB利用来自以下数据库的信息:UniProt, Ensembl, PDB, IMEx联盟,IUPHAR。
(32)scMetabolism:http://www.cancerdiversity.asia/scMetabolism/,旨在为拥有单细胞测序数据的用户提供便利。用户可以使用自己的scRNA-seq数据探索代谢活动,是由复旦大学附属中山医院开发的在线单细胞代谢数据库。
(33)CDCP:https://db.cngb.org/cdcp/,(细胞组学数据坐标平台)共享和整合复杂的单细胞数据集,并提供单细胞分析工具和可视化服务,以方便研究人员访问和探索已发表的单细胞数据集。其中包括病毒数据库VThunter和HCL数据库。
(34)THPA:https://www.proteinatlas.org/humanproteome/single+cell+type,THPA数据库单细胞部分,基于来自25个人体组织和外周血单个核细胞 (PBMCs)的单细胞RNA测序 (scRNAseq)数据,以及内部生成的显示相应空间蛋白表达模式的免疫组化切片。scRNAseq分析基于公开的全基因组表达数据,包含对应于15个不同细胞类型的444个单细胞类型簇中的所有蛋白编码基因。进行特异性和分布分类,以确定这些单细胞类型中升高的基因数量,以及分别在一个、几个或所有细胞类型中检测到的基因数量。
(35)lungcancer:http://lung.cancer-pku.cn/index.php,通过单细胞测序对非小细胞肺癌中 T 细胞的全局表征,深层单细胞转录组数据以及完整的 T 细胞受体信息确定NSCLC浸润淋巴细胞的多维特征。这是张泽民教授团队开发的、专门用于非小细胞肺癌免疫分析的单细胞数据库。最终获得12598个基因和7183个细胞的注释。
参考资料:
可能是最全的单细胞数据库汇总!张泽民团队开发的排名35!
最强攻略:史上最全单细胞数据库汇总解读
七龙珠 |召唤一份单细胞数据库汇总
https://zhuanlan.zhihu.com/p/532134856