多模态单细胞测序数据分析

发布时间：2019-06-13

分类：

# 多模态单细胞测序数据分析

本文翻译自nature review genetics 的综述文章Integrative single-cell analysis

近期单细胞RNA测序（scRNA-seq）技术的成熟与用于分析单个细胞中的遗传，表观遗传，空间，蛋白质组学和谱系信息的转化新方法相吻合。这为可以跨多种类型的数据共同研究的综合方法提供了独特的机会以及计算挑战。综合分析可以研究跨细胞模式的关系，研究细胞状态的整体表示，并实现跨个体和技术产生的数据集合。在本综述中，我们讨论了在单细胞分辨率下收集和整合不同数据类型的最新进展，重点是基因表达数据与其他类型的单细胞测量的整合。

分子生物学，微流体学和纳米技术的最新进展已经产生了大量的单细胞测序技术（图1）。最初的方法集中在单一模态的测量上（例如，DNA序列，RNA表达或染色质可及性）。虽然这些技术已经产生了对细胞多样性和发育的变革性见解，但这种分离是由方法上的便利驱动的，并且限制了深入理解单细胞中生物分子之间关系的能力。了解这些相互作用对于深入了解细胞状态是关键，对于单细胞分析领域仍然是一个挑战。此外，随着数据集的规模和可用性快速增长，即使存在显着的批次效应或个体间变异，也需要新的计算方法用于样本的标准化和联合分析。

单细胞RNA测序（scrna-seq）是应用最广泛的单细胞测序方法之一，它具有一系列用于敏感、高度复杂或组合条形码分析的技术。[1-8]这些进展伴随着多种互补的单细胞基因组、表观基因组和蛋白质组学分析技术，包括基因组序列[9,10]的单细胞测量方法、染色质可及性[11-15]、DNA甲基化[11,16-19]、细胞表面蛋白[20,21]、小RNAS [22]、组蛋白修饰[23,24]和染色体构象[25，26]。此外，最近的研究开创了在单细胞研究中准确记录空间或谱系信息的方法[27-35]。

理想化的实验工作流程将观察细胞的所有方面，包括其分子状态，空间位置和环境相互作用的完整历史。虽然超出了当前技术的范围，但多模态技术和综合计算方法使我们能够更接近这个目标。在本综述中，我们描述了目前可用的单细胞转录组学，基因组学，表观基因组学和蛋白质组学方法，重点是那些提供多模态数据或可以整合到多模态分析中的数据的方法。我们专注于结合其他数据类型分析scRNA-seq数据，因为这些数据目前是最常用和最成熟的方法。特别是，我们讨论了那些能够在可能的情况下整合来自同一个体细胞的数据的方法。我们将深入讨论这些方法及其挑战，以及它们的潜在应用和未来方向。

图1	单细胞分析的多模式和综合方法

本文概述了当前单细胞数据集成的方法。目前已开发出多种单细胞方法来测量广泛的细胞参数。这些方法可以分为确定细胞当前状态的方法、确定细胞谱系的方法以及沿假时间轨迹排列细胞的计算方法。CITE-seq，转录子和表位的细胞测序；FACS，荧光激活细胞排序；LINNAEUS，核酸酶激活编辑无所不在的序列的谱系追踪；MARS-seq，大规模平行的RNA单细胞测序；MEMOIR，通过基因工程突变记忆。光学原位读出；MERFISH，多重误差稳健荧光原位杂交；PEA，近距离延伸分析；REAP-seq，RNA表达和蛋白质测序分析；scATAC-seq，使用测序法测定转座酶可及染色质的单细胞分析；scBS-seq，单细胞亚硫酸氢盐测序；scChIP–seq，单细胞染色质免疫沉淀后测序；scGESTALT，用于谱系追踪的合成靶阵列的单细胞基因组编辑；sci-MET，用于甲基化分析的单细胞组合索引；sci-RNA-seq，单细胞组合索引rNA测序；SCI-seq，单细胞组合索引测序；sciATAC-seq，单细胞组合索引法，用测序法测定转座酶可及染色质；scTHS-seq，单细胞转座超敏位点测序；smFISH，单分子荧光原位杂交化；snmC-seq，单核甲基胞嘧啶测序；SNS，单核测序；SPLiT-seq，基于split-pool连接性的转录组测序；STARmap，空间解析的转录扩增子读出图谱。

3.多模式单细胞测量

单细胞分子谱分析技术最初专注于开发能够准确检测细胞状态的单个方面的方法，首先是简单的半定量读数[36]，然后是利用高通量DNA测序[37]。最近，人们对在单个细胞内同时分析多种类型的分子（多模式分析）以建立更加全面的细胞分子视图具有相当大的兴趣。通常，这些方法将scRNA-seq与另一种细胞特征的测量结合，例如DNA序列，蛋白质丰度或表观基因组状态。可以使用四种广泛的策略从单个细胞获得多模态数据（图2）：首先，在测序之前使用初始非破坏性测定;第二，平行实验工作流程中不同细胞部分的分离;第三，将多峰数据实验转换为通用分子格式，以便能够通过常规方法同时检测多种数据类型，例如DNA测序;第四，分析核苷酸序列中编码的不同数据类型，如RNA丰度和序列多态性。

3.1在破坏性测定之前收集细胞计数信息

多模态分析的初始和优雅解决方案涉及在应用破坏性单细胞测定之前应用非破坏性细胞计数测量。由于多个scRNA-seq工作流程利用荧光激活细胞分选（FACS）将单个细胞沉积到微量滴定板[2、3、38]中，因此将这种单细胞分离与指数分选相结合以在测序前收集关于细胞的其他细胞计数数据是一种自然延伸（图.2a）。尽管早期研究结合了细胞周期的测量和来自同一细胞[39]的mRNA的半定量测量，但这种方法在免疫学和血液学方面特别有效，其中明确定义的细胞表面标志物可用于分类功能细胞类型和状态[40、41]或丰富对于异质群体中的稀有细胞。Paul和Nestorowa等人应用该工作流程来描述早期小鼠造血祖细胞，揭示转录定义的细胞类型簇的免疫表型。类似地，Wilson等利用FACS分离稀有造血干细胞（HSC），然后进行scRNA-seq和功能测定，以鉴定与能够持续自我更新的细胞相关的细胞表面标志物[40]。利用picolitre孔阵列的新方法有可能显着增加这些实验的规模，同时保留在单细胞测定之前收集细胞计数数据的能力[43]。然而，细胞计数方法基本上限制了它们可以测量每个细胞的参数数量，因为它们受荧光报道分子之间的光谱重叠限制。

3.2分离细胞成分

当有些细胞不能够通过流式细胞仪分选时,就需要一些替代的方法.这对同时测量同一细胞内的DNA水平和蛋白水平是非常重要的,在这样的情况下,从单个细胞中物理分离或者选择性标记不同细胞组分是一个非常好的解决办法,很多研究组利用生物素化的oligo(dT)引物[44]和选择性加入T7启动子序列，基因组DNA体外转录[45]，允许随后选择性扩增cDNA，从而实现同时获得平行的基因组和转录组信息。这使得基因型和基因表达直接联系起来，揭示DNA拷贝数变异和染色体重排可能影响一些mRNA丰度的变化，实现基因突变对表型影响的定量分析，深入研究导致细胞表型变异的分子原理。另外，应用转录组信息不仅可验证对应细胞 DNA 的变异，还可进一步了解 RNA 编辑、等位基因特异性表达对表型多样性产生的影响，尤其在肿瘤组织中，约有 1/3 的体细胞编码区单核苷酸突变在 RNA 有表现，二者同时测序有助于筛选驱动突变，因此，基因组与转录组共分析有助于深入理解正常组织和疾病组织之间的遗传学差异，为研究疾病发生机制、进程提供思路。

以Macaulay等人建立的方法为基础[44]，由Smallwood等人开创的单细胞亚硫酸氢盐测序方法[17]，在PCR扩增基因组之前，用亚硫酸氢钠处理，可以捕获基因组中DNA甲基化部分，这使得能够对DNA甲基化模式和基因表达进行多模态分析。由于DNA甲基化模式在不同细胞类型之间是不同的，所以将表观基因组变化与细胞类型异质性分离是至关重要的[47]。通过收集来自相同细胞的DNA甲基化和基因表达数据[46]，可以进行表观基因组变化和转录变化之间的直接关联，允许在同一细胞内来评估基因表达和DNA甲基化模式之间的关联，并为启动子甲基化和基因表达之间建立的负相关提供进一步支持，而远端调节区域的DNA甲基化似乎对基因表达具有更多可变的影响。通过用特定选择性标记基因组DNA和cDNA分子[48]，同时收集染色质开放区域和基因表达数据，共同分析了数千个单细胞并鉴定了可能影响附近基因表达的顺式调控元件[48]。

细胞裂解液的物理分离还可以同时检测单细胞中的蛋白质和RNA[49] [50]。一项研究使用裂解和分离策略来检测RNA和蛋白质，将细胞裂解液分成平行的两个工作流程[49]。其中一个，使用邻近延伸分析技术（PEA），定量PCR（qPCR）定量蛋白质水平，同时使用定量逆转录PCR（qRT-PCR）检测mRNA水平。PEA利用靶向同一个蛋白的两种不同抗体，抗体上偶联的寡核苷酸序列彼此靠近，可以对未结合的抗体信号稳定测量，灵敏性高。另一项研究在微流体室中实施的类似方法，其中逆转录和PEA在相同的区室中进行，并不分离细胞裂解液[50]。这些研究揭示了蛋白质和RNA的互补性质，当使用两种数据分析时，能够比单独分析一种数据更准确地对细胞进行分类。然而，通过这些方法检索数据时其分析的数量和质量都是有限的。这些方法可以在单个实验中分析82-96个RNA和38-75个蛋白质，因此，还需要大大增加RNA和蛋白质的测量数量[49] [50]。

3.3将细胞信息转换为通用的分子形式

将多种类型的实验数据转换为单一分子形式是多模态分析的一种强大方法，通过单个工作流程可以并行测量多种数据类型。有一个例子是将细胞表面蛋白信息和mRNA信息同时转化为cDNA信息，通过DNA测序可以同时检测两者。最近，有两种方法（CITE-seq and REAP-seq）利用与抗体结合的DNA条形码，能够在单细胞分辨率下测定细胞表面蛋白丰度和mRNAs水平[20] [21]。通过将poly（A）序列连接到抗体条形码，通过将poly（A）序列连接到抗体条形码，条形码序列可以与细胞特异性逆转录引物杂交并通过逆转录酶延伸，允许抗体条形码与mRNA同时检测出来。

通过使用DNA条形码而不是荧光来检测细胞表面蛋白，规避了基于FACS的一些限制，DNA条形码允许靶向不同表位的任意数量的不同抗体在单个实验中混合，随后通过DNA测序分析。此外，这些方法与基于高细胞通量液滴的scRNA-seq方法兼容，因此可以扩展到数百万个细胞，消除了与scRNA-seq偶联的指数分选方法的许多局限性。这些研究允许对单细胞进行更详细的分析，而不是通过测量单一模态，能够免疫细胞类型之间的精细区分，而只有mRNA数据时是不能区分的[20]，并且可以进一步应用于研究转录后基因调节。扩展这些方法以检测细胞内蛋白质以及mRNA，而不仅仅是细胞表面蛋白，仍然是一个重要的持续挑战，特别是因为细胞的通透通常导致大量的RNA降解。虽然在技术上有所影响，但这个问并不难处理，这个领域可能会有很快的发展，要么通过使用以前用于测量单个细胞中蛋白质水平的PEA，要么是新开发适应固定组织的scRNA-seq方案[7] [8]。

这些研究表明，只要细胞信息可以转换为可测序的条形码，就可以通过转录组在单细胞分辨率来确定该信息。该方法不仅可以测定天然状态下的细胞，还可以在细胞存在干扰时测量。在未来基因组学研究中，高通量scRNA-seq方法和CRiSPR-Cas9的DNA编辑方法相结合，将适用于大规模干扰实验的研究[52] [55]。由于指导Cas9蛋白结合的guide RNA序列由RNA聚合酶III转录，它们不是多腺苷酸化的，因此，这些分子不能通过使用oligo（dT）引物进行逆转录的标准的scRNA-seq方法检测到。正如CITE-seq和REAPseq使用多腺苷酸化抗体条形码将细胞表面蛋白信息转换成核酸序列信息一样，基于CRISPR，使用多腺苷酸化的guide RNA条形码,使信号可通过scRNA-seq检测到。这些guide条形码序列与标准scRNA-seq工作流程中的mRNA表达信息一起被捕获，这样在同一细胞中，能够在大规模平行尺度上推断Cas9结合位点和基因表达情况。现在有几个研究组已经应用大规模遗传干扰实验来研究基因调控网络[52]，免疫细胞发育[55]和T细胞受体激活[54]等。Cas9靶向可以扩展到研究增强子，绝缘体和其他非编码序列在基因组中的作用[56]，此外，Cas9的催化失活形式可以融合到不同的效应结构域，例如组蛋白修饰因子，转录激活因子或抑制因子，以及DNA甲基转移酶。为了评估表观遗传修饰对基因表达的影响，可以结合表观遗传效应因子与基因敲除[62]。

将细胞信息转换成可序列读数的另一种方法是最近开发的CRISPR-Cas9基因组编辑的谱系追踪方法，可以提供有价值的多模式单细胞数据。现在已经开发了几种能够同时检测内源mRNA的单细胞谱系示踪方法。这些方法通常使用CRISPR-Cas9诱导对谱系条形码序列的连续编辑[28]，并且这些条形码随后可以转录为多腺苷酸化的mRNA并使用常规scRNA-seq检测。然后可以使用来自单个细胞的谱系条形码之间的DNA序列差异来构建组织或生物体的谱系图。关于这些方法的具体实验细节，Raj等人[32]基于以前的方法，在斑马鱼基因组中的Cas9靶位点的合成序列中诱导编辑。通过将谱系条形码阵列置于诱导型启动子下，可以在细胞收集之前诱导条形码的转录，允许谱系条形码与细胞mRNA一起被逆转录和测序。这使得能够在单细胞分辨率下对斑马鱼大脑的细胞转录组和谱系关系的进行组合分析。Spanjaard等[34]采用了类似的方法，但在胚胎单细胞阶段用Cas9注射，guide RNAs靶向16-32红色荧光蛋白，整合到不同基因座的斑马鱼基因组中。随着时间的推移，不同的RFP拷贝被Cas9突变，产生谱系特征，可以使用scRNA-seq从转录的RFP序列中读出。另一种方法ScarTrace，使用一系列H2A-GFP转基因和CRISPR-Cas9在整个斑马线中进行谱系追踪[33]。在这种情况下，通过将Cas9注射到早期胚胎中，在发育早期诱导编辑。在成熟的鱼中，通过巢式PCR扩增GFP基因组DNA序列，与scRNA-seq平行进行，可以检测谱系克隆以及基因转录产物，这种方法为研究细胞命运的可塑性提供了独特的机会。在一项实验中，损伤后斑马鱼鳍再生后，成骨细胞祖细胞克隆能够改变细胞命运并产生填充再生鳍的间充质细胞。只有从单个细胞中收集谱系和转录组信息才能找到这样的现象，突出了这些研究的价值。Frieda等人[27]通过在谱系条形码而不是scRNA-seq上进行单分子荧光原位杂交（smFISH），对谱系追踪采取了略微不同的方法。这提供了一种独特的能力来检测细胞之间的谱系关系及其空间背景。

通过光学原位读数（MEMOIR）的工程诱变将其记忆方法应用于培养的小鼠胚胎干细胞，为通过延时显微镜验证使用谱系条形码推断的谱系关系的准确性提供了重要的基础事实[27]。如果未来对MEMOIR的改进可以扩展到原位谱系追踪以创建一系列内源mRNA与谱系条形码的关系，这些改进将提供非常强大的多模式测定方法，能够同时检测细胞谱系，空间位置和转录状态之间的关系。

3.4从scRNA-seq中提取其他信息数据

尽管大多数scRNA-seq研究的关注点都在转录本丰度上，但实际上，这些研究不仅可以提供有关转录水平的信息，而还可以提供核苷酸序列信息。多模态数据可以来自标准scRNA-seq实验，不需要改变实验方法。特别是，这些很可能包括了体细胞突变，遗传变异和RNA剪接isoform信息（图2d）。体细胞突变可以在基因组中随机发生，并将被所有子细胞继承。因此，可以通过检测单细胞中的体细胞突变来推断细胞之间的谱系关系。人类大脑的体细胞突变已被用于重建神经元的谱系通过对少量单细胞进行全基因组测序[64]。更重要的是，大脑的体细胞突变出现在与活跃转录相关的热点，并且富集在编码的外显子上[64]，这表明神经元体细胞突变可以通过scRNA-seq数据检测到，并可以用于重建细胞谱系关系以及转录状态。此外，许多癌症表现出更快的体细胞突变速率，通常与晚期复制的基因组区域有关。 Tirosh等[65]直接从scRNA-seq推断黑素瘤中的拷贝数变异，通过求取100个基因的表达值

，进而延伸到基因组，这揭示了肿瘤细胞中常见的非整倍性模式。这使得单细胞基因型信息与细胞转录组得以整合，以便对癌症进行更多信息分析[65]。同样，Fan等人[66]直接通过scRNA-seq数据识别了拷贝数变异和杂合性缺失，并应用该方法研究多发性骨髓瘤样本，揭示了癌症克隆之间的转录异质性[66]。

单细胞分析也提供了一种新的方式用于理解DNA序列的自然变异如何影响基因表达和细胞状态等表型的变异。Kang 等开发一组新的scRNA-seq数据分析工具对混合捐助者的单细胞进行基因分型，他们对23名人类捐赠者进行了全基因组关联研究[67]，鉴定了与细胞类型特异性基因表达个体间差异相关的数量性状基因座（eQTLs）。此外，他们识别了与改变免疫细胞类型比例相关的遗传变异，突出了这种方法用于建模基因表达和细胞类型频率作为可与遗传变异相关的数量性状的能力[67]。van der Wijst等人也使用了类似的方法。未来的研究利用更大规模的队列，这有可能会大幅度提高bulk水平的eQTL研究的分辨率，从而确定遗传变异对细胞状态和功能的影响的精确效应。

值得注意的是，转录isoforms的关键信息可以从scRNA-seq数据中获得，甚至从仅捕获基因转录本的3’末端的方法中获得[70]。此外，内含子保留数据能够提供惊人的信息用于补充转录本丰度测量。La Manno等[70]开创性的证明了在scRNA-seq转录产物中，未剪接内含子的频率与mRNA相对比例产物降解，新转录的基因更可能含有内含子，因为它们可能在完全被加工为成熟的mRNAs之前就被捕获。通过测量未剪接的内含子的频率，作者能够推导出转录本丰度变化率的估计值（RNA velocity）并估计每个细胞未来的转录状态。这些对未来状态的估计还能用于把细胞放置在伪时间轨迹上，并解决了一些其他旨在从单个细胞中推断伪时间测度的方法所面临的最困难的问题(这些方法包括确定起点和终点的”rooting”轨迹，分支轨迹和循环处理轨迹[70-75]。这些方法都有改变单细胞生物学领域的潜力。

3.5多模态数据分析

多模态定量策略的快速发展已经产生了对这些数据类型的新的分析方法的需求。

虽然这些技术很大程度上都处在开发过程中，我们预计多模态数据集能够揭示细胞状态的微妙差异，这些差异无法由单一模态捕获（图3a）。对于scRNA-seq数据尤其如此，对于这类数据，低表达基因的不完全检测（drop-out）可以模糊精细尺度的差别，但来自相同的细胞的补充数据有助于改善这个问题。例如，基于稀疏的scRNA-seq信息可能难以区分不同的T细胞群（包括记忆和调控子集），但根据表达的细胞表面蛋白marker进行分类就会容易得多。这表明未来那些基于同一个细胞的免疫表型和mRNA水平信息进行的联合聚类方法在表征免疫细胞状态上能够显着提高分辨率20。类似地，转录组和染色质[48]或甲基化[46]状态的共实验也许能够揭示单个细胞调控景观的异质性，这种异质性甚至可以在转录出现变化之前影响细胞的命运决定。

整合多模态单细胞数据的统计方法也许可以受bulk-seq方法的启发。bulk-seq方法通过对多组学数据集进行共同降维来识别保守或不同的模式，这种方法可以很容易地扩展到单细胞多模态数据。例如，Argelaguet等[77]开发了一种多组学因子分析（multi-omics factor analysis，MOFA）方法，能够识别一组因子集合，这组因子能够解释多种数据模态的差异。作者用该方法联合分析了慢性淋巴细胞白血病患者的bulk基因组、DNA甲基化和RNA表达数据。这种综合分析能够识别活性与样本体细胞突变相关的转录模块[77]。将MOFA应用于87个单细胞甲基化和转录组表达谱46也确定了模态之间的对应关系,并且在小鼠胚胎干细胞分化体系中揭示了从幼稚到启发多能状态（primed pluripotent states）期间DNA甲基化和转录组的协调变化情况[77]。这些发现表明这些方法也适用于多模态单细胞数据的分析，并且可以促进将来对这些数据集的改进解释。由于单细胞数据集远远超出bulk样本的大小，多视角的机器学习的方法也可能会在其中产生宝贵的价值。

多模式单细胞实验也提供了一个独特的机会用于研究单个细胞中的不同组件之间关系。例如，同时使用mRNA和蛋白质分析[20],[21]容易识别模态间相关性差的实例，进而表明转录后存在活跃的调控关系。进一步与其他测度整合，如RNA velocity[70]，可以用于构建蛋白质和RNA产生之间的动态模型。还可以利用统计模型来评估在给定一种测量时预测一种模态的能力（图3c）。例如，Cao等[48]建立了线性回归模型基于染色质开放性数据预测基因表达值，发现囊括了远端可及性位点的模型相比于只包括顺式调控位点的模型改善了基因表达预测4倍。Dixit等人52建立了正则化线性模型来估计一个细胞内guide RNA集合，其对基因表达水平的影响，以确定细胞反应的因果驱动因素并重建转录网络。

这些模型可用于通过细胞内guide RNA和其他协变量解释基因表达的变异[52]。因此，我们期待多模态数据集对复杂的调控过程，包括表观基因组学，转录和转录后基因调控产生机制性的见解。

figure2-1

figure2-2

figure2-3

图2	用于单细胞多模态分析的实验方法

a	在单细胞RNA测序（scRNA-seq）之前,使用多参数荧光激活细胞分选（FACS）收集细胞计数单细胞测量值,可以基于荧光测量蛋白水平，随后与细胞转录组相关联; 因此，可以在同一细胞中共同分析RNA和蛋白质水平。

b	裂解和分离策略可以对不同的细胞组分执行并行的工作流程。例如，细胞溶质可以与细胞核物理分离，以通过scRNA-seq和测量细胞溶质mRNA水平，使用全基因组测序测量全基因组或亚硫酸氢盐测序测量甲基化水平。

c	新型的条形码策略可以使标准的scRNA-seq方法能够捕获重要的额外信息，以增强对细胞转录组的分析，通过将多腺苷酸化抗体条形码与靶向细胞表面蛋白的抗体偶联，可以使用标准scRNA-seq方法能够测量细胞表面蛋白丰度[20] [21]，这些抗体条形码序列可以与多腺苷酸化的mRNA一起被捕获，提供每个细胞的蛋白质水平，等位基因的信息可以由，用于引导Cas9的sgRNA编码，从而可以用单细胞转录谱（中图）相关的基因敲除信息与sgRNA联系起来。细胞谱系也可以通过Cas9（右图）对谱系阵列序列的累积编辑，被多腺苷酸化条形码序列编码。随着时间的推移，Cas9将切断谱系阵列，导致阵列中不同位置的突变。

d	除了仅提供每个细胞中转录物估计值的典型分析之外，还可以从scRNA-seq数据中提取额外信息。可以从每个单细胞的测序数据中鉴定体细胞突变，并且可以用于重建细胞之间的谱系关系。还可以检测保留的内含子，并且可以用于估计转录物丰度的变化。scBS-seq，单细胞亚硫酸氢盐测序; scDNA-seq，单细胞DNA测序。

图3	用于分析多模单细胞数据的计算方法。

a	对同一组细胞的多模态数据进行独立分析会导致细胞簇识别出现相互矛盾。从一种模态可能表明某些细胞高度相似，而从不同模态来看这些细胞可能非常不同。在此示例中，橙色和蓝色簇当根据转录谱进行分析时形成单独的簇，而根据蛋白质模态分析则聚集在一起。同样，红色与紫色细胞基于RNA组合在一起，但基于蛋白质分离。

b	对同一组细胞多模态数据进行联合分析可以具有更大的能力来识别独特的细胞状态。细胞可以通过考虑多种模态信息共同聚类而不像仅仅考虑单个模态的聚类模式。在此示例中，红色、紫色细胞；橙色和蓝色细胞形成了不同的簇，当蛋白质和RNA模态信息都被考虑时。

c	数据模态之间的关系可通过建立统计模型进行研究，这些统计模型旨在通过使用一种模态成分的线性组合，来解释另一种模态的方差。 CCA，典型相关分析; MOFA，多组学因子分析; NMF，非负矩阵分解。

4.单细胞数据的全面整合

不同于先前对单个数据集讨论，跨数据集的整合分析则是目前单细胞测序生物学所面临的最关键的计算挑战。需要解决的难题可以大致细分为两个部分：

首先，如何将不同实验室和实验工作流程中生成的异质性单细胞数据集，去除“批次效应”整合成一个可供使用的参考数据集，这一步至关重要[79]。其次，一旦参考数据库被建立，它的数据如何发挥作用，从而指导新实验的分析? Transfer learning基于参考数据集训练的模型，寻找参考数据集和查询数据集之间基因表达空间中彼此最接近的细胞，根据常见的分子结构和细胞类型的先验知识，给新的查询数据集细胞群贴上具有生物学意义的标签。概念上类似于，基于参考基因组的序列组装和查询特定DNA序列在参考基因组中的映射。新开发的方法可以识别跨数据集的相似生物状态（例如，细胞类型匹配）[80,81]，使我们在分析和解释单细胞数据方面取得革命性进展。

最近一项独立开创性工作，利用了典型相关分析(CCA)、相互最近邻域(MNNs)的识别，实现数据有效整合的第一步，可以跨单细胞数据集寻找并标注共有的细胞亚群。虽然这些方法可能非常有效，但也会存在由于技术偏差等掩盖了真实存在的一致性细胞特征信息。此外，该方法不能整合异质性的单细胞数据（如甲基化修饰、组蛋白修饰多个研究目的的实验），也不支持将共同的细胞信息从一个数据集传递到另一个数据集。

图4	用于集成多个单细胞数据集的计算方法

a	典型相关分析（CCA）或相互最近邻（MNN）识别多个数据集中等效的相关模块，从而消除批次特定的差异，实现跨数据集的直接比较。

b	CCA旨在识别在两个数据集之间相关性最高的一组变量，而主成分分析（PCA）目的是找出单一数据集特有的特征向量。

c	通过细胞的基因表达谱定义在空间中彼此相互最接近的细胞为生物学上等同的细胞。

d	如图，可以直观地比较两个数据集中每种细胞类型的表达谱。进一步的统计学分析不同数据集之间基因表达模式的相似性或差异。

e	不同数据集的一维（1D）伪时间轨迹的对齐校正可以消除细胞轨迹的时间差异，直接比较基因表达水平。

4.1scRNA-seq数据的整合分析

在此介绍Seurat v2 R包中[80,82]一种跨单细胞数据集整合思路，首先，典型相关分析（CCA）识别不同数据集之间的共同的特征向量（图4a），主成分分析（PCA）找出单一数据集特有的特征向量(图4b)。第二步，动态时间扭曲算法将这些共同的特征向量进行非线性转化，跨数据集对齐来校正细胞密度差异。这两个步骤将多个scRNA-seq数据集的细胞映射到低维空间[80]，无论细胞的实验来源如何，相同生物学状态的细胞将在这个低维空间中紧密地靠近在一起。

另一种互补的方法MNNCorrect[83]，创新地应用“图论”和“模式匹配”实现了类似的目标。这种方法依赖于相互最近邻(MNNs)的识别基因表达空间中相互最接近的细胞，可能具有类似的生物状态81。然后利用成对MNNs之间的距离给每个细胞计算一个校正向量值[81]，校正其原始基因表达矩阵，消除批次效应。

CCA和MNNCorrect两种方法都可以成功地把由不同实验室和技术产生的人类胰岛的四个独立的单细胞数据集统一为单个联合数据集，其样本量大大超过任何单个数据集。强大的整合分析能力有助于发现罕见的或转录上处于微妙细胞状态[80]的细胞类型，并且识别出对应的基因标记[81]。鉴于这种方法具有激动人心的潜力，scRNA- seq整合的新分析方法[84 – 89]得到了快速发展，极大提高了计算效率。特别值得注意的是，Korsunsky等人开发了一种k- means聚类的新算法，支持多个数据集的细胞聚类，可以实现在个人计算机上对500,000个细胞整合分析。重要的是，单细胞数据集的有效整合（图4d）能够在单细胞分辨率下对不同生物学条件进行深入比较。例如，Butler等人[80]整合对照和干扰素-β刺激的条件下人类外周血单核细胞（PBMC）的数据集，鉴定13种共有细胞类型，并系统地比较它们的转录组找出对干扰素刺激特异性反应的细胞类型。该分析显示，血浆树突状细胞对干扰素-β表现出显著且独特的反应。可以预计，类似的分析将有助于揭开细胞对环境和遗传扰动的特异性反应。

scRNA-seq数据也可以扩展到跨物种整合分析。实际上，许多研究小组都采用这种方法来研究不同系统中细胞状态的演化。跨物种的直向同源基因的准确鉴定对于数据整合是至关重要的，Karaiskos研究组构建了两种果蝇在胚胎早期的空间基因表达图谱[90]，从而系统地比较跨物种的直系同源基因的表达模式并识别出特定进化基因。 Tosches等人对爬行动物脑细胞进行scRNA-seq，并通过计算每个物种内基因平均表达值之间的相关性[91，92]，将其与哺乳动物脑细胞进行比较。从而鉴定出在爬行动物和哺乳动物大脑之间保守的抑制性亚群以及变异性高的兴奋性组。Alpert开发了cellAlign，通过比较人类和小鼠胚胎发育的scRNA-seq数据集伪时间轨迹（图4e），他们发现人类胚胎的合子基因组激活比小鼠晚，而且许多在小鼠中表现出更快活力的基因与蛋白质生物合成有关[93]。这些方法虽然还处于早期阶段，但它们已经开启了将比较生物学应用于单细胞分辨率，以及鉴定模式生物中人类细胞类型的相关性以供进一步研究的未来。

4.2跨scRNA-seq数据集的细胞分类

随着高质量的细胞注释图谱的开发[94]（图.5a），将细胞类型标签从参考数据集传递到新的查询数据集的方法相较于对细胞的从头聚类注释方法会更加普遍和高效。目前已经开发scmap-cell和scmap-cluster[95]，能够将细胞投射到现有数据集上以促进细胞标记的传递。 scmap-cell方法识别跨数据集的MNN，允许一个实验[96]为另一个实验中的相似的细胞分配一致的标签。scmap-cluster基于相关距离或余弦相似性定义的参考数据集中找到最近的聚类质心来对查询数据集中的细胞进行分类。目前正在开发的新方法采用线性判别分析[97]或支持向量机[98]和基于带注释的参考数据集对细胞进行分类。值得注意的是，随着参考数据集的大小，深度和覆盖范围持续增长，监督注释可以具有比无监督聚类更大的解析细胞类型的能力，利用存在于更高质量数据集中的信息，对细胞进行更细微的划分，鉴定细胞亚群，并且对密切相关的细胞群进行深入分析。

图5	细胞的聚类和分类

a	新数据集中的细胞分类两种方法：

1）基于参考数据集中的现有细胞类型注释对细胞进行分类；

2）无监督聚类识别相似细胞群。

b	多模态分析，不同类型的单细胞数据可以进一步分析细胞组之间的差异。

1）基因表达数据可用于鉴定细胞类型或簇之间差异表达的基因；

2）染色质可及性可用于鉴定差异的染色质可及区域和富集的DNA基序；

3）单细胞DNA甲基化数据可用于鉴定细胞类型或簇之间的差异甲基化区域。

scATAC-seq，单细胞ATAC测序; scBS-seq，单细胞亚硫酸氢盐测序；

scRNA-seq，单细胞RNA测序； scTHS- seq，单细胞转座体超敏感位点测序;

tSNE，t-分布随机邻域嵌入。

4.3多模单细胞数据的计算整合

单细胞转录组测序（scRNA-seq）数据与不同特征的不同类型的单细胞数据的整合的问题需要不同方法来解决。尤其是针对基于基因组的测量与基于基因的测量的数据，因为它们之间的对应特征关系尚不清楚。通过从相似的群体中收集细胞，可以在数据模态中识别共同的生物状态，从而可以识别模态之间的对应关系。Welch等人[99]开发了一种对齐一维伪时间轨迹的方法，名为MATCHER，可用于对齐不同的数据类型。在MATCHER方法中，将来自不同实验的细胞投射到共同的一维伪时空间，该投影允许在多个实验之间识别等效细胞，而不需要先前知道模态之间的特征对应。Welch等[99]将MATCHER方法应用到scRNA-seq数据与单细胞甲基化组和转录组数据整合[46,99]，以研究人诱导多能干细胞（iPSC）重编程过程中的转录组和DNA甲基化动力学，研究表明DNA甲基化变化通常滞后于基因表达的变化[99]。

虽然通常可以通过特异性标记基因的表达，从scRNA-seq数据中鉴定细胞类型，但是对于在单个细胞中测量的其他数据模式的特征的细胞类型特异性活性，例如可获得的、已知的染色质区域少。通过将这些数据与scRNA-seq整合，可以使用衍生自基因表达数据的细胞类型分类来指导其他形式的细胞类型分类。Lake等[15]对多种脑组织切片进行了单核RNA测序（snRNA-seq）和单细胞转座体超敏反应位点测序（scTHS-seq），作者利用单细胞基因表达数据，通过使用梯度增强来指导细胞类型分类[15]。通过在scRNA-seq和scTHS-seq数据中鉴定相应细胞类型的子集，作者将基因表达模式与染色质可及性模式相关联的模型进行训练。然后他们用该模型对剩余的scTHS-seq细胞进行分类。通过整合多种数据模式获得的这些分类可以对脑染色质可及性数据进行更细致的解释，其不仅仅是一个数据集，还可鉴定常见遗传疾病的致病细胞类型[15]。

正在开发的新方法，一种综合的非负矩阵分解（iNMF）方法，名为LIGER，能够跨模态整合数据，其可以通过假设等效特征或假定在模态之间相关性的特征来实现细胞的跨模态分类[88,89]。Welch等应用LIGER对通过单细胞亚硫酸氢盐测序[16]分析的皮质细胞进行分类，他们假设基因甲基化与基因表达之间存在负相关，以整合不同的数据模态，从而使细胞能够共同聚集。还有一种在Seurat v3中实现的集成方法，该方法能够通过假设两种模态中的等效或相关特征来对模态中的单元进行分类[88]，该方法可以基于来自相似组织的scRNA-seq数据的注释细胞类型从scATAC-seq数据中分类细胞，并且可鉴定出仅用scATAC-seq数据不能分离的细胞亚群。希望这些方法能够在未来对多模式单细胞数据进行更细粒度的分析，并允许在许多不同组织中鉴定染色质可及性和DNA甲基化的细胞类型特异性模式。

5.整合测序和空间数据

组织中细胞的空间组织通常反映细胞间功能、命运和谱系的差异[101]。基因表达的空间模式受限导致了多细胞生物的复杂性，不同基因组的表达引导细胞沿着不同的发育路径生长，并决定了组织的细胞类型的精确空间排列。重要的是，scRNA- seq分析的细胞RNA表达谱并不能完全捕捉到这种空间信息。空间坐标与来自单个细胞的基因表达数据的整合可以通过将高分辨率基因表达谱与空间表达图组合来解决这些实验缺点（图6a）。通过计算方法或原位定量单个细胞中的RNA，同时收集空间坐标以及基因表达值来实现。

目前已经建立了几种测量原位空间分辨基因表达的方法。荧光原位杂交(FISH)已成为提供原位基因表达数据[102]的金标准，新技术的迭代检测效率接近100%[29,35,103,104]。 FISH方法通常用于在单个实验中分析数量较少的细胞，不能检测单个细胞中表达基因的全部补体。较新的发展采用带有纠错码的序列探针杂交，以便在一次实验中检测数百个基因，或在mRNA[31,104,110]的逆转录过程中使用空间条形码方法记录空间信息。相比之下，scRNA- seq方法通常不收集空间数据，但能够在单个细胞中检测到成千上万的转录本，而在并行的[8,111]个细胞中检测到数亿个转录本。通过这些不同数据类型的计算集成，可以利用每种方法的优势实现数据集之间的数据传输，将高通量scRNA-seq方法与高分辨率空间信息进行耦合。

使用FISH和scRNA-seq收集的空间基因表达数据的计算集成现已成功地出现在许多具有里程碑意义的出版物中。这些计算方法最初由Satija[82]和Achim等人[112]提出，后来应用于其他组织[90,113]，为整个生物体或组织提供了完整的空间表达图谱。这些研究通常测量关键基因的空间分布，已知这些基因表现出空间模式，并利用这些数据构建每个基因的表达模型。然后，利用这些空间基因表达模型，根据空间查询的基因的表达水平，将scRNA- seq捕获的单细胞映射回其空间所在位置。在得到的综合数据集中，几乎任何基因的空间概况都可以以高分辨率进行查询，并且可以研究每种细胞类型的局部邻域[82,90,112,113]（图6b）。这些方法使得发现新的空间调节基因成为可能，并为更广泛的研究群体构建了重要的资源(图6c)。现在已经开发了另外的方法，其能够从空间整合的scRNA-seq数据中对空间表达趋势进行系统分析[114,115]。然而，迄今为止，FISH和scRNA-seq数据的计算整合仅应用于具有明确定义的空间结构的生物或组织。将这些方法扩展到更复杂的空间结构，包括成熟组织切片或实体肿瘤仍具有挑战性。

最近，开发了两种高分辨率空间基因表达方法，它们能够在一个大的二维或三维空间区域内检测单个细胞中的数十至数百个基因[31,35]。这些方法极大地减少了组织背景荧光，从而提高了基因检测的信噪比。在一种方法中，循环smFISH（osmFISH），将组织切片与显微镜盖玻片共价结合，然后进行组织清除[35]。在另一种方法中，空间分辨的转录物扩增子读数作图（STARmap），在原位扩增探针时加入修饰的DNA碱基，使cDNA以共价结合到聚丙烯酰胺基质上，从而能够在不损失三位空间信息的情况下进行严格的组织清除[31]。这些方法可用于原位收集许多基因和细胞的准确基因表达信息，可以在细胞原位进行分子分型，并评估细胞类型的空间分布(图6a,b)。在这两项研究中，作者将他们的方法应用于研究小鼠皮层，并能够根据一组细胞类型标记基因的表达对细胞类型进行分类。重要的是，还可以进一步分析这些细胞类型的空间分布。这些空间数据集与scRNA-seq数据或其他单细胞数据类型的进一步整合，将对生物体的研究会提供更大的价值[88,89]。

figure6-1

figure6-2

**图6	空间单细胞数据的整合**

a	单分子荧光原位杂交（smFISH）数据与单细胞RNA测序（scRNA-seq）数据的整合可通过两种方式完成：将smFISH分析的细胞映射到scRNA-seq簇上或将scRNA-seq-profiled 细胞映射到空间分辨的smFISH数据上。将smFISH细胞定位到scRNA-seq数据上可以将源自转录组范围基因表达测量的细胞类型转移到空间分辨的细胞（左图），而将scRNA-seq数据映射到smFISH-剖面空间坐标上可将来自解离细胞的scRNA-seq数据放回其空间位置中（右图）。

b	在空间整合之后，可以分析组织结构以确定组织的细胞组成和细胞类型之间的空间关系。评估细胞类型在组织中如何空间组织的一种方法是查看每种类型的细胞周围的局部邻域。通过测量细胞类型之间的平均空间距离，可以了解关于组织结构的特征，包括哪些细胞类型分散在整个组织中以及哪些细胞类型经常与另一细胞类型形成局部邻域，显示可能的相互作用关系。

c	通过与smFISH数据的整合将scRNA-seq-profiled细胞映射到空间分辨的坐标上，可预测scRNA-seq数据集中测量的任何基因的基因表达的空间模式。通过这些预测，可以通过分析未被smFISH分析的基因来鉴定基因表达的新空间模式。

随着单细胞技术的不断发展和成熟，每个细胞可以测量的参数数量以及检测到的细胞和分子的数量都将不可避免地增加。因此，人们越来越希望在整个实验或模式中整合单细胞数据。目前正在进行大规模的合作工作，以建立一个全面的人类细胞图谱，该图谱涵盖人体内的每个细胞，并随附关键模式生物体的图谱[94]。这些地图集的构建和使用都需要有效的数据集成方法：首先，以对重大技术变化具有鲁棒性的方式集成来自不同实验室、技术和人类捐赠者的数据，然后，促进地图集和新数据集之间的数据传输和比较分析。正如人类基因组的初始测序和组装允许后续实验比人类基因组计划更快，更便宜地通过读取比对将信息从基因组转移到新数据集，人类细胞图谱的开发将创建类似的好处，但只有在适当的计算工具存在的情况下，细胞之间的数据传输，类似于DNA序列比对。此外，我们预计在未来几年，能够在单个细胞中测量的参数数量将继续增长。纳米孔测序成立由于其能够用长读数直接测序RNA和DNA并且天然检测核苷酸碱基修饰[118-120]，因此对多模式单细胞应用有很大希望。进一步的发展可能会出现类似的技术，能够检测其他生物分子，如蛋白质。用于高分辨率空间细胞分析的方法的不断改进将使细胞能够被置于其空间背景中，从而重要地了解细胞类型如何在组织中排列。最终，在一系列实验条件下收集单个细胞中的许多不同数据模式将使我们能够超越以转录本为中心的细胞视图并学习细胞的整体表示。通过研究单细胞内多模态数据类型之间的关系，我们可以开始揭示细胞功能的潜在基础并推断模态之间的因果关系。生物学中一个突出的科学和哲学问题是“什么是细胞类型？”“如果这个问题有答案，我们将通过对单个细胞的细微分析来找到答案，同时考虑到不同的形态和条件，就像古老的‘什么是基因’问题一样。”必须通过跨物种的DNA序列比较分析和多模式生化分析来回答。

[1] Hashimshony, T., Wagner, F., Sher, N. & Yanai, I. CEL-Seq: single-cell RNA-Seq by multiplexed linear amplification. Cell Rep. 2, 666–673 (2012).

[2] Ramsköld, D. et al. Full-length mRNA-Seq from single-cell levels of RNA and individual circulating tumor cells. Nat. Biotechnol. 30, 777–782 (2012).

[3] Jaitin, D. A. et al. Massively parallel single-cell RNA-seq for marker-free decomposition of tissues into cell types. Science 343, 776–779 (2014).

[4] Macosko, E. Z. et al. Highly parallel genome-wide expression profiling of individual cells using nanoliter droplets. Cell 161, 1202–1214 (2015).

[5] Klein, A. M. et al. Droplet barcoding for single-cell transcriptomics applied to embryonic stem cells. Cell 161, 1187–1201 (2015).

[6] Zheng, G. X. Y. et al. Massively parallel digital transcriptional profiling of single cells. Nat. Commun. 8, 14049 (2017).

[7] Cao, J. et al. Comprehensive single-cell transcriptional profiling of a multicellular organism. Science 357,661–667 (2017).

[8] Rosenberg, A. B. et al. Single-cell profiling of the developing mouse brain and spinal cord with split-pool barcoding. Science 360, eaam8999 (2018).

[9] Navin, N. et al. Tumour evolution inferred by single-cell sequencing. Nature 472, 90–94 (2011).

[10] Vitak, S. A. et al. Sequencing thousands of single-cell genomes with combinatorial indexing. Nat. Methods 14, 302–308 (2017).

[11] Pott, S. Simultaneous measurement of chromatin accessibility, DNA methylation, and nucleosome phasing in single cells. eLife 6, 1127 (2017).

[12] Corces, M. R. et al. Lineage-specific and single-cell chromatin accessibility charts human hematopoiesis and leukemia evolution. Nat. Genet. 48, 1193–1203 (2016).

[13] Buenrostro, J. D. et al. Single-cell chromatin accessibility reveals principles of regulatory variation. Nature 523, 486–490 (2015).

[14] Cusanovich, D. A. et al. Multiplex single cell profiling of chromatin accessibility by combinatorial cellular indexing. Science 348, 910–914 (2015).

[15] Lake, B. B. et al. Integrative single-cell analysis of transcriptional and epigenetic states in the human adult brain. Nat. Biotechnol.36, 70–80 (2018).

[16] Luo, C. et al. Single-cell methylomes identify neuronal subtypes and regulatory elements in mammalian cortex. Science 357, 600–604 (2017).

[17] Smallwood, S. A. et al. Single-cell genome-wide bisulfite sequencing for assessing epigenetic heterogeneity. Nat. Methods11, 817–820 (2014).

[18] Guo, H. et al. Single-cell methylome landscapes of mouse embryonic stem cells and early embryos analyzed using reduced representation bisulfite sequencing. Genome Res. 23, 2126–2135 (2013).

[19] Mulqueen, R. M. et al. Highly scalable generation of DNA methylation profiles in single cells. Nat. Biotechnol. 36, 428–431 (2018).

[20] Stoeckius, M. et al. Simultaneous epitope and transcriptome measurement in single cells. Nat. Methods 9, 2579 (2017).

[21] Peterson, V. M. et al. Multiplexed quantification of proteins and transcripts in single cells. Nat. Biotechnol. 161, 1202 (2017).

[22] Faridani, O. R. et al. Single-cell sequencing of the small-RNA transcriptome. Nat. Biotechnol. 34, 1264–1266 (2016).

[23] Gomez, D., Shankman, L. S., Nguyen, A. T. & Owens, G. K. Detection of histone modifications at specific gene loci in single cells in histological sections. Nat. Methods 10, 171–177 (2013).

[24] Rotem, A. et al. Single-cell ChIP-seq reveals cell subpopulations defined by chromatin state. Nat. Biotechnol. 33, 1165–1172 (2015).

[25] Ramani, V. et al. Massively multiplex single-cell Hi-C. Nat. Methods 14, 1–6 (2017).

[26] Nagano, T. et al. Single-cell Hi-C reveals cell-to-cell variability in chromosome structure. Nature 502, 59–64 (2013).

[27] Frieda, K. L. et al. Synthetic recording and in situ readout of lineage information in single cells. Nature 541, 107–111 (2017).

[28] McKenna, A. et al. Whole-organism lineage tracing by combinatorial and cumulative genome editing. Science 353, aaf7907 (2016).

[29] Shah, S., Lubeck, E., Zhou, W. & Cai, L. In situ transcription profiling of single cells reveals spatial organization of cells in the mouse hippocampus. Neuron 92, 342–357 (2016).

[30] Lee, J. H. et al. Highly multiplexed subcellular RNA sequencing in situ. Science 343, 1360–1363 (2014).

[31] Wang, X. et al. Three-dimensional intact-tissue sequencing of single-cell transcriptional states. Science 361, eaat5691 (2018).

[32] Raj, B. et al. Simultaneous single-cell profiling of lineages and cell types in the vertebrate brain.Nat. Biotechnol. 36, 442–450 (2018).

[33] Alemany, A., Florescu, M., Baron, C. S., Peterson-Maduro, J. & van Oudenaarden, A. Whole-organism clone tracing using single-cell sequencing. Nature 556, 108–112 (2018).

[34] Spanjaard, B. et al. Simultaneous lineage tracing and cell-type identification using CRISPR–Cas9-induced genetic scars. Nat. Biotechnol. 36, 469–473 (2018).

[35] Codeluppi, S. et al. Spatial organization of the somatosensory cortex revealed by osmFISH. Nat. Methods 15, 932–935 (2018).

[36] Eberwine, J. et al. Analysis of gene expression in single live neurons. Proc. Natl Acad. Sci. USA 89, 3010–3014 (1992).

[37] Tang, F. et al. mRNA-Seq whole-transcriptome analysis of a single cell. Nat. Methods 6, 377–382 (2009).

[38] Picelli, S. et al. Smart-seq2 for sensitive full-length transcriptome profiling in single cells. Nat. Methods 10, 1096–1098 (2013).

[39] Hayashi, T. et al. Single-cell gene profiling of planarian stem cells using fluorescent activated cell sorting and its ‘index sorting’ function for stem cell research. Dev. Growth Differ. 52, 131–144 (2010).

[40] Wilson, N. K. et al. Combined single-cell functional and gene expression analysis resolves heterogeneity within stem cell populations. Cell Stem Cell 16, 712–724 (2015).

[41] Paul, F. et al. Transcriptional heterogeneity and lineage commitment in myeloid progenitors. Cell 163, 1663–1677 (2015). This study performs index sorting coupled to scRNA-seq on myeloid progenitor cells and identifies transcriptional heterogeneity within sorted populations.

[42] Nestorowa, S. et al. A single-cell resolution map of mouse hematopoietic stem and progenitor cell differentiation. Blood 128, e20–e31 (2016).

[43] Hochgerner, H. et al. STRT-seq-2i: dual-index 5’ single cell and nucleus RNA-seq on an addressable microwell array. Sci. Rep. 7, 16327 (2017).

[44] Macaulay, I. C. et al. G&T-seq: parallel sequencing of single-cell genomes and transcriptomes. Nat. Methods 12, 519–522 (2015).

[45] Dey, S. S., Kester, L., Spanjaard, B., Bienko, M. & van Oudenaarden, A. Integrated genome and transcriptome sequencing of the same cell. Nat. Biotechnol. 33, 285–289 (2015)

[46] Angermueller, C. et al. Parallel single-cell sequencing links transcriptional and epigenetic heterogeneity.Nat. Methods 13, 229–232 (2016).

[47] ENCODE Project Consortium. An integrated encyclopedia of DNA elements in the human genome. Nature 489, 57–74 (2012).

[48] Cao, J. et al. Joint profiling of chromatin accessibility and gene expression in thousands of single cells.Science 361, 1380–1385 (2018).

[49] Darmanis, S. et al. Simultaneous multiplexed measurement of RNA and proteins in single cells.

Cell Rep. 14, 380–389 (2016).

[50] Genshaft, A. S. et al. Multiplexed, targeted profiling of single-cell proteomes and transcriptomes in a single reaction. Genome Biol. 17, 1–15 (2016).

[51] Di Giusto, D. A., Wlassoff, W. A., Gooding, J. J.,Messerle, B. A. & King, G. C. Proximity extension of circular DNA aptamers with real-time protein detection. Nucleic Acids Res. 33, e64 (2005).

[52] Dixit, A. et al. Perturb-Seq: dissecting molecularcircuits with scalable single-cell RNA profiling of pooled genetic screens. Cell 167, 1853–1866 (2016)

[53] Adamson, B. et al. A multiplexed single-cell CRISPR screening platform enables systematic dissection of the unfolded protein response. Cell 167, 1867–1873 (2016).

[54] Datlinger, P. et al. Pooled CRISPR screening with single-cell transcriptome readout. Nat. Methods 14,297–301 (2017).

[55] Jaitin, D. A. et al. Dissecting immune circuits by linking CRISPR- pooled screens with single-cell RNA-Seq. Cell 167, 1883–1888 (2016).

[56] Klann, T. S. et al. CRISPR–Cas9 epigenome editing enables high-throughput screening for functional regulatory elements in the human genome. Nat. Biotechnol. 35, 561 (2017)

[57]. Thakore, P. I., Black, J. B., Hilton, I. B. & Gersbach, C. A. Editing the epigenome: technologies for programmable transcription and epigenetic modulation. Nat. Methods 13, 127–137 (2016).

[58]. Liu, X. S. et al. Editing DNA methylation in the mammalian genome. Cell 167, 233–247 (2016).

[59]. Hilton, I. B. et al. Epigenome editing by a CRISPRCas9-based acetyltransferase activates genes from promoters and enhancers. Nat. Biotechnol. 33, 510–517 (2015).

[60]. Konermann, S. et al. Genome- scale transcriptional activation by an engineered CRISPR- Cas9 complex. Nature 517, 583–588 (2015).

[61]. Gilbert, L. A. et al. Genome- scale CRISPR- mediated control of gene repression and activation. Cell 159,647–661 (2014).

[62] Boettcher, M. et al. Dual gene activation and knockout screen reveals directional dependencies in genetic networks. Nat. Biotechnol. 36, 170–178 (2018).

[63] Schmidt, S. T., Zimmerman, S. M., Wang, J., Kim, S. K.& Quake, S. R. Quantitative analysis of synthetic cell lineage tracing using nuclease barcoding. ACS Synth.Biol. 6, 936–942 (2017).

[64] Lodato, M. A. et al. Somatic mutation in single human neurons tracks developmental and transcriptional history. Science 350, 94–98 (2015).

[65] Tirosh, I. et al. Dissecting the multicellular ecosystem of metastatic melanoma by single-cell RNA-seq.Science 352, 189–196 (2016).

[66] Fan, J. et al. Linking transcriptional and genetic tumor heterogeneity through allele analysis of single-cell RNA-seq data. Genome Res. 28, 1217–1227 (2018).

[67] Kang, H. M. et al. Multiplexed droplet single-cell RNA-sequencing using natural genetic variation.Nat. Biotechnol. 36, 89–94 (2018).

[68]van der Wijst, M. G. P. et al. Single-cell RNA sequencing identifies celltype-specific cis-eQTLs and co-expression QTLs. Nat. Genet. 50, 493–497 (2018).

[69] Aguet, F. et al. Genetic effects on gene expression across human tissues. Nature 550, 204–213 (2017).

[70] La Manno, G. et al. RNA velocity of single cells. Nature 560, 494–498 (2018).

[71] Qiu, X. et al. Reversed graph embedding resolvescomplex single-cell trajectories. Nat. Methods 14,979–982 (2017).

[72] Haghverdi, L., Büttner, M., Wolf, F. A., Buettner, F.& Theis, F. J. Diffusion pseudotime robustly reconstructs lineage branching. Nat. Methods 13, 845–848 (2016).

[73] Trapnell, C. et al. The dynamics and regulators of cell fate decisions are revealed by pseudotemporal ordering of single cells. Nat. Biotechnol. 32, 381–386(2014).

[74] Setty, M. et al. Wishbone identifies bifurcating developmental trajectories from single-cell data.Nat. Biotechnol. 34, 637–645 (2016).

[75] Weinreb, C., Wolock, S., Tusi, B. K., Socolovsky, M. & Klein, A. M. Fundamental limits on dynamic inference from single-cell snapshots. Proc. Natl Acad.

Sci. USA 115, E2467–E2476 (2018).

[76] Meng, C. et al. Dimension reduction techniques for the integrative analysis of multi-omics data. Brief.Bioinform. 17, 628–641 (2016).

[77] Argelaguet, R. et al. Multi-omics factor analysis-a framework for unsupervised integration of multi-omics data sets. Mol. Syst. Biol. 14, e8124 (2018).

[78]. Colomé- Tatché, M. & Theis, F. J. Statistical single cell multi- omics integration. Curr. Opin. Syst. Biol. 7,54–59 (2018).

[79]. Leek, J. T. svaseq: removing batch effects and other unwanted noise from sequencing data. Nucleic Acids Res. 42, e161 (2014).

[80]. Butler, A., Hoffman, P., Smibert, P., Papalexi, E. & Satija, R. Integrating single- cell transcriptomic data across different conditions, technologies, and species. Nat. Biotechnol. 36, 411–420 (2018).

[81]. Haghverdi, L., Lun, A. T. L., Morgan, M. D. & Marioni, J. C. Batch effects in single- cell RNAsequencing data are corrected by matching mutual nearest neighbors. Nat. Biotechnol. 36, 421–427 (2018).

[82]. Satija, R., Farrell, J. A., Gennert, D., Schier, A. F. & Regev, A. Spatial reconstruction of single- cell gene expression data. Nat. Biotechnol. 33, 495–502 (2015).

[83]. Dekel, T., Oron, S., Rubinstein, M., Avidan, S. & Freeman, W. T. in Proc. of the IEEE Conf. on

Computer Vision and Pattern Recognition 2021–2029(IEEE, 2015).

[84]. Hie, B. L., Bryson, B. & Berger, B. Panoramic stitchingof heterogeneous single- cell transcriptomic data. bioRxiv https://doi.org/10.1101/371179 (2018).

[85]Barkas, N. et al. Wiring together large single- cell RNAseq sample collections.bioRxiv https://doi.org/10.1101/460246 (2018).

[86]. Park, J.-E., Polanski, K., Meyer, K. & Teichmann, S. A. Fast batch alignment of single cell transcriptomes unifies multiple mouse cell atlases into an integrated landscape. bioRxiv https://doi.org/10.1101/397042 (2018).

[87]. Korsunsky, I. et al. Fast, sensitive, and flexible integration of single cell data with Harmony. bioRxiv https://doi.org/10.1101/461954 (2018).

[88].Stuart, T .et al. Comprehensive integration of single cell data. bioRxiv https://doi.org/10.1101/460147 (2018).

[89]. Welch, J. et al. Integrative inference of brain cell similarities and differences from single- cell genomics. bioRxiv https://doi.org/10.1101/459891 (2018).

[90]. Karaiskos, N. et al. The Drosophila embryo at single cell transcriptome resolution. Science 358, 194–198 (2017).

[91]. Tosches, M. A. et al. Evolution of pallium, hippocampus, and cortical cell types revealed by

single- cell transcriptomics in reptiles. Science 360,881–888 (2018).

[92]. Baron, M. et al. A single- cell transcriptomic map of the human and mouse pancreas reveals inter- and intra- cell population structure. Cell Syst. 3, 346–360 (2016).

[93]. Alpert, A., Moore, L. S., Dubovik, T. & Shen- Orr, S. S. Alignment of single- cell trajectories to compare cellular expression dynamics. Nat. Methods 15,267–270 (2018).

[94]. Regev, A. et al. Science forum: the human cell atlas. eLife 6, e27041 (2017).

[95]. Kiselev, V. Y., Yiu, A. & Hemberg, M. scmap: projection of single- cell RNA- seq data across data sets. Nat.Methods 15, 359–362 (2018).

[96]. Alquicira- Hernandez, J., Nguyen, Q. & Powell, J. E. scPred: single cell prediction using singular value decomposition and machine learning classification.bioRxiv https://doi.org/10.1101/369538(2018).

[97]. Boufea, K., Seth, S. & Batada, N. N. Mapping transcriptionally equivalent populations across single cell RNA- seq datasets. bioRxiv https://doi. org/10.1101/470203 (2018).

[98]. Wagner, F. & Yanai, I. Moana: a robust and scalable cell type classification framework for single- cell RNA- Seq data. bioRxiv https://doi.org/10.1101/

456129 (2018).

[99] Welch, J. D., Hartemink, A. J. & Prins, J. F. MATCHER. Manifold alignment reveals correspondence between single cell transcriptome and epigenome dynamics. Genome Biol. 18, 138 (2017).

[100] Saunders, A. et al. Molecular diversity and specializations among the cells of the adult mouse brain. Cell 174, 1015–1030 (2018).

[101] Scott, M. P. & Carroll, S. B. The segmentation and homeotic gene network in early Drosophila development. Cell 51, 689–698 (1987).

[102] Raj, A., van den Bogaard, P., Rifkin, S. A., van Oudenaarden, A. & Tyagi, S. Imaging individual

mRNA molecules using multiple singly labeled probes. Nat. Methods 5, 877–879 (2008).

[103] Battich, N., Stoeger, T. & Pelkmans, L. Image- based transcriptomics in thousands of single human cells at single- molecule resolution. Nat. Methods 10, 1127–1133 (2013).

[104] Chen, K. H., Boettiger, A. N., Moffitt, J. R., Wang, S.& Zhuang, X. Spatially resolved, highly multiplexed RNA profiling in single cells. Science 348, aaa6090(2015).

[105] Shah, S., Lubeck, E., Zhou, W. & Cai, L. seqFISH accurately detects transcripts in single cells and reveals robust spatial organization in the hippocampus. Neuron 94, 752–758 (2017).

[106] Moffitt, J. R. et al. High- throughput single- cell geneexpression profiling with multiplexed error- robust fluorescence in situ hybridization. Proc. Natl Acad. Sci. USA 113, 11046–11051 (2016).

[107] Moffitt, J. R. et al. High- performance multiplexed fluorescence in situ hybridization in culture and tissue with matrix imprinting and clearing. Proc. Natl Acad. Sci. USA 113, 14456–14461 (2016).

[108] Moffitt, J. R. et al. Molecular, spatial and functional single- cell profiling of the hypothalamic preoptic region. Science 362, eaau5324 (2018).

[109] Lein, E., Borm, L. E. & Linnarsson, S. The promise of spatial transcriptomics for neuroscience in the era of molecular cell typing. Science 358, 64–69 (2017).

[110] Stahl, P. L. et al. Visualization and analysis of gene expression in tissue sections by spatial

transcriptomics. Science 353, 78–82 (2016).

[111] Shalek, A. K. et al. Single- cell transcriptomics reveals bimodality in expression and splicing in immune cells. Nature 498, 236–240 (2013).

[112] Achim, K. et al. High- throughput spatial mapping of single- cell RNA- seq data to tissue of origin. Nat. Biotechnol. 33, 503–509 (2015).

[113] Halpern, K. B. et al. Single- cell spatial reconstruction reveals global division of labour in the mammalian liver. Nature 542, 352–356 (2017).

[114] Svensson, V., Teichmann, S. A. & Stegle, O. SpatialDE: identification of spatially variable genes. Nat. Methods 15, 343–346 (2018).

[115] Johnsson, P. & Sandberg, R. Identification of spatial expression trends in single- cell gene

expression data. Nat. Methods 15, 339–342 (2018).

[116] Puram, S. V. et al. Single- cell transcriptomic analysis of primary and metastatic tumor ecosystems in head and neck cancer. Cell 171, 1611–1624 (2017).

[117] Pandey, S., Shekhar, K., Regev, A. & Schier, A. F. Comprehensive identification and spatial mapping of habenular neuronal types using single- cell RNA- Seq. Curr. Biol. 28, 1052–1065 (2018).

[118] ralde, D. R. et al. Highly parallel direct RNA sequencing on an array of nanopores. Nat. Methods 15, 201–206 (2018).

[119] Rand, A. C. et al. Mapping DNA methylation with high-throughput nanopore sequencing. Nat. Methods 14, 411–413 (2017).

[120] Workman, R. E. et al. Nanopore native RNA sequencing of a human poly(A) transcriptome. bioRxiv. https://doi.org/10.1101/459529 (2018).

多模态单细胞测序数据分析

多模态单细胞测序数据分析

3.多模式单细胞测量

3.1在破坏性测定之前收集细胞计数信息

3.2分离细胞成分

3.3将细胞信息转换为通用的分子形式

3.4从scRNA-seq中提取其他信息数据

3.5多模态数据分析

4.单细胞数据的全面整合

4.1scRNA-seq数据的整合分析

4.2跨scRNA-seq数据集的细胞分类

4.3多模单细胞数据的计算整合

5.整合测序和空间数据

Recommend

Introduction to MultiDimensional Scaling

解读Science文章——构建纵向保守性微生物互作网络

深度学习应用系列——NeuSomatic：鉴定体细胞突变

深度学习应用系列——DeepVariant：鉴定遗传变异

深度学习应用系列——DeepCpG：预测单细胞甲基化状态

浅谈卷积神经网络中的卷积运算的统计学/生物学意义

在一个空ASP.NET Web项目上创建一个ASP.NET Web API 2.0应用

matplotlib绘图逻辑(上)

详解DADA2算法原理

扩增子序列变异为何取代OTU

About Joyk