Multi

Nature Biotechnology Band 40, Seiten 1458–1466 (2022)Diesen Artikel zitieren

59.000 Zugriffe

55 Zitate

187 Altmetrisch

Details zu den Metriken

Trotz des Aufkommens experimenteller Methoden zur gleichzeitigen Messung mehrerer Omics-Modalitäten in einzelnen Zellen umfassen die meisten Einzelzelldatensätze nur eine Modalität. Ein großes Hindernis bei der Integration von Omics-Daten aus mehreren Modalitäten besteht darin, dass verschiedene Omics-Schichten typischerweise unterschiedliche Merkmalsräume haben. Hier schlagen wir einen Rechenrahmen namens GLUE (Graph-Linked Unified Embedding) vor, der diese Lücke schließt, indem regulatorische Interaktionen über Omics-Schichten hinweg explizit modelliert werden. Systematisches Benchmarking hat gezeigt, dass GLUE genauer, robuster und skalierbarer ist als modernste Tools für heterogene Single-Cell-Multi-Omics-Daten. Wir haben GLUE auf verschiedene herausfordernde Aufgaben angewendet, darunter Triple-Omics-Integration, integrative regulatorische Inferenz und Multi-Omics-Atlaskonstruktion menschlicher Zellen über Millionen von Zellen, wobei GLUE frühere Anmerkungen korrigieren konnte. GLUE zeichnet sich durch einen modularen Aufbau aus, der für neue Analyseaufgaben flexibel erweitert und erweitert werden kann. Das vollständige Paket ist online unter https://github.com/gao-lab/GLUE verfügbar.

Jüngste technologische Fortschritte bei der Einzelzellsequenzierung haben die Untersuchung regulatorischer Karten über mehrere Omics-Schichten hinweg ermöglicht, wie etwa die Zugänglichkeit von Chromatin (Einzelzell-ATAC-Sequenzierung (scATAC-seq)1,2), DNA-Methylierung (snmC-seq3, wissenschaftliche MET4) und das Transkriptom (scRNA-seq5,6) und bieten eine einzigartige Gelegenheit, die zugrunde liegenden regulatorischen Grundlagen für die Funktionalitäten verschiedener Zelltypen aufzudecken7. Während in letzter Zeit simultane Assays auf den Markt kamen8,9,10,11, werden unterschiedliche Omics in der Regel unabhängig voneinander gemessen und erzeugen ungepaarte Daten, was eine effektive und effiziente In-silico-Multi-Omics-Integration erfordert12,13.

Ein großes rechnerisches Hindernis bei der Integration ungepaarter Multi-Omics-Daten (auch als Diagonalintegration bekannt) sind die unterschiedlichen Merkmalsräume verschiedener Modalitäten (z. B. zugängliche Chromatinregionen in scATAC-seq im Vergleich zu Genen in scRNA-seq)14. Eine schnelle Lösung besteht darin, Multimodalitätsdaten basierend auf Vorkenntnissen in einen gemeinsamen Merkmalsraum zu konvertieren und Single-Omics-Datenintegrationsmethoden anzuwenden15,16,17,18. Eine solche explizite „Funktionskonvertierung“ ist unkompliziert, führt jedoch Berichten zufolge zu Informationsverlusten19. Algorithmen, die auf der Faktorisierung gekoppelter Matrizen basieren, umgehen die explizite Konvertierung, bewältigen aber kaum mehr als zwei Omics-Schichten20,21. Eine alternative Option besteht darin, Zellen aus verschiedenen Omics-Schichten über eine nichtlineare Mannigfaltigkeitsausrichtung abzugleichen, wodurch das Erfordernis von Vorkenntnissen vollständig entfällt und der Informationsverlust zwischen den Modalitäten theoretisch reduziert werden könnte22,23,24,25; Diese Technik wurde jedoch meist auf relativ kleine Datensätze mit einer begrenzten Anzahl von Zelltypen angewendet.

Eine weitere große Herausforderung26 ist die stetig wachsende Datenmenge. Kürzlich entwickelte Technologien können routinemäßig Datensätze im Maßstab von Millionen von Zellen generieren27,28,29, während aktuelle Integrationsmethoden nur auf Datensätze mit viel kleineren Volumina angewendet wurden15,17,20,21,22,23. Um mit dem Wachstum des Datendurchsatzes Schritt zu halten, sollten rechnerische Integrationsmethoden unter Berücksichtigung der Skalierbarkeit entwickelt werden.

Hiermit stellen wir GLUE (Graph-Linked Unified Embedding) vor, ein modulares Framework zur Integration ungepaarter Einzelzell-Multi-Omics-Daten und zur gleichzeitigen Ableitung regulatorischer Interaktionen. Durch die explizite Modellierung der regulatorischen Interaktionen über Omics-Schichten hinweg schließt GLUE die Lücken zwischen verschiedenen Omics-spezifischen Merkmalsräumen auf biologisch intuitive Weise. Systematische Benchmarks und Fallstudien zeigen, dass GLUE für heterogene Einzelzellen-Multi-Omics-Daten genau, robust und skalierbar ist. Darüber hinaus ist GLUE als generalisierbares Framework konzipiert, das eine einfache Erweiterung und schnelle Anpassung an bestimmte Szenarien auf modulare Weise ermöglicht. GLUE ist unter https://github.com/gao-lab/GLUE öffentlich zugänglich.

Inspiriert durch frühere Studien modellieren wir Zellzustände als niedrigdimensionale Zelleinbettungen, die durch Variations-Autoencoder gelernt werden30,31. Aufgrund ihrer inhärenten Unterschiede in der biologischen Natur und der Assay-Technologie ist jede Omics-Schicht mit einem separaten Autoencoder ausgestattet, der ein probabilistisches generatives Modell verwendet, das auf den schichtspezifischen Merkmalsraum zugeschnitten ist (Abb. 1 und Methoden).

Bezeichnet ungepaarte Daten aus drei Omics-Schichten als \({{{\mathbf{X}}}}_1 \in {\Bbb R}^{N_1 \times \left| {{{{\mathcal{V}}}}_1 } \right|},{{{\mathbf{X}}}}_2 \in {\Bbb R}^{N_2 \times \left| {{{{\mathcal{V}}}}_2} \right| },{{{\mathbf{X}}}}_3 \in {\Bbb R}^{N_3 \times \left| {{{{\mathcal{V}}}}_3} \right|}\), wobei N1, N2, N3 Zellennummern sind und \({{{\mathcal{V}}}}_1,{{{\mathcal{V}}}}_2,{{{\mathcal{V}}}} _3\) sind Sätze von Omics-Merkmalen in jeder Ebene. GLUE verwendet Omics-spezifische Variations-Autoencoder, um niedrigdimensionale Zelleneinbettungen U1, U2, U3 aus jeder Omics-Ebene zu lernen. Die Datendimensionalität und die generative Verteilung können zwischen den Schichten unterschiedlich sein, die Einbettungsdimension m wird jedoch gemeinsam genutzt. Um die Omics-spezifischen Datenräume zu verknüpfen, nutzt GLUE Vorwissen über regulatorische Wechselwirkungen in Form eines Orientierungsgraphen \({{{\mathcal{G}}}} = \left( {{{{\mathcal{V }}}},{{{\mathcal{E}}}}} \right)\), wobei die Eckpunkte \({{{\mathcal{V}}}} = {{{\mathcal{V}}}} _1 \cup {{{\mathcal{V}}}}_2 \cup {{{\mathcal{V}}}}_3\) sind Omics-Merkmale. Ein Graph-Variations-Autoencoder wird verwendet, um Feature-Einbettungen zu lernen. \({{{\mathbf{V}}}} = \left( {{{{\mathbf{V}}}}_1^ \top ,{{{\mathbf{ V}}}}_2^ \top ,{{{\mathbf{V}}}}_3^ \top } \right)^ \top\) aus dem vorherigen wissensbasierten Führungsgraphen, die dann in Datendecodierern verwendet werden um Omics-Daten über das innere Produkt mit Zelleneinbettungen zu rekonstruieren und dabei die Omics-spezifischen Datenräume effektiv zu verknüpfen, um eine konsistente Einbettungsorientierung sicherzustellen. Zuletzt wird ein Omics-Diskriminator D verwendet, um die Zelleneinbettungen verschiedener Omics-Schichten durch kontradiktorisches Lernen auszurichten. \(\phi _1,\phi _2,\phi _3,\phi _{{{\mathcal{G}}}}\) stellen lernbare Parameter in Daten- und Grafik-Encodern dar. \(\theta _1,\theta _2,\theta _3,\theta _{{{\mathcal{G}}}}\) stellen lernbare Parameter in Daten- und Grafikdecodern dar. ψ repräsentiert lernbare Parameter im Omics-Diskriminator.

Unter Ausnutzung früherer biologischer Kenntnisse schlagen wir die Verwendung eines wissensbasierten Diagramms („Leitdiagramm“) vor, das explizit schichtübergreifende regulatorische Wechselwirkungen zur Verknüpfung schichtspezifischer Merkmalsräume modelliert; Die Eckpunkte im Diagramm entsprechen den Merkmalen verschiedener Omics-Schichten, und die Kanten stellen vorzeichenbehaftete regulatorische Wechselwirkungen dar. Wenn beispielsweise scRNA-seq- und scATAC-seq-Daten integriert werden, sind die Eckpunkte Gene und zugängliche Chromatinregionen (d. h. ATAC-Peaks), und eine positive Kante kann zwischen einer zugänglichen Region und ihrem mutmaßlichen Downstream-Gen verbunden werden. Anschließend wird die kontradiktorische multimodale Ausrichtung der Zellen als iteratives Optimierungsverfahren durchgeführt, das durch aus dem Diagramm32 codierte Merkmalseinbettungen geleitet wird (Abb. 1 und Methoden). Insbesondere wenn der iterative Prozess konvergiert, kann das Diagramm mit Eingaben aus dem Ausrichtungsverfahren verfeinert und für datenorientierte regulatorische Schlussfolgerungen verwendet werden (weitere Einzelheiten siehe unten).

Wir haben GLUE zunächst mit mehreren gängigen ungepaarten Multi-Omics-Integrationsmethoden verglichen15,16,17,18,23,24,25,33 unter Verwendung von drei Goldstandard-Datensätzen, die mit den neuesten simultanen scRNA-seq- und scATAC-seq-Technologien generiert wurden (SNARE-seq8, SHARE-seq9 und 10X Multiome34), zusammen mit zwei ungepaarten Datensätzen (Nephron35 und MOp36).

Eine effektive Integrationsmethode sollte die entsprechenden Zellzustände aus verschiedenen Omics-Schichten abgleichen und Zelleinbettungen erzeugen, bei denen die biologische Variation originalgetreu erhalten bleibt und die Omics-Schichten gut gemischt sind. Im Vergleich zu anderen Methoden erreichte GLUE gleichzeitig ein hohes Maß an biologischer Erhaltung und Omics-Mischung (Abb. 2a, jeweils quantifiziert durch drei separate Metriken, wie in Abb. 1 der erweiterten Daten dargestellt) und war in allen Benchmark-Datensätzen durchweg die beste Methode Gesamtpunktzahl (Abb. 2b, Einzelheiten zur metrischen Aggregation siehe Methoden); Diese Ergebnisse wurden auch durch UMAP-Visualisierung (Uniform Manifold Approximation and Projection) der ausgerichteten Zelleinbettungen validiert (Ergänzende Abbildungen 1–5).

a, Biological Conservation Score im Vergleich zum Omics-Integrations-Score für verschiedene Integrationsmethoden. b, Gesamtintegrationsscore (definiert als 0,6 × Biologieerhaltung + 0,4 × Omics-Integration) verschiedener Integrationsmethoden (n = 8 Wiederholungen mit unterschiedlichen Modell-Zufallskeimen). c, Ausrichtungsfehler auf Einzelzellebene (quantifiziert durch FOSCTTM) verschiedener Integrationsmethoden (n = 8 Wiederholungen mit unterschiedlichen Modell-Zufallskeimen). d, Erhöhungen von FOSCTTM bei unterschiedlichen Korruptionsraten des Vorwissens für Integrationsmethoden, die auf früheren Merkmalsbeziehungen basieren (n = 8 Wiederholungen mit unterschiedlichen zufälligen Korruptions-Seeds). e, FOSCTTM-Werte verschiedener Integrationsmethoden für unterabgetastete Datensätze unterschiedlicher Größe (n = 8 Wiederholungen mit unterschiedlichen Unterabtast-Zufallsstartwerten). FiG ist eine alternative Feature-Konvertierungsmethode, die von Online-iNMF und LIGER (Methoden) empfohlen wird. Online-iNMF und LIGER konnten mit der FiG-Konvertierung der SNARE-seq-Daten nicht ausgeführt werden, da die rohe ATAC-Fragmentdatei nicht verfügbar war und daher als „NA“ markiert war. Andere NA-Markierungen wurden aufgrund von Speicherüberlauf vorgenommen. Die Fehlerbalken geben den Mittelwert ± Standardabweichung an

Eine optimale Integrationsmethode sollte genaue Ausrichtungen nicht nur auf Zelltypebene, sondern auch auf feineren Maßstäben erzeugen. Mithilfe der Ground-Truth-Zelle-zu-Zelle-Korrespondenz in den Goldstandard-Datensätzen haben wir den Ausrichtungsfehler auf Einzelzellenebene mithilfe der FOSCTTM-Metrik (Anteil der Proben, die näher als die wahre Übereinstimmung sind)25 weiter quantifiziert. Bei allen drei Datensätzen erreichte GLUE den niedrigsten FOSCTTM-Wert und verringerte den Ausrichtungsfehler im Vergleich zur zweitbesten Methode in jedem Datensatz erheblich (Abb. 2c, die Verringerung betrug 3,6-fach für SNARE-seq, 1,7-fach für SHARE-seq). seq und 1,5-fach für 10X Multiome).

Während der oben beschriebenen Auswertung haben wir ein Standardschema übernommen (ATAC-Peaks wurden mit RNA-Genen verknüpft, wenn sie sich im Genkörper oder in den proximalen Promotorregionen überlappten), um das Orientierungsdiagramm für GLUE zu erstellen und die Merkmalsumwandlung für andere umwandlungsbasierte Methoden durchzuführen. Angesichts der Tatsache, dass unser aktuelles Wissen über die regulatorischen Wechselwirkungen noch lange nicht perfekt ist, muss eine nützliche Integrationsmethode robust gegenüber solchen Ungenauigkeiten sein. Daher haben wir die Robustheit der Methoden gegenüber der Korruption regulatorischer Interaktionen weiter bewertet, indem wir zufällig unterschiedliche Anteile vorhandener Interaktionen durch nicht vorhandene ersetzt haben. Bei allen drei Datensätzen zeigte GLUE selbst bei Korruptionsraten von bis zu 90 % die geringsten Leistungsänderungen (Abb. 2d und Extended Data Abb. 2a), was auf seine überlegene Robustheit schließen lässt. Wir stellten übereinstimmend fest, dass die Verwendung alternativer Orientierungsdiagramme, die in größeren Genomfenstern definiert wurden, nur minimalen Einfluss auf die Integrationsleistung hatte (Erweiterte Daten, Abb. 2b, c).

Da GLUE auf einem neuronalen Netzwerk basiert, kann es bei der Arbeit mit kleinen Datensätzen zu Untertraining kommen. Daher wiederholten wir die Auswertungen mit untergeordneten Datensätzen unterschiedlicher Größe. GLUE blieb mit nur 2.000 Zellen die Methode mit dem höchsten Rang, der Ausrichtungsfehler stieg jedoch stärker an, als das Datenvolumen auf weniger als 1.000 Zellen sank (Abb. 2e und Extended Data Abb. 2d). Darüber hinaus haben wir festgestellt, dass die Integrationsleistung von GLUE für eine Vielzahl von Hyperparameter- und Feature-Auswahleinstellungen robust war (Extended Data, Abb. 3 und 4). Abgesehen von den Zelleinbettungen weisen die Merkmalseinbettungen von GLUE auch eine beträchtliche Robustheit gegenüber Hyperparametereinstellungen, Vorwissenverfälschung und Datenunterabtastung auf (Extended Data Abb. 5).

Zusätzlich zu den systematischen Unterschieden zwischen den Omics-Schichten werden Einzelzellendaten oft durch den Batch-Effekt innerhalb derselben Schicht kompliziert. Beispielsweise wurden die SHARE-seq-Daten in vier Bibliotheken verarbeitet, von denen eine im Vergleich zu den anderen drei in scRNA-seq einen Batch-Effekt aufwies (ergänzende Abbildung 6a), während die Nephron-Daten vier Spender profilierten, die alle einen erheblichen Batch-Effekt aufwiesen Wirkung gegeneinander sowohl in scRNA-seq als auch in scATAC-seq (ergänzende Abbildung 7a, c). Als Lösung für solch komplexe Szenarien bietet GLUE die Möglichkeit zur Batch-Korrektur, indem Batch als Decoder-Kovariate (Methoden) einbezogen wird. Bei aktivierter Chargenkorrektur konnte GLUE diese Chargeneffekte effektiv korrigieren und so eine wesentlich bessere Chargenmischung erzielen (ergänzende Abbildung 6b und ergänzende Abbildung 7b, d). Um einer möglichen Überkorrektur vorzubeugen, beispielsweise wenn eine Integration über Datensätze ohne gemeinsame Zellzustände erzwungen wird, haben wir eine diagnostische Metrik namens Integration Consistency Score entwickelt, die die Konsistenz zwischen dem integrierten Multi-Omics-Raum und dem Vorwissen in den Leitlinien misst Diagramm (Methoden). Bei der Integration von Daten aus inkonsistenten Geweben beobachteten wir wesentlich niedrigere Werte (nahe 0) als bei der Integration innerhalb desselben Gewebes, was sie zu einem zuverlässigen Indikator für die Integrationsqualität macht (Erweiterte Daten, Abb. 6).

GLUE profitiert von einem modularen Design und einer skalierbaren gegnerischen Ausrichtung und lässt sich problemlos auf mehr als zwei Omics-Schichten erweitern. Als Fallstudie verwendeten wir GLUE, um drei verschiedene Omics-Schichten neuronaler Zellen in den Kortex erwachsener Mäuse zu integrieren, einschließlich Genexpression37, Chromatinzugänglichkeit38 und DNA-Methylierung3.

Im Gegensatz zur Zugänglichkeit von Chromatin zeigt die DNA-Methylierung des Genkörpers im Allgemeinen eine negative Korrelation mit der Genexpression in neuronalen Zellen39. GLUE unterstützt die Mischung regulatorischer Effekte nativ durch die Modellierung von Kantenzeichen im Führungsdiagramm. Eine solche Strategie vermeidet die Dateninvertierung, die bei früheren Methoden16,17 erforderlich war und die Datensparsamkeit und die zugrunde liegende Verteilung zerstören kann. Für das Triple-Omics-Leitdiagramm haben wir die mCH- und mCG-Spiegel des Genkörpers über negative Kanten mit Genen verknüpft, während die positiven Kanten zwischen zugänglichen Regionen und Genen gleich blieben.

Die GLUE-Ausrichtung ergab erfolgreich eine gemeinsame Mannigfaltigkeit von Zellzuständen über die drei Omics-Schichten hinweg (Abb. 3a – d). Bemerkenswert ist, dass die ursprünglichen Zelltypen nicht mit der gleichen Auflösung annotiert wurden und viele sogar innerhalb einzelner Schichten weiter in kleinere Subtypen gruppiert werden konnten (ergänzende Abbildung 8a – f). Um die Zelltypanmerkungen zu vereinheitlichen, wurde eine nachbarschaftsbasierte Markierungsübertragung unter Verwendung der integrierten Zelleneinbettungen durchgeführt und wir beobachteten eine hochsignifikante Markerüberlappung (Abb. 3e, Drei-Wege-Fisher-Exakttest40, Falscherkennungsrate (FDR) < 5 × 10−17 ) für 12 der 14 kartierten Zelltypen (Ergänzende Abbildungen 8g – o und 9 und Methoden), was auf eine zuverlässige Ausrichtung hinweist. Die GLUE-Ausrichtung trug dazu bei, die Auswirkungen der Zelltypisierung in allen Omics-Schichten zu verbessern, einschließlich der weiteren Aufteilung des scRNA-seq-„MGE“-Clusters in die Subtypen Pvalb+ („mPv“) und Sst+ („mSst“) (hervorgehoben durch grüne Kreise/Flüsse). in Abb. 3 und ergänzender Abb. 8), die Aufteilung des scRNA-seq „CGE“-Clusters und des scATAC-seq „Vip“-Clusters in die Subtypen Vip+ („mVip“) und Ndnf+ („mNdnf“) (dunkelblau hervorgehoben). Kreise/Flüsse in Abb. 3 und ergänzender Abb. 8) und die Identifizierung von snmC-seq „mDL-3“-Zellen und einer Untergruppe von scATAC-seq „L6 IT“-Zellen als Claustrum-Zellen (hervorgehoben durch hellblaue Kreise/Flüsse). in Abb. 3 und ergänzender Abb. 8).

a–c, UMAP-Visualisierungen der integrierten Zelleinbettungen für scRNA-seq (a), snmC-seq (b) und scATAC-seq (c), gefärbt nach den ursprünglichen Zelltypen. Zellen, die an „mPv“ und „mSst“ ausgerichtet sind, werden durch grüne Kreise hervorgehoben. Zellen, die mit „mNdnf“ und „mVip“ ausgerichtet sind, werden durch dunkelblaue Kreise hervorgehoben. Mit „mDL-3“ ausgerichtete Zellen werden durch hellblaue Kreise hervorgehoben. d, UMAP-Visualisierungen der integrierten Zelleneinbettungen für alle Zellen, gefärbt durch Omics-Schichten. e, Signifikanz der Markergenüberlappung für jeden Zelltyp über alle drei Omics-Schichten (dreifacher exakter Fisher-Test40). Die gestrichelte vertikale Linie zeigt an, dass FDR = 0,01. Wir beobachteten eine hochsignifikante Markerüberlappung (FDR < 5 × 10−17) für 12 der 14 Zelltypen, was auf eine zuverlässige Ausrichtung hinweist. Bei den verbleibenden zwei Zelltypen wies „mDL-1“ eine geringfügig signifikante Markerüberlappung mit FDR = 0,003 auf, während die „mIn-1“-Zellen in snmC-seq nicht ordnungsgemäß mit den scRNA-seq- oder scATAC-seq-Zellen übereinstimmten. f, Bestimmungskoeffizient (R2) zur Vorhersage der Genexpression basierend auf jeder epigenetischen Schicht sowie der Kombination aller Schichten (n = 2.677 hochvariable Gene, die allen drei Omics-Schichten gemeinsam sind). Die Boxplots zeigen die Mediane (Mittellinien), Mittelwerte (Dreiecke), das erste und dritte Quartil (Grenzen der Boxen) und den 1,5-fachen Interquartilbereich (Whisker).

Eine solche Triple-Omics-Integration gibt auch Aufschluss über die quantitativen Beiträge verschiedener epigenetischer Regulationsmechanismen (Methoden). Unter der Zugänglichkeit von mCH, mCG und Chromatin stellten wir fest, dass der mCH-Spiegel die höchste Vorhersagekraft für die Genexpression in kortikalen Neuronen hatte (durchschnittliches R2 = 0,187). Wenn alle epigenetischen Schichten berücksichtigt wurden, erhöhte sich die Vorhersagbarkeit der Expression weiter (durchschnittliches R2 = 0,236), was auf das Vorhandensein nichtredundanter Beiträge hindeutet (Abb. 3f). Unter den Neuronen verschiedener Schichten zeigte die DNA-Methylierung (insbesondere mCH) eine etwas höhere Vorhersagbarkeit der Genexpression in tieferen Schichten als in oberflächlichen Schichten (ergänzende Abbildung 10a). Über alle Gene hinweg korrelierte die Vorhersagbarkeit der Genexpression im Allgemeinen zwischen den verschiedenen epigenetischen Schichten (ergänzende Abbildung 10b). Wir beobachteten auch unterschiedliche Assoziationen mit Genmerkmalen. Beispielsweise hatte mCH eine höhere Vorhersagbarkeit der Expression längerer Gene, was mit früheren Studien übereinstimmt , während die Zugänglichkeit von Chromatin mehr zu Genen mit höherer Expressionsvariabilität beitrug (ergänzende Abbildung 10c). Wir haben dieselbe Analyse auch mit Online-iNMF wiederholt, der derzeit die einzige andere Methode ist, mit der die drei Omics-Schichten gleichzeitig integriert werden können, die jedoch zu einer viel geringeren Zelltypauflösung und epigenetischen Korrelation führte (ergänzende Abbildung 11).

Die Einbeziehung eines Diagramms, das explizit regulatorische Wechselwirkungen in GLUE modelliert, ermöglicht darüber hinaus einen Bayes'schen Ansatz, der Vorwissen und beobachtete Daten für spätere regulatorische Schlussfolgerungen kombiniert. Da die Feature-Einbettungen insbesondere darauf ausgelegt sind, das wissensbasierte Führungsdiagramm und die Einzelzell-Multi-Omics-Daten gleichzeitig zu rekonstruieren (Abb. 1), sollten ihre Kosinusähnlichkeiten Informationen aus beiden Aspekten widerspiegeln, die wir als „Regulierungswerte“ übernehmen.

Zur Demonstration verwendeten wir den offiziellen Multiome-Datensatz peripherer mononukleärer Blutzellen von 10X34 und speisten ihn als ungepaarte scRNA-seq- und scATAC-seq-Daten in GLUE ein. Um entfernte cis-regulatorische Wechselwirkungen zu erfassen, verwendeten wir ein weitreichendes Orientierungsdiagramm, das ATAC-Peaks und RNA-Gene in 150-kb-Fenstern verband, gewichtet mit einer Potenzgesetzfunktion, die die Chromatin-Kontaktwahrscheinlichkeit modelliert 42, 43 (Methoden). Die Visualisierung der Zelleinbettungen bestätigte, dass die GLUE-Ausrichtung korrekt und genau war (ergänzende Abbildung 12a, b). Wie erwartet stellten wir fest, dass der regulatorische Score negativ mit der genomischen Distanz korrelierte (Abb. 4a) und positiv mit der empirischen Peak-Gen-Korrelation korrelierte (berechnet mit gepaarten Zellen, Abb. 4b), mit Robustheit über verschiedene zufällige Samen hinweg (ergänzende Abb . 12c).

a, GLUE-Regulierungswerte für Peak-Gen-Paare in verschiedenen Genombereichen, gruppiert danach, ob sie pcHi-C-Unterstützung hatten. Die Boxplots zeigen die Mediane (Mittellinien), Mittelwerte (Dreiecke), das erste und dritte Quartil (Grenzen der Boxen) und den 1,5-fachen Interquartilbereich (Whisker). b, Vergleich zwischen den regulatorischen GLUE-Scores und den empirischen Peak-Gen-Korrelationen, die für gepaarte Zellen berechnet wurden. Peak-Gen-Paare werden danach gefärbt, ob sie pcHi-C-Unterstützung hatten. c, Betriebskennlinien des Empfängers zur Vorhersage von pcHi-C-Wechselwirkungen basierend auf unterschiedlichen Peak-Gen-Assoziationswerten. AUROC ist die Fläche unter der Betriebskennlinie des Empfängers. d,e, GLUE-identifizierte cis-regulatorische Wechselwirkungen von NCF2 (d) und CD83 (e), zusammen mit individuellen regulatorischen Beweisen. SPI1 (hervorgehoben durch ein grünes Kästchen) ist ein bekannter Regulator von NCF2.

Um weiter zu beurteilen, ob der Score tatsächliche cis-regulatorische Wechselwirkungen widerspiegelt, verglichen wir ihn mit externen Beweisen, einschließlich pcHi-C44 und eQTL45. Der GLUE-Regulationsscore war für pcHi-C-unterstützte Peak-Gen-Paare in allen Entfernungsbereichen höher (Abb. 4a) und war ein besserer Prädiktor für pcHi-C-Wechselwirkungen als empirische Peak-Gen-Korrelationen (Abb. 4b). LASSO und Cicero43, die auf Kozugänglichkeit basierende regulatorische Vorhersagemethode (Abb. 4c und ergänzende Abb. 12d). Gleiches gilt für eQTL (Ergänzende Abbildung 12e – h).

Das GLUE-Framework ermöglicht auch die intuitive Einbindung zusätzlicher regulatorischer Nachweise, wie z. B. pcHi-C, über das Leitliniendiagramm. Daher haben wir Modelle mit einem zusammengesetzten Leitdiagramm weiter trainiert, das distanzgewichtete Interaktionen sowie pcHi-C- und eQTL-unterstützte Interaktionen enthält (ergänzende Abbildung 13). Die Signifikanz des regulatorischen Scores wurde durch Vergleich mit einer NULL-Verteilung bewertet, die aus zufällig gemischten Merkmalseinbettungen (Methoden) erhalten wurde. Während die Multi-Omics-Ausrichtung erwartungsgemäß unempfindlich gegenüber der Änderung des Orientierungsdiagramms war, zeigten die abgeleiteten regulatorischen Wechselwirkungen eine stärkere Anreicherung für pcHi-C und eQTL (ergänzende Abbildung 13a – d). Große Teile hochkonfidenter Interaktionen, die gleichzeitig von pcHi-C, eQTL und Korrelation unterstützt werden, konnten robust wiederhergestellt werden (FDR <0, 05), selbst wenn sie im Orientierungsdiagramm beschädigt waren (ergänzende Abbildung 13e). Darüber hinaus zeigte das GLUE-abgeleitete Transkriptionsfaktor (TF)-Zielgennetzwerk (Methoden) eine signifikantere Übereinstimmung mit manuell kuratierten Verbindungen in der TRRUST v2-Datenbank46 als einzelne evidenzbasierte Netzwerke (Ergänzende Abbildungen 13f und Ergänzende Abbildung 14 und Ergänzende Daten). 2).

Wir stellten fest, dass die GLUE-abgeleiteten cis-regulatorischen Wechselwirkungen Hinweise auf die regulatorischen Mechanismen bekannter TF-Zielpaare liefern könnten. Beispielsweise ist SPI1 ein bekannter Regulator des NCF2-Gens, und beide werden in Monozyten stark exprimiert (ergänzende Abbildung 15a, b). GLUE identifizierte drei entfernte regulatorische Peaks für NCF2 mit verschiedenen Beweisstücken, d. h. etwa 120 kb stromabwärts, 25 kb stromabwärts und 20 kb stromaufwärts von der Transkriptionsstartstelle (TSS) (Abb. 4d), die alle durch SPI1 gebunden waren . Unterdessen waren die meisten mutmaßlichen regulatorischen Wechselwirkungen bisher unbekannt. Beispielsweise war CD83 mit drei regulatorischen Peaks verknüpft (zwei etwa 25 kb stromaufwärts, einer etwa 10 kb stromaufwärts vom TSS), die für die Bindung von drei TFs (BCL11A, PAX5 und RELB; Abb. 4e) angereichert waren. Während CD83 sowohl in Monozyten als auch in B-Zellen stark exprimiert wurde, zeigten die abgeleiteten TFs eingeschränktere Expressionsmuster (ergänzende Abbildung 15c – f), was darauf hindeutet, dass sich die aktiven Regulatoren je nach Zelltyp unterscheiden könnten. Ergänzende Abbildung 16 zeigt weitere Beispiele für GLUE-abgeleitete regulatorische Wechselwirkungen.

Da sich die Technologien ständig weiterentwickeln, nimmt der Durchsatz von Einzelzellexperimenten ständig zu. Jüngste Studien haben Atlanten menschlicher Zellen für die Genexpression28 und die Zugänglichkeit von Chromatin29 erstellt, die Millionen von Zellen enthalten. Die Integration dieser Atlanten stellt aufgrund des schieren Datenvolumens, der großen Heterogenität, der geringen Abdeckung pro Zelle und der unausgewogenen Zusammensetzung der Zelltypen eine erhebliche Herausforderung für die Berechnungsmethoden dar und muss auf Einzelzellenebene noch erreicht werden.

Als neuronales Netzwerk mit Minibatch-Optimierung implementiert, bietet GLUE eine hervorragende Skalierbarkeit mit sublinearen Zeitkosten und verspricht eine Anwendbarkeit auf Atlas-Ebene (ergänzende Abbildung 17a). Mithilfe einer effizienten mehrstufigen Trainingsstrategie für GLUE (Methoden) haben wir die Genexpressions- und Chromatin-Zugänglichkeitsdaten erfolgreich in einen einheitlichen Multi-Omics-Atlas menschlicher Zellen integriert (Abb. 5).

a,b, UMAP-Visualisierungen der integrierten Zelleneinbettungen, gefärbt nach Omics-Schichten (a) und Zelltypen (b). Die rosa Kreise heben Zellen hervor, die in scRNA-seq als „Exzitatorische Neuronen“, in scATAC-seq jedoch als „Astrozyten“ gekennzeichnet sind. Die blauen Kreise markieren Zellen, die in scRNA-seq als „Astrozyten“, in scATAC-seq jedoch als „Astrozyten/Oligodendrozyten“ gekennzeichnet sind. Die braunen Kreise heben Zellen hervor, die in scRNA-seq als „Oligodendrozyten“, in scATAC-seq jedoch als „Astrozyten/Oligodendrozyten“ gekennzeichnet sind.

Während der ausgerichtete Atlas weitgehend mit den ursprünglichen Anmerkungen übereinstimmte29 (ergänzende Abbildung 17c–e), stellten wir auch einige Abweichungen fest. Beispielsweise wurden Zellen, die ursprünglich in scATAC-seq als „Astrozyten“ gekennzeichnet waren, in scRNA-seq einem Cluster „Exzitatorische Neuronen“ zugeordnet (hervorgehoben durch rosa Kreise/Flüsse in der ergänzenden Abbildung 17). Eine weitere Untersuchung ergab, dass kanonische radiale Gliamarker wie PAX6, HES1 und HOPX47,48 in diesem Cluster aktiv transkribiert wurden, sowohl in der RNA- als auch in der ATAC-Domäne (ergänzende Abbildung 18), wobei Chromatin-Priming9 auch sowohl bei neuronalen als auch bei Gliamarkern nachgewiesen wurde ( Ergänzende Abbildungen 19–21), was darauf hindeutet, dass der Cluster aus multipotenten neuronalen Vorläufern (wahrscheinlich radialen Gliamarkern) besteht und nicht aus erregenden Neuronen oder Astrozyten, wie ursprünglich kommentiert. Die GLUE-basierte Integration löste auch mehrere scATAC-seq-Cluster auf, die mehrdeutig annotiert waren. Beispielsweise wurde der Cluster „Astrozyten/Oligodendrozyten“ in zwei Hälften geteilt und an den Clustern „Astrozyten“ und „Oligodendrozyten“ von scRNA-seq ausgerichtet (hervorgehoben durch blaue bzw. braune Kreise/Flüsse in der ergänzenden Abbildung 17). was auch durch Markerexpression und Zugänglichkeit gestützt wurde (Ergänzende Abbildungen 20 und 21). Diese Ergebnisse zeigen den einzigartigen Wert der Multi-Omics-Integration im Atlas-Maßstab, bei der die Zelltypisierung auf unvoreingenommene, datenorientierte Weise über Modalitäten hinweg durchgeführt werden kann, ohne die Auflösung einzelner Zellen zu verlieren. Insbesondere die Einbeziehung der Stapelkorrektur könnte eine effektive Kuratierung neuer Datensätze mit dem integrierten Atlas als globaler Referenz49 ermöglichen.

Im Vergleich dazu haben wir auch versucht, die Integration mithilfe von Online-iNMF durchzuführen. Dies war die einzige andere Methode, mit der die Daten in vollem Umfang integriert werden konnten. Das Ergebnis war jedoch alles andere als optimal (ergänzende Abbildungen 22a, b und 23). Unterdessen schlug auch ein Versuch fehl, die Daten als aggregierte Metazellen (Methoden) über die beliebte Seurat v3-Methode zu integrieren (ergänzende Abbildung 22c, d).

Durch die Kombination von Omics-spezifischen Autoencodern mit graphbasierter Kopplung und kontradiktorischer Ausrichtung haben wir das GLUE-Framework für die Integration ungepaarter Einzelzellen-Multi-Omics-Daten mit höchster Genauigkeit und Robustheit entwickelt. Durch die explizite Modellierung regulatorischer Interaktionen über Omics-Schichten hinweg unterstützt GLUE auf einzigartige Weise integrative regulatorische Schlussfolgerungen für ungepaarte Multi-Omics-Datensätze. Bemerkenswert ist, dass in einer Bayes'schen Interpretation die GLUE-Regulationsfolgerung als eine nachträgliche Schätzung angesehen werden kann, die bei Eintreffen neuer Daten kontinuierlich verfeinert werden kann.

Die ungepaarte Multi-Omics-Integration hat einige konzeptionelle Ähnlichkeiten mit der Batch-Effekt-Korrektur50, erstere ist jedoch aufgrund der unterschiedlichen, Omics-spezifischen Merkmalsräume wesentlich anspruchsvoller. Auch wenn die Feature-Konvertierung eine unkomplizierte Lösung zu sein scheint, kann der unvermeidliche Informationsverlust19 nachteilig sein. Seurat v3 (Lit. 15) und bindSC33 haben außerdem heuristische Strategien entwickelt, um zusätzlich zu den konvertierten Daten auch Informationen in den ursprünglichen Merkmalsräumen zu verwenden, was ihre verbesserte Leistung gegenüber Methoden erklären könnte, die dies nicht tun16,17. Mittlerweile wurden auch bekannte Zelltypen verwendet, um die Integration durch (halb-)überwachtes Lernen zu steuern51,52, dieser Ansatz bringt jedoch erhebliche Einschränkungen hinsichtlich der Anwendbarkeit mit sich, da eine solche Überwachung normalerweise nicht verfügbar ist und in vielen Fällen dem Zweck von Multi-Omics dient Integration an sich29. Bemerkenswerterweise wurde eine dieser Methoden mit einer ähnlichen Autoencoder-Architektur und kontradiktorischer Ausrichtung52 vorgeschlagen, sie stützte sich jedoch auf übereinstimmende Zelltypen oder Cluster, um die Ausrichtung auszurichten. Tatsächlich weist GLUE eine größere konzeptionelle Ähnlichkeit mit gekoppelten Matrixfaktorisierungsmethoden20,21 auf, weist jedoch eine überlegene Leistung auf, die vor allem von seinem tiefgreifenden generativen modellbasierten Design profitiert.

Wir stellen fest, dass das aktuelle Framework auch für die Integration von Omics-Schichten mit gemeinsamen Merkmalen funktioniert (z. B. die Integration zwischen scRNA-seq und räumlicher Transkriptomik53,54), indem entweder derselbe Scheitelpunkt oder verbundene Ersatzscheitelpunkte für gemeinsame Merkmale im Führungsdiagramm verwendet werden. Darüber hinaus könnte die Kreuzimputation auch durch die Verkettung von Encodern und Decodern verschiedener Omics-Schichten implementiert werden. Angesichts eines kürzlich veröffentlichten Berichts, dass die Datenimputation Artefakte hervorrufen und die Genauigkeit der Genregulationsinferenz55 verschlechtern könnte, bedarf eine solche Funktion möglicherweise weiterer Untersuchungen.

Als verallgemeinerbares Framework verfügt GLUE über einen modularen Aufbau, bei dem die Daten- und Diagramm-Autoencoder unabhängig voneinander konfigurierbar sind.

Die Daten-Autoencoder in GLUE können mit geeigneten generativen Modellen angepasst werden, die Omics-spezifischen Datenverteilungen entsprechen. In der aktuellen Arbeit haben wir für scRNA-seq und scATAC-seq ein negatives Binomial und für snmC-seq (Methoden) eine logarithmische Normalverteilung mit Nullwert verwendet. Dennoch können generative Verteilungen leicht neu konfiguriert werden, um andere Omics-Ebenen wie Proteinhäufigkeit56 und Histonmodifikation57 zu berücksichtigen und neue Fortschritte bei Datenmodellierungstechniken zu übernehmen58.

Die in GLUE verwendeten Führungsdiagramme sind derzeit auf mehrteilige Diagramme beschränkt, die nur Kanten zwischen Merkmalen verschiedener Schichten enthalten. Dennoch können Diagramme als intuitive und flexible Darstellungen regulatorischen Wissens komplexere regulatorische Muster verkörpern, einschließlich Interaktionen innerhalb der Modalität, Nicht-Feature-Scheitelpunkten und Mehrfachbeziehungen. Über die kanonische Graphenfaltung hinaus können auch fortschrittlichere neuronale Graphennetzwerkarchitekturen59,60,61 eingesetzt werden, um umfangreichere Informationen aus dem Regulierungsgraphen zu extrahieren. Insbesondere die jüngsten Fortschritte bei der Hypergraphenmodellierung62,63 könnten die Nutzung von Vorkenntnissen über regulatorische Interaktionen, an denen mehrere Regulatoren gleichzeitig beteiligt sind, erleichtern und regulatorische Schlussfolgerungen für solche Interaktionen ermöglichen.

Jüngste Fortschritte bei experimentellen Multi-Omics-Technologien haben die Verfügbarkeit gepaarter Daten erhöht8,9,10,11,34. Während die meisten der aktuellen simultanen Multi-Omics-Protokolle immer noch unter einer geringeren Datenqualität oder einem geringeren Durchsatz als bei Single-Omics-Methoden64 leiden, können gepaarte Zellen bei der Verankerung verschiedener Omics-Schichten äußerst informativ sein und sollten, wann immer verfügbar, in Verbindung mit ungepaarten Zellen verwendet werden. Es ist einfach, das GLUE-Framework zu erweitern, um solche Paarungsinformationen einzubeziehen, beispielsweise durch Hinzufügen von Verlusttermen, die die Einbettungsabstände zwischen gepaarten Zellen benachteiligen65. Eine solche Erweiterung könnte letztendlich zu einer Lösung für den allgemeinen Fall der Mosaikintegration führen14.

Abgesehen von der Multi-Omics-Integration stellen wir auch fest, dass das GLUE-Framework für die artenübergreifende Integration geeignet sein könnte, insbesondere wenn distale Arten betroffen sind und Eins-zu-Eins-Orthologe begrenzt sind. Insbesondere können wir alle Orthologen in einem GLUE-Leitdiagramm kompilieren und die Integration ohne explizite Orthologkonvertierung durchführen. In diesem Rahmen könnte der GLUE-Ansatz auch konzeptionell mit einer neueren Arbeit namens SAMap66 verbunden werden.

Abschließend stellen wir fest, dass die aus dem aktuellen GLUE-Modell abgeleiteten regulatorischen Interaktionen auf dem gesamten Eingabedatensatz basieren und eine Ansammlung mehrerer räumlich-zeitlicher spezifischer Schaltkreise sein können, insbesondere für Daten, die aus verschiedenen Geweben stammen (z. B. Atlas). In der Zwischenzeit stellen wir fest, dass parallel zum globalen Modell im groben Maßstab (z. B. dem Integrationsmodell für den gesamten Atlas) regulatorische Schlussfolgerungen im feineren Maßstab durchgeführt werden könnten, indem spezielle Modelle an Zellen aus einem einzelnen Gewebe trainiert werden, möglicherweise mit raumzeitspezifischen Vorkenntnisse werden ebenfalls berücksichtigt67. Eine solche Erweiterung der „schrittweisen Verfeinerung“ würde effektiv dabei helfen, raumzeitspezifische Regulierungskreisläufe und Schlüsselregulierungsorgane zu identifizieren.

Wir glauben, dass GLUE als modulares und verallgemeinerbares Framework eine beispiellose Möglichkeit bietet, Genregulationskarten durch groß angelegte Multi-Omics-Integration mit Einzelzellauflösung effektiv abzugrenzen. Das gesamte GLUE-Paket ist zusammen mit Tutorials und Demo-Cases online unter https://github.com/gao-lab/GLUE für die Community verfügbar.

Wir gehen davon aus, dass K verschiedene Omics-Schichten integriert werden müssen, jede mit einem unterschiedlichen Merkmalssatz \({{{\mathcal{V}}}}_k,k = 1,2, \ldots ,K\). Beispielsweise ist in scRNA-seq \({\mathcal{V}}_k\) die Menge der Gene, während in scATAC-seq \({{{\mathcal{V}}}_k\) ist Satz von Chromatinregionen. Die Datenräume verschiedener Omics-Schichten werden als \({{{\mathcal{X}}}}_k \subseteq {\Bbb R}^{\left| {{{{\mathcal{V}}}}_k} bezeichnet. \right|}\) mit unterschiedlichen Dimensionalitäten. Wir verwenden \({{{\mathbf{x}}}}_k^{(n)} \in {{{\mathcal{X}}}}_k,n = 1,2, \ldots ,N_K\) zu bezeichnen Zellen aus der k-ten Omics-Schicht und \({{{\mathbf{x}}_{k}}_{i}}^{(n)},i \in {{{\mathcal{V}}}} _k\), um den beobachteten Wert des Merkmals i der k-ten Schicht in der n-ten Zelle zu bezeichnen. NK ist die Stichprobengröße der k-ten Schicht. Bemerkenswert ist, dass die Zellen aus verschiedenen Omics-Schichten ungepaart sind und unterschiedliche Probengrößen aufweisen können. Um Unübersichtlichkeit zu vermeiden, verzichten wir auf den hochgestellten Index (n), wenn wir uns auf eine beliebige Zelle beziehen.

Wir modellieren die beobachteten Daten aus verschiedenen Omics-Schichten, wie sie durch eine niedrigdimensionale latente Variable (d. h. Zelleneinbettung) \({{{\mathbf{u}}}} \in {\Bbb R}^m\) generiert werden:

wobei p(u) die vorherige Verteilung der latenten Variablen ist, \(p\left( {{{{\mathbf{x}}}}_k|{{{\mathbf{u}}}};\theta _k} \right)\) sind lernbare generative Verteilungen (d. h. Datendecoder) und θk bezeichnet lernbare Parameter in den Decodern. Die latente Zellvariable u wird von verschiedenen Omics-Schichten gemeinsam genutzt. Mit anderen Worten stellt u die allgemeinen Zellzustände dar, die allen Omics-Beobachtungen zugrunde liegen, während die beobachteten Daten jeder Schicht durch eine bestimmte Art der Messung der zugrunde liegenden Zellzustände generiert werden.

Mit der Einführung von Variationsposteriori \(q\left( {{{{\mathbf{u}}}}|{{{\mathbf{x}}}}_k;\phi _k} \right)\) (das heißt , Datenencoder, wobei ϕk lernbare Parameter in den Encodern sind), kann die Modellanpassung effizient durchgeführt werden, indem die folgenden Evidenzuntergrenzen maximiert werden:

Da verschiedene Autoencoder unabhängig voneinander parametrisiert und anhand separater Daten trainiert werden, können die für verschiedene Omics-Schichten erlernten Zelleneinbettungen inkonsistente semantische Bedeutungen haben, sofern sie nicht ordnungsgemäß verknüpft sind.

Zur Verknüpfung der Autoencoder schlagen wir einen Leitgraphen \({{{\mathcal{G}}}} = \left( {{{{\mathcal{V}}}},{{{\mathcal{E}}} vor. }} \right)\), das Vorkenntnisse über die regulatorischen Wechselwirkungen zwischen Features auf verschiedenen Omics-Ebenen einbezieht, wobei \({{{\mathcal{V}}}} = \mathop {\bigcup}\nolimits_{k = 1 }^K {{{{\mathcal{V}}}}_k}\) ist der universelle Merkmalssatz und \({{{\mathcal{E}}}} = \left\{ {\left( {i, j} \right)|i,j \in {{{\mathcal{V}}}}} \right\}\) ist die Menge der Kanten. Jeder Kante sind außerdem Vorzeichen und Gewichte zugeordnet, die als sij bzw. wij bezeichnet werden. Wir benötigen, dass wij ∈ (0,1], was als Interaktionsglaubwürdigkeit interpretiert werden kann, und dass \(s_{ij} \in \left\{ { - 1,1} \right\}\), das das Vorzeichen angibt der regulatorischen Interaktion. Beispielsweise wird normalerweise angenommen, dass ein ATAC-Peak, der sich in der Nähe des Promotors eines Gens befindet, dessen Expression positiv reguliert, sodass sie mit einer positiven Kante (sij = 1) verbunden werden können. In der Zwischenzeit erfolgt die DNA-Methylierung im Genpromotor Normalerweise wird davon ausgegangen, dass sie den Ausdruck unterdrücken, sodass sie mit einer negativen Kante verbunden werden können (sij = 1). Zusätzlich zu den Verbindungen zwischen Features werden für die numerische Stabilität auch Selbstschleifen hinzugefügt, mit \(s_{ii} = 1, w_{ii} = 1,\forall i \in {{{\mathcal{V}}}}\). Der Führungsgraph darf ein Multigraph sein, bei dem mehr als eine Kante zwischen demselben Kantenpaar existieren kann Eckpunkte, die verschiedene Arten früherer regulatorischer Beweise darstellen.

Wir behandeln das Führungsdiagramm als beobachtete Variable und modellieren es so, wie es durch niedrigdimensionale latente Merkmalsvariablen (d. h. Merkmalseinbettungen) \({{{\mathbf{v}}}}_i \in {\Bbb R}^m generiert wird ,i \in {{{\mathcal{V}}}}\). Darüber hinaus modellieren wir nun im Unterschied zum vorherigen Modell xk so, wie es durch die Kombination latenter Merkmalsvariablen \({{{\mathbf{v}}}}_i \in {\Bbb R}^m,i \in {{ {\mathcal{V}}}}_k\) und die zelllatente Variable \({{{\mathbf{u}}}} \in {\Bbb R}^m\). Der Einfachheit halber führen wir die Notation \({{{\mathbf{V}}}} \in {\Bbb R}^{m \times \left| {{{\mathcal{V}}}} \right|} ein \), das alle Feature-Einbettungen in einer einzigen Matrix vereint. Die Modellwahrscheinlichkeit kann daher wie folgt geschrieben werden:

wobei \(p\left( {{{{\mathbf{x}}}}_k|{{{\mathbf{u}}}},{{{\mathbf{V}}}};\theta_k}\ right )\) und \(p\left({{{{\mathcal{G}}}}|{{{\mathbf{V}}}};\theta_{{{\mathcal{G}}}} } \ rechts)\) sind lernbare generative Verteilungen für die Omics-Daten (d. h. Datendecoder) bzw. den Wissensgraphen (d. h. Graphdecoder). θk und \(\theta_{{{\mathcal{G}}}}\) sind lernbare Parameter in den Decodern. p(u) und p(V) sind die vorherigen Verteilungen der latenten Zellvariablen bzw. der latenten Merkmalsvariablen.

obwohl auch Alternativen genutzt werden können68. Der Einfachheit halber führen wir auch die Notation \({{{\mathbf{V}}}}_k \in {\Bbb R}^{m \times \left| {{{{\mathcal{V}}}}_k ein } \right|}\), das nur Feature-Einbettungen in der k-ten Omics-Ebene enthält, und uk, das hervorhebt, dass die Zelleneinbettung von einer Zelle in der k-ten Omics-Ebene stammt.

Die Graphenwahrscheinlichkeit \(p\left( {{{{\mathcal{G}}}}|{{{\mathbf{V}}}};\theta _{{{\mathcal{G}}}}} \ rechts)\) (d. h. Graph-Decoder) ist definiert als:

Dabei ist σ die Sigmoidfunktion und pns eine negative Stichprobenverteilung69. Hier hat die Graphenwahrscheinlichkeit keine trainierbaren Parameter, also \(\theta _{{{\mathcal{G}}}} = \emptyset\). Mit anderen Worten, wir tasten zuerst die Kanten (i, j) mit Wahrscheinlichkeiten ab, die proportional zu den Kantengewichten sind, und dann tasten wir die Eckpunkte j′ ab, die nicht mit i verbunden sind, und behandeln sie so, als ob \(s_{ij\prime } = s_{ij }\). Bei der Maximierung der Diagrammwahrscheinlichkeit werden die inneren Produkte zwischen Merkmalen (pro Kantenzeichen) basierend auf der Bernoulli-Verteilung maximiert oder minimiert. Beispielsweise würde es gefördert werden, dass ATAC-Peaks, die sich in der Nähe des Promotors eines Gens befinden, eine ähnliche Einbettung wie das Gen aufweisen, während die DNA-Methylierung im Genpromotor eine andere Einbettung als das Gen aufweisen würde.

Die Datenwahrscheinlichkeiten \(p\left( {{{{\mathbf{x}}}}_k|{{{\mathbf{u}}}},{{{\mathbf{V}}}};\theta _k } \right)\) (d. h. Datendecoder) in Gleichung (3) basieren auf dem inneren Produkt zwischen der Zelleneinbettung u und den Merkmalseinbettungen Vk. Analog zur Belastungsmatrix in der Hauptkomponentenanalyse (PCA) verleihen die Merkmalseinbettungen Vk dem Zelleneinbettungsraum semantische Bedeutungen. Da Vk durch Interaktionen zwischen Omics-Merkmalen im Führungsdiagramm moduliert werden, werden die semantischen Bedeutungen verknüpft. Während diese Linearität die Decoderkapazität einschränkt, zeigen unsere empirischen Auswertungen, dass sie durch die nichtlinearen Encoder gut kompensiert wird und hochwertige Multi-Omics-Ausrichtungen erzeugt (Abb. 2, erweiterte Daten, Abb. 1–4 und ergänzende Abb. 1–7). Die genaue Formulierung der Datenwahrscheinlichkeit hängt von der Omics-Datenverteilung ab. Für zählbasierte scRNA-seq- und scATAC-seq-Daten haben wir beispielsweise die negative Binomialverteilung (NB) verwendet:

wobei \({{{\mathbf{\mu}}}},{{{\mathbf{\theta}}}} \in {\Bbb R}_ + ^{\left|{{{{\mathcal{V }}}}_k} \right|}\) sind der Mittelwert bzw. die Streuung der negativen Binomialverteilung, \({{{\mathbf{\alpha }}}} \in {\Bbb R}_ + ^{ \left| {{{{\mathcal{V}}}}_k} \right|},{{{\mathbf{\beta}}}}\in {\Bbb R}^{\left| \mathcal{V }}}}_k} \right|}\) sind Skalierungs- und Bias-Faktoren, ⊙ ist das Hadamard-Produkt, Softmax stellt die i-te Dimension der Softmax-Ausgabe dar und \(\mathop {\sum}\nolimits_{j \in {{ {\mathcal{V}}}}_k} {{\mathbf{x}_{k}}_{j}}\) gibt die Gesamtzahl in der Zelle an. Durch die Verwendung von Softmax und die anschließende Multiplikation mit der Gesamtzahl wird sichergestellt, dass die Bibliotheksgröße der rekonstruierten Daten mit dem Original übereinstimmt30. Der Satz lernbarer Parameter ist \(\theta_k = \left\{{{{{\mathbf{\theta}}}},{{{\mathbf{\alpha}}}},{{{\mathbf{\\ Beta }}}}}\right\}\). Analog können auch viele andere Verteilungen unterstützt werden, solange wir die Mittelwerte der Verteilungen durch innere Produkte von Merkmalszellen parametrisieren können.

Für eine effiziente Inferenz und Optimierung führen wir das folgende faktorisierte Variations-Posteriori ein:

Der Graph Variational Posterior \(q\left( {{{{\mathbf{V}}}}|{{{\mathcal{G}}}};\phi _{{{\mathcal{G}}}}} \right)\) (d. h. Graph-Encoder) wird als Diagonal-Kovarianz-Normalverteilung modelliert, parametrisiert durch ein Graph-Faltungsnetzwerk70:

wobei \(\phi _{{{\mathcal{G}}}}\) die lernbaren Parameter im Graph Convolutional Network (GCN)-Encoder darstellt.

Die Variationsdaten posterioren \(q\left( {{{{\mathbf{u}}}}|{{{\mathbf{x}}}}_k;\phi _k} \right)\) (d. h. Daten Encoder) werden als Diagonal-Kovarianz-Normalverteilungen modelliert, die durch neuronale Netze mit mehrschichtigem Perzeptron (MLP) parametrisiert werden:

Dabei ist ϕk der Satz lernbarer Parameter im mehrschichtigen Perzeptron-Encoder der k-ten Omics-Schicht.

Die Modellanpassung kann dann durchgeführt werden, indem die folgende Beweisuntergrenze maximiert wird:

was weiter in die folgende Form umgeordnet werden kann:

wo wir haben

Im Folgenden bezeichnen wir der Einfachheit halber die Vereinigung aller Encoderparameter als \(\phi = \left( {\mathop {\bigcup}\nolimits_{k = 1}^K {\phi _k} } \right) \cup \ phi _{{{\mathcal{G}}}}\) und die Vereinigung aller Decoderparameter als \(\theta = \left( {\mathop {\bigcup}\nolimits_{k = 1}^K {\theta _k} } \right) \cup \theta _{{{\mathcal{G}}}}\).

Um die ordnungsgemäße Ausrichtung verschiedener Omics-Schichten sicherzustellen, verwenden wir die kontradiktorische Ausrichtungsstrategie31,71. Es wird ein Diskriminator D mit einer K-dimensionalen Softmax-Ausgabe eingeführt, der die Omics-Schichten von Zellen basierend auf ihren Einbettungen u vorhersagt. Der Diskriminator D wird trainiert, indem die Kreuzentropie der Mehrklassenklassifizierung minimiert wird:

wobei Dk die k-te Dimension der Diskriminatorausgabe darstellt und ψ der Satz lernbarer Parameter im Diskriminator ist. Die Datenkodierer können dann in die entgegengesetzte Richtung trainiert werden, um den Diskriminator auszutricksen, was letztendlich zur Ausrichtung von Zelleneinbettungen aus verschiedenen Omics-Schichten führt72.

Das übergeordnete Ausbildungsziel von GLUE besteht somit aus:

Die beiden Hyperparameter λD und \(\lambda _{{{\mathcal{G}}}}\) steuern die Beiträge der kontradiktorischen Ausrichtung bzw. der graphbasierten Merkmalseinbettung. Wir verwenden den stochastischen Gradientenabstieg, um das GLUE-Modell zu trainieren. Jede stochastische Gradientenabstiegsiteration ist in zwei Schritte unterteilt. Im ersten Schritt wird der Diskriminator gemäß der Zielgleichung (19) aktualisiert. Im zweiten Schritt werden die Daten- und Diagramm-Autoencoder gemäß Gleichung (20) aktualisiert. Der RMSprop-Optimierer ohne Momentum-Term wird verwendet, um die Stabilität des gegnerischen Trainings sicherzustellen.

Wie in früheren Arbeiten31 gezeigt, läuft die kanonische kontradiktorische Ausrichtung auf die Minimierung einer verallgemeinerten Form der Jensen-Shannon-Divergenz zwischen den Zelleinbettungsverteilungen verschiedener Omics-Schichten hinaus:

wobei \(q_k\left( {{{\mathbf{u}}}} \right) = {\Bbb E}_{{{\mathbf{x}}}}_k \sim p_{{{{\mathrm {data}}}}}\left( {{{{\mathbf{x}}}}_k} \right)}q\left( {{{{\mathbf{u}}}}|{{{\mathbf {x}}}}_k;\phi _k} \right)\) repräsentiert die marginale Zelleneinbettungsverteilung der k-ten Schicht. Ohne andere Verlustterme konvergiert Gleichung (21) bei perfekter Ausrichtung, das heißt, wenn \(q_i\left( {{{\mathbf{u}}}} \right) = q_j\left( {{{\mathbf{u }}}} \right),\forall i \ne j\). Dies kann problematisch sein, wenn sich die Zelltypzusammensetzungen in verschiedenen Schichten dramatisch unterscheiden, beispielsweise bei der Zellatlas-Integration. Um dieses Problem anzugehen, haben wir dem Diskriminatorverlust in Gleichung (18) zellspezifische Gewichte w(n) hinzugefügt:

wobei der Normalisierer \(W_k = \mathop {\sum}\nolimits_{n = 1}^{N_k} {w^{\left( n \right)}}\). Die kontradiktorische Ausrichtung läuft immer noch auf die Minimierung von Gleichung (21) hinaus, jedoch mit gewichteten Randzelleneinbettungsverteilungen \(q_k\left( {{{\mathbf{u}}}} \right) = \frac{1}{{W_k}}\ mathop {\sum}\limits_{n = 1}^{N_k} {w^{\left( n \right)}} q\left( {{{{\mathbf{u}}}}|{{{\ mathbf{x}}}}_k^{\left( n \right)};\phi _k} \right)\). Durch Zuweisen geeigneter Gewichte zum Ausgleich der Zellverteilungen über verschiedene Schichten hinweg wird das Optimum von \(q_i\left( {{{\mathbf{u}}}} \right) = q_j\left( {{{\mathbf{u}} }} \right),\forall i \ne j\) könnte viel näher an der gewünschten Ausrichtung liegen.

Um die Ausgleichsgewichte unbeaufsichtigt zu erhalten, haben wir das folgende zweistufige Trainingsverfahren entwickelt. Zuerst trainieren wir das GLUE-Modell mit konstantem Gewicht \(w^{\left( n \right)} = 1\), währenddessen Rauschen \({\boldsymbol{\epsilon}} \sim {{{\mathcal{N }}}}\left( {{\boldsymbol{\epsilon}} ;\mathbf{0},{\mathbf{\Sigma}}} \right)\) wurde zu den Zelleneinbettungen hinzugefügt, bevor es an den Diskriminator übergeben wurde. Wir setzen ∑ auf das 1,5-fache der empirischen Varianz der Zelleinbettungen in jedem Minibatch, was dazu beiträgt, eine grobe Ausrichtung zu erzeugen, die gegen Ungleichgewichte in der Zusammensetzung immun ist. Anschließend gruppieren wir die grob ausgerichteten Zelleinbettungen pro Omics-Schicht mithilfe von Leiden-Clustering. Das Ausgleichsgewicht wi für Zellen im Cluster i wird wie folgt berechnet:

Dabei ist ui die durchschnittliche Zelleneinbettung von Cluster i, ki bezeichnet die Omics-Schicht von Cluster i und ni ist die Anzahl der Zellen im Cluster i. Mit anderen Worten: Wir summieren die Kosinusähnlichkeiten (auf die Potenz 4 erhöht, um den Kontrast zu erhöhen) zwischen Cluster i und allen passenden Clustern in anderen Schichten mit einer Kosinusähnlichkeit > 0,5 und normalisieren sie dann anhand der Clustergröße, wodurch der Beitrag effektiv ausgeglichen wird passender Cluster unabhängig von ihrer Größe. Im zweiten Schritt optimieren wir das GLUE-Modell mit den geschätzten Ausgleichsgewichten, wobei das additive Rauschen \({\boldsymbol{\epsilon}} \sim {{{\mathcal{N}}}}\left( { {\boldsymbol{\epsilon}} ;\mathbf{0},\tau \cdot {\mathbf{\Sigma}}} \right)\) glüht allmählich auf 0 aus (wobei τ bei 1 beginnt und linear pro Epoche bis 0 abnimmt ). Die Anzahl der Annealing-Epochen wurde automatisch basierend auf der Datengröße und der Lernrate festgelegt, um einem Lernfortschritt zu entsprechen, der 4.000 Iterationen bei einer Lernrate von 0,002 entspricht.

Alle Benchmarks und Fallstudien der Studie wurden mit dem oben beschriebenen zweistufigen Trainingsverfahren durchgeführt, unabhängig davon, ob der verwendete Datensatz ausgewogen ist oder nicht.

Um den Batch-Effekt innerhalb der Omics-Schichten zu bewältigen, integrieren wir Batch als Kovariate der Datendecoder. Unter der Annahme, dass \(b \in \left\{ {1,2, \ldots ,B} \right\}\) der Stapelindex ist, wobei B die Gesamtzahl der Stapel ist, wird die Decoderwahrscheinlichkeit auf \(p \left( {{{{\mathbf{x}}}}_k|{{{\mathbf{u}}}},{{{\mathbf{V}}}},b;\theta _k} \right) \). Dies wird insbesondere dadurch erreicht, dass lernbare Parameter im Datendecoder so umgewandelt werden, dass sie stapelabhängig sind. Beispielsweise verwendet das Netzwerk im Fall eines negativen Binomialdecoders jetzt stapelspezifische α-, β- und θ-Parameter:

wobei \({{{\mathbf{\alpha}}}}\in {\Bbb R}_ + ^{B\times\left|{{{{\mathcal{V}}}}_k}\right|} ,{{{\mathbf{\beta}}}} \in {\Bbb R}^{B\times\left|{{{{\mathcal{V}}}}_k}\right|},{{{ \mathbf{\theta}}}}\in {\BbbR}_ + ^{B\times\left|{{{{\mathcal{V}}}}_k}\right|}\) und αb, βb , θb sind die b-ten Zeilen von α, β, θ. Auch andere probabilistische Decoder können auf ähnliche Weise erweitert werden.

Wir haben eine lineare Dimensionsreduktion mithilfe kanonischer Methoden wie PCA (für scRNA-seq) oder LSI (latent semantic indexing, für scATAC-seq) als erste Transformationsschichten der Datenencoder angewendet (beachten Sie, dass die Decoder noch in die ursprüngliche Funktion eingepasst waren). Leerzeichen). Dadurch wurde die Modellgröße effektiv reduziert und eine modulare Eingabe ermöglicht, sodass stattdessen auch erweiterte Dimensionsreduktions- oder Batch-Effekt-Korrekturmethoden als Vorverarbeitungsschritte für die GLUE-Integration verwendet werden können.

Während des Modelltrainings wurden 10 % der Zellen als Validierungssatz verwendet. In der letzten Trainingsphase würde die Lernrate um den Faktor 10 reduziert, wenn sich der Validierungsverlust für aufeinanderfolgende Epochen nicht verbessern würde. Das Training würde abgebrochen, wenn sich der Validierungsverlust in aufeinanderfolgenden Epochen immer noch nicht verbesserte. Die Geduld für die Reduzierung der Lernrate, den Trainingsabbruch und die maximale Anzahl von Trainingsepochen wurden automatisch basierend auf der Datengröße und der Lernrate festgelegt, um einem Lernfortschritt zu entsprechen, der 1.000, 2.000 bzw. 16.000 Iterationen bei einer Lernrate von 0,002 entspricht.

Für alle Benchmarks und Fallstudien mit GLUE haben wir die Standard-Hyperparameter verwendet, sofern nicht ausdrücklich angegeben. Der Satz der Standard-Hyperparameter ist in Extended Data Abb. 3 dargestellt.

Der Integrationskonsistenzwert ist ein Maß für die Konsistenz zwischen den integrierten Multi-Omics-Daten und dem Orientierungsdiagramm. Zuerst gruppieren wir mithilfe von k-means gemeinsam Zellen aus allen Omics-Schichten im ausgerichteten Zelleneinbettungsraum. Für jede Omics-Schicht werden die Zellen in jedem Cluster zu einer Metazelle zusammengefasst. Die Metazellen werden als gepaarte Stichproben erstellt, auf deren Grundlage die Merkmalskorrelation berechnet werden kann. Mithilfe der gepaarten Metazellen berechnen wir dann die Spearman-Korrelation für jede Kante im Orientierungsdiagramm. Der Integrationskonsistenzwert ist definiert als die durchschnittliche Korrelation über alle Diagrammkanten, negiert pro Kantenzeichen und gewichtet mit der Kantengewichtung.

UnionCom23, Pamona24 und GLUE wurden mit den Python-Paketen „unioncom“ (v.0.3.0), „Pamona“ (v.0.1.0) bzw. „scglue“ (v.0.2.0) ausgeführt. MMD-MA25 wurde mit dem Python-Skript ausgeführt, das unter https://bitbucket.org/noblelab/2020_mmdma_pytorch bereitgestellt wird. Online iNMF16, LIGER17, Harmony18, bindSC33 und Seurat v3 (Ref. 15) wurden mit den R-Paketen „rliger“ (v.1.0.0), „rliger“ (v.1.0.0), „harmony“ (v .0.1.0), 'bindSC' (v.1.0.0) bzw. 'Seurat' (v.4.0.2). Für jede Methode haben wir die empfohlenen Standard-Hyperparametereinstellungen und Datenvorverarbeitungsschritte verwendet. Für die scRNA-seq-Daten wurden 2.000 hochvariable Gene mithilfe der Seurat-VST-Methode ausgewählt. Wir haben zwei separate Schemata verwendet, um das Führungsdiagramm zu erstellen. Im Standardschema haben wir ATAC-Peaks über positive Kanten mit RNA-Genen verbunden, wenn sie entweder im Genkörper oder in den proximalen Promotorregionen (definiert als 2 kb stromaufwärts vom TSS) überlappten. In einem alternativen Schema mit größeren Genomfenstern haben wir ATAC-Peaks über positive Kanten mit RNA-Genen verbunden, wenn die Peaks innerhalb von 150 kb von den proximalen Genpromotoren liegen; Die Kanten wurden mit einer Potenzgesetzfunktion \(w = \left( {d + 1} \right)^{ - 0,75}\) gewichtet (d ist der genomische Abstand in kb), die zur Modellierung der Wahrscheinlichkeit vorgeschlagen wurde des Chromatinkontakts42,43. Für die Methoden, die eine Merkmalsumwandlung erfordern (Online-iNMF, LIGER, bindSC und Seurat v.3), haben wir die scATAC-seq-Daten in Aktivitätswerte auf Genebene umgewandelt, indem wir die Zählungen in den ATAC-Peaks summiert haben, die mit bestimmten Genen im Orientierungsdiagramm verbunden sind . Insbesondere empfehlen Online-iNMF und LIGER auch eine alternative Methode zur Konvertierung von ATAC-Merkmalen, nämlich die direkte Zählung von ATAC-Fragmenten, die in Genkörper- und Promotorregionen fallen, ohne auf ATAC-Peaks zurückzugreifen (https://htmlpreview.github.io/?https:/ /github.com/welch-lab/liger/blob/master/vignettes/Integrating_scRNA_and_scATAC_data.html), die wir als FiG (Fragmente in Genen) abkürzen. Wir haben die FiG-Feature-Konvertierungsmethode auch mit Online-iNMF und LIGER getestet, sofern anwendbar.

Zur Bewertung der Zelltypauflösung wurde die mittlere durchschnittliche Präzision (MAP) verwendet. Angenommen, der Zelltyp der i-ten Zelle ist y(i) und die Zelltypen ihrer K geordneten nächsten Nachbarn sind \(y_1^{\left( i \right)},y_2^{\left( i \right) }, \ldots, y_K^{\left( i \right)}\), ist die mittlere durchschnittliche Präzision dann wie folgt definiert:

wobei \(1_{y^{\left( i \right)} = y_k^{\left( i \right)}}\) eine Indikatorfunktion ist, die gleich 1 ist, wenn \(y^{\left( i \right )} = y_k^{\left( i \right)}\) und sonst 0. Für jede Zelle berechnet die durchschnittliche Präzision (AP) die durchschnittliche Zelltypgenauigkeit bis zu jedem Nachbarn mit übereinstimmendem Zelltyp, und die durchschnittliche durchschnittliche Präzision ist die durchschnittliche durchschnittliche Präzision über alle Zellen hinweg. Wir setzen K auf 1 % der Gesamtzahl der Zellen in jedem Datensatz. Die mittlere durchschnittliche Präzision liegt im Bereich von 0 bis 1, und höhere Werte weisen auf eine bessere Zelltypauflösung hin.

Zelltyp-ASW (durchschnittliche Silhouettenbreite) wurde auch zur Bewertung der Zelltypauflösung verwendet, die in einer aktuellen Benchmark-Studie73 definiert wurde:

wobei \(s_{{{{\mathrm{cell}}}}\,{{{\mathrm{type}}}}}^{\left( i \right)}\) die Breite der Zelltyp-Silhouette für die ist i-te Zelle und N ist die Gesamtzahl der Zellen. Der Zelltyp-ASW hat einen Bereich von 0 bis 1, und höhere Werte weisen auf eine bessere Zelltypauflösung hin.

Die Nachbarschaftskonsistenz (NC) wurde verwendet, um die Erhaltung der Single-Omics-Datenvariation nach der Multi-Omics-Integration zu bewerten, und wurde im Anschluss an eine frühere Studie74 definiert:

Dabei ist NNS(i) die Menge der k-nächsten Nachbarn für Zelle i in den Single-Omics-Daten, NNI(i) die Menge der K-nächsten Nachbarn für die i-te Zelle im integrierten Raum und N die Gesamtzahl von Zellen. Wir setzen K auf 1 % der Gesamtzahl der Zellen in jedem Datensatz. Die Nachbarkonsistenz liegt im Bereich von 0 bis 1, und höhere Werte weisen auf eine bessere Beibehaltung der Datenvariation hin.

Die mittlere durchschnittliche Präzision, der Zelltyp-ASW und die Nachbarkonsistenz messen alle die biologische Erhaltung der Datenintegration. Gemäß dem Verfahren der aktuellen Benchmark-Studie73 führen wir zunächst eine Min-Max-Skalierung für jede der Metriken durch und berechnen dann den Durchschnitt aller drei, um sie in einer einzigen Metrik zusammenzufassen, die den biologischen Schutz darstellt:

Der Seurat-Alignment-Score (SAS) wurde verwendet, um das Ausmaß der Vermischung zwischen Omics-Schichten zu bewerten, und wurde wie im Originalpapier75 beschrieben berechnet:

Dabei ist \(\bar x\) die durchschnittliche Anzahl von Zellen aus derselben Omics-Schicht unter den K-nächsten Nachbarn (verschiedene Schichten wurden zunächst auf die gleiche Anzahl von Zellen wie die kleinste Schicht unterabgetastet) und N ist die Anzahl der Omics Lagen. Wir setzen K auf 1 % der unterabgetasteten Zellenzahl. Der Seurat-Alignment-Score liegt im Bereich von 0 bis 1, wobei höhere Werte auf eine bessere Durchmischung hinweisen.

Omics-Schicht-ASW wurde auch verwendet, um das Ausmaß der Vermischung zwischen Omics-Schichten zu bewerten und wurde wie in einer aktuellen Benchmark-Studie73 definiert:

wobei \(s_{{{{\mathrm{omics}}}}\,{{{\mathrm{layer}}}}}^{\left( i \right)}\) die Silhouettenbreite der Omics-Ebene für die ist i-te Zelle, Nj ist die Anzahl der Zellen im Zelltyp j und M ist die Gesamtzahl der Zelltypen. Der Omics-Layer ASW hat einen Bereich von 0 bis 1, und höhere Werte bedeuten eine bessere Durchmischung.

Graph Connectivity (GC) wurde auch verwendet, um das Ausmaß der Vermischung zwischen Omics-Schichten zu bewerten, und wurde wie in einer aktuellen Benchmark-Studie73 definiert:

Dabei ist LCCj die Anzahl der Zellen in der größten verbundenen Komponente des Diagramms der k-nächsten Nachbarn der Zelle (K = 15) für den Zelltyp j, Nj ist die Anzahl der Zellen im Zelltyp j und M ist die Gesamtzahl der Zelltypen. Die Diagrammkonnektivität liegt im Bereich von 0 bis 1, und höhere Werte weisen auf eine bessere Mischung hin.

Der Seurat-Alignment-Score, der Omics-Layer-ASW und die Graphkonnektivität messen alle die Omics-Mischung der Datenintegration. Gemäß dem Verfahren der aktuellen Benchmark-Studie73 führen wir zunächst eine Min-Max-Skalierung für jede der Metriken durch und berechnen dann den Durchschnitt aller drei, um sie in einer einzigen Metrik zusammenzufassen, die die Omics-Mischung darstellt:

Um einen Gesamtintegrationsscore zu berechnen, verwenden wir eine 6:4-Gewichtung zwischen biologischer Erhaltung und Omics-Mischung, basierend auf der aktuellen Benchmark-Studie73:

FOSCTTM25 wurde verwendet, um die Ausrichtungsgenauigkeit auf Einzelzellenebene zu bewerten. Es wurde anhand von zwei Datensätzen mit bekannten Zell-Zell-Paarungen berechnet. Angenommen, jeder Datensatz enthält N Zellen und die Zellen sind in derselben Reihenfolge sortiert, d. h. die i-te Zelle im ersten Datensatz wird mit der i-ten Zelle im zweiten Datensatz gepaart. Bezeichnen Sie x und y als die Zelleneinbettungen des ersten bzw. zweiten Datensatzes. Das FOSCTTM ist dann definiert als:

Dabei sind \(n_1^{\left( i \right)}\) und \(n_2^{\left( i \right)}\) die Anzahl der Zellen im ersten bzw. zweiten Datensatz, die näher beieinander liegen der i-ten Zelle als ihre wahren Übereinstimmungen im gegenüberliegenden Datensatz. d ist der euklidische Abstand. FOSCTTM hat einen Bereich von 0 bis 1 und niedrigere Werte bedeuten eine höhere Genauigkeit.

Mithilfe der Merkmalskonsistenz wurde die Konsistenz von Merkmalseinbettungen aus verschiedenen Modellen bewertet. Da die rohen Einbettungsräume modellübergreifend nicht direkt vergleichbar sind, haben wir die Konsistenz als die modalübergreifende Erhaltung von Kosinusähnlichkeiten zwischen Merkmalen im selben Modell definiert. Konkret führen wir zunächst eine zufällige Unterabtastung von 2.000 Merkmalen durch und berechnen die paarweise Kosinusähnlichkeit zwischen ihnen mithilfe von Merkmalseinbettungen aus den beiden verglichenen Modellen. Der Merkmalskonsistenzwert wird dann als Pearson-Korrelation zwischen den Kosinusähnlichkeiten zweier Modelle definiert, gemittelt über vier zufällige Teilstichproben. Die Merkmalskonsistenz liegt im Bereich von –1 bis 1, und höhere Werte weisen auf eine höhere Konsistenz hin.

Für den Basis-Benchmark wurde jede Methode achtmal mit unterschiedlichen Zufallsstartwerten ausgeführt, mit Ausnahme von Harmony und bindSC, die über deterministische Implementierungen verfügen und nur einmal ausgeführt wurden. Für den Orientierungskorruptions-Benchmark haben wir die angegebenen Anteile vorhandener Peak-Gen-Interaktionen entfernt und die gleiche Anzahl nicht vorhandener Interaktionen hinzugefügt, sodass die Gesamtzahl der Interaktionen unverändert blieb. Bemerkenswert ist, dass die Feature-Konvertierung auch anhand der beschädigten Führungsdiagramme wiederholt wurde. Der Korruptionsvorgang wurde acht Mal mit verschiedenen Zufallsstartwerten wiederholt. Für den Unterabtast-Benchmark wurden die scRNA-seq- und scATAC-seq-Zellen paarweise unterabgetastet (damit FOSCTTM weiterhin berechnet werden konnte). Der Unterabtastungsprozess wurde außerdem acht Mal mit verschiedenen Zufallsstartwerten wiederholt.

Für den systematischen Skalierbarkeitstest (ergänzende Abbildung 17a) wurden alle Methoden auf einer Linux-Workstation mit 40 CPU-Kernen (zwei Intel Xeon Silver 4210-Chips), 250 GB RAM und NVIDIA GeForce RTX 2080 Ti-Grafikprozessoren ausgeführt. Beim Training von GLUE wurde nur eine einzige Grafikprozessorkarte verwendet.

Die scRNA-seq- und scATAC-seq-Daten wurden wie zuvor beschrieben behandelt (Abschnitt Systematische Benchmarks). Aufgrund der geringen Abdeckung pro Einzel-C-Stelle wurden die snmC-seq-Daten in durchschnittliche Methylierungsgrade in Genkörpern umgewandelt. Die mCH- und mCG-Spiegel wurden getrennt quantifiziert, was zu zwei Merkmalen pro Gen führte. Die Genmethylierungsgrade wurden durch den globalen Methylierungsgrad pro Zelle normalisiert. Eine anfängliche Dimensionsreduktion wurde mithilfe von PCA durchgeführt (Abschnitt Implementierungsdetails). Für das Triple-Omics-Leitdiagramm wurden die mCH- und mCG-Spiegel mit negativen Kanten mit den entsprechenden Genen verbunden.

Die normalisierten Methylierungsniveaus waren positiv, wobei die Ausfälle den Genen entsprachen, die nicht in einzelnen Zellen abgedeckt waren. Daher haben wir für den Datendecoder die Zero-Inflated-Log-Normal-Verteilung (ZILN) verwendet:

wobei \({{{\mathbf{\mu}}}} \in {\Bbb R}^{\left|{{{{\mathcal{V}}}}_k}\right|},{{{\ mathbf{\sigma}}}} \in {\Bbb R}_ + ^{\left|{{{{\mathcal{V}}}}_k}\right|},{{{\mathbf{\delta} }}} \in \left( {0,1} \right)^{\left| Skalenstandardabweichung und Nullinflationsparameter der nullinflationierten logarithmischen Normalverteilung bzw. und \({{{\mathbf{ \alpha }}}} \in {\Bbb R}_ + ^{\left| {{{\mathcal{V}}}}_k} \right|},{{{\mathbf{\beta}}}} \in {\Bbb R}^{\left| }}}}_k} \right|}\) sind Skalierungs- und Bias-Faktoren.

Um die Zelltypbezeichnungen zu vereinheitlichen, haben wir eine auf dem nächsten Nachbarn basierende Etikettenübertragung mit dem snmC-seq-Datensatz als Referenz durchgeführt. Die fünf nächsten Nachbarn in snmC-seq wurden für jede scRNA-seq- und scATAC-seq-Zelle im ausgerichteten Einbettungsraum identifiziert, und die übertragene Markierung wurde mittels Mehrheitsabstimmung bestimmt. Um zu überprüfen, ob die Ausrichtung korrekt war, haben wir auf signifikante Überlappung der Zelltyp-Markergene getestet. Die Merkmale aller Omics-Schichten wurden zunächst in Gene umgewandelt. Anschließend wurden für jede Omics-Schicht die Zelltypmarker mithilfe des Eins-gegen-Rest-Wilcoxon-Rangsummentests mit den folgenden Kriterien identifiziert: FDR < 0,05 und logarithmische Faltungsänderung > 0 für scRNA-seq/scATAC-seq; FDR < 0,05 und Log-Fold-Änderung von <0 für snmC-seq. Die Signifikanz der Markerüberlappung wurde durch den dreistufigen exakten Fisher-Test40 bestimmt.

Um nach der Integration eine Korrelations- und Regressionsanalyse durchzuführen, haben wir alle Zellen aus den drei Omics-Schichten mithilfe feinskaliger k-Mittelwerte (k = 200) geclustert. Dann wurden für jede Omics-Schicht die Zellen in jedem Cluster zu einer Metazelle aggregiert, indem ihre Expressions-/Zugänglichkeitszahlen summiert oder ihre DNA-Methylierungsgrade gemittelt wurden. Die Metazellen wurden als gepaarte Stichproben erstellt, auf deren Grundlage Merkmalskorrelations- und Regressionsanalysen durchgeführt werden konnten.

Um dieselben Datensätze mithilfe von Online-iNMF zu integrieren, haben wir die snmC-seq-Daten invertiert, indem wir die Datenmatrix vom größten Eintrag subtrahiert haben, wobei wir dem im Originalpapier16 beschriebenen Verfahren gefolgt sind.

Um die Konsistenz der Zelltypen sicherzustellen, haben wir zunächst die überlappenden Zelltypen zwischen den 10X Multiome- und pcHi-C-Daten ausgewählt. Zu den übrigen Zelltypen gehörten T-Zellen, B-Zellen und Monozyten. Die eQTL-Daten wurden unverändert verwendet, da sie nicht zelltypspezifisch waren. Für scRNA-seq haben wir 6.000 hochvariable Gene ausgewählt. Um entfernte cis-regulatorische Wechselwirkungen zu erfassen, wurde das Basisleitdiagramm für Peak-Gen-Paare innerhalb einer Entfernung von 150 kb erstellt, wobei das alternative Schema verwendet wurde, wie im Abschnitt „Systematische Benchmarks“ beschrieben.

Um die regulatorischen Beweise für pcHi-C und eQTL einzubeziehen, haben wir alle Beweise zwischen den ATAC-Peaks und den RNA-Genen verankert. Ein Peak-Gen-Paar wurde als von pcHi-C unterstützt angesehen, wenn (1) der Genpromotor innerhalb von 1 kb von einem Köderfragment lag, (2) der Peak innerhalb von 1 kb von einem Fragment am anderen Ende lag und (3) ein signifikanter Kontakt bestand zwischen dem Köder und dem Fragment am anderen Ende in pcHi-C identifiziert. Die pcHi-C-unterstützten Peak-Gen-Wechselwirkungen wurden durch Multiplikation der Potenzgesetzgewichte von Promotor zu Köder und Peak zu anderem Ende (oben) gewichtet. Wenn ein Peak-Gen-Paar von mehreren pcHi-C-Kontakten unterstützt wurde, wurden die Gewichte summiert und auf ein Maximum von 1 gekürzt. Ein Peak-Gen-Paar wurde als von eQTL unterstützt angesehen, wenn (1) der Peak einen eQTL-Locus überlappte und (2 ) war der Locus mit der Expression des Gens verbunden. Den eQTL-unterstützten Peak-Gen-Wechselwirkungen wurde eine Gewichtung von 1 zugewiesen. Der zusammengesetzte Orientierungsgraph wurde erstellt, indem die pcHi-C- und eQTL-unterstützten Wechselwirkungen zu den vorherigen abstandsbasierten Wechselwirkungen hinzugefügt wurden, was mehrere Kanten ermöglichte.

Für regulatorische Schlussfolgerungen wurden nur Peak-Gen-Paare mit einem Abstand von 150 kb berücksichtigt. Der GLUE-Trainingsprozess wurde viermal mit verschiedenen Zufallsstartwerten wiederholt. Für jede Wiederholung wurde der Peak-Gen-Regulationsscore als Kosinusähnlichkeit zwischen den Merkmalseinbettungen berechnet. Die endgültige regulatorische Schlussfolgerung wurde durch Mittelung der regulatorischen Bewertungen über die vier Wiederholungen erhalten. Um die Signifikanz der regulatorischen Scores zu bewerten, verglichen wir die Scores mit einer NULL-Verteilung, die durch zufällig gemischte Merkmalseinbettungen erhalten wurde, und berechneten empirische P-Werte als Wahrscheinlichkeit, extremere Scores in der NULL-Verteilung zu erhalten. Schließlich berechnen wir den FDR der regulatorischen Inferenz basierend auf den P-Werten unter Verwendung des Benjamini-Hochberg-Verfahrens. Für die cis-regulatorische Inferenz mithilfe von LASSO verwendeten wir den Hyperparameter α = 0,01, der für die Fläche unter den Betriebskennlinien des Empfängers der pcHi-C- und eQTL-Vorhersage optimiert wurde.

Wir haben den SCENIC-Workflow76 verwendet, um aus den abgeleiteten Peak-Gen-Regulationswechselwirkungen ein TF-Gen-Regulationsnetzwerk aufzubauen. Kurz gesagt baut der SCENIC-Workflow zunächst ein Gen-Koexpressionsnetzwerk auf der Grundlage der scRNA-seq-Daten auf und verwendet dann externe cis-regulatorische Beweise, um falsch positive Ergebnisse herauszufiltern. SCENIC akzeptiert cis-regulatorische Beweise in Form von Gen-Rankings pro TF, das heißt, Gene mit höheren TF-Anreicherungsniveaus in ihren regulatorischen Regionen werden höher eingestuft. Um die Rangfolge auf der Grundlage unserer abgeleiteten Peak-Gen-Wechselwirkungen zu erstellen, haben wir zunächst die ENCODE TF-ChIP-Peaks (Chromatin Immunoprecipitation)77 mit den ATAC-Peaks überlappt und die Anzahl der ChIP-Peaks für jeden TF in jedem ATAC-Peak gezählt. Da verschiedene Gene eine unterschiedliche Anzahl verbundener ATAC-Peaks aufweisen können und die ATAC-Peaks unterschiedlich lang sind (längere Peaks können zufällig mehr ChIP-Peaks enthalten), haben wir einen stichprobenbasierten Ansatz zur Bewertung der TF-Anreicherung entwickelt. Konkret haben wir für jedes Gen zufällig 1.000 Sätze von ATAC-Peaks ausgewählt, die sowohl in der Anzahl als auch in der Längenverteilung mit den verbundenen ATAC-Peaks übereinstimmten. Wir haben die Anzahl der TF-ChIP-Peaks in diesen zufälligen ATAC-Peaks als Nullverteilungen gezählt. Für jeden TF in jedem Gen könnte dann ein empirischer P-Wert berechnet werden, indem die beobachtete Anzahl von ChIP-Peaks mit der Nullverteilung verglichen wird. Schließlich ordneten wir die Gene anhand der empirischen P-Werte für jeden TF und erstellten so die von SCENIC verwendeten cis-regulatorischen Rankings. Da sich die Peak-Gen-basierte Inferenz hauptsächlich auf entfernte regulatorische Regionen konzentriert, könnten proximale Promotoren übersehen werden. Aus diesem Grund haben wir SCENIC sowohl die oben genannten, auf Peaks basierenden als auch auf proximalen Promotoren basierenden cis-regulatorischen Rankings zur Verfügung gestellt.

Die scRNA-seq- und scATAC-seq-Atlanten weisen stark unausgeglichene Zelltypzusammensetzungen auf, die hauptsächlich durch Unterschiede in der Organprobengröße verursacht werden (ergänzende Abbildung 17b). Obwohl Zelltypen bei realen Analysen unbekannt sind, sind in der Regel Organquellen verfügbar und können verwendet werden, um den Integrationsprozess auszugleichen. Um eine organbalancierte Datenvorverarbeitung durchzuführen, haben wir zunächst jede Omics-Schicht unterabgetastet, um sie an die Orgelzusammensetzungen anzupassen. Für die scRNA-seq-Daten wurden 4.000 hochvariable Gene mithilfe der organbalancierten Teilstichprobe ausgewählt. Dann haben wir für die anfängliche Dimensionsreduktion PCA (scRNA-seq) und LSI (scATAC-seq) an die organbalancierte Teilstichprobe angepasst und die Projektion auf die vollständigen Daten angewendet. Die PCA/LSI-Koordinaten wurden als erste Transformationsschicht in den GLUE-Datenkodierern (Abschnitt Implementierungsdetails) sowie für die Metazellenaggregation (unten) verwendet. Das Orientierungsdiagramm wurde wie zuvor beschrieben erstellt (Abschnitt Systematische Benchmarks).

Die beiden Atlanten bestehen aus einer großen Anzahl von Zellen, weisen jedoch eine geringe Abdeckung pro Zelle auf. Um Abbrüche zu verringern und gleichzeitig die Trainingsgeschwindigkeit zu erhöhen, verwendeten wir während des Vortrainings eine Metazellen-Aggregationsstrategie. Insbesondere haben wir in der Vortrainingsphase die Zellen in jeder Omics-Schicht mithilfe feinskalierter k-Mittelwerte geclustert (k = 100.000 für scRNA-seq und k = 40.000 für scATAC-seq). Um gleichzeitig die Organzusammensetzungen auszugleichen, wurden k-Means-Schwerpunkte an die vorherige organausgeglichene Teilstichprobe angepasst und dann auf die gesamten Daten angewendet. Die Zellen in jedem k-means-Cluster wurden zu einer Metazelle aggregiert, indem ihre Expressions-/Zugänglichkeitszahlen summiert und ihre PCA/LSI-Koordinaten gemittelt wurden. GLUE wurde dann auf den aggregierten Metazellen mit additivem Rauschen vorab trainiert, wodurch die Zelleneinbettungen grob ausgerichtet, aber nicht wirklich ausgerichtet wurden (Abschnitt „Gewichtete gegnerische Ausrichtung“). Um die große Datenmenge besser nutzen zu können, wurde die Dimensionalität der verborgenen Schicht von der Standardeinstellung 256 auf 512 verdoppelt. In der zweiten Stufe wurde GLUE auf die vollständigen Einzelzellendaten abgestimmt, wobei die Ausgleichsgewichtung wie im Abschnitt „Gewichteter Gegner“ beschrieben geschätzt wurde Ausrichtung. Beim Vergleich der Skalierbarkeit verschiedener Methoden wurde keine Metazellenaggregation verwendet (ergänzende Abbildung 17a).

Für einen Vergleich mit anderen Integrationsmethoden haben wir auch Online-iNMF und Seurat v.3 ausprobiert. Da Online-iNMF die einzige andere Methode war, die auf Millionen von Zellen skaliert werden konnte, haben wir sie auf den gesamten Datensatz angewendet. Andererseits zeigte Seurat v.3 in unserem vorherigen Benchmark die zweitbeste Genauigkeit. Es gelang uns auch, es auf die aggregierten Daten anzuwenden, die in der ersten Phase des GLUE-Trainings verwendet wurden, da Seurat v.3 nicht auf den vollständigen Datensatz skaliert werden konnte (ergänzende Abbildung 17a). Die Etikettenübertragung erfolgte nach dem gleichen Verfahren wie im Triple-Omics-Fall, mit der Ausnahme, dass wir bei 50 nächsten Nachbarn eine Mehrheitsentscheidung verwendeten.

Weitere Informationen zum Forschungsdesign finden Sie in der mit diesem Artikel verlinkten Nature Research Reporting Summary.

Alle in dieser Studie verwendeten Datensätze sind bereits veröffentlicht und wurden aus öffentlichen Datenrepositorys bezogen. Ausführliche Informationen zu den in dieser Studie verwendeten Einzelzellen-Omics-Datensätzen, einschließlich Zugangscodes und URLs, finden Sie in der Ergänzungstabelle 1. Für regulatorische Schlussfolgerungen und Auswertungen wurden die pcHi-C-Daten aus der Zusatzdatei der Originalveröffentlichung (https://www.sciencedirect.com/science/article/pii/S0092867416313228) und die eQTL-Daten aus GTEx v8 (https:// www.gtexportal.org/home/datasets), TF ChIP-seq-Daten vom ENCODE-Datenportal (https://www.encodeproject.org/) und TRRUST v2-Datenbank von der offiziellen Website (https://www.grnpedia.org). /trrust/downloadnetwork.php). Alle Benchmarking-Quelldaten sind in Supplementary Data 1 verfügbar.

Das GLUE-Framework wurde im Python-Paket „scglue“ implementiert, das unter https://github.com/gao-lab/GLUE verfügbar ist. Zur Reproduzierbarkeit wurden die Skripte für alle Benchmarks und Fallstudien mit Snakemake (v.6.12.3) zusammengestellt, das auch im oben genannten Repository verfügbar ist.

Cusanovich, DA et al. Multiplex-Einzelzellprofilierung der Chromatinzugänglichkeit durch kombinatorische Zellindizierung. Wissenschaft 348, 910–914 (2015).

Artikel CAS PubMed PubMed Central Google Scholar

Chen, X., Miragaia, RJ, Natarajan, KN & Teichmann, SA Eine schnelle und robuste Methode zur Profilierung der Zugänglichkeit von Einzelzell-Chromatin. Nat. Komm. 9, 5345 (2018).

Artikel CAS PubMed PubMed Central Google Scholar

Luo, C. et al. Einzelzell-Methylome identifizieren neuronale Subtypen und regulatorische Elemente im Cortex von Säugetieren. Wissenschaft 357, 600–604 (2017).

Artikel CAS PubMed PubMed Central Google Scholar

Mulqueen, RM et al. Hochskalierbare Erstellung von DNA-Methylierungsprofilen in einzelnen Zellen. Nat. Biotechnologie. 36, 428–431 (2018).

Artikel CAS PubMed PubMed Central Google Scholar

Picelli, S. et al. Smart-seq2 für die empfindliche Profilierung des Transkriptoms in voller Länge in einzelnen Zellen. Nat. Methoden 10, 1096–1098 (2013).

Artikel CAS PubMed Google Scholar

Zheng, GX et al. Massiv paralleles digitales Transkriptionsprofiling einzelner Zellen. Nat. Komm. 8, 14049 (2017).

Artikel CAS PubMed PubMed Central Google Scholar

Packer, J. & Trapnell, C. Einzelzell-Multi-Omics: ein Motor für neue quantitative Modelle der Genregulation. Trends Genet. 34, 653–665 (2018).

Artikel CAS PubMed PubMed Central Google Scholar

Chen, S., Lake, BB & Zhang, K. Hochdurchsatzsequenzierung des Transkriptoms und der Zugänglichkeit von Chromatin in derselben Zelle. Nat. Biotechnologie. 37, 1452–1457 (2019).

Artikel CAS PubMed PubMed Central Google Scholar

Ma, S. et al. Chromatinpotenzial, identifiziert durch gemeinsame Einzelzellprofilierung von RNA und Chromatin. Zelle 183, 1103–1116 (2020).

Artikel CAS PubMed PubMed Central Google Scholar

Clark, SJ et al. scNMT-seq ermöglicht die gemeinsame Profilierung der Chromatinzugänglichkeit, DNA-Methylierung und -Transkription in einzelnen Zellen. Nat. Komm. 9, 781 (2018).

Artikel PubMed PubMed Central Google Scholar

Wang, Y. et al. Die Einzelzell-Multiomics-Sequenzierung enthüllt die funktionelle Regulierungslandschaft früher Embryonen. Nat. Komm. 12, 1247 (2021).

Artikel CAS PubMed PubMed Central Google Scholar

Lake, BB et al. Integrative Einzelzellanalyse transkriptioneller und epigenetischer Zustände im menschlichen erwachsenen Gehirn. Nat. Biotechnologie. 36, 70–80 (2018).

Artikel CAS PubMed Google Scholar

Bravo Gonzalez-Blas, C. et al. Identifizierung genomischer Enhancer durch räumliche Integration von Einzelzell-Transkriptomik und Epigenomik. Mol. Syst. Biol. 16, e9438 (2020).

Artikel PubMed PubMed Central Google Scholar

Argelaguet, R., Cuomo, ASE, Stegle, O. & Marioni, JC Computerprinzipien und Herausforderungen bei der Integration von Einzelzellendaten. Nat. Biotechnologie. 39, 1202–1215 (2021).

Stuart, T. et al. Umfassende Integration von Einzelzellendaten. Zelle 177, 1888–1902 (2019).

Artikel CAS PubMed PubMed Central Google Scholar

Gao, C. et al. Iterative Single-Cell-Multi-Omic-Integration mithilfe von Online-Lernen. Nat. Biotechnologie. 39, 1000–1007 (2021).

Artikel CAS PubMed PubMed Central Google Scholar

Welch, JD et al. Die Single-Cell-Multi-Omic-Integration vergleicht und kontrastiert Merkmale der Identität von Gehirnzellen. Zelle 177, 1873–1887 (2019).

Artikel CAS PubMed PubMed Central Google Scholar

Korsunsky, I. et al. Schnelle, sensible und genaue Integration von Einzelzellendaten mit Harmony. Nat. Methoden 16, 1289–1296 (2019).

Artikel CAS PubMed PubMed Central Google Scholar

Chen, H. et al. Bewertung rechnerischer Methoden zur Analyse von Einzelzell-ATAC-seq-Daten. Genombiol. 20, 241 (2019).

Artikel PubMed PubMed Central Google Scholar

Duren, Z. et al. Integrative Analyse von Einzelzell-Genomdaten durch gekoppelte nichtnegative Matrixfaktorisierungen. Proz. Natl. Acad. Wissenschaft. USA 115, 7723–7728 (2018).

Artikel CAS PubMed PubMed Central Google Scholar

Zeng, W. et al. DC3 ist eine Methode zur Entfaltung und gekoppelten Clusterbildung aus Massen- und Einzelzell-Genomdaten. Nat. Komm. 10, 4613 (2019).

Artikel PubMed PubMed Central Google Scholar

Demetci, P., Santorella, R., Sandstede, B., Noble, WS & Singh, R. SCOT: Single-Cell Multi-Omics Alignment with Optimal Transport. J. Comput. Biol. 29, 3–18 (2022).

Artikel CAS PubMed Google Scholar

Cao, K., Bai, X., Hong, Y. & Wan, L. Unbeaufsichtigte topologische Ausrichtung für die Integration von Einzelzellen-Multi-Omics. Bioinformatik 36, i48–i56 (2020).

Artikel CAS PubMed PubMed Central Google Scholar

Cao, K., Hong, Y. & Wan, L. Manifold-Alignment für heterogene Single-Cell-Multi-Omics-Datenintegration mit Pamona. Bioinformatik 38, 211–219 (2021).

Singh, R. et al. Unüberwachte Mannigfaltigkeitsausrichtung für Einzelzellen-Multi-Omics-Daten. In Proc. 11. ACM International Conference on Bioinformatics, Computational Biology and Health Informatics (Hrsg. Aluru, S., Kalyanaraman, A. & Wang, MD) a40 (Association for Computing Machinery, 2020).

Svensson, V., Vento-Tormo, R. & Teichmann, SA Exponentielle Skalierung der Einzelzell-RNA-Sequenz im letzten Jahrzehnt. Nat. Protokoll. 13, 599–604 (2018).

Artikel CAS PubMed Google Scholar

Kozareva, V. et al. Ein transkriptomischer Atlas der Kleinhirnrinde der Maus definiert umfassend Zelltypen. Natur 598, 214–219 (2021).

Artikel CAS PubMed PubMed Central Google Scholar

Cao, J. et al. Ein menschlicher Zellatlas der fetalen Genexpression. Science 370, eaba7721 (2020).

Artikel CAS PubMed PubMed Central Google Scholar

Domcke, S. et al. Ein menschlicher Zellatlas der Zugänglichkeit von fötalem Chromatin. Science 370, eaba7612 (2020).

Artikel CAS PubMed PubMed Central Google Scholar

Lopez, R., Regier, J., Cole, MB, Jordan, MI & Yosef, N. Tiefgreifende generative Modellierung für die Einzelzell-Transkriptomik. Nat. Methoden 15, 1053–1058 (2018).

Artikel CAS PubMed PubMed Central Google Scholar

Cao, ZJ, Wei, L., Lu, S., Yang, DC & Gao, G. Durchsuchen großer scRNA-seq-Datenbanken mittels unvoreingenommener Zelleinbettung mit Cell BLAST. Nat. Komm. 11, 3458 (2020).

Artikel CAS PubMed PubMed Central Google Scholar

Kipf, TN & Welling, M. Variationsgraph-Autoencoder. Im Workshop „Neural Information Processing Systems“ zum Bayesian Deep Learning (Hrsg. Gal, Y. et al.) (Curran Associates, Inc., 2016).

Dou, J. et al. Unvoreingenommene Integration von Single-Cell-Multi-Omics-Daten. Vorabdruck bei bioRxiv https://doi.org/10.1101/2020.12.11.422014 (2020).

PBMC von einem gesunden Spender, Einzelzell-Multiom-ATAC-Genexpressionsdemonstrationsdaten von Cell Ranger ARC 1.0.0. 10X Genomics https://support.10xgenomics.com/single-cell-multiome-atac-gex/datasets/1.0.0/pbmc_granulozyten_sorted_10k (2020).

Muto, Y. et al. Die Analyse der Transkription einzelner Zellen und der Zugänglichkeit von Chromatin definiert die zelluläre Heterogenität in der erwachsenen menschlichen Niere neu. Nat. Komm. 12, 2190 (2021).

Artikel CAS PubMed PubMed Central Google Scholar

Yao, Z. et al. Ein transkriptomischer und epigenomischer Zellatlas des primären motorischen Kortex der Maus. Natur 598, 103–110 (2021).

Artikel CAS PubMed PubMed Central Google Scholar

Saunders, A. et al. Molekulare Vielfalt und Spezialisierungen zwischen den Zellen des Gehirns erwachsener Mäuse. Zelle 174, 1015–1030 (2018).

Artikel CAS PubMed PubMed Central Google Scholar

Frischer Kortex aus dem Gehirn erwachsener Mäuse (v1), Einzelzell-ATAC-Demonstrationsdaten von Cell Ranger 1.1.0. 10X Genomics https://support.10xgenomics.com/single-cell-atac/datasets/1.1.0/atac_v1_adult_brain_fresh_5k (2019).

Mo, A. et al. Epigenomische Signaturen der neuronalen Diversität im Gehirn von Säugetieren. Neuron 86, 1369–1384 (2015).

Artikel CAS PubMed PubMed Central Google Scholar

Wang, M., Zhao, Y. & Zhang, B. Effizienter Test und Visualisierung von Schnittpunkten mit mehreren Mengen. Sci Rep. 5, 16923 (2015).

Artikel CAS PubMed PubMed Central Google Scholar

Gabel, HW et al. Störung der DNA-Methylierung-abhängigen langen Genrepression beim Rett-Syndrom. Natur 522, 89–93 (2015).

Artikel CAS PubMed PubMed Central Google Scholar

Dekker, J., Marti-Renom, MA & Mirny, LA Erforschung der dreidimensionalen Organisation von Genomen: Interpretation von Chromatin-Interaktionsdaten. Nat. Rev. Genet. 14, 390–403 (2013).

Artikel CAS PubMed PubMed Central Google Scholar

Pliner, HA et al. Cicero sagt cis-regulatorische DNA-Wechselwirkungen anhand von Daten zur Zugänglichkeit von Einzelzell-Chromatin voraus. Mol. Zelle 71, 858–871 (2018).

Artikel CAS PubMed PubMed Central Google Scholar

Javierre, BM et al. Die linienspezifische Genomarchitektur verbindet Enhancer und nicht-kodierende Krankheitsvarianten mit Zielgenpromotoren. Zelle 167, 1369–1384 (2016).

Artikel CAS PubMed PubMed Central Google Scholar

Aguet, F. et al. Genetische Auswirkungen auf die Genexpression in menschlichen Geweben. Natur 550, 204–213 (2017).

Artikel Google Scholar

Han, H. et al. TRRUST v2: eine erweiterte Referenzdatenbank für transkriptionelle regulatorische Interaktionen zwischen Mensch und Maus. Nukleinsäuren Res. 46, D380–D386 (2018).

Artikel CAS PubMed Google Scholar

Thomsen, ER et al. Die transkriptomische Einzelzellcharakterisierung der Diversität menschlicher radialer Gliazellen wurde korrigiert. Nat. Methoden 13, 87–93 (2016).

Artikel CAS PubMed Google Scholar

Pollen, AA et al. Molekulare Identität menschlicher äußerer radialer Gliazellen während der kortikalen Entwicklung. Zelle 163, 55–67 (2015).

Artikel CAS PubMed PubMed Central Google Scholar

Fischer, DS et al. Sfaira beschleunigt die Wiederverwendung von Daten und Modellen in der Einzelzellgenomik. Genombiol. 22, 248 (2021).

Artikel PubMed PubMed Central Google Scholar

Tran, HTN et al. Ein Benchmark für Batch-Effekt-Korrekturmethoden für Einzelzell-RNA-Sequenzierungsdaten. Genombiol. 21, 12 (2020).

Artikel CAS PubMed PubMed Central Google Scholar

Stark, SG et al. SCIM: Universelles Single-Cell-Matching mit ungepaarten Feature-Sets. Bioinformatik 36, 1919–1927 (2020).

Artikel CAS PubMed PubMed Central Google Scholar

Yang, KD et al. Multidomänenübersetzung zwischen Einzelzell-Bildgebungs- und Sequenzierungsdaten mithilfe von Autoencodern. Nat. Komm. 12, 31 (2021).

Artikel CAS PubMed PubMed Central Google Scholar

Eng, C.-HL et al. Hochaufgelöste Bildgebung im Transkriptommaßstab in Geweben durch RNA-Seqfish. Natur 568, 235–239 (2019).

Artikel CAS PubMed PubMed Central Google Scholar

Rodriques, SG et al. Slide-seq: eine skalierbare Technologie zur Messung der genomweiten Expression mit hoher räumlicher Auflösung. Wissenschaft 363, 1463–1467 (2019).

Artikel CAS PubMed PubMed Central Google Scholar

Ly, L.-H. & Vingron, M. Auswirkung der Imputation auf die Rekonstruktion des Gennetzwerks aus Einzelzell-RNA-seq-Daten. Muster 3, 100414 (2021).

Bandura, DR et al. Massenzytometrie: Technik für Echtzeit-Einzelzell-Multitarget-Immunoassay basierend auf induktiv gekoppelter Plasma-Flugzeit-Massenspektrometrie. Anal. Chem. 81, 6813–6822 (2009).

Artikel CAS PubMed Google Scholar

Bartosovic, M., Kabbe, M. & Castelo-Branco, G. Single-cell CUT&Tag profiliert Histonmodifikationen und Transkriptionsfaktoren in komplexen Geweben. Nat. Biotechnologie. 39, 825–835 (2021).

Artikel CAS PubMed PubMed Central Google Scholar

Ashuach, T., Reidenbach, DA, Gayoso, A. & Yosef, N. PeakVI: Ein tiefes generatives Modell für die Analyse der Zugänglichkeit von Einzelzell-Chromatin. Cell Reports Methods 2, 100182 (2022).

Artikel CAS PubMed PubMed Central Google Scholar

Hamilton, W., et al. in Advances in Neural Information Processing Systems (Hrsg. Guyon, I. et al.) 1024–1034 (Curran Associates, Inc., 2017).

Veličković, P. et al. Zeichnen Sie Aufmerksamkeitsnetzwerke auf. In Proc. 6. Internationale Konferenz über lernende Repräsentationen (Hrsg. Bengio, Y. & LeCun, Y.) (ICLR, 2018).

Vashishth, S., Sanyal, S., Nitin, V. & Talukdar, P. Kompositionsbasierte multirelationale Graph-Faltungsnetzwerke. In Proc. 8. Internationale Konferenz über lernende Repräsentationen (Hrsg. Rush, A.) (ICLR, 2020).

Zhang, R., Zou, Y. & Ma, J. Hyper-SAGNN: ein auf Selbstaufmerksamkeit basierendes graphisches neuronales Netzwerk für Hypergraphen. In Proc. 8. Internationale Konferenz über lernende Repräsentationen (Hrsg. Rush, A.) (ICLR, 2020).

Zhang, R., Zhou, T. & Ma, J. Multiskalige und integrative Einzelzell-Hi-C-Analyse mit Higashi. Nat. Biotechnologie. 40, 254–261 (2021).

Stuart, T. & Satija, R. Integrative Einzelzellanalyse. Nat. Rev. Genet. 20, 257–272 (2019).

Artikel CAS PubMed Google Scholar

Amodio, M. & Krishnaswamy, S. MAGAN: Ausrichtung biologischer Mannigfaltigkeiten. In Proc. 35. Internationale Konferenz zum maschinellen Lernen (Hrsg. Dy, JG Dy & Krause, A.) 215–223 (PMLR, 2018).

Tarashansky, AJ et al. Die Kartierung einzelner Zellatlanten in Metazoen enthüllt die Entwicklung der Zelltypen. eLife 10, e66747 (2021).

Artikel CAS PubMed PubMed Central Google Scholar

Jung, I. et al. Ein Kompendium promotorzentrierter Chromatin-Langstreckeninteraktionen im menschlichen Genom. Nat. Genet. 51, 1442–1449 (2019).

Artikel CAS PubMed PubMed Central Google Scholar

Ding, J. & Regev, A. Tiefe generative Modelleinbettung von Einzelzell-RNA-Seq-Profilen auf Hypersphären und hyperbolischen Räumen. Nat. Komm. 12, 2554 (2021).

Artikel CAS PubMed PubMed Central Google Scholar

Mikolov, T., Sutskever, I., Chen, K., Corrado, G. & Dean, J. in Advances in Neural Information Processing Systems (Hrsg. Burges, CJC et al.) 3111–3119 (Curran Associates, Inc. , 2013).

Kipf, TN & Welling, M. Halbüberwachte Klassifizierung mit Graph-Faltungsnetzwerken. In Proc. 5. Internationale Konferenz über lernende Repräsentationen (Hrsg. Bengio, Y. & LeCun, Y.) (ICLR, 2017).

Dincer, AB, Janizek, JD & Lee, S.-I. Gegnerischer Dekonfundierungs-Autoencoder zum Erlernen robuster Genexpressionseinbettungen. Bioinformatik 36, i573–i582 (2020).

Artikel CAS PubMed PubMed Central Google Scholar

Goodfellow, I. et al. in Advances in Neural Information Processing Systems (Hrsg. Ghahramani, Z. et al.) 2672–2680 (Curran Associates, Inc., 2014).

Lücken, MD et al. Benchmarking der Datenintegration auf Atlasebene in der Einzelzellgenomik. Nat. Methoden 19, 41–50 (2022).

Xu, C. et al. Probabilistische Harmonisierung und Annotation von Einzelzell-Transkriptomikdaten mit tiefen generativen Modellen. Mol. Syst. Biol. 17, e9620 (2021).

Artikel PubMed PubMed Central Google Scholar

Butler, A., Hoffman, P., Smibert, P., Papalexi, E. & Satija, R. Integration transkriptomischer Einzelzelldaten über verschiedene Bedingungen, Technologien und Arten hinweg. Nat. Biotechnologie. 36, 411–420 (2018).

Artikel CAS PubMed PubMed Central Google Scholar

Aibar, S. et al. SCENIC: Inferenz und Clustering einzelner regulatorischer Netzwerke. Nat. Methoden 14, 1083–1086 (2017).

Artikel CAS PubMed PubMed Central Google Scholar

Davis, CA et al. Die Enzyklopädie der DNA-Elemente (ENCODE): Aktualisierung des Datenportals. Nukleinsäuren Res. 46, D794–D801 (2018).

Artikel CAS PubMed Google Scholar

Referenzen herunterladen

Wir danken F. Tang, XS Xie, Z. Zhang, L. Tao, C. Li, J. Lu (an der Universität Peking) und Y. Ding (am Beijing Institute of Radiation Medicine) für ihre hilfreichen Diskussionen und Kommentare während des Studie sowie den Autoren der in dieser Arbeit verwendeten Datensätze für ihre freundliche Hilfe. Diese Arbeit wurde durch Mittel des National Key Research and Development Program (Fördernummer 2016YFC0901603), des State Key Laboratory of Protein and Plant Gene Research und des Beijing Advanced Innovation Center for Genomics an der Peking University sowie des Changping Laboratory unterstützt. Die Forschung von GG wurde teilweise vom Nationalen Programm zur Förderung erstklassiger junger Fachkräfte unterstützt. Ein Teil der Analyse wurde auf der Computing-Plattform des Center for Life Sciences der Peking-Universität durchgeführt und von der High-Performance-Computing-Plattform der Peking-Universität unterstützt. Teile von Abb. 1 wurden mit einem Bildsatz erstellt, der von Servier Medical Art (https://smart.servier.com/, CC BY 3.0) heruntergeladen wurde.

Staatliches Schlüssellabor für Protein- und Pflanzengenforschung, School of Life Sciences, Biomedical Pioneering Innovative Center (BIOPIC) und Beijing Advanced Innovation Center for Genomics (ICG), Zentrum für Bioinformatik (CBI), Peking-Universität, Peking, China

Zhi-Jie Cao & Ge Gao

Changping-Labor, Peking, China

Zhi-Jie Cao & Ge Gao

Sie können diesen Autor auch in PubMed Google Scholar suchen

GG konzipierte die Studie und überwachte die Forschung. ZJC entwarf und implementierte den Rechenrahmen und führte Benchmarks und Fallstudien unter Anleitung von GGZJC durch und GG schrieb das Manuskript.

Korrespondenz mit Ge Gao.

Die Autoren geben an, dass keine Interessenkonflikte bestehen.

Nature Biotechnology dankt Ricard Argelaguet, Yun Li, Romain Lopez und den anderen, anonymen Gutachtern für ihren Beitrag zum Peer-Review dieser Arbeit.

Anmerkung des Herausgebers Springer Nature bleibt hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten neutral.

a, Mittlere durchschnittliche Präzision vs. Seurat-Alignment-Score für verschiedene Integrationsmethoden. Eine höhere mittlere durchschnittliche Präzision weist auf eine höhere Zelltypauflösung hin, und ein höherer Seurat-Alignment-Score weist auf eine bessere Omics-Mischung hin. b, Zelltyp vs. durchschnittliche Silhouettenbreite der Omics-Schicht für verschiedene Integrationsmethoden. Eine höhere durchschnittliche Silhouettenbreite des Zelltyps weist auf eine höhere Auflösung des Zelltyps hin, und eine höhere durchschnittliche Silhouettenbreite der Omics-Schicht weist auf eine bessere Omics-Mischung hin. c, Nachbarschaftserhaltung vs. Graphkonnektivität für verschiedene Integrationsmethoden. Eine höhere Nachbarerhaltung weist auf eine bessere Erhaltung der Mannigfaltigkeitsstruktur in jeder Originalschicht hin, und eine höhere Graphkonnektivität weist auf eine bessere Omics-Mischung hin. n=8 Wiederholungen mit unterschiedlichen Modell-Zufallskeimen. Die Fehlerbalken geben den Mittelwert ± Standardabweichung an

a, Abnahme der Gesamtintegrationsbewertung bei unterschiedlichen Korruptionsraten des Vorwissens für Integrationsmethoden, die auf früheren Merkmalsbeziehungen basieren (n = 8 Wiederholungen mit unterschiedlichen zufälligen Korruptions-Seeds). b, Gesamtintegrationsscore, und c, FOSCTTM mit verschiedenen Schemata zur Verbindung von Peaks und Genen als vorheriges regulatorisches Wissen, für Integrationsmethoden, die auf früheren Merkmalsbeziehungen basieren (n=8 Wiederholungen mit verschiedenen zufälligen Modell-Seeds). „Combined±0“ ist das Standardschema, bei dem Peaks, die Genkörper- oder Promotorregionen überlappen, verknüpft werden. „Promotor ± 150k“ bedeutet, dass Peaks mit Genen verknüpft sind, wenn sie sich innerhalb von 150 kb vom Genpromotor befinden, gewichtet mit einer Potenzgesetzfunktion, die die Chromatinkontaktwahrscheinlichkeit modelliert42,43. d, Gesamtintegrationsbewertung verschiedener Integrationsmethoden für unterabgetastete Datensätze unterschiedlicher Größe (n=8 Wiederholungen mit unterschiedlichen Unterabtast-Zufallsstartwerten). Die Fehlerbalken geben den Mittelwert ± Standardabweichung an

Die Integrationsleistung wird durch a, den Gesamtintegrationsscore, und b, FOSCTTM (n=4 Wiederholungen mit unterschiedlichen Modell-Zufallsstartwerten) quantifiziert. Die Fehlerbalken geben den Mittelwert ± sd an. „Dimensionalität“ bezeichnet die Dimensionalität der Zelleneinbettung. „Vorverarbeitungsdimensionalität“ ist die reduzierte Dimensionalität, die für die ersten Transformationsschichten der Datenencoder verwendet wird (siehe Methoden). „Tiefe der verborgenen Schicht“ ist die Anzahl der verborgenen Schichten in den Datenkodierern und im Modalitätsdiskriminator. „Dimensionalität verborgener Schichten“ ist die Dimensionalität verborgener Schichten in den Datenkodierern und dem Modalitätsdiskriminator. „Dropout“ ist die Dropout-Rate versteckter Schichten in Datenkodierern und Modalitätsdiskriminatoren. „Lambda-Graph“ ist das Gewicht des Graphenverlusts (\(\lambda _{{{\mathcal{G}}}}\)). „Lambda-Alignment“ ist das Gewicht der gegnerischen Ausrichtung (λD). „Negative Abtastrate“ ist die Anzahl der empirischen Abtastwerte, die bei der negativen Flankenabtastung verwendet werden (Abtastwerte von PNS). Für jeden Hyperparameter ist der Mittelwert der Standardwert. Um den Rechenaufwand zu kontrollieren, wurde jeweils ein Hyperparameter variiert, während alle anderen auf ihre Standardwerte gesetzt wurden. Die Leistung von GLUE war über einen weiten Bereich von Hyperparametereinstellungen hinweg robust, mit Ausnahme von fehlgeschlagenen Ausrichtungen, bei denen das gegnerische Ausrichtungsgewicht zu niedrig war oder keine verborgenen Schichten in den neuronalen Netzen verwendet wurden (entspricht einem linearen Modell mit unzureichender Kapazität).

Die Integrationsleistung wird durch a, den Gesamtintegrationsscore, und b, FOSCTTM (n=8 Wiederholungen mit unterschiedlichen Modell-Zufallsstartwerten) quantifiziert. Die Fehlerbalken geben den Mittelwert ± Standardabweichung an

Konsistenz von Merkmalseinbettungen, wie durch die Erhaltung der Merkmal-Merkmal-Kosinusähnlichkeit (Methoden) definiert, unter a, unterschiedliche Hyperparametereinstellungen (n=4 Wiederholungen mit unterschiedlichen Modell-Zufallsstartwerten), b, unterschiedliche Vorwissenskorruptionsraten (n=8 Wiederholungen mit unterschiedliche zufällige Korruptions-Seeds) und c, unterschiedliche Anzahl von unterabgetasteten Zellen (n=8 Wiederholungen mit unterschiedlichen zufälligen Unterabtastungs-Seeds). Die Fehlerbalken geben den Mittelwert ± sd an. Merkmalseinbettungen sind über alle Hyperparameter hinweg robust, mit Ausnahme von \(\lambda _{{{\mathcal{G}}}}\), das den Beitrag des Führungsdiagramms direkt steuert. Auch die Konsistenz bleibt hoch (> 0,8), wobei bis zu 40 % des Vorwissens beschädigt sind und mindestens etwa 4.000 unterabgetastete Zellen vorhanden sind.

Die Integrationskonsistenz wird mit einer unterschiedlichen Anzahl von Metazellen für verschiedene Datensatzkombinationen bewertet. Kombinationen aus gleichem Gewebe stellen eine korrekte Korrektur dar, und Kombinationen aus unterschiedlichem Gewebe stellen eine Überkorrektur dar. Die gestrichelte horizontale Linie zeigt einen Integrationskonsistenzwert von 0,05 an.

Ergänzende Abbildungen. 1–23 und Tabelle 1.

Detaillierte Benchmarking-Daten.

Regulatorische Interaktionen im GLUE-abgeleiteten TF-Zielgennetzwerk.

Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht gesetzlich zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.

Nachdrucke und Genehmigungen

Cao, ZJ., Gao, G. Multi-Omics-Einzelzelldatenintegration und regulatorische Inferenz mit graphgebundener Einbettung. Nat Biotechnol 40, 1458–1466 (2022). https://doi.org/10.1038/s41587-022-01284-4

Zitat herunterladen

Eingegangen: 13. September 2021

Angenommen: 15. März 2022

Veröffentlicht: 02. Mai 2022

Ausgabedatum: Oktober 2022

DOI: https://doi.org/10.1038/s41587-022-01284-4

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein Link zum Teilen verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt

Genombiologie (2023)

Naturkommunikation (2023)

Naturbiotechnologie (2023)

Naturkommunikation (2023)

Nature Reviews Molekulare Zellbiologie (2023)

Blog