banner

Nachricht

Jul 13, 2023

Das Suchfeld von Google hat die Bedeutung von Informationen geändert

Elan Ullendorff

Der Flur ist in grelles Weiß getaucht, eine Erfindung von LEDs. Entlang der Wände verschwinden Türen endlos in der Ferne. Jedes weist an seiner Basis eine Krone aus blauem Licht auf, mit Ausnahme der Türen, durch die Sie zuvor gegangen sind, die stattdessen ein tiefes Lila ausstrahlen. Aber das sind nur Sandkörner in der Wüste der Tore.

Sie suchen etwas.

Sie bereiten sich auf eine beschwerliche Reise vor. Vor der ersten Tür stoßen Sie auf ein Podest. Die Kiste, die auf dem Sockel liegt, wirkt vergoldet, obwohl sie so schlicht ist wie die Wände, die sie umgeben. Es trägt keinen Titel, aber sein Name hallt intuitiv in Ihrem Kopf wider: die Antwortbox. Auf einer Gedenktafel steht:

Ich bin durch jede einzelne Tür gekrochen. Nicht nur die Türen in diesem Flur, sondern die Türen in jedem existierenden Flur, die Türen in Türen, sowie einige Türen, die ich Ihnen nicht zu zeigen wage, Türen, die Sie vor Angst in die Flucht treiben würden. Ich habe alles gesehen. Ich bin unparteiisch. Ihr Wohl liegt mir am Herzen. Ich verstehe, was Sie wissen wollen, und es ist erkennbar. Ich habe die Antwort, die Sie suchen.

Dein Finger streichelt den Riegel.

Die Katalogisierung des Internets war von Anfang an zum Scheitern verurteilt. Im Sommer 1993 entwickelte Matthew Gray den World Wide Web Wanderer (WWWW), den wohl ersten Internet-Bot und Webcrawler. Bei seinem ersten offiziellen Versuch, das Web zu indizieren, kehrte der Wanderer von seiner Expedition mit 130 URLs zurück. Aber selbst in den Babyjahren des Internets war diese Liste unvollständig.

Um zu verstehen, wie ein einfacher Webcrawler funktioniert, stellen Sie sich vor, Sie erstellen eine Reiseroute, die drei Städte enthält: New York, Tokio, Paris. Achten Sie beim Besuch jedes Reiseziels darauf, ob andere Orte erwähnt werden, und fügen Sie diese Ihrer Reiseroute hinzu. Ihre Welttournee ist abgeschlossen, wenn Sie alle Städte auf Ihrer ständig wachsenden Liste besucht haben. Werden Sie am Ende Ihrer Reise viele Orte gesehen haben? Zweifellos. Aber haben Sie die ganze Welt gesehen? Mit ziemlicher Sicherheit nicht. Es wird immer Städte oder ganze Städtenetze geben, die für diesen Prozess praktisch unsichtbar sind.

Ein Webcrawler konsultiert in ähnlicher Weise eine Liste von URLs und besucht rekursiv alle Links, die er sieht. Der resultierende Index sollte jedoch nicht mit einem umfassenden Verzeichnis des Internets verwechselt werden, das es nicht gibt.

Ich habe eine Technologietheorie, die jedes Informationsprodukt in ein Spektrum vom Arzt bis zum Bibliothekar einordnet:

Das Hauptziel des Arztes besteht darin, Sie vor dem Kontext zu schützen. Bei der Diagnose oder Behandlung stützen sie sich auf jahrelange Ausbildung, Forschung und persönliche Erfahrung, aber anstatt Ihnen diese Informationen in ihrer Rohform zu präsentieren, verdichten und synthetisieren sie sie. Und das aus gutem Grund: Wenn Sie in eine Arztpraxis gehen, besteht Ihr primäres Ziel nicht darin, Ihre Neugier zu wecken oder in primäre Quellen einzutauchen; Sie möchten Antworten in Form einer Diagnose oder Behandlung. Der Arzt spart Ihnen Zeit und schützt Sie vor Informationen, die falsch interpretiert werden könnten oder unnötig Angst auslösen könnten.

Im Gegensatz dazu besteht das Hauptziel des Bibliothekars darin, Sie auf den Kontext hinzuweisen. Bei der Beantwortung Ihrer Fragen stützen sie sich auf jahrelange Ausbildung, Forschung und persönliche Erfahrung und nutzen diese, um Sie in ein Gespräch mit einem Wissenssystem und den Menschen hinter diesem Wissenssystem zu verwickeln. Der Bibliothekar kann Ihnen kurzfristig Zeit sparen, indem er Sie schneller an Ihr Ziel bringt. Langfristig hoffen sie jedoch, dass sich das Ziel als Portal erweist. Sie empfinden Gedanken eher als bereichernd als als mühsam und verstehen, dass ihr Fachwissen eher in der Wegfindung als in der Lösung liegt. Manchmal stellen Sie einem Bibliothekar eine Frage und er weist Sie auf ein Buch hin, das eine Antwort auf eine Frage enthält, an die Sie nicht einmal gedacht haben. Manchmal geht man zu den Regalen, um das Buch herauszuholen, doch stattdessen fällt einem ein anderes Buch ins Auge. Auch das ist ein Erfolg für den Bibliothekar.

Matt Simon

Gregory Barber

Adrienne So

Will Knight

Es gibt Buchrezensionen, die sagen: „Ich habe das gelesen, damit Sie es nicht müssen“ (Arzt), und andere, die sagen: „Ich habe das gelesen, und Sie sollten es auch lesen“ (Bibliothekar). Es gibt Apps, die Sie bequem vom Sofa aus in einen Zustand brodelnder, unerfüllter Reiselust versetzen (Arzt), und andere, die Sie dazu inspirieren, aufzustehen und zu gehen (Bibliothekar).

Eine Suchmaschine ist im Kern ein Produkt, das Ihnen dabei helfen soll, von Menschen erstellte Seiten zu besuchen, im Grunde genommen Bibliothekare. In einem Playboy-Interview im Jahr 2004 äußerte Google-Mitbegründer Larry Page unmissverständlich, dass er „Sie so schnell wie möglich aus Google heraus und an die richtige Stelle bringen“ wollte. Aber sagen wir einfach, Google hat in den letzten 10 Jahren sein Medizinstudium absolviert. Die Antwort ist König; Eine bloße Verbindung ist nichts anderes als ein Versagen der Technologie.

Die Google-Suche wurde fünf Jahre nach dem World Wide Web Wanderer eingeführt und ihre wichtigste Neuerung war der PageRank-Algorithmus, der für jede Website einen Vertrauenswürdigkeitswert erstellte, der darauf basiert, wie oft andere „vertrauenswürdige“ Websites mit ihr verlinkt haben; Anhand dieser Bewertung wurde nicht nur entschieden, welche Websites wie oft indexiert werden sollten, sondern auch, wie hoch sie in den Suchergebnissen eingestuft werden sollten.

Ich möchte hier die völlige Kühnheit dieses Unterfangens hervorheben. Ich erinnere mich, als Google 2007 erstmals ankündigte, 3D-Scans der Welt zu erstellen, um Google Street View zu betreiben. Die Aufgabe fühlte sich unglaublich, absurd riesig an. Aber im Laufe eines Jahrzehnts gelang Google genau das, sei es durch schiere wirtschaftliche Macht oder durch den kreativen Einsatz (oder die Ausbeutung) von Arbeitskräften. Zumindest hat es uns davon überzeugt.

Jedes große Archivprojekt ist eine Shakespeare-Tragödie, die immer auf die gleiche Weise endet: unvollständig. Es erfordert Spieler mit der Hybris, jeden Abend weiterzumachen, sowie ein Publikum, das bereit ist, seinen Unglauben aufzugeben und an die Allwissenheit und Allgegenwart eines Unternehmensoberhaupts zu glauben. Weil es mehr Straßen gibt, als realistisch zu scannen sind. Und selbst wenn eine Straße einmal gescannt wurde, entwickelt sie sich weiter: Gebäude werden abgerissen, Bäume wachsen in die Höhe, Imperien fallen. Das Signifikat distanziert sich vom Signifikanten. Es müssen also schwierige Entscheidungen getroffen werden. Und in diesen Entscheidungen verbergen sich Ideologien darüber, welche Orte es wert sind, gerettet zu werden.

Die Anzahl der Websites übersteigt die Anzahl der Straßenkilometer um ein Vielfaches.

Die Erstellung eines Index ist zwar mühsam, aber nur ein Teil des Kampfes. Außerdem besteht das Problem, Ihre Suchanfrage in eine Ergebnisliste zu verarbeiten. In der Regel handelt es sich hierbei um die Verarbeitung natürlicher Sprache (NLP), eine Reihe von Techniken, die Computern dabei helfen, menschliche Kommunikation zu interpretieren. Ein rudimentärer NLP-Algorithmus könnte die Abfrage „einen Laib Brot backen“ in einzelne Token aufteilen (Backen, ein, Laib, von, Brot) und alle häufig vorkommenden Wörter entfernen, die der Abfrage keine offensichtliche Bedeutung verleihen (Backen, Laib). , Brot), Reduzieren Sie Wörter auf ihre Grundform, um Wortvarianten besser zuzuordnen (backen, Laib, Brot) und erweitern Sie die Abfrage, um gängige Synonyme einzubeziehen (backen, kochen, vorbereiten, herstellen, basteln, Laib, Brot).

Matt Simon

Gregory Barber

Adrienne So

Will Knight

Aber die ausgefeilteren NLP-Techniken, die Google heute verwendet, beinhalten den Einsatz einer Mischung miteinander verbundener Algorithmen des maschinellen Lernens, die vorhersagen, welche Ergebnisse für einen Suchenden am nützlichsten sind. Das zugrunde liegende Ziel besteht darin, die „Absicht“ eines Benutzers anhand aller ihm zur Verfügung stehenden kontextuellen Hinweise zu verstehen: aktuelle Ereignisse sowie der Standort des Benutzers, sein Suchverlauf, seine Sprache und sein Gerät. Wenn ein Benutzer nach dem Wort „Mars“ sucht, sucht er dann nach Informationen über den Planeten, den Gott, das Gen, den Schokoriegel, das Verb im Präsens oder die Stadt in Nebraska?

Natürlich ist natürliche Sprache eine etwas irreführende Bezeichnung. Es gibt nichts „Natürliches“ (im umgangssprachlichen Sinne) an der Art und Weise, wie wir mit Google kommunizieren. Wir würden nicht zu einem Freund gehen und „italienisches Restaurant in der Nähe“ oder „Welche Netflix-Romcom schauen?“ bellen. Mit den Worten des Medienwissenschaftlers Pater John Culkin: „Wir formen unsere Werkzeuge und danach formen unsere Werkzeuge uns.“ Anders ausgedrückt: Wir entwickeln uns dahingehend, unsere Fragen auf eine Art und Weise zu stellen, von der wir glauben, dass unsere Maschinen sie beantworten können, und bevorzugen im Laufe der Zeit Fragen, die technologisch lösbar sind. Kann Google jemals wirklich verstehen, was unsere Absicht ist? Können wir?

Eine Software, die Ihre Absicht interpretiert und eine Linkliste aus einem großen Index zurückgibt, ist eine perfekt nutzbare Suchmaschine. Seit den frühen 2010er Jahren hat Google jedoch eine völlig andere Vision davon, was eine Suchmaschine sein kann: eine, die direkt auf der Ergebnisseite direkt auf Fragen antworten kann. Diese Funktion wurde mit einer Reihe verwirrender, sich ständig ändernder Namen bezeichnet (Rich Answers, Direct Answers, Instant Answers, Quick Answers, Featured Snippets, Knowledge Panel), aber für unsere Zwecke verwenden wir die umgangssprachliche Oberkategorie: die Antwortfeld.

Der Knowledge Graph, ein semantisches Netzwerk, das die Welt als diskrete Einheiten wahrnimmt, die strukturierte Daten enthalten, spielt eine entscheidende Rolle bei der Verfolgung dieser Vision durch Google. Unter dem Knowledge Graph ist beispielsweise die Band Boygenius mit Genres, Plattenfirmen, einer Diskografie, Bildern, einer Liste von Links und Videos verknüpft und enthält die Mitglieder Julien Baker, Phoebe Bridgers und Lucy Dacus, die jeweils selbst berücksichtigt werden Entitäten im Diagramm mit ihren eigenen zugehörigen Daten.

Um ein etwas breiteres Netz an beantwortbaren Fragen zu erstellen, verwendet Google auch eine Technik namens Passage Ranking, die bestimmte Auszüge von Seiten heraussucht, die die Frage eines Nutzers beantworten könnten, unabhängig davon, ob sie im Mittelpunkt der Seite steht oder nicht. Passage Ranking kann mir unter anderem sagen, wie Boygenius sich kennengelernt hat („Julien und Lucy traten auf derselben Bühne in Washington, D.C. auf, gefolgt von Juliens Treffen mit Phoebe einen Monat später“), woher der Name der Band kam („Männer werden unterrichtet Anspruch auf Weltraum zu haben … ein ‚Boygenius‘ ist jemand, dem sein ganzes Leben lang gesagt wurde, dass seine Ideen genial sind“), und aus einem 1400 Wörter umfassenden New Yorker-Profil entnehmen Sie, dass Julien Baker „fünf Fuß groß und hundertundsechzig“ ist fünf Pfund."

Die Vision der Welt, die diese reichhaltigen Ergebnisse darstellen, ist eine, in der alles Wissenswerte eindeutig und perfekt atomisierbar ist; Nennen wir es die Baseball-Cardifizierung des Wissens. Für alles andere müssen Sie ein wenig scrollen. Eine Untersuchung von The Markup aus dem Jahr 2020 ergab, dass fast die Hälfte der mobilen Ergebnisseite von Google bei den beliebtesten Suchanfragen durch Links zu Googles eigenen Eigenschaften über Abschnitte wie „Wissenspanel“, „Leute fragen auch“ und „Featured Snippets“ eingenommen wurde.

Matt Simon

Gregory Barber

Adrienne So

Will Knight

Alle diese Technologien – Webcrawling, PageRank, Natural Language Processing, Knowledge Graph und Passage Ranking – überzeugen uns mit einer Reihe von Lügen: Ich habe alles gesehen. Ich bin unparteiisch. Ihr Wohl liegt mir am Herzen. Ich verstehe, was Sie wissen wollen, und es ist erkennbar. Ich habe die Antwort, die Sie suchen.

Das glorreiche Jahrzehnt der Answer Box, zumindest in seiner jetzigen Form, könnte zu Ende gehen. Google hat unter großem Getöse angekündigt, dass es mit der Einbindung generativer KI in die Ergebnisseite experimentiert. Dies wird es Google ermöglichen, Antworten auf indirektere Anfragen zu präsentieren, wie zum Beispiel „Sagen Sie mir, was die Musik von Boygenius einzigartig oder besonders macht“ oder „Schreiben Sie ein Gedicht mit den Titeln unveröffentlichter Boygenius-Tracks“, Anfragen, die wir jetzt eher mit ChatGPT assoziieren.

Wenn Sie ChatGPT eine Frage stellen, erhalten Sie eine überzeugend klingende Antwort, die Neil Gaiman „informationsförmige Sätze“ nennt. Als ich es darum bat, mir Beispiele dafür zu geben, wie unterschiedliche kulturelle und historische Kontexte die Definition von Kreativität prägen, brachte es bereitwillig zehn vage, aber zusammenhängende Beispiele für unterschiedliche Ausdrucksformen von Kreativität über Zeit und Raum hinweg. Aber als ich es bat, mich auf die Quelle seines Wissens über Kreativität und indigene australische „Traumzeit“-Geschichten hinzuweisen, konnte es nur sagen: „Als KI-Sprachmodell wurde ich anhand eines großen Datensatzes geschriebener Texte, einschließlich Büchern, trainiert.“ Artikel und andere Dokumente aus den unterschiedlichsten Bereichen und Quellen … Ich habe keinen direkten Zugriff auf bestimmte Quellen, in denen ich geschult wurde.“ Dann begann es, einige Bücher aufzulisten, die ich lesen könnte, von denen viele vollständig erfunden waren. Generative KI ist noch lange nicht der Anfang von Googles Vorstoß in die arztbasierte Suche, aber sie könnte der Tropfen sein, der das Fass zum Überlaufen bringt.

An einem Arzt ist grundsätzlich nichts auszusetzen. Das Eintauchen in Kaninchenlöcher ist zeitaufwändig, und manchmal lohnt es sich bei einer vertrauenswürdigen Quelle, den Kontext zu verwerfen, um dem Verständnis auf den Grund zu gehen. Das Problem besteht darin, dass es sich bei dem Arzt nicht um eine Person oder eine Gruppe von Menschen handelt, sondern um eine monolithische Ansammlung von Algorithmen für maschinelles Lernen. Wenn wir über KI sprechen, erhöht sich die Geschwindigkeit, mit der wir auf den Kontext zu oder von ihm weglaufen, und wir folgen den drei Reitern des generativen Texts – Fehlinformation, wirtschaftliche Ausbeutung und kreative Fäulnis –, die alle durch den Zusammenbruch des Kontexts belebt werden allergisch gegen Tiefe.

Aber noch beängstigender ist die sanfte Apokalypse einer Wahrheit, die auf Trivia reduziert wird.

Es gibt die Art von verkäuflicher Arztwahrheit, die man aus einem Enzyklopädieeintrag erhält: Besuchen Sie fünf verschiedene Webseiten und sie werden Ihnen den gleichen Schmelzpunkt von Gold nennen. Aber es gibt auch andere Arten von Wahrheit, die der Poesie – wohlgemerkt nicht den Gedichten, sondern der Poesie – des Alltagskontexts innewohnen. In der ästhetischen Sensibilität einer Webseite, in der Umgebung eines Textes und in der Stimme eines Autors steckt Wahrheit. Es ist die Wahrheit der unwillkürlichen Gesten eines Sprechers, des Zuckens einer Lippe. Wahrheit liegt in der Art und Weise, wie sich Wörter auf der Zunge hin und her bewegen, in der Schrägstellung von Buchstabenformen, in Ausrutschern, in (der Lautstärke der Wörter in) Klammern. Ein Satzfragment, das einen Rhythmus unterbricht.

Matt Simon

Gregory Barber

Adrienne So

Will Knight

Ein Text verändert sich mit dem Wissen um seine Herkunft. Ein Text verändert sich mit dem Wissen, wie viel Arbeit in ihn gesteckt wurde. Der Leser erkennt die Bedeutung von Atmosphäre und Klangfarbe auf die gleiche Weise, wie ein Elternteil weiß, ob ein Baby vor Hunger, Angst oder Erschöpfung schreit oder ob ein Herz anders bewegt wird, wenn dasselbe Lied in einer neuen Tonart gespielt wird. Wie das scharfe Verständnis, das anhält, nachdem man aus einem Traum erwacht, an den man sich nicht erinnern kann, so bringt die Kommunikation mit dem chaotischen Kontext der menschlichen Kreativität ein Gespenst hervor, das nachhält und einen mit Zweideutigkeit und Tiefe verfolgt.

Das Gespenst ist das, was Tim O'Brien eine Geschichtenwahrheit nannte, die „manchmal wahrer ist als die Wahrheit, die passiert“; Audre Lorde nannte Poesie „die Art und Weise, wie wir dem Namenlosen einen Namen geben, damit es gedacht werden kann“; und Maggie Nelson (um Wittgenstein zu paraphrasieren) nannte das Unaussprechliche „enthalten – unaussprechlich! – im Ausgedrückten“.

Und diese unaussprechliche, poetische Wahrheitsgeschichte geht über bloßes Wissen hinaus. Es ist die Grundlage für Gespräche, den Austausch von Ideen, kritisches Denken, Zufall und angemessen geschätzte Arbeit. Dies sind die Partikel, die zu einer Gemeinschaft der Fürsorge verschmelzen, die sich einen Dreck um ihre Bewohner schert, zu einem Internet, das die komplexe Schönheit der Kommunikation nicht der flüchtigen Befriedigung des Wissens opfert.

Es gibt Hinweise darauf, dass Google möglicherweise mehr an der Bereitstellung von Kontext interessiert ist als ChatGPT. Und KI kann durchaus, zumindest im technischen Sinne, als Kraft in Richtung Tiefe dienen. Aber die Geschäftsanreize und der Suchverlauf von Google machen mich skeptisch. Die Aufteilung einer analogen Welt in einzelne digitale Informationshäppchen führt dazu, dass wir mehr Zeit mit den Produkten von Google verbringen. Dadurch können die Informationen auch problemlos für andere Plattformen wie die Sprachassistenten von Google recycelt werden.

In einer anderen Welt kann ein Webcrawler als Stützrad für unser eigenes Crawlen dienen, ein Sprachverarbeitungsalgorithmus kann auf Anforderungen verzichten und dafür die reiche Bewusstseinsqualität einer, nun ja, „natürlichen“ Konversation nutzen, und eine Suchmaschine kann die Mauer zurückhalten einer Lösung und präsentieren uns stattdessen Türen.

Stattdessen mache ich mir Sorgen, dass das Antwortfeld eine Vorahnung davon ist, wohin Google gehen möchte, eine Zukunft, in der wir zu Zielen eilen, verdammt noch mal, und Links nur aus Verpflichtung und nicht als Einladung eingefügt werden. Ich mache mir Sorgen, dass unsere Werkzeuge unser Staunen nicht hervorrufen, sondern so behandeln, als wäre es eine Krankheit. Ich befürchte, dass dies nicht nur den Tod des Autors im Barthesschen Sinne bedeuten wird, sondern auch den Tod des von Menschen geschaffenen Werks selbst, wobei die menschliche Sprache durch ihr Simulakrum ersetzt wird. Ich mache mir Sorgen, dass wir auf eine kontextbezogene Ausrottung zusteuern.

Welche technologische Zukunft wollen wir? Eines, das behauptet, alle Antworten zu kennen, oder eines, das uns dazu ermutigt, weitere Fragen zu stellen? Eines, bei dem die Ausgabe Priorität hat, oder die Zugänglichkeit? Eines, das Menschen als einen Datensatz betrachtet, den es zu abbauen gilt und eine Ineffizienz, die es zu überwinden gilt, oder eines, das sie als wertvoll und aufmerksamkeitswürdig ansieht?

Werden wir uns selbst verlieren, wenn wir genau das bekommen, was wir suchen?

AKTIE