Dieses erste Kapitel liefert einen Überblick über zahlreiche Grundfunktionen des Pakets Quanteda, die gleichzeitig die Basis der automatisierten Inhaltsanalyse mit R bilden. Über Quanteda hinaus werden im Verlauf dieser neunteiligen Einführung noch eine Reihe weiterer R-Bibliotheken verwendet, etwa für das überwachte maschinelle Lernen (Kapitel 5) und das Berechnen von Themenmodellen (Kapitel 6). In praktisch jeder Einheit relevant sind dabei die Pakete des tidyverse (vor allem ggplot, dplyr und stringr), durch die zahlreiche Funktionen wie Plotten, Textverarbeitung und Datenmanagement gegenüber den R-Basisfunktionen stark verbessert werden. Pakete für einzelne Teilbereiche, die erst später eine Rolle spielen werden, sind u.a. topicmodels und stm (Themenmodelle), RTextTools und keras (überwachtes maschinelles Lernen), spacyr und udpipe (POS-Tagging und Named-Entity-Erkennung) sowie googlenlp bzw. googleLanguageR (weitere Annotations- und Übersetzungfunktionen).

Die Basis der Analyse in diesem ersten Kapitel bildet einerseits eine Sammlung einfacher Beispielsätze, anhand derer sich die Grundfunktionen von Quanteda gut erläutern lassen, und andererseits die beliebten Detektivgeschichten von Sherlock Holmes. Das Sherlock Holmes-Korpus besteht aus zwölf Erzählungen, die in dem 1892 erschienenem Band The Adventures of Sherlock Holmes zusammengefasst sind, und die man gemeinfrei unter anderem durch das Internet Archive herunterladen kann. Die für diese Einführung verwendete Fassung wurde zunächst dem Internet Archive entnommen und dann in zwölf Einzeldateien aufgeteilt. Natürlich können die vorgestellten Methoden auf die anderen hier behandelten Korpora angewandt werden – das Beispiel dient nur dazu, sich langsam an quanteda und die Grundlagen der computergestützen Inhaltsanalyse zu gewöhnen ohne das dabei bestimmte Vorkenntnisse vorausgesetzt werden.

Sämtliche in dieser Einführung verwendeter Codebeispiele, Korpora und Lexika können hier heruntergeladen werden.

Installation und Laden der benötigten R-Bibliotheken

Zunächst werden die notwendigen Bibliotheken installiert (sofern noch nicht vorhanden) und anschließend geladen. Zudem wird vorbereitend die Theme-Einstellung für das Paket ggplot gesetzt (dies sorgt für hübschere Plots). Diesen Schritt wiederholen wir zu Beginn jedes Kapitels, daher wird auf ihn später nicht mehr weiter eingegangen. In einigen Kapiteln werden noch weiteren Pakete gelanden, etwa für eine erweiterte Farbpalette (RColorBrewer), Wortwolken (wordcloud) oder um URLs zu parsen (urltools).

if(!require("quanteda")) {install.packages("quanteda"); library("quanteda")}
if(!require("readtext")) {install.packages("readtext"); library("readtext")}
if(!require("tidyverse")) {install.packages("tidyverse"); library("tidyverse")}
if(!require("RColorBrewer")) {install.packages("RColorBrewer"); library("RColorBrewer")}
theme_set(theme_minimal())

Erste Gehversuche mit Quanteda

Wenn alle notwendigen Pakete erfolgreich geladen wurden, können wir einen ersten Gehversuch mit Quanteda unternehmen. Typischerweise wird ein Korpus (also eine Sammlung von Texten und zugehörigen Metadaten) erstellt, indem Dateien von der Festplatte oder aus dem Internet eingelesen werden, die dann den Korpusinhalt bilden. Im folgenden ersten Schritt halten wir es noch etwas einfacher und arbeiten mit einem synthethischen Beispiel. Dazu lesen wir lediglich drei Beispielsätze ein in R ein und erstellen daraus einen Korpus.

beispielsaetze <- c("Ein Hund kam in die Küche",
                    "In der Küche gibt es noch Kaffee",
                    "Im Kaffee fehlt noch die Milch")

Das Objekt beispielsaetze enthält aus Sicht von Quanteda drei Texte, aus denen sich mit der gleichnamigen Funktion problemlos ein Objekt vom Typ corpus erstellen lässt.

beispielkorpus <- corpus(beispielsaetze)
beispielkorpus
Corpus consisting of 3 documents.
text1 :
"Ein Hund kam in die Küche"

text2 :
"In der Küche gibt es noch Kaffee"

text3 :
"Im Kaffee fehlt noch die Milch"

Die Meldung bestätigt uns genau das – wir haben erfolgreich einen Korpus aus drei Texten erstellt. Derzeit enthält unser Korpus noch keinerlei Metadaten, also Angaben zu den im Korpus enthaltenen Texten. In der Terminologie von Quanteda werden Metadaten auch als Dokument-Variablen (docvars) bezeichnet.

Die in einem Korpus enthaltenen Texte lassen sich jedenzeit mit dem Befehl texts ausgeben.

texts(beispielkorpus)
                             text1                              text2 
       "Ein Hund kam in die Küche" "In der Küche gibt es noch Kaffee" 
                             text3 
  "Im Kaffee fehlt noch die Milch" 

Nun fügen wir unserem Korpus mit Hilfe des Befehls docvars eine Dokument-Variable hinzu. Sinn und Zweck dieser Variablen ist die (später noch wichtige) Zuordnung von Metadaten zu dem erfassten Textmaterial.

docvars(beispielkorpus, "Text_Autor") <- c("Paul", "Marie", "Paul")

Wieso ist die Erstellung eines Korpus und das Anlegen von Dokument-Variablen sinnvoll? Eine Zusammenfassung unseres Beispielkorpus gibt einen ersten Aufschluss.

summary(beispielkorpus)
Corpus consisting of 3 documents, showing 3 documents:

  Text Types Tokens Sentences Text_Autor
 text1     6      6         1       Paul
 text2     7      7         1      Marie
 text3     6      6         1       Paul

Die Zusammenfassung zeigt die im Korpus enthaltenden Texte, die jeweils einen einmaligen Bezeichner erhalten (text1, text2, text3). Weiterhin gibt sie Aufschluss über die Anzahl der Tokens (laufende Wörter), die Anzahl der Types (einmalige Wörter), und die Anzahl der Sätze pro Text. Schließlich wird noch die gerade von uns eingeführte Dokument-Variable Text_Autor widergegeben.

Auch wenn das zunächst nicht weiter wichtig erscheinen mag: Die Möglichkeit, eine große Anzahl von Texten aus unterschiedlichen Quellen zu einem Korpus-Objekt zusammenzufassen und dieses anschließend mit Metadaten zu versehen, ist ein ganz entscheidender Vorteil von Quanteda. Wir werden folgend mit deutlich größeren Korpora arbeiten, die alle nach diesem Prinzip erstellt wurden.

Einlesen der Daten und Anlegen des Sherlock Holmes-Korpus

Nachdem wir einen ersten Einblick in die Erstellung eines sehr simplen Quanteda-Korpus erhalten haben, können wir nun die Sherlock Holmes-Romane einlesen und daraus ebenfalls einen Korpus erstellen, nun aber in einer realistischen Größe.

Für das Einlesen der Plaintext-Dateien wird die Funktion readtext aus dem gleichnamigen Paket verwendet, durch die sich eine Reihe von Dateiformaten erfolgreich importieren lassen (u.a. TXT, PDF und Word). Grundsätzlich sich Plaintext–Daten (i.d.R. mit der Endung “.txt”) und Daten in Tabellenform (etwa im Format CSV oder auch als Excel–Datei) für readtext ohne größere Probleme lesbar, allerdings muss man beim Einlesen erklären, wie genau die einzelnen Datensätze von einander getrennt sind (bei Plaintext–Dateien wo nicht 1 Datei == 1 Text, was etwa bei Exporten aus Lexis Nexis der Fall sein kann), bzw. welche Felder die Primär– und welche Metadaten beinhalten (bei Tabellen). Eine gute Einführung zum Paket readtext findet sich hier.

daten.sherlock <- readtext("daten/sherlock/romane/*.txt") 
daten.sherlock$doc_id <- str_sub(daten.sherlock$doc_id, start = 4, end = -5)

In diesem Fall entspricht jede Datei einem Text (nicht wie zuvor, einen einzigen Satz), wodurch der Import sehr umkompliziert ausfällt. Zunächst laden wir nur Dateien mit der Endung “.txt” aus dem Verzeichnis daten/sherlock/romane. Dann ziehen wir die Namen der Romane aus den Dateinamen, um diese später in Plot–Beschriftungen verwenden zu können.

korpus <- corpus(daten.sherlock, docid_field = "doc_id") 
docvars(korpus, "Textnummer") <- 1:12
korpus
Corpus consisting of 12 documents and 1 docvar.
A Scandal in Bohemia :
"A Scandal in Bohemia   To Sherlock Holmes she is always the ..."

The Red-headed League :
"The Red-headed League   I had called upon my friend, Mr. She..."

A Case of Identity :
"A Case of Identity   "My dear fellow." said Sherlock Holmes ..."

The Boscombe Valley Mystery :
"The Boscombe Valley Mystery   We were seated at breakfast on..."

The Five Orange Pips :
"The Five Orange Pips   When I glance over my notes and recor..."

The Man with the Twisted Lip :
"The Man with the Twisted Lip   Isa Whitney, brother of the l..."

[ reached max_ndoc ... 6 more documents ]

Nun generieren wir wieder mit dem Befehl corpus ein Quanteda-Korpus-Objekt. Im Gegensatz zu unserem Beispielkorpus bilden in diesem Fall die mittels readtext zuvor eingelesenen Datein die Grundlage. Die Funktion corpus versteht mehrere Datenformate, also Character-Vektoren (unser erstes Beispiel) ebenso wie Data Frames (wie mittels readtext erstellt) oder Objekte aus dem Paket tm. Zweitens wird eine Dokument-Variable Textnummer generiert, die wir ebenfalls später noch gebrauchen können. Zum Schluss wird die Variable korpus aufgerufen, was uns die wichtigen Eckdaten zum Korpus sowie Metadaten zu den enthaltenden Texten zurückliefert.

In den folgenden Abschnitten werden häufig bereits vorbereitete Korpora geladen, d.h. der Befehl corpus wird hier nicht mehr explizit ausgeführt. Er ist aber im Vorfeld ausgeführt worden, um aus Textdatein auf der Festplatte oder Twitter-Daten in einem R-Data Frame einen Quanteda-Korpus zu erstellen.

Die Funktionen ndoc, ntoken, ntype und nsentence geben die Anzahl der Dokumente, Tokens, Types und Sätze aus. Diese Statistiken können bequem gemeinsam mit Metadaten auf Dokumentebene durch die Funktion summary erstellt werden. Bei den meisten Korpora, die hier verwendet werden, liegt ein solcher Data Frame mit Statistiken zu jedem Text bereits bei. Notwendig ist dies allerdings nicht. Will man auf Korpus–Metadaten zurückgreifen oder diese verändern, kann man dies jederzeit über den Befehl docvars tun.

korpus.stats <- summary(korpus)
korpus.stats$Text <- reorder(korpus.stats$Text, 1:12, order = T)
korpus.stats
Corpus consisting of 12 documents, showing 12 documents:

                                  Text Types Tokens Sentences Textnummer
                  A Scandal in Bohemia  2153  10475       674          1
                 The Red-headed League  2091  11073       577          2
                    A Case of Identity  1758   8456       399          3
           The Boscombe Valley Mystery  2103  11453       636          4
                  The Five Orange Pips  1929   8833       476          5
          The Man with the Twisted Lip  2178  11109       616          6
   The Adventure of the Blue Carbuncle  1930   9611       553          7
    The Adventure of the Speckled Band  2243  11737       634          8
 The Adventure of the Engineer's Thumb  1976   9960       512          9
   The Adventure of the Noble Bachelor  1950   9930       580         10
    The Adventure of the Beryl Coronet  1997  11620       626         11
   The Adventure of the Copper Beeches  2119  11962       621         12

Manchmal ist es bei der Erstellung von Korpus-Zusammenfassungen sinnvoll, das optionale Funktionsargument n = 1000000 zu verwenden, weil die Funktion summary ansonsten nur maximal 100 Texte zusammenfasst. In diesem Fall reicht das zwar aus, aber bei größeren Datensätzen ist diese Beschränkung eher unpraktisch. Technisch gesehen heißt diese Funktion summary.corpus und ist eine an Korpus-Objekte angepasste Variante der Basisfunktion summary, die auch sonst in R verwendet wird. Der Befehl reorder wird verwendet, um die Texte auch in Plots nach ihrer Reihenfolge in The Adventures of Sherlock Holmes zu sortieren, statt alphabetisch nach Titel.

Der Inhalt der Variable korpus.stats kann natürlich auch geplottet werden, um einen anschaulichen Eindruck von der Korpusbeschaffenheit zu geben. Die folgenden Zeilen liefern die Anzahl der Tokens (laufende Wörter), die Anzahl der Types (einmalige Wörter), und Sätze pro Roman zurück (vgl. dazu diese Einführung). Schließlich wird noch das Verhältnis von Typen zu Tokens (oder die sog. Typ-Token-Relation) geplottet.

Grundlage solcher Plots sind praktisch immer Data Frame-Objekte (also Tabellen), die Informationen über Korpora, Texte, Wörter, Themen usw. enthalten, welche sich visuell darstellen lassen. Im Rest dieser Einführung gehe ich nicht im Detail darauf ein, wie die jeweiligen Plots genau konstruiert werden, allerdings lassen sich die meisten Daten auch (etwas weniger ansprechend) mit der R-internen Funktion plot darstellen. Eine hilfreiche deutschsprachige Einführung in das Plotten mit ggplot2 findet sich hier. Viele der hier vorgestellten Plots stammen zudem direkt aus quanteda (beginnend mit textplot_).

ggplot(korpus.stats, aes(Text, Tokens, group = 1)) + 
  geom_line() + 
  geom_point() + 
  theme(axis.text.x = element_text(angle = 45, vjust = 1, hjust = 1)) +
  ggtitle("Tokens pro Roman")

ggplot(korpus.stats, aes(Text, Types, group = 1)) + 
  geom_line() + geom_point() + 
  theme(axis.text.x = element_text(angle = 45, vjust = 1, hjust = 1)) +
  ggtitle("Types pro Roman")

ggplot(korpus.stats, aes(Text, Sentences, group = 1)) + 
  geom_line() + 
  geom_point() + 
  theme(axis.text.x = element_text(angle = 45, vjust = 1, hjust = 1)) +
  ggtitle("Sätze pro Roman")

ggplot(korpus.stats, aes(Tokens, Types, group = 1, label = Textnummer)) +
  geom_smooth(method = "lm", formula = "y ~ x", se = FALSE) + 
  geom_text(check_overlap = T) + 
  ggtitle("Typ-Token-Relation pro Roman")

Diese Grafiken sind zunächst einmal nicht umwerfend informativ. Sie belegen lediglich, dass die Erzählungen ‘A Case of Identity’ und (in geringerem Maße) ‘The Five Orangen Pips’ deutlich kürzer sind als die anderen Texte, was sich auf allen drei Ebenen (Tokens, Types, Sätze) niederschlägt. Etwas interessanter wird es allerdings bei der Typ-Token-Relation: während drei Romane (mit den Nummern 3, 11 und 12) jeweils einen eher unterdurchschnittlichen TTR aufweisen, liegen weitere vier oberhalb der linearen Relation (1, 5, 6 und 8), während die verbleibenden sechs ziemlich genau dem Durchschnitt entsprechen. Über den TTR lassen sich Rückschlüssen über die Informationsdichte ziehen – dazu später noch mehr.

Mit Korpora arbeiten

Korpora lassen sich in quanteda sehr leicht samplen, umformen und mit zusätzlichen Metadaten versehen. Metadaten können wiederum genutzt werden, um das Korpus nach bestimmten Kriterien zu filtern. Der folgenden Aufruf zeit die ersten 1.000 Wörter des ersten Romans.

str_sub(korpus[2], start = 1, end = 1000)
[1] "The Red-headed League\n\n  I had called upon my friend, Mr. Sherlock Holmes, one day in\nthe autumn of last year and found him in deep conversation with\na very stout, florid-faced, elderly gentleman with fiery red hair.\nWith an apology for my intrusion, I was about to withdraw when\nHolmes pulled me abruptly into the room and closed the door\nbehind me.\n  \"You could not possibly have come at a better time, my dear\nWatson,\" he said cordially.\n  \"I was afraid that you were engaged.\"\n  \"So I am. Very much so.\"\n  \"Then I can wait in the next room.\"\n  \"Not at all. This gentleman, Mr. Wilson, has been my partner\nand helper in many of my most successful cases, and I have no\ndoubt that he will be of the utmost use to me in yours also.\"\n  The stout gentleman half rose from his chair and gave a bob of\ngreeting, with a quick little questioning glance from his small\nfat-encircled eyes.\n  \"Try the settee,\" said Holmes, relapsing into his armchair\nand putting his fingertips together, as was his custom wh"

Jeder Text lässt sich also auch direkt anhand seiner Indizierung aufrufen (etwa korpus[1] für den ersten Text), neben dem Aufruf über die Funktion texts. Texte könne auf diesem Weg auch ersetzt werden, ganz so, wie man die Elemente eines Vektors oder Data Frames überschreiben kann.

Mittels corpus_reshape lässt sich ein Korpus so umformen, dass jeder Satz ein eigenes Dokument ergibt. Alternative Argumente sind “paragraphs” und “documents” (so lässt sich ein Satz-Korpus wieder in seinen Anfangszustand zurückversetzen). Die Erstellung von Satz-Korpora ist für die Sentimentanalyse und das überwachte maschinelle Lernen von Interesse.

Die Beschriftung des Beispiels besteht hier aus der Variable docname und einer angehängten Zahl (eine 1 für den ersten Satz).

korpus.saetze <- corpus_reshape(korpus, to = "sentences")
korpus.saetze[100]
Corpus consisting of 1 document and 1 docvar.
A Scandal in Bohemia :
"Let us glance at our Continental Gazetteer.""

Mit corpus_sample kann weiterhin ein zufälliges Sample aus einem Korpus gezogen werden. Wir wenden die Funktion hier auf das Satz-Korpus an.

zufallssatz <- corpus_sample(korpus.saetze, size = 1)
zufallssatz[1]
Corpus consisting of 1 document and 1 docvar.
The Red-headed League :
"It is most refreshingly unusual."

Anhand von corpus_subset kann ein Korpus schließlich nach Metadaten gefiltert werden.

Um dies tun zu können, erstellen wir im nächsten Schritt eine binäre Dokument-Variable mit dem Namen LangerSatz, die dann TRUE ist, wenn ein Satz >= 25 Tokens enthält. So lässt sich mit corpus_subset ein Teilkorpus zu bilden, in dem nur längere Sätze enthalten sind. Das Beispiel soll verdeutlichen, dass mithilfe der von Quanteda bereitgestellten Funktionen zahlreiche Schritte für die Bereinigung von Korpora möglich sind.

docvars(korpus.saetze, "LangerSatz") <- ntoken(korpus.saetze)>=25
korpus.saetze_lang <- corpus_subset(korpus.saetze, LangerSatz == TRUE)
korpus.saetze_lang[1:3]
Corpus consisting of 3 documents and 2 docvars.
A Scandal in Bohemia.1 :
"He was, I take it, the most perfect reasoning and observing ..."

A Scandal in Bohemia.2 :
"But for the trained teasoner to admit such intrusions into h..."

A Scandal in Bohemia.3 :
"Grit in a sensitive instrument, or a crack in one of his own..."

Die Möglichkeit, mit bestehenden (bspw. Autor, Quelle, Rubrik, Zeitstempel) und eigens erstellten Dokument-Variablen (bspw. Thema, Sentiment) zu arbeiten, gehört wie schon erwähnt zu den größten Stärken von Quanteda, weil diese Angaben zu jedem Zeitpunkt in der Analyse zur Verfügung stehen. Folgend filtern oder gruppieren wir Korpora häufig auf der Grundlage von Metadaten.

Schließlich lassen sich Korpora mit Hilfe von corpus_segment auch nach bestimmten Kriterien aufspalten und mittels corpus_trim nach festen Bedingungen reduzieren, um etwa sehr kurze Texte auszuschließen. Im folgenden Beispiel wird eine ganze Kette von Operationen (Segmentierung, Trimmen, Zufallssample ziehen) so durchgeführt. Dabei werden auch erstmals die für das tidyverse typischen pipes verwendet. Bei pipes handelt es sich um eine Art spezielle Art der R-Syntax, die das schrittweise Umformen von Daten stark erleichtert. Im Verlauf dieser Einführung werden pipes stark genutzt, vor allem, um Ergebnisse für die Darstellung mittels ggplot vorzubereiten.

zufallsabsatz <- corpus_segment(korpus, "  ") %>% 
  corpus_trim(what = "documents", min_ntoken = 3) %>% 
  corpus_sample(size = 1)
zufallsabsatz[1]
Corpus consisting of 1 document and 2 docvars.
The Adventure of the Noble Bachelor :
"The Lord St. Simon marriage, and its curious termination, ha..."

Tokenisierung

Unter Tokensierung versteht man die Aufspaltung eines Textes in laufende Wörter oder sog. N-Gramme, also Sequenzen mehrerer Wörter in Folge. Die Funktion tokens realisiert die Tokenisierung eines Korpus in quanteda. Zusätzlich versteht tokens auch unzählige Argumente für die Entfernung bestimmter Features.

meine.tokens <- tokens(korpus, verbose = TRUE)
Creating a tokens object from a corpus input...
 ...starting tokenization
 ...A Scandal in Bohemia to The Adventure of the Copper Beeches
 ...preserving hyphens
 ...preserving social media tags (#, @)
 ...segmenting into words
 ...9,397 unique types
 ...removing separators 
 ...complete, elapsed time: 0.29 seconds.
Finished constructing tokens from 12 documents.
head(as.list(meine.tokens)$`A Scandal in Bohemia`, 20)
 [1] "A"        "Scandal"  "in"       "Bohemia"  "To"       "Sherlock" "Holmes"  
 [8] "she"      "is"       "always"   "the"      "woman"    "."        "I"       
[15] "have"     "seldom"   "heard"    "him"      "mention"  "her"     

Mittels der Funktion tokens lässt sich der Text über das Argument ngrams auch gleich in N-Gramme (Mehrwortsequenzen) aufspalten. Im folgenden Beispiel werden erst Bigramme vom Anfang des ersten Textes angezeigt, und dann alle Sequenzen von einem, zwei oder drei Begriffen extrahiert (durch die Anwendung von head sehen wir nur Trigramme, es sind aber auch kürzere Sequenzen vorhanden).

meine.ngrams <- tokens_ngrams(meine.tokens, n = 2)
sample(as.list(meine.ngrams)$`A Scandal in Bohemia`, 5)
[1] "there_was"    "eyes_of"      "man_."        "am_lost"      "understand_,"
meine.ngrams <- tokens_ngrams(meine.tokens, n = 1:3)
sample(as.list(meine.ngrams)$`A Scandal in Bohemia`, 5)
[1] "on_the_other"           "anything_which_you"     "to"                    
[4] "conduct"                "bridegroom_from_having"

Hilfreich ist auch die Möglichkeit, bei der Tokenisierung bestimmte Begriffe zu entfernen oder zurückzubehalten.

meine.tokens <- tokens(korpus)
begriffe.behalten <- tokens_select(meine.tokens, c("holmes", "watson")) 
head(as.list(begriffe.behalten)$`A Scandal in Bohemia`)
[1] "Holmes" "Holmes" "Holmes" "Holmes" "Watson" "Watson"
begriffe.entfernen <- tokens_remove(meine.tokens, c("sherlock", "holmes", "in", "is", "the", "a"))
head(as.list(begriffe.entfernen)$`A Scandal in Bohemia`)
[1] "Scandal" "Bohemia" "To"      "she"     "always"  "woman"  

Wie bereits angedeutet akzeptiert die Funktion tokens eine Reihe von Argumenten, mit denen ganze Klassen von Zeichenketten (Zahlen, Interpunktion, Symbole usw.) gezielt ausgeschlossen oder zurückbehalten werden können. Folgend werden zunächst Zahlen, Interpunktion und Symbole entfernt, dann mittels tokens_tolower alle Wörter in Kleinschreibung umgewandelt und dann dann noch die Wörter “sherlock” und “holmes”, sowie eine Reihe englischer Stoppwörter entfernt. Wir verwenden hier dplyr-Syntax, wenden also nacheinander eine Reihe von Umformungen auf das gleich Objekt an.

meine.tokens <- korpus %>% 
  tokens(remove_numbers = TRUE, remove_punct = TRUE, remove_symbols = TRUE) %>% 
  tokens_tolower() %>% 
  tokens_remove(c(stopwords("english"), "sherlock", "holmes"))
head(as.list(meine.tokens)$`A Scandal in Bohemia`)
[1] "scandal" "bohemia" "always"  "woman"   "seldom"  "heard"  

Das Resultat ist der Art von Daten, mit denen man bei Verfahren wie der Anwendung von Lexika (Kapitel 2-3), dem überwachten maschinellen Lernen (Kapitel 4) und der Berechnung von Themenmodellen (Kapitel 5), häufig arbeitet sehr ähnlich. Durch die Stoppwortentfernung und andere Schritte gehen syntaktische Informationen verloren, d.h. man kann nicht mehr nachvollziehen, wer was mit wem tut, oder wie der Text insgesamt argumentativ oder erzählerisch aufgebaut ist. Diese Informationen sind allerdings im “Bag-of-Words-Ansatz”, der in der automatisierten Inhaltsanalyse nahezu immer verwendet wird, nicht unbedingt relevant.

Die in diesem Abschnitt beschriebenen Schritte sind zwar im Einzelfall nützlich, werden aber in den folgenden Kapitel praktisch nicht angewandt, weil die Daten dort schon als quanteda–Korpora vorliegen, und weil zudem häufig auch bis auf die Anwendung der Funktion corpus keine weiteren Schritte notwendig sind. Die Tokenisierung wird zudem implizit angewandt, sobald eine Dokument-Feature-Matrize (DFM, s.u.) erstellt wird.

Dokument-Feature-Matrizen (DFMs) erstellen

Wir kommen nun zu einer zentralen Datenstruktur von quanteda, die im Gegensatz zu den zuvor vorgestellten Funktionen praktisch in jedem Projekt vorkommt: die Document Feature-Matrize (DFM). Üblicherweise wird direkt nachdem ein Korpus angelegt wurde eine DFM berechnet, zuweilen auch mehrere. Eine DFM ist eine Tabelle, deren Zeilen Texte und deren Spalten Wortfrequenzen enhalten. Dabei gehen Informationen darüber, wo in einem Text ein Wort vorkommt verloren (man spricht auch vom ‘Bag-of-Words-Ansatz’ und davon, dass DFMs im Gegensatz zum eigentlichen Korpus nicht-positional sind). Immer dann, wenn wir uns für die Beziehung von Wörtern zu Texten (und umgekehrt) interessieren, berechnen wir eine DFM.

Im DFMs zu verstehen hilft es, noch einmal zu unserem künstlichen Beispielkorpus vom Anfang zurückzukehren. Eine DFM wird surprise, surprise mit Hilfe der Funktion dfm erstellt. Grundlage sollte immer ein Quanteda-Korpus-Objekt sein, auch wenn theoretisch auch Tokens-Objekte akzeptiert werden. Das Beispiel zeigt, was mit den Texten im Korpus geschieht, wenn diese in eine DFM überführt werden.

beispielsaetze <- c("Ein Hund kam in die Küche",
                    "In der Küche gibt es noch Kaffee",
                    "Im Kaffee fehlt noch die Milch")
beispielkorpus <- corpus(beispielsaetze)
beispieldfm <- dfm(beispielkorpus)
beispieldfm
Document-feature matrix of: 3 documents, 14 features (54.8% sparse).
       features
docs    ein hund kam in die küche der gibt es noch
  text1   1    1   1  1   1     1   0    0  0    0
  text2   0    0   0  1   0     1   1    1  1    1
  text3   0    0   0  0   1     0   0    0  0    1
[ reached max_nfeat ... 4 more features ]

Die Funktion liefert uns eine Tabelle (oder genauer: ein R-Objekt vom Typ Matrix), in der die Zeilen die im Korpus enthaltenen Dokumente und die Spalten die im Korpus enthaltenen Wörter widergeben. Die Zahlen in den Zellen geben die Worthhäufigkeit an – in unserem simplen Beispiel kommt jedes Wort pro Text nur maximal einmal vor, das ist aber in einem richtigen Korpus durchweg anders. Die Anordung der Spalten folgt zwar dem Vorkommen der Wörter im Korpus, allerdings taucht jedes Feature nur einmal auf, da es sich ja um Summenangaben handelt. Bei der sog. Sparsity (“54.8% sparse”) handelt es sich um den Prozentsatz der Zellen, in denen eine Null steht – dazu später noch etwas mehr.

Wieso heißt es bei Quanteda DFM, wird also von Features statt von Wörtern oder Termen gesprochen? Weil die Features auch Zahlen, Satzzeichen oder Emjois sein können. Auch Sequenzen aus mehreren Tokens (sog. N-Gramme) sind Features.

Was hat sich gegenüber dem Korpus (in dem wir ja auch schon die Typ- und Tokenanzahl pro Text berechnen konnten) überhaupt verändert? Eine DFM ist nicht-positional, d.h. die Information darüber, wo im Text ein Wort vorkommt, ist im Gegensatz zum Korpus nicht mehr vorhanden. Dafür haben DFMs jedoch einen entscheinden Vorteil: Sie erlauben es uns, die Dokumente (anhand eines Dokumentenvektors) und die Features (anhand eines Featurevektors) miteinander zu vergleichen. Im nächsten Kapitel werden wir uns diesem Umstand zunutze machen, um Dokumente und Wörter miteinander zu vergleichen.

Wir wenden das, was wir gerade anhand des Beispielkorpus getestet haben, nun auf das Sherlock Holmes-Korpus an. Dabei nutzen wir realistischere Einstellungen für die Tokenisierung, entfernen also Zahlen, Interpunktion, Symbole und Stoppwörter.

meine.dfm <- dfm(korpus, remove_numbers = TRUE, remove_punct = TRUE, remove_symbols = TRUE, remove = stopwords("english"))
meine.dfm
Document-feature matrix of: 12 documents, 8,588 features (79.3% sparse) and 1 docvar.
                              features
docs                           scandal bohemia sherlock holmes always woman seldom heard
  A Scandal in Bohemia               4       8       11     47      5    12      3     8
  The Red-headed League              0       0       10     51      5     0      0    15
  A Case of Identity                 0       2        7     46      7    10      0     5
  The Boscombe Valley Mystery        1       0       10     43      5     1      0    10
  The Five Orange Pips               1       0       10     25      5     1      0     5
  The Man with the Twisted Lip       0       0       10     28      4     5      0     8
                              features
docs                           mention name
  A Scandal in Bohemia               1    6
  The Red-headed League              0    6
  A Case of Identity                 0    1
  The Boscombe Valley Mystery        0    3
  The Five Orange Pips               1    5
  The Man with the Twisted Lip       0    4
[ reached max_ndoc ... 6 more documents, reached max_nfeat ... 8,578 more features ]

Wer sich fragt, wo diese Argumente für dfm eigentlich herkommen: Hier wird implizit der uns schon vertraute Befehl tokens angewandt, um bestimmte Features zu entfernen (oder ggf. auch zurückzubehalten). Ergebnis ist eine deutlich größere Matrix als zuvor, die auch eine deutlich höhere Sparsity aufweist. Folgend tokenisieren wir praktisch nie, ohne auch gleich eine DFM zu berechnen.

Vieles funktioniert bei DFMs analog zur Erstellung eines Korpus. So zählen die Funktionen ndoc und nfeat Dokumente und Features (Wörter).

ndoc(meine.dfm)
[1] 12
nfeat(meine.dfm)
[1] 8588

Mittels der Funktionen docnames und featnames lassen sich die Namen der Dokumente und Features ausgeben.

message("Docnames")
Docnames
head(docnames(meine.dfm)) 
[1] "A Scandal in Bohemia"         "The Red-headed League"       
[3] "A Case of Identity"           "The Boscombe Valley Mystery" 
[5] "The Five Orange Pips"         "The Man with the Twisted Lip"
message("Featnames")
Featnames
head(featnames(meine.dfm))
[1] "scandal"  "bohemia"  "sherlock" "holmes"   "always"   "woman"   

Die tabellarische Ansicht illustriert den Inhalt der DFM als Text-Wort-Matrix am besten. Wie bereits angedeutet, beschreibt die Sparsity (“Spärlichkeit”) einer DFM dabei den Anteil der leeren Zellen, also Wörter, die nur in sehr wenigen Texten vorkommen. Wie sich leicht ableiten lässt, werden DFMs sehr schnell sehr groß. Zum Glück macht sich Quanteda eine Reihe von für den Nutzer unsichtbaren Funktionen aus anderen Paketen zunutze, um diesem Problem zu begegnen.

head(meine.dfm, n = 12, nf = 5)
Document-feature matrix of: 12 documents, 5 features (28.3% sparse) and 1 docvar.
                              features
docs                           scandal bohemia sherlock holmes always
  A Scandal in Bohemia               4       8       11     47      5
  The Red-headed League              0       0       10     51      5
  A Case of Identity                 0       2        7     46      7
  The Boscombe Valley Mystery        1       0       10     43      5
  The Five Orange Pips               1       0       10     25      5
  The Man with the Twisted Lip       0       0       10     28      4
[ reached max_ndoc ... 6 more documents ]

Gleich an den ersten Blick fällt auf, das die Wörter ‘sherlock’ und ‘holmes’ in allen Romanen vorkommen, also sehr wenig distinktiv sind, weshalb wir sie unter Umständen zu den Stoppwörtern für dieses Korpus hinzufügen sollten.

Die Funktion topfeatures, die wie bereits im Zusammenhang mit Korpora kennengelernt haben, zählt auch Features innerhalb einer DFM aus.

topfeatures(meine.dfm)
  said   upon holmes    one    man     mr little    now    see    may 
   485    465    443    372    290    275    269    234    229    197 

Mit DFMs arbeiten

DFMs lassen sich mit dfm_sort leicht nach Dokument- und Feature-Frequenzen sortieren. Das ist in der Praxis unter anderem dann hilfreich, wenn man einen besseren Einblick in den Inhalt einer großen DFM bekommen möchte. Hier lassen wir uns zwölf Dokumente (n = 12) und (nur) fünf Features (nf = 5) ausgeben und sortieren dabei absteigend nach der Feature-Frequenz.

head(dfm_sort(meine.dfm, decreasing = TRUE, margin = "features"), n = 12, nf = 5) 
Document-feature matrix of: 12 documents, 5 features (0.0% sparse) and 1 docvar.
                              features
docs                           said upon holmes one man
  A Scandal in Bohemia           33   25     47  27  23
  The Red-headed League          51   50     51  29  25
  A Case of Identity             45   35     46  17  16
  The Boscombe Valley Mystery    37   42     43  31  41
  The Five Orange Pips           32   47     25  29  19
  The Man with the Twisted Lip   28   54     28  36  30
[ reached max_ndoc ... 6 more documents ]

Weiterhin lassen sich bestimmte Features einer DFM gezielt mittels dfm_select auswählen.

dfm_select(meine.dfm, pattern = "lov*")
Document-feature matrix of: 12 documents, 7 features (67.9% sparse) and 1 docvar.
                              features
docs                           love lover lovely loves loved lovers loving
  A Scandal in Bohemia            5     1      1     1     1      0      0
  The Red-headed League           1     0      0     0     0      0      0
  A Case of Identity              2     0      0     0     0      1      0
  The Boscombe Valley Mystery     1     0      1     0     1      0      0
  The Five Orange Pips            1     0      0     0     0      0      0
  The Man with the Twisted Lip    0     0      0     0     0      0      0
[ reached max_ndoc ... 6 more documents ]

Die Funktion dfm_wordstem reduziert Wörter auf ihre Stammform. Diese Funktion existiert in quanteda derzeit nur für Englisch und ist auch dort nur begrenzt zuverlässig, was die folgende Ausgabe gut illustriert (‘holm’ ist natürlich kein Wortstamm).

meine.dfm.stemmed <- dfm_wordstem(meine.dfm)
topfeatures(meine.dfm.stemmed)
 said  upon  holm   one   man    mr littl   see   now  come 
  485   465   460   383   304   275   269   253   234   207 

Ebenso wie bei Wortfrequenzen in Korpora ist die Gewichtung einer DFM nach relativen Wortfrequenzen und Verfahren wie TF-IDF oftmals sinnvoll. Praktischerweise beherrscht die Quanteda-Funktion dfm_weight eine ganze Reihe von Gewichtungsansätzen um relative Wortfrequenzen zu berechnen.

Zunächst schauen wir uns noch einmal die absoluten Wortfrequenzen für das gesamte Korpus an.

topfeatures(meine.dfm)
  said   upon holmes    one    man     mr little    now    see    may 
   485    465    443    372    290    275    269    234    229    197 

Dann verwenden wir dfm_weight um diese proportional zur Gesamtwortanzahl des Romans zu gewichten.

meine.dfm.proportional <- dfm_weight(meine.dfm, scheme = "prop")
topfeatures(meine.dfm.proportional)
      said       upon     holmes        one        man         mr     little        now 
0.12555092 0.12033928 0.11379305 0.09552194 0.07420396 0.07121706 0.06911393 0.06020163 
       see        may 
0.05895969 0.05060945 

Das ist aber noch nicht alles. Die Gewichtung einer DFM basiert bei bestimmten Gewichtungsmechanismen (propmax, augmented, logave sowie TF-IDF) auf der Wort-Dokument-Relation, weshalb topfeatures() in Kombination mit diesen Gewichtungen merkwürdige Resultate produziert.

Die Gewichtungsansätze Propmax und TF-IDF liefern relevante Wortmetriken, zum Beispiel für die Bestimmung von Stoppwörtern. Propmax skaliert die Worthäufigkeit relativ zum frequentesten Wort (hier ‘holmes’ in ‘A Scandal in Bohemia’).

meine.dfm.propmax <- dfm_weight(meine.dfm, scheme = "propmax")
topfeatures(meine.dfm.propmax[1,])
    holmes       said        one       upon        man        may photograph     street 
 1.0000000  0.7021277  0.5744681  0.5319149  0.4893617  0.4468085  0.4042553  0.3829787 
      know        now 
 0.3829787  0.3617021 

Funktional ähneln sich TF-IDF und der später vorgestellte Keyness-Ansatz – beide finden besonders distinktive Terme. Beim Vergleich von Propmax und TF-IDF wird deutlich, dass die wörter ‘holmes’ und ‘said’ zwar besonders häufig in ‘A Scandal in Bohemia’ vorkommen, aber nicht unbedingt besonders distinktiv sind, weil sie logischerweise im gesamten Korpus frequent sind, während etwa das Wort ‘photograph’ sowohl oft vorkommt, als auch für diesen Roman kennzeichnend ist.

meine.dfm.tfidf <- dfm_tfidf(meine.dfm)
topfeatures(meine.dfm.tfidf[1,])
   majesty     briony photograph      irene      adler     norton      lodge       mask 
 17.266900  11.870994   9.065304   7.826780   7.826780   7.554269   6.622660   5.395906 
   godfrey       king 
  5.395906   5.117510 

Schließlich lässt sich mit dfm_trim noch eine reduzierten Dokument-Feature-Matrix erstellen. Das ist dann sinnvoll, wenn man davon ausgeht, dass beispielsweise nur solche Begriffe eine Rolle spielen, die mindestes X mal im Gesamtkorpus vorkommen. Auch eine Mindestzahl oder ein Maximum an Dokumenten, in denen ein Begriff vorkommen muss oder darf, kann bestimmt werden. Schließlich lassen sich beide Filteroptionen auch proportional anwenden (vgl. Beispiel).

Die erste ‘getrimmte’ DFM enthält lediglich solche Features, die mindestens in 11 Romanen vorkommen, die zweite hingegen solche Features im 95. Häufigkeitsperzentil (=Top 5% aller Features).

message("Getrimmte DFM mit docfreq = 11")
Getrimmte DFM mit docfreq = 11
meine.dfm.trim <- dfm_trim(meine.dfm, min_docfreq = 11)
meine.dfm.trim
Document-feature matrix of: 12 documents, 288 features (3.18% sparse) and 1 docvar.
                              features
docs                           sherlock holmes always heard name eyes whole felt one
  A Scandal in Bohemia               11     47      5     8    6    9     4    2  27
  The Red-headed League              10     51      5    15    6   10     9    4  29
  A Case of Identity                  7     46      7     5    1    6     3    3  17
  The Boscombe Valley Mystery        10     43      5    10    3    6     2    0  31
  The Five Orange Pips               10     25      5     5    5    5     2    2  29
  The Man with the Twisted Lip       10     28      4     8    4   11     3    2  36
                              features
docs                           cold
  A Scandal in Bohemia            2
  The Red-headed League           1
  A Case of Identity              1
  The Boscombe Valley Mystery     1
  The Five Orange Pips            1
  The Man with the Twisted Lip    2
[ reached max_ndoc ... 6 more documents, reached max_nfeat ... 278 more features ]
message("Getrimmte DFM mit min_termfreq = 0.95")
Getrimmte DFM mit min_termfreq = 0.95
meine.dfm.trim <- dfm_trim(meine.dfm, min_termfreq = 0.95, termfreq_type = "quantile")
meine.dfm.trim
Document-feature matrix of: 12 documents, 444 features (14.6% sparse) and 1 docvar.
                              features
docs                           sherlock holmes always woman heard name eyes whole felt
  A Scandal in Bohemia               11     47      5    12     8    6    9     4    2
  The Red-headed League              10     51      5     0    15    6   10     9    4
  A Case of Identity                  7     46      7    10     5    1    6     3    3
  The Boscombe Valley Mystery        10     43      5     1    10    3    6     2    0
  The Five Orange Pips               10     25      5     1     5    5    5     2    2
  The Man with the Twisted Lip       10     28      4     5     8    4   11     3    2
                              features
docs                           one
  A Scandal in Bohemia          27
  The Red-headed League         29
  A Case of Identity            17
  The Boscombe Valley Mystery   31
  The Five Orange Pips          29
  The Man with the Twisted Lip  36
[ reached max_ndoc ... 6 more documents, reached max_nfeat ... 434 more features ]

DFMs visualisieren

DFMs lassen sich schließlich auch grafisch darstellen, etwa als Wortwolke der häufigsten Begriffe.

textplot_wordcloud(meine.dfm, min_size = 1, max_size = 5, max_words = 100)

Interessanter als die Darstellung des Gesamtkorpus ist auch hier der Vergleich. Das folgende Plot zeigt die distinktivsten Begriffe für vier Romane, wobei die Farbe den jeweiligen Roman kennzeichnet. Dass im Plot die Wortgröße nicht die absolute Frequenz anzeigt, sondern die jeweils distinktivsten Begriffe, macht ein solches Plot für den unmittelbaren Vergleich nützlich.

textplot_wordcloud(meine.dfm[3:6,], color = brewer.pal(4, "Set1"), min_size = 0.2, max_size = 4, max_words = 50, comparison = TRUE)

Weiterführende Lektüre

Grundsätzlich muss in diesen Kapitel zwischen den geschildertern grundlegenden Verfahren aus der Computerlinguistik und Informatik einerseits und den konkreten Funktionsumfang von quanteda unterschieden werden.

Techniken wie die Tokenisierung von Korpora, die Normalisierung von Wortfrequenzen, und die Erstellung und Gewichtung von DFMs (oder klassisch “document feature matrices”) ist buchstäblicher Kern der Computerlinguistik, daher sollte es nicht verwundern, dass hier auflagenstarke Standardwerke existieren.

Hauptquelle zu quanteda ist die Projekwebsite, die einerseits eine Reihe von Tutorials zu einzelnen Einsatzbereichen enthält (etwa Sentimentanalyse…), denen die hier aufgeführten Beispiele z.T. sehr ähnlich sind, zum anderen aber auch eine Funktionsregerenz, welche die einzeln Befehle systematisch gruppiert und erklärt. Neben der quanteda github-Seite, über die man die aktuelle Emtwicklerversion des Pakets beziehen kann, ist vor allem das quanteda-Forum zu empfehlen, wo konkrete Fragen vom Programmiererteam beantwortet werden.

