Mittwoch, 15. Juni 2011

Einlesen von Daten in R

Wie bei SPSS müssen auch bei R zunächst Daten geöffnet bzw. eingelesen werden. Bei dem Datenfile sollte es sich um eine Text-Datei handeln, in der die Daten durch Tabstopps getrennt sind. Ein solches Datenfile kann sowohl mit Excel (Speichern unter > Text (Tabstopp getrent)) als auch mit SPSS erzeugt werden.

Für das Einlesen solcher Dateien stehen mehrere R-Befehle zur Verfügung. Am besten eignet sich der Befehl

read.delim2(file, header = TRUE, sep = "\t", quote="\"", dec=",", fill = TRUE, ...)

Die Optionen im Einzelnen

delim2: Mit delim werden Text-Dateien eingelesen, in denen die Daten durch Tab getrennt sind. Die Variante delim2 wird für Länder genutzt, in denen (wie in Deutschland) das Komma als Dezimalzeichen genutzt wird.

file: In welchem Ordner befindet sich das Datenfile
header: Befinden sich in der ersten Zeile die Namen der Variablen?
sep: Durch welches Zeichen sind die Daten getrennt? \t steht für Tabstopp.
quote: Durch welches Zeichen werden Texte gekennzeichnet
dec: Dezimalzeichen
fill: fehlende Daten werden durch Leerzeichen ersetzt


Beispiel:

Experiment1Daten <- read.delim2(“C:/Dokumente und Einstellungen/All Users/Dokumente/data-experiment1.txt”)

Es wird ein neues Objekt/Tabelle (siehe R-Grundkonzepte) im Workspace erzeugt, in das die Daten aus der Datei data-experiment1.txt eingelesen werden. Unbedingt beachten: Für die Angabe im Verzeichnispfades müssen Vorwärts-Schrägstriche / verwendet werden.

Anders als SPSS kann R mehrere Datensätze (Objekte) gleichzeitig im Workspace halten. So könnte mit dem Befehl

Experiment2Daten <- read.delim2(“C:/Dokumente und Einstellungen/All Users/Dokumente/data-experiment2.txt”)

ein weiterer Datensatz gleichzeitig geladen und zu Berechnungen herangezogen werden.

Der Befehl read.delim2 ist eine Variante des allgemeineren Befehls read.table. Um die Dokumentation zu read.table anzuzeigen, wird der Befehl help(read.table) verwendet.

Kontrolle der Daten
Als Erstes können die Daten nach dem Einlesen im Dateneditor geöffnet werden. Der Dateneditor wird entweder über das Menü aufgerufen (Bearbeiten > Dateneditor) oder mit dem Befehl:

fix(Experiment2Daten)

Nach dem Einlesen lassen sich die Daten mit fünf Befehlen kontrollieren und auf Plausibilität prüfen:

ls(): Zeigt alle geladenen oder angelegten Objekte an
str(Experiment1Daten): Zeigt für jede Variable den Datentyp an, z.B. Integer
names(Experiment1Daten): Zeigt alle Variablennamen an
head(Experiment1Daten, n=10): Zeigt die ersten 10 Fälle des Datensatzes an
summary(Experiment1Daten): Zeigte eine deskriptive Zusammenfassung aller Variablen an

Keine Kommentare:

Kommentar veröffentlichen