In Kapitel 8 beschreiben wir ein Zusatzpaket, das einen leistungsfähigen Ansatz für die Erstellung von Diagrammen in R bietet. Wir haben dann einen ganzen Teil über Datenvisualisierung, in dem wir viele Beispiele geben. Hier beschreiben wir kurz einige der Funktionen, die in einer Basisinstallation von R verfügbar sind.
Plot
Mit der Funktion Plot können Sie Streudiagramme erstellen. Hier ist ein Diagramm der Gesamtzahl der Morde gegenüber der Bevölkerung.
x <- murders$population / 10^6
y <- murders$total
plot(x, y)
Für eine schnelle Darstellung, die den doppelten Zugriff auf Variablen vermeidet, können wir die Funktion with verwenden:
with(murders, plot(population, total))
Mit der Funktion with können wir die Namen der Mordspalten in der plot Funktion verwenden. Sie funktioniert auch mit jedem Datenrahmen und jeder Funktion.
Histogramme
Wir werden Histogramme im Zusammenhang mit Verteilungen im Teil Datenvisualisierung des Buches beschreiben. An dieser Stelle sei lediglich darauf hingewiesen, dass Histogramme eine leistungsstarke grafische Zusammenfassung einer Liste von Zahlen sind, die Ihnen einen allgemeinen Überblick über die Arten von Werten gibt, die Sie haben. Wir können ein Histogramm unserer Mordraten erstellen, indem wir einfach eintippen:
x <- with(murders, total / population * 100000)
hist(x)
murders$state[which.max(x)]
#> [1] "District of Columbia"
Boxplot
Boxplots werden auch im Teil “Datenvisualisierung” des Buches beschrieben. Sie bieten eine knappere Zusammenfassung als Histogramme, lassen sich aber leichter mit anderen Boxplots kombinieren. Hier können wir sie zum Beispiel verwenden, um die verschiedenen Regionen zu vergleichen:
murders$rate <- with(murders, total / population * 100000)
boxplot(rate~region, data = murders)
Image
Die Bildfunktion zeigt die Werte in einer Matrix mit Hilfe von Farben an. Hier ist ein kurzes Beispiel:
x <- matrix(1:120, 12, 10)
image(x)
Übungen
Übung 1 Plots
# Load the datasets and define some variables
library(dslabs)
data(murders)
population_in_millions <- murders$population/10^6
total_gun_murders <- murders$total
plot(population_in_millions, total_gun_murders)
# Transform population (not population in millions) using the log10 transformation and save to object log10_population
log10_population <- log10(murders$population)
# Transform total gun murders using log10 transformation and save to object log10_total_gun_murders
log10_total_gun_murders <- log10(murders$total)
# Create a scatterplot with the log scale transformed population and murders
plot(log10_population, log10_total_gun_murders )
Übung 2 Histogramm
# Store the population in millions and save to population_in_millions
population_in_millions <- murders$population/10^6
# Create a histogram of this variable
hist(population_in_millions)
Übung Boxplots
# Create a boxplot of state populations by region for the murders dataset
boxplot(population~region, data = murders)
Grundlagentest Olivenöle
Der Olivendatensatz in dslabs enthält die prozentuale Zusammensetzung von acht Fettsäuren, die in der Lipidfraktion von 572 italienischen Olivenölen vorkommen:
data(olive)
head(olive)
Der Befehl head() zeigt uns die Spalten an: region, area, palmitic palmitoleic, stearic, oleic, linoleic
Aufgabe 1: Stellen Sie den Prozentsatz der Palmitinsäure gegenüber der Palmitoleinsäure in einem Streudiagramm dar. Welche Beziehung sehen Sie?
palmitic_acid <- olive$palmitic
palmitoleic_acid <- olive$palmitoleic
plot(palmitic_acid,palmitoleic_acid)
Aufgabe 2: Erstellen Sie ein Histogramm des prozentualen Anteils der Eicosensäure in Oliven.
hist(olive$eicosenoic)
Antwort: Der häufigste Wert für Eicosensäure liegt unter 0,05 %.
Aufgabe 3: Erstellen Sie einen Boxplot des prozentualen Anteils an Palmitinsäure in Oliven mit separaten Verteilungen für jede Region. Welche Region hat den höchsten Median des Palmitinsäureanteils? Welche Region weist die größte Variabilität des Palmitinsäureanteils auf?
boxplot(palmitic ~ region, data = olive)