RStudio Plots Grundlagen

In Kapitel 8 beschreiben wir ein Zusatzpaket, das einen leistungsfähigen Ansatz für die Erstellung von Diagrammen in R bietet. Wir haben dann einen ganzen Teil über Datenvisualisierung, in dem wir viele Beispiele geben. Hier beschreiben wir kurz einige der Funktionen, die in einer Basisinstallation von R verfügbar sind.

Plot

Mit der Funktion Plot können Sie Streudiagramme erstellen. Hier ist ein Diagramm der Gesamtzahl der Morde gegenüber der Bevölkerung.

x <- murders$population / 10^6
y <- murders$total
plot(x, y)
RStudio Plots Grundlagen 1

Für eine schnelle Darstellung, die den doppelten Zugriff auf Variablen vermeidet, können wir die Funktion with verwenden:

with(murders, plot(population, total))

Mit der Funktion with können wir die Namen der Mordspalten in der plot Funktion verwenden. Sie funktioniert auch mit jedem Datenrahmen und jeder Funktion.

Histogramme

Wir werden Histogramme im Zusammenhang mit Verteilungen im Teil Datenvisualisierung des Buches beschreiben. An dieser Stelle sei lediglich darauf hingewiesen, dass Histogramme eine leistungsstarke grafische Zusammenfassung einer Liste von Zahlen sind, die Ihnen einen allgemeinen Überblick über die Arten von Werten gibt, die Sie haben. Wir können ein Histogramm unserer Mordraten erstellen, indem wir einfach eintippen:

x <- with(murders, total / population * 100000)
hist(x)
RStudio Plots Grundlagen 3
Wir sehen, dass es eine große Bandbreite von Werten gibt, die meisten zwischen 2 und 3, und einen sehr extremen Fall mit einer Mordrate von mehr als 15:
murders$state[which.max(x)]
#> [1] "District of Columbia"

Boxplot

Boxplots werden auch im Teil “Datenvisualisierung” des Buches beschrieben. Sie bieten eine knappere Zusammenfassung als Histogramme, lassen sich aber leichter mit anderen Boxplots kombinieren. Hier können wir sie zum Beispiel verwenden, um die verschiedenen Regionen zu vergleichen:

murders$rate <- with(murders, total / population * 100000)
boxplot(rate~region, data = murders)
RStudio Plots Grundlagen 5
Es wird deutlich, dass der Süden höhere Mordraten aufweist als die anderen drei Regionen.

Image

Die Bildfunktion zeigt die Werte in einer Matrix mit Hilfe von Farben an. Hier ist ein kurzes Beispiel:

x <- matrix(1:120, 12, 10)
image(x)
RStudio Plots Grundlagen 7

Übungen

Übung 1 Plots

# Load the datasets and define some variables
library(dslabs)
data(murders)

population_in_millions <- murders$population/10^6
total_gun_murders <- murders$total

plot(population_in_millions, total_gun_murders)

# Transform population (not population in millions) using the log10 transformation and save to object log10_population
log10_population <- log10(murders$population)

# Transform total gun murders using log10 transformation and save to object log10_total_gun_murders
log10_total_gun_murders <- log10(murders$total)

# Create a scatterplot with the log scale transformed population and murders 
plot(log10_population, log10_total_gun_murders )

Übung 2 Histogramm

# Store the population in millions and save to population_in_millions 
population_in_millions <- murders$population/10^6


# Create a histogram of this variable
hist(population_in_millions)

Übung Boxplots

# Create a boxplot of state populations by region for the murders dataset
boxplot(population~region, data = murders)

Grundlagentest Olivenöle

Der Olivendatensatz in dslabs enthält die prozentuale Zusammensetzung von acht Fettsäuren, die in der Lipidfraktion von 572 italienischen Olivenölen vorkommen:

data(olive)
head(olive) 

Der Befehl head() zeigt uns die Spalten an: region, area, palmitic palmitoleic, stearic, oleic, linoleic

Aufgabe 1: Stellen Sie den Prozentsatz der Palmitinsäure gegenüber der Palmitoleinsäure in einem Streudiagramm dar. Welche Beziehung sehen Sie?

palmitic_acid <- olive$palmitic
palmitoleic_acid <- olive$palmitoleic
plot(palmitic_acid,palmitoleic_acid)
RStudio Plots Grundlagen 9
Antwort: Wir sehen die positive lineare Beziehung zwischen diesen Variablen.

Aufgabe 2: Erstellen Sie ein Histogramm des prozentualen Anteils der Eicosensäure in Oliven.

hist(olive$eicosenoic)
RStudio Plots Grundlagen 11

Antwort: Der häufigste Wert für Eicosensäure liegt unter 0,05 %.

Aufgabe 3: Erstellen Sie einen Boxplot des prozentualen Anteils an Palmitinsäure in Oliven mit separaten Verteilungen für jede Region. Welche Region hat den höchsten Median des Palmitinsäureanteils? Welche Region weist die größte Variabilität des Palmitinsäureanteils auf?

boxplot(palmitic ~ region, data = olive)
RStudio Plots Grundlagen 13
Süditalien weist im Median den höchsten Palmitinsäureanteil auf, und dieselbe Region hat auch die variabelsten Daten.