R - I dataset
R
I dataset
Informazioni sui dataset
- Un dataset è un insieme di dati organizzati in forma tabellare. Le righe sono le osservazioni, le colonne sono le variabili.
- Molti dataset sono già disponibili. Per un elenco utilizzare la funzione data().
data()
- Per visualizzare i dati del dataset utilizzare la funzione View() che mostra i dati in un tab di RStudio oppure le funzioni fix() o edit() che mostrano i dati in una finestra separata e ne permettono la modifica. La funzione dim() restituisce in un vettore due numeri: il numero di osservazioni e il numero di variabili. Il numero di osservazioni si ottiene anche con la funzione nrow() mentre il numero di variabili si ottiene con la funzione ncol().
# Informazioni sul dataset 'CO2'.
View(CO2)
fix(CO2)
edit(CO2)
dim(CO2)
nrow(CO2)
ncol(CO2)
- Per avere l'elenco delle variabili utilizzare la funzione names(). La struttura si ottiene con str() mentre le informazioni generali con summary() e con attributes(). I primi e gli ultimi casi con head() e tail().
# Nome delle variabili.
names(CO2)
[1] "Plant" "Type" "Treatment" "conc" "uptake"
# Struttura.
str(CO2)
'data.frame': 84 obs. of 5 variables:
$ Plant : Ord.factor w/ 12 levels "Qn1"<"Qn2"<"Qn3"<..: 1 1 1 1 1 1 1 2 2 2 ...
$ Type : Factor w/ 2 levels "Quebec","Mississippi": 1 1 1 1 1 1 1 1 1 1 ...
$ Treatment: Factor w/ 2 levels "nonchilled","chilled": 1 1 1 1 1 1 1 1 1 1 ...
$ conc : num 95 175 250 350 500 675 1000 95 175 250 ...
$ uptake : num 16 30.4 34.8 37.2 35.3 39.2 39.7 13.6 27.3 37.1 ...
# Informazioni generali.
summary(CO2)
Plant Type Treatment conc uptake
Qn1 : 7 Quebec :42 nonchilled:42 Min. : 95 Min. : 7.70
Qn2 : 7 Mississippi:42 chilled :42 1st Qu.: 175 1st Qu.:17.90
Qn3 : 7 Median : 350 Median :28.30
Qc1 : 7 Mean : 435 Mean :27.21
Qc3 : 7 3rd Qu.: 675 3rd Qu.:37.12
Qc2 : 7 Max. :1000 Max. :45.50
(Other):42
attributes(CO2)
$names
[1] "Plant" "Type" "Treatment" "conc" "uptake"
$row.names
[1] 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31
[32] 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62
[63] 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84
$class
[1] "data.frame"
# Visualizza i primi casi.
head(CO2)
Plant Type Treatment conc uptake
1 Qn1 Quebec nonchilled 95 16.0
2 Qn1 Quebec nonchilled 175 30.4
3 Qn1 Quebec nonchilled 250 34.8
4 Qn1 Quebec nonchilled 350 37.2
5 Qn1 Quebec nonchilled 500 35.3
6 Qn1 Quebec nonchilled 675 39.2
head(CO2, 3)
Plant Type Treatment conc uptake
1 Qn1 Quebec nonchilled 95 16.0
2 Qn1 Quebec nonchilled 175 30.4
3 Qn1 Quebec nonchilled 250 34.8
# Visualizza gli ultimi casi.
tail(CO2)
Plant Type Treatment conc uptake
79 Mc3 Mississippi chilled 175 18.0
80 Mc3 Mississippi chilled 250 17.9
81 Mc3 Mississippi chilled 350 17.9
82 Mc3 Mississippi chilled 500 17.9
83 Mc3 Mississippi chilled 675 18.9
84 Mc3 Mississippi chilled 1000 19.9
tail(CO2, 3)
Plant Type Treatment conc uptake
82 Mc3 Mississippi chilled 500 17.9
83 Mc3 Mississippi chilled 675 18.9
84 Mc3 Mississippi chilled 1000 19.9
# Primo e ultimo valore di una variabile del dataset.
range(CO2$uptake)
[1] 7.7 45.5