Pagina personale di:
Carlo Vecchio
appunti di C#, R, SQL Server, ASP.NET, algoritmi, numeri
Vai ai contenuti

R - I dataset

R

I dataset

Informazioni sui dataset

  • Un dataset è un insieme di dati organizzati in forma tabellare. Le righe sono le osservazioni, le colonne sono le variabili.
  • Molti dataset sono già disponibili. Per un elenco utilizzare la funzione data().

data()

  • Per visualizzare i dati del dataset utilizzare la funzione View() che mostra i dati in un tab di RStudio oppure le funzioni fix() o edit() che mostrano i dati in una finestra separata e ne permettono la modifica. La funzione dim() restituisce in un vettore due numeri: il numero di osservazioni e il numero di variabili. Il numero di osservazioni si ottiene anche con la funzione nrow() mentre il numero di variabili si ottiene con la funzione ncol().

# Informazioni sul dataset 'CO2'.
View(CO2)
fix(CO2)
edit(CO2)
dim(CO2)
nrow(CO2)
ncol(CO2)

  • Per avere l'elenco delle variabili utilizzare la funzione names(). La struttura si ottiene con str() mentre le informazioni generali con summary() e con attributes(). I primi e gli ultimi casi con head() e tail().

# Nome delle variabili.
names(CO2)
[1] "Plant"     "Type"      "Treatment" "conc"      "uptake"   
# Struttura.
str(CO2)
'data.frame': 84 obs. of  5 variables:
$ Plant    : Ord.factor w/ 12 levels "Qn1"<"Qn2"<"Qn3"<..: 1 1 1 1 1 1 1 2 2 2 ...
$ Type     : Factor w/ 2 levels "Quebec","Mississippi": 1 1 1 1 1 1 1 1 1 1 ...
$ Treatment: Factor w/ 2 levels "nonchilled","chilled": 1 1 1 1 1 1 1 1 1 1 ...
$ conc     : num  95 175 250 350 500 675 1000 95 175 250 ...
$ uptake   : num  16 30.4 34.8 37.2 35.3 39.2 39.7 13.6 27.3 37.1 ...
# Informazioni generali.
summary(CO2)
    Plant             Type         Treatment       conc          uptake     
Qn1    : 7   Quebec     :42   nonchilled:42   Min.   :  95   Min.   : 7.70  
Qn2    : 7   Mississippi:42   chilled   :42   1st Qu.: 175   1st Qu.:17.90  
Qn3    : 7                                    Median : 350   Median :28.30  
Qc1    : 7                                    Mean   : 435   Mean   :27.21  
Qc3    : 7                                    3rd Qu.: 675   3rd Qu.:37.12  
Qc2    : 7                                    Max.   :1000   Max.   :45.50  
(Other):42                                                                  
attributes(CO2)
$names
[1] "Plant"     "Type"      "Treatment" "conc"      "uptake"   

$row.names
[1]  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31
[32] 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62
[63] 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84

$class
[1] "data.frame"

# Visualizza i primi casi.
head(CO2)
 Plant   Type  Treatment conc uptake
1   Qn1 Quebec nonchilled   95   16.0
2   Qn1 Quebec nonchilled  175   30.4
3   Qn1 Quebec nonchilled  250   34.8
4   Qn1 Quebec nonchilled  350   37.2
5   Qn1 Quebec nonchilled  500   35.3
6   Qn1 Quebec nonchilled  675   39.2
head(CO2, 3)
 Plant   Type  Treatment conc uptake
1   Qn1 Quebec nonchilled   95   16.0
2   Qn1 Quebec nonchilled  175   30.4
3   Qn1 Quebec nonchilled  250   34.8
# Visualizza gli ultimi casi.
tail(CO2)
  Plant        Type Treatment conc uptake
79   Mc3 Mississippi   chilled  175   18.0
80   Mc3 Mississippi   chilled  250   17.9
81   Mc3 Mississippi   chilled  350   17.9
82   Mc3 Mississippi   chilled  500   17.9
83   Mc3 Mississippi   chilled  675   18.9
84   Mc3 Mississippi   chilled 1000   19.9
tail(CO2, 3)
  Plant        Type Treatment conc uptake
82   Mc3 Mississippi   chilled  500   17.9
83   Mc3 Mississippi   chilled  675   18.9
84   Mc3 Mississippi   chilled 1000   19.9
# Primo e ultimo valore di una variabile del dataset.
range(CO2$uptake)
[1]  7.7 45.5



© 2020 Carlo Vecchio
Torna ai contenuti