Docsity
Docsity

Prepare for your exams
Prepare for your exams

Study with the several resources on Docsity


Earn points to download
Earn points to download

Earn points by helping other students or get them with a premium plan


Guidelines and tips
Guidelines and tips

Fondamenti Teorici Statistica: Descrizione e Inferenza, Unità Statistica, Fasi Indagine, Summaries of Statistics

Una introduzione teorica alla statistica descrittiva e inferenziale, incluse le unità statistiche e le fasi di un'indagine statistica. Viene inoltre discusso il concetto di unità statistica semplici, composite e complesse, e il modo in cui i dati vengono organizzati in matrici e tabelle. Il documento include anche informazioni sulla origine dei dati e le fonti statistiche.

Typology: Summaries

2018/2019

Uploaded on 12/04/2022

rita-miriam-ferru
rita-miriam-ferru 🇮🇹

7 documents

1 / 13

Toggle sidebar

This page cannot be seen from the preview

Don't miss anything!

bg1
1. CENNI TEORICI
I principali rami della statistica sono:
- statistica descrittiva che si limita alla raccolta dei dati, al loro esame diretto, alla loro elaborazione
in termini di percentuali, rapporti statistici, valori medi, misure di variabilità, misure di
associazione, ecc. e alla loro presentazione mediante tabelle, grafici, ecc. i dati raccolti, e quelli
elaborati, servono solamente a descrivere alcune caratteristiche di un determinato fenomeno per
le quali, ovviamente, la conoscenza è certa;
- statistica inferente (o induttiva) che conduce dalla conoscenza di una parte (campione) a quella
dell’intera popolazione nella presunzione che la parte investigata sia rappresentativa delle
caratteristiche della popolazione nella sua interezza essa opera con strumenti di tipo probabilistico
da cui desume proprietà generali (induzione) elaborando informazioni in condizioni di incertezza ;
- statistica esplorativa cioè lo sviluppo naturale di tale approccio è il data-mining che ha per
oggetto l’ottenimento di conoscenza a partire da una grande mole di dati al fine dell’utilizzazione
pratica di questo sapere.
Le fasi tipo di un’indagine statistica sono:
- definizione degli obiettivi;
- rilevazione (completa o parziale);
- elaborazione dei dati;
- presentazione e interpretazione dei risultati;
- applicazione degli esiti.
L’elemento base per ogni analisi collettiva è la cosiddetta unità statistica, o unità di indagine,
intesa come unità elementare oggetto di osservazione. Ne esistono di vari tipi:
- unità semplici intese nella loro accezione di indivisibilità (es. studente universitario);
- unità composte, costituite da più unità semplici simili “viste” come indivisibili ai fini delle analisi
condotte (es. condominio come insieme di appartamenti);
- unità complesse, costituite da più unità semplici eterogenee “viste” come indivisibili ai fini delle
analisi condotte (es. rapporto coniugale come insieme di marito e moglie).
Per collettivo, o popolazione si intende l’insieme delle unità statistiche oggetto di una particolare
indagine a cui devono essere riferite le conoscenze empiriche prodotte. Se la conoscenza è estesa
al collettivo nella sua accezione più vasta, comprendente tutte le unità che lo costituiscono, si
parla anche di universo. Quando questo non avviene parleremo di campione.
Per carattere statistico, o variabile (mutabile), si intende un aspetto, un punto di vista, in base al
quale le unità statistiche possono essere osservate, identificate ed eventualmente distinte le une
dalle altre.
La matrice dei dati rappresenta una forma tabellare di organizzazione dei dati stessi in cui a ogni
riga viene associata un’unità statistica, mentre a ogni colonna si associa un carattere rilevato sul
collettivo.
Un primo tipo di classificazione riferibile ai caratteri riguarda la loro natura: qualitativa (es. sesso)
o quantitativa (es. altezza). Nel primo caso si parla di mutabile mentre nel secondo si fa
riferimento al termine di variabile. È tuttavia prassi parlare univocamente di variabile specificando
eventualmente il termine, nel caso delle mutabili, con l’aggiunta dell’aggettivo qualitativa.
Avremo così:
pf3
pf4
pf5
pf8
pf9
pfa
pfd

Partial preview of the text

Download Fondamenti Teorici Statistica: Descrizione e Inferenza, Unità Statistica, Fasi Indagine and more Summaries Statistics in PDF only on Docsity!

1. CENNI TEORICI

I principali rami della statistica sono:

  • statistica descrittiva che si limita alla raccolta dei dati, al loro esame diretto, alla loro elaborazione in termini di percentuali, rapporti statistici, valori medi, misure di variabilità, misure di associazione, ecc. e alla loro presentazione mediante tabelle, grafici, ecc. i dati raccolti, e quelli elaborati, servono solamente a descrivere alcune caratteristiche di un determinato fenomeno per le quali, ovviamente, la conoscenza è certa;
    • statistica inferente (o induttiva) che conduce dalla conoscenza di una parte (campione) a quella dell’intera popolazione nella presunzione che la parte investigata sia rappresentativa delle caratteristiche della popolazione nella sua interezza essa opera con strumenti di tipo probabilistico da cui desume proprietà generali (induzione) elaborando informazioni in condizioni di incertezza ;
  • statistica esplorativa cioè lo sviluppo naturale di tale approccio è il data-mining che ha per oggetto l’ottenimento di conoscenza a partire da una grande mole di dati al fine dell’utilizzazione pratica di questo sapere. Le fasi tipo di un’indagine statistica sono:
  • definizione degli obiettivi;
  • rilevazione (completa o parziale);
  • elaborazione dei dati;
  • presentazione e interpretazione dei risultati;
  • applicazione degli esiti. L’elemento base per ogni analisi collettiva è la cosiddetta unità statistica , o unità di indagine, intesa come unità elementare oggetto di osservazione. Ne esistono di vari tipi:
  • unità semplici intese nella loro accezione di indivisibilità (es. studente universitario);
  • unità composte, costituite da più unità semplici simili “viste” come indivisibili ai fini delle analisi condotte (es. condominio come insieme di appartamenti);
  • unità complesse, costituite da più unità semplici eterogenee “viste” come indivisibili ai fini delle analisi condotte (es. rapporto coniugale come insieme di marito e moglie). Per collettivo , o popolazione si intende l’insieme delle unità statistiche oggetto di una particolare indagine a cui devono essere riferite le conoscenze empiriche prodotte. Se la conoscenza è estesa al collettivo nella sua accezione più vasta, comprendente tutte le unità che lo costituiscono, si parla anche di universo. Quando questo non avviene parleremo di campione. Per carattere statistico , o variabile (mutabile), si intende un aspetto, un punto di vista, in base al quale le unità statistiche possono essere osservate, identificate ed eventualmente distinte le une dalle altre. La matrice dei dati rappresenta una forma tabellare di organizzazione dei dati stessi in cui a ogni riga viene associata un’unità statistica, mentre a ogni colonna si associa un carattere rilevato sul collettivo. Un primo tipo di classificazione riferibile ai caratteri riguarda la loro natura: qualitativa (es. sesso) o quantitativa (es. altezza). Nel primo caso si parla di mutabile mentre nel secondo si fa riferimento al termine di variabile. È tuttavia prassi parlare univocamente di variabile specificando eventualmente il termine, nel caso delle mutabili, con l’aggiunta dell’aggettivo qualitativa. Avremo così:

sesso → variabile qualitativa / altezza → variabile: I caratteri cardinali (quantitativi) possono essere suddivisi in base all’identificazione o meno di un’origine (0). Nel caso in cui tale origine esista, parleremo di scala di rapporto mentre, in caso contrario, si dirà che il carattere è su scala di intervallo. Riguardo l’ origine dei dati il ricercatore può operare in due modi: attingere a dati che già esistono o creare in proprio la raccolta dei dati necessari. Nel primo caso parleremo di fonti statistiche. Quelle “ufficiali” (riconosciute e certificate allo scopo) possono suddividersi a seconda della natura dell’Ente che produce i dati, degli scopi per cui gli stessi sono prodotti e per il contesto (spesso territoriale) in cui sono ottenuti. Per quanto riguarda la natura dell’ente possono aversi:

  • enti istituzionali: ISTAT (Istituto centrale di statistica), altri enti del SISTAN (sistema statistico nazionale), organi dell’amministrazione centrale e territoriale (Ministeri, Regioni, Prefetture, Province, Comuni) dipartimenti, aziende autonome;
  • enti pubblici o di erogatori di servizio pubblico: ACI (Automobil Club), Coni (Comitato olimpico), Inail (Istituto per l’assistenza ai lavoratori), Inps (Istituto per la previdenza), Unioncamere (Unione delle camere di commercio);
  • enti privati: società a partecipazione statale quali Ferrovie dello stato e Poste Italiane, associazioni, consorzi, organizzazioni sindacali;
  • enti di natura scientifica: enti istituzionalmente creati per la ricerca scientifica. Se invece guardiamo allo scopo per il quale vengono prodotti dati abbiamo le rilevazioni amministrative che si acquisiscono ed aggiornano dati con regolarità ai fini del buon funzionamento di un’amministrazione. Ad esempio:
  • censimenti: quello sulla popolazione, effettuata per analisi demografiche, economiche, sociali su tutti gli abitanti;
  • indagini campionarie: queste indagini, come sappiamo, vengono condotte quando risulta non proponibile un’indagine esaustiva;
  • fonti statistiche internazionali, nazionali e locali: Eurostat (l’ufficio statistico della Commissione Europea), e a livello “globale” organizzazioni come le Nazioni Unite (ONU), il Fondo Monetario Internazionale (FMI);
  • nazionali: ISTAT;
  • locali: il piú importante fra tutti è il Sistema Statistico Regionale (SISTAR).

2.1 RAPPRESENTAZIONI GRAFICHE

2.2 RAPPORTI STATISTICI

Sono valori (quozienti) ottenuti da due quantità di cui almeno una è un dato statistico. Se riguardano grandezze omogenee permettono di non tenere conto dell’unità di misura. Sono molto utili per dare una descrizione del collettivo statistico e possono essere moltiplicati per una potenza del 10 per renderli piú facilmente leggibili. Abbiamo:

  • rapporti di composizione o di una parte al tutto: il denominatore é la frequenza (o intensitá) totale del collettivo, mentre il numeratore è l’analoga grandezza su una specifica modalità del carattere, un’esempio tipico sono le frequenze relative;
  • rapporti di coesistenza: sono dati dal quoziente tra le frequenze relative a due modalità dello stesso carattere, il valore di tali rapporti può, in linea di principio, assumere qualsiasi valore positivo o nullo avendo 1 come valore di “indifferenza”;
  • rapporti di derivazione: è ottenuto dividendo la modalità di un fenomeno per la modalitá del fenomeno che ne consegue o che ne é la causa;
  • tassi: sono sostanzialmente rapporti di derivazione che rapportano la consistenza o più spesso il flusso di un fenomeno a quella del collettivo in cui esso si è manifestato;
  • rapporti di densità: si ottengono rapportando l’ammontare di un fenomeno a una certa dimensione (spaziale o temporale) del contesto di osservazione;
  • rapporti di durata: sono individuati dal rapporto tra la consistenza media di un fenomeno, valutata in un certo periodo, e il flusso di rinnovo del fenomeno stesso, essi rappresentano, in media, la permanenza temporale delle unità statistiche nel fenomeno stesso;
  • rapporti di ripetizione: sono l’inverso dei rapporti di durata e rappresentano dunque il numero di ripetizioni del fenomeno nell’unità di tempo;
  • numeri indice: rapportano le intensità di uno stesso fenomeno riferite a due situazioni differenti. Sono quindi numeri puri e permettono un confronto immediato. La grandezza a denominatore prende il nome di base e può essere fissa o mobile, agganciata cioè alla grandezza al numeratore.

2.3 MEDIE

Gli indici statistici di centralità o medie, si prefiggono lo scopo di sintetizzare una serie di micro- dati o una distribuzione andando a costituire un informatore di collettivo. Riassumendo, per i caratteri qual. sconn. potremo usare solo la moda, per i qual. ord. moda, mediana e quantili, per i quantitativi invece dipenderà dal tipo di calcolo richiesto. Medie di posizione:

  • moda: è l’unica che può calcolarsi su caratteri qualitativi sconnessi e si riferisce alla ricorrenza di una modalitá, cioè se il collettivo é diviso in classi andrà cercata la classe con maggior densitá di frequenza che definiremo pertanto come moda o valore modale o normale;
  • quantili: dividono il collettivo in due parti e sono utili quando la numerosità è proporzionalmente elevata;
  • mediana: per calcolarla le modalitá devono essere necessariamente ordinabili, essa bipartisce infatti una distribuzione ordinata. Se devo indicarla basta determinare la classe mediana; per calcolarla dovremo, invece, usare la formula di interpolazione. In primo luogo capiamo la classe mediana, poi applichiamo la formula. Per quanto riguardo il primo punto ispeziono la colonna delle frequenze cumulate cercando dove si raggiunge (o supera) il valore che supera la metà del totale delle frequenze cumulate. Quindi dividiamo le frequenze cumulate/2 e capiamo quale valore supera quel numero che abbiamo trovato. Trovata la classe, prendiamo l’estremo sinistro della classe (quello più basso)+ linea di frazione, moltiplicato per l’ampiezza della classe; sopra la linea di frazione mettiamo la metà del totale delle frequenze cumulate meno il valore che precede la classe mediana; sotto, il valore che segue la classe mediana meno quello che la precede. Medie analitiche: Se il dato é quantitativo allora si puó fare una sintesi anche con calcoli algebrici, avremo dunque le medie analitiche, le quali sintetizzano l’ordine di grandezza del fenomeno. Esse differiscono secondo il criterio con il quale si interpreta la centralitá dei valori. Avremo la media aritmetica che si calcola tramite rapporto di xcifi e la somma delle frequenze assolute e i quali scarti sono sempre nulli se i valori sono uguali, ma la cui somma è sempre 0; e la media quadratica che è, per definizione, la radice quadrata della media aritmetica dei quadrati dei valori e la cui formula e indicata sotto.

3. STATISTICA BIVARIATA

La maggior parte delle volte che si analizza un collettivo sono piú di uno i fenomeni da osservare, quindi, procediamo allo studio di due caratteri qualitativi alla volta. In questo caso la tabella prenderá il nome di tabella di contingenza e avrà tante righe quante le modalitá del primo carattere e tante colonne quante le modalità del secondo carattere. Nel caso in cui la tabella descrivesse caratteri quantitativi allora prenderebbe il nome di tabella di correlazione ; si chiamerà tabella mista nel caso in cui un carattere fosse qualitativo e l’altro quantitativo. Se, quindi, questa fosse la tabella univariata: Quella di contingenza rappresenterebbe l’analogo della distribuzione di frequenza fatta però in base alla presenza contemporanea delle modalità del primo e del secondo carattere. Nel caso in esame, prevedendo i caratteri 2 modalità ciascuno, avremo una tabella con 4 (2X2) celle in ciascuna delle quali indicheremo il numero di unità che si presentano con la relativa modalità di riga per il primo carattere e quella di colonna per il secondo. La tabella verrà poi completata con i totali di riga, di colonna e il totale generale (che dovrà coincidere con la numerosità del collettivo. Dopo i conteggi avremo la seguente situazione: I totali, 9, 11 e 20 sono le distribuzioni marginali della colonna; 8, 12 e 20 della riga. Per una dipendenza perfetta la tabella di contingenza dovrebbe essere quadrata.

3.1 TABELLE IN IPOTESI DI INDIPENDENZA

Le tabelle in ipotesi di indipendenza comprendono dei valori ipotetici che ci si aspetta di vedere laddove al variare di una modalità del carattere non vanno a modificarsi le frequenze relative all’altro carattere; esse hanno gli stessi totali. Le frequenze si ottengono molitplicando del totale sulla riga corrisponende e il totale della colonna corrispondende e dividendo il risultato per il totale generale. Quindi, si avrà: 8x10/20, 8x11/20, e così via: Si chiamano contingenze gli scostamenti tra le frequenze realmente osservate e quelle che mi aspetto di vedere laddove tra i due caratteri non c’è relazione. Gli scostamenti, quindi, sono le contingenze e si calcolano facendo la differenza tra i valori della tabella in ipotesi di indipendenza e quella di contingenza iniale. Avremo: Adesso è possibile trovare il chi quadro.

5. CALCOLO DELLE PROBABILITA’