ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ › ~jpan › Linear-Models-Supplement.pdf ·...

77
ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΣΤΑΤΙΣΤΙΚΗΣ Ιωάννης Πανάρετος Καθηγητής Τμήματος Στατιστικής του Οικονομικού Πανεπιστημίου Αθηνών ΓΡΑΜΜΙΚΑ ΜΟΝΤΕΛΑ ΜΕ ΕΜΦΑΣΗ ΣΤΙΣ ΕΦΑΡΜΟΓΕΣ (ΣΥΜΠΛΗΡΩΜΑ) Αθήνα 2003

Transcript of ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ › ~jpan › Linear-Models-Supplement.pdf ·...

Page 1: ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ › ~jpan › Linear-Models-Supplement.pdf · μεταβλητή - δείκτη 0-1 ως εικονική μεταβλητή. Όπως

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ

ΤΜΗΜΑ ΣΤΑΤΙΣΤΙΚΗΣ

Ιωάννης Πανάρετος Καθηγητής Τμήματος Στατιστικής

του Οικονομικού Πανεπιστημίου Αθηνών

ΓΡΑΜΜΙΚΑ ΜΟΝΤΕΛΑ ΜΕ ΕΜΦΑΣΗ ΣΤΙΣ ΕΦΑΡΜΟΓΕΣ

(ΣΥΜΠΛΗΡΩΜΑ)

Αθήνα 2003

Page 2: ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ › ~jpan › Linear-Models-Supplement.pdf · μεταβλητή - δείκτη 0-1 ως εικονική μεταβλητή. Όπως

1

ΕΙΚΟΝΙΚΕΣ ΜΕΤΑΒΛΗΤΕΣ (ΨΕΥΔΟΜΕΤΑΒΛΗΤΕΣ)

(Dummy variables) Ο όρος ανάλυση παλινδρόμησης χρησιμοποιείται συνήθως όταν αναφερόμαστε σε περιπτώσεις όπου τόσο το Υ όσο και τα Χ είναι ποσοτικές μεταβλητές. Αυτό αποτελεί ένα από τους σοβαρούς περιορισμούς της γραμμικής παλινδρόμησης. Σε πολλές περιπτώσεις όμως τα προβλήματα που μελετώνται αναφέρονται και σε ποιοτικές μεταβλητές οι οποίες, εκ των πραγμάτων, πρέπει να ποσοτικοποιηθούν προκειμένου να μελετηθούν. Εξάλλου, οι μεταβλητές που χρησιμοποιούνται στις εξισώσεις παλινδρόμησης, είναι, συνήθως, συνεχείς. Σε πολλές όμως περιπτώσεις χρειάζεται να χρησιμοποιήσουμε κάποιο παράγοντα που εμφανίζεται σε δύο ή περισσότερα, διακεκριμένα επίπεδα. Για παράδειγμα, είναι ενδεχόμενο να μας ενδιαφέρει να αναλύσουμε στοιχεία που αναφέρονται στην διαφορετική συμπεριφορά δύο ατόμων ως προς το φύλο τους, στην λειτουργία τριών μηχανών ή δύο βιομηχανιών ή έξι εργαζομένων ή στην κομματική τοποθέτηση ενός πολίτη. Εδώ δεν μπορούμε να χρησιμοποιήσουμε μία συνεχή κλίμακα για τις μεταβλητές "φύλο", "μηχανή", "εργοστάσιο", "εργαζόμενος", ή "κόμμα". Σε τέτοιες περιπτώσεις είναι αναγκαίο να αντιστοιχίσουμε στις μεταβλητές αυτές κάποια επίπεδα που να λαμβάνουν υπόψη τους το γεγονός ότι οι διαφορετικοί άνθρωποι, μηχανές, εργοστάσια, εργαζόμενοι ή ψηφοφόροι, είναι δυνατό να επιδρούν με συγκεκριμένο διαφορετικό τρόπο στην εξαρτημένη μεταβλητή. Ένα άτομο, ή μια κατάσταση, προσδιορίζεται ως ανήκον σε μια από k δυνατές, αμοιβαία ξένες μεταξύ τους, κατηγορίες ή επίπεδα. Προκειμένου να καταστεί δυνατόν να περιληφθούν τέτοιες καταστάσεις σε ένα στατιστικό μοντέλο χρειάζεται να ορισθούν μεταβλητές που θα προσδώσουν αριθμητική έκφραση σε ποιοτικά (κατηγορικά) χαρακτηριστικά.

Page 3: ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ › ~jpan › Linear-Models-Supplement.pdf · μεταβλητή - δείκτη 0-1 ως εικονική μεταβλητή. Όπως

2

Για τις περιπτώσεις αυτές χρησιμοποιούνται οι λεγόμενες εικονικές μεταβλητές ή ψευδομεταβλητές (dummy variables). Οι μεταβλητές αυτές συνήθως χρησιμοποιούνται για να εκφράσουν δύο κατηγορίες (επίπεδα), οπότε είναι δίτιμες. Η συνήθης επιλογή για τον ορισμό μιας δίτιμης ψευδομεταβλητής είναι η χρησιμοποίηση μιας μεταβλητής-δείκτη (0-1) η οποία δείχνει αν μια συγκεκριμένη παρατήρηση ανήκει σε ένα από δύο καθορισμένα επίπεδα, ή κατηγορίες, μιας κατηγορικής εξαρτημένης μεταβλητής. Σε άλλες περιπτώσεις οι ψευδομεταβλητές χρησιμοποιούνται για να εκφράσουν μια ποιοτική μεταβλητή που παίρνει τιμές σε περισσότερες από δύο κατηγορίες (επίπεδα). Συγκεκριμένα, αν χρειάζεται να περιληφθεί σε ένα μοντέλο παλινδρόμησης με σταθερό όρο μια κατηγορική (ποιοτική) μεταβλητή με k επίπεδα (κατηγορίες), χρειάζεται να ορισθούν k-1 ψευδομεταβλητές για να εκφράσουν την κατηγορική μεταβλητή. Για παράδειγμα, αν χρειάζεται να περιλάβουμε το φύλο σε ένα μοντέλο παλινδρόμησης με σταθερό όρο χρειαζόμαστε μια ψευδομεταβλητή. Συνήθως, οι k-1 ψευδομεταβλητές που χρησιμοποιούνται επιλέγονται έτσι ώστε να είναι γραμμικά ανεξάρτητες. Στην περίπτωση των πολυεπίπεδων ανεξάρτητων ποιοτικών μεταβλητών με k-επίπεδα, χρησιμοποιούνται k-1 ψευδομεταβλητές οι οποίες (όπως θα δούμε αργότερα) είναι είτε δίτιμες (συνήθως), είτε, ισοδύναμα, παίρνουν περισσότερες από δύο τιμές. Όταν ορισθούν οι k-1 ψευδομεταβλητές για μια ποιοτική μεταβλητή με k επίπεδα, το επίπεδο (κατηγορία) που μένει ονομάζεται κατηγορία αναφοράς ή κατηγορία βάσης (reference category ή baseline category). Στην περίπτωση της έκφρασης του φύλου η δίτιμη ψευδομεταβλητή μπορεί να οριστεί ως

⎩⎨⎧

= γυναίκα για0 άνδρα για1

D

όπου η κατηγορία των γυναικών είναι η κατηγορία αναφοράς. Η επιλογή της κατηγορίας (επιπέδου) αναφοράς εξαρτάται συχνά από το υπό μελέτη πρόβλημα γιατί συγκεκριμένες επιλογές μπορεί να οδηγήσουν σε μια καλύτερη ερμηνεία των συντελεστών παλινδρόμησης. Αυτό συμβαίνει συνήθως όταν γίνονται συγκρίσεις με κάποια "ελεγχόμενη" ομάδα (control group). Στην περίπτωση αυτή

Page 4: ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ › ~jpan › Linear-Models-Supplement.pdf · μεταβλητή - δείκτη 0-1 ως εικονική μεταβλητή. Όπως

3

είναι φυσικό να έχουμε την ελεγχόμενη ομάδα ως κατηγορία αναφοράς. Η χρησιμοποίηση μιας ψευδομεταβλητής-δείκτη είναι επίσης χρήσιμη αν πρόκειται να κατασκευασθούν μοντέλα για κάθε επίπεδο μιας κατηγορικής μεταβλητής και να συγκριθούν μεταξύ τους. Όταν χρησιμοποιούνται για να εκφράσουν δύο κατηγορίες (επίπεδα) οι ψευδομεταβλητές ονομάζονται και διχοτομικές (dichotomous). Όταν χρησιμοποιούνται για να εκφράσουν πολλές κατηγορίες (επίπεδα) ονομάζονται και πολυεπίπεδες (polytomous). Ενώ, συνήθως χρησιμοποιούμε την ψευδομεταβλητή-δείκτη (0-1) για να παραστήσουμε μια δίτιμη κατηγορική μεταβλητή είναι δυνατόν να χρησιμοποιηθούν και άλλες εκφράσεις. Π.χ. για την ποσοτικοποίηση του φύλου μπορεί να χρησιμοποιηθεί η ψευδομεταβλητή

⎩⎨⎧

= γυναίκα για1-άνδρα για1

D

Το γενικό κίνητρο για να συμπεριληφθεί μια εικονική μεταβλητή σε ένα πρόβλημα παλινδρόμησης είναι, κατ’ ουσίαν, το ίδιο με εκείνο που οδηγεί στο να συμπεριληφθεί μία ποσοτική ανεξάρτητη μεταβλητή, Δηλαδή, (i) Nα μελετηθεί καλύτερα η εξαρτημένη μεταβλητή με την ελάττωση της επίδρασης του παράγοντα που οφείλεται στα λάθη και (ii) Nα αποτραπεί μια μεροληπτική αποτίμηση της επίδρασης μιας ανεξάρτητης μεταβλητής που είναι απόρροια του ότι έχει παραληφθεί από το μοντέλο μια άλλη ανεξάρτητη μεταβλητή η οποία σχετίζεται με αυτήν. Σε περισσότερο πολύπλοκα προβλήματα χρειάζεται να μελετήσουμε και την αλληλεπίδραση (interaction) των μεγεθών που εκφράζουν κάποιες από τις ανεξάρτητες μεταβλητές οπότε οδηγούμαστε στην ανάγκη να χρησιμοποιήσουμε την αλληλεπίδραση ποιοτικών και ποσοτικών ανεξαρτήτων μεταβλητών δηλαδή μεταβλητών και εικονικών μεταβλητών. Σημείωση 1: Όταν το πρόβλημα απαιτεί χρήση και διτίμων ποιοτικών εξαρτημένων μεταβλητών οδηγούμεθα στην μελέτη των μοντέλων που χαρακτηρίζονται ως logit και probit. πi ≡ )xX1p(Y)(Y ii ===p

Page 5: ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ › ~jpan › Linear-Models-Supplement.pdf · μεταβλητή - δείκτη 0-1 ως εικονική μεταβλητή. Όπως

4

επομένως, Ε ( )ixY = πi(1)+(1-πi)(0)=πi, Οπότε

⎟⎟⎠

⎞⎜⎜⎝

⎛−

=+=i

iii π1

πlogβXα)logit(π

Σημείωση 2: Παράδειγμα μιας όχι συνηθισμένης εικονικής μεταβλητής είναι η χρησιμοποίηση μιας μεταβλητής Χ0 (της οποίας η τιμή είναι πάντοτε 1) δίπλα στην παράμετρο α του γραμμικού μοντέλου. Γράφουμε δηλαδή

Y = αX0 +βX + ε

όπου Χ0 είναι πάντοτε 1. Προφανώς, ο όρος Χ0 δεν χρειάζεται, αλλά είναι υποβοηθητικός στο συμβολισμό, ιδιαίτερα όταν χρειάζεται να χρησιμοποιήσουμε συμβολισμό πινάκων. Σε πολλές άλλες περιπτώσεις οι εικονικές μεταβλητές είναι περισσότερο απαραίτητες, όπως για παράδειγμα στην προσπάθεια σύνδεσης της λογικής της γραμμικής παλινδρόμησης με αυτήν της ανάλυσης διακύμανσης. Όπως προελέχθη, χαρακτηριστικότερη περίπτωση χρησιμοποίησης εικονικής μεταβλητής είναι όταν θέλουμε να μελετήσουμε ποιοτικά δεδομένα που είναι ενδεχόμενο να έχουν ένα από δύο διαφορετικά χαρακτηριστικά. Σε τέτοιες περιπτώσεις χρησιμοποιούμε την μεταβλητή - δείκτη 0-1 ως εικονική μεταβλητή. Όπως είναι προφανές, η ψευδομεταβλητή - δείκτης 0-1 χρησιμοποιείται ανάλογα με το αν υφίσταται ή όχι κάποια συγκεκριμένο χαρακτηριστικό. Ας υποθέσουμε, για παράδειγμα, ότι κάποια επιχείρηση ισχυρίζεται ότι οι μισθοί που δίνει στους εργαζομένους σ’ αυτήν εξαρτώνται αποκλειστικά από την εμπειρία των εργαζομένων. Έστω ότι μας ενδιαφέρει να εξετάσουμε, αν, μελετώντας την εμπειρία, υπάρχουν σημαντικές διαφορές μεταξύ ανδρών και γυναικών που εργάζονται στη εταιρεία αυτή. Στην περίπτωση αυτή θα μπορούσαμε να επιλέξουμε ένα δείγμα μισθών ανδρών και γυναικών εργαζομένων στην εταιρεία και να εκτιμήσουμε την εξίσωση παλινδρόμησης

Page 6: ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ › ~jpan › Linear-Models-Supplement.pdf · μεταβλητή - δείκτη 0-1 ως εικονική μεταβλητή. Όπως

5

Y =α +β1D + β2Χ + ε

Όπου Y = ετήσιος μισθός

Χ = εμπειρία (σε αριθμό ετών)

D =10⎧⎨⎩

αν ο εργαζομενος ειναι ανδραςαν ειναι γυναικα

Οι παράμετροι της εξίσωσης αυτής μπορούν να ερμηνευθούν αν θεωρήσει κανείς τις πιθανές τιμές της εικονικής μεταβλητής. Για την περίπτωση των ανδρών εργαζομένων θα έχουμε D =1 και επομένως Y= (α+β1) + β2Χ + ε. Για την περίπτωση γυναικών εργαζομένων D = 0 και Y = α + β2Χ + ε. Η παράμετρος β1 αναφέρεται στο πρόσθετο μισθό που λαμβάνουν οι άνδρες εργαζόμενοι σε κάθε δεδομένο επίπεδο εμπειρίας. Ο ισχυρισμός του εργοδότη είναι ότι β1 =0 (και ενδεχομένως β2>0). Η ανωτέρω εξίσωση παλινδρόμησης μπορεί να εκτιμηθεί με τον συνήθη τρόπο και να εξετασθεί ο ισχυρισμός του εργοδότη. Σημείωση: Επειδή οι τιμές της εικονικής μεταβλητής δίνονται, συνήθως αυθαίρετα είναι ενδεχόμενο να αναρωτηθεί κανείς αν τα όποια συμπεράσματα εξάγει από την μελέτη ενός προβλήματος μεταβάλλονται με την ενδεχόμενη χρησιμοποίησης της εικονικής μεταβλητής με διαφορετικό τρόπο. Για παράδειγμα, στην προηγούμενη περίπτωση που εξετάσαμε, αναρωτιέται κανείς αν τα αποτελέσματα θα ήταν διαφορετικά στη περίπτωση που η εικονική μεταβλητή έπαιρνε την τιμή D = 1 αν ο εργαζόμενος ήταν γυναίκα και D = 0 αν ο εργαζόμενος ήταν άνδρας. Εύκολα διαπιστώνεται ότι δεν δημιουργείται πρόβλημα στα αποτελέσματα αρκεί να είναι κανείς προσεκτικός στον τρόπο που τα ερμηνεύει. Ας θεωρήσουμε για παράδειγμα το ίδιο πρόβλημα όπως προηγουμένως χρησιμοποιώντας την εικονική μεταβλητή

′ =D10

⎧⎨⎩

αν ο εργαζομενος ειναι γυναικααν ειναι ανδρας

Page 7: ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ › ~jpan › Linear-Models-Supplement.pdf · μεταβλητή - δείκτη 0-1 ως εικονική μεταβλητή. Όπως

6

Ας εκτιμήσουμε την εξίσωση παλινδρόμησης Y = ′á + ′â 1 ′D + ′â 2Χ + ε

Με τους δύο εναλλακτικούς ορισμούς της εικονικής μεταβλητής D και ′D έχουμε την εξής σχέση

D ′D D + ′D Άνδρας 1 0 1 Γυναίκα 0 1 1

Επομένως η σχέση D D= − ′1 συνεπάγεται ότι Y = α + β1(1 - ′D ) + β2Χ + ε = (α + β1 ) + (-β1) ′D + β2X + ε Επομένως α' = α + β1 , β'1 = - β1 , β'2 = β2 . Ο συντελεστής του Χ είναι, προφανώς, ο ίδιος και στις δύο εξισώσεις. Ο συντελεστής του D στην πρώτη διατύπωση του μοντέλου μετρά τον πρόσθετο μισθό που κερδίζει ένα άνδρας σε σχέση με μία γυναίκα που έχει την ίδια εμπειρία. Μια θετική τιμή για τον συντελεστή αυτό αποτελεί μια ένδειξη διάκρισης υπέρ των ανδρών. Ο συντελεστής του D' στη δεύτερη διατύπωση του μοντέλου μετρά τον πρόσθετο μισθό που κερδίζει μία γυναίκα σε σχέση με ένα άνδρα ιδίας εμπειρίας. Αρνητική τιμή για τον συντελεστή αυτό αποτελεί ένδειξη διάκρισης υπέρ των ανδρών. Επομένως, αν είμαστε προσεκτικοί στην ερμηνεία, δεν έχει καμιά σημασία εάν η εικονική μεταβλητή έχει την τιμή 1 για άνδρα και 0 για γυναίκα, ή αντίστροφα.

Δίτιμη Ανεξάρτητη Εικονική Μεταβλητή Ξεκινάμε με την υπόθεση ότι οι σχέσεις των ανεξαρτήτων μεταβλητών είναι προσθετικές (additive) δηλαδή ότι η επιμέρους επίδραση (partial effect) κάθε ανεξάρτητης μεταβλητής είναι η ίδια, ανεξάρτητα από τη συγκεκριμένη τιμή (επίπεδο) στην οποία η άλλη ανεξάρτητη μεταβλητή διατηρείται σταθερή. (Την περίπτωση που αυτό δεν συμβαίνει θα την εξετάσουμε αργότερα). Επίσης, κάνουμε τις συνήθεις υποθέσεις της γραμμικής παλινδρόμησης ότι δηλαδή τα λάθη είναι ανεξάρτητα μεταξύ και κατανέμονται κανονικά με μέσο μηδέν και σταθερή διακύμανση. Για να κάνουμε το πρόβλημα πιο συγκεκριμένο θα μελετήσουμε περισσότερο ενδελεχώς ένα πρόβλημα παρόμοιο με το παράδειγμα

Page 8: ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ › ~jpan › Linear-Models-Supplement.pdf · μεταβλητή - δείκτη 0-1 ως εικονική μεταβλητή. Όπως

7

που είδαμε. Ας υποθέσουμε ότι μας ενδιαφέρει να μελετήσουμε τη σχέση μεταξύ του εισοδήματος και του επιπέδου εκπαίδευσης ανδρών και γυναικών. Το σχήμα που ακολουθεί αναφέρεται σε δύο μικρούς ιδεατούς πληθυσμούς.

Σχέση εισοδήματος με εκπαίδευση ανδρών και γυναικών ενός πληθυσμού (a) (b) Εισόδημα

Εκπαίδευση

Εισόδημα

Εκπαίδευση

Ας υποθέσουμε ότι μας ενδιαφέρει να διερευνήσουμε τη σχέση μεταξύ εκπαίδευσης και εισοδήματος μεταξύ γυναικών και ανδρών του πληθυσμού αυτού. Τα σχήματα (a) και (b) εκφράζουν δύο μικρούς ιδανικούς πληθυσμούς. Και στις δύο περιπτώσεις οι ευθείες παλινδρόμησης ανά φύλο (between sex) εισοδήματος και εκπαίδευσης είναι παράλληλες. Παράλληλες ευθείες παλινδρόμησης συνεπάγονται προσθετικές επιδράσεις (additive effects) της εκπαίδευσης και του φύλου στο εισόδημα: Διατηρώντας σταθερό το επίπεδο εκπαίδευσης η "επίδραση" του φύλου στο εισόδημα εκφράζεται από την διαφορά (απόσταση) μεταξύ των δύο ευθειών παλινδρόμησης η οποία -για παράλληλες ευθείες- είναι παντού η ίδια. Παρομοίως, διατηρώντας το φύλο σταθερό, η "επίδραση" της εκπαίδευσης στο εισόδημα εκφράζεται από την κλίση της ευθείας παλινδρόμησης του εισοδήματος επί της εκπαίδευσης για το συγκεκριμένο φύλο (the within-gender education slope). Η κλίση αυτή -για παράλληλες ευθείες- είναι η ίδια για άνδρες και γυναίκες. (Η παλινδρόμηση με διάκριση ως προς το φύλο (within-group regression) για μη παράλληλες ευθείες εξετάζεται σ' άλλο μέρος).

Page 9: ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ › ~jpan › Linear-Models-Supplement.pdf · μεταβλητή - δείκτη 0-1 ως εικονική μεταβλητή. Όπως

8

Στο σχήμα (a) οι ανεξάρτητες μεταβλητές φύλο και εκπαίδευση είναι ασυσχέτιστες μεταξύ τους. Γυναίκες και άνδρες έχουν τις ίδιες κατανομές χρόνων εκπαίδευσης. Σε μια τέτοια περίπτωση, εάν αγνοήσουμε το φύλο και παλινδρομήσουμε το εισόδημα μόνο στην εκπαίδευση, θα καταλήξουμε στην ίδια κλίση η οποία προκύπτει αν κάνουμε δύο ξεχωριστές παλινδρομήσεις ως προς τι φύλο (within gender). Παρόλα αυτά, επειδή οι γυναίκες έχουν χαμηλότερα εισοδήματα απ' ότι οι άνδρες ίδιας εκπαίδευσης, αγνοώντας το φύλο αυξάνουμε το μέγεθος των λαθών. Η κατάσταση, όπως παρουσιάζεται στο σχήμα (b), είναι σημαντικά διαφορετική. Στην περίπτωση αυτή, το φύλο και η εκπαίδευση σχετίζονται και επομένως, εάν παλινδρομήσουμε το εισόδημα μόνο στην εκπαίδευση, καταλήγουμε σε μια μεροληπτική αποτίμηση της επίδρασης της εκπαίδευσης στο εισόδημα: Επειδή οι γυναίκες έχουν ένα υψηλότερο επίπεδο εκπαίδευσης απ' ότι οι άνδρες και επειδή, για δεδομένο επίπεδο εκπαίδευσης, το εισόδημα των γυναικών είναι χαμηλότερο, κατά μέσο όρο, απ' το αντίστοιχο των ανδρών, η συνολική παλινδρόμηση (the overall regression) του εισοδήματος στην εκπαίδευση έχει μια αρνητική κλίση, παρ' ότι οι παλινδρομήσεις του εισοδήματος κάθε φύλου πάνω στην εκπαίδευση έχουν θετικές κλίσεις1. Υπό το φως των παραπάνω προβληματισμών θα μπορούσαμε να προχωρήσουμε στον χωρισμό του δείγματός μας με στοιχείο το φύλο και να πραγματοποιήσουμε διαφορετικές παλινδρομήσεις για γυναίκες και άνδρες. Η προσέγγιση αυτή είναι, καταρχήν, λογική αλλά έχει κάποιους περιορισμούς: Η προσαρμογή διαφορετικών ευθειών παλινδρόμησης καθιστά δύσκολη την εκτίμηση και τους ελέγχους για διαφορές εισοδήματος ως προς το φύλο. Επιπλέον, αν είναι δυνατόν να υποθέσουμε παράλληλες ευθείες παλινδρόμησης για γυναίκες και άνδρες, μπορούμε να εκτιμήσουμε πιο αποτελεσματικά την κοινή κλίση της εκπαίδευσης θεωρώντας ως ένα σύνολο τις δειγματικές παρατηρήσεις που έχουν επιλεγεί από τις δύο ομάδες.

1 Το παράδοξο αυτό, ότι δηλαδή η γενική και οι επιμέρους σχέσεις μπορεί να διαφέρουν σε πρόσημο ονομάζεται παράδοξο του Simpson (Simpson's paradox). Στη συγκεκριμένη περίπτωση η γενική (marginal) σχέση μεταξύ εισοδήματος και εκπαίδευσης είναι αρνητική ενώ η επιμέρους σχέση (partial relationship) με έλεγχο ως προς το φύλο, είναι θετική.

Page 10: ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ › ~jpan › Linear-Models-Supplement.pdf · μεταβλητή - δείκτη 0-1 ως εικονική μεταβλητή. Όπως

9

Συγκεκριμένα, θεωρώντας ότι ισχύουν οι συνήθεις υποθέσεις για το μοντέλο παλινδρόμησης, είναι επιθυμητό να προσαρμόσουμε το μοντέλο κοινής κλίσης (common-slope) με τη μέθοδο των ελαχίστων τετραγώνων. Ένας τρόπος για να περιγράψουμε το μοντέλο κοινής κλίσης είναι

Υi = α + βΧi + γDi + εi όπου D, είναι η εικονική μεταβλητή. Η μεταβλητή αυτή ονομάζεται επίσης ψευδομεταβλητός παλινδρομητής (dummy-variable regression) ή μεταβλητή - δείκτης (indicator variable) που παίρνει τις τιμές 0 και 1 ως εξής:

Έτσι, το μοντέλο αυτό για τις γυναίκες, γίνεται

Υi = α + βΧi + γ(0) + εi = α + βΧi + εi και για άνδρες

Υi = α + βΧi + γ(1) + εi = (α + γ) + βΧi + εi Αυτές οι εξισώσεις παλινδρόμησης εμφανίζονται στο σχήμα που ακολουθεί γ α+ γ

β 1 γ β 1

D = 1 D = 0

α

0

Χ

Το προσθετικό μοντέλο παλινδρόμησης εικονικής μεταβλητής. Η ευθεία D=1 αντιστοιχεί σε άνδρες και η ευθεία D=0 σε γυναίκες. Άσκηση: Ας υποθέσουμε ότι στο τελευταίο παράδειγμα χρησιμοποιούμε τις τιμές -1 και 1 για την ψευδομεταβλητή D, αντί των τιμών 0 και 1.

⎩⎨⎧

= γυναίκες για 0 άνδρες για 1

Di

Page 11: ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ › ~jpan › Linear-Models-Supplement.pdf · μεταβλητή - δείκτη 0-1 ως εικονική μεταβλητή. Όπως

10

(i) Να γραφούν οι εξισώσεις παλινδρόμησης για άνδρες και γυναίκες και να ερμηνευτούν οι παράμετροι του μοντέλου.

(ii) Αυτή η εναλλακτική κωδικοποίηση της ψευδομεταβλητής αποτυπώνει ικανοποιητικά την επίδραση του φύλου;

(iii) Θα μπορούσε κανείς να ισχυρισθεί ότι το μοντέλο παλινδρόμησης με ψευδομεταβλητές θα είναι αποτελεσματικό με την προϋπόθεση ότι η ψευδομεταβλητή παίρνει δύο διακεκριμένες τιμές για κάθε ένα από τα φύλα;

(iv) Υπάρχει κάποιος συγκεκριμένος λόγος προτίμησης του ενός από τους δύο τρόπους κωδικοποίησης;

Ανεξάρτητες Μεταβλητές και Μεταβλητές Παλινδρόμησης

Στο σημείο αυτό είναι χρήσιμο να επισημάνουμε τη διαφορά μεταξύ ανεξαρτήτων μεταβλητών (independent variables) και μεταβλητών παλινδρόμησης ή παλινδρομητών (regressors). Στο συγκεκριμένο παράδειγμα, το φύλο είναι μία κατηγορική (ποιοτική) ανεξάρτητη μεταβλητή με κατηγορίες (δυνατές τιμές) "άνδρας" και "γυναίκα". Η εικονική μεταβλητή D είναι μια μεταβλητή παλινδρόμησης, που εκφράζει την ανεξάρτητη μεταβλητή "φύλο". Αντιθέτως, η ποσοτική ανεξάρτητη μεταβλητή "εισόδημα" και η μεταβλητή παλινδρόμησης Χ είναι ακριβώς το ίδιο πράγμα. Εάν επρόκειτο να μετασχηματίσουμε τις παρατηρήσεις για το εισόδημα, πριν να τις χρησιμοποιήσουμε στην εξίσωση παλινδρόμησης, π.χ με την λήψη λογαρίθμων, τότε θα είχαμε διάκριση μεταξύ της ανεξάρτητης μεταβλητής (εισόδημα) και της μεταβλητής παλινδρόμησης (λογάριθμος εισοδήματος). Είναι προφανές, ότι από μια ανεξάρτητη μεταβλητή μπορεί να προκύψουν πολλές μεταβλητές παλινδρόμησης (παλινδρομητές) και ότι, μερικές μεταβλητές παλινδρόμησης μπορεί να είναι συναρτήσεις περισσοτέρων από μιας ανεξαρτήτων μεταβλητών. Επιστρέφοντας στην εξίσωση Υi = α + βΧi + γDi +εi και στα σχήματα (a) και (b) βλέπουμε ότι ο συντελεστής γ για τις εικονικές μεταβλητές παλινδρόμησης, εκφράζει την διαφορά των σημείων τομής για τις δύο ευθείες παλινδρόμησης. Επειδή οι δύο ευθείες παλινδρόμησης είναι παράλληλες, το γ εκφράζει επίσης τη σταθερή απόσταση μεταξύ των δύο ευθειών και μπορεί, επομένως, να ερμηνευθεί ως η αναμενόμενη

Page 12: ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ › ~jpan › Linear-Models-Supplement.pdf · μεταβλητή - δείκτη 0-1 ως εικονική μεταβλητή. Όπως

11

υπεροχή στο εισόδημα για τους άνδρες όταν το επίπεδο εκπαίδευσης διατηρηθεί σταθερό. Αν οι άνδρες, ως προς το εισόδημα, βρίσκονταν σε μειονεκτική θέση σε σχέση με τις γυναίκες, τότε το γ θα ήταν αρνητικό. Ο συντελεστής α δίνει το σημείο τομής για τις γυναίκες για τις οποίες D = 0 ενώ β είναι η κοινή κλίση των ευθειών παλινδρόμησης του εισοδήματος για άνδρες και γυναίκες ως προς την εκπαίδευση. Το σχήμα που ακολουθεί αποκαλύπτει το θεμελιώδες γεωμετρικό "τρυκ" που χαρακτηρίζει την κωδικοποίηση μιας εικονικής μεταβλητής παλινδρόμησης:

Γεωμετρική ερμηνεία της παλινδρόμησης με εικονικές μεταβλητές. Το επίπεδο γραμμικής παλινδρόμησης ορίζεται μόνο στα σημεία D=0 και D=1, δημιουργώντας δύο ευθείες παλινδρόμησης με κλίση β και κατακόρυφη απόσταση γ. Στην πραγματικότητα προσαρμόζουμε ένα επίπεδο παλινδρόμησης στα δεδομένα αλλά η εικονική μεταβλητή παλινδρόμησης D ορίζεται μόνο στις τιμές 0 και 1 Χ,Υ⎜D=0 και Χ,Υ⎜D=1. Το επίπεδο παλινδρόμησης τέμνει τα επίπεδα σε δύο γραμμές, κάθε μία από τις οποίες έχει κλίση β. Δοθέντος ότι η διαφορά μεταξύ D=0 και D=1 είναι μία μονάδα, η διαφορά των σημείων τομής στον άξονα Υ των δύο γραμμών είναι η κλίση του επιπέδου στην κατεύθυνση D, δηλαδή γ. Πράγματι, το προηγούμενο σχήμα είναι η προβολή των δύο ευθειών παλινδρόμησης στο επίπεδο Χ,Υ. Σημείωση: Οι δύο ευθείες είναι παράλληλες αλλά βρίσκονται σε διαφορετικά επίπεδα. Η πρώτη, βρίσκεται στο επίπεδο X,Y και η δεύτερη βρίσκεται σ' ένα επίπεδο μία μονάδα μακριά από το επίπεδο

Page 13: ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ › ~jpan › Linear-Models-Supplement.pdf · μεταβλητή - δείκτη 0-1 ως εικονική μεταβλητή. Όπως

12

X,Y. Η δεύτερη απέχει κατά γ από την προβολή της πρώτης στο δεύτερο αυτό επίπεδο. Σε παρόμοια αποτελέσματα καταλήγουμε αν αλλάξουμε τις τιμές της δίτιμης μεταβλητής D και θέσουμε 0 για άνδρες και 1 για γυναίκες. Το πρόσημο της παραμέτρου γ αλλάζει επειδή το γ στην περίπτωση αυτή, σε αντίθεση με ό,τι συνέβαινε προηγουμένως, εκφράζει την διαφορά των σημείων τομής των ευθειών παλινδρόμησης μεταξύ γυναικών και ανδρών, αλλά σε μέγεθος η διαφορά αυτή παραμένει η ίδια. Ο συντελεστής α εκφράζει τώρα το σημείο τομής του εισοδήματος για άνδρες. Είναι επομένως άνευ ουσίας ποιά κατηγορία θα εκφραστεί με 1 και ποιά με 0, με την προϋπόθεση ότι είμαστε προσεκτικοί στις ερμηνείες των συντελεστών του μοντέλου -για παράδειγμα το πρόσημο του γ- με τρόπο που οι ερμηνείες να είναι συνεπείς με την κωδικοποίηση που έχει υιοθετηθεί. Για να εξετάσουμε αν το φύλο επηρεάζει το εισόδημα με έλεγχο του επιπέδου εκπαίδευσης μπορούμε να ελέγξουμε την υπόθεση Ηο: γ=0, είτε με ένα t-test, διαιρώντας την εκτιμήτρια του γ με την εκτιμώμενη τυπική απόκλιση ή, ισοδύναμα, αγνοώντας την εικονική μεταβλητή D από το μοντέλο παλινδρόμησης και χρησιμοποιώντας ένα αυξητικό (incremental) έλεγχο F. Η όποια αριθμητική διαφορά στα δεκαδικά ψηφία των δύο ελεγχοσυναρτήσεων που έχει παρατηρηθεί, οφείλεται σε λάθη στρογγυλοποίησης. Η μέχρι τώρα ανάπτυξη αναφερόταν στη χρησιμοποίηση μιας και μόνο εικονικής μεταβλητής για μια και μόνο ποσοτική μεταβλητή παλινδρόμησης. Η ίδια μέθοδος μπορεί να εφαρμοστεί για οποιονδήποτε αριθμό ποσοτικών μεταβλητών εφόσον μπορούμε να υποθέσουμε ότι οι κλίσεις είναι οι ίδιες για τις δύο κατηγορίες της δίτιμης ανεξάρτητης μεταβλητής, ότι δηλαδή οι επιφάνειες παλινδρόμησης είναι παράλληλες στις δύο κατηγορίες. Εν γένει, εάν εφαρμόσουμε το μοντέλο

Yi = α+β1Χi1+…+βk Χik+γDi+εi τότε, για D=0, έχουμε

Yi = α+β1Χi1+…+βk Χik+εi Και, για D=1 Yi = (α+γ)+β1Χi1+…+βk Χik+εi.

Page 14: ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ › ~jpan › Linear-Models-Supplement.pdf · μεταβλητή - δείκτη 0-1 ως εικονική μεταβλητή. Όπως

13

Σημείωση: Οι εικονικές μεταβλητές δεν έχουν συνήθως (όχι όμως πάντοτε) σχέση με οποιαδήποτε φυσικά επίπεδα που είναι ενδεχόμενο να υπάρχουν σε αυτούς καθ’ αυτούς τους παράγοντες.

Πολυεπίπεδες Ανεξάρτητες Ψευδομεταβλητές Εκτός από τις κατηγορικές μεταβλητές που παίρνουν τιμές σε δύο επίπεδα (όπως π.χ το φύλο), οι οποίες είναι και οι συνηθέστερες, είναι ενδεχόμενο να έχουμε κατηγορικές μεταβλητές με τιμές σε τρία ή περισσότερα επίπεδα. Για παράδειγμα, ένα πρόβλημα μπορεί να αναφέρεται σε τρεις περιοχές μιας πόλης, την βόρεια, το κέντρο και την νότια περιοχή. Ένας τρόπος για να παρασταθεί η μεταβλητή που αναφέρεται στην περιοχή είναι να ορισθούν δύο ψευδομεταβλητές ως εξής:

⎩⎨⎧

=άδιαφορετικ 0,

περιοχήνότια την για1, D1

⎩⎨⎧

=άδιαφορετικ 0,

κέντρο το για1, D2

Παρατηρούμε ότι η βόρεια περιοχή αποτελεί στην συγκεκριμένη περίπτωση την κατηγορία αναφοράς. Όπως και στην περίπτωση που χρησιμοποιούνται δίτιμες ψευδομεταβλητές για να εκφράσουν μια ποιοτική μεταβλητή με δύο κατηγορίες είναι δυνατόν να ορίσουμε ψευδομεταβλητές με τρεις τιμές για να εκφράσουν μια ποσοτική μεταβλητή που παίρνει τιμές σε τρία επίπεδα. Για παράδειγμα, στην προηγούμενη περίπτωση με τις περιοχές μιας πόλης είναι δυνατόν να ορισθούν δύο ψευδομεταβλητές ως εξής:

⎪⎩

⎪⎨

−=

περιοχήβόρεια την για1 κέντρο το για 0 περιοχήνότια την για1

D περ1

και

Page 15: ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ › ~jpan › Linear-Models-Supplement.pdf · μεταβλητή - δείκτη 0-1 ως εικονική μεταβλητή. Όπως

14

⎪⎩

⎪⎨

−=

περιοχήβόρεια την για1 κέντρο τοα γι 1 περιοχήνότια τηνα γι0

D περ2

Γενικοί έλεγχοι που αφορούν την κατηγορική μεταβλητή (δηλαδή έλεγχοι για την υπόθεση ότι όλοι οι συντελεστές παλινδρόμησης που αντιστοιχούν σε ένα σύνολο ψευδομεταβλητών είναι ίσοι με μηδέν) δεν εξαρτώνται από την επιλογή του ορισμού των ψευδομεταβλητών. Δοθέντος ότι στόχος ενός τέτοιου ελέγχου είναι η διερεύνηση της σχέσης μεταξύ μιας απαντητικής μεταβλητής και μιας κατηγορικής μεταβλητής ο μη επηρεασμός του ελέγχου από τον τρόπο ορισμού των ψευδομεταβλητών είναι εξαιρετικά σημαντικός. Βέβαια, η ερμηνεία των συντελεστών για κάθε μια από τις ψευδομεταβλητές εξαρτάται, όπως είναι φυσικό, από την κωδικοποίηση που χρησιμοποιήθηκε για την κατηγορική μεταβλητή. Η κωδικοποίηση για πολυεπίπεδες ψευδομεταβλητές γίνεται, συνήθως, με χρήση μεταβλητών-δεικτών (0-1). Για παράδειγμα, αν μας ενδιαφέρει να μελετήσουμε την επίδραση της εκπαίδευσης και του εισοδήματος στην αίγλη ενός επαγγέλματος είναι ενδεχόμενο να χωρίσουμε τα επαγγέλματα σε τρεις κατηγορίες (i) διοικητικά στελέχη (Α), (ii) υπαλλήλους γραφείου (Β) και (iii) εργάτες (Γ). Τα τρία αυτά επαγγελματικά επίπεδα μπορούν να εκφρασθούν σε μια ευθεία παλινδρόμησης με την χρησιμοποίηση δύο ψευδομεταβλητών-δεικτών D1 και D2 με την παρακάτω κωδικοποίηση. Κατηγορία D1 D2 Διοικητικά Στελέχη 1 0 Υπάλληλοι Γραφείου 0 1 Εργάτες 0 0 Έτσι, το μοντέλο παλινδρόμησης για το πρόβλημα αυτό θα έχει την μορφή Υ = α + β1Χ1 + β2Χ2 + γ1D1 + γ2D2 + ε Όπου Υ η αίγλη του επαγγέλματος, Χ1 η εκπαίδευση και Χ2 το εισόδημα.

Page 16: ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ › ~jpan › Linear-Models-Supplement.pdf · μεταβλητή - δείκτη 0-1 ως εικονική μεταβλητή. Όπως

15

Το μοντέλο αυτό περιγράφει τρία παράλληλα επίπεδα παλινδρόμησης τα οποία διαφέρουν όσο αφορά το σημείο τομής τους με τον άξονα των Υ: Διοικητικά Στελέχη : Υ = (α + γ1) + β1Χ1 + β2Χ2 + ε Υπάλληλοι Γραφείου: Υ = (α + γ2) + β1Χ1 + β2Χ2 + ε Εργάτες : Υ = α + β1Χ1 + β2Χ2 + ε Ο συντελεστής α επομένως, εκφράζει το σημείο τομής του άξονα του Υ με το επίπεδο παλινδρόμησης για τους εργάτες. Το γ1 αντιπροσωπεύει την σταθερή κατακόρυφη διαφορά μεταξύ των παραλλήλων επιπέδων παλινδρόμησης για τις κατηγορίες διοικητικά στελέχη και εργάτες (με σταθερές τιμές για την εκπαίδευση και το εισόδημα). Ο συντελεστής γ2 αντιπροσωπεύει την σταθερή κατακόρυφη απόσταση μεταξύ των επιπέδων παλινδρόμησης για υπαλλήλους γραφείου και εργάτες (διατηρώντας πάλι σταθερή την εκπαίδευση και το εισόδημα). Σύμφωνα με την κωδικοποίηση που κάναμε, η απασχόληση που αφορά εργάτες έχει την τιμή μηδέν και για τις δύο ψευδομεταβλητές παλινδρόμησης (dummy regressors). Επομένως, το επάγγελμα "εργάτης" έμμεσα χρησιμοποιείται ως κατηγορία βάσης με την οποία συγκρίνουμε τις δύο άλλες επαγγελματικές κατηγορίες. Στο συγκεκριμένο παράδειγμα, η επιλογή της κατηγορίας βάσης είναι αυθαίρετη αφού θα μπορούσαμε να εφαρμόσουμε τα ίδια τρία επίπεδα παλινδρόμησης ανεξάρτητα από το ποια επαγγελματική τάξη επιλέγαμε ως κατηγορία βάσης. Οι τιμές (και η ερμηνεία) των συντελεστών γ1 και γ2 για τις επιμέρους ψευδομεταβλητές εξαρτάται, παρόλα αυτά, από το ποιά κατηγορία χρησιμοποιήθηκε ως κατηγορία βάσης. Σε ορισμένες εφαρμογές, όπως στη Βιοστατιστική, η επιλογή του επιπέδου βάσης είναι το φυσικό επακόλουθο της μορφής του πειράματος, όταν αυτό περιλαμβάνει μία "ομάδα ελέγχου" (control group). Σε τέτοιες περιπτώσεις οι συντελεστές των επιμέρους ψευδομεταβλητών έχουν ενδιαφέρουν γιατί αντανακλούν διαφορές μεταξύ των "πειραματικών ομάδων" (experimental groups) και της ομάδας ελέγχου, διατηρώντας σταθερές τις άλλες ανεξάρτητες μεταβλητές.

Page 17: ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ › ~jpan › Linear-Models-Supplement.pdf · μεταβλητή - δείκτη 0-1 ως εικονική μεταβλητή. Όπως

16

Σημείωση: Όπως προαναφέρθηκε, στις περισσότερες εφαρμογές, η επιλογή του επιπέδου βάσης είναι αυθαίρετη, όπως στο παράδειγμα που προηγήθηκε. Ενδιαφερόμαστε επομένως να ελέγξουμε την μηδενική υπόθεση ότι η κατηγορία του επαγγέλματος δεν επηρεάζει την αίγλη του επαγγέλματος, διατηρώντας σταθερά (ελέγχοντας) την εκπαίδευση και το εισόδημα. Έτσι, έχουμε Η0: γ1 = γ2 = 0 Οι επιμέρους υποθέσεις Η0: γ1 = 0 και Η0: γ2 = 0 οι οποίες ελέγχουν, αντίστοιχα, διαφορές μεταξύ της απασχόλησης διοικητικών στελεχών και εργατών και μεταξύ υπαλλήλων γραφείου και εργατών έχουν λιγότερο ενδιαφέρον2. Η μηδενική υπόθεση Η0: γ1 = γ2 = 0 μπορεί να ελεγχθεί με την προσέγγιση του επαυξητικού αθροίσματος τετραγώνων (έλεγχος F για υποσύνολο μεταβλητών). Σημείωση: Στο παράδειγμά μας για μια ποσοτική ανεξάρτητη μεταβλητή με τιμές σε τρία επίπεδα χρησιμοποιήσαμε κωδικοποίηση με δύο ψευδομεταβλητές-δείκτες. Θα μπορούσε να ισχυριστεί κανείς ότι είναι περισσότερο φυσικό να αντιμετωπίσει τις τρεις επαγγελματικές κατηγορίες συμμετρικά, κωδικοποιώντας τρεις ψευδομεταβλητούς παλινδρομητές αντί να επιλέξει αυθαίρετα μία κατηγορία ως κατηγορία αναφοράς. Κάτι τέτοιο θα μπορούσε να γίνει ως εξής: Κατηγορία D1 D2 D3 Διοικητικά Στελέχη 1 0 0 Υπάλληλοι Γραφείου 0 1 0 Εργάτες 0 0 1 Έτσι, για την j (j=1,2,3) κατηγορία επαγγέλματος θα έχουμε Υ=(α+γj)+β1Χ1+β2Χ2+ε 2 Το επιχείρημα εδώ δεν είναι ότι οι επιμέρους υποθέσεις δεν έχουν ενδιαφέρον αλλά ότι αποτελούν ένα αυθαίρετα επιλεγμένο υποσύνολο των δυνατών ζευγών που μπορούν να κατασκευαστούν από το σύνολο των κατηγοριών. Στο παράδειγμα μας, όπου υπάρχουν τρεις κατηγορίες, οι επιμέρους υποθέσεις αναφέρονται σε δύο από τα τρία δυνατά ζεύγη συγκρίσεων. Το τρίτο ζεύγος σύγκρισης μεταξύ διοικητικών στελεχών και υπαλλήλων γραφείου δεν εκπροσωπείται ευθέως στο μοντέλο, παρότι προκύπτει έμμεσα από την διαφορά γ1 - γ2.

Page 18: ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ › ~jpan › Linear-Models-Supplement.pdf · μεταβλητή - δείκτη 0-1 ως εικονική μεταβλητή. Όπως

17

Το πρόβλημα με αυτή την προσέγγιση είναι ότι χρησιμοποιείται υπερβολικά μεγάλος αριθμός παραμέτρων. Χρησιμοποιούμε τέσσερις παραμέτρους (α, γ1, γ2, γ3) για να παραστήσουμε τα σημεία τομής με τον άξονα των Y (intercepts) για τρεις ομάδες. Αυτό έχει ως συνέπεια ότι δεν μπορούμε να βρούμε μονοσήμαντες τιμές για τις τέσσερις αυτές παραμέτρους, ακόμα και αν γνωρίζαμε τις ευθείες παλινδρόμησης για τους τρεις πληθυσμούς. Παρομοίως, δεν μπορούμε να υπολογίσουμε μονοσήμαντα καθορισμένες εκτιμήσεις ελαχίστων τετραγώνων για το μοντέλο γιατί οι τρεις ψευδομεταβλητές είναι πλήρως συγγραμμικές. Για παράδειγμα, είναι προφανές από τον πίνακα ότι D3 =1- D1- D2. Εν γένει, επομένως, για μια πολυεπίπεδη ανεξάρτητη μεταβλητή με m κατηγορίες χρειάζεται να κωδικοποιήσουμε m-1 εικονικούς παλινδρομητές. Ένας απλός τρόπος για να γίνει αυτό είναι να επιλέξουμε την τελευταία κατηγορία (επίπεδο) ως κατηγορία βάσης και να χρησιμοποιούμε την κωδικοποίηση Dij=1 όταν η παρατήρηση i εμπίπτει στην κατηγορία j και 0 οπουδήποτε αλλού: Κατηγορία D1 D2 . . . Dm-1

1 1 0 . . . 0 2 0 1 . . . 0 . . . . . . . . . . . .

m-1 0 0 . . . 1 m 0 0 . . . 0 Παράδειγμα: (McChesney3 (1987)) Ένα ερώτημα που απασχολεί τις εφημερίδες μεγάλης κυκλοφορίας σε όλο τον κόσμο είναι αν εντυπωσιακά γεγονότα όπως ένα πόλεμος ή ένα σκάνδαλο, αυξάνουν τα κέρδη της εφημερίδας. Εκ πρώτης όψεως θεωρείται λογικό ότι

3 McChesney FS (1987) «Sensationalism, Newspapers Profits and Marginal Value of Watergate» Economic Inquiry, January 1987, 135-144.

Page 19: ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ › ~jpan › Linear-Models-Supplement.pdf · μεταβλητή - δείκτη 0-1 ως εικονική μεταβλητή. Όπως

18

μια εφημερίδα θα αυξήσει τα κέρδη της αν έχει τη δυνατότητα να αυξήσει τον αριθμό των φύλων που πουλά προκαλώντας το ενδιαφέρον των αναγνωστών. Ο καθηγητής του Πανεπιστημίου Emory Fregman McChesney όμως, ισχυρίζεται με επιχειρήματα ότι αυτό δεν ισχύει πάντα. Με δεδομένο ότι τα έσοδα μιας εφημερίδας προέρχονται τόσο από την πώλησή της όσο, κυρίως, από τις διαφημίσεις κατέληξε στο συμπέρασμα ότι η αύξηση της κυκλοφορίας δεν αυξάνει υποχρεωτικά τα κέρδη μιας εφημερίδας. Αυτό έχει ιδιαίτερο ενδιαφέρον σε χώρες όπως, οι Ηνωμένες Πολιτείες, όπου κατά μέσο όρο οι διαφημίσεις καταλαμβάνουν περισσότερο από τον μισό χώρο των εφημερίδων και τα έσοδα από διαφημίσεις ανέρχονται στο 60-80% των συνολικών εσόδων μια εφημερίδας. (Αυτός άλλωστε είναι και ο λόγος που οι εφημερίδες με πολλές διαφημίσεις επιτυγχάνουν ενώ οι εφημερίδες που έχουν μόνο ειδήσεις αποτυγχάνουν). Γενικά πιστεύεται ότι η κάλυψη ειδησεογραφικών θεμάτων προκαλεί ζημιά σε μια εφημερίδα δοθέντος ότι το κόστος κάλυψής τους δεν αντιμετωπίζεται από τα έσοδα κυκλοφορίας. Αυτό που συμβαίνει με πολλές εφημερίδες μεγάλης κυκλοφορίας είναι ότι ο χώρος που αφιερώνουν σε ειδησεογραφικά θέματα δεν καθορίζεται από το πλήθος και την σημασία των ειδήσεων αλλά από το μέγεθος του χώρου που απαιτείται για την διαφήμιση. Ο McChesney ισχυρίστηκε ότι μια προσωρινή άνοδος της κυκλοφορίας δεν αυξάνει τα κέρδη μιας εφημερίδας. Αυτό γιατί, βραχυπρόθεσμα, η τιμή της εφημερίδας είναι σταθερή όπως επίσης το ίδιο συμβαίνει και με τα έσοδα από την διαφήμιση. (Για να αυξήσει τα έσοδα από διαφημίσεις, μια εφημερίδα θα πρέπει να πείσει τους πελάτες της ότι έχει σημειωθεί μια σταθερή αύξηση της κυκλοφορίας). Για τις μεγαλύτερες εφημερίδες του εξωτερικού μια αύξηση των πωλήσεων ελαττώνει τα κέρδη της εφημερίδας, δεδομένου ότι η τιμή της εφημερίδας δεν καλύπτει το κόστος έκδοσής της (Αυτό βέβαια δεν συνέβαινε μέχρι πρόσφατα στην Ελλάδα, όπου το χαρτί των εφημερίδων ήταν αδασμολόγητο). Προκειμένου να ελέγξει τις υποθέσεις αυτές ο McChesney εξέτασε την επίδραση που είχε το σκάνδαλο Watergate4 στην κυκλοφορία και 4 (Tο σκάνδαλο Watergate ξέσπασε τον Οκτώβριο του 1972 όταν η Washington Post αποκάλυψε ότι τον Ιούνιο του 1972 η διάρρηξη των γραφείων του Δημοκρατικού Κόμματος των ΗΠΑ στο

Page 20: ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ › ~jpan › Linear-Models-Supplement.pdf · μεταβλητή - δείκτη 0-1 ως εικονική μεταβλητή. Όπως

19

τα κέρδη των εφημερίδων γενικά και της εφημερίδας Washington Post συγκεκριμένα, η οποία αποκάλυψε το σκάνδαλο και το κάλυψε με μεγαλύτερες λεπτομέρειες από οποιαδήποτε άλλη εφημερίδα. Ο McChesney χρησιμοποίησε μια σειρά εξισώσεων παλινδρόμησης για την μελέτη της κυκλοφορίας τόσο της Washington Post όσο και όλων των άλλων εφημερίδων με χρονικά σημεία αναφοράς τις ημερομηνίες έναρξης και κλεισίματος του σκανδάλου και κατέληξε σε παρόμοια αποτελέσματα που αποτελούσαν ένδειξη ότι τα συμπεράσματά του ήταν αρκετά ισχυρά. Δύο από τις εκτιμηθείσες εξισώσεις είναι αυτές που παρουσιάζονται στη συνέχεια. Ο McChesney χρησιμοποίησε στοιχεία για τις κυκλοφορίες των εφημερίδων συγκρίνοντας τις κυκλοφορίες της Washington Post και της Wall Street Journal η οποία, σε αντίθεση με την Washington Post, κάλυψε ελάχιστα το σκάνδαλο Watergate. (Τα στοιχεία για τις κυκλοφορίες που χρησιμοποιήθηκαν αναφέρονταν σε ετήσιες κυκλοφορίες δεδομένου ότι τέτοια στοιχεία ήταν διαθέσιμα). Στην μεθοδολογία του ο McChesney χρησιμοποίησε μία εικονική μεταβλητή για να περιγράψει το γεγονός ότι η εφημερίδα Washington Star, που ήταν ο ισχυρότερος ανταγωνιστής της Washington Post, έκλεισε τον Αύγουστο του 1981. Επίσης, χρησιμοποίησε μια άλλη εικονική μεταβλητή για να αναφερθεί στα χρόνια του Watergate. Η εκτιμώμενη ευθεία παλινδρόμησης στην οποία κατέληξε ήταν η ακόλουθη:

[ ] [ ] [ ]Y = 290.10 + 0.761X + 0.325D + 0.058D

14.3 6.1 1 1.3 2

R2 = 0.97 όπου Υ = κυκλοφορία της Washington Post X = κυκλοφορία της Wall Street Journal D1 = ο αριθμός των μηνών, στον συγκεκριμένο χρόνο, όπου η εφημερίδα Washington Star δεν κυκλοφόρησε και κτίριο του Watergate ήταν μέρος μιας μεγάλης συνομωσίας, κατασκοπίας και σαμποτάζ. Το θέμα αυτό έκλεισε τον Αύγουστο του 1973 με τις δημόσιες ακροάσεις της Γερουσίας των ΗΠΑ και την αποκάλυψη ότι ο (ρεπουμπλικάνος) Πρόεδρος των ΗΠΑ Nixon μαγνητοφωνούσε τις συνομιλίες του (Τον Αύγουστο του 1974 ο Nixon παραιτήθηκε από Πρόεδρος)).

Page 21: ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ › ~jpan › Linear-Models-Supplement.pdf · μεταβλητή - δείκτη 0-1 ως εικονική μεταβλητή. Όπως

20

D2 =10

⎧⎨⎩

κατα τα χρονια τουδιαφορετικα

W atergate

Οι αριθμοί στις αγκύλες κάτω από τους συντελεστές της ευθείας παλινδρόμησης αποτελούν τις τιμές της ελεγχοσυνάρτησης t για κάθε μια από αυτές. (Για τον έλεγχο βi = 0, i =1, 2, 3 κάθε μια από αυτές είναι η τιμή της εκτιμήτριας διαιρεμένη με την τυπική της απόκλιση). Ο θετικός (και στατιστικά σημαντικός) συντελεστής του Χ αποτελεί ένδειξη ότι η κυκλοφορία της Washington Post αυξήθηκε με το χρόνο όπως συνέβη και με την κυκλοφορία της Wall Street Journal (αλλά και άλλων εφημερίδων). Ο θετικός (και στατιστικά σημαντικός) συντελεστής του D1 αποτελεί ένδειξη, όπως αναμένεται, ότι η αποτυχία της Washington Star είχε ένα ευνοϊκό αποτέλεσμα για την κυκλοφορία της Washington Post. Ο θετικός συντελεστής του D2 αποτελεί ένδειξη ότι το σκάνδαλο Watergate ενίσχυσε την κυκλοφορία της Washington Post αλλά ο συντελεστής αυτός δεν είναι στατιστικά σημαντικά διαφορετικός από το 0 στο 5% επίπεδο σημαντικότητας. Προκειμένου να μελετήσει την επίδραση της κυκλοφορίας στα κέρδη της Washington Post ο McChesney εξέτασε τις μηνιαίες αποδόσεις (monthly rate of return) των μετοχών της Washington Post σε σύγκριση με τις μηνιαίες αποδόσεις όλων των μετοχών και τις αποδόσεις των μετοχών άλλων εφημερίδων. Η εκτιμώμενη ευθεία παλινδρόμησης για την περίπτωση αυτή προσδιορίστηκε ως:

[ ] [ ] [ ]Y = 0.014 + 0.947X + 0.931X - 0.018D

9.1 1 5.3 2 0.8

R² = 0.61 όπου Υ = η απόδοση των μετοχών της Washington Post Χ1 = η συνολική απόδοση των μετοχών του Χρηματιστηρίου Χ2 = δείκτης της απόδοσης των μετοχών άλλων εφημερίδων

=D αδιαφορετικWatergateλουασκανδ τουνωμην τωνρκειααδι τηνκατα

01

⎩⎨⎧

Οι αριθμοί στις αγκύλες έχουν την ίδια έννοια όπως προηγουμένως.

Page 22: ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ › ~jpan › Linear-Models-Supplement.pdf · μεταβλητή - δείκτη 0-1 ως εικονική μεταβλητή. Όπως

21

Οι θετικοί (και στατιστικά σημαντικοί) συντελεστές των μεταβλητών Χ1 και Χ2 αποτελούν ένδειξη, όπως αναμένεται, ότι οι αποδόσεις των μετοχών της Washington Post αυξομειώνονταν ανάλογα με τις αντίστοιχες αυξομειώσεις της αγοράς του Χρηματιστηρίου όπως επίσης και με τις τιμές των μετοχών άλλων εφημερίδων. Ο αρνητικός συντελεστής για την εικονική μεταβλητή αποτελεί ένδειξη ότι το σκάνδαλο Watergate είχε μία αρνητική επίδραση στην μετοχή της Washington Post αλλά ο συντελεστής αυτός δεν είναι στατιστικά σημαντικός στο 5% επίπεδο σημαντικότητας. Με βάση αυτές και άλλες παρόμοιες εξισώσεις παλινδρόμησης ο McChesney οδηγήθηκε στο συμπέρασμα ότι δεν υπάρχουν πειστικές στατιστικές ενδείξεις ότι η κάλυψη του σκανδάλου Watergate ήταν κερδοφόρα για την Washington Post, ή για τις εφημερίδες γενικά. Ιδιαίτερα, η ανάλυση αυτή οδήγησε στο συμπέρασμα ότι το σκάνδαλο αύξησε ίσως προσωρινά την κυκλοφορία των εφημερίδων αλλά ελάττωσε τα κέρδη τους. Παράδειγμα (Το παράδειγμα αυτό αναφέρεται στην χρήση πολυεπίπεδων ψευδομεταβλητών). Στον πίνακα που ακολουθεί δίνονται τα στοιχεία μιας κλασικής μελέτης που έγινε στις ΗΠΑ το 1950. Στην μελέτη αυτή ο ερευνητής5 διερεύνησε την σύνδεση της αίγλης (prestige) επαγγελμάτων (Prs.), του εισοδήματος (Inc.) και της εκπαίδευσης (Ed.) με βάση στοιχεία που συγκεντρώθηκαν το έτος εκείνο. Η αίγλη για κάθε επάγγελμα μετρήθηκε σε κλίμακα 1-100. Για κάθε επάγγελμα η αίγλη ποσοτικοποιείται από την τιμή ενός δείκτη που εκφράζει το ποσοστό αξιολόγησης του επαγγέλματος με χαρακτηριστικά "καλό" ή "πολύ καλό". Τα στοιχεία για το εισόδημα αναφέρονται στο ποσοστό παρατηρήσεων με ετήσιο εισόδημα $3500 ή περισσότερο. Η μεταβλητή "Εκπαίδευση" αναφέρεται στο ποσοστό παρατηρήσεων με σπουδές τουλάχιστον απόφοιτου λυκείου. Ο συγγραφέας έκανε ένα διαχωρισμό των επαγγελμάτων σε τρία επίπεδα (κατηγορίες). Οι κατηγορίες αυτές ήταν (i) Λειτουργοί και ελεύθεροι επαγγελματίες (Professional and

Managerial). Tην κατηγορία αυτή συμβολίζουμε με Α. 5 Duncan, O. D. (1961). A Socioeconomic Index for All Occupations, in Reiss, Jr., A.J., (Editor), Occupations and Social Status, 109-138. Free Press, New York.

Page 23: ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ › ~jpan › Linear-Models-Supplement.pdf · μεταβλητή - δείκτη 0-1 ως εικονική μεταβλητή. Όπως

22

(ii) Υπάλληλοι γραφείου (White Collar). Την κατηγορία αυτή συμβολίζουμε με Β.

(iii) Τεχνίτες, εργάτες και Βιοτέχνες (Blue Collar). Την κατηγορία αυτή συμβολίζουμε με Γ.

Τα στοιχεία της έρευνας δίνονται στον πίνακα που ακολουθεί: Στοιχεία της μελέτης για την σχέση της αίγλης του επαγγέλματος με το εισόδημα και την εκπαίδευση στις ΗΠΑ το 1950 (Prs = Prestige (αίγλη επαγγέλματος), Inc = Income (εισόδημα), Ed = Education (Εκπαίδευση)) Επάγγελμα Prs Inc Ed Επάγγελμα Pr

s Inc Ed

Κατηγορία Α (Professional and Managerial) Γιατρός 97 76 97 Ταχυδρομικός 34 48 55

Καθηγητής 93 64 93 Εμποροϋπάλληλος 16 29 50

Τραπεζίτης 92 78 82 Κατηγορία Γ (Blue Collar)

Αρχιτέκτονας 90 75 92 Μηχανικός Σιδηροδρόμων 67 81 28

Φαρμακοποιός 90 64 86 Χειριστής Μηχανημάτων 57 36 32

Οδοντογιατρός 90 80 100 Ηλεκτρολόγος 53 47 39

Δικηγόρος 89 76 98 Αστυνομικός 41 34 47

Πολιτικός Μηχανικός 88 72 86 Μαραγκός 33 21 23

Ιερωμένος 87 21 84 Υδραυλικός 29 44 25

Πιλότος 83 72 76 Μηχανικός Αυτοκινήτων 26 22 22

Λογιστής 82 62 86 Χειριστής Μηχανημάτων 24 21 20

Βιομήχανος 81 60 56 Κομμωτής 20 16 26

Συγγραφέας 76 55 90 Πωλητής Αυτοκινήτων 19 42 26

Κατασκευαστής 76 53 45 Μάγειρας 16 14 22

Δάσκαλος 73 48 91 Ανθρακωρύχος 15 7 7

Κοινωνικός Λειτουργός 59 41 84 Οδηγός Φορτηγού 13 21 15

Ιδιοκτήτης Γραφείου Τελετών

57 42 74 Νυχτοφύλακας 11 17 25

Καταστηματάρχης 45 42 44 Βενζινοπώλης 10 15 29

Κατηγορία Β (Blue Collar)

Οδηγός ταξί 10 9 19

Δημοσιογράφος 52 67 87 Μπάρμαν 10 8 32

Ασφαλιστής 41 55 71 Κλητήρας 8 7 20

Λογιστής 39 29 72 Σερβιτόρος 7 16 28

Εισπράκτορας 38 76 34 Μικροπωλητής 6 12 30

Στιλβωτής 3 9 17

H ευθεία πολλαπλής παλινδρόμησης της αίγλης του επαγγέλματος Υ ως προς την εκπαίδευση Χ1 και το εισόδημα Χ2 με βάση τα στοιχεία του πίνακα είναι

Page 24: ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ › ~jpan › Linear-Models-Supplement.pdf · μεταβλητή - δείκτη 0-1 ως εικονική μεταβλητή. Όπως

23

Y = -6.065+0.5458X1+0.5987X2 [4.272] [0.0982] [0.1197] Επίσης έχουμε ότι R2=0.8282. Οι αριθμοί στις αγκύλες κάτω από τις εκτιμήσεις των παραμέτρων υποδηλώνουν τις εκτιμώμενες τυπικές αποκλίσεις για κάθε ένα από τους εκτιμηθέντες συντελεστές. Οι τρεις κατηγορίες επαγγελμάτων διαφέρουν σημαντικά όσον αφορά το μέσο επίπεδο αίγλης:

Κατηγορία Επαγγέλματος

Αριθμός Επαγγελμάτων

Μέση Αίγλη

Α 18 80.44 Β 6 36.67 Γ 21 22.76

Όλα τα επαγγέλματα 45 47.69 Χρησιμοποιώντας ψευδομεταβλητές για τις τρεις κατηγορίες επαγγελμάτων στην εξίσωση παλινδρόμησης και την κωδικοποίηση στην οποία αναφερθήκαμε προηγουμένως καταλήγουμε στα εξής αποτελέσματα: Y = -0.1850+ 0.3453Χ1+ 0.5976Χ2+ 16.66D1- 14.66D2

[3.714] [0.1136] [0.0894] [6.99] [6.11] R 2=0.9131 Οι τρεις εκτιμώμενες εξισώσεις για τις τρεις κατηγορίες επαγγελμάτων είναι, επομένως, Κατηγορία Α: 21 0.5976X 0.3453X 16.48Y ++=ˆ Κατηγορία Β: 21 0.5976X0.3453X .84Y ++−= 14ˆ Κατηγορία Γ: 21 0.5976X0.3453XY ++−= 1850.0ˆ Από τις εξισώσεις αυτές παρατηρούμε ότι ο συντελεστής για την εκπαίδευση (Χ1), όχι όμως ο συντελεστής για το εισόδημα (Χ2), μικραίνει όταν ελέγχουμε το είδος (επίπεδο) της απασχόλησης. Οι συντελεστές των ψευδομεταβλητών (ή, ισοδύναμα, τα σημεία τομής των τριών κατηγοριών με τον άξονα των Υ) αποκαλύπτουν ότι, όταν

Page 25: ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ › ~jpan › Linear-Models-Supplement.pdf · μεταβλητή - δείκτη 0-1 ως εικονική μεταβλητή. Όπως

24

τα επίπεδα εκπαίδευσης και εισοδήματος ελέγχονται, η διαφορά στην μέση αίγλη μεταξύ της κατηγορίας Α και της κατηγορίας Γ των επαγγελμάτων μειώνεται από 80.44 - 22.76=57.68 μονάδες σε 16.66 μονάδες. Η διαφορά μεταξύ των δύο κατηγοριών επαγγελμάτων Β και Γ είναι αντίστροφη όταν διατηρούνται ελεγχόμενα το εισόδημα και η εκπαίδευση αλλάζοντας από 36.67 - 22.76 =13.91 μονάδες σε -14.66 μονάδες. Αυτό σημαίνει ότι η μεγαλύτερη αίγλη των επαγγελμάτων της κατηγορίας Α, όταν αυτά συγκρίνονται με την αίγλη των επαγγελμάτων της κατηγορίας Γ, φαίνεται να οφείλεται κυρίως στις διαφορές σε εκπαίδευση και εισόδημα μεταξύ αυτών των δύο κατηγοριών επαγγελμάτων. Όσοι έχουν επαγγέλματα της κατηγορίας Β έχουν μεγαλύτερη επαγγελματική αίγλη, κατά μέσο όρο από όσους έχουν επαγγέλματα της κατηγορίας Γ, όμως έχουν μικρότερη αίγλη από άτομα που έχουν επαγγέλματα της κατηγορίας Γ του ιδίου επιπέδου εκπαίδευσης και εισοδήματος. Για να ελέγξουμε την γενική υπόθεση ότι δεν υπάρχουν επιμέρους επιδράσεις στην αίγλη από το είδος του επαγγέλματος ο κατάλληλος έλεγχος είναι Ηο: γ1=γ2=0 με εναλλακτική την υπόθεση ότι τουλάχιστον ένα από τα γi, i=1,2 είναι διάφορα του μηδενός. (Τα γ1 και γ2 ορίζονται όπως στην σελ. 14). Η τιμή της επαυξητικής στατιστικής συνάρτησης F για τον έλεγχο αυτό είναι

19.54 0.91311

0.82820.91312

1445

r1rr

qk1kmF 2

1

22

21

0

=

=⎟⎠⎞

⎜⎝⎛

−−

⎟⎠⎞

⎜⎝⎛ −−

=

⎟⎟⎠

⎞⎜⎜⎝

⎛−−

⎟⎟⎠

⎞⎜⎜⎝

⎛−−−

=

H στατιστική αυτή συνάρτηση F έχει 2 και 40 βαθμούς ελευθερίας. Το παρατηρούμενο επίπεδο σημαντικότητας (p-τιμή) για τον έλεγχο αυτό είναι p<0.0001. Επομένως το είδος (κατηγορία) του επαγγέλματος έχει έντονα στατιστικά σημαντική επίδραση στην αίγλη του επαγγέλματος που δεν είναι όμως δυνατόν να εκτιμηθεί με ακρίβεια αφού, όπως βλέπουμε οι τυπικές αποκλίσεις των εκτιμητριών των συντελεστών έχουν μεγάλη τυπική απόκλιση. Το

Page 26: ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ › ~jpan › Linear-Models-Supplement.pdf · μεταβλητή - δείκτη 0-1 ως εικονική μεταβλητή. Όπως

25

αυτό συμβαίνει με τους συντελεστές των μεταβλητών που αναφέρονται στην εκπαίδευση και στο εισόδημα. Φυσικά, και στην μελέτη αυτή, όπως και σε πολλές άλλες παρόμοιες, θα μπορούσε κανείς να αμφισβητήσει την ορθότητα των συμπερασμάτων (αφού π.χ. είναι πολύ πιθανόν να υπάρχει πολυσυγγραμικότητα).

Μοντέλα που ΠεριλαμβάνουνΑλληλεπιδράσεις

Θα λέμε ότι ανεξάρτητες μεταβλητές οι οποίες χρησιμοποιούνται σε ένα μοντέλο παλινδρόμησης αλληλεπιδρούν (interact) στον προσδιορισμό της εξαρτημένης μεταβλητής όταν η επιμέρους επίδραση μιας από αυτές εξαρτάται από την τιμή που παίρνει κάποια άλλη. Τα προσθετικά μοντέλα (additive models) που έχουμε θεωρήσει μέχρι τώρα δεν έχουν λάβει υπόψη τους αλληλεπιδράσεις. Στην ενότητα αυτή θα δούμε πώς το μοντέλο παλινδρόμησης με ψευδομεταβλητές μπορεί να τροποποιηθεί προκειμένου να λάβει υπόψη του αλληλεπιδράσεις μεταξύ ποιοτικών και ποσοτικών ανεξάρτητων μεταβλητών6. Η παρουσίαση της παλινδρόμησης με εικονικές μεταβλητές μέχρι τώρα στηρίχτηκε στην υπόθεση παραλλήλων ευθειών παλινδρόμησης σ' όλο το φάσμα των διαφόρων κατηγοριών μιας ποιοτικής ανεξάρτητης μεταβλητής. Αν αυτές οι ευθείες παλινδρόμησης δεν είναι παράλληλες τότε η ποιοτική ανεξάρτητη μεταβλητή αλληλεπιδρά με μια, ή περισσότερες, από τις ποσοτικές ανεξάρτητες μεταβλητές. Το μοντέλο παλινδρόμησης με ψευδομεταβλητές μπορεί στην περίπτωση αυτή να τροποποιηθεί για να αντικατοπτρίζει αυτές τις αλληλεπιδράσεις. Για ευκολία επανερχόμαστε στο παράδειγμα της παλινδρόμησης του εισοδήματος ως προς την εκπαίδευση και το φύλο. Θεωρούμε τα ιδεατά υποθετικά δεδομένα που εμφανίζονται στο σχήμα που ακολουθεί

6 Οι αλληλεπιδράσεις μεταξύ ποιοτικών μόνο ανεξάρτητων μεταβλητών εξετάζονται στην ανάλυση διακύμανσης. Αλληλεπιδράσεις μεταξύ ποσοτικών ανεξάρτητων μεταβλητών εξετάζονται αλλού.

Page 27: ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ › ~jpan › Linear-Models-Supplement.pdf · μεταβλητή - δείκτη 0-1 ως εικονική μεταβλητή. Όπως

26

Ιδεατά δεδομένα που εκφράζουν τη σχέση μεταξύ εισοδήματος και εκπαίδευσης για δύο πληθυσμούς ανδρών (με αστερίσκο) και γυναικών (με μικρούς κύκλους). Στο σχήμα (a) δεν υπάρχει σχέση μεταξύ εκπαίδευσης και φύλου. Στο (b) οι γυναίκες έχουν ένα υψηλότερο μέσο επίπεδο εκπαίδευσης απ' ότι οι άνδρες. Και στις δύο περιπτώσεις οι ευθείες παλινδρόμησης για κάθε φύλο δεν είναι παράλληλες. Η κλίση για τους άνδρες είναι μεγαλύτερη από τη κλίση για τις γυναίκες και επομένως εκπαίδευση και φύλο αλληλεπιδρούν στον επηρεασμό του εισοδήματος. Όπως παρατηρούμε από το σχήμα, το παράδειγμα αυτό αναφέρεται σε μια διαφορετική κατάσταση από την προηγούμενη όπου, τότε, οι επιδράσεις του φύλου και της εκπαίδευσης ήταν προσθετικές. Εδώ, στο σχήμα (a) (όπως και στο αντίστοιχο σχήμα (a) της προηγούμενης περίπτωσης) το φύλο και η εκπαίδευση είναι ανεξάρτητα αφού οι γυναίκες και οι άνδρες έχουν τις ίδιες κατανομές εκπαίδευσης. Στο σχήμα (b) (όπως και στο αντίστοιχο προηγούμενο σχήμα (b)) φύλο και εκπαίδευση σχετίζονται αφού οι γυναίκες, κατά μέσο όρο, έχουν υψηλότερα επίπεδα εκπαίδευσης από τους άνδρες. Είναι όμως φανερό από τα σχήματα (a) και (b) εδώ, ότι οι ευθείες παλινδρόμησης για κάθε φύλο του εισοδήματος στην εκπαίδευση δεν είναι παράλληλες. Και στις δύο περιπτώσεις η κλίση για τους άνδρες είναι μεγαλύτερη από την κλίση για τις γυναίκες. Αυτό οφείλεται στο ότι η επίδραση της εκπαίδευσης είναι διαφορετική σε κάθε φύλο και επομένως εκπαίδευση και φύλο αλληλεπιδρούν στον τρόπο που επηρεάζουν το εισόδημα. Παρατηρούμε επίσης η επίδραση του φύλου στο εισόδημα μεταβάλλεται με την εκπαίδευση. Επειδή οι ευθείες παλινδρόμησης

Page 28: ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ › ~jpan › Linear-Models-Supplement.pdf · μεταβλητή - δείκτη 0-1 ως εικονική μεταβλητή. Όπως

27

δεν είναι παράλληλες, η σχετική υπεροχή εισοδήματος των ανδρών μεταβάλλεται (μάλιστα αυξάνει) με την εκπαίδευση. Η αλληλεπίδραση επομένως είναι μια συμμετρική έννοια. Η επίδραση της εκπαίδευσης μεταβάλλεται με το φύλο και η επίδραση του φύλου μεταβάλλεται με την εκπαίδευση. Τα παραδείγματα που έχουν χρησιμοποιηθεί μέχρι τώρα καταδεικνύουν ένα σημαντικό και συχνά μη κατανοητό σημείο: Αλληλεπίδραση και συσχέτιση (interaction and correlation) ανεξαρτήτων μεταβλητών αποτελούν, τόσο εμπειρικά όσο και λογικά, διακριτά μεταξύ τους φαινόμενα. Δύο ανεξάρτητες μεταβλητές είναι δυνατόν να αλληλεπιδρούν, ανεξάρτητα από το κατά πόσον είναι μεταξύ τους στατιστικά συσχετισμένες. Ο όρος αλληλεπίδραση αναφέρεται στον τρόπο με τον οποίο ανεξάρτητες μεταβλητές συνδυάζονται για να επηρεάσουν (affect) μια εξαρτημένη μεταβλητή και όχι στην σχέση μεταξύ των ανεξαρτήτων μεταβλητών αυτών καθ' αυτών. Παράδειγμα: (Χρησιμοποίηση εικονικών μεταβλητών σε πολλαπλή παλινδρόμηση και χρήση στατιστικών πακέτων). Προκειμένου να εξετασθεί το 1980 αν το φύλο επηρεάζει τις αμοιβές καθηγητών σε ένα Πανεπιστήμιο επελέγη ένα τυχαίο δείγμα από 6 άνδρες και 6 γυναίκες μεταξύ των Επικούρων Καθηγητών ενός Αμερικανικού Πανεπιστημίου. Τα δεδομένα για μισθούς και χρόνια προϋπηρεσίας εμφανίζονται στον πίνακα που ακολουθεί (σημειώνεται ότι και στα δύο δείγματα υπάρχουν δύο καθηγητές με 3 χρόνια προϋπηρεσίας, ενώ δεν υπήρχαν άνδρες καθηγητές με 2 χρόνια προϋπηρεσίας).

Μισθοί (σε χιλ. $) και χρόνια προϋπηρεσίας

Χρόνια προϋπηρεσίας, Χ1 1 2 3 4 5

Μισθός, Y (άνδρες) 20.710 23.160 23.210

24.140 25.760 25.590

Μισθός, Y (γυναίκες) 19.510 20.440 21.340 21.760

22.750 23.200

Page 29: ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ › ~jpan › Linear-Models-Supplement.pdf · μεταβλητή - δείκτη 0-1 ως εικονική μεταβλητή. Όπως

28

Να εξετασθεί η σχέση των μισθών Υ, με την προϋπηρεσία των καθηγητών και το φύλο τους. Λύση: Όπως είναι φυσικό, περιμένει κανείς να υπάρχει μια σχέση ευθείας παλινδρόμησης μεταξύ του μέσου μισθού και της προϋπηρεσίας τόσο για τους άνδρες όσο και για τις γυναίκες. Με την υπόθεση αυτή θα χρησιμοποιηθούν 2 ανεξάρτητες μεταβλητές: Χ1 = προϋπηρεσία σε έτη (που είναι ποσοτική μεταβλητή) Χ2 = φύλο των καθηγητών (που είναι ποιοτική μεταβλητή) Η Χ2 είναι μια εικονική μεταβλητή με τιμές

⎩⎨⎧

=τρια καθηγή για0 ή καθηγητ για1

X2

Δεδομένου ότι μας ενδιαφέρει να επιτρέψουμε στις κλίσεις των ευθειών που αναφέρονται στην σχέση μισθών και προϋπηρεσίας ανδρών και γυναικών καθηγητών, να διαφέρουν, συνεπάγεται ότι θα πρέπει να επιτρέψουμε αλληλεπίδραση μεταξύ των δύο επεξηγηματικών μεταβλητών Χ1 και Χ2. Θα πρέπει δηλαδή να υποθέσουμε ότι η μεταβολή στο Ε(Y|x1), που αντιστοιχεί σε μια μεταβολή της μεταβλητής Χ1, εξαρτάται από το αν ο καθηγητής είναι άνδρας ή γυναίκα. Προκειμένου να επιτρέψουμε την αλληλεπίδραση αυτή (δηλαδή την διαφορά στις κλίσεις των ευθειών) χρησιμοποιούμε και τον όρο (μεταβλητή) Χ1Χ2 στο μοντέλο. Επομένως, το μοντέλο που μας ενδιαφέρει να μελετήσουμε στην περίπτωση αυτή είναι το Ε(Y|x) = α + β1Χ1 + β2Χ2 + β3Χ1Χ2 Σημείωση: Η προσθήκη του όρου αλληλεπίδρασης Χ1Χ2 επιτρέπει στο μέγεθος που εκφράζει η μεταβλητή Χ2 να αλλάζει συμπεριφορά, ανάλογα με τις τιμές της μεταβλητής Χ1. Στην περίπτωση αυτή έχουμε ένα μοντέλο δεύτερης τάξης (second-order model). Στην περίπτωση του μοντέλου Υ = α+βΧ1+γΧ2+ε μιλάμε για μοντέλο πρώτης τάξης (first-order model). Ο όρος αλληλεπίδρασης Χ1Χ2 στο μοντέλο δεύτερης τάξης όταν οι ανεξάρτητες μεταβλητές είναι ποιοτικές, επιτρέπει στο διδιάστατο επίπεδο παλινδρόμησης να καμπυλώνεται και να γίνεται επιφάνεια.

Page 30: ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ › ~jpan › Linear-Models-Supplement.pdf · μεταβλητή - δείκτη 0-1 ως εικονική μεταβλητή. Όπως

29

Η αλληλεπίδραση των παραμέτρων του μοντέλου μπορεί να γίνει καλύτερα αντιληπτή αν δώσουμε τιμές στην εικονική μεταβλητή Χ2. Έτσι, για παράδειγμα, όταν μας ενδιαφέρει να κατασκευάσουμε την ευθεία παλινδρόμησης για τις καθηγήτριες, Χ2 = 0 και επομένως, στην περίπτωση αυτή

Ε(Y|x) = α + β1Χ1 + β20 + β3Χ10 = α + β1Χ1 Επομένως, α είναι το σημείο τομής για το Y στην παλινδρόμηση για τις καθηγήτριες ενώ β1 είναι η κλίση της ευθείας αυτής που αναφέρεται στην σχέση αναμενόμενων μισθών και χρόνου προϋπηρεσίας για καθηγήτριες και μόνο. Ομοίως, η ευθεία παλινδρόμησης για τους καθηγητές είναι αυτή που προκύπτει από το γενικό μοντέλο, για Χ2 = 1. Τότε

Ε(Y|x) = α + β1Χ1 + β21 + β3Χ11 = (α + β2) + (β1 + β3)Χ1 Δηλαδή, το σημείο τομής για την παλινδρόμηση που αναφέρεται στους καθηγητές είναι το α + β2 , ενώ η κλίση του συντελεστή του Χ1 είναι ίση με β1 + β3. Δεδομένου ότι η κλίση της παλινδρόμησης για τους καθηγητές είναι β1 + β3 ενώ η αντίστοιχη κλίση για τις γυναίκες είναι β1, προκύπτει ότι η ποσότητα

β1 + β3 - β1 = β3 αναφέρεται στην διαφορά των κλίσεων των δύο γραμμών. Παρομοίως, το β2 αναφέρεται στην διαφορά των τομών του άξονα Υ από τις δύο ευθείες παλινδρόμησης. Από τα δεδομένα του προβλήματος προκύπτει ότι η ενδεδειγμένη μεθοδολογία για το πρόβλημα είναι αυτή της πολλαπλής παλινδρόμησης με εικονικές μεταβλητές. Το αποτέλεσμα που δίνει το πρόγραμμα SAS χρησιμοποιώντας την εντολή GLM (General Linear Model) της πολλαπλής παλινδρόμησης δίνεται στον πίνακα που ακολουθεί.

Page 31: ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ › ~jpan › Linear-Models-Supplement.pdf · μεταβλητή - δείκτη 0-1 ως εικονική μεταβλητή. Όπως

30

Αποτέλεσμα της χρησιμοποίησης της διαδικασίας GLM της πολλαπλής παλινδρόμησης με το πρόγραμμα SAS DEPENDENT VARIABLE : Y SOURCE DF SUM OF SQUARES MEAN SQUARE F VALUE PR>F R-SQUARE C.V. MODEL 3 42108777,02898556 14035259,00966185 346,24 0,0001 0,992357 0,8897 ERROR 8 324314,63769142 40539,32971018 ROOT MSE Y MEAN CORRECTED TOTAL 11 42433091,66566598 201,34380971 22630,83333333 SOURCE DF TYPE I SS F VALUE PR>F DF TYPE IV SS F VALUE PR>F X1 1 33294036,23595509 821,28 0,0001 1 9389610,00000008 231,62 0,0001 X2 1 8452796,51598297 208,51 0,0001 1 326808,74399183 8,06 0,0218 X1*X2 1 361944,27704750 8,93 0,0174 1 361944,27704750 8,93 0,0174 PARAMETER ESTIMATES

T FOR HO : VARIABLE ESTIMATE PARAMETER=0 PR : > |T| STD ERROR INTERCEPT 18593,00000000 89,41 0,0001 207,94699250 X1 969,00000000 15,22 0,0001 63,67050315 X2 866,7101493 2,84 0,0218 305,25678546 X1*X2 260,13043478 2,99 0,0174 87,05798112

Σημείωση: το * στον πίνακα συμβολίζει πολλαπλασιασμό. Επομένως, το Χ1Χ2 συμβολίζεται με Χ1*Χ2. Η εξήγηση του αποτελέσματος με το SAS είναι παρόμοια με αυτή του MINITAB που παρουσιάζεται στον πίνακα που ακολουθεί.

Page 32: ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ › ~jpan › Linear-Models-Supplement.pdf · μεταβλητή - δείκτη 0-1 ως εικονική μεταβλητή. Όπως

31

Minitab The regression equation is: y = 18593 + 959X1 + 867X2 + 260X1*X2 Predictor Coef Stdev t-ratio p Constant 18593,0 207,9 89,41 0,000 X1 969,00 63,67 15,22 0,000 X2 866,7 305,3 2,84 0,022 X1*X2 260,13 87,06 2,99 0,017 s = 201,3 R-sq = 99,2% R-sq(adj) = 98,9% Analysis of Variance SOURCE DF SS MS F P Regression 3 42109777 14036259 346,24 0,0001 Error 8 324315 40539

Total 11 42433092 SOURCE DF SEQ SS X1 1 33294036 X2 1 8452797 X1*X2 1 351944 Οι πληροφορίες που ενδιαφέρουν στους πίνακες έχουν αριθμηθεί και τοποθετηθεί σε πλαίσια. Όπως είναι γνωστό, η τιμή του R2, του πολλαπλού συντελεστή προσδιορισμού (multiple coefficient of determination), αποτελεί ένα μέτρο του πόσο καλά το μοντέλο εξηγεί τα δεδομένα. Όπως βλέπουμε από τον πίνακα, το 99.2% του αθροίσματος των τετραγώνων των αποκλίσεων των τιμών του Y από το Y εξηγείται από τους παράγοντες που έχουν χρησιμοποιηθεί στο μοντέλο. Καλύτερο μέτρο

Page 33: ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ › ~jpan › Linear-Models-Supplement.pdf · μεταβλητή - δείκτη 0-1 ως εικονική μεταβλητή. Όπως

32

είναι ο προσαρμοσμένος πολλαπλός συντελεστής (R-sq(adj)), αφού λαμβάνει υπόψη του και τον αριθμό των μεταβλητών που έχουν χρησιμοποιηθεί. Η τιμή του για το συγκεκριμένο πρόβλημα (98.9%) είναι επίσης πολύ ικανοποιητική. Για να εξετάσουμε αν κάθε μια από τις ανεξάρτητες μεταβλητές του μοντέλου συνεισφέρει πληροφορίες για την πρόβλεψη του Υ θα πρέπει να ελέγξουμε την μηδενική υπόθεση Η0: β1 = β2 = β3 = 0 έναντι της εναλλακτικής υπόθεσης Η1: τουλάχιστον μια από τις παραμέτρους β1, β2, ή β3 διαφέρει από το 0. Η στατιστική συνάρτηση ελέγχου αυτής της υπόθεσης ακολουθεί την κατανομή F με 3 και 8 βαθμούς ελευθερίας. H συγκεκριμένη τιμή της κατανομής F φαίνεται στο πλαίσιο 2 και είναι 346.24. Δεδομένου ότι η τιμή αυτή είναι μεγαλύτερη από την τιμή της κατανομής F με 3 και 8 βαθμούς ελευθερίας σε επίπεδο σημαντικότητας α=0.05 (από τους πίνακες της F κατανομής προκύπτει ότι η τιμή αυτή είναι F = 4.07), απορρίπτουμε την μηδενική υπόθεση και συμπεραίνουμε ότι τουλάχιστον μια από τις παραμέτρους β1, β2 και β3 διαφέρει σημαντικά από το 0. Το παρατηρούμενο επίπεδο σημαντικότητας (p-value) για τον έλεγχο αυτό, PR>F εμφανίζεται δεξιά της τιμής της στατιστικής συνάρτησης F στο πλαίσιο 2 και είναι ίσο με 0.0001, τιμή που οδηγεί στην απόρριψη της Ηο για α=5%. Οι τιμές των εκτιμητριών για το μοντέλο των τεσσάρων παραμέτρων εμφανίζονται κάτω από τον τίτλο ESTIMATE (πλαίσιο 3). Στρογγυλοποιώντας τις τιμές αυτές έχουμε για την εξίσωση πρόβλεψης =≡ Yμ xY

ˆ 18593.0+969.0Χ1+866.7Χ2+260.1Χ1Χ2

Η τιμή της στατιστικής συνάρτηση T για κάθε μια παράμετρο του μοντέλου εμφανίζεται στο πλαίσιο 4 κάτω από τον τίτλο T F O R H0: PARAMETER=0. Τα παρατηρούμενα επίπεδα σημαντικότητας (p-values) εμφανίζονται στο πλαίσιο 5 κάτω από τον τίτλο PR>T. Οι τιμές αυτές έχουν υπολογισθεί για τον αμφίπλευρο έλεγχο. Η τιμή του παρατηρούμενου επιπέδου σημαντικότητας για μονόπλευρο έλεγχο είναι το μισό της τιμής που εμφανίζεται στον υπολογιστή.

Page 34: ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ › ~jpan › Linear-Models-Supplement.pdf · μεταβλητή - δείκτη 0-1 ως εικονική μεταβλητή. Όπως

33

Εξετάζοντας τα παρατηρούμενα επίπεδα σημαντικότητας βλέπουμε ότι οι συντελεστές της ευθείας παλινδρόμησης διαφέρουν σημαντικά από το μηδέν με p-values μικρότερες ή ίσες από 0.03. Οι εκτιμώμενες τυπικές αποκλίσεις των εκτιμητριών που χρησιμοποιούνται για να κατασκευασθούν τα διαστήματα εμπιστοσύνης για τους συντελεστές παλινδρόμησης εμφανίζονται στο πλαίσιο 6 κάτω από τον τίτλο STD ERROR. Οι τιμές του SSE=324214.637, s2 = MSE = 40539.329 εμφανίζονται στο πλαίσιο 7, ενώ η τυπική απόκλιση s = 201.343MSE = εμφανίζεται στο πλαίσιο 8 κάτω από τον τίτλο ROOT MSE. Στο πλαίσιο 9 εμφανίζονται τα ακολουθιακά αθροίσματα τετραγώνων που δίνει το SAS και το Minitab. Η γραφική παράσταση των δύο ευθειών παλινδρόμησης εμφανίζεται στο σχήμα που ακολουθεί. Ετήσιος μισθός y (σε χιλ. $) 26

25

24 Καθηγητές

23

22

21 Καθηγήτριες

20

19

18

Page 35: ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ › ~jpan › Linear-Models-Supplement.pdf · μεταβλητή - δείκτη 0-1 ως εικονική μεταβλητή. Όπως

34

0 1 2 3 4 5 x1 Προϋπηρεσία (σε έτη) Από την γραφική παράσταση παρατηρούμε ότι η ευθεία παλινδρόμησης για τις αποδοχές που αντιστοιχούν στους καθηγητές εμφανίζεται να αυξάνει ταχύτερα από την αντίστοιχη ευθεία για τις καθηγήτριες. Είναι φυσικό να αναρωτηθεί κανείς εάν αυτό οφείλεται σε τυχαίους παράγοντες ή οφείλεται πράγματι σε μια συστηματική διαφορά αποδοχών ανάλογα με το φύλο. Δεδομένου, ότι, όπως είπαμε προηγουμένως, η παράμετρος β3 μετρά διαφορές στις κλίσεις των δύο ευθειών, αν β3 =0 οι κλίσεις είναι οι ίδιες. Προκειμένου να απαντήσουμε στο ερώτημα θα πρέπει να ελέγξουμε την υπόθεση H0 : β3 =0 έναντι της υπόθεσης H1 : β3 > 0 Η τιμή της στατιστικής συνάρτησης T για τα δεδομένα που αντιστοιχούν στο β3 εμφανίζεται στο πλαίσιο 4 της εκτύπωσης του προγράμματος του υπολογιστή και είναι 2.99. Λόγω της μορφής της εναλλακτικής υπόθεσης ο έλεγχος που απαιτείται είναι μονόπλευρος και απορρίπτουμε την H0 αν T > tα. Από τον πίνακα των τιμών της κατανομής T, έχουμε ότι, για α =0.05 και 8 βαθμούς ελευθερίας, η τιμή αυτή 1.860. Η τιμή της στατιστικής συνάρτησης T για τα δεδομένα είναι μεγαλύτερη από την αντίστοιχη του πίνακα και επομένως οι ενδείξεις από το συγκεκριμένο δείγμα οδηγούν στο συμπέρασμα ότι ο ρυθμός της ετήσιας αύξησης των μισθών των καθηγητών υπερέχει του αντίστοιχου ρυθμού αυξήσεων των μισθών των καθηγητριών. Σημείωση: Τα περισσότερα από τα στατιστικά πακέτα περιέχουν προγράμματα πολλαπλής παλινδρόμησης. Τα γνωστότερα από αυτά το Minitab, το SAS και το SPSS, είναι παρόμοια. Η διαφορά τους βρίσκεται κυρίως στο τρόπο παρουσίας των αποτελεσμάτων. Η εκτύπωση του προγράμματος του SPSS για τα δεδομένα του προηγούμενου παραδείγματος εμφανίζεται στο πίνακα που ακολουθεί

Page 36: ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ › ~jpan › Linear-Models-Supplement.pdf · μεταβλητή - δείκτη 0-1 ως εικονική μεταβλητή. Όπως

35

SPSS *********************** MULTIPLE REGRESSION ***************** VARIABLE LIST 1 REGRESSION LIST 1 EQUATION NUMBER 1 DEPENDENT VARIABLE.. SALARY

VARIABLE(S) ENTERED ON STEP NUMBER 1 .. X1X2 2 .. X1 3 .. X2 MULTIPLE R .99617

R SQUARE .99236

ADJUSTED R SQUARE .98949

STANDARD ERROR 201.34391

ANALYSIS OF VARIANCE DF SUM OF SQUARES MEAN SQUARE Regression 3 42109777.02899 14036259.00966

Residuals 8 324314.63768 40539.32971

F = 346.23806 Signif. F = .0001

----------VARIABLES IN THE EQUATION-------- VARIABLES B SE B BETA T SIG T X1X2 260.130435 87.057981 .277388 2.988 .0174 X1 969.000000 63.670503 .701676 15.219 .0000 X2 866.710145 305.256786 .230453 2.839 .0218 (Constant) 18593.000000 207.946999 89.412 .0000 Τα αντίστοιχα αποτελέσματα σημειώνονται με τον ίδιο τρόπο όπως αυτά στην εκτύπωση του SAS. Από τις εκτυπώσεις παρατηρεί κανείς ότι οι συγκεκριμένες εκδόσεις από το SAS και το Minitab παρέχουν και το ακολουθιακό άθροισμα τετραγώνων (πλαίσιο 9) ενώ το SPSS δεν το παρέχει. Εξάλλου το SPSS και το Minitab δίνουν το προσαρμοσμένο R2, R2(r-adj), ενώ το SAS δεν το δίνει. Στη συνέχεια δίδεται εκτύπωση του αποτελέσματος με την χρήση της τελευταίας έκδοσης του SPSS.

Page 37: ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ › ~jpan › Linear-Models-Supplement.pdf · μεταβλητή - δείκτη 0-1 ως εικονική μεταβλητή. Όπως

36

Λύση με το πακέτο SPSS [SPSS for Windows, Release 10.1.4]

♦ Εισάγουμε τα δεδομένα της εξαρτημένης μεταβλητής Μισθός σε μία στήλη π.χ. Υ

♦ Εισάγουμε τα δεδομένα των ανεξάρτητων μεταβλητών (Χρόνια προϋπηρεσίας, Φύλο) σε δύο στήλες π.χ. Χ1 και Χ2, αντίστοιχα. Επειδή η μεταβλητή Φύλο είναι κατηγορική με δύο κατηγορίες (άνδρες και γυναίκες), στην εισαγωγή της μεταβλητής θα χρησιμοποιήσουμε την τιμή 0 για τις γυναίκες και την τιμή 1 για τους άνδρες.

♦ Δημιουργούμε την μεταβλητή Χ1Χ2, χρησιμοποιώντας την επιλογή Transform και στη συνέχεια την επιλογή compute. Στο παράθυρο που εμφανίζεται, τοποθετούμε το όνομα της νέας μεταβλητής Χ1Χ2 στο πεδίο Target Variable, και την συνάρτηση με την οποία δημιουργείται, Χ1*Χ2, στο πεδίο Numeric Expression. Στην συνέχεια επιλέγουμε ΟΚ.

♦ Από την επιλογή Analyze, επιλέγουμε Regression, και στη συνέχεια την επιλογή Linear.

♦ Στο παράθυρο που εμφανίζεται συμπληρώνουμε τα εξής πεδία: Στο πεδίο Dependent τοποθετούμε την εξαρτημένη μεταβλητή Υ, και στο πεδίο Independent(s) τοποθετούμε τις ανεξάρτητες μεταβλητές Χ1, Χ2, Χ1Χ2.

♦ Επιλέγουμε Statistics, και στο παράθυρο που εμφανίζεται, επιλέγουμε estimates στο πεδίο Regression coefficients, και Model Fit. Στη συνέχεια επιλέγουμε την επιλογή continue.

♦ Τέλος επιλέγουμε ΟΚ. Τα αποτελέσματα είναι τα ακόλουθα:

Page 38: ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ › ~jpan › Linear-Models-Supplement.pdf · μεταβλητή - δείκτη 0-1 ως εικονική μεταβλητή. Όπως

37

Regression Variables Entered/Removedb

X1X2, X1,X2

a . Enter

Model1

VariablesEntered

VariablesRemoved Method

All requested variables entered.a.

Dependent Variable: Yb.

Model Summary

.996a .992 .989 201.344Model1

R R SquareAdjustedR Square

Std. Error ofthe Estimate

Predictors: (Constant), X1X2, X1, X2a.

ANOVAb

42108777 3 14036259.01 346.238 .000a

324314.6 8 40539.33042433092 11

RegressionResidualTotal

Model1

Sum ofSquares df Mean Square F Sig.

Predictors: (Constant), X1X2, X1, X2a.

Dependent Variable: Yb.

Coefficientsa

18593.000 207.947 89.412 .000969.000 63.671 .702 15.219 .000866.710 305.257 .230 2.839 .022260.130 87.058 .277 2.988 .017

(Constant)X1X2X1X2

Model1

B Std. Error

UnstandardizedCoefficients

Beta

Standardized

Coefficients

t Sig.

Dependent Variable: Ya.

Page 39: ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ › ~jpan › Linear-Models-Supplement.pdf · μεταβλητή - δείκτη 0-1 ως εικονική μεταβλητή. Όπως

38

Άλλες Χρήσεις των Εικονικών Μεταβλητών

Κατά Τμήματα Γραμμική Παλινδρόμηση (Piecewise Linear Regression)

Μερικές φορές η παλινδρόμηση του Υ στο Χ ακολουθεί μια συγκεκριμένη γραμμική σχέση για κάποιες τιμές του Χ αλλά έχει μια διαφορετική γραμμική σχέση για άλλες τιμές του Χ. Για παράδειγμα, σε μια μελέτη, το κόστος ανά παραγόμενη μονάδα Υ σε σχέση με το μέγεθος Χ της ποσότητας παραγωγής είναι πιθανό να ακολουθεί μια συγκεκριμένη σχέση γραμμικής παλινδρόμησης μέχρι το σημείο Χp=500. Στο σημείο αυτό η κλίση μεταβάλλεται εξαιτίας του γεγονότος ότι ο τρόπος παραγωγής γίνεται πιο αποτελεσματικός μόνο όταν η παραγωγή αφορά περισσότερα από 500 κομμάτια του προϊόντος. (Για παράδειγμα, το κόστος ανά μονάδα είναι ενδεχόμενο να ελαττωθεί όταν γίνει αγορά πρώτων υλών για παραγωγή μεγαλύτερη από 500 κομμάτια.) Το σχήμα που ακολουθεί περιγράφει την κατάσταση αυτή.

Παράδειγμα Γραμμικής Παλινδρόμησης κατά Τμήματα Κόστος Υ ανά Μονάδα Χp=500 X Αριθμός Μονάδων

Παραγωγής

Page 40: ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ › ~jpan › Linear-Models-Supplement.pdf · μεταβλητή - δείκτη 0-1 ως εικονική μεταβλητή. Όπως

39

Θα εξετάσουμε τώρα πώς μια ψευδομεταβλητή-δείκτης μπορεί να χρησιμοποιηθεί για την εφαρμογή μιας κατά τμήματα γραμμικής παλινδρόμησης που αποτελείται από δύο τμήματα. Θα περιοριστούμε την περίπτωση όπου η τιμή του Χp, το σημείο όπου αλλάζει η κλίση, είναι γνωστό. Στο παράδειγμά μας το σημείο αυτό είναι Χp =500. Το μοντέλο για την περίπτωση αυτή μπορεί να εκφραστεί ως:

i2i1i21i1i ε500)X(XβXβα +−++=Y όπου:

1iX = αριθμός παραγομένων μονάδων

⎩⎨⎧ >

=άδιαφορετικ 0

500Χ αν 1X i1

i2

Το ότι αυτό το μοντέλο παλινδρόμησης οδηγεί σε μια κατά δύο τμήματα γραμμική παλινδρόμηση προκύπτει αν παρατηρήσουμε ότι: Ε(Υ) = α+β1Χ1+β2(Χ1-500)Χ2

Όταν Χ1≤ 500, Χ2=0 η σχέση αυτή γίνεται Ε(Υ) = α+β1Χ1, Χ1≤ 500

Εξάλλου, όταν Χ1>500, Χ2=1 η εξίσωση γίνεται Ε(Υ) = (α-500β2)+(β1+β2)Χ1, Χ1>500

Επομένως β1 και β2 είναι οι κλίσεις των δύο ευθειών παλινδρόμησης ενώ α και α-500β2 είναι τα δύο σημεία τομής των ευθειών αυτών με τον άξονα των Υ. Οι παράμετροι αυτές φαίνονται στο σχήμα που ακολουθεί. Ο λόγος που αφαιρούμε 500β2 από το α για να βρούμε το σημείο τομής της δεύτερης ευθείας είναι ότι μετράμε την επίπτωση της διαφορικής επίδρασης β2 (differential effect) στην κλίση, κατά την αρνητική κατεύθυνση από το σημείο Χp=500 στο 0.

Page 41: ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ › ~jpan › Linear-Models-Supplement.pdf · μεταβλητή - δείκτη 0-1 ως εικονική μεταβλητή. Όπως

40

Κόστος ανά Μονάδα

Αριθμός Παραγόμενων Μονάδων

Ασυνέχεια στη Συνάρτηση Παλινδρόμησης

Σε ορισμένες περιπτώσεις η συνάρτηση γραμμικής παλινδρόμησης όχι μόνο αλλάζει κλίση σε κάποια τιμή Χp της εξαρτημένης μεταβλητής Χ αλλά επίσης παρουσιάζει και ένα πήδημα (ασυνέχεια) στο σημείο αυτό. Η χρησιμοποίηση μιας ακόμα ψευδομεταβλητής-δείκτη μπορεί να περιγράψει την ασυνέχεια αυτή. Το σχήμα που ακολουθεί περιγράφει μια τέτοια περίπτωση για μια εφαρμογή που αναφέρεται στον απαιτούμενο χρόνο Υ για την επιτυχή ολοκλήρωση μιας εργασίας όταν χρησιμοποιείται ως εξαρτημένη μεταβλητή η δυσκολία Χ της εργασίας, όπου η δυσκολία της εργασίας μετριέται σε μια ποσοτική κλίμακα από 0 έως 100. Υποθέτουμε ότι η κλίση της ευθείας παλινδρόμησης μεταβάλλεται στο σημείο Χp=40 και έχουμε λόγους να πιστεύουμε ότι στο σημείο αυτό υπάρχει ασυνέχεια.

Page 42: ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ › ~jpan › Linear-Models-Supplement.pdf · μεταβλητή - δείκτη 0-1 ως εικονική μεταβλητή. Όπως

41

Παράδειγμα για ασυνεχή κατά τμήματα γραμμική παλινδρόμηση

Το μοντέλο παλινδρόμησης για το πρόβλημα αυτό μπορεί να γραφεί ως: Υi=α+β1Χi1+β2(Χi1-40)Xi2+β3Χi3+εi όπου

1iX = το επίπεδο δυσκολίας της εργασίας

⎩⎨⎧ >

=άδιαφορετικ 0

40Χ αν 1 X i1

i2

⎩⎨⎧ >

=άδιαφορετικ 0

40Χ αν 1 X i1

i3

Η συνάρτηση παλινδρόμησης για το μοντέλο αυτό είναι Ε(Υ)= α+β1Χ1+β2(Χ1-40)X2+β3Χ3

Όταν Χ1≤ 40 τότε Χ2=0 και Χ3=0, οπότε η συνάρτηση παλινδρόμησης γίνεται Ε(Υ)= α+β1Χ1, Χ1≤ 40 Παρομοίως, όταν Χ1> 40 τότε Χ2=1 και Χ3=1 οπότε η συνάρτηση παλινδρόμησης γίνεται Ε(Υ)= (α - 40β2 +β3)+(β1+β2)Χ1, Χ1 >40

Page 43: ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ › ~jpan › Linear-Models-Supplement.pdf · μεταβλητή - δείκτη 0-1 ως εικονική μεταβλητή. Όπως

42

Στο σχήμα που προηγήθηκε φαίνονται τα δύο τμήματα της ευθείας παλινδρόμησης όπως και οι παράμετροι που υπεισέρχονται. Παρατηρούμε ότι το β3 εκφράζει την διαφορά των μέσων αποκλίσεων για τις δύο ευθείες παλινδρόμησης στο σημείο Χp=40 ενώ το β2 εκφράζει την διαφορά των δύο κλίσεων. Η εκτίμηση των συντελεστών του μοντέλου δεν παρουσιάζει κανένα νέο πρόβλημα. Ο έλεγχος για το κατά πόσον β3=0 γίνεται με τον συνήθη τρόπο. Εάν συμπεράνουμε ότι β3=0 τότε η συνάρτηση παλινδρόμησης είναι συνεχής στο σημείο Χp οπότε καταλήγουμε στο προηγούμενο μοντέλο μιας κατά τμήματα γραμμικής παλινδρόμησης.

Εφαρμογές των Ψευδομεταβλητών στις Χρονολογικές Σειρές Οι οικονομολόγοι και οι αναλυτές επιχειρηματικών αποφάσεων χρησιμοποιούν συχνά δεδομένα χρονολογικών σειρών στην ανάλυση παλινδρόμησης. Εικονικές μεταβλητές-δείκτες είναι συχνά χρήσιμες για μοντέλα παλινδρόμησης χρονολογικών σειρών. Για παράδειγμα, οι αποταμιεύσεις Υ μπορεί να παλινδρομούν στο εισόδημα Χ όπου τα δεδομένα, τόσο για τις αποταμιεύσεις όσο και για το εισόδημα, είναι ετήσια για ένα αριθμό ετών. Το μοντέλο που μπορεί να χρησιμοποιηθεί είναι Υt=α+β1Χt+εt , t =1, …,n όπου, Υt και Χt αντιστοιχούν σε αποταμιεύσεις και εισόδημα, αντίστοιχα, για μια χρονική περίοδο t. Ας υποθέσουμε ότι η υπό μελέτη χρονική περίοδος περιλαμβάνει έτη ειρήνης και έτη πολέμου και ότι ο παράγων αυτός θέλουμε να ληφθεί υπόψη δοθέντος ότι η εμπειρία έχει δείξει πως οι αποταμιεύσεις σε περιόδους πολέμου τείνουν να είναι υψηλότερες. Σε μια τέτοια περίπτωση το κατάλληλο μοντέλο ίσως είναι το: Υt=α+β1 t1X +β2 t2X +εt

Όπου t1X =εισόδημα και

⎩⎨⎧

=άδιαφορετικ 0

ειρηνικήείναι t περίοδοςη αν 1 X t2

Σημειώνεται ότι το τελευταίο αυτό μοντέλο παλινδρόμησης υποθέτει ότι η περιθώρια τάση αποταμίευσης β1 είναι σταθερή και για τις δύο

Page 44: ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ › ~jpan › Linear-Models-Supplement.pdf · μεταβλητή - δείκτη 0-1 ως εικονική μεταβλητή. Όπως

43

περιόδους ειρήνης και πολέμου και ότι μόνο το ύψος της απαντητικής επιφάνειας επηρεάζεται από την ποιοτική μεταβλητή. Μια άλλη χρήση των εικονικών μεταβλητών σε εφαρμογές χρονολογικών σειρών παρατηρείται όταν χρησιμοποιούνται μηνιαία ή τριμηνιαία δεδομένα. Ας υποθέσουμε ότι οι τριμηνιαίες πωλήσεις Y παλινδρομούνται στις τριμηνιαίες δαπάνες διαφήμισης Χ1 και στο τριμηνιαίο διαθέσιμο προς κατανάλωση (disposable) προσωπικό εισόδημα Χ2. Αν η εποχή έχει κάποια επίδραση στις τριμηνιαίες πωλήσεις μπορούμε να χρησιμοποιήσουμε ένα μοντέλο παλινδρόμησης πρώτης τάξεως που περιλαμβάνει τις εποχιακές επιδράσεις ως εξής

tt5t4t3t2t1t εXβXβXβXβXβαY ++++++= 54321 Όπου:

1tX = τριμηνιαίες δαπάνες διαφήμισης 2tX = τριμηνιαίο διαθέσιμο για κατανάλωση προσωπικό εισόδημα

⎩⎨⎧

=άδιαφορετικ 0

τρίμηνο πρώτο το για1 X t3

⎩⎨⎧

=άδιαφορετικ 0

τρίμηνοδεύτερο το για1 X t4

⎩⎨⎧

=άδιαφορετικ 0

τρίμηνο τρίτο τοα γι1 X t5

Σημείωση: Τα μοντέλα παλινδρόμησης για χρονολογικές σειρές συχνά υπόκεινται σε συσχέτιση των λαθών. Είναι ιδιαίτερα σημαντικό σε τέτοιες περιπτώσεις να εξετασθεί αν η μοντελοποίηση των συνιστωσών της χρονολογικής σειράς για τα δεδομένα είναι επαρκής για να καταστήσει τους όρους λάθους ασυσχέτιστους. Η αντιμετώπιση του προβλήματος όπου τα λάθη είναι συσχετισμένα εξετάζεται αλλού. Χρήση Ψευδομεταβλητών στην Θέση Ποσοτικών Ανεξάρτητων

Μεταβλητών Όπως έχουμε δει οι εικονικές μεταβλητές χρησιμοποιούνται στην περίπτωση όπου η ανεξάρτητη μεταβλητή είναι ποιοτική. Είναι όμως ενδεχόμενο να χρησιμοποιηθούν και σε περιπτώσεις όπου η

Page 45: ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ › ~jpan › Linear-Models-Supplement.pdf · μεταβλητή - δείκτη 0-1 ως εικονική μεταβλητή. Όπως

44

ανεξάρτητη μεταβλητή είναι ποσοτική. Για παράδειγμα, η ανεξάρτητη μεταβλητή μπορεί να αναφέρεται στην ηλικία και να χρειάζεται να μετασχηματισθεί ώστε οι ηλικίες να ομαδοποιηθούν σε κατηγορίες όπως, π.χ., κάτω των 21, 21-34, 35-39, κλπ. Για να εκφραστούν οι κατηγορίες που διαμορφώνονται στις ηλικίες, χρησιμοποιούνται στην περίπτωση αυτή εικονικές μεταβλητές. Η προσέγγιση αυτή θα μπορούσε να προκαλέσει ερωτηματικά αφού έτσι αγνοούμε ουσιαστικά διαθέσιμες πληροφορίες. Αυτό έχει επίσης ως συνέπεια να προστίθενται νέες παράμετροι στο μοντέλο, γεγονός που οδηγεί σε μείωση των βαθμών ελευθερίας που σχετίζονται με το MSE (μέσο τετραγωνικό σφάλμα). Παρά τις επιφυλάξεις αυτές υπάρχουν περιπτώσεις που η αντικατάσταση μιας ποσοτικής μεταβλητής με μια ψευδομεταβλητή είναι χρήσιμη. Ας θεωρήσουμε μια μεγάλη δειγματοληπτική έρευνα στην οποία εξετάζεται η σχέση μεταξύ των ρευστών περιουσιακών στοιχείων (liquid assets) Y και της ηλικίας Χ του αρχηγού της οικογένειας. Ας υποθέσουμε ότι έχουμε παρατηρήσεις στην μελέτη μας για 2000 νοικοκυριά. Στην περίπτωση αυτή η απώλεια 10 ή 20 βαθμών ελευθερίας είναι άνευ σημασίας. Ο αναλυτής μπορεί να έχει πολλούς προβληματισμούς για την μορφή της συνάρτησης παλινδρόμησης η οποία ενδεχομένως είναι εξαιρετικά πολύπλοκη και επομένως, ίσως, χρησιμοποιήσει την προσέγγιση με εικονικές μεταβλητές ώστε να αποκτήσει πληροφορίες για την μορφή της συνάρτησης χωρίς να αναγκασθεί να κάνει συγκεκριμένες υποθέσεις για την συναρτησιακή της μορφή. Μια άλλη περίπτωση χρήσης εικονικών μεταβλητών σε κατά τμήματα γραμμική παλινδρόμηση συμβαίνει όταν ο αναλυτής έχει μελέτες μεγάλης έκτασης όπου η συναρτησιακή μορφή της παλινδρόμησης δεν είναι σαφής. Η προσέγγιση αυτή χρησιμοποιεί ένα μεγάλο αριθμό τμημάτων για την κατά τμήματα παλινδρόμηση. Και στην περίπτωση αυτή υπάρχει απώλεια βαθμών ελευθερίας στην εκτίμηση του MSE αλλά το γεγονός αυτό, όπως προελέχθη, δεν δημιουργεί προβλήματα σε μελέτες μεγάλης έκτασης. Το πλεονέκτημα είναι ότι με τον τρόπο αυτό κερδίζουμε πληροφορίες για την μορφή της συνάρτησης παλινδρόμησης χωρίς να απαιτείται να γίνουν ισχυρές υποθέσεις για την συναρτησιακή της μορφή.

Page 46: ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ › ~jpan › Linear-Models-Supplement.pdf · μεταβλητή - δείκτη 0-1 ως εικονική μεταβλητή. Όπως

45

Επομένως, για μεγάλα σετ δεδομένων η χρησιμοποίηση εικονικών μεταβλητών μπορεί να αποτελεί μια εναλλακτική προσέγγιση για την προσαρμογή απαντητικών συναρτήσεων μη παραμετρικής μορφής (non parametric forms of the response function).

Page 47: ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ › ~jpan › Linear-Models-Supplement.pdf · μεταβλητή - δείκτη 0-1 ως εικονική μεταβλητή. Όπως

46

ΜΕΡΙΚΑ ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΓΡΑΜΜΙΚΗΣ ΠΑΛΙΝΔΡΟΜΗΣΗΣ

Η Επίδραση της Παλινδρόμησης και οι Παρερμηνείες στις Oποίες

Οδηγεί (Regression Effect και Regression Fallacy) Είναι γνωστό (βλέπε π.χ Ι. Πανάρετου και Ε. Ξεκαλάκη: Εισαγωγή στη Στατιστική σκέψη τόμος ΙΙ (Εισαγωγή στις Πιθανότητες και στη Στατιστική Συμπερασματολογία), ότι η πρώτη προσπάθεια για τη μελέτη της σχέσης μεταξύ δύο μεταβλητών έγινε από τον sir Francis Galton (Αγγλία, 1822- 1911) για την μελέτη της σχέσης του ύψους των παιδιών με τους γονείς τους. Από την μελέτη αυτή προήλθε και ο όρος παλινδρόμηση (regression) που ουσιαστικά αναφέρεται στην παλινδρόμηση προς την κατεύθυνση του μέσου (regression towards the mean). Ο όρος προήλθε από την παρατήρηση του Galton7 ότι υπάρχει μια τάση όπου ακραίες (ως προς το μέσο τους) παρατηρήσεις της ανεξάρτητης τ.μ. αντιστοιχούν σε παρατηρήσεις της εξαρτημένης τ.μ. που δεν είναι το ίδιο ακραίες αλλά είναι πλησιέστερα προς τον μέσο τους. Με απλούστερο τρόπο μπορεί να πει κανείς ότι ακραίες παρατηρήσεις ακολουθούνται από λιγότερο ακραίες παρατηρήσεις (παρατηρήσεις που είναι πλησιέστερα προς το "κέντρο"). Αυτό κάνει το διάγραμμα σημείων να έχει την μορφή μπάλλας του αμερικανικού ποδοσφαίρου. Μελετώντας αρχεία για οικογένειες τα οποία αγόρασε, ο Galton συγκέντρωσε τα ύψη 205 ζευγαριών από γονείς και 928 ενήλικα παιδιά των γονέων αυτών. Δοθέντος ότι το μέσο ύψος των ανδρών είναι, περίπου, 8% μεγαλύτερο από ότι το μέσο ύψος των γυναικών ο Galton πολλαπλασίασε τα ύψη των γυναικών στο δείγμα του με το συντελεστή 1.08, έτσι ώστε τα ύψη αυτά των γυναικών να γίνουν συγκρίσιμα με τα ύψη των ανδρών του δείγματος. Στη συνέχεια, για το μέσο ύψος κάθε ζευγαριού γονέων, υπολογίστηκε ο μέσος όρος έτσι ώστε να βρεθεί ένα "μέσο ύψος γονέων". Τα "μέσα ύψη γονέων" διαιρέθηκαν στη συνέχεια σε εννέα διαστήματα. Για κάθε κατηγορία μέσου ύψους γονέων υπολογίστηκε το διάμεσο ύψος των παιδιών των 7 Galton, F. “Regression towards mediocrity in hereditary stature”, Journal of the Anthropological Institute, 1886, 246-263

Page 48: ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ › ~jpan › Linear-Models-Supplement.pdf · μεταβλητή - δείκτη 0-1 ως εικονική μεταβλητή. Όπως

47

γονέων που ανήκαν στην κατηγορία αυτή. Το διάγραμμα που ακολουθεί εμφανίζει την ευθεία ελαχίστων τετραγώνων για τα δεδομένα αυτά8.

Τα ύψη των γονέων και των παιδιών τους

στην μελέτη του Galton Ύψος παιδιών (σε ίντσες)

Ύψος γονέων (σε ίντσες)

Από την μελέτη των δεδομένων ο Galton παρατήρησε ότι,

ασυνήθιστα υψηλοί γονείς τείνουν να έχουν παιδιά χαμηλότερα από τους ίδιους ενώ, ασυνήθιστα χαμηλοί γονείς έχουν συνήθως υψηλότερα παιδιά. (Η διάμεσος του ύψους των παιδιών με μέσο ύψος γονέων 72.5 ίντσες είναι 72.2 ίντσες. Το μέσο ύψος παιδιών των οποίων οι γονείς έχουν μέσο ύψος 64.5 ίντσες είναι 65.8 ίντσες). Το ύψος κάθε ανθρώπου επηρεάζεται από τα γονίδια που κληρονομεί από τους γονείς του. Για διευκόλυνση της παρουσίασης, ας χαρακτηρίσουμε κάποιον ο οποίος κατά τη στιγμή της σύλληψης έχει προβλεπόμενο ύψος ενηλικίωσης με βάση τα γονίδιά του 1.72, ως ένα άτομο "γονιδιακού ύψους 1.72". Δεδομένου ότι το ύψος των ανθρώπων επηρεάζεται από την διατροφή, την άσκηση, και άλλους 8 Στο βιβλίο Ι. Πανάρετος και Ε. Ξεκαλάκη: Εισαγωγή στη Στατιστική Σκέψη τόμος ΙΙ (Εισαγωγή στις Πιθανότητες και στη Στατιστική Συμπερασματολογία), έχει διατυπωθεί το ίδιο πρόβλημα με τον τρόπο που το αντιμετώπισε ο μαθητής του Galton, Karl Pearson (1857-1936) ο οποίος μέτρησε το ύψος 1078 πατέρων και το ύψος των υιών τους μετά την ενηλικίωση.

Page 49: ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ › ~jpan › Linear-Models-Supplement.pdf · μεταβλητή - δείκτη 0-1 ως εικονική μεταβλητή. Όπως

48

περιβαλλοντικούς παράγοντες, το ύψος που θα έχει κάποιος στην ενηλικίωσή του δεν θα αντικατοπτρίζει με ένα τέλειο τρόπο την επίδραση των γονιδίων και επομένως δεν θα αποτελεί μία πλήρη επαλήθευση του προβλεφθέντος με βάση τα γονίδιά του ύψος κατά την παιδική ηλικία. Ένα άτομο πραγματικού ύψους 1.75 ίσως είχε ένα γονιδιακά προβλεφθέν ύψος 1.72, με την διαφορά πραγματικού και προβλεφθέντος ύψους οφειλόμενη σε θετική επίδραση περιβαλλοντικών παραγόντων. Αντίθετα, κάποιος με προβλεφθέν γονιδιακό ύψος 1.78 μπορεί να έχει πραγματικό ύψος στην ενηλικίωση 1.75 εξαιτίας αρνητικών επιδράσεων περιβαλλοντικών παραγόντων. Η πρώτη περίπτωση συμβαίνει συχνότερα απ’ ότι η δεύτερη γι’ αυτό και τα παρατηρούμενα ύψη παιδιών εξαιρετικά υψηλών γονέων αποτελούν, συνήθως, μια υπέρβαση των γονιδιακών (και επομένως των αναμενόμενων) υψών των παιδιών αυτών. Η προηγηθείσα επιχειρηματολογία δεν συνεπάγεται ότι όλοι οι άνθρωποι θα έχουν σε κάποια μελλοντική στιγμή το ίδιο ύψος. Αν συνέβαινε κάτι τέτοιο θα μπορούσε κανείς να αντιστρέψει την επιχειρηματολογία παρατηρώντας ότι πάρα πολύ υψηλοί άνθρωποι έχουν γονείς κάπως χαμηλότερους από αυτούς ενώ πάρα πολύ χαμηλοί άνθρωποι έχουν κάπως υψηλότερους γονείς. Μήπως αυτό συνεπάγεται ότι τα ύψη των ανθρώπων αποκλίνουν; Ούτε το ένα συμβαίνει ούτε το άλλο. Τα ύψη των ανθρώπων ούτε συγκλίνουν ούτε αποκλίνουν. Θα υπάρχουν πάντοτε εξαιρετικά υψηλοί και εξαιρετικά χαμηλοί άνθρωποι. Αυτό που θα πρέπει να αντιληφθούμε είναι ότι τα ύψη των ανθρώπων επηρεάζονται από τυχαίους παράγοντες και ότι, για ανθρώπους που είναι εξαιρετικά υψηλοί οι τυχαίοι παράγοντες επηρέασαν θετικά το ύψος τους και το έκαναν μεγαλύτερο από ότι αναμενόταν με βάση το γονιδίαμά τους. Η παρερμηνεία αυτή είναι μια λανθασμένη συλλογιστική, και οφείλεται στο φαινόμενο της παλινδρόμησης προς την κατεύθυνση του μέσου, (regression towards the mean), είναι δε ακριβώς η παρερμηνεία της προσωρινής φύσης μιας ακραίας παρατήρησης και ο χαρακτηρισμός της ως τάσης. Η κατάσταση που προκύπτει αποδίδεται στην επίδραση της παλινδρόμησης (regression effect). Το πρόβλημα της λανθασμένης αυτής συλλογιστικής φαίνεται και στα άλλα παραδείγματα που ακολουθούν.

Page 50: ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ › ~jpan › Linear-Models-Supplement.pdf · μεταβλητή - δείκτη 0-1 ως εικονική μεταβλητή. Όπως

49

Παραδείγματα της Επίδρασης Παλινδρόμησης

Παράδειγμα: (Τεστ ευφυίας). Σε πολλά σχολεία στο εξωτερικό, κυρίως στις Η.Π.Α, διαμορφώνονται προσχολικά προγράμματα για να ενισχύσουν το IQ των παιδιών. Τα παιδιά που συμμετέχουν στο πρόγραμμα κάνουν το IQ τεστ όταν ξεκινούν το πρόγραμμα και το επαναλαμβάνουν όταν ολοκληρώσουν το πρόγραμμα. Και στις δύο περιπτώσεις τα αποτελέσματα είναι γύρω στο 100 με τυπική απόκλιση γύρω στο 15. Τα στοιχεία δείχνουν ότι τέτοια προγράμματα δεν έχουν κάποιο ιδιαίτερο αποτέλεσμα. Μια παρατήρηση όμως που μπορεί να κάνει κάποιος που θα κοιτάξει περισσότερο τα δεδομένα δείχνει κάτι που προκαλεί έκπληξη. Τα παιδιά τα οποία είχαν απόδοση κάτω από το μέσο στο τεστ πριν αρχίσουν το πρόγραμμα πέτυχαν μία μέση βελτίωση περίπου 5 μονάδων στο τεστ που έδωσαν στο τέλος του προγράμματος. Αντιστρόφως όμως, τα παιδιά εκείνα που απέδωσαν πάνω από το μέσο όρο στο αρχικό τεστ έχασαν, κατά μέσο όρο, περίπου 5 μονάδες στο τελικό τεστ. Θα μπορούσε κανείς να οδηγηθεί στο συμπέρασμα ότι το πρόγραμμα αυτό οδηγεί τελικά σε εξισορρόπηση της ευφυίας των παιδιών; Ή ότι τα ευφυέστερα παιδιά, επειδή παίζουν με παιδιά μικρότερης ευφυίας, καταλήγουν να οδηγούν τις δύο αυτές κατηγορίες στην ίδια κατάσταση και οι διαφορές να εξαφανίζονται; Φυσικά δεν συμβαίνει τίποτα από αυτά. Και εδώ έχουμε τη χαρακτηριστική περίπτωση του φαινομένου της επίδρασης της παλινδρόμησης (regression effect) σύμφωνα με το οποίο, σε όλες τις περιπτώσεις εξετάσεων, το γκρουπ με τη χαμηλότερη απόδοση σε μια πρώτη εξέταση, κατά μέσο όρο, θα αποδώσει καλύτερα σε μια δεύτερη εξέταση και το γκρουπ με την υψηλότερη απόδοση, κατά μέσο όρο, θα αποδώσει χαμηλότερα σε μια δεύτερη εξέταση. Η εσφαλμένη αντίληψη ότι η επίδραση της παλινδρόμησης οφείλεται σε κάτι σημαντικό και όχι απλώς στην διάχυση (spread) των παρατηρήσεων γύρω από την γραμμή είναι αυτό που ονομάζεται παρερμηνεία της παλινδρόμησης (regression fallacy). Μια άλλη διάσταση της παλινδρόμησης προς την κατεύθυνση του μέσου στα τεστ ευφυίας (IQ tests) είναι η εξής: Σύμφωνα με μία

Page 51: ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ › ~jpan › Linear-Models-Supplement.pdf · μεταβλητή - δείκτη 0-1 ως εικονική μεταβλητή. Όπως

50

μελέτη που έγινε στην Αμερική9 παιδιά ηλικία τεσσάρων ετών με IQ 120 συνήθως, όταν ενηλικιωθούν, επιτυγχάνουν σκορ στο IQ τεστ περίπου 110. Παρομοίως, παιδιά τεσσάρων ετών με IQ σκορ 70 έχουν ένα μέσο σκορ στο IQ τεστ όταν ενηλικιωθούν 85. Αυτό δεν συνεπάγεται ότι θα υπάρχουν λιγότεροι ενήλικες απ’ ότι παιδιά με πολύ υψηλά ή πολύ χαμηλά αποτελέσματα στο IQ τεστ. Παρότι όσοι άνθρωποι ξεκινούν στην παιδική ηλικία με υψηλό ή χαμηλό IQ σκορ, συνήθως, θα παλινδρομήσουν προς την κατεύθυνση του μέσου, οι θέσεις τους θα παρθούν (θα αντικατασταθούν) από άλλους οι οποίοι στην παιδική τους ηλικία θα έχουν IQ σκορ πλησιέστερα προς τον μέσο. Παράδειγμα (Εκπαιδευτικό): Ένα παράδειγμα λανθασμένης ερμηνείας φαινομένων που οφείλονται στην παλινδρόμηση προς την κατεύθυνση του μέσου εμφανίζεται στην αξιολόγηση των φοιτητών. Έχει παρατηρηθεί ότι οι φοιτητές εκείνοι οι οποίοι έχουν τους υψηλότερους βαθμούς στις εξετάσεις προόδου συνήθως, δεν αποδίδουν εξίσου καλά στην τελική εξέταση ενώ, εκείνοι οι οποίοι έχουν χαμηλή βαθμολογία στην εξέταση προόδου, πολλές φορές βελτιώνουν την απόδοσή τους στην τελική εξέταση. Θα μπορούσε αυτό να εκληφθεί ως ένδειξη ότι η απόδοση των φοιτητών συγκλίνει προς μια ανησυχητική μετριότητα με τους ασθενείς φοιτητές να βελτιώνονται και τους καλούς φοιτητές να χειροτερεύουν; Ή, αντιστρέφοντας το προηγούμενο επιχείρημα, το γεγονός ότι αυτοί που πέτυχαν την υψηλότερη βαθμολογία στην τελική εξέταση δεν απέδωσαν εξίσου καλά στην εξέταση προόδου σημαίνει ότι η απόδοση αποκλίνει από τον μέσο; Και στις δύο περιπτώσεις η απάντηση είναι αρνητική. Η εξαιρετικά υψηλή απόδοση σε οποιαδήποτε εξέταση εμπεριέχει και έναν παράγοντα καλής τύχης ενώ η χαμηλή απόδοση έναν παράγοντα ατυχίας. Οι φοιτητές εκείνοι που πέτυχαν την υψηλότερη βαθμολογία σε οποιαδήποτε εξέταση είναι, κυρίως, φοιτητές πάνω από το μέσο όρο που πέτυχαν εξαιρετικά υψηλή βαθμολογία γιατί τα θέματα των εξετάσεων ήταν θέματα που,

9 Christopher Jencks, Marshall Smith, Henry Acland, Nelly Jo Bane, David Cohen, Herbert Gintis, Barbara Heyns and Stephen Michelson (1972) in: Α Quality Reassessment of the Effect of Family and Schooling in America, New York: Basic Books, p.59

Page 52: ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ › ~jpan › Linear-Models-Supplement.pdf · μεταβλητή - δείκτη 0-1 ως εικονική μεταβλητή. Όπως

51

εξαιτίας της καλής προετοιμασίας τους, είχαν την ευχέρεια να απαντήσουν. Είναι περισσότερο πιθανό ότι οι φοιτητές αυτοί είναι καλοί φοιτητές που απέδωσαν εξαιρετικά καλά από το ενδεχόμενο να ήταν εξαιρετικά καλοί φοιτητές που είχαν μια άσχημη μέρα. Όσοι επιτυγχάνουν τις υψηλότερες βαθμολογίες σε μια οποιαδήποτε εξέταση είναι πολύ πιθανό ότι δεν απέδωσαν εξίσου καλά στην προηγούμενη εξέταση και δεν θα αποδώσουν το ίδιο καλά στην επόμενη εξέταση. Η παλινδρόμηση προς την κατεύθυνση του μέσου μπορεί να θεωρηθεί κι ως μια περίπτωση κακής χρήσης διαθέσιμων δεδομένων. Αν, για την αξιολόγηση φοιτητών σε μια εξέταση επιλέξουμε με τυχαίο τρόπο φοιτητές, η μέση βαθμολογία τους θα αποτελεί μια αμερόληπτη εκτίμηση του μέσου του πληθυσμού. Εάν όμως, μετά την εξέταση, ξεχωρίσουμε τους φοιτητές εκείνους που απέδωσαν εξαιρετικά καλά, αυτοί βέβαια δεν αποτελούν ένα τυχαίο δείγμα (αφού έχουν επιλεγεί ακριβώς επειδή είχαν τις υψηλότερες βαθμολογίες). Σε οποιοδήποτε δείγμα οι υψηλότερες τιμές αποτελούν μια υπερεκτίμηση (overestimate) του μέσου του πληθυσμού. Για να έχουμε αμερόληπτες εκτιμήσεις θα πρέπει να έχουμε ένα τυχαίο δείγμα που δεν στηρίζεται στα αποτελέσματα αυτά καθαυτά.

Παράδειγμα (Στρατιωτικό): Ένας εκπαιδευτής πιλότων παρατήρησε ότι πολύ καλές προσγειώσεις συνήθως, ακολουθούνται από προσγειώσεις που δεν είναι εξίσου καλές, ενώ μέτριες προσγειώσεις ακολουθούνται, συνήθως από καλύτερες. Υποπίπτοντας στην λανθασμένη προσέγγιση που οφείλεται στην παρερμηνεία της παλινδρόμησης στην κατεύθυνση του μέσου ο εκπαιδευτής ισχυρίστηκε ότι η ακολουθία αυτή συμβαίνει γιατί συνήθιζε να επαινεί τις καλές προσγειώσεις και να κριτικάρει έντονα τις μέτριες. Για το λόγο αυτό έβγαλε το συμπέρασμα, σε αντίθεση από την κοινά αποδεκτή άποψη με βάση την έρευνα για την μαθησιακή διδασκαλία, ότι ο έπαινος έχει αρνητικά αποτελέσματα στην προσπάθεια ενώ η έντονη κριτική έχει θετικά αποτελέσματα10.

Παράδειγμα (Οικονομικά): Ένα χαρακτηριστικό παράδειγμα του προβλήματος στον τομέα των οικονομικών δίνεται στο βιβλίο με 10 Amos Tversky and Daniel Kahmeman (1973) “On the Psychology of Prediction” Psychological Review 1973 vol. 80, 237-251

Page 53: ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ › ~jpan › Linear-Models-Supplement.pdf · μεταβλητή - δείκτη 0-1 ως εικονική μεταβλητή. Όπως

52

τον προκλητικό τίτλο “Ο Θρίαμβος της Μετριότητας στις Επιχειρήσεις" (The Triumph of Mediocrity in Business”)11. Ο συγγραφέας «ανακάλυψε» ότι επιχειρήσεις με εξαιρετικά υψηλά κέρδη σε κάθε δεδομένη χρονιά έχουν χαμηλότερα κέρδη την επόμενη χρονιά ενώ επιχειρήσεις με πολύ χαμηλά κέρδη, εν γένει επιτυγχάνουν καλύτερα αποτελέσματα το επόμενο έτος. Με αυτές τις ενδείξεις κατέληξε στο συμπέρασμα ότι οι ισχυρές επιχειρήσεις γίνονται ασθενέστερες ενώ οι ασθενείς γίνονται ισχυρότερες με αποτέλεσμα σύντομα να γίνουν όλες οι επιχειρήσεις μεσαίου μεγέθους! Η λανθασμένη προσέγγιση του συγγραφέα είναι προφανής. Ο διάσημος στατιστικός Harold Hotelling εξήγησε το λάθος αυτό ως εξής12: «Οι αποδόσεις των επιχειρήσεων με ακραίες αποδόσεις τείνουν, συχνά, προς την κατεύθυνση του κέντρου ενώ εκείνες με μεσαίες αποδόσεις σε ένα σύνολο τείνουν προς τα άκρα. Μερικές, βελτιώνουν την απόδοσή τους ενώ άλλες χειροτερεύουν. Ο μέσος των κερδών του αρχικού συνόλου των επιχειρήσεων που βρισκόταν στο κέντρο είναι ενδεχόμενο, επομένως, να επιδείξει κάποια μικρή μεταβολή δοθέντος ότι, θετικές και αρνητικές αποκλίσεις ακυρώνονται στην διαδικασία υπολογισμού του μέσου, ενώ για ένα σύνολο με ακραίες αποδόσεις η μόνη δυνατή κίνηση είναι προς την κατεύθυνση του κέντρου».

Παράδειγμα (Οικονομικά): Παρόμοιο λάθος παρατηρείται και σ’ ένα από τα βιβλία με μεγάλη κυκλοφορία που αναφέρεται στη μελέτη επενδύσεων. Ο συγγραφέας13, επεξεργάζεται ένα μοντέλο για τιμές μετοχών του χρηματιστηρίου σύμφωνα με το οποίο γίνεται η υπόθεση ότι «Εν τέλει, οι δυνάμεις της αγοράς θα υποχρεώσουν στη σύγκληση των ρυθμών ανάπτυξης και κερδών των διαφορετικών επιχειρήσεων». Για να υποστηρίξει την άποψη αυτή ο συγγραφέας μελέτησε το 20% των επιχειρήσεων με τους υψηλότερους ρυθμούς απόδοσης το 1966 και το 20% των επιχειρήσεων με τους χαμηλότερους βαθμούς απόδοσης. Δεκατέσσερα χρόνια αργότερα, το 1980, οι ρυθμοί απόδοσης και των δύο ομάδων επιχειρήσεων 11 Horace Secrist : “The Triumph of Mediocrity in Business”. 12 Harold Ηotelling, review of Horace Secrist, “The Triumph of Mediocrity in Business,” Journal of the American Statistical Association, 1933, vol. 28, pp. 463-465. Η δημόσια αντιπαράθεση του Secrist και του Hotelling συνεχίστηκε το 1934 (Journal of the American Statistical Association, 1934, vol.29, pp. 196-199) 13 William F. Sharpe, Investments, 3d ed., Englewood Cliffs, NJ: Prentice-Hall, 1985, p.430.

Page 54: ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ › ~jpan › Linear-Models-Supplement.pdf · μεταβλητή - δείκτη 0-1 ως εικονική μεταβλητή. Όπως

53

πλησιάζουν περισσότερο προς το μέσο. Ο συγγραφέας ισχυρίζεται ότι «Είναι προφανής η σύγκλιση προς την κατεύθυνση ενός γενικού μέσου… το φαινόμενο είναι χωρίς καμία αμφιβολία πραγματικό». Στην πραγματικότητα, το φαινόμενο οφείλεται στην παλινδρόμηση προς την κατεύθυνση του μέσου και η εξήγηση είναι στατιστική και όχι οικονομική.

Άσκηση: Ένα κλασικό παράδειγμα αποτελεί η μελέτη των αποτελεσμάτων ενός IQ τεστ για 34 δίδυμα παιδιά που μεγάλωσαν σε διαφορετικά περιβάλλοντα14. Τρεις παρόμοιες αλλά διαφορετικές μελέτες του Syril Burt έδωσαν όλες την ίδια τιμή για το R2 (0.594)! Μία λογική εξήγηση για το παράδοξο αυτό είναι ότι τα δεδομένα δεν ήταν αξιόπιστα15.

I/Q σκορ 34 Διδύμων Παιδιών

1ο 2ο 1ο 2ο 1ο 2ο 1ο 2ο 1ο 2ο 22 12 30 26 30 34 6 10 41 41 36 34 29 35 27 24 23 21 19 9 13 10 26 20 32 18 38 27 40 38 30 25 28 22 27 28 33 26 12 9 32 28 21 27 22 23 16 28 13 22 26 17 13 4 15 9 27 25 29 30

20 24 32 33 24 33 4 2

(i) Να κατασκευασθεί ένα διάγραμμα σημείων και να υπολογισθεί ο συντελεστής R2 για την παλινδρόμηση ελαχίστων τετραγώνων με τους βαθμούς ευφυίας του δεύτερου από τα δύο δίδυμα ως εξαρτημένη μεταβλητή και τον βαθμό ευφυίας του πρώτου από τα δύο δίδυμα ως επεξηγηματική μεταβλητή.

(ii) Η τιμή αυτή του R2 χρησιμοποιήθηκε για να μετρήσει την επίδραση των γονιδίων στην ευφυΐα, με 1- R2 να μετρά την

14 James Shields (1962) Monozygotics Twins. London, Oxford University Place. 15 Για σχολιασμό βλέπε Nicholas Wade (1976) “IQ and Heredity: Suspicion of Fraud Beclouds Classic Experiment”. Science, vol. 194, 916-919.

Page 55: ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ › ~jpan › Linear-Models-Supplement.pdf · μεταβλητή - δείκτη 0-1 ως εικονική μεταβλητή. Όπως

54

επίδραση του περιβάλλοντος. Αν προστίθεντο 100 μονάδες σε όλους τους βαθμούς ευφυίας του πρώτου από τα δίδυμα και / ή σε όλους τους βαθμούς ευφυίας των δευτέρων από τα δίδυμα πώς θα επηρεαζόταν το R2;

(iii) Να ελεγχθούν τα αποτελέσματα με την προσθήκη 100 μονάδων σε όλους τους βαθμούς ευφυΐας και με υπολογισμό εκ νέου του R2.

Η Ευθεία Τυπικής Απόκλισης (Standart Deviation Line) Ορισμός: Ως ευθεία τυπικής απόκλισης (Standard deviation line) ορίζουμε την ευθεία εκείνη που διέρχεται από το σημείο που ορίζουν οι μέσοι των παρατηρήσεων των μεταβλητών Χ και Υ και επίσης από όλα τα σημεία που απέχουν ίσο αριθμό τυπικών αποκλίσεων από τους μέσους των δύο μεταβλητών.

Ουσιαστικά, δηλαδή, ως ευθεία τυπικής απόκλισης ορίζεται η ευθεία εκείνη η οποία διέρχεται από το σημείο που αντιστοιχεί στο μέσο των παρατηρήσεων των μεταβλητών Χ και Υ και έχει κλίση βτ, τον λόγο των τυπικών αποκλίσεων Sy και Sx των παρατηρήσεων των μεταβλητών Υ και Χ, αντίστοιχα.

x

yτ S

Sβ =

Η σχέση αυτή ισχύει για θετικό συντελεστή συσχέτισης. Όταν ο συντελεστής συσχέτισης είναι αρνητικός, η κλίση της ευθείας τυπικής απόκλισης είναι

x

yτ S

Sβ −=

(για r=0 το πρόσημο στην κλίση δεν έχει διαφορά). Γραφήματα για την ευθεία τυπικής απόκλισης για θετικό και

αρνητικό συντελεστή συσχέτισης παρουσιάζονται στα παρακάτω σχήματα

Page 56: ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ › ~jpan › Linear-Models-Supplement.pdf · μεταβλητή - δείκτη 0-1 ως εικονική μεταβλητή. Όπως

55

Κατασκευή της ευθείας τυπικής απόκλισης

Για παράδειγμα, ας θεωρήσουμε το διάγραμμα σημείων που

αναφέρεται στο ύψος γονέων και παιδιών. Στο σχήμα που ακολουθεί φαίνονται η ευθεία παλινδρόμησης (συνεχής γραμμή) και η ευθεία τυπικής απόκλισης (διακεκομμένη γραμμή) για την μελέτη του φαινομένου της συσχέτισης του ύψους πατέρα και υιού που έγινε από τον Karl Pearson με βάση 1078 παρατηρήσεις στο ύψος πατέρων και των υιών τους μετά την ενηλικίωση.

Ύψος υιού (σε ίντσες)

Ύψος πατέρα (σε ίντσες)

Page 57: ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ › ~jpan › Linear-Models-Supplement.pdf · μεταβλητή - δείκτη 0-1 ως εικονική μεταβλητή. Όπως

56

Ένα ζευγάρι πατέρα και υιού για το οποίο το ύψος του πατέρα είναι μια τυπική απόκλιση μεγαλύτερο από το μέσο ύψος των πατέρων και το ύψος του υιού είναι μια τυπική απόκλιση μεγαλύτερο από το μέσο ύψος των υιών θα βρίσκεται στην ευθεία τυπικής απόκλισης. Όμως, το σημείο που αναφέρεται σε πατέρα και γιο όπου ο πατέρας έχει ύψος μία τυπική απόκλιση πάνω από το μέσο ύψος των πατέρων και ο γιος έχει ύψος 0,5 τυπικές αποκλίσεις μεγαλύτερο από το μέσο ύψος των υιών, δεν θα βρίσκεται στην ευθεία τυπικής απόκλισης. Στο σχήμα που προηγήθηκε, φαίνεται καθαρά η επίδραση της παλινδρόμησης (regression effect). Εάν ένας γιος είναι μία ίντσα υψηλότερος από τον πατέρα του, η οικογένεια απεικονίζεται κατά μήκος της διακεκομμένης γραμμής. Τα σημεία στην κατακόρυφη ζώνη που αντιστοιχεί σε ύψος πατέρα 72 ιντσών αντιστοιχούν σε οικογένειες των οποίων ο πατέρας έχει ύψος 72 ιντσών ως προς την πλησιέστερη ίντσα (από 71.5 ως 72.5 ίντσες). Όπως βλέπουμε στο σχήμα, τα περισσότερα από τα σημεία αυτά βρίσκονται κάτω από τη διακεκομμένη γραμμή. Τα σημεία που περιέχονται στην κατακόρυφη ζώνη που αντιστοιχεί σε ύψος πατέρα 64 ιντσών αναφέρονται σε οικογένειες των οποίων οι πατέρες έχουν στρογγυλοποιημένο ύψος σε ίντσες το 64 (από 63.5 ως 64.5). Τα περισσότερα από τα σημεία αυτά βρίσκονται πάνω από τη διακεκομμένη γραμμή. Η γραμμή που αντιστοιχεί στην ευθεία παλινδρόμησης (μη διακεκομμένη γραμμή) περνά από τα "κέντρα" όλων των οριζόντιων ζωνών και έχει μικρότερη κλίση απ’ ότι η διακεκομμένη γραμμή. Αυτό οφείλεται στο

ότι η κλίση β της ευθείας παλινδρόμησης είναι x

y

SS

rβ = και ⎜r ⎜≤ 1. Για

r =1 οι δύο ευθείες συμπίπτουν. Το σχήμα που ακολουθεί δείχνει την επίδραση της παλινδρόμησης (regression effect) πιο καθαρά γιατί σ’ αυτό δεν υπάρχει το διάγραμμα των σημείων των παρατηρήσεων.

Page 58: ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ › ~jpan › Linear-Models-Supplement.pdf · μεταβλητή - δείκτη 0-1 ως εικονική μεταβλητή. Όπως

57

Η επίδραση της παλινδρόμησης (regression effect) και η ευθεία τυπικής απόκλισης στο παράδειγμα μελέτης των υψών πατέρα - υιού του Pearson

Μέσο ύψος υιών

(σε ίντσες)

Ύψος πατέρα (σε ίντσες)

Η διακεκομμένη γραμμή (ευθεία τυπικής απόκλισης) έχει κλίση 45ο. Τα σημεία του διαγράμματος αντιπροσωπεύουν το μέσο ύψος των υιών που αντιστοιχούν σε κάθε τιμή ύψους πατέρα. Τα σημεία αυτά είναι τα κέντρα των ορθογωνίων λωρίδων του προηγουμένου σχήματος. Η κλίση των σημείων αυτών είναι λιγότερο ανοδική από την κλίση της ευθείας τυπικής απόκλισης και αυτό ακριβώς είναι η επίδραση της παλινδρόμησης (regression effect). Εν γένει, τα σημεία βρίσκονται μεταξύ της ευθείας τυπικής απόκλισης και της οριζόντιας ευθείας που είναι παράλληλη προς τον άξονα των Χ και διέρχεται από το σημείο των μέσων Χ και Υ. Αυτό οφείλεται στο ότι ο συντελεστής συσχέτισης για τα δεδομένα αυτά είναι ½. Κάθε αύξηση μιας τυπικής απόκλισης στο ύψος των πατέρων συνοδεύεται από μια αύξηση μισής τυπικής απόκλισης στο ύψος των υιών (και όχι μιας τυπικής απόκλισης). Η ευθεία παλινδρόμησης ανέρχεται με ρυθμό ½ και εκφράζει με πολύ καλό τρόπο το γράφημα των μέσων.

Είναι ενδιαφέρον να τονισθεί ότι το γράφημα σημείων των παρατηρήσεων στο συγκεκριμένο παράδειγμα δίνει μια χαοτική εικόνα. Μόνο μια ιδιοφυία όπως ο Galton ή ο Pearson θα μπορούσε να διαισθανθεί ότι υπάρχει μια ευθεία γραμμή που μπορεί να εκφράσει τη σχέση αυτή. Από την εποχή εκείνοι πολλοί άλλοι ερευνητές έχουν κατορθώσει να βρουν ότι οι μέσοι όροι στο

Page 59: ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ › ~jpan › Linear-Models-Supplement.pdf · μεταβλητή - δείκτη 0-1 ως εικονική μεταβλητή. Όπως

58

διάγραμμα σημείων για άλλα προβλήματα επίσης αποτυπώνονται με μια ευθεία γραμμή. Αυτός είναι και ο λόγος που η ευθεία παλινδρόμησης έχει βρει τόσες πολλές εφαρμογές.

Παλινδρόμηση του Υ στο Χ και παλινδρόμηση του Χ στο Υ.

Υπάρχουν πολλές περιπτώσεις που η επιλογή της μεταβλητής η οποία θα θεωρηθεί εξαρτημένη και αυτής που θα θεωρηθεί ανεξάρτητη επηρεάζεται από διάφορους παράγοντες.

Για κάθε διάγραμμα σημείων που απεικονίζει τη σχέση δύο μεταβλητών είναι δυνατόν να κατασκευασθούν δύο ευθείες παλινδρόμησης. (Αυτό βέβαια με την προϋπόθεση ότι οι παρατηρήσεις στις μεταβλητές Χ και Υ, είναι αποτέλεσμα τυχαίας δειγματοληψίας). Για παράδειγμα, ας κοιτάξουμε τα δύο σχήματα που ακολουθούν και αναφέρονται σε διαγράμματα ύψους και βάρους μιας ομάδας ανθρώπων.

Το αριστερό σχήμα δείχνει την παλινδρόμηση του βάρους ως προς το ύψος ενώ το δεξιό σχήμα την παλινδρόμηση του ύψους ως προς το βάρος. Και στις δύο περιπτώσεις η διακεκομμένη γραμμή είναι η ευθεία τυπικής απόκλισης

Το αριστερό σχήμα δείχνει την ευθεία παλινδρόμησης του

βάρους ως προς το ύψος. Ουσιαστικά, απεικονίζει τους μέσους των σημείων που βρίσκονται στις κατακόρυφες ζώνες για κάθε ύψος και εκτιμά το μέσο βάρος για κάθε ύψος. Το δεξιό σχήμα δείχνει την παλινδρόμηση του ύψους ως προς το βάρος. Απεικονίζει τους μέσους (τα κέντρα) των οριζοντίων ζωνών και εκτιμά το μέσο ύψος για κάθε βάρος. Και στα δύο σχήματα απεικονίζεται η ευθεία τυπικής

Page 60: ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ › ~jpan › Linear-Models-Supplement.pdf · μεταβλητή - δείκτη 0-1 ως εικονική μεταβλητή. Όπως

59

απόκλισης ως διακεκομμένη γραμμή. Η παλινδρόμηση του βάρους ως προς το ύψος φαίνεται περισσότερη φυσιολογική για μελέτες, όμως και η άλλη ευθεία παλινδρόμησης είναι ίσως χρήσιμη σε ορισμένες περιπτώσεις. Σημείωση. Φυσικά, η ευθεία παλινδρόμησης του ύψους ως προς το βάρος θα μπορούσε να κατασκευαστεί τοποθετώντας το βάρος στον άξονα των x και το ύψος στον άξονα των y. Είναι αυτονόητο ότι και σ' αυτήν την περίπτωση οι δύο ευθείες παλινδρόμησης δεν θα συνέπιπταν.

Παράδειγμα: Τα σκορ στα IQ τεστ, προκειμένου να είναι συγκρίσιμα, μετασχηματίζονται έτσι ώστε να έχουν μέσο περίπου 100 και τυπική απόκλιση περίπου 15, τόσο για άνδρες όσο και για γυναίκες. Μελέτες έχουν δείξει ότι ο συντελεστής συσχέτισης των IQ ανδρών και γυναικών είναι, περίπου, 0.50. Μια μεγάλη μελέτη που κατέγραψε τα IQ οικογενειών κατέληξε στο συμπέρασμα ότι οι άνδρες οι οποίοι είχαν IQ 140 είχαν συζύγους οι οποίες είχαν ένα μέσο IQ 120. Εξετάζοντας τις συζύγους στη μελέτη των οποίων το IQ ήταν 120 θα περιμέναμε το μέσο IQ των ανδρών τους να ήταν μεγαλύτερο από 120; Να εξηγηθεί η απάντηση.

Λύση: Η απάντηση είναι αρνητική και το μέσο IQ των ανδρών για τις γυναίκες αυτές θα είναι περίπου 110. Αυτό φαίνεται στο σχήμα που ακολουθεί Οι οικογένειες των οποίων ο σύζυγος έχει IQ 140 βρίσκονται στην κατακόρυφη ζώνη στο σημείο 140. Ο μέσος στον άξονα των Υ για τη

Page 61: ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ › ~jpan › Linear-Models-Supplement.pdf · μεταβλητή - δείκτη 0-1 ως εικονική μεταβλητή. Όπως

60

ζώνη αυτή είναι 120 (το μέσο IQ των γυναικών που είναι σύζυγοι των ανδρών με IQ 140). Οι οικογένειες των οποίων η σύζυγος είχε IQ 120 εμφανίζονται στην οριζόντια ζώνη. Οι οικογένειες αυτές είναι τελείως διαφορετικές από τις προηγούμενες. Ο μέσος των συντεταγμένων x για σημεία στην οριζόντια αυτή ζώνη είναι περίπου 110. Όπως ελέχθη προηγουμένως υπάρχουν δύο ευθείες παλινδρόμησης. Η μια είναι για να προβλέπει τα IQ των γυναικών-συζύγων με βάση τα IQ των ανδρών-συζύγων. Η άλλη είναι για να προβλέπει τα IQ των ανδρών συζύγων από τα αντίστοιχα των γυναικών τους. Οι δύο αυτές ευθείες παλινδρόμησης φαίνονται στο σχήμα που ακολουθεί.

Άσκηση: Έστω ότι οι μέσες τιμές και οι τυπικές αποκλίσεις

των μεταβλητών Υ και Χ είναι ίδιες, δηλαδή .xy SS και XY == (α) Να αποδειχθεί ότι, κάτω από αυτές τις προϋποθέσεις, ΒΥ|Χ= ΒΧ|Υ= rXY όπου ΒΥ|Χ είναι η κλίση ελαχίστων τετραγώνων για την παλινδρόμηση του Υ στο Χ , ΒΧ|Υ είναι η κλίση παλινδρόμησης για την απλή γραμμική παλινδρόμηση του Χ στο Υ και rXY είναι ο συντελεστής συσχέτισης των δύο μεταβλητών. Να αποδειχθεί επίσης ότι ΑΥ|Χ= ΑΧ|Υ.

Page 62: ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ › ~jpan › Linear-Models-Supplement.pdf · μεταβλητή - δείκτη 0-1 ως εικονική μεταβλητή. Όπως

61

(β) Να εξηγηθεί γιατί, αν ΑΥ|Χ= ΑΧ|Υ και ΒΥ|Χ = ΒΧ|Υ, η ευθεία για την παλινδρόμηση του Υ στο Χ είναι διαφορετική από την ευθεία για την παλινδρόμηση του Χ στο Υ (στην περίπτωση όπου r2 < 1); (γ) H επίδραση παλινδρόμησης (regression effect) στο σχεδιασμό ερευνών: Αν κάποιος εκπαιδευτικός θελήσει να εξετάσει την αποτελεσματικότητα ενός νέου προγράμματος για την βελτίωση της μαθησιακής ικανότητας μαθητών και, προκειμένου να το κάνει, θεωρήσει μία ομάδα παιδιών για τα οποία η ικανότητα ανάγνωσης είναι σαφώς χαμηλότερη από το επίπεδο εκπαίδευσής τους τότε η όποια βελτίωση προκύψει από μια μελλοντική επανάληψη του πειράματος δεν αποτελεί στοιχείο αξιοπιστίας της μεθόδου αλλά είναι αποτέλεσμα κακού σχεδιασμού της έρευνας. Πώς μπορεί να βελτιωθεί ο σχεδιασμός αυτός;

Ενδιαφέρουσες Μελέτες

Πολλοί ερευνητές, προσπαθούν να καταλήξουν σε ένα συμπέρασμα το οποίο πιστεύουν ότι ισχύει λαμβάνοντας διαφορετικά δείγματα μέχρις ότου καταλήξουν σε κάποιο δείγμα που επιβεβαιώνει την άποψη τους και οδηγεί σε απόρριψη της μηδενικής υπόθεσης. Αυτός είναι και ο λόγος που είναι ελάχιστες οι επιστημονικές εργασίες που δημοσιεύουν αποτελέσματα στα οποία δεν απορρίπτεται η μηδενική υπόθεση. Είναι χαρακτηριστική η ανάλυση16 που έγινε σε μελέτες που έγιναν σε επιστημονικά περιοδικά ψυχολογίας. Η ανάλυση έδειξε ότι, από 294 μελέτες που δημοσιεύθηκαν στα περιοδικά αυτά και χρησιμοποιούσαν στατιστικούς ελέγχους υποθέσεων, μόνο οκτώ κατέληγαν σε αποτέλεσμα το οποίο δεν ήταν στατιστικά σημαντικό στο 5% επίπεδο σημαντικότητας!

16 Sterling, T. D. (1959) "Publication Decisions and their Possible Effects on Inferences Drawn from Tests of Significance - or vice versa" Journal of the American Statistical Association, vol.54, 30-34

Page 63: ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ › ~jpan › Linear-Models-Supplement.pdf · μεταβλητή - δείκτη 0-1 ως εικονική μεταβλητή. Όπως

62

Παλινδρόμηση για Ελεγχόμενα Πειράματα (Controlled Experiments) και Μελέτες Βασισμένες σε Παρατηρήσεις

(Observational Studies) Σε εμπειρικές μελέτες (observational studies), σε αντίθεση με τα ελεγχόμενα πειράματα, η κλίση της ευθείας παλινδρόμησης και το σημείο τομής με τον άξονα των Υ αποτελούν μόνο περιγραφικά στατιστικά μέτρα. Περιγράφουν πώς η μέση τιμή μιας μεταβλητής συνδέεται με την τιμή μιας άλλης μεταβλητής στον παρατηρούμενο πληθυσμό. Η κλίση δεν μπορεί να χρησιμοποιηθεί για την πρόβλεψη του πώς το Υ θα αντιδράσει (θα ανταποκριθεί) αν παρέμβουμε και αλλάξουμε την τιμή του Χ. Υπάρχει και μια άλλη υπόθεση που κάνουμε στην παλινδρόμηση: ότι η μέση τιμή του Υ εξαρτάται γραμμικά από το Χ. Εάν η σχέση δεν είναι γραμμική, η ευθεία παλινδρόμησης μπορεί να οδηγήσει σε πολύ εσφαλμένα αποτελέσματα, ανεξάρτητα από το κατά πόσον τα δεδομένα προέρχονται από ένα ελεγχόμενο πείραμα ή από μια μελέτη βασισμένη σε παρατηρήσεις.

Μερικές Γενικές Παρατηρήσεις Για Την Γραμμική Παλινδρόμηση

Η ανάλυση παλινδρόμησης έχει, σε γενικές γραμμές, ως στόχο

να διερευνήσει την κατανομή μιας εξαρτημένης μεταβλητής (συμβολιζόμενη συνήθως ως Υ), ή κάποια χαρακτηριστικά της κατανομής αυτής (όπως π.χ. ο μέσος της), ως συνάρτησης μιας ή περισσοτέρων ανεξαρτήτων μεταβλητών (Χ1,…,Χk), δηλαδή της σχέσης p(Υ 1X ,…, Xk) = f(X1,…,Xk) όπου, p(Υ 1X ,…,Xk) εκφράζει την πιθανότητα (ή, για συνεχή τ.μ Υ, την συνάρτηση πυκνότητας πιθανότητας) να παρατηρηθούν οι συγκεκριμένες τιμές y της εξαρτημένης μεταβλητής Y δοθέντος ενός συνόλου καθορισμένων τιμών (specific values) (x1…xk) των ανεξαρτήτων μεταβλητών (X1,X2,…,Xk). p(Υ 1X ,…,Xk) είναι η κατανομή πιθανότητας του Υ για τις συγκεκριμένες αυτές τιμές των μεταβλητών Χ.

Page 64: ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ › ~jpan › Linear-Models-Supplement.pdf · μεταβλητή - δείκτη 0-1 ως εικονική μεταβλητή. Όπως

63

Το σχήμα που ακολουθεί αναφέρεται σε ένα παράδειγμα όπου υπάρχει μια μόνο ανεξάρτητη μεταβλητή X (έτη εκπαίδευσης) και όπου p(Υ x ) εκφράζει την κατανομή του πληθυσμού των εισοδημάτων για όλα τα άτομα που έχουν ένα συγκεκριμένο επίπεδο εκπαίδευσης x (π.χ 12 έτη εκπαίδευσης).

Εισόδημα (σε

εκατ.δραχμ.)

Εκπαίδευση (σε έτη)

Η σχέση του Υ με τα Χ έχει ιδιαίτερο ενδιαφέρον όταν

διερευνούμε το ενδεχόμενο ότι οι μεταβολές των Χ επηρεάζουν το Υ ή, σε ορισμένες περιπτώσεις, όταν επιθυμούμε να χρησιμοποιήσουμε τιμές των μεταβλητών Χ για να προβλέψουμε τη τιμή της μεταβλητής Υ. Σημείωση: Το διάγραμμα σημείων που προηγήθηκε αναφέρεται στη σχέση του ετήσιου εισοδήματος (σε εκατ. δρχ.) και της εκπαίδευσης (σε χρόνια) για ένα πληθυσμό. Η γραμμή που εμφανίζεται στο σχήμα ενώνει τα μέσα εισοδήματα για τα διαφορετικά επίπεδα εκπαίδευσης. Οι σημαντικότερες παρατηρήσεις για την ευθεία παλινδρόμησης ελαχίστων τετραγώνων είναι οι εξής: • Πολλές κατηγορίες δεδομένων και προβλημάτων μπορούν να

συνοψιστούν ικανοποιητικά με την ευθεία παλινδρόμησης ελαχίστων τετραγώνων

Page 65: ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ › ~jpan › Linear-Models-Supplement.pdf · μεταβλητή - δείκτη 0-1 ως εικονική μεταβλητή. Όπως

64

• Οι εφαρμογές της μεθόδου παλινδρόμησης επεκτείνονται σημαντικά και σε πολλά άλλα συνθετότερα προβλήματα με κατάλληλους μετασχηματισμούς των δεδομένων και διαγνωστικές μεθόδους

• Το γενικό γραμμικό μοντέλο, μια άμεση επέκταση του γραμμικού μοντέλου παλινδρόμησης ελαχίστων τετραγώνων, μπορεί να καλύψει μια ευρεία τάξη μεθόδων με την χρήση ποιοτικών μεταβλητών και πολυωνυμικών συναρτήσεων

• Η μέθοδος των ελαχίστων τετραγώνων στα γραμμικά μοντέλα παρέχει την υπολογιστική βάση για μια ποικιλία γενικεύσεων που περιλαμβάνουν την παλινδρόμηση με συντελεστές βαρύτητας (weighted regression), ευσταθή παλινδρόμηση (robust regression), μη-παραμετρική παλινδρόμηση (non-parametric regression) και γενικευμένα γραμμικά μοντέλα (generalized linear models).

Οι Υποθέσεις της Γραμμικής Παλινδρόμησης και ο Έλεγχός τους Όπως έχουμε δει, στην απλή γραμμική παλινδρόμηση ξεκινάμε με τις υποθέσεις της γραμμικής σχέσης του μΥ|x , της κανονικότητας των παρατηρήσεων (των λαθών) και της σταθερής διακύμανσης. Το σχήμα που ακολουθεί δίνει μια εικόνα των υποθέσεων αυτών.

Οι υποθέσεις της γραμμικότητας, της σταθερής παλινδρόμησης και της κανονικότητας στην απλή γραμμική παλινδρόμηση. Το σχήμα δείχνει την δεσμευμένη κατανομή του πληθυσμού των Υ δοθέντος Χ για μια σειρά τιμών της ανεξάρτητης μεταβλητής εκφρασμένες ως x1, x2, …, xn. Οι δεσμευμένοι μέσοι του Υ δοθέντος Χ συμβολίζονται με μ1, μ2, …, μn.

Page 66: ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ › ~jpan › Linear-Models-Supplement.pdf · μεταβλητή - δείκτη 0-1 ως εικονική μεταβλητή. Όπως

65

Είναι απαραίτητο να ελέγχουμε την ορθότητα των υποθέσεων αυτών πριν προχωρήσουμε σε συμπερασματολογία για τη γραμμική παλινδρόμηση. Το σχήμα που ακολουθεί δείχνει μια περίπτωση όπου οι υποθέσεις αυτές δεν ικανοποιούνται.

Παλινδρόμηση ενός πληθυσμού Υ στο Χ

Η δεσμευμένη κατανομή του Υ, p(Υ|x), εμφανίζεται για κάθε μια από 5 τιμές του Χ. Η κατανομή του Υ για Χ=1 έχει θετική κυρτότητα (positive residue). Για την τιμή Χ=2 έχει δύο επικρατούσες τιμές. Για Χ=3 έχει πολλές τιμές στις ουρές της κατανομής (heavy tail). Για Χ=4 έχει πολύ μεγαλύτερη διασπορά απ' ότι για Χ=5. Παρατηρούμε επίσης ότι οι δεσμευμένοι μέσοι του Υ|x-μ1, ..., x-μ5 δεν είναι γραμμικές συναρτήσεις του Χ.

Σύνοψη των Παρατηρήσεων Για την Γραμμική

Παλινδρόμηση

1. Κάθε αύξηση μιας τυπικής απόκλισης στην εξαρτημένη μεταβλητή x αντιστοιχεί σε αύξηση μόνο r τυπικών αποκλίσεων στο y, κατά μέσο όρο (όπου r ο συντελεστής συσχέτισης). Η γραφική παράσταση αυτών των εκτιμητριών παλινδρόμησης δίνει την ευθεία παλινδρόμησης του y ως προς x. 2. Η γραφική παράσταση των μέσων y για κάθε τιμή του x συχνά πλησιάζει την μορφή μιας ευθείας γραμμής με κάποιες ίσως αποκλίσεις. Η ευθεία παλινδρόμησης εξομαλύνει τις αποκλίσεις αυτές. Αν η γραφική παράσταση των μέσων είναι μια ευθεία γραμμή αυτή συμπίπτει με την ευθεία παλινδρόμησης. Αν το γράφημα των μέσων έχει μια έντονη μη γραμμική τάση τότε η μέθοδος της παλινδρόμησης είναι ακατάλληλη.

Page 67: ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ › ~jpan › Linear-Models-Supplement.pdf · μεταβλητή - δείκτη 0-1 ως εικονική μεταβλητή. Όπως

66

3. Η ευθεία παλινδρόμησης μπορεί να χρησιμοποιηθεί για προβλέψεις και για μεμονωμένες παρατηρήσεις (άτομα). Θα πρέπει όμως κανείς να είναι ιδιαίτερα προσεκτικός εάν πρόκειται να κάνει πρόβλεψη για τιμές έξω από το πεδίο τιμών που χρησιμοποίησε για να εκτιμήσει την ευθεία παλινδρόμησης ή για μία ομάδα μονάδων του πληθυσμού διαφορετική από εκείνη που χρησιμοποιήθηκε για την εκτίμηση. 4. Σε οποιοδήποτε συνήθη περίπτωση επανάληψης μιας εξέτασης όσοι συμμετέχουν σ' αυτήν, κατά τεκμήριο, καταλήγουν με διαφορετικές βαθμολογίες στις δύο εξετάσεις. Αν μελετήσουμε την ομάδα των εξετασθέντων που είχε χαμηλή απόδοση στο πρώτο τεστ θα παρατηρήσουμε ότι μερικοί απ' αυτούς βελτιώνουν την απόδοση τους στο δεύτερο τεστ ενώ άλλοι αποδίδουν χειρότερα. Κατά μέσο όρο, η ομάδα με τη χαμηλή απόδοση στην πρώτη εξέταση παρουσιάζει βελτίωση στην δεύτερη εξέταση. Αντίστοιχα, αν μελετήσουμε την ομάδα των εξετασθέντων που είχε υψηλή απόδοση στη πρώτη εξέταση θα δούμε ότι μερικοί βελτιώνουν ακόμη περισσότερο την απόδοσή τους στη δεύτερη εξέταση και άλλοι αποδίδουν χειρότερα. Κατά μέσο όρο, η ομάδα υψηλής απόδοσης στην πρώτη εξέταση αποδίδει χειρότερα τη δεύτερη φορά. Το φαινόμενο αυτό ονομάζεται επίδραση της παλινδρόμησης (regression effect) και παρατηρείται όποτε το διάγραμμα σημείων απλώνεται γύρω από τη γραμμή τυπικής απόκλισης σε σχήμα αμερικανικής μπάλας ποδοσφαίρου. 5. Η παρερμηνεία παλινδρόμησης (regression fallacy) αναφέρεται στην λανθασμένη προσέγγιση ότι η επίδραση παλινδρόμησης οφείλεται σε κάτι διαφορετικό από το φυσιολογικό άπλωμα των παρατηρήσεων γύρω από την ευθεία τυπικής απόκλισης. 6. Στις περιπτώσεις που και οι δύο μεταβλητές Χ και Υ είναι τυχαίες μπορούμε να κατασκευάσουμε δύο ευθείες παλινδρόμησης που αντιστοιχούν σε ένα διάγραμμα σημείων: Με τη μια προβλέπουμε τιμές της μεταβλητής Υ από τιμές της μεταβλητής Χ και για την άλλη προβλέπουμε τιμές για την μεταβλητή Χ από τιμές της μεταβλητής Υ. 7. Η θεώρηση της τετραγωνικής ρίζας του r2 ως ποσότητας ταυτόσημης με το συντελεστή γραμμικής συσχέτισης r έχει έννοια

Page 68: ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ › ~jpan › Linear-Models-Supplement.pdf · μεταβλητή - δείκτη 0-1 ως εικονική μεταβλητή. Όπως

67

μόνο στην περίπτωση που όχι μόνο η εξαρτημένη μεταβλητή Υ αλλά και η ανεξάρτητη μεταβλητή Χ είναι τυχαίες μεταβλητές. Στην περίπτωση αυτή ο έλεγχος για την μη συσχέτιση των μεταβλητών Χ και Υ (Ηο: ρ=0) είναι ισοδύναμη με τον έλεγχο της υπόθεσης για μηδενική κλίση της ευθείας παλινδρόμησης (Ηο: β=0). Αυτός είναι και ο λόγος που στις εκτυπώσεις των στατιστικών πακέτων η τιμή του παρατηρούμενου επιπέδου σημαντικότητας (p-value) για τον έλεγχο Ηο: ρ=0 ταυτίζεται με το παρατηρούμενο επίπεδο σημαντικότητας του ελέγχου Ηο: β=0. (βλέπε ενότητα για συμπερασματολογία για το ρ (σελ. 122 βιβλίου). 8. Ο τρόπος ορισμού του συντελεστή προσδιορισμού r2, αποτελεί την βάση της λογικής της ανάλυσης της διακύμανσης (analysis of variance). Πράγματι, ο ορισμός του r2 στηρίχτηκε στο γεγονός ότι

SST=SSR+SSE Δηλαδή η συνολική διακύμανση SST των παρατηρήσεων στην μεταβλητή Υ χωρίστηκε σε δύο συνιστώσες μια από τις οποίες οφείλεται στην διακύμανση των παρατηρήσεων της μεταβλητής Χ γύρω από το μέσο της (SSR), δηλαδή την διακύμανση που εξηγείται από την παλινδρόμηση, και την μη εξηγήσιμη διακύμανση SSE (που οφείλεται σε όλους τους παράγοντες που προκαλούν διακύμανση του Υ, εκτός του Χ, και σε τυχαίους παράγοντες). Αυτή η ανάλυση διακύμανσης οδηγεί και στον ορισμό του ελέγχου F που χρησιμοποιείται στην ανάλυση παλινδρόμησης

όπου MSR εκφράζει το μέσο τετραγωνικό σφάλμα παλινδρόμησης, δηλαδή το συνολικό σφάλμα παλινδρόμησης SSR διαιρεμένο με τους βαθμούς ελευθερίας του. Στην περίπτωση της απλής γραμμικής παλινδρόμησης με μια ανεξάρτητη μεταβλητή ο αριθμός των βαθμών ελευθερίας είναι 1. Στον παρονομαστή έχουμε το μέσο τετραγωνικό σφάλμα MSE, που υπολογίζεται με την διαίρεση του συνολικού τετραγωνικού σφάλματος SSE με τους βαθμούς ελευθερίας του. Αν n είναι ο αριθμός των παρατηρήσεων, οι βαθμοί ελευθερίας για το SSE είναι n-2 (αφού δύο είναι οι παράμετροι της απλής παλινδρόμησης που

MSEMSRF =

Page 69: ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ › ~jpan › Linear-Models-Supplement.pdf · μεταβλητή - δείκτη 0-1 ως εικονική μεταβλητή. Όπως

68

εκτιμάμε μια κι έχουμε μια μόνο ανεξάρτητη μεταβλητή στο μοντέλο αυτό). Ο λόγος αυτός ακολουθεί την κατανομή F. Αυτό προκύπτει από το ότι τα δύο αθροίσματα τετραγώνων ακολουθούν την κατανομή χ2 και στο συγκεκριμένο λόγο οι δύο χ2 μεταβλητές έχουν διαιρεθεί με τους βαθμούς ελευθερίας τους. 9. Ο έλεγχος F που χρησιμοποιείται για την καταλληλότητα της εκτιμηθείσας ευθείας παλινδρόμησης στην απλή γραμμική παλινδρόμηση, είναι ισοδύναμος με τον έλεγχο Ηο: β=0. Μπορεί να παρατηρήσει κανείς ότι, με ενδεχόμενη απόκλιση στρογγυλοποίησης, η τιμή της στατιστικής συνάρτησης F σε οποιοδήποτε στατιστικό πακέτο είναι ίση με το τετράγωνο της τιμής της στατιστικής συνάρτησης Τ που αναφέρεται στον έλεγχο της υπόθεσης Ηο: β=0. Μάλιστα, οι δύο έλεγχοι έχουν τα ίδια παρατηρούμενα επίπεδα σημαντικότητας. Αυτό οφείλεται στο γεγονός ότι το τετράγωνο μιας στατιστικής συνάρτησης Τ με n βαθμούς ελευθερίας έχει την ίδια κατανομή με μια στατιστική συνάρτηση F με 1 και n βαθμούς ελευθερίας17. Ο έλεγχος που βασίζεται στη στατιστική συνάρτηση F είναι ένας γενικότερος έλεγχος για την χρησιμότητα του μοντέλου παλινδρόμησης αφού μπορεί να χρησιμοποιηθεί και στην περίπτωση που το μοντέλο περιλαμβάνει περισσότερες από μια ανεξάρτητες μεταβλητές. 10. Στην πολλαπλή παλινδρόμηση, και στην αντίστοιχη εκτύπωση όλων των στατιστικών πακέτων, ο έλεγχος F καταλληλότητας του μοντέλου στηρίζεται στην ανάλυση διακύμανσης που είναι αντίστοιχη με αυτήν που χρησιμοποιείται στην απλή γραμμική παλινδρόμηση. Στην πολλαπλή παλινδρόμηση το SST έχει και πάλι (n-1) βαθμούς ελευθερίας (όπου n είναι ο αριθμός των παρατηρήσεων. Το SSR έχει k βαθμούς ελευθερίας (όπου k είναι ο αριθμός των ανεξαρτήτων μεταβλητών που έχουν χρησιμοποιηθεί). Επομένως, το SSE έχει (n-1)-k βαθμούς ελευθερίας. Εδώ, και πάλι έχουμε

MSEMSRF =

17 Βλέπε π.χ. Stuart, A. & Ord, K. (1987) Kendall's Advanced Theory of Statistics, Vol I (5th Edition)

Page 70: ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ › ~jpan › Linear-Models-Supplement.pdf · μεταβλητή - δείκτη 0-1 ως εικονική μεταβλητή. Όπως

69

όπου οι βαθμοί ελευθερίας αριθμητή και παρονομαστή καθορίζονται με τον τρόπο που εξηγήθηκε. 11. Για την πολλαπλή παλινδρόμηση, σε πολλά στατιστικά πακέτα και στο τέλος του αντίστοιχου πίνακα, εμφανίζεται η ανάλυση διακύμανσης του SSR για την δεσμευμένη κατανομή κάθε μιας από τις ανεξάρτητες μεταβλητές δοθεισών όλων των υπολοίπων. Η σειρά που τα αποτελέσματα εμφανίζονται αντιστοιχεί στην σειρά με την οποία οι ανεξάρτητες μεταβλητές προστέθηκαν στο μοντέλο πολλαπλής παλινδρόμησης. (Στο Minitab π.χ η επικεφαλίδα της αντίστοιχης στήλης είναι SeqSS δηλαδή Sequential Sum of Squares. Οι αριθμοί που δίδονται στην στήλη αυτή αντιστοιχούν στις ανεξάρτητες τ.μ. με την σειρά με την οποία οι μεταβλητές αυτές προστέθηκαν στο μοντέλο πολλαπλής παλινδρόμησης. Αν η σειρά αλλάξει, τότε και η αντίστοιχη ανάλυση διακύμανσης του SSR θα μεταβληθεί). Ο πίνακας που ακολουθεί δίνει το μέρος της εκτύπωσης του Minitab που αφορά την ανάλυση διακύμανσης για ένα πρόβλημα που μελετά την τιμή ενός διαμερίσματος με βάση την επιφάνειά του (SqFeet), τους ορόφους της πολυκατοικίας, (Numflrs) και τον αριθμό των τουαλετών (Baths) για 15 διαμερίσματα προς πώληση. S= 6.849 R-Sq = 97.1% R-Sq(adj) = 96.0% Analysis of Variance Source DF SS MS F P Regression 4 15913.0 3978.3 84.80 0.000 Residual Error 10 469.1 46.9 Total 14 16382.2 Source DF Seq SS Sqfeet 1 14829.3 Numflrs 1 0.9 Bdrms 1 166.4 Baths 1 916.5 Από τον πίνακα παρατηρούμε ότι η μεταβλητή Χ1 συνεισφέρει το 93.2% (14829/15913.0 = 0.932) της συνολικής διακύμανσης που

Page 71: ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ › ~jpan › Linear-Models-Supplement.pdf · μεταβλητή - δείκτη 0-1 ως εικονική μεταβλητή. Όπως

70

εξηγείται από το μοντέλο παλινδρόμησης. Αν όμως αλλάξουμε την σειρά χρησιμοποίησης των μεταβλητών ίσως κάποια άλλη μεταβλητή να συνεισφέρει το μεγαλύτερο μέρος στο άθροισμα τετραγώνων παλινδρόμησης (SSR)! 12. Πριν τη χρησιμοποίηση του μοντέλου παλινδρόμησης για τους βασικούς λόγους που αυτό κατασκευάζεται, δηλαδή την εκτίμηση και την πρόβλεψη, θα πρέπει να ελέγχουμε το κατά πόσον πληρούνται οι υποθέσεις που απαιτούνται για τις εργασίες αυτές. Συνήθως αυτό γίνεται με το γράφημα κανονικότητας για τα κατάλοιπα (normal probability plot) και το γράφημα για τα κατάλοιπα σε σχέση με την προσαρμογή (plot of residuals versus fit).

Ερμηνεία των Γραφημάτων Καταλοίπων Τα γραφήματα των καταλοίπων (residuals plots) αποτελούν ένα σημαντικό εργαλείο για την διερεύνηση πιθανών καταστρατηγήσεων των υποθέσεων που είναι απαραίτητες στην γραμμική παλινδρόμηση. Η χρησιμοποίηση τους έχει καταστεί ιδιαίτερα απλή λόγω της μεγάλης βελτίωσης των στατιστικών πακέτων που είναι σήμερα διαθέσιμα. Αν υπάρχει κάποια δυσκολία αυτή έγκειται στην ερμηνεία των γραφημάτων αυτών. Υπάρχουν όμως περιπτώσεις οι οποίες συναντώνται πολύ συχνά σε πρακτικές εφαρμογές και είναι χρήσιμο να μπορεί κάποιος να τις αναγνωρίζει. Για παράδειγμα, η διακύμανση κάποιων κατηγορικών δεδομένων μεταβάλλεται ανάλογα με την μεταβολή του μέσου. Π.χ. για δεδομένα που προέρχονται από την κατανομή Poisson η διακύμανση αυξάνει όσο αυξάνει ο μέσος. Για δεδομένα που προέρχονται από την διωνυμική κατανομή η διακύμανση αυξάνει για τιμές της παραμέτρου p από .0 έως .5 και στην συνέχεια μειώνεται για τιμές του p από .5 σε 1.0. Προβλήματα της μορφής αυτής εξετάζονται στα Γενικευμένα Γραμμικά Μοντέλα (Generalized Linear Models). Γραφήματα καταλοίπων αυτής της μορφής δεδομένων εμφανίζονται στα σχήματα που ακολουθούν.

Page 72: ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ › ~jpan › Linear-Models-Supplement.pdf · μεταβλητή - δείκτη 0-1 ως εικονική μεταβλητή. Όπως

71

Γράφημα καταλοίπων ως προς Y

Αν το "άπλωμα" των καταλοίπων αυξάνει όσο αυξάνει το y και γνωρίζουμε ότι τα δεδομένα αποτελούν μετρήσεις σε μεταβλητές Poisson, μπορούμε να σταθεροποιήσουμε την διακύμανση της εξαρτημένης μεταβλητής με την χρησιμοποίησης ανάλυσης παλινδρόμησης στην μεταβλητή yy* = . Αν τα ποσοστά προέρχονται από δεδομένα που ακολουθούν την διωνυμική κατανομή μπορούμε να χρησιμοποιήσουμε τον μετασχηματισμό ysiny* 1−= . Αν δεν έχουμε λόγους να εξηγήσουμε το γιατί το "άπλωμα" των καταλοίπων αυξάνει όσο αυξάνει το y μπορούμε και πάλι να χρησιμοποιήσουμε ένα μετασχηματισμό του y που επηρεάζει τις μεγάλες τιμές του y περισσότερο απ' ότι μικρότερες τιμές. Τέτοιοι μετασχηματισμοί είναι οι yy* = ή lnyy* = . Αυτοί οι μετασχηματισμοί έχουν την τάση να σταθεροποιούν την διακύμανση του y* αλλά και να κάνουν την κατανομή του y* να πλησιάζει περισσότερο την κανονική, όταν η κατανομή του y είναι έντονα μη συμμετρική. Γραφήματα των καταλοίπων ως προς τις εκτιμώμενες τιμές y της εξαρτημένης μεταβλητής ή ως προς τις παρεχόμενες από το μοντέλο προβλέψεις 0

1ny +ˆ , έχουν συχνά μια μορφή που δείχνει ότι το μοντέλο που επελέγη δεν είναι το κατάλληλο. Για παράδειγμα, αν Ε(Υ) και μια ανεξάρτητη μεταβλητή Χ συνδέονται γραμμικά, δηλαδή αν Ε(Υ)=α+βΧ, και εφαρμόσουμε μια ευθεία γραμμή στα δεδομένα τότε

Page 73: ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ › ~jpan › Linear-Models-Supplement.pdf · μεταβλητή - δείκτη 0-1 ως εικονική μεταβλητή. Όπως

72

οι παρατηρηθείσες τιμές του Υ θα πρέπει να μεταβάλλονται με ένα τυχαίο τρόπο γύρω από το y και το γράφημα των καταλοίπων σε σχέση με το Υ θα πρέπει να έχει την μορφή που φαίνεται στο σχήμα που ακολουθεί

Το Προσαρμοσμένο R2 (R2 adjusted) Ο συντελεστής προσδιορισμού R2 έχει ορισθεί ως το ποσοστό της συνολικής διακύμανσης ∑ −= 2

i )y(ySST των παρατηρήσεων της εξαρτημένης μεταβλητής που μπορεί να εξηγηθεί από την χρήση της παλινδρόμησης του Υ στο Χ. Δηλαδή

∑∑

−== 2

i

2i2

)y(y)yy(

SSTSSRR

ˆ.

Δοθέντος ότι SST = SSR + SSE, πολλές φορές ο συντελεστής προσδιορισμού εκφράζεται μέσω του SSE ως

SSTSSE1R 2 −=

Επειδή στην πολλαπλή παλινδρόμηση η τιμή του R2 μόνο αυξάνεται όταν προστίθεται μια νέα ανεξάρτητη μεταβλητή οι ερευνητές και τα περισσότερα στατιστικά πακέτα, χρησιμοποιούν ένα συντελεστή προσδιορισμού που έχει "διορθωθεί" λαμβάνοντας υπόψη τόσο τον αριθμό των παρατηρήσεων όσο και τον αριθμό των ανεξαρτήτων μεταβλητών p (ή, αντίστοιχα, τον αριθμό p+1 των παραμέτρων που εκτιμώνται ή, ισοδύναμα τον αριθμό n - (p+1) των βαθμών ελευθερίας). Αυτό επιτυγχάνεται με την διαίρεση του αριθμητή και

Page 74: ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ › ~jpan › Linear-Models-Supplement.pdf · μεταβλητή - δείκτη 0-1 ως εικονική μεταβλητή. Όπως

73

παρονομαστή του λόγου SSTSSE με τους αντίστοιχους βαθμούς

ελευθερίας. Έτσι έχουμε

1)SST/(n1))(pSSE/(n1R adj

2

−+−

−=

=1))(p(n

1)(nSSTSSE1

+−−

= ⎥⎦

⎤⎢⎣

⎡+−

−−−

1))(p(n1)(n)R(11 2

για την απλή γραμμική παλινδρόμηση με μία ανεξάρτητη μεταβλητή το R2

adj γίνεται

⎟⎠⎞

⎜⎝⎛

−−

−−=2n1n)R(11R 2

adj2

Η ποσότητα αυτή ονομάζεται συντελεστής προσδιορισμού προσαρμοσμένος για τους βαθμούς ελευθερίας (coefficient of determination adjusted for degrees of freedom). Σημείωση: Σε ορισμένα βιβλία, επειδή οι υπολογισμοί γίνονται με την χρήση της παρουσίασης με πίνακες όπου, με κατάλληλους μετασχηματισμούς, έχει απομακρυνθεί η σταθερά και επομένως ο αριθμός των εκτιμώμενων παραμέτρων έχει περιοριστεί σε p με βαθμούς ελευθερίας n-p, ο τύπος για το R2

adj γίνεται

⎟⎟⎠

⎞⎜⎜⎝

⎛−−

−−=pn1n)R(11R 2

adj2

Είναι φανερό ότι έτσι κάθε μεταβλητή που προστίθεται επιφέρει μια "τιμωρία" στον συντελεστή προσδιορισμού "μειώνοντας" την τιμή του. Το R2

adj χρησιμοποιείται από πολλούς ερευνητές ως μέτρο σύγκρισης δύο μοντέλων παλινδρόμησης με διαφορετικό αριθμό ανεξαρτήτων μεταβλητών αφού (λόγω του ορισμού του) η τιμή του δεν επηρεάζεται από τον αριθμό των ανεξαρτήτων μεταβλητών κάθε μοντέλου. Επομένως, η όποια διαφορά στην τιμή του για τα δύο μοντέλα οφείλεται, κυρίως, σε ουσιαστικές διαφορές των μοντέλων. Βέβαια, για μεγάλο αριθμό ανεξαρτήτων μεταβλητών η διαφορά του R2 από το R2

adj είναι ασήμαντη.

Page 75: ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ › ~jpan › Linear-Models-Supplement.pdf · μεταβλητή - δείκτη 0-1 ως εικονική μεταβλητή. Όπως

74

Ακολουθητέα Βήματα Για Την Διαμόρφωση Ενός Μοντέλου

Γραμμικής Παλινδρόμησης Ο τελικός στόχος της ανάλυσης παλινδρόμησης και κυρίως της πολλαπλής παλινδρόμησης, είναι να διαμορφώσει ένα μοντέλο που θα μπορεί να χρησιμοποιηθεί για την ακριβή πρόβλεψη των τιμών της μεταβλητής Υ με βάση μια ομάδα ανεξαρτήτων μεταβλητών Χ1,Χ2,...,Χp. Είναι βέβαιο, ότι η ικανότητα αυτή αναπτύσσεται με την απόκτηση εμπειρίας. Τα σημαντικότερα όμως βήματα για την διαμόρφωση ενός τέτοιου μοντέλου είναι τα εξής: 1. Επιλέγουμε τις ανεξάρτητες μεταβλητές που θα περιληφθούν στο μοντέλο. Επειδή μερικές απ' αυτές, ενδεχομένως, περιέχουν παρόμοιες πληροφορίες, μπορούμε να μειώσουμε τον αριθμό των μεταβλητών με την χρησιμοποίηση, π.χ., μιας ανάλυσης βηματικής παλινδρόμησης. Πάντοτε, προσπαθούμε να κρατήσουμε τον αριθμό των ανεξαρτήτων μεταβλητών περιορισμένο ώστε αυτές να είναι αποτελεσματικές και εύκολο να μελετηθούν. Θα πρέπει να είμαστε προσεκτικοί ώστε ο αριθμός των παρατηρήσεων των δεδομένων να υπερβαίνει τον αριθμό των όρων (ανεξάρτητων μεταβλητών) που χρησιμοποιούνται στο μοντέλο. Όσο μεγαλύτερη είναι η διαφορά αυτή τόσο το καλύτερο. 2. Διαμορφώνουμε ένα μοντέλο χρησιμοποιώντας τις επιλεγείσες ανεξάρτητες μεταβλητές. Αν οι μεταβλητές είναι ποιοτικές, είναι χρήσιμο να περιλάβουμε και όρους αλληλεπίδρασης. Εάν οι μεταβλητές είναι ποσοτικές το καλύτερο είναι να αρχίσουμε με ένα μοντέλο δεύτερης τάξης. Όροι οι οποίοι δεν είναι απαραίτητοι, μπορούν να διαγραφούν αργότερα. Στη συνέχεια, κατασκευάζουμε το εκτιμούμενο μοντέλο. 3. Χρησιμοποιούμε τον έλεγχο ανάλυσης διακύμανσης F και το R2 για να προσδιορίσουμε πόσο καλά το μοντέλο εξηγεί τα δεδομένα. 4. Παρατηρούμε τις τιμές των ελεγχοσυναρτήσεων t για τους επιμέρους συντελεστές παλινδρόμησης (partial regression coefficients) για να δούμε ποιοι απ' αυτούς συνεισφέρουν σημαντικές πληροφορίες όταν χρησιμοποιούνται και όλοι οι άλλοι συντελεστές, Αν κάποιοι απ' τους όρους εμφανίζονται να είναι μη στατιστικά

Page 76: ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ › ~jpan › Linear-Models-Supplement.pdf · μεταβλητή - δείκτη 0-1 ως εικονική μεταβλητή. Όπως

75

σημαντικοί εξετάζουμε το ενδεχόμενο διαγραφής τους. Αν επιλέξουμε να συγκρίνουμε πολλά διαφορετικά μοντέλα χρησιμοποιούμε το R2

adj, ή κάποιο άλλο κριτήριο, για να συγκρίνουμε την αποτελεσματικότητα τους. 5. Χρησιμοποιούμε το διάγραμμα καταλοίπων από κάποιο πρόγραμμα υπολογιστή για να ελέγξουμε το ενδεχόμενο παραβίασης των υποθέσεων του μοντέλου παλινδρόμησης.

Τυχαίοι Παλινδρομητές (Random Regressors) Η ανάπτυξη της θεωρίας των γραμμικών μοντέλων με την χρήση πινάκων στηρίζεται στην υπόθεση ότι ο πίνακας Χ του μοντέλου είναι σταθερός (fixed). Εάν επαναλάβουμε μία μελέτη αναμένουμε ότι οι παρατηρήσεις y της εξαρτημένης μεταβλητής θα μεταβληθούν αλλά αν Χ είναι σταθερό, τότε οι τιμές της ανεξάρτητης μεταβλητής σε επαναλήψεις της μελέτης παραμένουν σταθερές. Η κατάσταση αυτή αποτελεί μια ρεαλιστική περιγραφή για την περίπτωση πειραμάτων όπου ο ερευνητής μπορεί να χρησιμοποιήσει την επιδεξιότητά του για να χειριστεί τις ανεξάρτητες μεταβλητές. Οι περισσότερες όμως έρευνες, κυρίως στις κοινωνικές επιστήμες, είναι εμπειρικές (observational) και όχι αποτελέσματα πειραματικού σχεδιασμού (experimental). (Στηρίζονται δηλαδή σε παρατηρήσεις που έρχονται στην αντίληψή μας). Σε τέτοιες μελέτες που αποτελούν καταγραφή παρατηρήσεων (observational studies) όπως π.χ δειγματοληπτικές έρευνες, συνήθως, θα έχουμε διαφορετικές τιμές για την ανεξάρτητη μεταβλητή όταν επαναλαμβάνεται η μελέτη. Σε εμπειρικές έρευνες (observational research) επομένως, το Χ είναι τυχαίο (συνήθως), και όχι σταθερό. Είναι εντυπωσιακό ότι η στατιστική θεωρία των γραμμικών μοντέλων εφαρμόζεται ακόμα και όταν Χ είναι τυχαίο, με την προϋπόθεση ότι ισχύουν κάποιες υποθέσεις. Όπως έχουμε ήδη δει για καθορισμένες (fixed) ανεξάρτητες μεταβλητές οι υποθέσεις έχουν την μορφή ε∼Νn(0,σ2

ε Ιn). Δηλαδή, η κατανομή των λαθών είναι η ίδια για όλους τους συνδυασμούς των τιμών των ανεξαρτήτων μεταβλητών που εκφράζονται από τις γραμμές του πίνακα του μοντέλου. Όταν Χ είναι τυχαίο, χρειάζεται να υποθέσουμε ότι η ιδιότητα αυτή ισχύει για όλους τους δυνατούς συνδυασμούς των τιμών των ανεξαρτήτων

Page 77: ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ › ~jpan › Linear-Models-Supplement.pdf · μεταβλητή - δείκτη 0-1 ως εικονική μεταβλητή. Όπως

76

μεταβλητών στον πληθυσμό από τον οποί επιλέγουμε δείγματα. Δηλαδή, τα Χ και ε υποτίθενται ανεξάρτητα και έτσι η δεσμευμένη κατανομή των λαθών για ένα δείγμα τιμών των ανεξαρτήτων μεταβλητών (ε⎜Χ0) είναι Νn(0,σ2

εΙn), ανεξάρτητα από το συγκεκριμένο δείγμα Χ0 = xijπου επιλέγουμε. Αφού το Χ είναι τυχαίο θα ακολουθεί κάποια (πολυμεταβλητή) κατανομή πιθανότητας. Δεν είναι απαραίτητο να γίνουν υποθέσεις για την κατανομή αυτή εκτός από (i) Ότι τα Χ και ε είναι ανεξάρτητα (όπως μόλις εξηγήσαμε) (ii) Η κατανομή του Χ δεν εξαρτάται από τις παραμέτρους β και σ2

ε του γραμμικού μοντέλου. Ειδικότερα, σε αντίθεση με τα λάθη, δεν χρειάζεται να υποθέσουμε ότι οι παλινδρομητές (regressors), κατανέμονται κανονικά. Αυτό είναι ευχάριστο, γιατί η κατανομή πολλών παλινδρομητών διαφέρει πολύ από την κανονική κατανομή. Αυτό συμβαίνει π.χ με πολυωνυμικούς παλινδρομητές, με εικονικούς παλινδρομητές, αλλά και με πολλές ποσοτικές ανεξάρτητες μεταβλητές.