Using and expanding hybrid latent variable models for modelling missing data and for discovering influential points
Ο όρος Υβριδικός χρησιμοποιείται γενικά για να περιγράψει το μεικτό χαρακτήρα ενός αντικειμένου το οποίο αποτελείται από δύο στοιχεία. Τα Υβριδικά μοντέλα λανθανουσών μεταβλητών επιτρέπουν τον ορισμό δύο ή περισσοτέρων κλάσεων και δομές εντός των ομάδων οι οποίες καλύπτουν ένα μεγάλο εύρος από απλή ανεξαρτησία (local independence) έως σύνθετες σχέσεις μεταξύ των λανθανουσών μεταβλητών. Στο Κεφάλαιο 1 γίνεται αναφορά και σχολιασμός της βιβλιογραφίας στο πεδίο των Υβριδικών μοντέλων καθώς και λεπτομερής παρουσίαση της διαδικασίας εκτίμησης με χρήση του ΕΜ ενός Υβριδικού Hybrid 2LC/2PL-Hom μοντέλου. Ο συμβολισμός 2LC/2PL-Hom δηλώνει ένα μοντέλο για το οποίο οι απαντήσεις στα ερωτήματα προς απόκριση εξαρτώνται από μία διακριτή λανθάνουσα μεταβλητή η οποία διαιρεί τον πληθυσμό σε δύο ομάδες (2LC) και επιπλέον ότι οι απαντήσεις στα ερωτήματα σε μία από τις δύο αυτές ομάδες εξαρτώνται από μία συνεχή λανθάνουσα μεταβλητή. Η πιθανότητα απάντησης για αυτή την ομάδα δίνεται από το μοντέλο δύο παραμέτρων (2PL-IRT). Η άλλη ομάδα θεωρείται ομογενής (Homogeneous-Hom) χωρίς κάποια άλλη λανθάνουσα δομή. Η προσαρμογή του μοντέλου αποτελεί το αντικείμενο συζήτησης και έρευνας των επόμενων δύο κεφαλαίων. Τεστ τα οποία εμπεριέχουν όλη την πληροφορία (Overall tests) και μέρος της πληροφορίας (Limited-information tests) των δεδομένων παρουσιάζονται και διερευνάται η συμπεριφορά τους μέσω προσομοίωσης για το 2LC/2PL-Hom μοντέλο σε ότι αφορά την ισχύ και το σφάλμα Τύπου Ι. Έμφαση δίνεται στην περίπτωση των δεδομένων τα οποία είναι αραιά (sparse) και τα οποία συναντάμε συχνά στο πεδίο εφαρμογής των λανθανουσών μοντέλων. Ως μέτρο για το πόσο αραιά είναι τα δεδομένα χρησιμοποιείται το ποσοστό των αναμενόμενων συχνοτήτων οι οποίες είναι μικρότερες ή ίσες με 5. Στο Κεφάλαιο 4 προτείνεται η χρήση του Hybrid 2LC/2PL-2PL μοντέλου για δίτιμα δεδομένα με ελλιπείς παρατηρήσεις οι οποίες δεν έχουν προέλθει τυχαία (MNAR) κατά τη διαδικασία απόκρισης των υποκειμένων. Το μοντέλο αυτό θεωρεί ότι τα ελλιπή (μη παρατηρούμενα) δεδομένα εξαρτώνται από κάτι επιπλέον σε σχέση με τα παρατηρούμενα και κάτω από τις απαραίτητες υποθέσεις και περιορισμούς επιτρέπει τα ελλιπή δεδομένα να συμπεριληφθούν στην ανάλυση. Συγκεκριμένα σύμφωνα με το προτεινόμενο μοντέλο η τάση των ερωτώμενων να αποκριθούν (response propensity) σχετίζεται με τις συγκεκριμένες ομάδες στις οποίες διαιρείται ο πληθυσμός από τη διακριτή λανθάνουσα μεταβλητή, η οποία μετράται από ένα σύνολο δίτιμων ερωτήσεων οι οποίες υποβάλλονται στα υποκείμενα. Στο Κεφάλαιο 5 γίνεται ανίχνευση σημείων επιρροής για δίτιμα δεδομένα με ένα 2PL-IRT μοντέλο με κύριο στόχο τον εντοπισμό τυχόν περιπτώσεων όπου τα αποτελέσματα της προσαρμογής ενός τέτοιου μοντέλου είναι παραπλανητικά και το προσδιορισμό της πηγής αυτού του φαινομένου.