scholarly journals Efficient bayesian marginal likelihood estimation for generalized latent trait models

2013 ◽  
Author(s):  
Βασιλική Βιτωράτου

Ο όρος μοντέλα λανθανουσών μεταβλητών (ΜΛΜ) αναφέρεται σε μία ευρεία οικογένεια μοντέλων τα οποία χρησιμοποιούνται για να μετρήσουν αφηρημένες έννοιες (μη παρατηρούμενες/ λανθάνουσες μεταβλητές ή παράγοντες) χρησιμοποιώντας πολλαπλούς δείκτες(παρατηρούμενες μεταβλητές ή λήμματα). Η κεντρική ιδέα είναι ότι οι σχέσεις μεταξύ των p παρατηρούμενων μεταβλητών μπορούν να αποδοθούν σε k μη παρατηρούμενες μεταβλητές, όπου k<<p. Κατά συνέπεια, η ΜΛΜ μεθοδολογία συνιστά μία πολυμεταβλητή ανάλυση που στόχο έχει να μειώσει τις διαστάσεις, με όσο το δυνατόν λιγότερη απώλεια πληροφορίας. Ακόμα σημαντικότερο είναι το γεγονός ότι τα ΜΛΜ μπορούν να μετρήσουν ποσότητες που δεν είναι άμεσα μετρήσιμες, όπως για παράδειγμα συναισθήματα, τάσεις, στάσεις και αντιλήψεις ατόμων. Στην παρούσα διατριβή, τα ΜΛΜ μελετούνται σύμφωνα με τη στατιστική κατά Bayes, όπου η αξιολόγηση των μοντέλων γίνεται μέσω της εκ των υστέρων πιθανότητας. Βασικό ρόλο σε αυτό διαδραματίζει η περιθώρεια πιθανοφάνεια του εκάστοτε μοντέλου, η οποία συχνά είναι ένα πολυδιάστατο ολοκλήρωμα το οποίο δεν υπολογίζεται σε κλειστή μορφή. Σε αυτή την εργασία χρησιμοποιούνται οι ιδιότητες των ΜΛΜ προκειμένου να εκτιμηθεί αποτελεσματικά η περιθώρεια πιθανοφάνεια. Συγκεκριμένα, στο Κεφάλαιο 1 παρουσιάζονται οι απαρχές και οι βασικές ιδέες των διαφορετικών τύπων ΜΛΜ. Παρουσιάζονται επίσης τα βασικά σημεία της ανάλυσης κατά Bayes και γίνεται αναδρομή στη σύγχρονη βιβλιογραφία. Το Κεφάλαιο 2 εστιάζει στα ΜΛΜ με δίτιμες μεταβλητές και περιγράφει τα βασικά σημεία της ανάλυσης κατά Bayes (επιλογή της εκ των προτέρων κατανομής, δειγματοληψία από την εκ των υστέρων κατανομή και αξιολόγηση του μοντέλου). Στο Κεφάλαιο 3 παρουσιάζονται δύο εναλλακτικές μορφές της περιθώρειας πιθανοφάνειας. Υπολογίζονται οι συνιστώσες της μεταβλητότας που αφορούν την κάθε μία από τις δύο προσεγγίσεις καθώς και οι παράγοντες που τις επηρεάζουν. Eπιπλέον, περιγράφεται αναλυτικά ο ρόλος της δειγματικής συνδιασποράς και παρουσιάζεται ένας δείκτης απόκλισης από την ανεξαρτησία, ως το πολυδιάστατο ανάλογο της συνδιασποράς. Στο Κεφάλαιο 4 οι ιδιότητες των ΜΛΜ χρησιμοποιούνται για να απλοποιήσουν γνωστούς εκτιμητές της περιθώρειας πιθανοφάνειας, μειώνοντας έτσι το χρόνο που χρειάζεται για τον υπολογισμό τους. Στο Κεφάλαιο 5 παρουσιάζεται η στενή σχέση της στατιστικής κατά Bayes με τις ιδέες που έχουν αναπτυχθεί στο χώρο της Θερμοδυναμικής. Αποδεικνύεται ότι οι αποκλίσεις μεταξύ κατανομών πιθανοτήτων μπορούν να εκτιμηθούν μέσω της Θερμοδυναμικής ολοκλήρωσης, ενώ παρουσιάζονται νέοι εκτιμητές της περιθώρειας πιθανοφάνειας. Στο Κεφάλαιο 6, οι μέθοδοι που αναφέρονται στην παρούσα διατριβή, εφαρμόζονται και συγκρίνονται σε προσομοιωμένα και σε πραγματικά δεδομένα. Η διατριβή ολοκληρώνεται με μία σύντομη συζήτηση των σημείων που χρήζουν μελλοντικής έρευνας.

PeerJ ◽  
2021 ◽  
Vol 9 ◽  
pp. e12438
Author(s):  
Sebastian Höhna ◽  
Michael J. Landis ◽  
John P. Huelsenbeck

In Bayesian phylogenetic inference, marginal likelihoods can be estimated using several different methods, including the path-sampling or stepping-stone-sampling algorithms. Both algorithms are computationally demanding because they require a series of power posterior Markov chain Monte Carlo (MCMC) simulations. Here we introduce a general parallelization strategy that distributes the power posterior MCMC simulations and the likelihood computations over available CPUs. Our parallelization strategy can easily be applied to any statistical model despite our primary focus on molecular substitution models in this study. Using two phylogenetic example datasets, we demonstrate that the runtime of the marginal likelihood estimation can be reduced significantly even if only two CPUs are available (an average performance increase of 1.96x). The performance increase is nearly linear with the number of available CPUs. We record a performance increase of 13.3x for cluster nodes with 16 CPUs, representing a substantial reduction to the runtime of marginal likelihood estimations. Hence, our parallelization strategy enables the estimation of marginal likelihoods to complete in a feasible amount of time which previously needed days, weeks or even months. The methods described here are implemented in our open-source software RevBayes which is available from http://www.RevBayes.com.


Sign in / Sign up

Export Citation Format

Share Document