Statistical methodology for the analysis of genomic data
Η διδακτορική μου διατριβή επικεντρώνεται εισαγωγή ενός νέου αλγορίθμου και λογισμικού για την ιεράρχηση παραλλαγών από γονιδιωματικά δεδομένα με βάση τη λειτουργική τους σημασία. Καθώς ήδη υπάρχουν αρκετές βάσεις δεδομένων σχολιασμού και αλγόριθμοι που χρησιμοποιούν διαφορετικές προσεγγίσεις για να προβλέψουν τη λειτουργική σημασία των παραλλαγών, υπάρχει αξιοσημείωτη μεταβλητότητα στα πεδία του σχολιασμού και πρόβλεψης των παραλλαγών. Ως εκ τούτου, υπάρχει ανάγκη να συνδυαστούν τα αποτελέσματα των αλγορίθμων και των βάσεων δεδομένων σχολιασμού, προκειμένου να βελτιστοποιηθεί η ακρίβεια. Για να επιτευχθεί αυτό, εφαρμόσαμε και ενσωματώσαμε βαθμολογίες πολλών αλγορίθμων πρόβλεψης, βαθμολογίες συντήρησης, αλληλικές συχνότητες, κλινικές πληροφορίες και επιπλέον σχολιασμούς ανοιχτού κώδικα, χρησιμοποιώντας προσβάσιμες βάσεις δεδομένων, μέσω του λογισμικού ANNOVAR στον δικό μας αλγόριθμο με το όνομα Variant Ranker. Χρησιμοποιώντας το διαδικτυακό μας εργαλείο με όνομα Variant Ranker, οι χρήστες μπορούν να τοποθετήσουν κατά σειρά προτεραιότητας παραλλαγές με βάση την καινοτομία τους, το πόσο επιβλαβείς και συντηρημένες είναι, εντοπίζοντας έτσι παραλλαγές που δυνητικά θα φέρουν την υπογραφή της υπό μελέτη νόσου. Η βιολογική σημασία αυτών των ταξινομημένων κατά σειρά προτεραιότητας παραλλαγών μπορεί να διερευνηθεί περεταίρω χρησιμοποιώντας το στοιχείο Network Analyser και άλλα εργαλεία γονιδιακής οντολογίας. Αναμένουμε ότι το εργαλείο μας θα είναι ιδιαίτερα χρήσιμο σε βιολόγους/κλινικούς ιατρούς με περιορισμένη εμπειρία στον τομέα της βιοπληροφορικής.Αρχικά παρουσιάζεται ο αλγόριθμος και στη συνέχεια περιγράφεται η εφαρμογή του χρησιμοποιώντας διαφορετικές γονιδιωματικές αναλύσεις, συμπεριλαμβανομένων: (i) σε δεδομένα επαναλληλούχισης για το σύνδρομο Tourette, (ii) δεδομένα αλληλούχισης του συνόλου των εξονίων από οικογένειες με νόσο Alzheimer και τύπου Alzheimer και (iii) δεδομένα αλληλούχισης ολόκληρου του γονιδιώματος από υγιείς εγκεφάλους.