Αποτελεσματικοί αλγόριθμοι και δομές δεδομένων με εφαρμογές στην ανάκτηση πληροφορίας και στις τεχνολογίες διαδικτύου

Mapping Intimacies ◽

10.12681/eadd/33573 ◽

2011 ◽

Author(s):

Δημήτριος Αντωνίου

Keyword(s):

Data Structures ◽

Splay Tree ◽

On Line ◽

Self Organizing

Αντικείμενο της παρούσας διδακτορικής διατριβής είναι η μελέτη και τροποποίηση βασικών δομών δεδομένων με σκοπό τη δημιουργία νέων και την τροποποίηση υπαρχουσών λύσεων, με εφαρμογές στην Ανάκτηση Πληροφορίας, τη Βιοπληροφορική και το Διαδίκτυο. Αρχικά, δίνεται έμφαση στην ανάπτυξη και πειραματική επιβεβαίωση αλγοριθμικών τεχνικών για τη σχεδίαση αυτοοργανώμενων δομών δεδομένων (self-organizing data structures). Μέχρι σήμερα, ο μόνος πιθανός υποψήφιος αλγόριθμος αναζήτησης σε δένδρο που μπορεί να είναι Ο(1)-ανταγωνιστικός είναι το splay δένδρο (splay tree) που παρουσιάστηκε από τους Sleator και Tarjan [1]. Επιπρόσθετα, μελετώνται διάφορες εναλλακτικές τεχνικές αυτοοργάνωσης ([2],[3],[4],[5],[6]) και γίνεται επιβεβαίωση των πάνω ορίων που ισχύουν για την απόδοση των splay trees και για αυτές. Η ανάπτυξη των διάφορων αλγοριθμικών αυτών τεχνικών βρίσκει εφαρμογές πάνω στη συμπίεση δεδομένων. Οι αλγόριθμοι συμπίεσης δεδομένων μπορούν να βελτιώσουν την αποδοτικότητα με την οποία τα δεδομένα αποθηκεύονται ή μεταφέρονται, μέσω της μείωσης του ποσού της πλεονάζουσας πληροφορίας. Η χρήση αυτών των αλγορίθμων τόσο στην κρυπτογράφηση όσο και στην επεξεργασία εικόνας είναι αποδοτική και έχει μεγάλο ερευνητικό ενδιαφέρον. Γενικότερα, οι αυτοοργανώμενες δομές δεδομένων χρίζουν ιδιαίτερης προσοχής στους on-line αλγόριθμους. Αναλυτικότερα, στην παρούσα διατριβή, εφαρμόζεται συμπίεση σε βιολογικά δεδομένα αλλά και σε κείμενα τόσο με χρήση του κλασσικού splay δέντρου [10] αλλά και της log log n ανταγωνιστικής παραλλαγής του. Επιπλέον, παρουσιάζονται τυχαιοποιημένες εκδόσεις των παραπάνω δομών και εφαρμόζονται και αυτές στη συμπίεση δεδομένων. Οι log log n ανταγωνιστικές δομές έχουν καλύτερη απόδοση όσον αφορά την πολυπλοκότητά τους σε σχέση με την κλασσική splay δομή. Το γεγονός αυτό επιβεβαιώνεται πειραματικά, όπου η επιτυγχανόμενη συμπίεση είναι στις περισσότερες των περιπτώσεων καλύτερη από την αντίστοιχη της κλασικής δομής . Επιπλέον, ιδιαίτερο ερευνητικό ενδιαφέρον βρίσκει η εφαρμογή βασικών δομών δεδομένων στο διαδίκτυο. Επιδιώκουμε την ανάπτυξη και θεωρητική επιβεβαίωση αλγορίθμων για προβλήματα όπως η ανάθεση «καυτών συνδέσμων» (hot links [7]), η αναδιοργάνωση ιστοσελίδων και η ανάκτηση πληροφορίας ([8],[9]). Σε πρώτο στάδιο, προτείνονται ευριστικοί αλγόριθμοι με σκοπό την ανάθεση «καυτών συνδέσμων» (hotlinks) και τη βελτίωση της τοπολογίας ενός ιστότοπου ([12],[13],[14]). Σκοπός του αλγορίθμου είναι η προώθηση των δημοφιλών ιστοσελίδων ενός ιστότοπου, μέσω της ανάθεσης συνδέσμων προς αυτές, από ιστοσελίδες οι οποίες είναι σχετικές με αυτές ως προς το περιεχόμενο αλλά και ταυτόχρονα συντελούν στη μείωση της απόστασής τους από την αρχική σελίδα. Παρουσιάζεται το μοντέλο του αλγορίθμου, καθώς και μετρικές οι οποίες χρησιμοποιούνται για την ποσοτική αξιολόγηση της αποδοτικότητας του αλγορίθμου σε σχέση με ειδικά χαρακτηριστικά ενός ιστότοπου, όπως η εντροπία του. Σε δεύτερο στάδιο, γίνεται μελέτη τεχνικών προσωποποίησης ιστοσελίδων [11]. Συγκεκριμένα, σκοπός είναι η υλοποίηση ενός αλγορίθμου, ο οποίος θα ανακαλύπτει την αυξημένη ζήτηση μίας κατηγορίας ιστοσελίδων Α από έναν χρήστη και αξιοποιώντας την καταγεγραμμένη συμπεριφορά άλλων χρηστών, θα προτείνει κατηγορίες σελίδων οι οποίες προτιμήθηκαν από χρήστες οι οποίοι ομοίως παρουσίασαν αυξημένο ενδιαφέρον προς την κατηγορία αυτή. Αναλύεται το φαινόμενο της έξαρσης επισκεψιμότητας (burst) και η αξιοποίηση του στο πεδίο της εξατομίκευσης ιστοσελίδων. Ο αλγόριθμος υλοποιείται με τη χρήση δύο δομών δεδομένων, των Binary heaps και των Splay δέντρων, και αναλύεται η χρονική και χωρική πολυπλοκότητά του. Επιπρόσθετα, γίνεται πειραματική επιβεβαίωση της ορθής και αποδοτικής εκτέλεσης του αλγορίθμου. Αξίζει να σημειωθεί πως ο προτεινόμενος αλγόριθμος λόγω της φύσης του, χρησιμοποιεί χώρο, ο οποίος επιτρέπει τη χρησιμοποίηση του στη RAM. Τέλος, ο προτεινόμενος αλγόριθμος δύναται να βρει εφαρμογή σε εξατομίκευση σελίδων με βάση το σημασιολογικό τους περιεχόμενο σε αντιστοιχία με το διαχωρισμό τους σε κατηγορίες. Σε τρίτο στάδιο, γίνεται παρουσίαση πρωτότυπης τεχνικής σύστασης ιστοσελίδων [15] με χρήση Splay δέντρων. Σε αυτή την περίπτωση, δίνεται ιδιαίτερο βάρος στην εύρεση των σελίδων που παρουσιάζουν έξαρση επισκεψιμότητας και στη σύστασή τους στους χρήστες ενός ιστότοπου. Αρχικά, τεκμηριώνεται η αξία της εύρεσης μιας σελίδας, η οποία δέχεται ένα burst επισκέψεων. H έξαρση επισκεψιμότητας (burst) ορίζεται σε σχέση τόσο με τον αριθμό των επισκέψεων, όσο και με το χρονικό διάστημα επιτέλεσής τους. Η εύρεση των σελίδων επιτυγχάνεται με τη μοντελοποίηση ενός ιστότοπου μέσω ενός splay δέντρου. Με την τροποποίηση του δέντρου μέσω της χρήσης χρονοσφραγίδων (timestamps), ο αλγόριθμος είναι σε θέση να επιστρέφει σε κάθε χρονική στιγμή την ιστοσελίδα που έχει δεχθεί το πιο πρόσφατο burst επισκέψεων. Ο αλγόριθμος αναλύεται όσον αφορά τη χωρική και χρονική του πολυπλοκότητα και συγκρίνεται με εναλλακτικές λύσεις. Μείζονος σημασίας είναι η δυνατότητα εφαρμογής του αλγορίθμου και σε άλλα φαινόμενα της καθημερινότητας μέσω της ανάλογης μοντελοποίησης. Παραδείγματος χάρη, στην περίπτωση της απεικόνισης ενός συγκοινωνιακού δικτύου μέσω ενός γράφου, ο αλγόριθμος σύστασης δύναται να επιστρέφει σε κάθε περίπτωση τον κυκλοφοριακό κόμβο ο οποίος παρουσιάζει την πιο πρόσφατη συμφόρηση. Τέλος, όσον αφορά το πεδίο της ανάκτησης πληροφορίας, η διατριβή επικεντρώνεται σε μία πρωτότυπη και ολοκληρωμένη μεθοδολογία με σκοπό την αξιολόγηση της ποιότητας ενός συστήματος λογισμικού βάσει του Προτύπου Ποιότητας ISO/IEC-9126. Το κύριο χαρακτηριστικό της είναι ότι ολοκληρώνει την αξιολόγηση ενός συστήματος λογισμικού ενσωματώνοντας την αποτίμηση όχι μόνο των χαρακτηριστικών που είναι προσανατολισμένα στο χρήστη, αλλά και εκείνων που είναι πιο τεχνικά και αφορούν τους μηχανικούς λογισμικού ενός συστήματος. Σε αυτή τη διατριβή δίνεται βάρος στην εφαρμογή μεθόδων εξόρυξης δεδομένων πάνω στα αποτελέσματα της μέτρησης μετρικών οι οποίες συνθέτουν τα χαρακτηριστικά του πηγαίου κώδικα, όπως αυτά ορίζονται από το Προτύπο Ποιότητας ISO/IEC-9126 [16][17]. Ειδικότερα εφαρμόζονται αλγόριθμοι συσταδοποίησης με σκοπό την εύρεση τμημάτων κώδικα με ιδιαίτερα χαρακτηριστικά, που χρήζουν προσοχής.

Download Full-text

A New Approach to Machinery Monitoring and Diagnostics Using Self-Organizing Maps

Volume 3B: 15th Biennial Conference on Mechanical Vibration and Noise — Acoustics, Vibrations, and Rotating Machines ◽

10.1115/detc1995-0533 ◽

1995 ◽

Author(s):

Siyu Zhang ◽

R. Ganesan ◽

T. S. Sankar

Keyword(s):

Neural Network ◽

Service Life ◽

Trend Analysis ◽

New Approach ◽

Machine System ◽

Network Algorithm ◽

On Line ◽

Neural Network Algorithm ◽

Monitoring And Diagnostics ◽

Self Organizing

Abstract The problem of estimating an unknown multivariate function from on-line vibration measurements, for determining the conditions of a machine system and for estimating its service life is considered. This problem is formulated into a multiple-index based trend analysis problem and the corresponding indices for trend analysis are extracted from the on-line vibration data. Selection of these indices is based on the simultaneous consideration of commonly-observed faults or malfunctions in the machine system being monitored. A neural network algorithm that has been developed by the present authors for multiple-index based regression is adapted to perform the trend analysis of a machine system. Applications of this neural network algorithm to the condition monitoring and life estimation of both a bearing system as well as a gearbox are fully demonstrated. The efficiency and computational supremacy of the new algorithm are established through comparing with the performance of Self-Organizing Mapping (SOM) and Constrained Topological Mapping (CTM) algorithms. Further, the usefulness of multiple-index based trend analysis in precisely predicting the condition and service life of a machine system is clearly demonstrated. Using on-line vibration signal to constitute the set of variables for trend analysis, and employing the newly-developed self-organizing neural algorithm for performing the trend analysis, a new approach is developed for machinery monitoring and diagnostics.

Download Full-text

Optimality of Move-to-Front for Self-Organizing Data Structures with Locality of References

The Annals of Applied Probability ◽

10.1214/aoap/1177005280 ◽

1993 ◽

Vol 3 (4) ◽

pp. 1219-1240 ◽

Cited By ~ 7

Author(s):

Philippe Chassaing

Keyword(s):

Data Structures ◽

Self Organizing

Download Full-text

Matrix Neuro-Fuzzy Self-Organizing Clustering Network

Scientific Journal of Riga Technical University Computer Sciences ◽

10.2478/v10143-011-0042-1 ◽

2011 ◽

Vol 45 (1) ◽

pp. 54-58 ◽

Cited By ~ 2

Author(s):

Yevgeniy Bodyanskiy ◽

Valentyna Volkova ◽

Mark Skuratov

Keyword(s):

Fuzzy Inference ◽

Data Sets ◽

Fuzzy Membership Functions ◽

Neuro Fuzzy ◽

The Matrix ◽

On Line ◽

Winner Take All ◽

Overlapping Classes ◽

Self Learning ◽

Self Organizing

Matrix Neuro-Fuzzy Self-Organizing Clustering NetworkIn this article the problem of clustering massive data sets, which are represented in the matrix form, is considered. The article represents the 2-D self-organizing Kohonen map and its self-learning algorithms based on the winner-take-all (WTA) and winner-take-more (WTM) rules with Gaussian and Epanechnikov functions as the fuzzy membership functions, and without the winner. The fuzzy inference for processing data with overlapping classes in a neural network is introduced. It allows one to estimate membership levels for every sample to every class. This network is the generalization of a vector neuro- and neuro-fuzzy Kohonen network and allows for data processing as they are fed in the on-line mode.

Download Full-text

Combining the Self-Organizing Map and K-Means Clustering for On-Line Classification of Sensor Data

Artificial Neural Networks — ICANN 2001 - Lecture Notes in Computer Science ◽

10.1007/3-540-44668-0_65 ◽

2001 ◽

pp. 464-469 ◽

Cited By ~ 21

Author(s):

Kristof Van Laerhoven

Keyword(s):

The Self ◽

Sensor Data ◽

Self Organizing Map ◽

On Line ◽

Line Classification ◽

Self Organizing

Download Full-text

Self-organizing data structures with dependent accesses

Automata, Languages and Programming - Lecture Notes in Computer Science ◽

10.1007/3-540-61440-0_156 ◽

1996 ◽

pp. 526-537 ◽

Cited By ~ 5

Author(s):

Frank Schulz ◽

Elmar Schömer

Keyword(s):

Data Structures ◽

Self Organizing

Download Full-text

Data structures for on-line updating of minimum spanning trees

Proceedings of the fifteenth annual ACM symposium on Theory of computing - STOC '83 ◽

10.1145/800061.808754 ◽

1983 ◽

Cited By ~ 14

Author(s):

Greg N. Frederickson

Keyword(s):

Data Structures ◽

Spanning Trees ◽

Minimum Spanning Trees ◽

On Line

Download Full-text

An Application of Self-organizing Data Structures to Compression

Experimental Algorithms - Lecture Notes in Computer Science ◽

10.1007/978-3-642-02011-7_14 ◽

2009 ◽

pp. 137-148 ◽

Cited By ~ 5

Author(s):

Reza Dorrigiv ◽

Alejandro López-Ortiz ◽

J. Ian Munro

Keyword(s):

Data Structures ◽

Self Organizing

Download Full-text

Processing Acyclic Data Structures Using Modified Self-Organizing Maps

Advances in Computational Intelligence - Lecture Notes in Computer Science ◽

10.1007/978-3-642-21498-1_19 ◽

2011 ◽

pp. 145-152

Author(s):

Gabriela Andrejková ◽

Jozef Oravec

Keyword(s):

Data Structures ◽

Self Organizing Maps ◽

Self Organizing

Download Full-text

Self-Organizing Heuristics for Implicit Data Structures

SIAM Journal on Computing ◽

10.1137/0213020 ◽

1984 ◽

Vol 13 (2) ◽

pp. 277-291 ◽

Cited By ~ 13

Author(s):

Greg N. Frederickson

Keyword(s):

Data Structures ◽

Implicit Data ◽

Self Organizing

Download Full-text

On-line kernel clustering based on the general regression neural network and T. Kohonen’s self-organizing map

Automatic Control and Computer Sciences ◽

10.3103/s0146411617010023 ◽

2017 ◽

Vol 51 (1) ◽

pp. 55-62 ◽

Cited By ~ 3

Author(s):

Ye. V. Bodyanskiy ◽

A. O. Deineko ◽

Ya. V. Kutsenko

Keyword(s):

Neural Network ◽

General Regression Neural Network ◽

Self Organizing Map ◽

Kernel Clustering ◽

On Line ◽

General Regression ◽

Self Organizing

Download Full-text