United States Patent and Trademark Office (USPTO)
Ανίχνευση ιστού και σύνοψη περιεχομένου
Η τρέχουσα καινοτόμος λύση ανίχνευσης ιστού αντιμετωπίζει την πρόκληση της αυτόματης κατάταξης της ανίχνευσης ιστού και της δημιουργίας μιας σύνοψης ειδήσεων για τα θέματα ειδήσεων. Η λύση ανιχνεύει άρθρα ειδήσεων από διάφορα websites ειδήσεων με διαφορετικές δομές και τύπους περιεχομένου και περιλαμβάνει ειδήσεις, σχόλια κ.λπ. από social media, blogs και άλλες πηγές που δεν διαθέτουν αυτόματα συστήματα διανομής περιεχομένου.
Η τρέχουσα λύση χρησιμοποιεί αυτόματα δημιουργούμενα περιτυλίγματα ιστοσελίδων για την ανίχνευση, ανάλυση και εξαγωγή πληροφοριών από ιστοσελίδες με βάση τη δομή και το περιεχόμενό τους. Αυτό επιτυγχάνεται μέσω της χρήσης εκφράσεων XPath και τεχνικών όπως νευρωνικά δίκτυα και επεξεργασία φυσικής γλώσσας. Η αποτελεσματικότητα των περιτυλίξεων ιστοσελίδων αξιολογείται συνεχώς και ενημερώνονται αυτόματα κάθε φορά που αλλάζει η δομή των συσχετισμένων ιστοσελίδων.
Οι πολιτικές ανίχνευσης ιστού ενημερώνονται τακτικά, ώστε να λαμβάνεται υπόψη η φήμη και η σημασία μιας ιστοσελίδας και να ιεραρχούνται οι πιο σημαντικές και ενημερωμένες ιστοσελίδες ειδήσεων σχετικά με ένα συγκεκριμένο θέμα. Η καινοτόμος προσέγγιση εξετάζει τον αριθμό των φορών που τα άρθρα ενός ιστότοπου αναφέρονται από άλλες πηγές, όπως ιστοσελίδες ειδήσεων και μέσα κοινωνικής δικτύωσης, καθώς και τον αριθμό των άρθρων σε άλλους ιστότοπους που καλύπτουν το ίδιο γεγονός, θέμα ή οντότητα, αφού συζητήθηκε για πρώτη φορά από τον αρχικό ιστότοπο.
Η διαδικασία ανίχνευσης ιστού πραγματοποιείται χρησιμοποιώντας πολλαπλές παράλληλες ουρές για τη συλλογή ειδήσεων και πολλαπλά νήματα που ανακτούν τα στοιχεία από τις ουρές. Αυτές οι παράλληλες ουρές τελικά συνδυάζονται σε μία ενιαία ουρά με προτεραιότητα, η οποία χρησιμοποιείται για την ανίχνευση ιστοσελίδων με βάση τις καθιερωμένες πολιτικές.
Μόλις ληφθεί το περιεχόμενο, αναλύεται χρησιμοποιώντας διάφορες τεχνικές, όπως η κατανόηση της φυσικής γλώσσας, και ομαδοποιείται ανάλογα με την ομοιότητα. Στη συνέχεια, δημιουργούνται περιλήψεις θεμάτων ειδήσεων είτε επιλέγοντας σχετικές προτάσεις από τα ομαδοποιημένα άρθρα είτε χρησιμοποιώντας τεχνικές σύνθεσης φυσικής γλώσσας.
European Patent Office (EPO)
Sentiment Analysis Περιεχομένου Ιστού
Το τρέχον παράδειγμα συστήματος ασχολείται με την εξαγωγή sentiment από διάφορες online πηγές. Τα δεδομένα που συλλέγονται υποβάλλονται σε προεπεξεργασία για την εξαγωγή χρήσιμων χαρακτηριστικών που βοηθούν τους αλγόριθμους μηχανικής μάθησης στην εργασία sentiment analysis. Συγκεκριμένα, οι λέξεις σε κάθε κείμενο μετατρέπονται σε έναν χώρο νευρωνικής ενσωμάτωσης και τροφοδοτούνται σε ένα υβριδικό, αμφίδρομο δίκτυο μακροχρόνιας βραχυπρόθεσμης μνήμης, το οποίο περιλαμβάνει συνελικτικά επίπεδα και έναν μηχανισμό προσοχής. Αυτά τα χαρακτηριστικά χρησιμοποιούνται στη συνέχεια για την παραγωγή των τελικών χαρακτηριστικών κειμένου.
Επιπλέον, το σύστημα αξιολογεί τη συχνότητα και τον τύπο των ιδεογραμμάτων emoji, είτε αυτά εξάγονται αυτόματα είτε αντιστοιχίζονται χειροκίνητα μέσω hashtag κ.λπ. Η προτεινόμενη προσέγγιση είναι καινοτόμος όσον αφορά τη σημασιολογική σχολίαση των προεπεξεργασμένων δεδομένων, την ενίσχυση του σημασιολογικού τους πλαισίου μέσω της αναγνώρισης μοτίβων και την απλοποίηση του προβλήματος ανάλυσης μειώνοντας το μέγεθος των δεδομένων μέσω επιλεκτικής υποδειγματοληψίας και άλλων τεχνικών. Παρέχονται συγκεκριμένες λεπτομέρειες υλοποίησης που επιτυγχάνουν την πιο γνωστή απόδοση. Ωστόσο, εναλλακτικά παραδείγματα μπορούν να χρησιμοποιούν διαφορετικές διαμορφώσεις επιπέδων στο νευρωνικό δίκτυο, διαφορετικά μεγέθη παραθύρων, κατώφλια κ.λπ. Όλες αυτές οι παραλλαγές εμπίπτουν στο πεδίο εφαρμογής της καινοτόμου λύσης.
Αυτό το πρόγραμμα ανίχνευσης ιστού δίνει προτεραιότητα στην ανίχνευση ιστοσελίδων και δημιουργεί περιλήψεις για θέματα ειδήσεων διαφορετικών μορφών και τύπων περιεχομένου. Περιλαμβάνει επίσης σχόλια, αναρτήσεις και άλλους τύπους αλληλεπιδράσεων από μέσα κοινωνικής δικτύωσης και ιστολόγια. Χρησιμοποιεί αυτόματα δημιουργούμενα περιτυλίγματα ιστού για την ανίχνευση, ανάλυση και εξαγωγή περιεχομένου ιστού με βάση τη δομή και το περιεχόμενό του, χρησιμοποιώντας μεθόδους όπως εκφράσεις XPath, νευρωνικά δίκτυα και επεξεργασία και κατανόηση φυσικής γλώσσας. Η αποτελεσματικότητα αυτών των περιτυλίξεων ιστοσελίδων αξιολογείται και ενημερώνονται αυτόματα όταν αλλάζει η δομή των αντίστοιχων ιστοσελίδων. Επιπλέον, οι πολιτικές ανίχνευσης ιστού ενημερώνονται τακτικά για να λαμβάνουν υπόψη παράγοντες όπως η φήμη, η επιρροή και ο αντίκτυπος ενός ιστότοπου.
Οργανισμός Βιομηχανικής Ιδιοκτησίας Ελλάδος (ΟΒΙ)
Ανίχνευση ιστού και σύνοψη περιεχομένου
Το πρόγραμμα ανίχνευσης ιστού αναλύει, συγκεντρώνει και συνοψίζει το ανιχνευμένο περιεχόμενο. Δίνει προτεραιότητα στην ανίχνευση ιστού και δημιουργεί περιλήψεις ειδήσεων για θέματα με διάφορες δομές και τύπους περιεχομένου, συμπεριλαμβανομένων σχολίων, αναρτήσεων και άλλων αλληλεπιδράσεων από μέσα κοινωνικής δικτύωσης και ιστολόγια. Το πρόγραμμα ανίχνευσης χρησιμοποιεί αυτόματα δημιουργημένα περιτυλίγματα ιστοσελίδων για την ανίχνευση, ανάλυση και εξαγωγή πληροφοριών από ιστοσελίδες με βάση τη δομή και το περιεχόμενό τους, χρησιμοποιώντας εκφράσεις XPath, νευρωνικά δίκτυα και επεξεργασία και κατανόηση φυσικής γλώσσας. Η αποτελεσματικότητα των περιτυλίξεων ιστοσελίδων αξιολογείται και ενημερώνονται αυτόματα όταν αλλάζει η δομή των συσχετισμένων ιστοσελίδων. Οι πολιτικές ανίχνευσης ιστού ενημερώνονται επίσης συνεχώς για να λαμβάνονται υπόψη παράγοντες όπως η φήμη, η επιρροή, ο αντίκτυπος και οι αναφορές σε έναν ιστότοπο ή ιστότοπο. Η διαδικασία ανίχνευσης χρησιμοποιεί πολλαπλές παράλληλες ουρές, καθεμία από τις οποίες εφαρμόζει διαφορετικές μικροδιεργασίες, που συγκλίνουν σε μία ενιαία ουρά προτεραιότητας που χρησιμοποιείται για την ανίχνευση με βάση τις πολιτικές ανίχνευσης.
Sentiment Analysis Περιεχομένου Ιστοσελίδας
Παρέχεται ένα σύστημα και μια προσέγγιση για την εξαγωγή συναισθημάτων σε στοιχεία δεδομένων ιστού από διάφορες πηγές ιστού. Τα δεδομένα ανίχνευσης προεπεξεργάζονται για την εξαγωγή χρήσιμων χαρακτηριστικών που βοηθούν τους αλγόριθμους μηχανικής μάθησης στο sentiment analysis. Οι λέξεις σε κάθε κείμενο μετασχηματίζονται σε έναν χώρο νευρωνικής ενσωμάτωσης και τροφοδοτούνται σε ένα υβριδικό, αμφίδρομο δίκτυο βραχυπρόθεσμης μνήμης, μαζί με συνελικτικά επίπεδα και έναν μηχανισμό προσοχής, ο οποίος εξάγει τα τελικά χαρακτηριστικά κειμένου. Επιπλέον, εξάγονται διάφορα μεταδεδομένα εγγράφων, όπως σύμβολα emoji, τα οποία βοηθούν περαιτέρω στην ανίχνευση συναισθημάτων στα στοιχεία δεδομένων, στην αύξηση της αναγνώρισης προτύπων κ.λπ. Το πρόβλημα ανάλυσης απλοποιείται επίσης με τη μείωση του μεγέθους των δεδομένων μέσω επιλεκτικής μείωσης δειγματοληψίας και άλλων μεθόδων.
LET’S GROW YOUR BUSINESS TOGETHER.
CONTACT US NOW.