Το Πρωτόκολλο Αποκλεισμού Robots (REP) Μέρος 1

Robots Exclusion Protocol

Η ιστορία του Πρωτοκόλλου Αποκλεισμού Ρομπότ (REP – Robots Exclusion Protocol) ξεκινά με την εμφάνιση του
robots.txt πρωτοκόλλου το 1993 Οφείλεται κατά ένα μέρος σε ένα Perl Web Crawler  το οποίο κατανάλωνε  όλο το Network  Bandwith ενός ιστότοπου ο ιδιοκτήτης του οποίου θα γίνει ο πρώτος δημιουργός του αρχείου robots.txt (http://bit.ly/bRB3H).

Το 1994 το REP επισημοποιήθηκε από την κοινότητα που ασχολήθηκε με την συγγραφή εντολών για robots (http://robotstxt.org/orig.html). Aρχικά το REP χρησιμοποιήθηκε για επιτρέπετε ο αποκλεισμός πόρων Με το καιρό επήλθαν αλλαγές και συμπεριλήφθηκαν και οδηγίες για συμπερίληψη.

Όταν αναφερόμαστε στο REP σήμερα εννούμε αρκετά πράγματα όπως το robots.txt, XML, χάρτες ιστότοπων (sitemaps) meta tags, X-Robot Tag(s) και το nofollow link χαρακτηριστικό.  Η κατανόηση  του REP είναι σημαντική, εφόσον χρησιμοποιείται για πολλές SEO (Search Engine Optimization) εργασίες. Για διπλό περιεχόμενο , για απόκρυψη κειμένων που δεν επιθυμούμε να εμφανίζονται στα αποτελέσματα αναζήτησης, στατηγική κατανομή του link juice είναι μερικά από τα οποία το REP μπορεί να μας βοηθήσει.

Η υιοθέτηση του REP δεν είναι υποχρεωτική και υιοθετήται απαραίτητα από όλες τις μηχανές αναζήτησης Ωστόσο, οι τρείς μεγάλες μηχανές αναζήτησης(Yahoo, Bing & Google) συνεργάζονται μεταξύ τους για την υποστήριξη του REP με ένα σχεδόν ομοιόμορφο τρόπο, επίσης συνεργάζονται  μεταξύ τους για την δημιουργία νέων REP στάνταρτς Ο στόχος είναι να παρέχουν  ίδια συμπεριφορά των crawlers  προς όφελος όλων των διαχειριστών websites (webmasters)

Πριν παρουσιάσουμε αναλυτικότερα το REP είναι πολύ σημαντικό να ξέρουμε την διαφορά μεταξύ της ευρετηρίασης (indexing) και του crawling γνωστό και ως spidering.  Δεν υπάρχουν εγγυήσεις αν ένα αρχείο ανιχνευτεί (crawled) θα γίνει και ευρετηρίασή του.

Ανίχνευση & Ευρετηρίαση (Indexing & Crawling)

Η ανίχνευση (crawling ή spidering) είναι η αυτόματη διαδιακασία εντοπίζεται ένα web αρχείο  και εκτελείται από ειδικά προγράμματα που ονομάζονται “διαδυκτιακές αράχνες”  web spiders. Ιδανικά όλες οι ενέργειες εντοπισμού και  ανίχνευσης πρέπει να καθορίζονται απο συμφωνημένα στανταρτς του REP Ευρετηρίαση είναι η διαδικασία που εκετελείται από εξειδικευμένους και περίπλοκους αλγόριθμους οι οποίοι αναλύουν και αποθηκεύουν τις πληροφορίες που έχουν ανιχνευτεί σε ένα ευρητήριο (δηλ στην ουσία σε βάσεις δεδομένων) Τι ευρετήριο κάθε μηχανής αναζήτησης δημιουργείται  και καθορίζεται από έναν σύνολο κανόνων, παράγοντες κατάταξης ή της βαρύτητας που έχει μια ιστοσελίδα για μια συγκεκριμένη λέξη-κλειδί. Γιατί όμως να απογευρεύσουμε την ανίχνευση ή την ευρετηρίαση ;
Μπορεί να θέλουμε να απαγορέψουμε τον εντοπισμό και την ανίχνευση αλλά και την ευρετηρίαση για πολλούς και διάφορους λόγους Μερικές φορές  αυτό γίνεται για κάποιες σελίδες ή αρχεία σε συγκεκριμένα σημεία ενός site, ενώ άλλες φορές αυτό λαμβάνει χώρα σε ολόκληρο το site. Παρακάτω αναφέρουμε μερικά τυπικά σενάρια :

Η εντολή Allow επιτρέπει στους clawlers να εντοπίσουν μια συγκεκριμένη σελίδα (ή πόρο)

Παράδειγμα:

Allow: /cgi-bin/report.cgi

H παραπάνω εντολή  δίνει οδηγία στους crawlers να εντοπίσουν το αρχείο report.cgi

Η εντολή Disallow δίνει οδηγία στους crawlers να μην ανιχνεύσουν όλο ή μέρη του site H μόνη εξαίρεση στον παραπάνω είναι το ίδιο το αρχείο robots.txt το οποίο δεν μπορεί να αποκλειστεί

Παράδειγμα :

Disallow: /cgi-bin/

O παραπάνω κώδικας δεν επιτρέπει στους crawlers από την ανίχνευση του φακέλλου cgi-bin

H εντολή Sitemap καθοδηγεί τους ανιχνευτές (crawlers) που θα βρουν το  αρχείο με τον χάρτη του ιστότοπου (sitemap)
Παράδειγμα:

Sitemap: http://domain.com/sitemap.xml

Συμβουλή: να χρησιμοποιήτε απόλυτα paths για υπάρχει υπάρχει συμβατότητα  μεταξύ όλων των μηχανών αναζήτησης Πολλαπλές οδηγίες για Sitemap επιτρέπονται.

Ο χαρακτήρας $ καθοδηγεί τους crawlers να ταιριάξουν οτιδήποτε από την αρχή του τέλους μια URL

Παράδειγμα:

Disallow:
/*.pdf$

O κώδικας αυτός δεν επιτρέπει στους crawlers την ανίχνευση PDF αρχείων

O χαρακτήρας * (wildcard) δίνει οδηγία στους crawlers να ταιριάξουν μηδέν ή περισσότερους χαρακτήρες

Παράδειγμα:

Disallow: /search?*

Όλα τα URLs που ταιριάζουν στο μέρος του string πριν το χαρακτήρα * δεν επιτρέπεται να ανιχνευτούν

H εντολή Crawl-Delay  λαμβάνεται υπόψη μόνο από τους crawlers MSNBot (bing) και Slurp (Yahoo) και ορίζουν ένα χρονικό διάστημα καθυστέρησης ανίχνευσης

Παράδειγμα:

Crawl-delay: 55

Η google υποστηρίζει την συγκεκριμένη οδηγία (directive).

H συνέχεια στο Mέρος 2…

 

Posted in Search Engines

Συστήματα Ανάκτησης Πληροφοριών

Οι μηχανές αναζήτησης  αποτελούν το ποιο διαδεδομένο παράδειγμα του τομέα  της Ανάκτησης  Πληροφοριών (IR – Information Retrival).  H ανάκτηση πληροφοριών  αποτελεί ένα πεδίο ακαδημαϊκής έρευνας πολύ παλαιότερο από την επιστήμη της πληροφορικής  και επικεντρώνεται κυρίως  στη εύρεση του βέλτιστου τρόπου αναζήτησης και ανάκτησης πληροφοριών σε έγγραφα κειμένου.

Οι πληροφορίες σε μορφή κειμένου είναι  σε γενικές γραμμές  αδόμητες. Μπορεί να πραγματοποιηθεί μια σχετική ιεράρχηση ώστε να είναι ποιο ευανάγνωστο από τους ανθρώπους αλλά δεν μπορεί να συγκριθεί για παράδειγμα με μια σχεσιακή βάση (RDBS) δεδομένων όπου  οι πληροφορίες αποθηκεύονται με τέτοιο τρόπο ώστε να είναι άμεση η αναζήτηση και η ανάκτηση πληροφοριών βάση συγκεκριμένων κριτηρίων.

O  Salton, W. Bruce Croft   περιγράφει το τρόπο με τον οποίο συνεισφέρει ο τομέας της ανάκτησης πληροφοριών στην επιστήμη των υπολογιστών:

1.  Αποτελεί την βάση για  τους αλγόριθμους και την δομή δεδομένων που χρησιμοποιούν σήμερα οι μηχανές αναζήτησης

2. Εισήγαγε μοντέλα στατιστικής  ανάλυσης της γλώσσας

3. Ανάπτυξη ενός μοντέλου (μαθηματικών) που προσεγγίζει την ανθρώπινη κριτική σκέψη και κρίση

4.  Αποδοχή της σημασίας του χρήστη και της αλληλεπίδρασης  ως μέρος της προσπέλασης πληροφοριών

Μία άλλη σημαντική συνεισφορά της Ανάκτησης Πληροφοριών  είναι  ανάπτυξη μετρήσεων (ή δεικτών)  απόδοσης (perfomance measurements). Οι μετρήσεις αυτές καθορίζουν πόσο καλά ανταποκρίνεται ένα σύστημα ανάκτησης πληροφοριών.

Τρεις είναι η ποιο καθοριστικές  δείκτες απόδοσης :

1. Η Ακρίβεια (Precision)

2. Η Ανανέωση (Recall)

3. Η Αποτυχία Eντοπισμού και Aνάκτησης (Fall out)

Η Ακρίβεια αντιπροσωπεύει την αναλογία (ποσοστιαία) μεταξύ των σχετικών με την αναζήτηση εγγράφων και  του συνολικού αριθμού εγγράφων που ανακτήθηκαν. Ανανέωση είναι η αναλογία των σχετικών εγγράφων που ανακτήθηκαν σε σχέση με όλα τα σχετικά έγγραφα που είναι διαθέσιμα παγκοσμίως και τέλος  η Αποτυχία Eντοπισμού και Aνάκτησης είναι ποσοστιαία αναλογία των μη σχετικών εγγράφων που ανακτήθηκαν σε σχέση όλα τα διαθέσιμα μη σχετικά έγγραφα που είναι διαθέσιμα παγκοσμίως.

Οι παραπάνω δείκτες απόδοσης ενός συστήματος ανάκτησης πληροφοριών  έχουν σημαντική συνεισφορά για την εκτίμηση της απόδοσης ενός τέτοιου συστήματος αλλά δεν μπορούν σε καμία περίπτωση να αντικαταστήσουν την ανθρώπινη κρίση  που είναι και ο απόλυτος κριτής αν το έγγραφο που ανακτήθηκε είναι σχετικό με την αναζήτηση του. Παρ΄ολα αυτά τα συστήματα IR παίζουν σημαντικό ρόλο  αφού χωρίς αυτά η αναζήτηση και ανάκτηση πληροφοριών θα ήταν σχεδόν αδύνατη δεδομένου και του τεράστιου όγκου πληροφοριών.  Ο χρήστης χρησιμοποιώντας αυτά τα συστήματα έχει την δυνατότητα να περιορίσει την αναζήτηση του  σε συγκεκριμένα έγγραφα και κατόπιν χρησιμοποιώντας την δικιά του κρίση να τα αξιολογήσει βρίσκοντας την πληροφορία που καλύπτει τις ανάγκες του.

Η Google αποτελεί ένα τέτοιο σύστημα ανάκτησης πληροφοριών, με παγκόσμια απήχηση, και αποτελεί το σημείο αναφοράς για την αποτελεσματική προώθηση ιστοσελίδων  στο διαδίκτυο. Χρησιμοποιεί ειδικούς αλγόριθμους   για να καθορίσει την σχετικότητα ενός εγγράφου (site), όπως  για παράδειγμα αν οι λέξεις-κλειδιά  βρίσκονται στο κείμενο και σε άλλες σημαντικές  θέσεις (title, Ηeaders, κλπ) στην σελίδα, την ταχύτητα ανταπόκρισης (φόρτωσης)  μια ιστοσελίδας, πόσες και ποιες ιστοσελίδες αναφέρουν την ιστοσελίδα που ανακτάται (backlinks / Referrals) κλπ.

Σε επόμενα άρθρο μας θα αναλύσουμε εκτενέστερα την αρχιτεκτονική  και τους αλγόριθμους που χρησιμοποιεί η Google και ο τρόπος με το οποίο μπορεί να επηρεάσουν την βελτιστοποίησης ενός ιστόχωρου με τεχνικές SEO (Search  Engine Optimization).

 

Posted in Search Engines