Ξύσιμο Ιστού: Καλά και κακά Bots - Επεξήγηση Semalt

Τα bots αντιπροσωπεύουν σχεδόν το 55 τοις εκατό του συνόλου της κίνησης στο διαδίκτυο. Αυτό σημαίνει ότι το μεγαλύτερο μέρος της επισκεψιμότητας του ιστότοπού σας προέρχεται από bots του Διαδικτύου και όχι από τα ανθρώπινα όντα. Το bot είναι η εφαρμογή λογισμικού που είναι υπεύθυνη για την εκτέλεση αυτοματοποιημένων εργασιών στον ψηφιακό κόσμο. Τα bot συνήθως εκτελούν επαναλαμβανόμενες εργασίες με μεγάλη ταχύτητα και είναι ως επί το πλείστον ανεπιθύμητα από τα ανθρώπινα όντα. Είναι υπεύθυνοι για μικροσκοπικές εργασίες που συνήθως θεωρούμε δεδομένες, όπως ευρετηρίαση μηχανών αναζήτησης, παρακολούθηση της υγείας του ιστότοπου, μέτρηση της ταχύτητάς του, τροφοδοσία API και ανάκτηση περιεχομένου ιστού. Τα bots χρησιμοποιούνται επίσης για να αυτοματοποιήσουν τον έλεγχο ασφαλείας και να σαρώσουν τους ιστότοπούς σας για να βρουν ευπάθειες, αποκαθιστώντας τα αμέσως.

Εξερευνώντας τη διαφορά μεταξύ του καλού και του κακού Bots:

Τα bots μπορούν να χωριστούν σε δύο διαφορετικές κατηγορίες, καλά bots και bad bots. Τα καλά bots επισκέπτονται τους ιστότοπούς σας και βοηθούν τις μηχανές αναζήτησης να ανιχνεύουν διαφορετικές ιστοσελίδες. Για παράδειγμα, το Googlebot ανιχνεύει πολλούς ιστότοπους στα αποτελέσματα της Google και βοηθά στην ανακάλυψη νέων ιστοσελίδων στο Διαδίκτυο. Χρησιμοποιεί αλγόριθμους για να αξιολογήσει ποια ιστολόγια ή ιστότοπους πρέπει να ανιχνευθούν, πόσο συχνά πρέπει να γίνεται ανίχνευση και πόσες σελίδες έχουν ευρετηριαστεί μέχρι στιγμής. Τα κακά bots είναι υπεύθυνα για την εκτέλεση κακόβουλων εργασιών, συμπεριλαμβανομένης της απόσυρσης ιστότοπων, του σχολιασμού ανεπιθύμητου περιεχομένου και των επιθέσεων DDoS. Αντιπροσωπεύουν πάνω από το 30 τοις εκατό της συνολικής κίνησης στο Διαδίκτυο. Οι χάκερ εκτελούν τα κακά bots και εκτελούν μια ποικιλία κακόβουλων εργασιών. Σαρώνουν εκατομμύρια έως δισεκατομμύρια ιστοσελίδες και στοχεύουν να κλέψουν ή να αφαιρέσουν παράνομα περιεχόμενο. Καταναλώνουν επίσης το εύρος ζώνης και αναζητούν συνεχώς πρόσθετα και λογισμικό που μπορούν να χρησιμοποιηθούν για να διεισδύσουν στους ιστότοπους και τις βάσεις δεδομένων σας.

Ποια είναι η ζημιά;

Συνήθως, οι μηχανές αναζήτησης βλέπουν το αποκομμένο περιεχόμενο ως το διπλό περιεχόμενο. Είναι επιβλαβές για την κατάταξη της μηχανής αναζήτησης και οι γρατζουνιές θα αρπάξουν τις τροφοδοσίες RSS για πρόσβαση και αναδημοσίευση του περιεχομένου σας. Κερδίζουν πολλά χρήματα με αυτήν την τεχνική. Δυστυχώς, οι μηχανές αναζήτησης δεν έχουν εφαρμόσει κανένα τρόπο για να απαλλαγούν από κακά bots. Αυτό σημαίνει ότι εάν το περιεχόμενό σας αντιγράφεται και επικολλάται τακτικά, η κατάταξη του ιστότοπού σας καταστρέφεται σε μερικές εβδομάδες. Οι μηχανές αναζήτησης τιμωρούν τους ιστότοπους που περιέχουν διπλό περιεχόμενο και δεν μπορούν να αναγνωρίσουν ποιος ιστότοπος δημοσίευσε για πρώτη φορά ένα κομμάτι περιεχομένου.

Δεν είναι άσχημα όλα τα web scraping

Πρέπει να παραδεχτούμε ότι το ξύσιμο δεν είναι πάντα επιβλαβές και κακόβουλο. Είναι χρήσιμο για τους ιδιοκτήτες ιστότοπων όταν θέλουν να διαδώσουν τα δεδομένα σε όσο το δυνατόν περισσότερα άτομα. Για παράδειγμα, οι κυβερνητικοί ιστότοποι και οι ταξιδιωτικές πύλες παρέχουν χρήσιμα δεδομένα για το ευρύ κοινό. Αυτός ο τύπος δεδομένων είναι συνήθως διαθέσιμος μέσω των API, και οι ξύστες χρησιμοποιούνται για τη συλλογή αυτών των δεδομένων. Σε καμία περίπτωση, είναι επιβλαβές για τον ιστότοπό σας. Ακόμα και όταν αποσύρετε αυτό το περιεχόμενο, δεν θα βλάψει τη φήμη της διαδικτυακής επιχείρησής σας.

Ένα άλλο παράδειγμα αυθεντικού και νόμιμου ξύσματος είναι οι ιστότοποι συγκέντρωσης, όπως πύλες κρατήσεων ξενοδοχείων, ιστότοποι εισιτηρίων συναυλιών και ειδησεογραφικά καταστήματα. Τα bots που είναι υπεύθυνα για τη διανομή του περιεχομένου αυτών των ιστοσελίδων λαμβάνουν δεδομένα μέσω των API και το ξύνουν σύμφωνα με τις οδηγίες σας. Στόχος τους είναι να οδηγήσουν την κυκλοφορία και να εξαγάγουν πληροφορίες για webmasters και προγραμματιστές.

mass gmail