buchreport

Was Sie über Webcrawler wissen müssen

Wie oft eine Website besucht wird, ist eine wichtige Kennzahl, die es lohnt, genau verfolgt und verglichen zu werden. Was aber, wenn die Besucher gar keine Menschen aus Fleisch und Blut sind? Im IT-Channel von buchreport.de erklärt Michael Schulte vom Marketing-Automation-Anbieter Hubspot, woher die automatischen Besucher kommen, was sie tun, welche von ihnen willkommen sind und welchen man besser das Handwerk legen sollte.

 

Ihre Website hat nicht nur menschliche Besucher: Webcrawler, gelegentlich auch Webspider genannt, hangeln sich im Netz von Link zu Link und untersuchen die jeweiligen Inhalte genau. Warum das keine Plage, sondern ein SEO-Segen ist, erfahren Sie hier.

Was ist ein Webcrawler?

Ein Webcrawler ist ein Computerprogramm, das das Internet gezielt und automatisch nach bestimmten Informationen absucht. Die wohl bekannteste Funktion von Crawlern ist die Indexierung von Websites für Suchmaschinen. Aber die Programme können noch viel mehr.

Ein Begriff, viele Funktionen

Bei Webcrawlern, auch Searchbots oder Spiders genannt, handelt es sich um Computerprogramme, die Informationen im Internet automatisch durchforsten und dabei verschiedene Arten von Daten sammeln. Diese Daten können im Anschluss gespeichert, sortiert und ausgewertet werden.

Besonders bekannt sind die Webcrawler von Google. Sie sind verantwortlich dafür, Webseiten in den Index der Suchmaschine zu überführen. Aber auch für andere Zwecke werden Crawler genutzt, zum Beispiel, um Daten über Produkte und deren Preise zu sammeln und dann auf Portalen für Preisvergleiche darzustellen.

Einige Webcrawler suchen speziell nach statistischen Daten, andere etwa nach Nachrichten. Auch öffentlich einsehbare Post- und E-Mail-Adressen sowie Telefonnummern können von den Bots eingesammelt werden. Dieser Prozess wird als Data Mining bezeichnet und ist insbesondere für Marketingzwecke nützlich – aber nicht zwangsläufig auch erlaubt. Häufig bewegt sich die Nutzung dieser Crawler in einer rechtlichen Grauzone.

Daten, die nicht öffentlich zugänglich sind – beispielsweise Informationen in Datenbanken oder passwortgeschützten Bereichen – können von Webcrawlern in der Regel nicht erfasst werden.

Die Google-Webcrawler als Grundlage der Indexierung in Suchmaschinen

Ein Webcrawler ist so programmiert, dass er automatisiert arbeiten kann. Jeder Arbeitsschritt wird im Vorfeld festgelegt. Über Links wechselt der Crawler von Webseite zu Webseite und sucht auf seinem Weg stetig nach Informationen. Welche das genau sind, hängt von der jeweiligen Aufgabenstellung ab. Wenn es sich um einen Google-Webcrawler handelt, werden die Daten dann in Kategorien eingeordnet und nach exakt definierten Regeln in den Index der Suchmaschine übertragen.

IT-Grundlagen und Technologien der Zukunft

Mehr zum Thema IT und Digitalisierung lesen Sie im IT-Channel von buchreport und Channel-Partner knk.
Hier mehr…

Um den Index aktuell zu halten und Nutzern stets relevante Suchergebnisse anzeigen zu können, lässt Google seine Crawler Seiten nicht nur einmal auswerten. Nach einiger Zeit kehren die Bots zurück und prüfen, ob sich die Inhalte verändert haben.

Erst durch Webcrawler werden Webseiten in Suchmaschinen auffindbar. Deshalb sollten Sie versuchen, den Programmen das Sammeln der benötigten Daten auf Ihrer Webseite so einfach wie möglich zu machen – die Grundlage der sogenannten On-Page-SEO.

Achten Sie also darauf, dass Ihre Website eine klare Struktur und Navigation aufweist, einzelne Seiten intern gut miteinander verlinkt sind und die Metadaten mit relevanten Daten angereichert sind. Dabei kann es auch hilfreich sein, in der Google Search Console eine XML-Sitemap bereitzustellen.

Focus Crawler belohnen aktuelle Inhalte

Das Internet wächst rasant und damit ist es nahezu unmöglich, jede Seite zuverlässig zu indexieren. Normale Crawler haben deshalb pro Webseite nur eine bestimmte Zeit zur Verfügung. Seiten, die viele Besucher haben und auf die oft verlinkt wird, werten Webcrawler in der Regel häufiger und länger aus.

Ergänzend dazu kommen sogenannte Focus Crawler zum Einsatz. Sie konzentrieren sich auf besonders aktuelle und somit relevante Inhalte und indexieren diese detaillierter als es bei herkömmlichen Webcrawlern üblich ist.

Google und Co. gehen davon aus, dass Inhalte im Regelfall veralten, wenn sie nicht regelmäßig aktualisiert werden. Deshalb besuchen ihre Bots Seiten, die nur gelegentlich oder gar nicht aktualisiert werden, seltener.

Für die Suchmaschinenoptimierung bedeutet das, dass es sich lohnt, den eigenen Content von Zeit zu Zeit auf den neuesten Stand zu bringen und periodisch frische Inhalte zur Verfügung zu stellen. Diese sollten natürlich hochwertig und einzigartig sein.

Crawler aussperren: Wie Sie Ihre Seiten vor unerwünschten Besuchen schützen

Normalerweise sind Crawler auf Webseiten gern gesehene Gäste – schließlich sorgen sie dafür, dass Internetnutzer die Inhalte über Suchmaschinen finden können. Manchmal soll eine Seite aber gar nicht gefunden werden können und somit auch nicht in den Index aufgenommen werden.

In diesem Fall können Webmaster Bots mittels der Datei „robots.txt“ und bestimmten Angaben im HTML-Header signalisieren, dass diese die fraglichen Inhalte nicht untersuchen sollen. Nicht immer verhindert das aber eine Indexierung. Vielversprechender ist an dieser Stelle der Einsatz von Meta-Tags wie dem noindex-Tag oder dem canonical-Tag.

Einige rechtlich fragwürdige Crawler halten sich nicht an solcherlei Anweisungen, zum Beispiel wenn es um Data Mining geht. Viele Webseitenbetreiber versuchen daher zum Beispiel, das unerwünschte Sammeln von E-Mail-Adressen zu verhindern, indem sie deren Schreibweise verändern. Lautet der Text etwa „kontakt(at)beispieldomain(dot)de“, erkennen zahlreiche Bots nicht mehr, dass es sich dabei um eine E-Mail-Adresse handelt.

Webcrawler vs. Scraper: Wo liegt der Unterschied?

Ein Scraper ist ähnlich konfiguriert wie ein Webcrawler und durchsucht das Internet automatisiert und wiederkehrend nach Informationen. Der Zweck ist allerdings ein anderer.

Scraper kopieren komplette Seiten und veröffentlichen sie in identischer oder leicht abgewandelter Form an anderer Stelle im Web. So sollen Internetseiten schnell und einfach mit hochwertigen, im Suchmaschinenranking weit vorne stehenden Inhalten gefüllt werden. Dadurch lässt sich gut Geld verdienen – beispielsweise über Werbeanzeigen.

Fazit

Insbesondere den Webcrawlern von Google kommt im Web eine bedeutende Rolle zu. Ohne sie müssten Webseiten manuell indexiert werden, was bei der Menge der Inhalte unmöglich ist. Nutzer müssten URLs direkt eintippen (was voraussetzt, dass sie bekannt sind) oder sich anhand von Links von Seite zu Seite bewegen, statt bequem nach bestimmten Inhalten suchen zu können. Es lässt sich also festhalten: Ohne Crawler wäre das Internet nicht so, wie wir es kennen!

Mit freundlicher Genehmigung von Hubspot.

Kommentare

Kommentar hinterlassen zu "Was Sie über Webcrawler wissen müssen"

Hinterlassen Sie einen Kommentar

Mit dem Abschicken des Kommentars erklären Sie sich damit einverstanden, dass Ihre Daten elektronisch gespeichert werden. Diese Einverständniserklärung können Sie jederzeit gegenüber der Harenberg Kommunikation Verlags- und Medien-GmbH & Co. KG widerrufen. Weitere Informationen finden Sie in unseren Datenschutz-Richtlinien

E-Mail Adresse wird nicht veröffentlicht.


*

Themen-Kanäle

SPIEGEL-Bestseller

1
Fitzek, Sebastian
Droemer
2
Neuhaus, Nele
Ullstein
3
Garmus, Bonnie
Piper
4
Schlink, Bernhard
Diogenes
5
Follett, Ken
Lübbe
27.12.2023
Komplette Bestsellerliste Weitere Bestsellerlisten

Veranstaltungen

Es gibt derzeit keine bevorstehenden Veranstaltungen.

größte Buchhandlungen