Nützliche Tools oder riskante Datenverarbeitung? Web Scraper und Web Crawler extrahieren beziehungsweise indexieren Inhalte. Welche Vor- und Nachteile ergeben sich für alle Unternehmen, die Websites betreiben?
Für Unternehmen sind Daten bares Geld wert. Für die strategische Weichenstellung sind Infos zu den eigenen Produkten und Services, aber auch zu denen der Konkurrenz, unerlässlich. Eine effektive Methode zur Datenbeschaffung ist das Web Scraping, das oft fälschlicherweise synonym mit dem Web Crawling verwendet wird. Dabei gibt es deutliche Unterschiede zwischen beiden Verfahren.
Web Scraping
Unter Web Scraping versteht man das Herausfiltern von Daten aus einer Website. In der Regel werden diese Daten in ein neues Dateiformat extrahiert. Zum Beispiel können Daten von einer Website in eine Excel-Tabelle extrahiert werden. Web Scraping kann manuell durchgeführt werden, obwohl in den meisten Fällen automatisierte Tools Verwendung finden. Populäre Anwendungen sind hierbei unter anderem Scrapestack, Bright Data, Octoparse und ParseHub.
Ein wichtiger Aspekt von Web Scraping ist, dass Anwender dieses oft mit einem gezielten Ansatz durchführen. Das bedeutet, dass Web Scraping-Projekte darauf aus sind, bestimmte Datensätze aus einer Website zu extrahieren, um sie daraufhin weiter zu analysieren. Ein Unternehmen extrahiert zum Beispiel Produktdetails von Tablets, die auf Amazon gelistet sind, um herauszufinden, wie es sein neues Produkt auf dem Markt punktgenau positioniert.
Web Crawling
Web Crawling bezeichnet hingegen den Prozess, bei dem der Anwender Bots (oder Spider) einsetzt, um den gesamten Inhalt einer Website für Archivierungs- oder Indexierungszwecke zu lesen und zu speichern. Die großen Suchmaschinen wie Google, Bing, Yahoo, aber auch Statistikämter und riesige Online-Aggregatoren setzen Web Crawler ein. Web Crawling erfasst in der Regel allgemeine Informationen – im Unterschied zum Web Scraping, bei dem nur bestimmte Datenausschnitte im Mittelpunkt stehen.
Ein Crawler beginnt mit einer Liste von zu besuchenden URLs und verfolgt jeden Hyperlink, den er auf jeder Seite findet, und fügt ihn der Liste der zu besuchenden URLs hinzu. Web Crawler werden hauptsächlich eingesetzt, um eine Kopie aller besuchten Seiten für die spätere Verarbeitung durch eine Suchmaschine zu erstellen, die dann die heruntergeladenen Seiten indiziert, um eine schnelle Suche zu ermöglichen.
Für Unternehmen ist oftmals das Web Scraping von entscheidenderer Bedeutung, was auch die Einsatzgebiete verdeutlichen.
Wo wird Web Scraping eingesetzt?
Preisüberwachung
Mit Web Scraping können Unternehmen die Produktdaten für ihre Produkte und auch für Konkurrenzprodukte auslesen, um zu sehen, wie sich dies auf ihre Preisstrategien auswirkt. Unternehmen nutzen diese Daten, um die optimale Preisgestaltung für ihre Produkte festzulegen.
Marktforschung
Web Scraping kann von Unternehmen für die Marktforschung genutzt werden. Qualitativ hochwertige Web Scraping-Daten sind für Unternehmen nützlich, um Verbrauchertrends zu analysieren und zu verstehen, in welche Richtung sich das Unternehmen in Zukunft bewegen sollte.
Stimmungsanalyse
Wenn Unternehmen die allgemeine Stimmung ihrer Kunden für ihre Produkte verstehen wollen, dann ist die Stimmungsanalyse ein Muss. Mithilfe von Web Scraping sammeln Unternehmen Daten von Social-Media-Netzwerke wie Facebook und Twitter, um herauszufinden, wie die Allgemeinheit über ihre Produkte oder Services denkt.
Machine Learning
Das maschinelle Lernen ist die Grundlage für die heutigen technologischen Wunderwerke wie autonome Autos, Bild- und Spracherkennung. Diese Modelle benötigen jedoch Rohdaten, um ihre Genauigkeit und Zuverlässigkeit zu verbessern. Gute Web-Scraping-Projekte stellen sicher, dass die gesuchten Daten gefunden werden. Web Scraping-Tools können in relativ kurzer Zeit eine große Anzahl von Datenpunkten, Texten und Bildern auslesen.
Wie schützt man sich vor Scraping und Crawling?
Viele Content-Ersteller beunruhigt der Gedanke, dass ein Web Scraper all ihre Daten auslesen könnte. Wenn eine Website jedoch Informationen so darstellt, dass ein Browser darauf zugreifen und sie für den durchschnittlichen Besucher wiedergeben kann, kann derselbe Inhalt von einem Skript oder einer Anwendung abgegriffen werden. Das ist ganz einfaches Web-Einmaleins. Auch wenn es schier unmöglich ist, das Auslesen von Inhalten vollständig zu verhindern, kann man einiges tun, um einem Web Scraper das Leben so schwer wie möglich zu machen.
Begrenzung des Scraping
Die Begrenzung der IP-Rate, auch Anforderungsdrosselung genannt, ist eine häufig verwendete Anti-Scraping-Methode. IP-Raten-Beschränkung bedeutet, dass es eine maximale Anzahl von Aktionen gibt, die in einer bestimmten Zeit auf der Website durchgeführt werden können. Jede Anfrage, die diese Grenze überschreitet, wird einfach nicht beantwortet. Ziel ist es stets, dass die regulären Nutzer die Website trotzdem problemlos nutzen können.
Blockieren des Web Scraping
Während sich einige Websites mit einer einfachen Regulierung des Web-Scraping begnügen, versuchen andere, es gänzlich zu verhindern. Sie setzen verschiedene Techniken ein, um Scraper aufzuspüren und zu blockieren. CAPTCHAs, Verhaltensanalysetechnologien, die Blockierung einzelner oder ganzer IP-Bereiche können hier Abhilfe schaffen.
Die Datenerfassung erschweren
Einige Websites ändern gar monatlich ihre HTML-Auszeichnungen, um ihre Daten zu schützen. Ein Scraping-Bot wird an den Stellen nach Informationen suchen, an denen er sie beim letzten Mal gefunden hat. Indem sie das HTML-Muster ändern, versuchen die Websites, das Scraping-Tool zu verwirren und das Auffinden der gewünschten Daten zu erschweren.
Außerdem können die Programmierer den Code verschleiern. Die HTML-Verschleierung besteht darin, den Code schwerer lesbar zu machen, ohne dass er seine Funktion einbüßt. Die Informationen sind immer noch vorhanden, aber in einer äußerst komplexen Form geschrieben.
Auf der anderen Seite ist bei der Crawling-Abwehr ein Mechanismus besonders hilfreich. Das Einfügen einer robots.txt-Datei in das Hauptverzeichnis einer Website etwa teilt Bots mit, nur spezielle Bereiche einer Website oder überhaupt keine zu indizieren. Zum Beispiel kann Google und Bing daran gehindert werden, temporäre Verzeichnisse und Dateien oder Anmelde- und Kontaktformulare zu indexieren.
Sind Scraper und Crawler überhaupt legal?
Einfach ausgedrückt: Ja. Allerdings auch nur, wenn keine technischen Schutzvorrichtungen übergangen werden. Im Endeffekt sammelt der Scraper oder Crawler lediglich Informationen, die öffentlich und frei zugänglich sind. Die Krux dabei ist, was mit den abgegriffenen Daten im Anschluss passiert. So ist das Duplizieren von Bildern oder Artikeln ohne Erlaubnis natürlich nicht rechtens und ist ein astreiner Copyrightverstoß. Dasselbe gilt für das Scraping von persönlichen Daten. So haben DSGVO und andere Datenschutzgesetze klare Vorgaben. Wer keinen rechtmäßigen Grund dafür oder die ausdrückliche Zustimmung am Sammeln und Speichern der personenbezogenen Daten hat, spielt mit dem Feuer.