{"id":10375,"date":"2012-12-14T09:45:20","date_gmt":"2012-12-14T08:45:20","guid":{"rendered":"http:\/\/de.brandwatch.com\/?p=10375"},"modified":"2016-05-18T18:30:51","modified_gmt":"2016-05-18T16:30:51","slug":"wie-viel-web-kann-brandwatch-crawlen","status":"publish","type":"post","link":"https:\/\/www.brandwatch.com\/de\/blog\/wie-viel-web-kann-brandwatch-crawlen\/","title":{"rendered":"Wie viel Web kann Brandwatch crawlen?"},"content":{"rendered":"<p>F\u00fcr uns als Social-Media-Monitoring-Anbieter ist die Qualit\u00e4t unserer Internet-Abdeckung entscheidend f\u00fcr unsere Leistung als Unternehmen. Und was genau bedeutet das eigentlich?<\/p>\n<p>Selbst der Begriff <a href=\"http:\/\/de.brandwatch.com\/social-media-monitoring\/\" target=\"_blank\" rel=\"noopener\">Social Media Monitoring<\/a> ist irref\u00fchrend. Wir beobachten nicht nur das Social Web, wir beobachten alle Online-Aktivit\u00e4ten.<!--more--><\/p>\n<p>Der Begriff \u201eSocial Media\u201c kann ganz unterschiedlich interpretiert werden. Viele Leute werden argumentieren, dass das Web schon immer so \u201esocial\u201c gewesen sei, wie es heute in seiner Twitter und Facebook gepr\u00e4gten Form ist &#8211; fr\u00fcher h\u00e4tten eben vergleichsweise veraltete Anwendungen wie E-Mail, Usenet und IM das Web \u201esocial\u201c gemacht.<\/p>\n<p>Letztendlich ist die genaue Definition des <a href=\"http:\/\/de.wikipedia.org\/wiki\/Social_Media\" target=\"_blank\" rel=\"noopener\">Social Web<\/a> f\u00fcr unseren Service jedoch nicht allzu bedeutend. Brandwatch durchsucht das gesamte Web. So m\u00f6chten wir sicherstellen, dass wenn jemand \u00fcber Sie oder das Thema, an dem Sie interessiert sind, spricht, wir in der Lage sind, diese Beitr\u00e4ge zuverl\u00e4ssig zu finden.<\/p>\n<p>Wenn wir also nicht nur die Inhalte der Social Sites erfassen, was genau beobachtet Brandwatch dann?<br \/>\nDer folgende Artikel sollte Ihnen einen kleinen Einblick geben, welche Quellen sich hinter den \u00fcber 60.000.000 Seiten verbergen, die wir t\u00e4glich durchsuchen.<br \/>\n________________________________________<\/p>\n<p><strong>Nachrichtenseiten<\/strong><\/p>\n<p>Informationen sind die W\u00e4hrung des digitalen Zeitalters und die Verfolgung von Artikeln, die auf Nachrichtenseiten ver\u00f6ffentlicht werden, ist eine der zentralen Anwendungen unseres Tools. PR-Abteilungen und Kampagnenmanager k\u00f6nnen so einfach kontrollieren, auf welchen Seiten ihre Artikel erfolgreich ihre Zielgruppe erreichen, da Brandwatch tausende der wichtigsten Nachrichtenseiten erfasst.<\/p>\n<p>Wir verfahren nach dem Ausschlussverfahren (Blacklist-Ansatz) und versuchen, m\u00f6glichst jede existierende Nachrichtenseite zu durchsuchen &#8211; ausgenommen Paywall-gesch\u00fctzte Seiten \u2013 und filtern erst im Anschluss Spam und irrelevante Beitr\u00e4ge aus. Dieses Verfahren bew\u00e4hrt sich als erfolgreiche Methode zur umfassenden Abdeckung aller gro\u00dfen und kleinen Online-Nachrichtenseiten, von regionalen Bl\u00e4ttchen bis hin zu internationalen Magazinen.<br \/>\n________________________________________<\/p>\n<p><strong>Foren<\/strong><\/p>\n<p>Ebenso wie bei den Nachrichtenseiten funktioniert unsere gesamte Quellen-Abdeckung nach dem Blacklist-Ansatz, das bedeutet, dass wir buchst\u00e4blich unz\u00e4hlige Foren durchsuchen, bevor wir die ausfiltern, die sich als irrelevant herausstellen.<br \/>\nDieses Verfahren ist effizienter als der umgekehrte Ansatz mit Positivlisten (Whitelist-Ansatz), die von Grund auf neu erstellt werden, da so eine komplette Abdeckung sichergestellt wird.<\/p>\n<p>Wir k\u00f6nnen au\u00dferdem einzelne Kommentare zu Forenbeitr\u00e4gen isolieren und herauspicken. Die einzigen Foren die wir nicht crawlen, sind solche, die uns h\u00f6flich gebeten haben, dies nicht zu tun oder Foren, deren Datenschutzeinstellungen es nicht zulassen.<br \/>\nBoards wie 4chan, Social-Bookmarking-Seiten wie StumbleUpon oder sogar Bewertungsseiten wie TripAdvisor k\u00f6nnen dazu geh\u00f6ren.<br \/>\n________________________________________<\/p>\n<p><strong>Soziale Netzwerke<\/strong><\/p>\n<p>Social-Media-Seiten machen einen Gro\u00dfteil des Inhaltes aus, an dessen Erfassung unsere Kunden besonders interessiert sind \u2013 daher auch der Name Social Media Monitoring.<br \/>\nDie Abdeckung von Seiten wie LinkedIn oder Facebook ist generell nicht ganz einfach, da beide Netzwerke \u00fcber strenge Einschr\u00e4nkungen und Datenschutzbestimmungen verf\u00fcgen, so k\u00f6nnen wir nicht alle Inhalte erfassen, die dort ver\u00f6ffentlicht werden.<\/p>\n<p>Gl\u00fccklicherweise pflegt Brandwatch Partnerbeziehungen mit etlichen der wichtigsten Netzwerke. So m\u00f6chten wir gew\u00e4hrleisten, dass unsere Abdeckung so gut ist, wie \u00fcberhaupt nur m\u00f6glich. Dank dieser Beziehungen hat Brandwatch teilweise 100-prozentigen Zugang zu den Daten der sozialen Netzwerke. Beispielsweise gew\u00e4hrt Twitter uns das Privileg, \u00fcber die Twitter Firehose auf alle dort ver\u00f6ffentlichen Beitr\u00e4ge zugreifen zu k\u00f6nnen.<\/p>\n<p>Oben stehend finden Sie eine Auswahl der Webseiten, die wir zu einem bestimmten Grad durchsuchen k\u00f6nnen. Bei manchen dieser Seiten muss sich auch Brandwatch beschr\u00e4nken, wie zum Beispiel bei LinkedIn, dort sind Inhalte wie Profile f\u00fcr Monitoring-L\u00f6sungen tabu.<br \/>\nInternationale Nuancen, wie die Vorliebe des fernen Ostens f\u00fcr Seiten wie RenRen, Wiebo und Orkut werden von uns ber\u00fccksichtigt, wenn wir festlegen, welche Plattformen wir crawlen.<br \/>\n________________________________________<\/p>\n<p><strong>Blogs<\/strong><\/p>\n<p>Blogs machen einen gro\u00dfen Teil des Internets aus. Hier reicht die Bandbreite von Hubs f\u00fcr f\u00fchrende Internet-Diskurse \u00fcber radikale Hetzseiten, die so ziemlich gegen alles wettern, bis zu zahllosen mit Porno gespickten Spam-Katastrophen.<\/p>\n<p>Wir bedienen uns ausgekl\u00fcgelter Systeme, um nur die relevanten Inhalte aus popul\u00e4ren Blog-Netzwerken wie Tumblr, Blogspot und WordPress zu filtern und so eine Liste mit Millionen von Blogs zu erstellen, die es zu crawlen gilt. Die Liste wird t\u00e4glich aktualisiert.<br \/>\nAlle branchenrelevanten Blogs, von unternehmenseigenen Artikeln bis hin zu etablierten Seiten wie Wired und Techcrunch, werden nat\u00fcrlich ebenfalls beachtet.<br \/>\n________________________________________<\/p>\n<p><strong>Multimedia-Inhalte<\/strong><\/p>\n<p>Da die video- und bilderbasierten Inhalte schwer auf dem Vormarsch sind, achten wir sehr darauf, dass unsere Abdeckung diesen Inhalten gerecht wird. W\u00e4hrend eine 100-prozentige Abdeckung hier ebenfalls nicht umsetzbar ist, die Gr\u00fcnde daf\u00fcr sind \u00e4hnlich wie bei anderen sozialen Netzwerken, k\u00f6nnen wir doch einen bedeutenden Prozentsatz der Inhalte der folgenden Seiten herausfiltern:<\/p>\n<p>________________________________________<\/p>\n<p><strong>Andere Seitentypen<\/strong><\/p>\n<p>Nicht alle Seiten lassen sich so einfach in vordefinierte Kategorien einteilen. Die unglaubliche Menge an pers\u00f6nlichen Portfolios, Archiven, Unternehmensmeldungen und anderen Webseiten macht einen ansehnlichen Teil der Internetseiten und damit auch der von uns abgedeckten Seiten aus.<br \/>\nEs ist eine Herausforderung alle diese Seiten \u201eunter einen Hut\u201c zu bekommen, aber verlassen Sie sich darauf, wenn eine Seite von angemessener Bedeutung ist &#8211; das hei\u00dft, wenn sie von einen Menschen erstellt ist und \u00fcber reale Besucher verf\u00fcgt &#8211; haben wir sie im Visier!<\/p>\n<p>________________________________________<\/p>\n<p><strong>Sprachen<\/strong><\/p>\n<p>Wir passen unseren Service den regionalen M\u00e4rkten an und zwar nicht nur in Bezug darauf, welche Seiten wir crawlen, sondern wir ber\u00fccksichtigen auch die Sprache, in der die Beitr\u00e4ge ver\u00f6ffentlicht werden.<br \/>\nAugenblicklich k\u00f6nnen wir Beitr\u00e4ge in 25 Sprachen erfassen und jeden Monat f\u00fcgen wir neue Sprachen hinzu. Unsere anerkannte Sentimentanalyse ist ebenfalls f\u00fcr die meisten der von uns abgedeckten Sprachen verf\u00fcgbar.<\/p>\n<ul>\n<li>Arabisch BETA<\/li>\n<li>Brasilianisches Portugiesisch<\/li>\n<li>Chinesisch (Kurzzeichen)<\/li>\n<li>Chinesisch (Langzeichen)<\/li>\n<li>Tschechisch<\/li>\n<li>D\u00e4nisch<\/li>\n<li>Niederl\u00e4ndisch<\/li>\n<li>\u00c4gyptisch-Arabisch BETA<\/li>\n<li>Englisch<\/li>\n<li>Europ\u00e4isches Portugiesisch<\/li>\n<li>Farsi BETA<\/li>\n<li>Finnisch<\/li>\n<li>Franz\u00f6sisch<\/li>\n<li>Deutsch<\/li>\n<li>Griechisch<\/li>\n<li>Golf-Arabisch BETA<\/li>\n<li>Hebr\u00e4isch BETA<\/li>\n<li>Italienisch<\/li>\n<li>Japanisch<\/li>\n<li>Norwegisch<\/li>\n<li>Polnisch<\/li>\n<li>Russisch<\/li>\n<li>Spanisch<\/li>\n<li>Schwedisch<\/li>\n<li>T\u00fcrkisch<\/li>\n<\/ul>\n<p>________________________________________<br \/>\nSie haben nun einen Eindruck davon bekommen, in welchen Ausma\u00dfen wir das Internet abdecken k\u00f6nnen und welche Gedanken wir uns machen m\u00fcssen, wenn wir das Web crawlen. Wenn Sie mehr dar\u00fcber erfahren m\u00f6chten, wie umfassend unsere Abdeckung ist, welche Datenqualit\u00e4t wir beim Crawlen spezifischer Seiten bieten k\u00f6nnen, wie unser Spam-Filter funktioniert oder Sie andere Fragen zu unseren Daten haben \u2013 kontaktieren Sie uns gerne via <a href=\"http:\/\/twitter.com\/brandwatchde\" target=\"_blank\" rel=\"noopener\">Twitter<\/a>, <a href=\"http:\/\/www.facebook.com\/brandwatch\" target=\"_blank\" rel=\"noopener\">Facebook<\/a> oder <a href=\"mailto:kontakt@brandwatch.com\">E-Mail<\/a>.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>F\u00fcr uns als Social-Media-Monitoring-Anbieter ist die Qualit\u00e4t unserer Internet-Abdeckung entscheidend f\u00fcr unsere Leistung als Unternehmen. Und was genau bedeutet das eigentlich? Selbst der Begriff Social Media Monitoring ist irref\u00fchrend. Wir beobachten nicht nur das Social Web, wir beobachten alle Online-Aktivit\u00e4ten.<\/p>\n","protected":false},"author":161,"featured_media":21604,"comment_status":"open","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false},"categories":[9,566],"tags":[423,188],"class_list":["post-10375","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-basics","category-updates","tag-sources","tag-technology-2"],"acf":[],"_links":{"self":[{"href":"https:\/\/www.brandwatch.com\/de\/wp-json\/wp\/v2\/posts\/10375","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.brandwatch.com\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.brandwatch.com\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.brandwatch.com\/de\/wp-json\/wp\/v2\/users\/161"}],"replies":[{"embeddable":true,"href":"https:\/\/www.brandwatch.com\/de\/wp-json\/wp\/v2\/comments?post=10375"}],"version-history":[{"count":0,"href":"https:\/\/www.brandwatch.com\/de\/wp-json\/wp\/v2\/posts\/10375\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.brandwatch.com\/de\/wp-json\/wp\/v2\/media\/21604"}],"wp:attachment":[{"href":"https:\/\/www.brandwatch.com\/de\/wp-json\/wp\/v2\/media?parent=10375"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.brandwatch.com\/de\/wp-json\/wp\/v2\/categories?post=10375"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.brandwatch.com\/de\/wp-json\/wp\/v2\/tags?post=10375"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}