Dr. Link Check findet Links in HTML-Dokumenten (innerhalb von HTML-Tags wie beispielsweise <a>
, <area>
, <frame>
, <iframe>
, <img>
, <script>
, <audio>
und <video>
) und CSS-Dateien (@import
und url(...)
). Der Crawler ist nicht in der Lage, JavaScript-Code auszuführen und nach Links in Seiten zu suchen, die im Browser dynamisch per JavaScript generiert werden.
Unterstützte URL-Schemas sind http
, https
, data
und mailto
. Links mit den Schemas http
und https
prüft der Crawler, indem er eine Verbindung zum Zielserver herstellt und das verlinkte Dokument abruft. data
-URLs werden auf Syntaxfehler geprüft und bei mailto
-Links erfolgt ein Test, ob die Domain der E-Mail-Adresse tatsächlich existiert und über MX-Einträge verfügt.
Die maximale Anzahl an Projekten, die Du in Dr. Link Check anlegen kannst, ergibt sich aus dem von Dir gewählten Paket (5 im Standard-Paket, 10 im Professional-Paket, etc.). Du kannst jedoch jederzeit bestehende Projekte löschen und dadurch wieder Raum für neue schaffen. Dies ermöglicht Dir, beliebig viele Websites prüfen zu lassen.
Die einzige Einschränkung besteht darin, dass sich nicht mehrere Websites gleichzeitig prüfen lassen. Stößt Du den Check einer weiteren Website an, wird dieser zunächst in die Warteschlange eingereiht und erst dann ausgeführt, wenn der vorherige Check abgeschlossen ist.
Manchmal sind Probleme nur vorübergehender Natur, beispielsweise weil der Zielserver kurzzeitig überlastet war oder zum Zeitpunkt des Checks eine Netzstörung vorgelegen hat. Meldet Dr. Link Check beispielsweise „Zeitüberschreitung“, „Verbindungsfehler“, „Sende-/Empfangsfehler“ oder einen HTTP 5xx-Serverfehler, ist dies nicht selten ein Problem, das sich mit der Zeit von selbst erledigt.
Zudem kann es vorkommen, dass Webserver Zugriffe von unseren Servern blockieren. Beispielsweise lehnen die Server der Plattform LinkedIn sämtliche Zugriffe aus der Amazon-Cloud (wo sich unsere Server befinden) mit der Antwort „999 Request Denied“ ab. Viele Server begrenzen zudem die Anzahl an Anfragen, die von einer IP-Adresse aus innerhalb einer festgelegten Zeitspanne erfolgen dürfen, und blockieren oder verlangsamen weitere Anfragen nach Erreichen eines bestimmten Limits. Dies spiegelt sich häufig in den HTTP-Statuscodes 429 (Too Many Requests), 403 (Forbidden) oder 503 (Service Unavailable) wider.
Einige Server senden zudem im HTTP-Header einen Fehlercode, im HTTP-Body jedoch eine normale Seite ohne jeglichen Hinweis auf ein Problem. Dies lässt sich häufig auf ein Konfigurationsproblem des Webservers oder des Content Management Systems zurückführen.
Findet unser Crawler nur einen Bruchteil der Links, ist dies in der Regel auf eine der folgenden Ursachen zurückzuführen:
Manche Websites erzeugen eine scheinbar nicht enden wollende Anzahl an neuen Links – ein Phänomen, das im Englischen als Crawler Trap bezeichnet wird. Ein typisches Beispiel ist ein Online-Shop, in dem sich Produkte nach Kategorie, Preis, Marke, Farbe und anderen Merkmalen beliebig filtern und sortieren lassen. Erhält dabei jede Filter-Kombination eine eigene URL, resultiert dies leicht in Hunderttausenden, wenn nicht Millionen unterschiedlichen Links. Ein weiteres häufig anzutreffendes Beispiel sind Online-Kalender, die Besucher unendlich weit in die Zukunft navigieren lassen und dabei für jede Kalenderseite eine neue URL generieren.
Um ein solches Problem aufzudecken, öffne den Alle Links-Report und lass Dir durch einen Klick auf Letzte Seite die zuletzt gefundenen Links anzeigen. Siehst Du hier eine Reihe ähnlicher URLs, die sich lediglich im Query-String (nach dem Fragenzeichen) oder einem Pfad-Segment unterscheiden, ist dies ein ersten Anzeichen für eine Crawler Trap.
Hast Du die problematischen URLs identifiziert, kannst Du sie auf eine der folgenden Weisen vom Check ausschließen:
Disallow: /search
. Unser Crawler hält sich an diese Regel, sofern nicht die Option Ignorierte robots.txt in den Projekteinstellungen aktiviert ist.rel="nofollow"
hinzu.Url STARTSWITH "https://example.com/search"
.Beim Anlegen eines neuen Projekts kannst Du bis zu 10.000 URLs in das Feld Zu überprüfende URL(s) eintragen:
Unser Crawler unterstützt die Anmeldung per HTML-Formular sowie verschiedene andere Authentifizierungsmethoden (HTTP Basic, HTTP Digest, Bearer Token). Diese Funktionalität ist jedoch bislang nicht in die Benutzeroberfläche integriert, sondern muss von uns manuell konfiguriert werden. Falls Du das Professional- oder Premium-Paket nutzt, setze Dich mit uns in Kontakt und wir nehmen gern die entsprechenden Änderungen an Deinem Projekt vor.
Standardmäßig führt der Crawler maximal vier gleichzeitige Anfragen pro Zielserver aus und begrenzt die Frequenz der Anfragen auf acht pro Sekunde. Moderne Webbrowser öffnen hingegen typischerweise sechs (Chrome, Firefox) oder mehr (Internet Explorer) Verbindungen zu einem Host und belasten einen Server häufig stärker, als Dr. Link Check es tut.
Solltest Du trotzdem den Verdacht haben, dass unser Crawler Deinen Server zu stark fordert und eventuell sogar überlastet, schreib uns eine Nachricht und wir werden die Crawl-Geschwindigkeit für Dein Projekt entsprechend heruntersetzen.
Unser Crawler ignoriert den JavaScript-Code von Google Analytics. Ein Check hat somit keinen Einfluss auf die erhobenen Daten.
Eine Begrenzung des Checks auf ausgehende/externe Links ist leider nicht möglich. Der Crawler muss zunächst die internen Links sammeln und prüfen, um letztlich die Links zu finden, die auf externe Websites verweisen.
Wenn Du jedoch die Anzahl gefundener Links reduzieren möchtest und Dich lediglich „normale“ Hyperlinks (wie <a href="seite.html">Link</a>
) interessieren, kannst Du andere Links (wie beispielsweise Bildverweise) über eine Regel ausschließen. Öffne dazu die Projekteinstellungen und gib unter Erweiterte Einstellungen → Links ignorieren, wenn … Folgendes ein:
HtmlElement != "a"
Um Links vom Check ausschließen, füge Deinem Projekt eine Ignorierregel hinzu (unter Projekteinstellungen → Erweiterte Einstellungen → Links ignorieren, wenn …).
Mit Hilfe der folgenden Regel werden Bild-URLs anhand ihrer Dateiendung identifiziert und von der Überprüfung ausgeschlossen:
Path ENDSWITH ".jpg" OR Path ENDSWITH ".png" OR Path ENDSWITH ".gif" OR Path ENDSWITH ".svg" OR Path ENDSWITH ".webp"
Der Vertrag ist monatlich kündbar. Wie empfehlen zwar, Dr. Link Check langfristig zu nutzen und Websites regelmäßig monatlich oder wöchentlich automatisch prüfen zu lassen. Trotzdem ist es möglich, den Dienst lediglich für einen kurzen Zeitraum einzusetzen und den Vertrag nach dem ersten Monat auslaufen zu lassen.
Wenn Du bereits sicher bist, dass Du Deinen Vertrag im nächsten Monat nicht mehr benötigen wirst, gehe zu Konto → Vertragseinstellungen und klicke auf Vertrag kündigen. Nach der Kündigung steht Dir bis zum Ende des laufenden Abrechnungszyklus weiterhin die volle Funktionalität zur Verfügung.
Eine Bestellung und Bezahlung auf Rechnung ist leider nicht möglich. Zahlungen können derzeit ausschließlich per Kreditkarte oder PayPal erfolgen.
Bei jeder Zahlung erhältst Du eine E-Mail mit einem Link zur entsprechenden Rechnung. Zudem kannst Du die Rechnungen auch unter Konto → Vertragseinstellungen → Zahlungshistorie finden.
Die Abrechnung erfolgt pro 10.000 Links. Wenn mit Deinem Vertrag beispielsweise Websites mit bis zu 20.000 Links geprüft werden können, wird „2“ als Rechnungsmenge ausgewiesen („Quantity: 2“).
Du bist wahrscheinlich nicht im richtigen Konto angemeldet. Vermutlich nutzt Du gerade einen temporären Account, der automatisch angelegt wurde, nachdem Du einen Check über die Startseite angestoßen hast.
Bitte wähle Konto → Abmelden und logge Dich mit E-Mail-Adresse und Passwort neu ein.
Eine Kündigung ist möglich über Konto → Vertragseinstellungen → Vertrag kündigen.
Du kannst uns jederzeit per E-Mail oder Kontaktformular erreichen. Wir helfen gern!