Vollständige Version anzeigen : robots.txt syntax


Romka
30.08.2013, 11:07

Ich habe momentan das Problem das einige Artikel im Google Shopping nicht angenommen werden weil scheinbar der Google Image Bot die Bilder nicht crawlen kann. Das komische ist das es bei 50% funktioniert und bei den restlichen Artikeln nicht. Dabei liegen alle Artikelbilder in einem Verzeichnis. (/media/img/product_img/img_big/)

Da mein Unternehmen unbedingt eine Hosted Lösung nehmen wollte habe ich jetzt direkt keinen Zugriff auf die robots;txt. Der Anbieter meint es ist alles in Ordnung. Aber mir kommt das ganze etwas komisch vor.

Die robots;txt sieht so aus:

User-agent: *
Allow: /
Disallow: /ajaxViews/
Disallow: /components/
Disallow: /designs/
Disallow: /media/
Disallow: /scripts/
Disallow: /templates/

User-agent: Googlebot
Allow: /
Disallow: /ajaxViews/
Disallow: /components/
Disallow: /designs/
Disallow: /scripts/
Disallow: /templates/
Disallow: /media/flash/
Disallow: /media/pdf/
Disallow: /media/product_export/
Disallow: /media/video/

User-agent: Googlebot-image
Allow: /
Disallow: /ajaxViews/
Disallow: /components/
Disallow: /designs/
Disallow: /scripts/
Disallow: /templates/
Disallow: /media/flash/
Disallow: /media/pdf/
Disallow: /media/product_export/
Disallow: /media/video/

Sitemap: ;;;********~de/sitemap;xml


Zu meinen Fragen:

1. Ist das Allow: / nicht total überflüßig? Ich dachte immer das mit der robots;txt nur Verzeichnisse ausgeschlossen werden und nicht explizit auf erlaubt einegstellt werden können.
2. Kann es sein das Google Probleme wegen folgender Zeile hat?
User-agent: *
Allow: /
Disallow: /ajaxViews/
Disallow: /components/
Disallow: /designs/
Disallow: /media/
Disallow: /scripts/
Disallow: /templates/


3. Weiter unten wird explizit nochmal auf die Google Bots eingegangen. Dort wird das benötigte Verzeichniss auch nicht gesperrt, sondern nur die wo der Bot auch nichts zu suchen hat. Aber wird durch das "*" oben nicht bereits der gesamte Bildordner für ALLE Crawler geblockt? Geht der Crawler vllt von oben nach unten durch?

Wäre nett wenn jemand helfen kann. BW ist natürlich wie immer drin. :thumbsup:

Hardware Preisvergleich | Amazon Blitzangebote!

Videos zum Thema
Video Loading...
Ähnliche Themen zu robots.txt syntax
  • robots.txt - Cachen verbieten
    Mahlzeit, möchte kurz wissen ob es möglich ist mit der robots;txt das Aufnehmen in einen Cache (archive;org, google etc;) zu unterbinden, oder ob das nur via <META NAME="ROBOTS" CONTENT="NOARCHIVE"> im <HEAD> Bereich möglich ist. Grüße Heimatærde [...]

  • [Signatur] Bad Robots
    hier meine neuste sig... hoffe ihr gebt gute commentz ^^ bin nämlich im mom in sonem gfx-nichtskann-loch pls commentz render ist von craative!!! [...]

  • Zombies vs. Robots
    Zombies vs. Robots (;;;xup~in/dl,15932930/zvr1ateam;jpg/) Die Comic-Serie von Ashley Wood und Chris Ryall handelt von einer postapokalyptischen Welt, in der ein junges Mädchen die letzte Überlebende der Menschheit ist und von einer Gruppe Roboter gegen blutrünstige, aber halbwegs intelli [...]

  • "robots - noindex" (robots bei FF in rot)
    Hi, ich habe grade ein kleines Problem. Habe für mich selber nen bischen HTML gecodet, auch um es nen bischen besser zu verstehen. Siehe hier: <!DOCTYPE HTML Public "-//W3C//DTD HTML 4;01 Transitional//DE" ";;;w3~org/TR/html4/losse;dtd"> <html> <head> <!-- Folgende Meta-Angaben sind nac [...]



raid-rush.ws | Imprint & Contact pr