[Thema] Welche Sprache für einen Webcrawler?

Dieses Thema im Forum "Programmierung & Entwicklung" wurde erstellt von kee, 17. November 2006 .

Status des Themas:
Es sind keine weiteren Antworten möglich.
  1. 17. November 2006
    Welche Sprache für einen Webcrawler?

    Hi,

    ich plane gerade eine Art Webcrawler - das Programm soll Webseiten aufrufen und dann Inhalte speichern können ( am Besten in einer MySQL DB ). Aktuell mache ich das mit einem PHP-Script aber das ist wenns um viele Seiten geht nicht so ideal.

    In welcher Programmiersprache würde sich das ganze am Besten realisieren lassen? Ich habe Erfahrungen in PHP, VB und Delphi.


    Gruß kee
     
  2. 17. November 2006
    AW: Welche Sprache für einen Webcrawler?

    Ich greife mit meinem Threadviewer ja auch auf Webseiten zu also kann ich schon mal sagen das es damit geht ...!

    Ich kann leider aber keinen vergleich zwischen websiten ziehen da ich sowas noch nicht in anderen sprachen gemacht habe!

    Knusperkeks
     
  3. 17. November 2006
    AW: Welche Sprache für einen Webcrawler?

    Servus,

    die Programmiersprache an sich spielt dabei weniger eine Rolle, da die Netzwerkzugriffe, bei den Bekannteren, fast gleich schnell sind.
    Ideal ist es natürlich ein Crawler auf einem Server laufen zu lassen, da die normalerweiße eine sehr hohe Anbindungsgeschwindigkeit haben.
    Dazu müsstest Du entweder PHP benutzen und in der Config, sprich INI Datei, den maximalen Zeitrahmen, das ein PHP-SCript brauchen darf, hochsetzen.
    Oder du programmierst dir via Delphi ein Programm, dass Du dann einfach startest.
    Aber wie gesagt, wenn es auf einem Server läuft, womöglich auf einem Root-Server, mit dicker Anbindung, funktioniert das Crawlen sehr viel schneller, als wenn du es auf deinem Home-PC laufen lässt und dann irgendwie auf eine MySql DB speicherst.

    Das wichtigste ist bei der programmierung, dass du den Algorithmus, zum finden der Links, sehr optimierst, da dort meist die Flaschenhälse liegen.

    Gruss,
    MArc
     
  4. 18. November 2006
    AW: Welche Sprache für einen Webcrawler?

    Hey, also in java ist das ziemlich einfach die index der startseite abzurufen. auf wunsch kann ich dir auch gern eine beschreibung zukommen lassen wie das geht, melde dich dann einfach per pm
     
  5. 18. November 2006
    AW: Welche Sprache für einen Webcrawler?

    das ist wohl mit jeder programmiersprache einfach...

    dann haste den index, dann nurnoch nach links filtern, aussortieren und die links wieder downloaden
     
  6. 18. November 2006
    AW: Welche Sprache für einen Webcrawler?

    Nimm am besten die Sprache, die dir am besten liegt und die dein Problem (Scannen von Websiten) mit wenig Aufwand beschreiben kann. Wie MArc bereits sagte, ist die Programmiersprachenwahl nicht das Entscheidene. Im Grunde kannst du (fast) alle Sprachen für das Scannen verwenden, bei manchen hast du jedoch mehr Aufwand als bei anderen (z.B. C++ - zusätzliche Librarys werden benötigt, oder du schreibst dir diese erst selber).

    Leider programmier ich in C++ und habe noch nie ein Blick auf Delphi geworfen. Ich bin mir aber sicher, dass es dort etwas passendes und schnelles gibt. PHP würde ich dafür nicht verwenden, wie du schon sagtest, es ist ziemlich langsam. Vielleicht versuchst du auch mal, das Skript auf einen leistungsstarken Server laufen zu lassen und nimmst dabei die Konfigurationsänderungen vor, die MArc in seinem Post schrieb.
     
  7. 18. November 2006
    AW: Welche Sprache für einen Webcrawler?

    Danke für die Antworten.

    Das mein Programm serverseitig laufen soll, war mir ja schon klar Wenn das Ding ordentlich läuft könnte ich meine Leitung ja nicht mehr benutzen.

    Ich werde mich jetzt mal an einer CGI/Perl version versuchen.
     
  8. 18. November 2006
    AW: Welche Sprache für einen Webcrawler?

    [X] Erledigt

    ~closed~

    Mfg,

    Kolazomai
     
  9. Video Script

    Videos zum Themenbereich

    * gefundene Videos auf YouTube, anhand der Überschrift.