Yahoo nimmt größten Hadoop-Cluster in Betrieb

Dieses Thema im Forum "Netzwelt" wurde erstellt von zwa3hnn, 20. Februar 2008 .

  1. 20. Februar 2008
    Webmap umfasst 11 Billionen Verknüpfungen
    Yahoo hat die bislang größte Hadoop-Installation in Betrieb genommen, auf der Yahoos Webmap liegt, die Basis von Yahoos Suche. Yahoos Hadoop-Installation umfasst mehr als 10.000 CPUs sowie 5 PByte Festplattenplatz.


    Bei Hadoop handelt es sich um eine freie Implementierung von Googles MapReduce, eine Art verteiltes Dateisystem, das es erlaubt, Rechenaufgaben möglichst nah an den jeweiligen Daten abzuwickeln. So lassen sich beispielsweise die bei Internetsuchmaschinen anfallenden Daten auf einem verteilten Cluster auswerten. Das Open-Source-Projekt ist mittlerweile bei Apache beheimatet und wird von Yahoo seit geraumer Zeit unterstützt.

    Yahoo nutzt seinen Hadoop-Cluster, um seine so genannte Webmap zu erstellen. Sie beinhaltet alle Informationen, die Yahoo über das Web mit seinen Crawlern einsammelt, also jede einzelne Website, die Beziehungen zwischen Websites und Metadaten jeder einzelnen Seite. Dabei umfasst die Webmap mittlerweile über 11 Billionen Verknüpfungen zwischen einzelnen Webseiten. Die so gewonnenen Daten finden bei jeder Suchanfrage an Yahoo Verwendung, speist sich aus diesen Daten doch der Ranking-Algorithmus.

    Der Umstieg auf Hadoop löst vor allem Skalierungsprobleme, die Yahoos alte Technik hatte, ist rund 50 Prozent schneller, verringert Ausfallzeiten und erleichtert die Administration. Dabei zeigt sich Yahoo sehr zufrieden mit Hadoop, obwohl die Software noch in einem sehr frühen Stadium ist.


    quelle: Golem.de
     
  2. Video Script

    Videos zum Themenbereich

    * gefundene Videos auf YouTube, anhand der Überschrift.