StormCrawler je otevřená sada SDK pro vytváření distribuovaných webových prolézacích modulů s Apache Storm.Projekt je pod licencí Apache v2 a skládá se ze sbírky opakovaně použitelných zdrojů a komponent, napsaných převážně v Javě.Cílem StormCrawleru je pomáhat při vytváření webových prolézacích modulů, které jsou: škálovatelná odolná nízká latence, snadno rozšiřitelná zdvořilá, ale účinná StormCrawler je knihovna a kolekce zdrojů, které mohou vývojáři využít k vytváření vlastních prolézacích modulů.Dobrou zprávou je, že to může být docela jednoduché.Jediné, co musíte udělat, bude prohlásit Storm-crawler jako závislost Maven, napsat vlastní třídu topologie (tip: můžete rozšířit ConfigurableTopology), znovu použít komponenty poskytované v projektu a případně napsat několik vlastníchpro vaši vlastní tajnou omáčku.Trochu vyladění konfigurace a můžete jít! ... Kromě základních komponent poskytujeme také externí zdroje, které můžete ve svém projektu znovu použít, jako například náš výtok a šrouby pro ElasticSearch nebo ParserBolt, který používá Apache Tikaanalyzovat různé formáty dokumentů.StormCrawler je dokonale vhodný pro použití v případech, kdy adresa URL pro načtení a analýzu přichází jako datové proudy, ale je také vhodným řešením pro rozsáhlé rekurzivní procházení, zejména tam, kde je vyžadována nízká latence.Projekt je využíván při výrobě několika společnostmi a je aktivně vyvíjen a udržován.