12
ArchiveBox
Web Webový archiv s vlastním hostitelem s otevřeným zdrojovým kódem.Vezme historii prohlížeče / záložky / Pocket / Pinboard / atd., Uloží HTML, JS, PDF, média a další.
- Zdarma
Protože moderní webové stránky jsou komplikované a často se spoléhají na dynamický obsah, archivuje ArchiveBox weby v několika různých formátech, mimo které jsou veřejné archivační služby jako Archive.org a Archive.is schopny uložit.ArchiveBox importuje seznam adres URL ze stdin, vzdálené adresy URL nebo souboru a poté stránky přidá do místní složky archivu pomocí wgetu, který vytvoří procházitelný klon html, youtube-dl pro extrahování médií a celou instanci prohlížeče Chrome bez obsahu pro PDF,Screenshot a DOM výpisy a další ... Použití více metod a na trhu dominantního prohlížeče k provedení JS zajišťuje, že můžeme uložit i ty nejsložitější, nejjemnější webové stránky v nejméně několika vysoce kvalitních, dlouhodobých datových formátech.### Lze importovat odkazy z: - Pocket, Pinboard, Instapaper - RSS, XML, JSON nebo prostého textového seznamu - Historie prohlížeče nebo záložky (Chrome, Firefox, Safari, IE, Opera a další) - Shaarli, Delicious, RedditUložené příspěvky, Wallabag, Unmark.it a jakýkoli další text s odkazy v něm!### Lze uložit tyto věci pro každý web: - `favicon.ico` favicon webu -` example.com / page-name.html` wget klon webu, s připojeným .html, pokud není přítomen - `výstup.pdf` Vytištěno PDF webu pomocí bezhlavého chromu - `screenshot.png` 1440x900 screenshot obrazovky pomocí bezhlavého chromu -` output.html` DOM Výpis HTML po vykreslení pomocí bezhlavého chromu - `archive.org.txt` Odkaz nauložený web na archive.org - `warc /` pro soubor html + gzipped warc.gz - `media /` mp4, mp3, titulky a metadata nalezená pomocí youtube-dl - `git /` klon jakéhokoli úložiště pro odkazy github, bitbucket nebo gitlab - `index.html` &` index.json`Soubory indexu HTML a JSON obsahující metadata a podrobnosti Archivace je aditivní, takže můžete naplánovat pravidelné spouštění souboru `. / Archive` a stahovat nové odkazy do indexu.Veškerý uložený obsah je statický a indexovaný pomocí souborů JSON, takže žije navždy a je snadno rozložitelný, nevyžaduje vždy běžící backend.