chronicles in preserva2on preserving digital news
play

Chronicles in Preserva2on Preserving Digital News & - PowerPoint PPT Presentation

Chronicles in Preserva2on Preserving Digital News & Newspapers IFLA 2013, Singapore 1/19 Chronicles in Preserva2on About: NEH grant-funded Content


  1. Chronicles ¡in ¡Preserva2on ¡ Preserving ¡Digital ¡News ¡& ¡Newspapers ¡ IFLA ¡2013, ¡Singapore ¡ 1/19 ¡

  2. Chronicles ¡in ¡Preserva2on ¡ • About: ¡NEH ¡grant-­‑funded ¡ • Content ¡Partners ¡ study ¡(2011-­‑2014) ¡ – Boston ¡College ¡ – Clemson ¡University ¡ • Objec2ve: ¡To ¡study, ¡ – Georgia ¡Tech ¡ document, ¡and ¡model ¡data ¡ – Penn ¡State ¡ prepara2on ¡and ¡distributed ¡ – University ¡of ¡North ¡Texas ¡ digital ¡preserva2on ¡(DDP) ¡ – University ¡of ¡Utah ¡ for ¡digital ¡newspaper ¡ – Virginia ¡Tech ¡ collec2ons ¡ • www.metaarchive.org/neh ¡ ¡ • DDP ¡Partners ¡ – Chronopolis ¡ – University ¡of ¡North ¡Texas ¡ – MetaArchive ¡ 2/19 ¡

  3. Why ¡Digital ¡Newspapers? ¡ • At-­‑risk ¡and ¡valuable ¡scholarly ¡content ¡genre ¡ • Success ¡of ¡the ¡United ¡States ¡Newspaper ¡Program ¡(USNP) ¡ & ¡Na2onal ¡Digital ¡Newspaper ¡Program ¡(NDNP) ¡– ¡ cataloging, ¡digi2zing, ¡archiving ¡& ¡providing ¡access ¡to ¡ public ¡domain ¡newspapers ¡ • Success ¡of ¡research ¡carried ¡out ¡by ¡Center ¡for ¡Research ¡ Libraries ¡(CRL) ¡in ¡the ¡U.S. ¡ • Digi2zed ¡and ¡born-­‑digital ¡newspaper ¡collec2ons ¡have ¡ been ¡created ¡with ¡a ¡variety ¡of ¡ – standards ¡ – metadata ¡ – data ¡models ¡ – technologies ¡ 3/19 ¡

  4. Research ¡Ques2ons ¡ • What ¡is ¡the ¡spectrum ¡of ¡preserva2on ¡ readiness ¡from ¡essen2al ¡to ¡op2mal? ¡ • How ¡do ¡curators ¡exchange ¡digital ¡ newspapers ¡in ¡distributed ¡ways ¡for ¡ preserva2on? ¡ • What ¡are ¡the ¡strengths ¡and ¡challenges ¡of ¡ performing ¡distributed ¡digital ¡preserva2on ¡ for ¡digital ¡newspapers? ¡ 4/19 ¡

  5. Deliverables ¡ • Guidelines ¡for ¡Digital ¡Newspaper ¡Preserva6on ¡ Readiness ¡ – ¡Recommenda2ons ¡for ¡essen2al ¡and ¡ op2mal ¡ac2on ¡for ¡cura2ng ¡collec2ons ¡ • Compara6ve ¡Analysis ¡of ¡DDP ¡Frameworks ¡ – ¡ Analysis ¡based ¡on ¡ingests ¡from ¡the ¡Content ¡ Partners ¡into ¡the ¡3 ¡DDP ¡systems. ¡ • Interoperability ¡Tools ¡ -­‑ ¡Documenta2on ¡of ¡tools ¡ to ¡improve ¡cura2on ¡of ¡exis2ng ¡collec2ons. ¡ 5/19 ¡

  6. Guidelines: ¡Overview ¡ • Present ¡essen%al ¡ and ¡ op%mal ¡ac2ons ¡ – Essen2al ¡– ¡The ¡minimum ¡to ¡be ¡considered ¡preserva2on, ¡ requires ¡limited ¡resources ¡ – Op2mal ¡– ¡Best ¡preserva2on ¡for ¡objects, ¡requires ¡more ¡ resources ¡ • Based ¡on: ¡ – Interviews ¡with ¡publishers, ¡libraries, ¡and ¡vendors ¡ – Project ¡experiences ¡ – Standards ¡(e.g. ¡METS, ¡NDNP, ¡OAIS) ¡ – Community ¡feedback ¡ • Drad ¡is ¡available ¡for ¡public ¡review ¡ 6/19 ¡

  7. Guidelines: ¡Modules ¡ • Inventorying ¡Digital ¡Newspapers ¡for ¡Preserva2on ¡ – How ¡to ¡record ¡what ¡content ¡an ¡organiza2on ¡has ¡and ¡how ¡it ¡is ¡stored ¡ • Format ¡Management ¡for ¡Digital ¡Newspapers ¡ – How ¡to ¡iden2fy, ¡validate, ¡and ¡migrate ¡formats ¡ • Metadata ¡Packaging ¡for ¡Digital ¡Newspapers ¡ – How ¡to ¡choose ¡metadata ¡formats, ¡export ¡metadata ¡from ¡repositories, ¡and ¡ manage ¡the ¡storage ¡of ¡metadata ¡ • Checksum ¡Management ¡for ¡Digital ¡Newspapers ¡ – How ¡to ¡generate ¡and ¡monitor ¡fixity ¡informa2on ¡ • Organizing ¡Digital ¡Newspapers ¡for ¡Preserva2on ¡ – How ¡to ¡structure ¡folder ¡hierarchies ¡and ¡names ¡ • Packaging ¡Digital ¡Newspapers ¡for ¡Preserva2on ¡ – How ¡to ¡organize ¡a ¡collec2on ¡for ¡ingest ¡into ¡a ¡digital ¡preserva2on ¡system ¡ ¡ 7/19 ¡

  8. Guidelines: ¡Sample ¡Module ¡-­‑ ¡Inventorying ¡ • A ¡single ¡collec2on ¡might ¡have ¡had ¡mul2ple ¡ curators, ¡acquisi2on ¡strategies, ¡storage ¡loca2ons, ¡ and ¡file ¡formats. ¡ • Inventories ¡are ¡essen2al ¡to ¡record ¡this ¡ informa2on, ¡to ¡understand ¡the ¡collec2on, ¡and ¡ then ¡to ¡plan ¡preserva2on ¡ac2on. ¡ 8/19 ¡

  9. Guidelines: ¡Sample ¡Module ¡-­‑ ¡Inventorying ¡ • Essen2al ¡ – Tools: ¡File ¡manager ¡such ¡as ¡Windows ¡Explorer ¡or ¡Finder ¡ for ¡Mac ¡ – Informa2on: ¡ ¡ • Newspaper ¡2tles ¡ • Number ¡of ¡files ¡ • File ¡loca2ons ¡ • File ¡names ¡ • Inventory ¡crea2on ¡date ¡ – Container: ¡Human-­‑readable ¡formats ¡such ¡as ¡a ¡document ¡ or ¡spreadsheet ¡ 9/19 ¡

  10. Guidelines: ¡Sample ¡Module ¡-­‑ ¡Inventorying ¡ • Op2mal ¡ – Tools: ¡File ¡manager ¡and ¡automated ¡tools ¡such ¡as ¡ BagIt, ¡PRONOM, ¡or ¡JHOVE ¡ – Informa2on: ¡Essen2al ¡informa2on ¡and ¡file ¡formats, ¡ required ¡applica2on, ¡checksums, ¡and ¡object ¡ iden2fiers ¡ – Container: ¡Machine-­‑readable ¡formats ¡such ¡as ¡a ¡ spreadsheet ¡or ¡database ¡ 10/19 ¡

  11. Guidelines: ¡Public ¡Review ¡ • hip://publishing.educopia.org/chronicles ¡ • We ¡welcome ¡comments ¡and ¡cri2que ¡from ¡the ¡ community ¡to ¡improve ¡the ¡Guidelines. ¡ 11/19 ¡

  12. Compara2ve ¡Analysis: ¡Overview ¡ • Three ¡Distributed ¡Digital ¡Preserva2on ¡(DDP) ¡ systems ¡with ¡3 ¡different ¡infrastructures ¡ – MetaArchive ¡– ¡LOCKSS ¡ – Chronopolis ¡– ¡iRODS ¡ – UNT ¡Coda ¡– ¡microservices ¡ • Each ¡library ¡partner ¡staged ¡collec2ons ¡for ¡DDP ¡ systems ¡to ¡document ¡and ¡analyze ¡workflows ¡ with ¡this ¡type ¡of ¡content. ¡ 12/19 ¡

  13. Tools: ¡Guiding ¡Principles ¡ • Don’t ¡Reinvent ¡the ¡Wheel ¡ • Use ¡What ¡Is ¡Already ¡Working ¡ • Improve ¡It ¡ 13/19 ¡

  14. Tools: ¡BagIt ¡ • Digital ¡newspapers ¡have ¡a ¡ • Bagger ¡ range ¡of ¡legacy ¡collec2on ¡ – Java-­‑based ¡BagIt ¡tool ¡w/ ¡GUI ¡ structures ¡& ¡conven2ons ¡ – Released ¡2012 ¡ – Maintained ¡by ¡Library ¡of ¡ • BagIt ¡is ¡a ¡file ¡packaging ¡format ¡ Congress ¡ for ¡storing ¡and ¡transferring ¡ – hip://sourceforge.net/ data. ¡The ¡data ¡model ¡includes: ¡ projects/loc-­‑xferu2ls/files/loc-­‑ bagger/ ¡ ¡ – A ¡data ¡directory ¡ • bagit.py ¡ – A ¡manifest ¡inventory ¡of ¡the ¡bag ¡ – Python-­‑based ¡BagIt ¡tool ¡ with ¡checksums ¡for ¡all ¡objects ¡ – Released ¡in ¡2010 ¡ within ¡ – Maintained ¡by ¡Ed ¡Summers ¡at ¡ – Metadata ¡about ¡the ¡bag ¡ the ¡Library ¡of ¡Congress ¡ • BagIt ¡is ¡an ¡IETF ¡Internet ¡Drad ¡ – hips://github.com/edsu/bagit ¡ – hip://tools.ien.org/html/drad-­‑ kunze-­‑bagit-­‑09 ¡ 14/19 ¡

  15. Tools: ¡Exchanging ¡Collec2ons ¡ • BagIt ¡made ¡it ¡easy ¡to ¡group ¡diverse ¡collec2on ¡ data ¡and ¡package ¡it ¡with ¡preserva2on ¡value ¡ • Each ¡project ¡partner ¡bagged ¡and ¡sent ¡30-­‑300GB ¡ of ¡data ¡according ¡to ¡BagIt ¡usage ¡instruc2ons ¡ (made ¡available ¡in ¡the ¡project). ¡ – GUI ¡was ¡key ¡ • Partners ¡preferred ¡Bagger ¡over ¡bagit.py ¡ – Large ¡bags ¡require ¡dedicated ¡resources ¡ • Partners ¡staging ¡data ¡on ¡staff ¡worksta2ons ¡ran ¡the ¡u2lity ¡ overnight ¡in ¡order ¡to ¡avoid ¡interrup2ons ¡ ¡ – Bags ¡require ¡cura2on ¡ • BagIt ¡u2li2es ¡grab ¡system ¡files ¡like ¡.DS_store ¡thumbs.db ¡ 15/19 ¡

  16. Compara2ve ¡Analysis: ¡MetaArchive ¡ BagIt ¡+ ¡Custom ¡Scripts ¡to ¡Split ¡and ¡Rebuild ¡ BagIt ¡u2lity ¡+ ¡scripts ¡ On ¡export, ¡the ¡ creates ¡subsets ¡of ¡the ¡ content ¡partner ¡ MetaArchive ¡ original ¡bag ¡and ¡an ¡ receives ¡the ¡same ¡ addi2onal ¡bag ¡ bag ¡they ¡ containing ¡manifest ¡ contributed. ¡ and ¡metadata ¡from ¡ the ¡original ¡bag ¡ 16/19 ¡

Recommend


More recommend