sqrrl sqrrl
play

sqrrl sqrrl Secure. Scale. Adapt Secure. Scale. Adapt. - PowerPoint PPT Presentation

sqrrl sqrrl Secure. Scale. Adapt Secure. Scale. Adapt. Adam Fuchs, CTO 11 April, 2013 Sqrrl Data, Inc. All Rights Reserved Who Who We Are re


  1. sqrrl ¡ sqrrl ¡ Secure. ¡Scale. ¡Adapt ¡ Secure. ¡Scale. ¡Adapt. ¡ Adam ¡Fuchs, ¡CTO ¡ 11 ¡April, ¡2013 ¡ Sqrrl ¡ Data, ¡ Inc. ¡ ¡ All ¡ Rights ¡ Reserved ¡

  2. Who ¡ Who ¡ We ¡ ¡ Are re ¡ ¡ Management 20+ ¡years ¡of ¡combined ¡ Apache ¡Accumulo ¡ engineering ¡exper9se ¡ Mark Adam • Founded ¡July ¡2012 ¡ Ely Kahn Terenzoni Fuchs sqrrl VP BizDev, • Funded ¡August ¡2012 ¡ sqrrl CEO, F5 sqrrl CTO, NSA White House • Team ¡includes ¡former ¡Tech ¡ Director ¡of ¡Accumulo ¡at ¡NSA ¡and ¡ 6 ¡commiDers/contributors ¡ ¡ Investors 2 ¡ Sqrrl ¡ Data, ¡ Inc. ¡ ¡ All ¡ Rights ¡ Reserved ¡

  3. Our Our ¡ ¡ Mission Mission ¡ ¡ Security ¡ Scalability ¡ AdapGvity ¡ 3 ¡ 3 ¡ Sqrrl ¡ Data, ¡ Inc. ¡ ¡ All ¡ Rights ¡ Reserved ¡

  4. Apache Apache ¡ ¡ Accumulo Accumulo ¡ ¡ � Sorted, Distributed Key/Value Store � Based on Google’s Big Table Design � Built on Top of Apache Hadoop and Apache Zookeeper � Augments and Integrates With the Hadoop ecosystem � Originally developed at the National Security Agency, now an Apache Software Foundation project 4 ¡ 4 ¡ Sqrrl ¡ Data, ¡ Inc. ¡ ¡ All ¡ Rights ¡ Reserved ¡

  5. rchitecture ¡ ¡ Sqrrl ¡ Sqrrl ¡ Enterprise Enterprise ¡ ¡ Architecture Applica9ons ¡ Search, ¡Sta*s*cs, ¡Graph, ¡ Accumulo ¡ Analy9cs ¡APIs ¡ Lucene, ¡SQL, ¡Custom ¡ Extensions ¡ Security ¡& ¡Access ¡ IAM, ¡Encryp*on, ¡ Controls ¡ DAM, ¡Secure ¡Code ¡ Data ¡Integra9on ¡ ETL, ¡Hadoop ¡ 5 ¡ 5 ¡ Sqrrl ¡ Data, ¡ Inc. ¡ ¡ All ¡ Rights ¡ Reserved ¡

  6. Big ¡ Big ¡ Data Data ¡ ¡ Lessons Lessons ¡ ¡ Learned Learned ¡ ¡ � Start ¡small, ¡but ¡design ¡for ¡scalability ¡ – One ¡applicaGon ¡first, ¡then ¡grow ¡to ¡hundreds ¡ – One ¡gigabyte ¡first, ¡then ¡grow ¡to ¡petabytes ¡ � Itera*ve ¡schema ¡refinement ¡ – IniGally, ¡let ¡the ¡data ¡define ¡the ¡schema ¡ – Refine ¡the ¡schema ¡in ¡bulk ¡as ¡you ¡beDer ¡understand ¡the ¡data ¡ – Middle ¡ground ¡between ¡flat ¡files ¡and ¡complete ¡ontologies ¡ � Discovery ¡analy*cs ¡as ¡applica*on ¡building ¡blocks ¡ – Universal ¡search: ¡structured ¡and ¡unstructured ¡data, ¡across ¡data ¡sets, ¡low ¡latency ¡ – Basic ¡staGsGcs: ¡aggregaGons ¡of ¡query ¡results, ¡parallelized, ¡low ¡latency, ¡to ¡support ¡big ¡ picture ¡analysis ¡ – Graphs: ¡scalable ¡graph ¡analyGcs ¡for ¡analyzing ¡how ¡everything ¡is ¡connected ¡ � Data-­‑centric ¡security ¡ – Separate ¡modeling ¡of ¡security ¡and ¡analysis ¡ – Simplifies ¡mulG-­‑tenancy ¡and ¡applicaGon ¡accreditaGon ¡ 6 ¡ Sqrrl ¡ Data, ¡ Inc. ¡ ¡ All ¡ Rights ¡ Reserved ¡

  7. Schema Schema ¡ ¡ Discovery Discovery ¡ ¡ 7 ¡ 7 ¡ Sqrrl ¡ Data, ¡ Inc. ¡ ¡ All ¡ Rights ¡ Reserved ¡

  8. Lightweight Lightweight ¡ ¡ Apps Apps ¡ ¡ The ¡future ¡of ¡Big ¡Data ¡ innovaGon ¡is ¡Apps, ¡built ¡on: ¡ • Universal ¡Search ¡ • Schema-­‑less ¡StaGsGcs ¡ • Graphs ¡ • IntuiGve ¡Languages ¡ • Secure, ¡Scalable, ¡and ¡ Adaptable ¡pla\orms ¡ 8 ¡ Sqrrl ¡ Data, ¡ Inc. ¡ ¡ All ¡ Rights ¡ Reserved ¡

  9. Targeted Targeted ¡ ¡ Analysis Analysis ¡ ¡ 9 ¡ 9 ¡ Sqrrl ¡ Data, ¡ Inc. ¡ ¡ All ¡ Rights ¡ Reserved ¡

  10. Big-Picture Big-Picture ¡ ¡ Analytics Analytics ¡ ¡ 10 ¡ 10 ¡ Sqrrl ¡ Data, ¡ Inc. ¡ ¡ All ¡ Rights ¡ Reserved ¡

  11. Data-Centric ¡ Data-Centric ¡ Security Security ¡ ¡ DefiniGon: ¡A ¡form ¡of ¡security ¡in ¡which ¡data ¡carries ¡ with ¡it ¡the ¡elements ¡of ¡provenance ¡that ¡are ¡ required ¡to ¡make ¡policy ¡decisions ¡on ¡its ¡ releasability. ¡ • Separate ¡data ¡modeling ¡for ¡Security ¡and ¡Analysis ¡ • Reusability ¡of ¡applicaGons ¡across ¡security ¡ domains ¡ • Distributed ¡development ¡of ¡ingest ¡and ¡query ¡ applicaGons ¡ • Supported ¡by ¡Accumulo’s ¡cell-­‑level ¡security ¡ 11 ¡ Sqrrl ¡ Data, ¡ Inc. ¡ ¡ All ¡ Rights ¡ Reserved ¡

  12. Cell-Level Cell-Level ¡ ¡ Security Security ¡ ¡ 12 ¡ 12 ¡ Sqrrl ¡ Data, ¡ Inc. ¡ ¡ All ¡ Rights ¡ Reserved ¡

  13. Scalable Scalable ¡ ¡ Data-Centric Data-Centric ¡ ¡ Security Security ¡ ¡ HDFS, ¡ Audits ¡ Zookeeper ¡ End ¡Users ¡ Data ¡ Labeler ¡ Apps ¡ Accumulo ¡ Policy ¡ Auth. ¡ Policies ¡ Engine ¡ Service ¡ User ¡ ACributes ¡ 13 ¡ 13 ¡ Sqrrl ¡ Data, ¡ Inc. ¡ ¡ All ¡ Rights ¡ Reserved ¡

  14. Accumulo’s Accumulo’s ¡ ¡ Strengths Strengths ¡ ¡ � Security ¡ – Cell-­‑level ¡security ¡reduces ¡the ¡cost ¡of ¡applicaGon ¡development ¡in ¡the ¡ presence ¡of ¡complex ¡legal ¡or ¡policy ¡restricGons ¡on ¡data ¡use ¡ – IAM ¡and ¡encrypGon ¡Ges ¡into ¡enterprise ¡security ¡standards ¡ ¡ � Scalability ¡ – Proven ¡reliability ¡and ¡performance ¡at ¡the ¡mulG-­‑petabyte ¡scale ¡ – High-­‑performance ¡parallel ¡I/O ¡library ¡ ¡ � Adap9vity ¡ – Flexible ¡schema ¡support ¡to ¡quickly ¡ingest ¡new ¡data ¡sources ¡ – Sorted ¡key/value ¡paradigm ¡supports ¡a ¡mulGtude ¡of ¡search ¡and ¡ analysis ¡applicaGons ¡ – Server-­‑side ¡programming ¡framework ¡“iterator ¡trees” ¡support ¡best-­‑in-­‑ class ¡aggregaGon, ¡filtering, ¡and ¡complex ¡query ¡semanGcs ¡ 14 ¡ 14 ¡ Sqrrl ¡ Data, ¡ Inc. ¡ ¡ All ¡ Rights ¡ Reserved ¡

  15. Accumulo ¡ Accumulo ¡ Key Key ¡ ¡ Structure Structure ¡ ¡ An ¡Accumulo ¡key ¡is ¡a ¡5-­‑tuple, ¡consis9ng ¡of: ¡ ¡ ¡ � Row: ¡ Controls ¡Atomicity ¡ � Column ¡Family: ¡ Controls ¡Locality ¡ ¡ � Column ¡Qualifier: ¡ ¡ Controls ¡Uniqueness ¡ � Visibility ¡Label: ¡ ¡ Controls ¡Access ¡ � Timestamp: ¡ ¡ Controls ¡Versioning ¡ Row ¡ Col. ¡Fam. ¡ Col. ¡Qual. ¡ Visibility ¡ Timestamp ¡ Value ¡ PaGent ¡suffers ¡ John ¡Doe ¡ Notes ¡ PCP ¡ PCP_JD ¡ 20120912 ¡ from ¡an ¡acute ¡… ¡ John ¡Doe ¡ Test ¡Results ¡ Cholesterol ¡ JD|PCP_JD ¡ 20120912 ¡ 183 ¡ John ¡Doe ¡ Test ¡Results ¡ Mental ¡Health ¡ JD|PSYCH_JD ¡ 20120801 ¡ Pass ¡ John ¡Doe ¡ Test ¡Results ¡ X-­‑Ray ¡ JD|PHYS_JD ¡ 20120513 ¡ 1010110110100… ¡ Accumulo ¡Key/Value ¡Example ¡ 15 ¡ 15 ¡ Sqrrl ¡ Data, ¡ Inc. ¡ ¡ All ¡ Rights ¡ Reserved ¡

  16. Accumulo ¡ Architecture ¡ Delegate ¡ Zookeeper ¡ Tablet ¡Server ¡ Authority ¡ Zookeeper ¡ Zookeeper ¡ Tablet ¡ Read/Write ¡ Delegate ¡ ApplicaGon ¡ Tablet ¡Server ¡ Authority ¡ Assign/Balance ¡ Master ¡ ApplicaGon ¡ Tablet ¡ Store/Replicate ¡ ApplicaGon ¡ Tablet ¡Server ¡ HDFS ¡ Tablet ¡ 16 ¡ 16 ¡ Sqrrl ¡ Data, ¡ Inc. ¡ ¡ All ¡ Rights ¡ Reserved ¡

  17. Tablet ¡ Data ¡ Flow ¡ Tablet ¡ Scan ¡ Iterator ¡ In-­‑Memory ¡ Reads ¡ Writes ¡ Tree ¡ Iterator ¡ Map ¡ Tree ¡ Minor ¡ Compac<on ¡ Sorted, ¡ Sorted, ¡ Indexed ¡ Indexed ¡ File ¡ File ¡ Write ¡Ahead ¡ Sorted, ¡ Log ¡ Indexed ¡ Iterator ¡ Tree ¡ Merging ¡/ ¡Major ¡ (For ¡Recovery) ¡ File ¡ Compac<on ¡ 17 ¡ 17 ¡ Sqrrl ¡ Data, ¡ Inc. ¡ ¡ All ¡ Rights ¡ Reserved ¡

  18. Secure. ¡ ¡ ¡ ¡Scale. ¡ ¡ ¡ ¡Adapt. ¡ Iterator ¡ Framework ¡ Iterator ¡Opera9ons: ¡ ¡ � File ¡Reads ¡ � Block ¡Caching ¡ � Merging ¡ � DeleGon ¡ � IsolaGon ¡ � Locality ¡Groups ¡ � Range ¡SelecGon ¡ � Column ¡SelecGon ¡ � Cell-­‑level ¡Security ¡ � Versioning ¡ � Filtering ¡ � AggregaGon ¡ � ParGGoned ¡Joins ¡ 18 ¡ info@sqrrl.com ¡ | ¡ @sqrrl _ inc ¡ | ¡ 617.520.4375 ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ sqrrl ¡ data, ¡ INC., ¡ ¡ All ¡ Rights ¡ Reserved ¡

  19. Table ¡ Table ¡ Design Design ¡ ¡ Table: ¡ Forward ¡Index ¡ Inverted ¡Index ¡ • No ¡built-­‑in ¡secondary ¡ Row: ¡ <UUID> ¡ <Term> ¡ indices ¡ Column ¡ <Type> ¡ <Type> ¡+ ¡ Family: ¡ <Field> ¡ • Sort ¡Order ¡ ó ¡Index ¡ Column ¡ <Field> ¡ <UUID> ¡ Qualifier: ¡ • Balance ¡between ¡ Value: ¡ <Term> ¡ <Digest ¡of ¡ Event> ¡ ingest ¡and ¡query ¡ • Avoid ¡introducing ¡ boDlenecks ¡ • Preserve ¡cell-­‑level ¡ security ¡and ¡scalability ¡ 19 ¡ Sqrrl ¡ Data, ¡ Inc. ¡ ¡ All ¡ Rights ¡ Reserved ¡

More recommend