課程簡介

第 01 天

刑事情報分析中 Big Data Business Intelligence 的概述

  • 來自執法部門的案例研究 - 預測性警務
  • Big Data 在執法機構的採用率以及它們如何圍繞 Big Data Predictive Analytics 調整它們未來的運營
  • 槍聲傳感器、監控視頻和社交媒體等新興技術解決方案
  • 利用 Big Data 技術減輕信息過載
  • 使用 Big Data 與舊數據接軌
  • 對預測分析中啟用技術的基本了解
  • Data Integration 和儀表板可視化
  • 欺詐管理
  • Business Rules 和欺詐檢測
  • 威脅檢測和檔案測試
  • Big Data 實施的成本效益分析

Big Data 簡介

  • Big Data 的主要特徵 - Volume、Variety、Velocity 和 Veracity。
  • MPP (Massively Parallel Processing) 架構
  • Data Warehouses - 靜態架構、緩慢演變的數據集
  • MPP Databases:Greenplum、Exadata、Teradata、Netezza、Vertica 等。
  • Hadoop 基於的解決方案 - 對數據集結構沒有條件。
  • 典型模式:HDFS、MapReduce (crunch)、從 HDFS 獲取
  • Apache Spark 用於流處理
  • Batch-適合分析/非交互式
  • Volume:CEP 流 Streaming 數據
  • 典型選擇 - CEP 產品 (例如 Infostreams、Apama、MarkLogic 等)
  • Less production ready - Storm/S4
  • NoSQL Databases - (columnar 和 key-value):最適合用作數據 warehouse/database 的分析附加工具

沒有SQL個解決方案

  • KV Store - Keyspace、Flare、SchemaFree、RAMCloud、Oracle NoSQL Database (OnDB)
  • KV Store - Dynamo、Voldemort、Dynomite、SubRecord、Mo8onDb、DovetailDB
  • KV Store (分層) - GT.m、Cache
  • KV Store (有序) - TokyoTyrant、Lightcloud、NMDB、Luxio、MemcacheDB、Actord
  • KV Cache - Memcached、Repcached、Coherence、Infinispan、EXtremeScale、JBossCache、Velocity、Terracoqua
  • Tuple Store - Gigaspaces、Coord、Apache River
  • 對象 Database - ZopeDB、DB40、Shoal
  • 文檔商店 - CouchDB、Cloudant、Couchbase、MongoDB、Jackrabbit、XML-Databases、ThruDB、CloudKit、Prsevere、Riak-Basho、Scalaris
  • 寬列存儲 - BigTable、HBase、Apache Cassandra、Hypertable、KAI、OpenNeptune、Qbase、KDI

數據的多樣性:大數據中的Data Cleaning問題簡介

  • RDBMS - 靜態結構/架構,不促進敏捷、探索性環境。
  • NoSQL - 半結構化,結構足夠在存儲數據之前無需精確架構即可存儲數據
  • 數據清理問題

Hadoop

  • 何時選擇 Hadoop?
  • 結構化 - 企業數據倉庫/數據庫可以存儲大量數據 (成本高) 但會施加結構 (不利於主動探索)
  • 半結構化數據 - 使用傳統解決方案 (DW/DB) 很難進行處理
  • 數據倉庫 = 巨大的努力,即使在實施後也仍然是靜態的
  • 對於各種各樣的數據,在商品硬件上進行壓縮 - HADOOP
  • 創建 Hadoop 集群所需的商品硬件

Map Reduce /HDFS 簡介

  • MapReduce - 將計算分配到多個服務器
  • HDFS - 使數據在計算過程中本地可用 (具有冗餘)
  • 數據 - 可以是非結構化的/無架構的 (與 RDBMS 不同)
  • 開發人員負責理解數據
  • Programming MapReduce = 處理 Java (優缺點)、手動加載數據到 HDFS

第 02 天

Big Data 生態系統 -- 構建 Big Data ETL (提取、轉換、加載) -- 哪些 Big Data 工具可以使用以及何時使用?

  • Hadoop 與其他 NoSQL 解決方案的比較
  • 對數據進行交互式、隨機訪問
  • 位於 Hadoop 之上的 Hbase (列導向數據庫)
  • 對數據進行隨機訪問,但施加了限制 (最大 1 PB)
  • 不利於即席分析,適合日誌、計數、時間序列
  • Sqoop - 從數據庫導入到 Hive 或 HDFS (JDBC/ODBC 訪問)
  • Flume - 將數據流 (例如日誌數據) 引入 HDFS

大數據 Management 系統

  • 搬家零件、計算節點啟動/故障:ZooKeeper - 用於配置/協調/命名服務
  • 複雜的管道/工作流程:Oozie - 管理工作流程、依賴關係、雛菊鏈
  • 部署、配置、集群管理、升級等 (系統管理):Ambari
  • 在雲端:Whirr

Predictive Analytics -- 基於基礎技術和機器學習的商業智慧

  • Machine Learning 介紹
  • 學習分類技術
  • 貝葉斯預測 -- 準備訓練文件
  • 支持向量機
  • KNN p-樹代數和垂直挖掘
  • Neural Networks
  • Big Data 大變量問題 -- 隨機森林 (RF)
  • Big Data 自動化問題 -- 多模型集合 RF
  • 通過 Soft10-M 自動化
  • 文本分析工具-Treeminer
  • Agile 學習
  • 基於代理的學習
  • 分佈式學習
  • 介紹預測分析的開源工具:R、Python、Rapidminer、Mahut

Predictive Analytics 生態系統及其在刑事情報分析中的應用

  • 技術和調查過程
  • 洞察分析
  • 可視化分析
  • 結構化預測分析
  • 非結構化預測分析
  • 威脅/欺詐星/供應商檔案分析
  • 推薦引擎
  • 模式檢測
  • 規則/場景發現 - 失敗、欺詐、優化
  • 根本原因發現
  • 情感分析
  • 客戶關係管理分析
  • 網絡分析
  • 從錄音、證人證詞、網絡閒聊等獲取信息的文本分析
  • 技術輔助審查
  • 欺詐分析
  • 實時分析

第 03 天

在 Hadoop 上進行實時和 Scalable 分析

  • 為什麼普通的分析算法在 Hadoop/HDFS 中失敗
  • Apache Hama - 用於大宗同步分佈計算
  • Apache SPARK-用於集群計算和實時分析
  • CMU Graphics Lab2-針對分佈式計算的圖形基準異步方法
  • KNN p -- Treeminer 的一種基於代數的方法,可降低操作的硬件成本

電子數據展示和取證工具

  • 針對 Big Data 與舊數據的 eDiscovery - 成本和性能的比較
  • 預測編碼和技術輔助審查 (TAR)
  • vMiner 的現場演示,以了解 TAR 如何促進更快的發現
  • 通過 HDFS 更快地進行索引 - 數據的速度
  • NLP (自然語言處理) - 開源產品和技術
  • 外語的 eDiscovery -- 用於外語處理的技術

大數據 BI for Cyber Security - 獲取 360 度視圖、快速數據收集和威脅識別

  • 了解安全分析的基本知識--攻擊面、安全錯誤配置、主機防禦
  • 網絡基礎設施/大型數據管道/實時分析的響應 ETL
  • 規範性與預測性 - 基於固定規則的與從元數據自動發現威脅規則的區別

為犯罪情報分析收集不同的數據

  • 利用物聯網 (Internet of Things) 作為傳感器來捕獲數據
  • 利用衛星影像進行國內監視
  • 利用監控和圖像數據進行刑事識別
  • 其他數據收集技術 -- 無人機、身體攝像機、GPS 標記系統和熱成像技術
  • 結合自動數據檢索和從線人、訊問和研究中獲得的數據
  • Forecasting 犯罪活動

第 04 天

在欺詐分析中來自 Big Data 的欺詐預防商業智慧

  • 欺詐分析的基本分類 -- 基於規則的與預測分析
  • 監督式和非監督式機器學習在欺詐模式檢測中的應用
  • Business 對商業欺詐、醫療索賠欺詐、保險欺詐、逃稅和洗錢的影響

Social Media 分析——情報收集和分析

  • Social Media 被罪犯用來組織、招募和計劃的信息
  • 提取社交媒體數據的 Big Data ETL API
  • 文本、圖像、元數據和視頻
  • 從社交媒體提要中進行情感分析
  • 對社交媒體提要進行上下文和非上下文過濾
  • 整合不同社交媒體的 Social Media 儀表板
  • 社交媒體檔案的自動化檔案分析
  • 將通過 Treeminer 工具現場演示每個分析

Big Data 圖像處理和視頻源分析

  • Big Data 中的圖像存儲技術 -- 對於超過 petabytes 的數據的存儲解決方案
  • LTFS (Linear Tape File System) 和 LTO (Linear Tape Open)
  • GPFS-LTFS (General Parallel File System -  Linear Tape File System) -- 大圖像數據的分層存儲解決方案
  • 圖像分析的基本原則
  • 物體識別
  • 圖像分割
  • 運動追踪
  • 3-D 圖像重建

Bio指標、DNA 和下一代鑒定程式

  • 超越指紋識別和面部識別
  • 語音識別、擊鍵 (分析用戶的打字模式) 和 CODIS (組合 DNA 索引系統)
  • 超越 DNA 匹配:利用法醫 DNA 表型技術從 DNA 樣本構建面孔

Big Data 用於快速存取各種資料和顯示的儀錶板:

  • 將現有應用程序平台與 Big Data 儀表板集成
  • Big Data 管理
  • Big Data 儀表板的案例研究:Tableau 和 Pentaho
  • 使用 Big Data 應用程序在 Govt 中推送基於位置的服務
  • 跟蹤系統和管理

第 05 天

如何證明在組織內實施 Big Data BI 的合理性:

  • 定義實施 Big Data 的 ROI (投資回報率)
  • 收集和準備數據時節省分析師時間的案例研究 - 提高生產力
  • 降低數據庫許可證成本帶來的收入增長
  • 基於位置的服務帶來的收入增長
  • 欺詐預防帶來的成本節省
  • 計算來自 Big Data 實施的約當費用與收入增益/節省的綜合電子表格方法。

用 Big Data 系統替換舊數據系統的分步過程

  • Big Data 迁移路线图
  • 在設計 Big Data 系統之前,需要哪些關鍵信息?
  • 計算數據的 Volume、Velocity、Variety 和 Veracity 有哪些不同方法
  • 如何估算數據增長
  • 案例研究

審查 Big Data 供應商並審查其產品。

  • 埃克森哲
  • APTEAN (前身為 CDC Software)
  • Cisco 系統
  • Cloudera
  • Dell
  • EMC
  • GoodData Corporation
  • Guavus
  • 日立數據系統
  • Hortonworks
  • 惠普
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (前身為 10Gen)
  • MU Sigma
  • Netapp
  • Opera Solutions
  • Oracle
  • Pentaho
  • Platfora
  • Qliktech
  • Quantum
  • Rackspace
  • Revolution Analytics
  • Salesforce
  • SAP
  • SAS 學院
  • Sisense
  • 軟件 AG/Terracotta
  • Soft10 自動化
  • Splunk
  • Sqrrl
  • 超級微
  • Tableau 軟件
  • Teradata
  • Think Big Analytics
  • Tidemark Systems
  • Treeminer
  • VMware (EMC 的一部分)

問答環節

最低要求

  • 了解执法流程和数据系统
  • 对SQL/Oracle或关系数据库有基本了解
  • 对统计数据(电子表格级别)有基本了解

受众

  • 具有技术背景的执法专家
 35 時間:

人數


每位參與者的報價

客戶評論 (1)

Upcoming Courses

課程分類