Thank you for sending your enquiry! One of our team members will contact you shortly.
Thank you for sending your booking! One of our team members will contact you shortly.
課程簡介
第 01 天
刑事情報分析中 Big Data Business Intelligence 的概述
- 來自執法部門的案例研究 - 預測性警務
- Big Data 在執法機構的採用率以及它們如何圍繞 Big Data Predictive Analytics 調整它們未來的運營
- 槍聲傳感器、監控視頻和社交媒體等新興技術解決方案
- 利用 Big Data 技術減輕信息過載
- 使用 Big Data 與舊數據接軌
- 對預測分析中啟用技術的基本了解
- Data Integration 和儀表板可視化
- 欺詐管理
- Business Rules 和欺詐檢測
- 威脅檢測和檔案測試
- Big Data 實施的成本效益分析
Big Data 簡介
- Big Data 的主要特徵 - Volume、Variety、Velocity 和 Veracity。
- MPP (Massively Parallel Processing) 架構
- Data Warehouses - 靜態架構、緩慢演變的數據集
- MPP Databases:Greenplum、Exadata、Teradata、Netezza、Vertica 等。
- Hadoop 基於的解決方案 - 對數據集結構沒有條件。
- 典型模式:HDFS、MapReduce (crunch)、從 HDFS 獲取
- Apache Spark 用於流處理
- Batch-適合分析/非交互式
- Volume:CEP 流 Streaming 數據
- 典型選擇 - CEP 產品 (例如 Infostreams、Apama、MarkLogic 等)
- Less production ready - Storm/S4
- NoSQL Databases - (columnar 和 key-value):最適合用作數據 warehouse/database 的分析附加工具
沒有SQL個解決方案
- KV Store - Keyspace、Flare、SchemaFree、RAMCloud、Oracle NoSQL Database (OnDB)
- KV Store - Dynamo、Voldemort、Dynomite、SubRecord、Mo8onDb、DovetailDB
- KV Store (分層) - GT.m、Cache
- KV Store (有序) - TokyoTyrant、Lightcloud、NMDB、Luxio、MemcacheDB、Actord
- KV Cache - Memcached、Repcached、Coherence、Infinispan、EXtremeScale、JBossCache、Velocity、Terracoqua
- Tuple Store - Gigaspaces、Coord、Apache River
- 對象 Database - ZopeDB、DB40、Shoal
- 文檔商店 - CouchDB、Cloudant、Couchbase、MongoDB、Jackrabbit、XML-Databases、ThruDB、CloudKit、Prsevere、Riak-Basho、Scalaris
- 寬列存儲 - BigTable、HBase、Apache Cassandra、Hypertable、KAI、OpenNeptune、Qbase、KDI
數據的多樣性:大數據中的Data Cleaning問題簡介
- RDBMS - 靜態結構/架構,不促進敏捷、探索性環境。
- NoSQL - 半結構化,結構足夠在存儲數據之前無需精確架構即可存儲數據
- 數據清理問題
Hadoop
- 何時選擇 Hadoop?
- 結構化 - 企業數據倉庫/數據庫可以存儲大量數據 (成本高) 但會施加結構 (不利於主動探索)
- 半結構化數據 - 使用傳統解決方案 (DW/DB) 很難進行處理
- 數據倉庫 = 巨大的努力,即使在實施後也仍然是靜態的
- 對於各種各樣的數據,在商品硬件上進行壓縮 - HADOOP
- 創建 Hadoop 集群所需的商品硬件
Map Reduce /HDFS 簡介
- MapReduce - 將計算分配到多個服務器
- HDFS - 使數據在計算過程中本地可用 (具有冗餘)
- 數據 - 可以是非結構化的/無架構的 (與 RDBMS 不同)
- 開發人員負責理解數據
- Programming MapReduce = 處理 Java (優缺點)、手動加載數據到 HDFS
第 02 天
Big Data 生態系統 -- 構建 Big Data ETL (提取、轉換、加載) -- 哪些 Big Data 工具可以使用以及何時使用?
- Hadoop 與其他 NoSQL 解決方案的比較
- 對數據進行交互式、隨機訪問
- 位於 Hadoop 之上的 Hbase (列導向數據庫)
- 對數據進行隨機訪問,但施加了限制 (最大 1 PB)
- 不利於即席分析,適合日誌、計數、時間序列
- Sqoop - 從數據庫導入到 Hive 或 HDFS (JDBC/ODBC 訪問)
- Flume - 將數據流 (例如日誌數據) 引入 HDFS
大數據 Management 系統
- 搬家零件、計算節點啟動/故障:ZooKeeper - 用於配置/協調/命名服務
- 複雜的管道/工作流程:Oozie - 管理工作流程、依賴關係、雛菊鏈
- 部署、配置、集群管理、升級等 (系統管理):Ambari
- 在雲端:Whirr
Predictive Analytics -- 基於基礎技術和機器學習的商業智慧
- Machine Learning 介紹
- 學習分類技術
- 貝葉斯預測 -- 準備訓練文件
- 支持向量機
- KNN p-樹代數和垂直挖掘
- Neural Networks
- Big Data 大變量問題 -- 隨機森林 (RF)
- Big Data 自動化問題 -- 多模型集合 RF
- 通過 Soft10-M 自動化
- 文本分析工具-Treeminer
- Agile 學習
- 基於代理的學習
- 分佈式學習
- 介紹預測分析的開源工具:R、Python、Rapidminer、Mahut
Predictive Analytics 生態系統及其在刑事情報分析中的應用
- 技術和調查過程
- 洞察分析
- 可視化分析
- 結構化預測分析
- 非結構化預測分析
- 威脅/欺詐星/供應商檔案分析
- 推薦引擎
- 模式檢測
- 規則/場景發現 - 失敗、欺詐、優化
- 根本原因發現
- 情感分析
- 客戶關係管理分析
- 網絡分析
- 從錄音、證人證詞、網絡閒聊等獲取信息的文本分析
- 技術輔助審查
- 欺詐分析
- 實時分析
第 03 天
在 Hadoop 上進行實時和 Scalable 分析
- 為什麼普通的分析算法在 Hadoop/HDFS 中失敗
- Apache Hama - 用於大宗同步分佈計算
- Apache SPARK-用於集群計算和實時分析
- CMU Graphics Lab2-針對分佈式計算的圖形基準異步方法
- KNN p -- Treeminer 的一種基於代數的方法,可降低操作的硬件成本
電子數據展示和取證工具
- 針對 Big Data 與舊數據的 eDiscovery - 成本和性能的比較
- 預測編碼和技術輔助審查 (TAR)
- vMiner 的現場演示,以了解 TAR 如何促進更快的發現
- 通過 HDFS 更快地進行索引 - 數據的速度
- NLP (自然語言處理) - 開源產品和技術
- 外語的 eDiscovery -- 用於外語處理的技術
大數據 BI for Cyber Security - 獲取 360 度視圖、快速數據收集和威脅識別
- 了解安全分析的基本知識--攻擊面、安全錯誤配置、主機防禦
- 網絡基礎設施/大型數據管道/實時分析的響應 ETL
- 規範性與預測性 - 基於固定規則的與從元數據自動發現威脅規則的區別
為犯罪情報分析收集不同的數據
- 利用物聯網 (Internet of Things) 作為傳感器來捕獲數據
- 利用衛星影像進行國內監視
- 利用監控和圖像數據進行刑事識別
- 其他數據收集技術 -- 無人機、身體攝像機、GPS 標記系統和熱成像技術
- 結合自動數據檢索和從線人、訊問和研究中獲得的數據
- Forecasting 犯罪活動
第 04 天
在欺詐分析中來自 Big Data 的欺詐預防商業智慧
- 欺詐分析的基本分類 -- 基於規則的與預測分析
- 監督式和非監督式機器學習在欺詐模式檢測中的應用
- Business 對商業欺詐、醫療索賠欺詐、保險欺詐、逃稅和洗錢的影響
Social Media 分析——情報收集和分析
- Social Media 被罪犯用來組織、招募和計劃的信息
- 提取社交媒體數據的 Big Data ETL API
- 文本、圖像、元數據和視頻
- 從社交媒體提要中進行情感分析
- 對社交媒體提要進行上下文和非上下文過濾
- 整合不同社交媒體的 Social Media 儀表板
- 社交媒體檔案的自動化檔案分析
- 將通過 Treeminer 工具現場演示每個分析
Big Data 圖像處理和視頻源分析
- Big Data 中的圖像存儲技術 -- 對於超過 petabytes 的數據的存儲解決方案
- LTFS (Linear Tape File System) 和 LTO (Linear Tape Open)
- GPFS-LTFS (General Parallel File System - Linear Tape File System) -- 大圖像數據的分層存儲解決方案
- 圖像分析的基本原則
- 物體識別
- 圖像分割
- 運動追踪
- 3-D 圖像重建
Bio指標、DNA 和下一代鑒定程式
- 超越指紋識別和面部識別
- 語音識別、擊鍵 (分析用戶的打字模式) 和 CODIS (組合 DNA 索引系統)
- 超越 DNA 匹配:利用法醫 DNA 表型技術從 DNA 樣本構建面孔
Big Data 用於快速存取各種資料和顯示的儀錶板:
- 將現有應用程序平台與 Big Data 儀表板集成
- Big Data 管理
- Big Data 儀表板的案例研究:Tableau 和 Pentaho
- 使用 Big Data 應用程序在 Govt 中推送基於位置的服務
- 跟蹤系統和管理
第 05 天
如何證明在組織內實施 Big Data BI 的合理性:
- 定義實施 Big Data 的 ROI (投資回報率)
- 收集和準備數據時節省分析師時間的案例研究 - 提高生產力
- 降低數據庫許可證成本帶來的收入增長
- 基於位置的服務帶來的收入增長
- 欺詐預防帶來的成本節省
- 計算來自 Big Data 實施的約當費用與收入增益/節省的綜合電子表格方法。
用 Big Data 系統替換舊數據系統的分步過程
- Big Data 迁移路线图
- 在設計 Big Data 系統之前,需要哪些關鍵信息?
- 計算數據的 Volume、Velocity、Variety 和 Veracity 有哪些不同方法
- 如何估算數據增長
- 案例研究
審查 Big Data 供應商並審查其產品。
- 埃克森哲
- APTEAN (前身為 CDC Software)
- Cisco 系統
- Cloudera
- Dell
- EMC
- GoodData Corporation
- Guavus
- 日立數據系統
- Hortonworks
- 惠普
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft
- MongoDB (前身為 10Gen)
- MU Sigma
- Netapp
- Opera Solutions
- Oracle
- Pentaho
- Platfora
- Qliktech
- Quantum
- Rackspace
- Revolution Analytics
- Salesforce
- SAP
- SAS 學院
- Sisense
- 軟件 AG/Terracotta
- Soft10 自動化
- Splunk
- Sqrrl
- 超級微
- Tableau 軟件
- Teradata
- Think Big Analytics
- Tidemark Systems
- Treeminer
- VMware (EMC 的一部分)
問答環節
最低要求
- 了解执法流程和数据系统
- 对SQL/Oracle或关系数据库有基本了解
- 对统计数据(电子表格级别)有基本了解
受众
- 具有技术背景的执法专家
35 時間:
客戶評論 (1)
Deepthi對我的需求非常敏感,她能夠分辨何時增加複雜性,何時應該保持克制,並採取更有條理的方法。 Deepthi真的按照我的步調工作,並確保我能夠自己使用新的功能/工具,首先給我演示,然後讓我自己重新創建這些項目,這真的有助於加深培訓。我對這次培訓的結果和Deepthi的專業水平感到非常滿意!
Deepthi - Invest Northern Ireland
Course - IBM Cognos Analytics
機器翻譯