big data infrastructure todo-tasks rfx framework
DESCRIPTION
Big data infrastructure todo-tasks Rfx FrameworkTRANSCRIPT
Overview of Rfx Framework / Platformhttps://docs.google.com/document/d/1wutns90tuW1PGR03tXhDE_DkrdWZtfvh9R_cJRtrXk/edit?usp=sharing
Big Data Infrastructure - TODO Tasks Update March 12, 2014 by Triều (@tantrieuf31)
● Module HTTP Log Server:○ Hot deployment/restart/shutdown Http Log Server○ Reactive streaming for Kafka Producer (RxJava)
■ https://github.com/Netflix/RxJava/wiki/TransformingObservables● Module Messaging (Kafka): https://bitbucket.org/trieunt/kafka
○ Tìm 1 cơ chế quản lý configs và rotate kafka logs 1 cách an toàn hơn (hiện đang bị 1 issue Kafka Consumer chưa đọc xong mà Kafka log đã move đi => kg tìm thấy offset để đọc tiếp => thiếu data)
○ Dự đoán tốc độ tăng file Kafka log để chọn 1 configs tối ưu cho từng loại sản phẩm (machine learning (linear regression) for system performance)
○ Tạo mapping (thời gian, offset và binary offset files) (lúc cần parse lại thì dễ tìm files)○ Quản lý + index lại offset của Kafka theo thời gian (giờ, ngày, ...), lúc cần thì set vào là chạy
reparse lại (hiện chưa implement)● Module Stream Data Processing: https://bitbucket.org/trieunt/rfx/wiki/Home
○ Quản lý memory của worker node (nếu set HeapSize quá thấp => Worker sẽ die/restart liên tục do kg đủ memory để chạy vì log nhiều)
○ Cơ chế extensions/plugins/hooking vào hệ thống (phân chia core và applications)○ Refactoring (tổ chức lại code cho rõ ràng) giữa logic code công việc giữa:
■ parse => ghi vào Redis (chỉ parse, counting và check rules)■ parse => ghi ra raw log files trong 1 worker (chỉ parse và write raw logs)
○ Unit Test Tools (Kafka Producer) + Test Tools (integration test) cho Reactive Topologies ○ Cải thiện chức năng debug log của Worker (ElasticSearch+Kibana)○ Monitor Front End cho tất cả các critical metrics:
■ worker nodes (logs, memory, restart time, running, died, uptime, downtime )■ alert/notification■ số lượng log đọc từ Kafka, parsed OK, check OK, save OK■ Disk Free, memory cho worker■ Backup Redis Data■ Simple Analytics Dashboard cho logs (analytics)
○ New Job Server (dùng Groovy script để dễ deploy và control qua Pub/Sub Redis)■ Synchronized Data job
● Module Active Intelligence (tính năng mới )● social data crawler Facebook/Twitter/Google+ (Rfx Social Data Crawler)● Clustering Stream Data (test case: tin tức về các vụ tai nạn xe cột / cướp giật / thảm họa thiên
nhiên) dùng Apache Spark http://spark.apache.org● Realtime Visualization Engine with HTML5 Web Socket (D3.js + Netty + Akka Actor)