big data infrastructure todo-tasks rfx framework

1
Overview of Rfx Framework / Platform https://docs.google.com/document/d/1wutns90tuW1PGR03tXhDE_DkrdWZtfvh9R_cJRtrXk/edit?usp=sharing Big Data Infrastructure - TODO Tasks Update March 12, 2014 by Triều (@tantrieuf31) Module HTTP Log Server: Hot deployment/restart/shutdown Http Log Server Reactive streaming for Kafka Producer (RxJava) https://github.com/Netflix/RxJava/wiki/TransformingObservables Module Messaging (Kafka): https://bitbucket.org/trieunt/kafka Tìm 1 cơ chế quản lý configs và rotate kafka logs 1 cách an toàn hơn (hiện đang bị 1 issue Kafka Consumer chưa đọc xong mà Kafka log đã move đi => kg tìm thấy offset để đọc tiếp => thiếu data) Dự đoán tốc độ tăng file Kafka log để chọn 1 configs tối ưu cho từng loại sản phẩm (machine learning (linear regression) for system performance) Tạo mapping (thời gian, offset và binary offset files) (lúc cần parse lại thì dễ tìm files) Quản lý + index lại offset của Kafka theo thời gian (giờ, ngày, ...), lúc cần thì set vào là chạy reparse lại (hiện chưa implement) Module Stream Data Processing: https://bitbucket.org/trieunt/rfx/wiki/Home Quản lý memory của worker node (nếu set HeapSize quá thấp => Worker sẽ die/restart liên tục do kg đủ memory để chạy vì log nhiều) Cơ chế extensions/plugins/hooking vào hệ thống (phân chia core và applications) Refactoring (tổ chức lại code cho rõ ràng) giữa logic code công việc giữa: parse => ghi vào Redis (chỉ parse, counting và check rules) parse => ghi ra raw log files trong 1 worker (chỉ parse và write raw logs) Unit Test Tools (Kafka Producer) + Test Tools (integration test) cho Reactive Topologies Cải thiện chức năng debug log của Worker (ElasticSearch+Kibana) Monitor Front End cho tất cả các critical metrics: worker nodes (logs, memory, restart time, running, died, uptime, downtime ) alert/notification số lượng log đọc từ Kafka, parsed OK, check OK, save OK Disk Free, memory cho worker Backup Redis Data Simple Analytics Dashboard cho logs (analytics) New Job Server (dùng Groovy script để dễ deploy và control qua Pub/Sub Redis) Synchronized Data job Module Active Intelligence (tính năng mới ) social data crawler Facebook/Twitter/Google+ (Rfx Social Data Crawler) Clustering Stream Data (test case: tin tức về các vụ tai nạn xe cột / cướp giật / thảm họa thiên nhiên) dùng Apache Spark http://spark.apache.org Realtime Visualization Engine with HTML5 Web Socket (D3.js + Netty + Akka Actor)

Upload: trieu-nguyen

Post on 26-Jan-2015

103 views

Category:

Technology


1 download

DESCRIPTION

Big data infrastructure todo-tasks Rfx Framework

TRANSCRIPT

Page 1: Big data infrastructure todo-tasks Rfx Framework

Overview of Rfx Framework / Platformhttps://docs.google.com/document/d/1wutns90tuW1PGR03tXhDE_­DkrdWZtfvh9R_cJRtrXk/edit?usp=sharing

Big Data Infrastructure - TODO Tasks Update March 12, 2014 by Triều (@tantrieuf31)

● Module HTTP Log Server:○ Hot deployment/restart/shutdown Http Log Server○ Reactive streaming for Kafka Producer (RxJava) 

■ https://github.com/Netflix/RxJava/wiki/Transforming­Observables● Module Messaging (Kafka): https://bitbucket.org/trieunt/kafka

○ Tìm 1 cơ chế quản lý configs và rotate kafka logs 1 cách an toàn hơn (hiện đang bị 1 issue Kafka Consumer chưa đọc xong mà Kafka log đã move đi => kg tìm thấy offset để đọc tiếp => thiếu data)

○ Dự đoán tốc độ tăng file Kafka log để chọn 1 configs tối ưu cho từng loại sản phẩm (machine learning (linear regression) for system performance)

○ Tạo mapping (thời gian, offset và binary offset files) (lúc cần parse lại thì dễ tìm files)○ Quản lý + index lại offset của Kafka theo thời gian (giờ, ngày, ...), lúc cần thì set vào là chạy 

reparse lại (hiện chưa implement)● Module Stream Data Processing: https://bitbucket.org/trieunt/rfx/wiki/Home

○ Quản lý memory của worker node (nếu set HeapSize quá thấp => Worker sẽ die/restart liên tục do kg đủ memory để chạy vì log nhiều)

○ Cơ chế extensions/plugins/hooking  vào hệ thống (phân chia core và applications)○ Refactoring (tổ chức lại code cho rõ ràng) giữa logic code công việc giữa: 

■ parse => ghi vào Redis (chỉ parse, counting và check rules)■ parse => ghi ra raw log files trong 1 worker (chỉ parse và write raw logs)

○ Unit Test Tools (Kafka Producer) + Test Tools (integration test) cho Reactive Topologies ○ Cải thiện chức năng debug log của Worker (ElasticSearch+Kibana)○ Monitor Front End cho tất cả các critical metrics:

■ worker nodes (logs, memory, restart time, running, died, uptime, downtime )■ alert/notification■ số lượng log đọc từ Kafka, parsed OK, check OK, save OK■ Disk Free, memory cho worker■ Backup Redis Data■ Simple Analytics Dashboard cho logs (analytics)

○ New Job Server (dùng Groovy script để dễ deploy và control qua Pub/Sub Redis)■ Synchronized Data job

● Module Active Intelligence (tính năng mới )● social data crawler Facebook/Twitter/Google+ (Rfx Social Data Crawler)● Clustering Stream Data (test case: tin tức về các vụ tai nạn xe cột / cướp giật / thảm họa thiên 

nhiên) ­ dùng Apache Spark http://spark.apache.org● Realtime Visualization Engine with HTML5 Web Socket (D3.js + Netty + Akka Actor)