ข้อเสนอแนะในการพัฒนาระบบและtechnology trend...
TRANSCRIPT
ข้อเสนอแนะในการพัฒนาระบบ และ Technology Trend ที่เกี่ยวข้อง
1
บรรยายโดย ดร.ปิยวุฒิ ศรีชัยกุลหน่วยวิจัยการวิเคราะห์ข้อมูลและการค านวณ
ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติส านักงานพัฒนาวิทยาศาสตร์และเทคโนโลยี
ภาพรวมการให้บริการข้อมูล สปสช.
2
โรงพยาบาล
โรงพยาบาลส่งเสริมสุขภาพต าบล (รพ.สต.)
หน่วยบริการด้านสุขภาพอื่นๆ
โรงพยาบาลและหน่วยบริการ
สถาบันการศึกษา
องค์กรและหน่วยงานที่ต้องการข้อมูล
ข้อมูลผู้ป่วยและการมารับบริการ
NHSO’s IT problems
NHSO’s current problems:
ผู้ให้บริการ (สปสช.) ผู้รับบริการ*
• ทรัพยากรที่ใช้ในการประมวลผลมจี ากัด(เจ้าหน้าที่ / Hardware / Software)
• โครงสร้างข้อมูลมกีารปรบัเปลี่ยนบอ่ย• รูปแบบรายงานมกีารปรบัเปลีย่นบ่อย และมีความ
หลากหลาย• Concern เรื่อง Data Privacy ในการเปิดเผยข้อมลูผู้ป่วย
• ขาดเครื่องมือในการจดัการข้อมลู(Big Data Processing Tool)
• โครงสร้างข้อมูล สปสช. มีความซับซ้อน / learning curve สูง
• ถูกจ ากัดการได้มาซึ่งข้อมูลผูป้่วย (เนื่องจาก สปสช. กังวลในเรื่อง Data Privacy)
*เน้นกลุ่ม secondary use of data
Suggestions: การเพ่ิมความสามารถของระบบ IT เดิม และการจัดการ Data Privacy
ผูข้อขอ้มูล
Current System
Recommended Systemผู้ให้บริการ (สปสช.)
✓ ทรัพยากรที่ใช้ในการประมวลผลมีจ ากัด(เจ้าหน้าที่ / Hardware / Software)
• โครงสร้างข้อมูลมีการปรับเปลี่ยนบ่อย• รูปแบบรายงานมีการปรับเปลี่ยนบ่อย และ
มีความหลากหลาย• Concern เรื่อง Data Privacy ในการเปิดเผย
ข้อมูลผู้ป่วย
ผู้รับบริการ
✓ ขาดเครื่องมือในการจัดการข้อมูล(Big Data Processing Tool)
✓ โครงสร้างข้อมูล สปสช. มีความซับซ้อน / learning curve สูง
• ถูกจ ากัดการได้มาซึ่งข้อมูลผู้ป่วย(เนื่องจาก สปสช. กังวลในเรื่อง Data Privacy)
Query Processing
Server
Self-service
Query
ผูข้อขอ้มูล
Recommended Systemผู้ให้บริการ (สปสช.)
✓ ทรัพยากรที่ใช้ในการประมวลผลมีจ ากัด(เจ้าหน้าที่ / Hardware / Software)
✓ โครงสร้างข้อมูลมีการปรับเปลี่ยนบ่อย• รูปแบบรายงานมีการปรับเปลี่ยนบ่อย และ
มีความหลากหลาย• Concern เรื่อง Data Privacy ในการเปิดเผย
ข้อมูลผู้ป่วย
ผู้รับบริการ
✓ ขาดเครื่องมือในการจัดการข้อมูล(Big Data Processing Tool)
✓ โครงสร้างข้อมูล สปสช. มีความซับซ้อน / learning curve สูง
• ถูกจ ากัดการได้มาซึ่งข้อมูลผู้ป่วย(เนื่องจาก สปสช. กังวลในเรื่อง Data Privacy)
Query Processing
Server
Self-service
Query
IntelligenceMapping
ผูข้อขอ้มูล
Recommended Systemผู้ให้บริการ (สปสช.)
✓ ทรัพยากรที่ใช้ในการประมวลผลมีจ ากัด(เจ้าหน้าที่ / Hardware / Software)
✓ โครงสร้างข้อมูลมีการปรับเปลี่ยนบ่อย✓ รูปแบบรายงานมีการปรับเปลี่ยนบ่อย และ
มีความหลากหลาย• Concern เรื่อง Data Privacy ในการเปิดเผย
ข้อมูลผู้ป่วย
ผู้รับบริการ
✓ ขาดเครื่องมือในการจัดการข้อมูล(Big Data Processing Tool)
✓ โครงสร้างข้อมูล สปสช. มีความซับซ้อน / learning curve สูง
• ถูกจ ากัดการได้มาซึ่งข้อมูลผู้ป่วย(เนื่องจาก สปสช. กังวลในเรื่อง Data Privacy)
Query Processing
Server
Self-service
Query
IntelligenceMapping
IntelligenceReporting
ผูข้อขอ้มูล
ตัวอย่างโปรแกรมData Integration และ Self-service Query
10
Mapping Tool
11ที่มา : https://blog.altova.com/tag/data-mapping/page/5/
Virtual Data Room
12ที่มา : https://blogs.sap.com/2017/07/18/understanding-the-basics-of-big-data-hadoop-and-sap-vora/
Virtual Data Room
13ที่มา : https://blogs.sap.com/2014/03/15/step-by-step-guide-of-modeling-hana-views-into-bw-in-sap-bw-74-on-hana/
Data Privacy: Motivations, Definitions & Methods
14
Motivation: Potential Value of Open Data Across Industry
Original source: McKinsey Global Institute “Open data: Unlocking innovation and performance with liquid information” (excerpted from SAS TR 1884-2015)
Healthcare Data มีมูลค่าประมาณ 300 ถึง450 พันล้าน USD (เฉพาะส่วนที่สามารถประเมินได้ จากการศึกษาในปี 2013)
Health Insurance Portability and Accountability Act
• HIPAA Privacy Rule protects all "individually identifiable health information" (called Protected Health Information – PHI) held or transmitted by a covered entity or its business associate, in any form or media, whether electronic, paper, or oral.
• HIPAA on De-Identified Health Information: there are no restrictions on the use or disclosure of de-identified health information.14 De-identified health information neither identifies nor provides a reasonable basis to identify an individual. There are two ways to de-identify information; either:
(1) a formal determination by a qualified statistician; (ใช้ expert)(2) the removal of specified identifiers of the individual -> “HIPAA Safe Harbor” (Protocol)
https://www.hhs.gov/hipaa/for-professionals/privacy/laws-regulations/index.html
Recognitions of Importance and Utility of Data De-Identification (in the US)• ก.ศึกษาฯ สหรัฐ: “หน่วยงานทางการศึกษา สามารถเปิดเผย ผลการเรียนของนักเรียน (student records) ได้เลยโดยไม่ต้องขอความยินยอม หากข้อมูลเหล่านั้นได้รับการท า deidentification แล้ว”
• HIPAA’s privacy rules และ Health Information Technology for Economic and Clinical Health Act (HITECH Act) ไม่ครอบคลุมถึง health information ที่ถูก de-identification แล้ว
• Foodborne Illness Surveillance System ของ CDC ก าหนดว่าต้องเปิดเผยข้อมูลการเจ็บป่วยที่aggregated และ de-identified มาแล้ว แก่สาธารณะ
• หน่วยงานทีต่้องให้ข้อมูล drug safety แก่ Secretary of Health and Human Services ต้องสามารถให้ข้อมูลดังกล่าวที่ผ่านการ de-identification ได้
• ข้อมูลรายงานความปลอดภัยทางการบิน (voluntary safety report) ที่ถูกการท า de-identification แล้วจะต้องไม่เป็นความลับแก่สาธารณะ
National Institute of Standards and Technology ( NIST) IR8053 http://dx.doi.org/10.6028/NIST.IR.8053
ตัวอย่างระบบให้บริการ “Secondary Use” of Clinical Data
• In the clinical trials world, there is a tremendous push towards transparency and access to data for “secondary use,” that is, for additional research outside of the scope of original collection intentions.
https://www.clinicalstudydatarequest.com/
GlaxoSmithKline announced a system that would allow researchers from around the globe access to anonymized patient-level clinical trials data (Nisen & Rockhold, 2013)
From SAS Technical Paper 1884-2015: Practical Implications of Sharing Data: A Primer on Data Privacy, Anonymization, and De-Identification
De-identification vs Anonymization (นิยาม)
• De-identification: ลบหรืออ าพราง identifier เพ่ือป้องกันกรณีที่ข้อมูลรั่วไหลท าให้ identity ในข้อมูลถูกเปิดเผยโดยไม่ตั้งใจ (แต่อาจยังสามารถให้ re-link ข้อมูลกับ identity ได้เฉพาะกับ trusted parties)
• Anonymization: เป็นการ De-identification ประเภทหนึ่ง ที่มุ่งไม่ให้สามารถ re-link กับ identity ได้อีกเลย (เช่นการเก็บข้อมูลที่ไม่บันทึก ID ตั้งแต่ต้น)
From SAS Technical Paper 1884-2015: Practical Implications of Sharing Data: A Primer on Data Privacy, Anonymization, and De-Identification
Some of De-Identification Methods
Suppression: The personal identifiers can be suppressed, removed, or replaced with completely random values.Aggregation: The personal identifiers of a selected field of data can be replaced with, e.g., the average value for the entire group of data.Generalization: The personal identifiers can be reported as being within a given range or as a member of a set (i.e., names can be replaced with “PERSON NAME”).Perturbation: The personal identifiers can be exchanged with other information within a defined level of variation (i.e., DOB may be randomly adjusted -5 or +5 years).Swapping: The personal identifiers can be replaced between records (i.e., swapping the ZIP codes of two unrelated records).
HIPAA Safe Harbor
18 data elements (direct identifiers) that must be removed (suppressed) or generalized in a data set in order for it to be considered “de-identified.” (ตาม HIPAA Act)
1. Names2. Zip codes (except first three)3. All elements of dates (except year)4. Telephone numbers5. Fax numbers6. Electronic mail addresses7. Social security numbers8. Medical record numbers9. Health plan beneficiary numbers
10. Account numbers11. Certificate or license Numbers12. Vehicle identifiers and serial numbers, including license plate numbers13. Device identifiers and serial numbers14. Web Universal Resource Locators (URLs)15. Internet Protocol (IP) address numbers16. Biometric identifiers, including finger and voice prints17. Full face photographic images and any comparable images18. Any other unique identifying number, characteristic or code
From SAS Technical Paper 1884-2015: Practical Implications of Sharing Data: A Primer on Data Privacy, Anonymization, and De-Identification
Recent De-Identification Technique: Differential Privacy
• หลักการ: ใช้ randomized algorithm เพื่อ perturb ข้อมูลโดย add random noise หรือท า random sampling ในการ de-identification
• Apple Inc. ใช้ข้อมูลพฤติกรรมการใช้งาน เพื่อปรับปรุงผลิตภัณฑ์ เช่น QuickType Emoji suggestions Lookup Hints, Safari Energy Draining (from certain domains), Health data โดยมีการท า de-identification ด้วย differential privacy • จ ากัดข้อมูลที่ donate จาก user เพื่อรักษา privacy • Emoji Suggestions สุ่มเลือก การใช้ Emoji มากสุดไม่เกิน 1 donation (สุ่ม) / user• Safari Energy Draining สุ่มเลือก incident ของ Safari บน domain ท่ี crash หรือใช้ energy เยอะ 2 ครั้ง / user
• Google และ Uber ต่างศึกษาและพัฒนา differential privacy ในการ de-identify ข้อมูลของลูกค้าจากผลิตภัณฑ์ของตนก่อนวิเคราะห์เช่นกัน
Differential Privacy Tools
• PSI (Harvard) https://privacytools.seas.harvard.edu/differential-privacy (research/ opensource)
• DataTag (Harvard) https://datatags.org/ (research/ opensource) • Fuzz (Upenn) http://privacy.cis.upenn.edu/software.html (research/ opensource)• SQL Differential Privacy (Uber) https://github.com/uber/sql-differential-privacy
(opensource)• Privitar https://www.privitar.com/ (proprietary)
สรุปการท า De-identification
• Direct Identifier (มัก) ไม่มีประโยชน์ในเชิงสถิติ -> ส่วนใหญ่จะตัดทิ้งหรือใช้ pseudonym เพื่อlink ข้อมูล / Quasi-Identifier มีประโยชน์ในเชิงสถิติ ต้องวิเคราะห์ความเสี่ยง และท า de-identification
• วิธีการ De-identification ไม่ตายตัว ขึ้นกับลักษณะของข้อมูล และการน าไปวิเคราะห์
• ต้องมีการท า evaluation ผลการ de-identification ก่อนว่าเสี่ยงเกินกว่าที่จะยอมรับได้หรือไม่ก่อนจะเปิดเผยข้อมูล
• De-identification ช่วยลดความเสี่ยงได้ แต่ไม่ได้หมายความว่าจะปลอดภัย 100% -> อาจต้องมีmechanism ช่วยป้องกันเพิ่มเติม (Data Release Models & Controls)
Data Release Models and Data Controls
• The Release and Forget model [ให้แล้วให้เลย]
• The Data Use Agreement (DUA) model [ให้แบบมีข้อตกลง – ห้ามน าไป re-identified ด้วยวิธีการใดก็ตาม]
• The Enclave model: the de-identified data may be kept in some kind of segregated enclave that restricts the export of the original data, and instead accepts queries from qualified researchers, runs the queries on the de-identified data, and responds with results. [ท า virtual data room]
National Institute of Standards and Technology ( NIST) IR8053 http://dx.doi.org/10.6028/NIST.IR.8053
Segregated Enclave
Summary
ผู้ให้บริการ (สปสช.)
• ทรัพยากรที่ใช้ในการประมวลผลมีจ ากัด(เจ้าหน้าที่ / Hardware / Software)
• โครงสร้างข้อมูลมีการปรับเปลี่ยนบ่อย• รูปแบบรายงานมีการปรับเปลี่ยนบ่อย และ
มีความหลากหลาย• Concern เรื่อง Data Privacy ในการเปิดเผย
ข้อมูลผู้ป่วย
ผู้รับบริการ
• ขาดเครื่องมือในการจัดการข้อมูล(Big Data Processing Tool)
• โครงสร้างข้อมูล สปสช. มีความซับซ้อน / learning curve สูง
• ถูกจ ากัดการได้มาซึ่งข้อมูลผู้ป่วย(เนื่องจาก สปสช. กังวลในเรื่อง Data Privacy)
Problems: Recommendations:
• พัฒนาระบบ Intelligent Mapping & Reporting• พัฒนาระบบ Self Service Query และ Query
Processing Server เช่น Virtual Data Room • พัฒนาการท า De-identification และ Data Usage
Agreement
ขอบคุณครับ
27
นายปฏิพัทธ์ ตุ้มสังข์ทอง
นายวีระชัย จันทร์สุด
ดร.ปิยวุฒิ ศรีชัยกุล
ดร.อานนท์ แปลงประสพโชค