ข้อเสนอแนะในการพัฒนาระบบและtechnology trend...

26
ข้อเสนอแนะในการพัฒนาระบบ และ Technology Trend ที่เกี่ยวข้อง 1 บรรยายโดย ดร.ปิยวุฒิ ศรีชัยกุล หน่วยวิจัยการวิเคราะห์ข้อมูลและการคานวณ ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ สานักงานพัฒนาวิทยาศาสตร์และเทคโนโลยี

Upload: others

Post on 01-Jun-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: ข้อเสนอแนะในการพัฒนาระบบและTechnology Trend ที่เกี่ยวข้อง · ข้อเสนอแนะในการพัฒนาระบบและTechnology

ข้อเสนอแนะในการพัฒนาระบบ และ Technology Trend ที่เกี่ยวข้อง

1

บรรยายโดย ดร.ปิยวุฒิ ศรีชัยกุลหน่วยวิจัยการวิเคราะห์ข้อมูลและการค านวณ

ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติส านักงานพัฒนาวิทยาศาสตร์และเทคโนโลยี

Page 2: ข้อเสนอแนะในการพัฒนาระบบและTechnology Trend ที่เกี่ยวข้อง · ข้อเสนอแนะในการพัฒนาระบบและTechnology

ภาพรวมการให้บริการข้อมูล สปสช.

2

โรงพยาบาล

โรงพยาบาลส่งเสริมสุขภาพต าบล (รพ.สต.)

หน่วยบริการด้านสุขภาพอื่นๆ

โรงพยาบาลและหน่วยบริการ

สถาบันการศึกษา

องค์กรและหน่วยงานที่ต้องการข้อมูล

ข้อมูลผู้ป่วยและการมารับบริการ

Page 3: ข้อเสนอแนะในการพัฒนาระบบและTechnology Trend ที่เกี่ยวข้อง · ข้อเสนอแนะในการพัฒนาระบบและTechnology

NHSO’s IT problems

Page 4: ข้อเสนอแนะในการพัฒนาระบบและTechnology Trend ที่เกี่ยวข้อง · ข้อเสนอแนะในการพัฒนาระบบและTechnology

NHSO’s current problems:

ผู้ให้บริการ (สปสช.) ผู้รับบริการ*

• ทรัพยากรที่ใช้ในการประมวลผลมจี ากัด(เจ้าหน้าที่ / Hardware / Software)

• โครงสร้างข้อมูลมกีารปรบัเปลี่ยนบอ่ย• รูปแบบรายงานมกีารปรบัเปลีย่นบ่อย และมีความ

หลากหลาย• Concern เรื่อง Data Privacy ในการเปิดเผยข้อมลูผู้ป่วย

• ขาดเครื่องมือในการจดัการข้อมลู(Big Data Processing Tool)

• โครงสร้างข้อมูล สปสช. มีความซับซ้อน / learning curve สูง

• ถูกจ ากัดการได้มาซึ่งข้อมูลผูป้่วย (เนื่องจาก สปสช. กังวลในเรื่อง Data Privacy)

*เน้นกลุ่ม secondary use of data

Suggestions: การเพ่ิมความสามารถของระบบ IT เดิม และการจัดการ Data Privacy

Page 5: ข้อเสนอแนะในการพัฒนาระบบและTechnology Trend ที่เกี่ยวข้อง · ข้อเสนอแนะในการพัฒนาระบบและTechnology

ผูข้อขอ้มูล

Current System

Page 6: ข้อเสนอแนะในการพัฒนาระบบและTechnology Trend ที่เกี่ยวข้อง · ข้อเสนอแนะในการพัฒนาระบบและTechnology

Recommended Systemผู้ให้บริการ (สปสช.)

✓ ทรัพยากรที่ใช้ในการประมวลผลมีจ ากัด(เจ้าหน้าที่ / Hardware / Software)

• โครงสร้างข้อมูลมีการปรับเปลี่ยนบ่อย• รูปแบบรายงานมีการปรับเปลี่ยนบ่อย และ

มีความหลากหลาย• Concern เรื่อง Data Privacy ในการเปิดเผย

ข้อมูลผู้ป่วย

ผู้รับบริการ

✓ ขาดเครื่องมือในการจัดการข้อมูล(Big Data Processing Tool)

✓ โครงสร้างข้อมูล สปสช. มีความซับซ้อน / learning curve สูง

• ถูกจ ากัดการได้มาซึ่งข้อมูลผู้ป่วย(เนื่องจาก สปสช. กังวลในเรื่อง Data Privacy)

Query Processing

Server

Self-service

Query

ผูข้อขอ้มูล

Page 7: ข้อเสนอแนะในการพัฒนาระบบและTechnology Trend ที่เกี่ยวข้อง · ข้อเสนอแนะในการพัฒนาระบบและTechnology

Recommended Systemผู้ให้บริการ (สปสช.)

✓ ทรัพยากรที่ใช้ในการประมวลผลมีจ ากัด(เจ้าหน้าที่ / Hardware / Software)

✓ โครงสร้างข้อมูลมีการปรับเปลี่ยนบ่อย• รูปแบบรายงานมีการปรับเปลี่ยนบ่อย และ

มีความหลากหลาย• Concern เรื่อง Data Privacy ในการเปิดเผย

ข้อมูลผู้ป่วย

ผู้รับบริการ

✓ ขาดเครื่องมือในการจัดการข้อมูล(Big Data Processing Tool)

✓ โครงสร้างข้อมูล สปสช. มีความซับซ้อน / learning curve สูง

• ถูกจ ากัดการได้มาซึ่งข้อมูลผู้ป่วย(เนื่องจาก สปสช. กังวลในเรื่อง Data Privacy)

Query Processing

Server

Self-service

Query

IntelligenceMapping

ผูข้อขอ้มูล

Page 8: ข้อเสนอแนะในการพัฒนาระบบและTechnology Trend ที่เกี่ยวข้อง · ข้อเสนอแนะในการพัฒนาระบบและTechnology

Recommended Systemผู้ให้บริการ (สปสช.)

✓ ทรัพยากรที่ใช้ในการประมวลผลมีจ ากัด(เจ้าหน้าที่ / Hardware / Software)

✓ โครงสร้างข้อมูลมีการปรับเปลี่ยนบ่อย✓ รูปแบบรายงานมีการปรับเปลี่ยนบ่อย และ

มีความหลากหลาย• Concern เรื่อง Data Privacy ในการเปิดเผย

ข้อมูลผู้ป่วย

ผู้รับบริการ

✓ ขาดเครื่องมือในการจัดการข้อมูล(Big Data Processing Tool)

✓ โครงสร้างข้อมูล สปสช. มีความซับซ้อน / learning curve สูง

• ถูกจ ากัดการได้มาซึ่งข้อมูลผู้ป่วย(เนื่องจาก สปสช. กังวลในเรื่อง Data Privacy)

Query Processing

Server

Self-service

Query

IntelligenceMapping

IntelligenceReporting

ผูข้อขอ้มูล

Page 9: ข้อเสนอแนะในการพัฒนาระบบและTechnology Trend ที่เกี่ยวข้อง · ข้อเสนอแนะในการพัฒนาระบบและTechnology

ตัวอย่างโปรแกรมData Integration และ Self-service Query

10

Page 10: ข้อเสนอแนะในการพัฒนาระบบและTechnology Trend ที่เกี่ยวข้อง · ข้อเสนอแนะในการพัฒนาระบบและTechnology

Mapping Tool

11ที่มา : https://blog.altova.com/tag/data-mapping/page/5/

Page 11: ข้อเสนอแนะในการพัฒนาระบบและTechnology Trend ที่เกี่ยวข้อง · ข้อเสนอแนะในการพัฒนาระบบและTechnology

Virtual Data Room

12ที่มา : https://blogs.sap.com/2017/07/18/understanding-the-basics-of-big-data-hadoop-and-sap-vora/

Page 12: ข้อเสนอแนะในการพัฒนาระบบและTechnology Trend ที่เกี่ยวข้อง · ข้อเสนอแนะในการพัฒนาระบบและTechnology

Virtual Data Room

13ที่มา : https://blogs.sap.com/2014/03/15/step-by-step-guide-of-modeling-hana-views-into-bw-in-sap-bw-74-on-hana/

Page 13: ข้อเสนอแนะในการพัฒนาระบบและTechnology Trend ที่เกี่ยวข้อง · ข้อเสนอแนะในการพัฒนาระบบและTechnology

Data Privacy: Motivations, Definitions & Methods

14

Page 14: ข้อเสนอแนะในการพัฒนาระบบและTechnology Trend ที่เกี่ยวข้อง · ข้อเสนอแนะในการพัฒนาระบบและTechnology

Motivation: Potential Value of Open Data Across Industry

Original source: McKinsey Global Institute “Open data: Unlocking innovation and performance with liquid information” (excerpted from SAS TR 1884-2015)

Healthcare Data มีมูลค่าประมาณ 300 ถึง450 พันล้าน USD (เฉพาะส่วนที่สามารถประเมินได้ จากการศึกษาในปี 2013)

Page 15: ข้อเสนอแนะในการพัฒนาระบบและTechnology Trend ที่เกี่ยวข้อง · ข้อเสนอแนะในการพัฒนาระบบและTechnology

Health Insurance Portability and Accountability Act

• HIPAA Privacy Rule protects all "individually identifiable health information" (called Protected Health Information – PHI) held or transmitted by a covered entity or its business associate, in any form or media, whether electronic, paper, or oral.

• HIPAA on De-Identified Health Information: there are no restrictions on the use or disclosure of de-identified health information.14 De-identified health information neither identifies nor provides a reasonable basis to identify an individual. There are two ways to de-identify information; either:

(1) a formal determination by a qualified statistician; (ใช้ expert)(2) the removal of specified identifiers of the individual -> “HIPAA Safe Harbor” (Protocol)

https://www.hhs.gov/hipaa/for-professionals/privacy/laws-regulations/index.html

Page 16: ข้อเสนอแนะในการพัฒนาระบบและTechnology Trend ที่เกี่ยวข้อง · ข้อเสนอแนะในการพัฒนาระบบและTechnology

Recognitions of Importance and Utility of Data De-Identification (in the US)• ก.ศึกษาฯ สหรัฐ: “หน่วยงานทางการศึกษา สามารถเปิดเผย ผลการเรียนของนักเรียน (student records) ได้เลยโดยไม่ต้องขอความยินยอม หากข้อมูลเหล่านั้นได้รับการท า deidentification แล้ว”

• HIPAA’s privacy rules และ Health Information Technology for Economic and Clinical Health Act (HITECH Act) ไม่ครอบคลุมถึง health information ที่ถูก de-identification แล้ว

• Foodborne Illness Surveillance System ของ CDC ก าหนดว่าต้องเปิดเผยข้อมูลการเจ็บป่วยที่aggregated และ de-identified มาแล้ว แก่สาธารณะ

• หน่วยงานทีต่้องให้ข้อมูล drug safety แก่ Secretary of Health and Human Services ต้องสามารถให้ข้อมูลดังกล่าวที่ผ่านการ de-identification ได้

• ข้อมูลรายงานความปลอดภัยทางการบิน (voluntary safety report) ที่ถูกการท า de-identification แล้วจะต้องไม่เป็นความลับแก่สาธารณะ

National Institute of Standards and Technology ( NIST) IR8053 http://dx.doi.org/10.6028/NIST.IR.8053

Page 17: ข้อเสนอแนะในการพัฒนาระบบและTechnology Trend ที่เกี่ยวข้อง · ข้อเสนอแนะในการพัฒนาระบบและTechnology

ตัวอย่างระบบให้บริการ “Secondary Use” of Clinical Data

• In the clinical trials world, there is a tremendous push towards transparency and access to data for “secondary use,” that is, for additional research outside of the scope of original collection intentions.

https://www.clinicalstudydatarequest.com/

GlaxoSmithKline announced a system that would allow researchers from around the globe access to anonymized patient-level clinical trials data (Nisen & Rockhold, 2013)

From SAS Technical Paper 1884-2015: Practical Implications of Sharing Data: A Primer on Data Privacy, Anonymization, and De-Identification

Page 18: ข้อเสนอแนะในการพัฒนาระบบและTechnology Trend ที่เกี่ยวข้อง · ข้อเสนอแนะในการพัฒนาระบบและTechnology

De-identification vs Anonymization (นิยาม)

• De-identification: ลบหรืออ าพราง identifier เพ่ือป้องกันกรณีที่ข้อมูลรั่วไหลท าให้ identity ในข้อมูลถูกเปิดเผยโดยไม่ตั้งใจ (แต่อาจยังสามารถให้ re-link ข้อมูลกับ identity ได้เฉพาะกับ trusted parties)

• Anonymization: เป็นการ De-identification ประเภทหนึ่ง ที่มุ่งไม่ให้สามารถ re-link กับ identity ได้อีกเลย (เช่นการเก็บข้อมูลที่ไม่บันทึก ID ตั้งแต่ต้น)

From SAS Technical Paper 1884-2015: Practical Implications of Sharing Data: A Primer on Data Privacy, Anonymization, and De-Identification

Page 19: ข้อเสนอแนะในการพัฒนาระบบและTechnology Trend ที่เกี่ยวข้อง · ข้อเสนอแนะในการพัฒนาระบบและTechnology

Some of De-Identification Methods

Suppression: The personal identifiers can be suppressed, removed, or replaced with completely random values.Aggregation: The personal identifiers of a selected field of data can be replaced with, e.g., the average value for the entire group of data.Generalization: The personal identifiers can be reported as being within a given range or as a member of a set (i.e., names can be replaced with “PERSON NAME”).Perturbation: The personal identifiers can be exchanged with other information within a defined level of variation (i.e., DOB may be randomly adjusted -5 or +5 years).Swapping: The personal identifiers can be replaced between records (i.e., swapping the ZIP codes of two unrelated records).

Page 20: ข้อเสนอแนะในการพัฒนาระบบและTechnology Trend ที่เกี่ยวข้อง · ข้อเสนอแนะในการพัฒนาระบบและTechnology

HIPAA Safe Harbor

18 data elements (direct identifiers) that must be removed (suppressed) or generalized in a data set in order for it to be considered “de-identified.” (ตาม HIPAA Act)

1. Names2. Zip codes (except first three)3. All elements of dates (except year)4. Telephone numbers5. Fax numbers6. Electronic mail addresses7. Social security numbers8. Medical record numbers9. Health plan beneficiary numbers

10. Account numbers11. Certificate or license Numbers12. Vehicle identifiers and serial numbers, including license plate numbers13. Device identifiers and serial numbers14. Web Universal Resource Locators (URLs)15. Internet Protocol (IP) address numbers16. Biometric identifiers, including finger and voice prints17. Full face photographic images and any comparable images18. Any other unique identifying number, characteristic or code

From SAS Technical Paper 1884-2015: Practical Implications of Sharing Data: A Primer on Data Privacy, Anonymization, and De-Identification

Page 21: ข้อเสนอแนะในการพัฒนาระบบและTechnology Trend ที่เกี่ยวข้อง · ข้อเสนอแนะในการพัฒนาระบบและTechnology

Recent De-Identification Technique: Differential Privacy

• หลักการ: ใช้ randomized algorithm เพื่อ perturb ข้อมูลโดย add random noise หรือท า random sampling ในการ de-identification

• Apple Inc. ใช้ข้อมูลพฤติกรรมการใช้งาน เพื่อปรับปรุงผลิตภัณฑ์ เช่น QuickType Emoji suggestions Lookup Hints, Safari Energy Draining (from certain domains), Health data โดยมีการท า de-identification ด้วย differential privacy • จ ากัดข้อมูลที่ donate จาก user เพื่อรักษา privacy • Emoji Suggestions สุ่มเลือก การใช้ Emoji มากสุดไม่เกิน 1 donation (สุ่ม) / user• Safari Energy Draining สุ่มเลือก incident ของ Safari บน domain ท่ี crash หรือใช้ energy เยอะ 2 ครั้ง / user

• Google และ Uber ต่างศึกษาและพัฒนา differential privacy ในการ de-identify ข้อมูลของลูกค้าจากผลิตภัณฑ์ของตนก่อนวิเคราะห์เช่นกัน

Page 22: ข้อเสนอแนะในการพัฒนาระบบและTechnology Trend ที่เกี่ยวข้อง · ข้อเสนอแนะในการพัฒนาระบบและTechnology

Differential Privacy Tools

• PSI (Harvard) https://privacytools.seas.harvard.edu/differential-privacy (research/ opensource)

• DataTag (Harvard) https://datatags.org/ (research/ opensource) • Fuzz (Upenn) http://privacy.cis.upenn.edu/software.html (research/ opensource)• SQL Differential Privacy (Uber) https://github.com/uber/sql-differential-privacy

(opensource)• Privitar https://www.privitar.com/ (proprietary)

Page 23: ข้อเสนอแนะในการพัฒนาระบบและTechnology Trend ที่เกี่ยวข้อง · ข้อเสนอแนะในการพัฒนาระบบและTechnology

สรุปการท า De-identification

• Direct Identifier (มัก) ไม่มีประโยชน์ในเชิงสถิติ -> ส่วนใหญ่จะตัดทิ้งหรือใช้ pseudonym เพื่อlink ข้อมูล / Quasi-Identifier มีประโยชน์ในเชิงสถิติ ต้องวิเคราะห์ความเสี่ยง และท า de-identification

• วิธีการ De-identification ไม่ตายตัว ขึ้นกับลักษณะของข้อมูล และการน าไปวิเคราะห์

• ต้องมีการท า evaluation ผลการ de-identification ก่อนว่าเสี่ยงเกินกว่าที่จะยอมรับได้หรือไม่ก่อนจะเปิดเผยข้อมูล

• De-identification ช่วยลดความเสี่ยงได้ แต่ไม่ได้หมายความว่าจะปลอดภัย 100% -> อาจต้องมีmechanism ช่วยป้องกันเพิ่มเติม (Data Release Models & Controls)

Page 24: ข้อเสนอแนะในการพัฒนาระบบและTechnology Trend ที่เกี่ยวข้อง · ข้อเสนอแนะในการพัฒนาระบบและTechnology

Data Release Models and Data Controls

• The Release and Forget model [ให้แล้วให้เลย]

• The Data Use Agreement (DUA) model [ให้แบบมีข้อตกลง – ห้ามน าไป re-identified ด้วยวิธีการใดก็ตาม]

• The Enclave model: the de-identified data may be kept in some kind of segregated enclave that restricts the export of the original data, and instead accepts queries from qualified researchers, runs the queries on the de-identified data, and responds with results. [ท า virtual data room]

National Institute of Standards and Technology ( NIST) IR8053 http://dx.doi.org/10.6028/NIST.IR.8053

Segregated Enclave

Page 25: ข้อเสนอแนะในการพัฒนาระบบและTechnology Trend ที่เกี่ยวข้อง · ข้อเสนอแนะในการพัฒนาระบบและTechnology

Summary

ผู้ให้บริการ (สปสช.)

• ทรัพยากรที่ใช้ในการประมวลผลมีจ ากัด(เจ้าหน้าที่ / Hardware / Software)

• โครงสร้างข้อมูลมีการปรับเปลี่ยนบ่อย• รูปแบบรายงานมีการปรับเปลี่ยนบ่อย และ

มีความหลากหลาย• Concern เรื่อง Data Privacy ในการเปิดเผย

ข้อมูลผู้ป่วย

ผู้รับบริการ

• ขาดเครื่องมือในการจัดการข้อมูล(Big Data Processing Tool)

• โครงสร้างข้อมูล สปสช. มีความซับซ้อน / learning curve สูง

• ถูกจ ากัดการได้มาซึ่งข้อมูลผู้ป่วย(เนื่องจาก สปสช. กังวลในเรื่อง Data Privacy)

Problems: Recommendations:

• พัฒนาระบบ Intelligent Mapping & Reporting• พัฒนาระบบ Self Service Query และ Query

Processing Server เช่น Virtual Data Room • พัฒนาการท า De-identification และ Data Usage

Agreement

Page 26: ข้อเสนอแนะในการพัฒนาระบบและTechnology Trend ที่เกี่ยวข้อง · ข้อเสนอแนะในการพัฒนาระบบและTechnology

ขอบคุณครับ

27

นายปฏิพัทธ์ ตุ้มสังข์ทอง

นายวีระชัย จันทร์สุด

ดร.ปิยวุฒิ ศรีชัยกุล

ดร.อานนท์ แปลงประสพโชค