e-discovery e intelligenza artificiale

16
The better the question. The better the answer. The better the world works. E-Discovery e Intelligenza Artificiale DFA Open Day 2018 Andrea Tognolini, 5 luglio 2018 Università degli Studi di Milano

Upload: others

Post on 14-Mar-2022

8 views

Category:

Documents


0 download

TRANSCRIPT

The better the question. The better the answer.

The better the world works.

E-Discoverye Intelligenza Artificiale

DFA Open Day 2018

Andrea Tognolini, 5 luglio 2018

Università degli Studi di Milano

Agenda

1 E-Discovery

Electonically Stored Information

Processo

Scenari critici

2 Technology-Assisted Review

Apprendimento e classificazione

Vantaggi

Adozione in casi internazionali

Questioni aperte

Page 3

1. E-Discovery

Page 4

E-Discovery is the process of ➊ identifying, ➋ preserving, ➌ collecting, ➍ processing,➎ searching, ➏ reviewing, and ➐ producingElectronically Stored Information (ESI) thatmay be relevant to a civil, criminal, or

regulatory matter.

(Federal Courts Law Review, 2013. Grossman-Cormack glossary of technology-assisted review)

5 luglio 2018 E-Discovery e Intelligenza Artificiale

Page 5

► Autore

► Data di creazione

► Data di modifica

Electronically Stored Information

5 luglio 2018 E-Discovery e Intelligenza Artificiale

Dati Strutturati

Dati Non Strutturati

Metadati

► CRM

► Database

► Transaction System

Dati Strutturati

► Text, Spreadsheet, Presentations

► Email

► Graphics

Dati Non Strutturati

Page 6

Processo E-Discovery

5 luglio 2018 E-Discovery e Intelligenza Artificiale

► Quando tutto il materiale rilevante è stato rivisto, preparare report o dashboard, secondo le necessità

► Definire keywordda applicare alla base documentale

► Review manualedei documenti individuati

► Ottimizzare le keyword se necessario, per ridurre il numero di falsi positivi

► Processare i dati acquisiti, per isolare il materiale personale, escludere duplicati, recuperare il materiale cancellato

► Individuare i soggetti coinvolti e il materiale digitale in loro possesso

► Raccogliere il materiale digitale, con procedure che garantiscano l’integrità e la confidenzialità dei dati

4Reporting

3Analisi

e Revisione

2Elaborazione

1Identificazionee Raccolta

Page 7

Criticità

► Grande numero di documenti

► Tempo limitato per completare la revisione

► Numero ristretto di revisori (400 elementi/persona/giorno)

SoluzioneIndividuare cluster di documenti in base al contenuto, per permettere la revisione massiva

Criticità

► È necessario individuare velocemente i documenti potenzialmente rilevanti per il caso

► Il tempo e le risorse sono limitate

SoluzioneIl sistema calcola autonomamente la potenziale rilevanza di ciascun documento nel caso, sulla base di esempi

Criticità

► È necessario produrre una base documentale per la controparte in una disputa

► Tutto il materiale confidenziale e riservato non può essere condiviso

SoluzioneTrovare tutti documenti dal contenuto simile a un gruppo di esempio già individuato

Scenari critici del processo tradizionale

5 luglio 2018 E-Discovery e Intelligenza Artificiale

Per tutto questo, abbiamo bisogno che la «macchina» possa comprendereil contenuto dei documenti sotto esame

Page 8

2. Technology-Assisted Review

Page 9

Technology-Assisted Review (TAR)

5 luglio 2018 E-Discovery e Intelligenza Artificiale

Revisione manualedi un training sample(~1,000 documenti)

Output: base documentale

categorizzata

Apprendimentodelle coding decisions: perché un determinato documento è rilevante?

QC mediante revisione manuale di un sample di controllo

Classificazione automaticain base a quanto appreso

TAR

Page 10

TAR: Apprendimento e classificazione

5 luglio 2018 E-Discovery e Intelligenza Artificiale

► Sulla base di esempi, apprende quali concetti rendono un documento potenzialmente rilevante

► Calcola la probabilità un documento non ancora rivisto di essere rilevante per il caso, valutando la sua somiglianza rispetto al gruppo di esempio

► Analizza i termini contenuti nei documenti sotto analisi

► Crea un insieme di concetti

► Si basa sul principio che parole di significato simile compaiono in contesti simili (ie, vicine ad altre parole di significato simile)

SVMSupport Vector Machines

LSILatent Semantic Indexing +

Page 11

TAR: Vantaggi

5 luglio 2018 E-Discovery e Intelligenza Artificiale

Dare priorità alla revisione di determinati documenti

Identificare documenti molto simili tra loro(near-duplicates)Ridurre il volume di

materiale da revisionare manualmente

Superare il concetto di keyword per la selezione dei documenti

Fare quality check del processo di mail review

Page 12

TAR viene ormai riconosciuto (e talvolta consigliato) come un metodo valido per la ricerca di materiale rilevante, al fine di ➊ ridurre i costi dovuti alla document review, ➋ rendere più efficace il processo di revisione, ➌accrescere la consistenza della revisione

TAR: Adozione in casi internazionali

5 luglio 2018 E-Discovery e Intelligenza Artificiale

2012 2013 2014 2015 2016 2017

USA

Da Silva Moore v. Publicis Groupe

Ireland

Irish Bank Resolution Corp. v. Quinn

UK

Pyrrho Investments Ltd. v. MWB Property Ltd.

Australia

McConnell Dowell v. Santam Ltd.

Page 13

TAR: Un caso d’uso

5 luglio 2018 E-Discovery e Intelligenza Artificiale

1.8M

Numero totaledi documenti

86K

Documentida rivedere

1.8M

Numero totaledi documenti

10K

Documentida rivedere

keyword

TAR

2K

Traning e QC

Source: https://www.relativity.com/customers/inventus/

Page 14

TAR: Questioni aperte

5 luglio 2018 E-Discovery e Intelligenza Artificiale

? La corte deve approvare esplicitamente l’utilizzo di TAR?

Può imporne l’utilizzo?

?

?

In quali situazioni è preferibile utilizzare TAR?

È preferibile o appropriato pre-filtrare la base documentale sulla base di alcune parole chiave, prima di applicare TAR?

Grazieper l’attenzione

Page 16

► The Sedona Conference TAR Case Law Primer (2017).

► Maura R. Grossman and Gordon V. Cormack, Technology-Assisted Review in E-Discovery Can Be More Effective and More Efficient Than Exhaustive Manual Review (2011).

► Maura R. Grossman and Gordon V. Cormack, The Grossman-Cormack Glossary of Technology-Assisted Review, with Foreword by John M. Facciola, U.S. Magistrate Judge (2013).

Fonti

5 luglio 2018 E-Discovery e Intelligenza Artificiale