big, open e linked data no caminho para a web 3.0 (web semântica)

O que é Web 3.0?

“A Web Semântica é uma extensão

da Web corrente na qual é

adicionada a informação a

representação do seu significado,

visando facilitar computadores e

pessoas trabalhar de maneira

cooperativa.”[Berners-Lee et al, 2001]

Qual a relação com oLinked / Open e Big Data?

Linked Data

Linked Data is the term used to describe a method of exposing and connecting data on the Web from different sources. Currently, the Web uses hypertext links that allow people to move from one document to another. The idea behind Linked Data is that hyperdata links will let people or machines find related data on the Web that was not previously linked.

http://www.webopedia.com/TERM/L/Linked_Data.html

Dados ligados

“Termo usado para descrever um método de expor e conectar dados na Web a partir de diferentes fontes. A Web atual usa links em hipertexto que permite ir de um documento para outro. A idéia por traz do Linked Data é que pessoas e máquinas poderão encontrar relações entre dados que não haviam sido explicitamente ligados por links”

Tradução livre

Open Data

“Open data and content can be freely used, modified, and shared by anyone for any purpose”

http://opendefinition.org/

Dados abertos

“Dados abertos podem ser livremente usados, modificados e compartilhados por qualquer um, não importando o propósito”

Tradução livre

Linked Data

Linked / Open Data

Formas de acesso

• Download de arquivosTXT, CSV, XML, XLS, PDF, JSON, Turtle,

RDF• APIs que retornam JSON• Endpoint SPARQL

que podem retornar RDF, TURTLE ou JSON-LD

Sparql

SPARQL Protocol and RDF Query

Language)

Sparql

# Busca os dados de Tim Berners-Lee

PREFIX foaf: <http://xmlns.com/foaf/0.1/>

SELECT ?name ?email

FROM <http://www.w3.org/People/Berners-Lee/card>

WHERE {

?person a foaf:Person.

?person foaf:name ?name.

?person foaf:mbox ?email.

Resultado{ "head": { "vars": [ "name" , "email" ] } , "results": { "bindings": [ { "name": { "type": "literal" , "value": "Timothy Berners-Lee" } , "email": { "type": "uri" , "value": "mailto:[email protected]" } } ] }}

Sparql

SELECT ?label ?criterio ?peso

FROM <http://aquare.la/mec/benchmark>

WHERE {

?iniciativa rdf:type mec:Iniciativa .

OPTIONAl { ?iniciativa rdfs:label> ?label }

OPTIONAL {

?iniciativa mec:temCriterio ?criterio .

?criterio mec:temPeso ?peso .

Resource Descriptor Framework

Ontology Web Language

Sparql

# Busca os dados de Tim Berners-Lee

PREFIX foaf: <http://xmlns.com/foaf/0.1/>

SELECT ?name ?email

FROM <http://www.w3.org/People/Berners-Lee/card>

WHERE {

?person a foaf:Person.

?person foaf:name ?name.

?person foaf:mbox ?email.

Linked

/ Open,

e o Big Data?

Big Data trata-se de um patrimônio informacional em grande volume, velocidade e variedade, o qual requer formas inovadoras e sustentáveis economicamente de processamento de forma a se promover a descoberta de insights, a tomada decisão e a otimização de processos.

Tradução livre

Machine Learning

Machine LearningAbordagem supervisionada

Redes neuraisRedes BayesianasRaciocínio baseado em casos (RBC)Inductive logic programmingClassificadores ( ex: k-nearest neighbors )Árvores de decisãoClustering (com treinamento)

Não supervisionadaRedes neurais SOM (Self-organizing map)Clustering (sem treinamento)

Redes neuraisRedes BayesianasRaciocínio baseado em casos (RBC)Inductive logic programmingClassificadores ( ex: k-nearest neighbors )Árvores de decisão (ex: C4.5, Apriori) Clustering (com treinamento)

E seu eu precisar ou quiser criar meu próprio algoritmo de machine learning?

Scala – algumas virtudes• Tipagem estática e inferida

• Paradigma funcional (Monads) + OO

• Aproveita toda a infraestrutura Java

• Estruturas de dados e de controle otimizadas para o

tratamento matemático

• Modelo de paralelização e distribuição

descomplicados

• Akka.io + Apache Spark (até 100 x mais rápido que

o Hadoop)

• Código menos verboso (cada toque de teclada

conta)

Case: G-Cluster

Pequeno teste

Pequeno testeAlgoritmos

•CobWeb •DBSCAN •FarthestFirst•FilteredClusterer•HierarchicalClusterer•MakeDensityBasedClusterer•OPTICS•sIB•SimpleKMeans•Xmeans•EM

Os melhores resultados

Será que posso confiar a estratégia de minha empresa nesses resultados?

G-Cluster

Outro teste

Iris setosa

Iris versicolor

Iris virginica

Iris dataset

Iris dataset - ResultadosAlgoritmo Resultado

•CobWeb 2 espécies•DBSCAN Nenhuma espécie•FarthestFirst 2 espécies•FilteredClusterer 2 espécies•HierarchicalClusterer 2 espécies•MakeDensityBasedClusterer 2 espécies

•OPTICS Nenhuma espécie•sIB 2 espécies•SimpleKMeans 2 espécies•Xmeans 2 espécies•EM 5 espécies•G-Cluster 3 espécies

Iris dataset - Resultados

The use of this data set in cluster analysis however is uncommon, since the data set only contains two clusters with rather obvious separation. One of the clusters contains Iris setosa, while the other cluster contains both Iris virginica and Iris versicolor and is not separable without the species information Fisher used. This makes the data set a good example to explain the difference between supervised and unsupervised techniques in data mining: Fisher's linear discriminant model can only be obtained when the object species are known: class labels and clusters are not necessarily the same.[5]

Scala - Snippets

Outros testes em andamento

Retomando

Qual a relação do Big / Open / Linked

Data + Machine Learning

com a Web 3.0?

Obrigado!

E-mail

[email protected]

Twitter

@marcos_hs

Facebook

https://www.facebook.com/

aquarela.innovation

http://aquare.la/pt/artigos/ Artigos e inf. de cursos

big, open e linked data no caminho para a web 3.0 (web semântica)

Data & Analytics