big, open e linked data no caminho para a web 3.0 (web semântica)
TRANSCRIPT
“A Web Semântica é uma extensão
da Web corrente na qual é
adicionada a informação a
representação do seu significado,
visando facilitar computadores e
pessoas trabalhar de maneira
cooperativa.”[Berners-Lee et al, 2001]
Linked Data
Linked Data is the term used to describe a method of exposing and connecting data on the Web from different sources. Currently, the Web uses hypertext links that allow people to move from one document to another. The idea behind Linked Data is that hyperdata links will let people or machines find related data on the Web that was not previously linked.
http://www.webopedia.com/TERM/L/Linked_Data.html
Dados ligados
“Termo usado para descrever um método de expor e conectar dados na Web a partir de diferentes fontes. A Web atual usa links em hipertexto que permite ir de um documento para outro. A idéia por traz do Linked Data é que pessoas e máquinas poderão encontrar relações entre dados que não haviam sido explicitamente ligados por links”
Tradução livre
Open Data
“Open data and content can be freely used, modified, and shared by anyone for any purpose”
http://opendefinition.org/
Dados abertos
“Dados abertos podem ser livremente usados, modificados e compartilhados por qualquer um, não importando o propósito”
Tradução livre
Formas de acesso
• Download de arquivosTXT, CSV, XML, XLS, PDF, JSON, Turtle,
RDF• APIs que retornam JSON• Endpoint SPARQL
que podem retornar RDF, TURTLE ou JSON-LD
Sparql
# Busca os dados de Tim Berners-Lee
PREFIX foaf: <http://xmlns.com/foaf/0.1/>
SELECT ?name ?email
FROM <http://www.w3.org/People/Berners-Lee/card>
WHERE {
?person a foaf:Person.
?person foaf:name ?name.
?person foaf:mbox ?email.
}
Resultado{ "head": { "vars": [ "name" , "email" ] } , "results": { "bindings": [ { "name": { "type": "literal" , "value": "Timothy Berners-Lee" } , "email": { "type": "uri" , "value": "mailto:[email protected]" } } ] }}
Sparql
SELECT ?label ?criterio ?peso
FROM <http://aquare.la/mec/benchmark>
WHERE {
?iniciativa rdf:type mec:Iniciativa .
OPTIONAl { ?iniciativa rdfs:label> ?label }
OPTIONAL {
?iniciativa mec:temCriterio ?criterio .
?criterio mec:temPeso ?peso .
}
}
Sparql
# Busca os dados de Tim Berners-Lee
PREFIX foaf: <http://xmlns.com/foaf/0.1/>
SELECT ?name ?email
FROM <http://www.w3.org/People/Berners-Lee/card>
WHERE {
?person a foaf:Person.
?person foaf:name ?name.
?person foaf:mbox ?email.
}
Big Data trata-se de um patrimônio informacional em grande volume, velocidade e variedade, o qual requer formas inovadoras e sustentáveis economicamente de processamento de forma a se promover a descoberta de insights, a tomada decisão e a otimização de processos.
Tradução livre
Big Data trata-se de um patrimônio informacional em grande volume, velocidade e variedade, o qual requer formas inovadoras e sustentáveis economicamente de processamento de forma a se promover a descoberta de insights, a tomada decisão e a otimização de processos.
Tradução livre
Big Data trata-se de um patrimônio informacional em grande volume, velocidade e variedade, o qual requer formas inovadoras e sustentáveis economicamente de processamento de forma a se promover a descoberta de insights, a tomada decisão e a otimização de processos.
Tradução livre
Big Data trata-se de um patrimônio informacional em grande volume, velocidade e variedade, o qual requer formas inovadoras e sustentáveis economicamente de processamento de forma a se promover a descoberta de insights, a tomada decisão e a otimização de processos.
Tradução livre
Machine LearningAbordagem supervisionada
Redes neuraisRedes BayesianasRaciocínio baseado em casos (RBC)Inductive logic programmingClassificadores ( ex: k-nearest neighbors )Árvores de decisãoClustering (com treinamento)
Não supervisionadaRedes neurais SOM (Self-organizing map)Clustering (sem treinamento)
Machine LearningAbordagem supervisionada
Redes neuraisRedes BayesianasRaciocínio baseado em casos (RBC)Inductive logic programmingClassificadores ( ex: k-nearest neighbors )Árvores de decisãoClustering (com treinamento)
Não supervisionadaRedes neurais SOM (Self-organizing map)Clustering (sem treinamento)
Machine LearningAbordagem supervisionada
Redes neuraisRedes BayesianasRaciocínio baseado em casos (RBC)Inductive logic programmingClassificadores ( ex: k-nearest neighbors )Árvores de decisãoClustering (com treinamento)
Não supervisionadaRedes neurais SOM (Self-organizing map)Clustering (sem treinamento)
Machine LearningAbordagem supervisionada
Redes neuraisRedes BayesianasRaciocínio baseado em casos (RBC)Inductive logic programmingClassificadores ( ex: k-nearest neighbors )Árvores de decisãoClustering (com treinamento)
Não supervisionadaRedes neurais SOM (Self-organizing map)Clustering (sem treinamento)
Machine LearningAbordagem supervisionada
Redes neuraisRedes BayesianasRaciocínio baseado em casos (RBC)Inductive logic programmingClassificadores ( ex: k-nearest neighbors )Árvores de decisãoClustering (com treinamento)
Não supervisionadaRedes neurais SOM (Self-organizing map)Clustering (sem treinamento)
Machine LearningAbordagem supervisionada
Redes neuraisRedes BayesianasRaciocínio baseado em casos (RBC)Inductive logic programmingClassificadores ( ex: k-nearest neighbors )Árvores de decisãoClustering (com treinamento)
Não supervisionadaRedes neurais SOM (Self-organizing map)Clustering (sem treinamento)
Machine LearningAbordagem supervisionada
Redes neuraisRedes BayesianasRaciocínio baseado em casos (RBC)Inductive logic programmingClassificadores ( ex: k-nearest neighbors )Árvores de decisãoClustering (com treinamento)
Não supervisionadaRedes neurais SOM (Self-organizing map)Clustering (sem treinamento)
Machine LearningAbordagem supervisionada
Redes neuraisRedes BayesianasRaciocínio baseado em casos (RBC)Inductive logic programmingClassificadores ( ex: k-nearest neighbors )Árvores de decisão (ex: C4.5, Apriori) Clustering (com treinamento)
Não supervisionadaRedes neurais SOM (Self-organizing map)Clustering (sem treinamento)
Machine LearningAbordagem supervisionada
Redes neuraisRedes BayesianasRaciocínio baseado em casos (RBC)Inductive logic programmingClassificadores ( ex: k-nearest neighbors )Árvores de decisãoClustering (com treinamento)
Não supervisionadaRedes neurais SOM (Self-organizing map)Clustering (sem treinamento)
Machine LearningAbordagem supervisionada
Redes neuraisRedes BayesianasRaciocínio baseado em casos (RBC)Inductive logic programmingClassificadores ( ex: k-nearest neighbors )Árvores de decisãoClustering (com treinamento)
Não supervisionadaRedes neurais SOM (Self-organizing map)Clustering (sem treinamento)
Machine LearningAbordagem supervisionada
Redes neuraisRedes BayesianasRaciocínio baseado em casos (RBC)Inductive logic programmingClassificadores ( ex: k-nearest neighbors )Árvores de decisãoClustering (com treinamento)
Não supervisionadaRedes neurais SOM (Self-organizing map)Clustering (sem treinamento)
Scala – algumas virtudes• Tipagem estática e inferida
• Paradigma funcional (Monads) + OO
• Aproveita toda a infraestrutura Java
• Estruturas de dados e de controle otimizadas para o
tratamento matemático
• Modelo de paralelização e distribuição
descomplicados
• Akka.io + Apache Spark (até 100 x mais rápido que
o Hadoop)
• Código menos verboso (cada toque de teclada
conta)
Pequeno testeAlgoritmos
•CobWeb •DBSCAN •FarthestFirst•FilteredClusterer•HierarchicalClusterer•MakeDensityBasedClusterer•OPTICS•sIB•SimpleKMeans•Xmeans•EM
Iris dataset - ResultadosAlgoritmo Resultado
•CobWeb 2 espécies•DBSCAN Nenhuma espécie•FarthestFirst 2 espécies•FilteredClusterer 2 espécies•HierarchicalClusterer 2 espécies•MakeDensityBasedClusterer 2 espécies
•OPTICS Nenhuma espécie•sIB 2 espécies•SimpleKMeans 2 espécies•Xmeans 2 espécies•EM 5 espécies•G-Cluster 3 espécies
Iris dataset - Resultados
The use of this data set in cluster analysis however is uncommon, since the data set only contains two clusters with rather obvious separation. One of the clusters contains Iris setosa, while the other cluster contains both Iris virginica and Iris versicolor and is not separable without the species information Fisher used. This makes the data set a good example to explain the difference between supervised and unsupervised techniques in data mining: Fisher's linear discriminant model can only be obtained when the object species are known: class labels and clusters are not necessarily the same.[5]
Iris dataset - Resultados
The use of this data set in cluster analysis however is uncommon, since the data set only contains two clusters with rather obvious separation. One of the clusters contains Iris setosa, while the other cluster contains both Iris virginica and Iris versicolor and is not separable without the species information Fisher used. This makes the data set a good example to explain the difference between supervised and unsupervised techniques in data mining: Fisher's linear discriminant model can only be obtained when the object species are known: class labels and clusters are not necessarily the same.[5]
Iris dataset - Resultados
The use of this data set in cluster analysis however is uncommon, since the data set only contains two clusters with rather obvious separation. One of the clusters contains Iris setosa, while the other cluster contains both Iris virginica and Iris versicolor and is not separable without the species information Fisher used. This makes the data set a good example to explain the difference between supervised and unsupervised techniques in data mining: Fisher's linear discriminant model can only be obtained when the object species are known: class labels and clusters are not necessarily the same.[5]
Iris dataset - Resultados
The use of this data set in cluster analysis however is uncommon, since the data set only contains two clusters with rather obvious separation. One of the clusters contains Iris setosa, while the other cluster contains both Iris virginica and Iris versicolor and is not separable without the species information Fisher used. This makes the data set a good example to explain the difference between supervised and unsupervised techniques in data mining: Fisher's linear discriminant model can only be obtained when the object species are known: class labels and clusters are not necessarily the same.[5]
Obrigado!
@marcos_hs
https://www.facebook.com/
aquarela.innovation
Blog
http://aquare.la/pt/artigos/ Artigos e inf. de cursos