clase 8 tecnología de la comunicación i web invisible

28
Clase 8 Tecnología de la Comunicación I Web Invisible

Upload: juan-jose-vega-benitez

Post on 23-Jan-2016

220 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Clase 8 Tecnología de la Comunicación I Web Invisible

Clase 8

Tecnología de la Comunicación I

Web Invisible

Page 2: Clase 8 Tecnología de la Comunicación I Web Invisible

Web Invisible

• En el contenido de la Web pueden distinguirse dos partes:

- Web Superficial (SurfaceWeb)

- Web Profunda (DeepWeb)

Page 3: Clase 8 Tecnología de la Comunicación I Web Invisible

La Web Superficial• Es lo que se conoce como WWW:

- Está compuesta por un conjunto de páginas estáticas públicamente accesibles.

- Constituye una porción relativamente muy pequeña de toda la Web (un 17% aproximadamente).

- La información que se recupera debe ser cuidadosamente evaluada y validada.

Page 4: Clase 8 Tecnología de la Comunicación I Web Invisible

La Web Profunda• Se conoce como Web Invisible y

se compone de:

- Contenidos dinámicos: páginas dinámicas que retornan en respuesta a una búsqueda o accedidas sólo por una vía.

- Contenidos no enlazados: páginas que no tienen vínculos entrantes desde otras páginas.

Page 5: Clase 8 Tecnología de la Comunicación I Web Invisible

La Web Profunda- Contenidos de acceso limitado: que

requieren registrarse o que limitan el acceso a sus páginas, prohibiendo que los buscadores los incluyan en sus bases de datos.

- Contenidos “scripted”: páginas que solamente son accesibles a través de enlaces producidos por JavaScript y Flash, las cuales requieren un tratamiento especial.

- Contenidos no textuales: archivos multimedia, en otros formatos o “usenet”

Page 6: Clase 8 Tecnología de la Comunicación I Web Invisible

Clasificación de La Web Profunda

OPACA

PROPIETARIA

PRIVADA

REALMENTE INVISIBLE

Web…

Page 7: Clase 8 Tecnología de la Comunicación I Web Invisible

La Web Opaca• Se compone de todas aquellas páginas que

son excluidas por:- extensión de la indización: por economía, no todas

las páginas de un sitio son indizadas en los buscadores.

- Frecuencia de la indización: los buscadores indexan de forma periódica y la WWW cambia diariamente.

- Número máximo de resultados visibles: se limita a los 200 y 1000 documentos, si bien el número de resultados es mayor.

- URL’s desconectados: los buscadores presentan los resultados en base a la cantidad de referencias o enlaces a los sitios, caso contrario la página no será indizada.

Page 8: Clase 8 Tecnología de la Comunicación I Web Invisible

La Web Privada• Las páginas Web son

excluidas por alguna de estas causas:

- Se encuentran protegidas por contraseñas.

- Contienen un archivo “robots.txt” para evitar ser indizadas.

- Contienen un campo “noindex” para evitar que el buscador indice la parte correspondiente al cuerpo de la página.

Page 9: Clase 8 Tecnología de la Comunicación I Web Invisible

La Web Propietaria

• Incluye aquellas páginas en las que es necesario registrarse para tener acceso al contenido, ya sea de forma gratuita o pagada. Se dice que al menos 95% de la web profunda contiene información de acceso público y gratuito.

Page 10: Clase 8 Tecnología de la Comunicación I Web Invisible

La Web realmente invisible• Las páginas no son indizadas por

las siguientes razones:

- Incluyen formatos como PDF, PostScript, Flash, Shockwave, programas ejecutables y archivos comprimidos.

- Se generan dinámicamente, a partir de datos que introduce el usuario.

- Almacenan la información en bases de datos, que no puede ser extraída a menos que se realice una petición específica.

Page 11: Clase 8 Tecnología de la Comunicación I Web Invisible

¿Cómo buscar en la Web invisible?

- Los buscadores tradicionales han añadido funcionalidades adicionales para la búsqueda en la llamada Web profunda.

- También existen buscadores especializados en ese segmento de la Web, que no sólo buscan en la Web superficial, sino también en la Web Invisible.

Page 12: Clase 8 Tecnología de la Comunicación I Web Invisible

Forman parte de la Web profunda

- Las bibliotecas: digitales, catálogos de bibliotecas, bases de datos de bibliotecas, bases de datos bibliográficas.

- Bases de datos. - Revistas electrónicas y archivos de

documentos.- Documentos en formatos no

indizables, (pdf, ppt, doc, mp3, wav, avi, mpeg, etc.)

- Catálogos de editoriales, Directorios de Publicaciones periódicas.

Page 13: Clase 8 Tecnología de la Comunicación I Web Invisible

Forman parte de la Web profunda

- Archivos (instituciones y organismos de gobierno).

- Repositorios de artículos de revistas, tesis y literatura gris.

- Directorios de bases de datos- Guías de sitios, Revistas electrónicas,

Obras de referencia: enciclopedias, diccionarios, tesauros, etc.

- Foro, Blogs, Noticias (diarios).- Sitios de remates, Paginas

blancas/amarillas, Directorios

Page 14: Clase 8 Tecnología de la Comunicación I Web Invisible

Forman parte de la Web profunda

- Revistas electrónicas, en las que es necesario un registro previo y las que sólo se puede recuperar la información mediante búsquedas en su base de datos.

- Organismos públicos de gobierno, ONGs, etc., que en sus sitios web disponen de consultas a sus bases de datos.

Page 15: Clase 8 Tecnología de la Comunicación I Web Invisible

Directorios de Bibliotecas

Page 16: Clase 8 Tecnología de la Comunicación I Web Invisible

Catálogos Directivos

Page 17: Clase 8 Tecnología de la Comunicación I Web Invisible

Libros

Page 18: Clase 8 Tecnología de la Comunicación I Web Invisible

Base de datos Bibliográficas

Page 19: Clase 8 Tecnología de la Comunicación I Web Invisible

Herramientas para el manejo de referencias bibliográficas

Page 20: Clase 8 Tecnología de la Comunicación I Web Invisible

Directorios en Internet Invisible

Page 21: Clase 8 Tecnología de la Comunicación I Web Invisible

Tesis

Page 22: Clase 8 Tecnología de la Comunicación I Web Invisible

Fuentes multidisciplinarias

Page 23: Clase 8 Tecnología de la Comunicación I Web Invisible

Archivos y depósitos de documentos

Page 24: Clase 8 Tecnología de la Comunicación I Web Invisible

Revistas electrónicas y directorios

Page 25: Clase 8 Tecnología de la Comunicación I Web Invisible

Archivos y depósitos de documentos

Page 26: Clase 8 Tecnología de la Comunicación I Web Invisible

Localización de la información en la Web Invisible

Page 27: Clase 8 Tecnología de la Comunicación I Web Invisible
Page 28: Clase 8 Tecnología de la Comunicación I Web Invisible

El archivo de Internet- Asume el reto de preservar el

pasado de Internet- La mayor parte de la

información que contiene es estadounidense.

- Se ingresa a través del sitio: http://www.archive.org/index.php

- De sus secciones se destacaWayback MAchine, que contiene

miles de millones de páginas, grabadas desde 1996