clase 8 tecnología de la comunicación i web invisible
TRANSCRIPT
Clase 8
Tecnología de la Comunicación I
Web Invisible
Web Invisible
• En el contenido de la Web pueden distinguirse dos partes:
- Web Superficial (SurfaceWeb)
- Web Profunda (DeepWeb)
La Web Superficial• Es lo que se conoce como WWW:
- Está compuesta por un conjunto de páginas estáticas públicamente accesibles.
- Constituye una porción relativamente muy pequeña de toda la Web (un 17% aproximadamente).
- La información que se recupera debe ser cuidadosamente evaluada y validada.
La Web Profunda• Se conoce como Web Invisible y
se compone de:
- Contenidos dinámicos: páginas dinámicas que retornan en respuesta a una búsqueda o accedidas sólo por una vía.
- Contenidos no enlazados: páginas que no tienen vínculos entrantes desde otras páginas.
La Web Profunda- Contenidos de acceso limitado: que
requieren registrarse o que limitan el acceso a sus páginas, prohibiendo que los buscadores los incluyan en sus bases de datos.
- Contenidos “scripted”: páginas que solamente son accesibles a través de enlaces producidos por JavaScript y Flash, las cuales requieren un tratamiento especial.
- Contenidos no textuales: archivos multimedia, en otros formatos o “usenet”
Clasificación de La Web Profunda
OPACA
PROPIETARIA
PRIVADA
REALMENTE INVISIBLE
Web…
La Web Opaca• Se compone de todas aquellas páginas que
son excluidas por:- extensión de la indización: por economía, no todas
las páginas de un sitio son indizadas en los buscadores.
- Frecuencia de la indización: los buscadores indexan de forma periódica y la WWW cambia diariamente.
- Número máximo de resultados visibles: se limita a los 200 y 1000 documentos, si bien el número de resultados es mayor.
- URL’s desconectados: los buscadores presentan los resultados en base a la cantidad de referencias o enlaces a los sitios, caso contrario la página no será indizada.
La Web Privada• Las páginas Web son
excluidas por alguna de estas causas:
- Se encuentran protegidas por contraseñas.
- Contienen un archivo “robots.txt” para evitar ser indizadas.
- Contienen un campo “noindex” para evitar que el buscador indice la parte correspondiente al cuerpo de la página.
La Web Propietaria
• Incluye aquellas páginas en las que es necesario registrarse para tener acceso al contenido, ya sea de forma gratuita o pagada. Se dice que al menos 95% de la web profunda contiene información de acceso público y gratuito.
La Web realmente invisible• Las páginas no son indizadas por
las siguientes razones:
- Incluyen formatos como PDF, PostScript, Flash, Shockwave, programas ejecutables y archivos comprimidos.
- Se generan dinámicamente, a partir de datos que introduce el usuario.
- Almacenan la información en bases de datos, que no puede ser extraída a menos que se realice una petición específica.
¿Cómo buscar en la Web invisible?
- Los buscadores tradicionales han añadido funcionalidades adicionales para la búsqueda en la llamada Web profunda.
- También existen buscadores especializados en ese segmento de la Web, que no sólo buscan en la Web superficial, sino también en la Web Invisible.
Forman parte de la Web profunda
- Las bibliotecas: digitales, catálogos de bibliotecas, bases de datos de bibliotecas, bases de datos bibliográficas.
- Bases de datos. - Revistas electrónicas y archivos de
documentos.- Documentos en formatos no
indizables, (pdf, ppt, doc, mp3, wav, avi, mpeg, etc.)
- Catálogos de editoriales, Directorios de Publicaciones periódicas.
Forman parte de la Web profunda
- Archivos (instituciones y organismos de gobierno).
- Repositorios de artículos de revistas, tesis y literatura gris.
- Directorios de bases de datos- Guías de sitios, Revistas electrónicas,
Obras de referencia: enciclopedias, diccionarios, tesauros, etc.
- Foro, Blogs, Noticias (diarios).- Sitios de remates, Paginas
blancas/amarillas, Directorios
Forman parte de la Web profunda
- Revistas electrónicas, en las que es necesario un registro previo y las que sólo se puede recuperar la información mediante búsquedas en su base de datos.
- Organismos públicos de gobierno, ONGs, etc., que en sus sitios web disponen de consultas a sus bases de datos.
Directorios de Bibliotecas
Catálogos Directivos
Libros
Base de datos Bibliográficas
Herramientas para el manejo de referencias bibliográficas
Directorios en Internet Invisible
Tesis
Fuentes multidisciplinarias
Archivos y depósitos de documentos
Revistas electrónicas y directorios
Archivos y depósitos de documentos
Localización de la información en la Web Invisible
El archivo de Internet- Asume el reto de preservar el
pasado de Internet- La mayor parte de la
información que contiene es estadounidense.
- Se ingresa a través del sitio: http://www.archive.org/index.php
- De sus secciones se destacaWayback MAchine, que contiene
miles de millones de páginas, grabadas desde 1996