mariafatimadossantosestadistica1.files.wordpress.com€¦ · web viewuniversidad central de...

UNIVERSIDAD CENTRAL DE VENEZUELA

FACULTAD DE HUMANIDADES Y EDUCACIÓN

ESCUELA DE PSICOLOGÍA

CÁTEDRA DE ESTADÍSTICA

CONSTRUCCIÓN DE BASES DE DATOS

Profesora María Fátima Dos Santos

En matemática, una matriz es un ordenamiento particular de datos en una estructura

determinada de filas y columnas. Para todos los casos que veremos a continuación estamos

tratando con matrices planas, es decir, definidas en dos dimensiones: ancho y largo.

Solo para recordar, las filas y las columnas funcionan así:

Columna 1

Columna 2

Columna 3

Columna 4

Columna 4

… … Columna m

Fila 1Fila 2Fila 3Fila 4……Fila n

Cuando nos referimos a Columna m y Fila n estamos queriendo decir que esta

matriz puede ser tan ancha y tan larga como se desee.

El término “base de datos” se usa para indicar que la matriz con la que estamos

tratando organiza los datos provenientes de la realidad, de determinados aspectos medidos

en la realidad, y no se trata de números generados al azar, por ejemplo. Es decir, toda base

de datos es una matriz, pero no toda matriz es una base de datos.

Como puede verse en la matriz presentada arriba, la ordenación en filas y columnas

nos provee de un espacio bidimensional (sea cuadrado o no, es decir, haya la misma

cantidad de filas y de columnas o no) sobre el cual colocar los datos con los que estamos

trabajando.

En ciencias sociales (mucho más que en ciencias naturales) esta colocación se vuelve

un tanto compleja, pues quienes trabajamos con ciencias sociales solemos movernos en

varios niveles de medición, mientras que en ciencias naturales trabajan, con mayor

frecuencia, con variables en nivel de razón. Por ello debemos diferenciar algunos términos

antes de adentrarnos en los procedimientos de llenado de bases de datos.

1. Categorías, Etiquetas, Códigos y Libro de Códigos

Cuando decimos “categoría”, generalmente nos referimos a alguna de las opciones que

puede asumir una variable cualitativa, especialmente una nominal. Si estamos trabajando

con tipos de animales, por ejemplo, una categoría será “perro”, otra “águila calva”, otra

“águila gris”, otra “demonio de Tazmania”, otra “boa constrictor”, y así.

Cuando intentamos llevar estas categorías a la base de datos, debemos conseguir una

manera de que quepan dentro del reducido espacio que permite cada casilla, evitando

cualquier tipo de confusión entre una categoría y otra. Supongamos, por ejemplo, que solo

tenemos ocho espacios para transcribir la categoría (lo cual es el límite usual de ciertas

bases de datos), “águila calva”, “águila gris” y “demonio de Tazmania” exceden los límites

de la casilla. Podemos intentar resumir la categoría, y usar, por ejemplo “águila”, “águila” y

“demonio”, pero la reducción hace que en los dos primeros casos se repita una categoría y

en el tercer caso pierde sentido (es decir, ¿un demonio es un animal?). Podemos seguir

intentando opciones para que las categorías expresen adecuadamente al animal, sean cortas

y no se repitan, pero cuando trabajamos con muchas categorías, esto puede ser extenuante.

Es por ello que solemos recurrir a los libros de código.

Al trabajar con niveles de medición distintos al de razón (recordemos que solo en el

nivel de razón un número es exactamente y completamente eso: un número) solemos

reemplazar la categoría por un valor numérico sin sentido, al cual llamamos código. En un

listado aparte, el código es vinculado con la categoría, a veces utilizando una expresión

abreviada o usando todo el nombre de la categoría, si el programa lo permite. De modo que

tenemos, finalmente, cuatro cosas:

a) Código: Valor numérico sin sentido, diferentes unos a otros

b) Etiqueta: Expresión abreviada de la categoría

c) Categoría: Según su expresión completa

d) Definición de la categoría: Breve explicación que ayude a comprender cuáles

sujetos deben ser incluidos en esta categoría

Cuando completamos toda esta información en relación a todas las variables y todas las

categorías de una base de datos, estamos construyendo un libro de códigos. Por ejemplo:

Variable Código Etiqueta Categoría DefiniciónOrientación vocacional

1 Ciencnat Ciencia naturales Incluye a todos aquellos que muestran interés por áreas como física, química, biología y matemáticas

Orientación vocacional

2 Humanida Humanidades Incluye a todos aquellos que muestran interés por idiomas y todo tipo de expresiones artísticas

Orientación vocacional

3 Trabmanu Trabajos manuales Incluye a aquellos que se inclinan por elaboraciones concretas y trabajos productivos no artísticos

Como vemos con claridad, una misma variable incluye tantas categorías como sean

necesarias, cada una de las cuales tiene un código, una etiqueta y una definición.

Cuando trabajamos con variables de razón, dado que cada número tiene valor por sí

mismo, no es necesario el libro de códigos. Sea cual sea la variable (cualitativa o

cuantitativa) es necesario hacer en algún lugar la definición de la variable, lo cual no forma

parte del libro de códigos.

2. Algunos Tipos de Bases de Datos

Presentaremos a continuación algunos tipos de bases de datos, clasificados según la

naturaleza de los datos que contienen. Este apartado es apenas introductorio, y no pretende

ser exhaustivo.

En general, seguiremos el esquema propuesto por Abascal y Grande (1989), pero, para

facilitar la comprensión, queremos diferenciar entre “Bases de Datos Primarias” (las que

consisten en la transcripción y ordenación de las medidas, sin ningún procesamiento

ulterior) y “Bases de Datos Secundarias” (conocidas generalmente como “tablas”,

constituyen una procesamiento efectuado sobre las tablas de datos primarias).

2.1. Bases de Datos Primarias

2.1.1. Bases de Datos Cuantitativas

Incluyen solo variables cuantitativas, de forma que en cada casilla vamos a

conseguir un número, que representa la medición de una determinada variable para un

determinado individuo. No hace falta generar un libro de códigos asociado a la base de

datos.

Código del sujeto Edad Talla de zapatos

Frecuencia de visita al cine por semana

Cantidad de amigos

1 21 45 1 152 45 40 0 233 35 38 3 38… … … … …n 38 41 2 12

2.1.1.1. Bases de Datos de Series Temporales

La clave de este tipo de bases de datos es que los sujetos no son personas, cosas,

países, etc, sino “tiempos”. Podemos tener el caso de que cada sujeto corresponda a un año

(1985, 1986, 1987, etc), a un mes (enero, febrero, marzo, etc), o incluso a una unidad de

tiempo indeterminada (como t1, t2, t3, etc). En los diseños intrasujeto de psicología

conductual es común la utilización de este tipo de bases de datos, que permiten ver cómo se

va adquiriendo o extinguiendo una conducta a lo largo de repetidas mediciones. El reino

por excelencia de las bases de datos temporales es, sobre todo, la economía. Veamos un

ejemplo a continuación (todos los datos son ficticios):

Mes Precio del dolar

Variación intermensual en

el PIB

Variación intermensual en

la inflación

Población empleada

Enero 1990 1,95 2,1 1,8 8,5Febrero 1990 1,98 1,3 2,3 8,9Marzo 1990 2,43 -0,4 2,5 8,4

… … … … …Junio 2008 2,15 0,8 1,9 7,8

La base de datos que estamos usando como ejemplo incorpora también una novedad

(que no está asociada con el hecho de ser una Base de Datos de Series Temporales): la de

incluir porcentajes e índices como parte de los datos. Esto es válido, y esta información

puede ser considerada, en sentido general, como cuantitativa.

2.1.1.2. Bases de Datos Ordinales y de Preferencias

Corresponden al vaciado de preguntas con nivel de medición ordinal. Cada casilla

representa el orden asignado en determinada variable por determinado sujeto.

Para que resulte más claro, supongamos el siguiente caso: un grupo de sujetos debe

ordenar sus preferencias en cuanto a qué tanto les gustaría vivir en cada uno de cinco

países. Se muestran a cada sujeto los cinco países candidatos y debe ordenarlos, asignando

un número del 1 al 5, siendo 1 el país preferido y 5 el menos deseado. No se pueden saltar

números ni colocar empates. Una muestra de la base de datos aparecería como sigue:

Código del sujeto

Francia Estados Unidos

España Chile Honduras

1 1 3 2 4 52 4 5 2 1 33 2 1 3 4 5… … … … … …N 2 1 3 5 4

Los datos dentro de las casillas constituyen una etiqueta referida a la posición del

país en cuanto a la preferencia del sujeto. Cada país, o cada columna, constituye una

variable. Como se utiliza la misma escala en todas las variables, y esta ya ha sido aclarada

en el enunciado de la pregunta (cuando decimos que 1 corresponde al país preferido),

podríamos prescindir de la elaboración de un libro de códigos para cada variable.

2.1.1.3. Bases de Datos de Modalidades

Son las correspondientes al vaciado de preguntas nominales. En este tipo de

preguntas, el número es solo un “referenciador”, que sirve para vincular a determinado

sujeto con una cierta modalidad o categoría, por lo cual es imprescindible el libro de

códigos para establecer la correspondencia código-categoría.

Por ejemplo, imaginemos una derivación del caso anterior sobre evaluación de

países. Se le pide al sujeto que indique si 1) consideraría vivir en ese país, 2) ya ha

considerado vivir allí o 3) jamás pensaría vivir allí. Cada persona puede elegir solo una

opción para cada país. (Nota: si usted opina que estas opciones tienen cierto tinte ordinal,

puede que esté en lo cierto. Sin embargo, note que los códigos no proponen una progresión:

la opción más favorable no es la 1, aunque la más desfavorable es la 3).

Los datos dentro de las casillas corresponden a estos números. Note que en este

caso, a diferencia del anterior, las medidas son independientes, es decir, que los empates

están permitidos. El sujeto 1 consideró la alternativa de vivir en todos los países evaluados,

así que asignó 1 a cada país. El sujeto n, por el contrario, asignó 3 a todos los países menos

a Estados Unidos, de modo que no consideraría la alternativa de vivir en ningún otro país

que no fuera Estados Unidos.

Código del sujeto

Francia Estados Unidos

España Chile Honduras

1 1 1 1 1 12 3 3 2 3 23 1 2 2 1 3… … … … … …N 3 1 3 3 3

2.1.1.4. Bases de Datos Disyuntiva Completa o Base de Datos Binaria

La manera más sencilla de comprender esta base de datos es verla como un

elaboración de la tabla anterior. En una base disyuntiva completa convertiremos cada

alternativa de respuesta de cada variable nominal en una columna separada, donde las

opciones de respuesta son 1 (para el caso de que se cumpla la condición) y 0 (para el caso

de que no se cumpla. Veamos cómo se transformaría la tabla anterior en una tabla

disyuntiva completa para el caso de los dos primeros países, Francia y Estados Unidos. (No

incluimos todos los países evaluados porque la mecánica es la misma y la base resultaría

muy larga)

Código del sujeto

Francia – Consideraría vivir (Código

1)

Francia – Ya ha considerado

vivir (Código21)

Francia – Jamás

pensaría vivir (Código31)

Estados Unidos –

Consideraría vivir (Código

1)

Estados Unidos – Ya ha

considerado vivir

(Código21)

Francia – Jamás

pensaría vivir

(Código311 1 0 0 1 0 02 0 0 1 0 0 13 1 0 0 0 1 0… … … … … …N 0 0 1 1 0 0

En un principio, una Base de Datos Binaria puede parecer una pérdida de tiempo y

energía, pues no proporciona mayor información que una Base de Datos de Modalidades.

Sin embargo, es fácil apreciar que algunos procedimientos pueden facilitarse utilizando este

tipo de estructuras: por ejemplo, para saber cuántas personas respondieron 1 en la

evaluación de Estados Unidos, solo debemos aplicar una sumatoria a la columna

correspondiente. Las bases de datos binarias fueron las primeras utilizadas cuando se

produjo el boom de la computación, de modo que algunos procedimientos de

almacenamiento y cálculo están especialmente desarrolladas para ellas.

2.1.1.5. Un Caso Especial de las Bases de Datos de Modalidades: Preguntas Únicas y Múltiples

La construcción de categorías o taxonomías trae un problema particular: es difícil

generar un listado de categorías en el que todos los sujetos produzcan una única respuesta,

y no sientan tentados a responder afirmativamente en dos o tres categorías que aplican. En

ciertos variables, esto difícilmente ocurre (por ejemplo, presente o ausente, vivo o muerto,

etc). Pero en otras, es altamente probable. Piense, por ejemplo, que le preguntan de qué

humor está hoy. Aunque haya un humos predominante, lo más probable es que responda

varias palabras, como “soñoliento”, “fatigado” y “desmotivado”, o, en otro caso, “enérgico”

y “optimista”. ¿Cómo se registran varias respuestas para un mismo individuo?

Una solución intuitiva sería colocar las respuestas una al lado de la otra dentro de la

misma casilla. Desengáñese: los programas no las procesan. Colocar un código 3 al lado de

un 1 es registrado por la máquina como 31. Si prueba a colocar caracteres que separen el 3

y el 1 (por ejemplo: 3,1 ó 3/1 ó 3 1). La máquina lo interpretará como un campo alfabético.

De hecho, a los humanos mismos nos costaría interpretar adecuadamente una celda que

dice 3 1 7 42 2 31 23.

Suponga la pregunta de la que hemos estado hablando: ¿cómo describiría su humor

el día de hoy?. Vamos a simplificar y considerar cinco alternativas: 1- soñoliento, 2-

nervioso, 3-enérgico, 4-optimista, 5-deprimido.

Existen dos alternativas para registrar respuestas múltiples. Ambas cumplen el

requisito de que cada celda recoja una sola respuesta. Estas alternativas son:

Método de la Opción de Respuesta para Respuestas Múltiples

Este método es simple en cuanto a estructura y es mucho más corto en cuanto a

transcripción, pero puede resultar más engorroso a la hora de procesar resultados. Como

cada sujeto puede responder varias opciones (de hecho, hasta cinco opciones, en sujetos un

poco confundidos), reservamos cinco columnas para esta respuesta. En la primera columna

(llamada “primera respuesta”) colocamos la primera respuesta, en la segunda columna

colocamos la segunda respuesta y así. Este modo de vaciado produce un patrón específico,

con la primera columna llena (es decir, con una respuesta para cada individuo), y las demás

disminuyendo la cantidad de respuestas por columna y aumentando los espacios en blanco

(o “0”, o “missing”, o 99, dependiendo de lo que se haya decidido hacer). A continuación

un ejemplo.

Código del sujeto

Humor - Primera

respuesta

Humor – Segunda respuesta

Humor – Tercera

respuesta

Humor – Cuarta

respuesta

Humor – Quinta

respuesta

Siguiente variable (por

ejemplo, edad)

1 2 5 1 232 1 4 423 3 15… … … … … … …N 5 1 25

Vea con cuidado: el sujeto 3 dio una sola respuesta, mientras que el 1 dio tres

respuestas. Aparentemente tenemos dos columnas vacías (la de “cuarta respuesta” y la de

“quinta respuesta”). Es preferible tener columnas vacías que no tener espacio para

transcribir respuestas, así que esto no es un problema.

Este tipo de bases de datos hay que procesarlas con cuidado. Si usted le pidió a los

entrevistadores que registraran las respuestas en el orden en que se produjeron, la primera

columna de respuesta debe corresponder a la primera respuesta producida, que

probablemente sea el humor dominante. En ese caso, podría analizar esa primera columna

sin tomar en cuenta las otras, y presentarla como el resultado del “humor dominante”. Fuera

de eso, no tiene ningún sentido analizar las columnas sin sumarlas. El SPSS tiene una rutina

(la de Respuestas Múltiples), para sumar estas columnas y procesar frecuencias y tablas

cruzadas a partir de ellas. En otros paquetes estadísticos puede resultar más complicado.

Decimos que en este sistema es más fácil la transcripción, pues todas las primeras

respuestas son colocadas en la primera columna, y cuando dejan de producirse respuestas,

dejamos de escribir. Es bastante diferente al caso que veremos a continuación.

Método Binario para Respuestas Múltiples

Es igual al método binario que ya hemos visto: cada alternativa de respuesta se

convierte en una columna en sí misma, y las opciones de respuesta son 1 (para “sí tiene este

estado de ánimo”) y 2 (para “no tiene este estado de ánimo”). Los resultados del ejemplo

anterior quedarían así:

Código del sujeto Soñoliento Nervioso Enérgico Optimista Deprimido

Siguiente variable (por

ejemplo, edad)

1 1 1 0 0 1 232 1 0 0 1 0 423 0 0 1 0 0 15… … … … … … …N 1 0 0 0 1 25

Estos resultados son más difíciles de llenar (para empezar, tal vez deban llenarse

todas las casillas), pero son mucho más fáciles de procesar: para saber cuántos deprimidos

hay, solo hay que sumar la columna.

Un buen investigador elabora el instrumento en armonía con la base de datos, es

decir, ya tiene pensada la estructura de la base de datos antes de fotocopiar el instrumento.

Háganle un favor a los transcriptores y a ustedes mismos: si van a utilizar el método binario

en la base de datos, por favor, utilicen también la pregunta con código binario en el

cuestionario. Es decir, en vez de colocar en el cuestionario las alternativas de respuesta así:

Soñoliento 1Nervioso 2Enérgico 3Optimista 4Deprimido 5

Colóquenlas de la siguiente manera:

Sí NoSoñoliento 1 0Nervioso 1 0Enérgico 1 0Optimista 1 0Deprimido 1 0

Parece una pérdida de tiempo a nivel del levantamiento de la información, pero al

transcriptor le tomará mucho menos tiempo conseguir la columna Enérgico, y transcribir 0,

que pensar “enérgico es el código 3, o sea, que es la columna 3, cuando llegue allí, debo

transcribir un 1”. Si la muestra es de 50 personas, tal vez no importe, pero si son 2000, esta

pequeña tontería puede representar una semana de trabajo.

Por supuesto, si saben utilizar los paquetes estadísticos y entienden de bases de

datos, toda data transcrita de un modo puede ser recolocada luego según otro esquema.

2.1.1.6. Bases de Datos Mixtas

En ciertas metodologías que involucran la construcción de cierto tipo de

instrumentos (como la metodología de sondeos por encuestas), es común enfrentarse con

instrumentos mixtos, que incluyen preguntas de todos los niveles de medición, y donde hay

tanto preguntas únicas como múltiples. A la base de datos correspondiente se le llama “base

de datos mixta”. Presentaremos un ejemplo basado en una encuesta extremadamente corta,

y la estructura de base de datos que generaría.

2.1.2. Bases de Datos Secundarias

Llamamos bases de datos secundarias a las logradas luego del procesamiento de

bases de datos primarias, como las que hemos visto hasta ahora. Usualmente son llamadas

tablas y, aunque pueden considerarse como “resultados” o “análisis” de información que ya

fue transcrita en forma de bases de datos primarias, en ocasiones representan insumos para

nuevos análisis estadísticos. Consideraremos dos: las Tablas de Contingencia y las Tablas

de Proximidades y Distancias.

2.1.2.1. Tablas de Contingencia (o Tablas Cruzadas, Tablas de Doble Entrada, Tablas Gris o Grillas)

El término “Tablas Grid” y “Grillas” viene del inglés “grill”, es decir, parrilla. A

veces (muy pocas veces) a estas tablas también se las llama parrila en español. En su nivel

más básico, constituyen un procesamiento de dos variables, usualmente nominales. Niveles

más complejos pueden incluir más variables, lo cual es más difícil de visualizar. El cruce

de tres variables produce un cubo, no una tabla plana. Veamos un ejemplo con dos

variables: sexo y rango de edad.

Masculino Femenino TOTALDe 18 a 24 años 15 20 35De 25 a 35 años 13 10 23De 35 a 45 años 11 9 20De 45 a 55 años 15 5 2056 años o más 10 7 17

TOTAL 64 51 115

Lo primero que hay que notar es que, por primera vez en lo que hemos venido

estudiando, las filas no corresponden a sujetos individuales, sino a categorías. Los números

dentro de las casillas muestran la cantidad de personas que cumplen las dos condiciones de

las variables estudiadas. Por ejemplo, hay 15 personas que simultáneamente son de género

“masculino” y tienen una edad “de 18 a 24 años”.

A los bordes de la tabla (aquí denotados como “TOTAL”) se les llama

“marginales”, y muestran las frecuencias para cada categoría de cada variable, sin cruce.

Por ejemplo, hay 17 personas de 56 años o más, sumando hombres y mujeres. La casilla del

extremo derecho inferior muestra el total de sujetos evaluados.

Imaginemos que incluimos una tercera variable, como ciudad de residencia (con las

opciones Caracas, Maracaibo y Valencia). Esta nueva variable dividiría cada una de las

celdas en tres sub-casillas, una para cada ciudad. Una cuarta variable complejizaría aún más

la situación. Hay estilos de representación para esta complejidad creciente (como las capas

y los filtros) que no abordaremos ahora. Sí creemos necesario decir que la inclusión de

mayor número de variables producirá una fragmentación de los resultados (frecuencias muy

bajas por casilla), de modo que, si se espera que estas tablas sean útiles, debemos tener

Bases de Datos Originales con suficiente cantidad de sujetos.

Por último, aunque las Tablas de Doble Entrada, per se, dan información descriptiva

de la asociación entre variables, también constituyen el insumo para ciertos análisis

estadísticos, como Chi Cuadrado y Análisis de Correspondencias Binarias.

2.1.2.2. Tablas de Proximidades y Distancias

Son una especie particular de tablas con variables de razón. En ellas se coloca la

distancia (física o psicológica, da igual) entre cada par de elementos comparados. La tabla

tiene a los mismos elementos en las filas y en las columnas, y cada una de las celdas

muestra la distancia entre un par de elementos. Esto da origen a una matriz triangular: la

mitad inferior izquierda de la tabla es idéntica a la mitad superior derecha, pero vista en

espejo. Veamos el siguiente ejemplo, muy simple, con apenas cuatro comparaciones entre

sectores de Caracas. Los datos en las casillas representan distancias ficticias en kilómetros.

Catia Altamira Petare El Silencio

Catia 0 32 48 11Altamira 32 0 28 25

Petare 48 28 0 35El Silencio 11 25 35 0

Note cómo la diagonal está formada por 0, pues la distancia de un punto con

respecto a él mismo es 0. Como dijimos, la matriz es diagonal. Generalmente, no tiene

sentido colocar los marginales.

Veamos un ejemplo psico-social. Se le pidió a un grupo de personas que dijeran qué

tanto se parecían dos sistemas políticos, utilizando una escala del 1 al 10, donde 10 es “son

muy diferentes” y 1 es “son muy similares”. Los datos en las casillas representan

promedios (Datos ficticios).

Democracia Monarquía Parlamen-tarismo

Democracia 0 4,2 2,1Monarquía 4,2 0 9,3

Parlamentarismo 2,1 9,3 0

Podemos ver que la democracia y el parlamentarismo son considerados como más

parecidos entre sí que cualquiera de ellos a la monarquía.

Aunque las tablas de distancia nos dan información por sí mismas, o sea, que

podrían ser consideradas un resultado, también se usan como insumo para algunos análisis

estadísticos, como el Escalamiento Multidimensional.

mariafatimadossantosestadistica1.files.wordpress.com€¦ · web viewuniversidad central de...

Documents