mariafatimadossantosestadistica1.files.wordpress.com€¦ · web viewuniversidad central de...
TRANSCRIPT
UNIVERSIDAD CENTRAL DE VENEZUELA
FACULTAD DE HUMANIDADES Y EDUCACIÓN
ESCUELA DE PSICOLOGÍA
CÁTEDRA DE ESTADÍSTICA
CONSTRUCCIÓN DE BASES DE DATOS
Profesora María Fátima Dos Santos
En matemática, una matriz es un ordenamiento particular de datos en una estructura
determinada de filas y columnas. Para todos los casos que veremos a continuación estamos
tratando con matrices planas, es decir, definidas en dos dimensiones: ancho y largo.
Solo para recordar, las filas y las columnas funcionan así:
Columna 1
Columna 2
Columna 3
Columna 4
Columna 4
… … Columna m
Fila 1Fila 2Fila 3Fila 4……Fila n
Cuando nos referimos a Columna m y Fila n estamos queriendo decir que esta
matriz puede ser tan ancha y tan larga como se desee.
El término “base de datos” se usa para indicar que la matriz con la que estamos
tratando organiza los datos provenientes de la realidad, de determinados aspectos medidos
en la realidad, y no se trata de números generados al azar, por ejemplo. Es decir, toda base
de datos es una matriz, pero no toda matriz es una base de datos.
Como puede verse en la matriz presentada arriba, la ordenación en filas y columnas
nos provee de un espacio bidimensional (sea cuadrado o no, es decir, haya la misma
cantidad de filas y de columnas o no) sobre el cual colocar los datos con los que estamos
trabajando.
En ciencias sociales (mucho más que en ciencias naturales) esta colocación se vuelve
un tanto compleja, pues quienes trabajamos con ciencias sociales solemos movernos en
varios niveles de medición, mientras que en ciencias naturales trabajan, con mayor
frecuencia, con variables en nivel de razón. Por ello debemos diferenciar algunos términos
antes de adentrarnos en los procedimientos de llenado de bases de datos.
1. Categorías, Etiquetas, Códigos y Libro de Códigos
Cuando decimos “categoría”, generalmente nos referimos a alguna de las opciones que
puede asumir una variable cualitativa, especialmente una nominal. Si estamos trabajando
con tipos de animales, por ejemplo, una categoría será “perro”, otra “águila calva”, otra
“águila gris”, otra “demonio de Tazmania”, otra “boa constrictor”, y así.
Cuando intentamos llevar estas categorías a la base de datos, debemos conseguir una
manera de que quepan dentro del reducido espacio que permite cada casilla, evitando
cualquier tipo de confusión entre una categoría y otra. Supongamos, por ejemplo, que solo
tenemos ocho espacios para transcribir la categoría (lo cual es el límite usual de ciertas
bases de datos), “águila calva”, “águila gris” y “demonio de Tazmania” exceden los límites
de la casilla. Podemos intentar resumir la categoría, y usar, por ejemplo “águila”, “águila” y
“demonio”, pero la reducción hace que en los dos primeros casos se repita una categoría y
en el tercer caso pierde sentido (es decir, ¿un demonio es un animal?). Podemos seguir
intentando opciones para que las categorías expresen adecuadamente al animal, sean cortas
y no se repitan, pero cuando trabajamos con muchas categorías, esto puede ser extenuante.
Es por ello que solemos recurrir a los libros de código.
Al trabajar con niveles de medición distintos al de razón (recordemos que solo en el
nivel de razón un número es exactamente y completamente eso: un número) solemos
reemplazar la categoría por un valor numérico sin sentido, al cual llamamos código. En un
listado aparte, el código es vinculado con la categoría, a veces utilizando una expresión
abreviada o usando todo el nombre de la categoría, si el programa lo permite. De modo que
tenemos, finalmente, cuatro cosas:
a) Código: Valor numérico sin sentido, diferentes unos a otros
b) Etiqueta: Expresión abreviada de la categoría
c) Categoría: Según su expresión completa
d) Definición de la categoría: Breve explicación que ayude a comprender cuáles
sujetos deben ser incluidos en esta categoría
Cuando completamos toda esta información en relación a todas las variables y todas las
categorías de una base de datos, estamos construyendo un libro de códigos. Por ejemplo:
Variable Código Etiqueta Categoría DefiniciónOrientación vocacional
1 Ciencnat Ciencia naturales Incluye a todos aquellos que muestran interés por áreas como física, química, biología y matemáticas
Orientación vocacional
2 Humanida Humanidades Incluye a todos aquellos que muestran interés por idiomas y todo tipo de expresiones artísticas
Orientación vocacional
3 Trabmanu Trabajos manuales Incluye a aquellos que se inclinan por elaboraciones concretas y trabajos productivos no artísticos
Como vemos con claridad, una misma variable incluye tantas categorías como sean
necesarias, cada una de las cuales tiene un código, una etiqueta y una definición.
Cuando trabajamos con variables de razón, dado que cada número tiene valor por sí
mismo, no es necesario el libro de códigos. Sea cual sea la variable (cualitativa o
cuantitativa) es necesario hacer en algún lugar la definición de la variable, lo cual no forma
parte del libro de códigos.
2. Algunos Tipos de Bases de Datos
Presentaremos a continuación algunos tipos de bases de datos, clasificados según la
naturaleza de los datos que contienen. Este apartado es apenas introductorio, y no pretende
ser exhaustivo.
En general, seguiremos el esquema propuesto por Abascal y Grande (1989), pero, para
facilitar la comprensión, queremos diferenciar entre “Bases de Datos Primarias” (las que
consisten en la transcripción y ordenación de las medidas, sin ningún procesamiento
ulterior) y “Bases de Datos Secundarias” (conocidas generalmente como “tablas”,
constituyen una procesamiento efectuado sobre las tablas de datos primarias).
2.1. Bases de Datos Primarias
2.1.1. Bases de Datos Cuantitativas
Incluyen solo variables cuantitativas, de forma que en cada casilla vamos a
conseguir un número, que representa la medición de una determinada variable para un
determinado individuo. No hace falta generar un libro de códigos asociado a la base de
datos.
Código del sujeto Edad Talla de zapatos
Frecuencia de visita al cine por semana
Cantidad de amigos
1 21 45 1 152 45 40 0 233 35 38 3 38… … … … …n 38 41 2 12
2.1.1.1. Bases de Datos de Series Temporales
La clave de este tipo de bases de datos es que los sujetos no son personas, cosas,
países, etc, sino “tiempos”. Podemos tener el caso de que cada sujeto corresponda a un año
(1985, 1986, 1987, etc), a un mes (enero, febrero, marzo, etc), o incluso a una unidad de
tiempo indeterminada (como t1, t2, t3, etc). En los diseños intrasujeto de psicología
conductual es común la utilización de este tipo de bases de datos, que permiten ver cómo se
va adquiriendo o extinguiendo una conducta a lo largo de repetidas mediciones. El reino
por excelencia de las bases de datos temporales es, sobre todo, la economía. Veamos un
ejemplo a continuación (todos los datos son ficticios):
Mes Precio del dolar
Variación intermensual en
el PIB
Variación intermensual en
la inflación
Población empleada
Enero 1990 1,95 2,1 1,8 8,5Febrero 1990 1,98 1,3 2,3 8,9Marzo 1990 2,43 -0,4 2,5 8,4
… … … … …Junio 2008 2,15 0,8 1,9 7,8
La base de datos que estamos usando como ejemplo incorpora también una novedad
(que no está asociada con el hecho de ser una Base de Datos de Series Temporales): la de
incluir porcentajes e índices como parte de los datos. Esto es válido, y esta información
puede ser considerada, en sentido general, como cuantitativa.
2.1.1.2. Bases de Datos Ordinales y de Preferencias
Corresponden al vaciado de preguntas con nivel de medición ordinal. Cada casilla
representa el orden asignado en determinada variable por determinado sujeto.
Para que resulte más claro, supongamos el siguiente caso: un grupo de sujetos debe
ordenar sus preferencias en cuanto a qué tanto les gustaría vivir en cada uno de cinco
países. Se muestran a cada sujeto los cinco países candidatos y debe ordenarlos, asignando
un número del 1 al 5, siendo 1 el país preferido y 5 el menos deseado. No se pueden saltar
números ni colocar empates. Una muestra de la base de datos aparecería como sigue:
Código del sujeto
Francia Estados Unidos
España Chile Honduras
1 1 3 2 4 52 4 5 2 1 33 2 1 3 4 5… … … … … …N 2 1 3 5 4
Los datos dentro de las casillas constituyen una etiqueta referida a la posición del
país en cuanto a la preferencia del sujeto. Cada país, o cada columna, constituye una
variable. Como se utiliza la misma escala en todas las variables, y esta ya ha sido aclarada
en el enunciado de la pregunta (cuando decimos que 1 corresponde al país preferido),
podríamos prescindir de la elaboración de un libro de códigos para cada variable.
2.1.1.3. Bases de Datos de Modalidades
Son las correspondientes al vaciado de preguntas nominales. En este tipo de
preguntas, el número es solo un “referenciador”, que sirve para vincular a determinado
sujeto con una cierta modalidad o categoría, por lo cual es imprescindible el libro de
códigos para establecer la correspondencia código-categoría.
Por ejemplo, imaginemos una derivación del caso anterior sobre evaluación de
países. Se le pide al sujeto que indique si 1) consideraría vivir en ese país, 2) ya ha
considerado vivir allí o 3) jamás pensaría vivir allí. Cada persona puede elegir solo una
opción para cada país. (Nota: si usted opina que estas opciones tienen cierto tinte ordinal,
puede que esté en lo cierto. Sin embargo, note que los códigos no proponen una progresión:
la opción más favorable no es la 1, aunque la más desfavorable es la 3).
Los datos dentro de las casillas corresponden a estos números. Note que en este
caso, a diferencia del anterior, las medidas son independientes, es decir, que los empates
están permitidos. El sujeto 1 consideró la alternativa de vivir en todos los países evaluados,
así que asignó 1 a cada país. El sujeto n, por el contrario, asignó 3 a todos los países menos
a Estados Unidos, de modo que no consideraría la alternativa de vivir en ningún otro país
que no fuera Estados Unidos.
Código del sujeto
Francia Estados Unidos
España Chile Honduras
1 1 1 1 1 12 3 3 2 3 23 1 2 2 1 3… … … … … …N 3 1 3 3 3
2.1.1.4. Bases de Datos Disyuntiva Completa o Base de Datos Binaria
La manera más sencilla de comprender esta base de datos es verla como un
elaboración de la tabla anterior. En una base disyuntiva completa convertiremos cada
alternativa de respuesta de cada variable nominal en una columna separada, donde las
opciones de respuesta son 1 (para el caso de que se cumpla la condición) y 0 (para el caso
de que no se cumpla. Veamos cómo se transformaría la tabla anterior en una tabla
disyuntiva completa para el caso de los dos primeros países, Francia y Estados Unidos. (No
incluimos todos los países evaluados porque la mecánica es la misma y la base resultaría
muy larga)
Código del sujeto
Francia – Consideraría vivir (Código
1)
Francia – Ya ha considerado
vivir (Código21)
Francia – Jamás
pensaría vivir (Código31)
Estados Unidos –
Consideraría vivir (Código
1)
Estados Unidos – Ya ha
considerado vivir
(Código21)
Francia – Jamás
pensaría vivir
(Código311 1 0 0 1 0 02 0 0 1 0 0 13 1 0 0 0 1 0… … … … … …N 0 0 1 1 0 0
En un principio, una Base de Datos Binaria puede parecer una pérdida de tiempo y
energía, pues no proporciona mayor información que una Base de Datos de Modalidades.
Sin embargo, es fácil apreciar que algunos procedimientos pueden facilitarse utilizando este
tipo de estructuras: por ejemplo, para saber cuántas personas respondieron 1 en la
evaluación de Estados Unidos, solo debemos aplicar una sumatoria a la columna
correspondiente. Las bases de datos binarias fueron las primeras utilizadas cuando se
produjo el boom de la computación, de modo que algunos procedimientos de
almacenamiento y cálculo están especialmente desarrolladas para ellas.
2.1.1.5. Un Caso Especial de las Bases de Datos de Modalidades: Preguntas Únicas y Múltiples
La construcción de categorías o taxonomías trae un problema particular: es difícil
generar un listado de categorías en el que todos los sujetos produzcan una única respuesta,
y no sientan tentados a responder afirmativamente en dos o tres categorías que aplican. En
ciertos variables, esto difícilmente ocurre (por ejemplo, presente o ausente, vivo o muerto,
etc). Pero en otras, es altamente probable. Piense, por ejemplo, que le preguntan de qué
humor está hoy. Aunque haya un humos predominante, lo más probable es que responda
varias palabras, como “soñoliento”, “fatigado” y “desmotivado”, o, en otro caso, “enérgico”
y “optimista”. ¿Cómo se registran varias respuestas para un mismo individuo?
Una solución intuitiva sería colocar las respuestas una al lado de la otra dentro de la
misma casilla. Desengáñese: los programas no las procesan. Colocar un código 3 al lado de
un 1 es registrado por la máquina como 31. Si prueba a colocar caracteres que separen el 3
y el 1 (por ejemplo: 3,1 ó 3/1 ó 3 1). La máquina lo interpretará como un campo alfabético.
De hecho, a los humanos mismos nos costaría interpretar adecuadamente una celda que
dice 3 1 7 42 2 31 23.
Suponga la pregunta de la que hemos estado hablando: ¿cómo describiría su humor
el día de hoy?. Vamos a simplificar y considerar cinco alternativas: 1- soñoliento, 2-
nervioso, 3-enérgico, 4-optimista, 5-deprimido.
Existen dos alternativas para registrar respuestas múltiples. Ambas cumplen el
requisito de que cada celda recoja una sola respuesta. Estas alternativas son:
Método de la Opción de Respuesta para Respuestas Múltiples
Este método es simple en cuanto a estructura y es mucho más corto en cuanto a
transcripción, pero puede resultar más engorroso a la hora de procesar resultados. Como
cada sujeto puede responder varias opciones (de hecho, hasta cinco opciones, en sujetos un
poco confundidos), reservamos cinco columnas para esta respuesta. En la primera columna
(llamada “primera respuesta”) colocamos la primera respuesta, en la segunda columna
colocamos la segunda respuesta y así. Este modo de vaciado produce un patrón específico,
con la primera columna llena (es decir, con una respuesta para cada individuo), y las demás
disminuyendo la cantidad de respuestas por columna y aumentando los espacios en blanco
(o “0”, o “missing”, o 99, dependiendo de lo que se haya decidido hacer). A continuación
un ejemplo.
Código del sujeto
Humor - Primera
respuesta
Humor – Segunda respuesta
Humor – Tercera
respuesta
Humor – Cuarta
respuesta
Humor – Quinta
respuesta
Siguiente variable (por
ejemplo, edad)
1 2 5 1 232 1 4 423 3 15… … … … … … …N 5 1 25
Vea con cuidado: el sujeto 3 dio una sola respuesta, mientras que el 1 dio tres
respuestas. Aparentemente tenemos dos columnas vacías (la de “cuarta respuesta” y la de
“quinta respuesta”). Es preferible tener columnas vacías que no tener espacio para
transcribir respuestas, así que esto no es un problema.
Este tipo de bases de datos hay que procesarlas con cuidado. Si usted le pidió a los
entrevistadores que registraran las respuestas en el orden en que se produjeron, la primera
columna de respuesta debe corresponder a la primera respuesta producida, que
probablemente sea el humor dominante. En ese caso, podría analizar esa primera columna
sin tomar en cuenta las otras, y presentarla como el resultado del “humor dominante”. Fuera
de eso, no tiene ningún sentido analizar las columnas sin sumarlas. El SPSS tiene una rutina
(la de Respuestas Múltiples), para sumar estas columnas y procesar frecuencias y tablas
cruzadas a partir de ellas. En otros paquetes estadísticos puede resultar más complicado.
Decimos que en este sistema es más fácil la transcripción, pues todas las primeras
respuestas son colocadas en la primera columna, y cuando dejan de producirse respuestas,
dejamos de escribir. Es bastante diferente al caso que veremos a continuación.
Método Binario para Respuestas Múltiples
Es igual al método binario que ya hemos visto: cada alternativa de respuesta se
convierte en una columna en sí misma, y las opciones de respuesta son 1 (para “sí tiene este
estado de ánimo”) y 2 (para “no tiene este estado de ánimo”). Los resultados del ejemplo
anterior quedarían así:
Código del sujeto Soñoliento Nervioso Enérgico Optimista Deprimido
Siguiente variable (por
ejemplo, edad)
1 1 1 0 0 1 232 1 0 0 1 0 423 0 0 1 0 0 15… … … … … … …N 1 0 0 0 1 25
Estos resultados son más difíciles de llenar (para empezar, tal vez deban llenarse
todas las casillas), pero son mucho más fáciles de procesar: para saber cuántos deprimidos
hay, solo hay que sumar la columna.
Un buen investigador elabora el instrumento en armonía con la base de datos, es
decir, ya tiene pensada la estructura de la base de datos antes de fotocopiar el instrumento.
Háganle un favor a los transcriptores y a ustedes mismos: si van a utilizar el método binario
en la base de datos, por favor, utilicen también la pregunta con código binario en el
cuestionario. Es decir, en vez de colocar en el cuestionario las alternativas de respuesta así:
Soñoliento 1Nervioso 2Enérgico 3Optimista 4Deprimido 5
Colóquenlas de la siguiente manera:
Sí NoSoñoliento 1 0Nervioso 1 0Enérgico 1 0Optimista 1 0Deprimido 1 0
Parece una pérdida de tiempo a nivel del levantamiento de la información, pero al
transcriptor le tomará mucho menos tiempo conseguir la columna Enérgico, y transcribir 0,
que pensar “enérgico es el código 3, o sea, que es la columna 3, cuando llegue allí, debo
transcribir un 1”. Si la muestra es de 50 personas, tal vez no importe, pero si son 2000, esta
pequeña tontería puede representar una semana de trabajo.
Por supuesto, si saben utilizar los paquetes estadísticos y entienden de bases de
datos, toda data transcrita de un modo puede ser recolocada luego según otro esquema.
2.1.1.6. Bases de Datos Mixtas
En ciertas metodologías que involucran la construcción de cierto tipo de
instrumentos (como la metodología de sondeos por encuestas), es común enfrentarse con
instrumentos mixtos, que incluyen preguntas de todos los niveles de medición, y donde hay
tanto preguntas únicas como múltiples. A la base de datos correspondiente se le llama “base
de datos mixta”. Presentaremos un ejemplo basado en una encuesta extremadamente corta,
y la estructura de base de datos que generaría.
2.1.2. Bases de Datos Secundarias
Llamamos bases de datos secundarias a las logradas luego del procesamiento de
bases de datos primarias, como las que hemos visto hasta ahora. Usualmente son llamadas
tablas y, aunque pueden considerarse como “resultados” o “análisis” de información que ya
fue transcrita en forma de bases de datos primarias, en ocasiones representan insumos para
nuevos análisis estadísticos. Consideraremos dos: las Tablas de Contingencia y las Tablas
de Proximidades y Distancias.
2.1.2.1. Tablas de Contingencia (o Tablas Cruzadas, Tablas de Doble Entrada, Tablas Gris o Grillas)
El término “Tablas Grid” y “Grillas” viene del inglés “grill”, es decir, parrilla. A
veces (muy pocas veces) a estas tablas también se las llama parrila en español. En su nivel
más básico, constituyen un procesamiento de dos variables, usualmente nominales. Niveles
más complejos pueden incluir más variables, lo cual es más difícil de visualizar. El cruce
de tres variables produce un cubo, no una tabla plana. Veamos un ejemplo con dos
variables: sexo y rango de edad.
Masculino Femenino TOTALDe 18 a 24 años 15 20 35De 25 a 35 años 13 10 23De 35 a 45 años 11 9 20De 45 a 55 años 15 5 2056 años o más 10 7 17
TOTAL 64 51 115
Lo primero que hay que notar es que, por primera vez en lo que hemos venido
estudiando, las filas no corresponden a sujetos individuales, sino a categorías. Los números
dentro de las casillas muestran la cantidad de personas que cumplen las dos condiciones de
las variables estudiadas. Por ejemplo, hay 15 personas que simultáneamente son de género
“masculino” y tienen una edad “de 18 a 24 años”.
A los bordes de la tabla (aquí denotados como “TOTAL”) se les llama
“marginales”, y muestran las frecuencias para cada categoría de cada variable, sin cruce.
Por ejemplo, hay 17 personas de 56 años o más, sumando hombres y mujeres. La casilla del
extremo derecho inferior muestra el total de sujetos evaluados.
Imaginemos que incluimos una tercera variable, como ciudad de residencia (con las
opciones Caracas, Maracaibo y Valencia). Esta nueva variable dividiría cada una de las
celdas en tres sub-casillas, una para cada ciudad. Una cuarta variable complejizaría aún más
la situación. Hay estilos de representación para esta complejidad creciente (como las capas
y los filtros) que no abordaremos ahora. Sí creemos necesario decir que la inclusión de
mayor número de variables producirá una fragmentación de los resultados (frecuencias muy
bajas por casilla), de modo que, si se espera que estas tablas sean útiles, debemos tener
Bases de Datos Originales con suficiente cantidad de sujetos.
Por último, aunque las Tablas de Doble Entrada, per se, dan información descriptiva
de la asociación entre variables, también constituyen el insumo para ciertos análisis
estadísticos, como Chi Cuadrado y Análisis de Correspondencias Binarias.
2.1.2.2. Tablas de Proximidades y Distancias
Son una especie particular de tablas con variables de razón. En ellas se coloca la
distancia (física o psicológica, da igual) entre cada par de elementos comparados. La tabla
tiene a los mismos elementos en las filas y en las columnas, y cada una de las celdas
muestra la distancia entre un par de elementos. Esto da origen a una matriz triangular: la
mitad inferior izquierda de la tabla es idéntica a la mitad superior derecha, pero vista en
espejo. Veamos el siguiente ejemplo, muy simple, con apenas cuatro comparaciones entre
sectores de Caracas. Los datos en las casillas representan distancias ficticias en kilómetros.
Catia Altamira Petare El Silencio
Catia 0 32 48 11Altamira 32 0 28 25
Petare 48 28 0 35El Silencio 11 25 35 0
Note cómo la diagonal está formada por 0, pues la distancia de un punto con
respecto a él mismo es 0. Como dijimos, la matriz es diagonal. Generalmente, no tiene
sentido colocar los marginales.
Veamos un ejemplo psico-social. Se le pidió a un grupo de personas que dijeran qué
tanto se parecían dos sistemas políticos, utilizando una escala del 1 al 10, donde 10 es “son
muy diferentes” y 1 es “son muy similares”. Los datos en las casillas representan
promedios (Datos ficticios).
Democracia Monarquía Parlamen-tarismo
Democracia 0 4,2 2,1Monarquía 4,2 0 9,3
Parlamentarismo 2,1 9,3 0
Podemos ver que la democracia y el parlamentarismo son considerados como más
parecidos entre sí que cualquiera de ellos a la monarquía.
Aunque las tablas de distancia nos dan información por sí mismas, o sea, que
podrían ser consideradas un resultado, también se usan como insumo para algunos análisis
estadísticos, como el Escalamiento Multidimensional.