1.
Análisis de varianza (ANOVA): un método para
comparar las medias de dos o más grupos con el objetivo de determinar si
existen diferencias significativas entre ellos.
2.
Árboles de decisión: un método de aprendizaje
supervisado que permite predecir una variable dependiente a partir de una o más
variables independientes mediante la construcción de un árbol de decisión.
3.
Box Plot: una representación gráfica de la
distribución de datos que muestra la mediana, la moda, los cuartiles y los
outliers
4.
Clustering: una técnica de aprendizaje no
supervisado que permite agrupar objetos similares en grupos distintos.
5.
Coeficiente de correlación: un número que mide
la fuerza y la dirección de una relación lineal entre dos variables
6.
Coeficiente de correlación: una medida de la
fuerza y la dirección de la relación lineal entre dos variables.
7.
Correlación: una medida de la relación lineal
entre dos variables
8.
Desviación estándar: una medida de la
variabilidad de un conjunto de datos respecto a su media
9.
Distribución a priori: la distribución de probabilidad
que se utiliza para reflejar la información previa sobre un parámetro de
población
10. Distribución
normal: una distribución de probabilidad continuo que es simétrico y tiene una
forma de campana
11. Distribución
posterior: la distribución de probabilidad actualizada después de considerar
los datos observados
12. Error
tipo I: el error que se comete al rechazar una hipótesis nula que es verdadera
13. Error
tipo II: el error que se comete al no rechazar una hipótesis nula que es falsa
14. Estadística
Bayesiana: un enfoque estadístico que combina la información prior con los
datos observados para producir una estimación posterior
15. Estadística
descriptiva: el proceso de resumir, organizar y representar datos
16. Estadística
inferencial: el proceso de hacer afirmaciones sobre una población basadas en
datos de una muestra
17. Estimación
por intervalo: una estimación de un parámetro de población basada en un
intervalo que contiene al verdadero valor con una probabilidad dada
18. Estimación
puntual: una estimación de un parámetro de población basada en un único valor
de una muestra
19. Estimador
eficiente: un estimador que tiene la varianza mínima posible para una clase
dada de estimadores
20. Estimador
insesgado: un estimador que tiene un valor esperado igual al verdadero valor
del parámetro de población
21. Estimador:
una función que toma datos de una muestra y produce un estimado de un parámetro
de población
22. Hipótesis
alternativa: la afirmación que se busca probar o refutar en un test de
hipótesis
23. Hipótesis
nula: la afirmación que se asume ver
24. Histograma:
una representación gráfica de la distribución de datos que divide los datos en
intervalos y muestra la frecuencia de cada intervalo
25. Inferencia
Bayesiana: el proceso de producir una estimación posterior de un parámetro de
población a partir de la información prior y los datos observados
26. Intervalo
de confianza: un intervalo estimado para un parámetro de población basado en
una muestra
27. K-means:
un método de clustering que permite agrupar objetos similares en k grupos
distintos utilizando un enfoque basado en centroides.
28. Media:
la suma de todos los valores de un conjunto de datos divididos por el número de
valores
29. Mediana:
el valor que divide un conjunto de datos ordenados en dos partes iguales
30. Moda:
el valor más común en un conjunto de datos
31. Modelo
lineal: un modelo estadístico que describe la relación entre una variable
dependiente y una o más variables independientes.
32. Modelo
logístico: un modelo estadístico utilizado para describir la relación entre una
variable dependiente categórica y una o más variables independientes.
33. Muestra:
un subconjunto representativo de una población
34. Muestreo
con reemplazo: un proceso de muestreo en el que cada elemento puede ser
seleccionado varias veces
35. Muestreo
sin reemplazo: un proceso de muestreo en el que cada elemento solo puede ser
seleccionado una vez
36. Muestreo:
el proceso de seleccionar una muestra de una población
37. Nivel
de significación: la probabilidad de cometer un error tipo I en un test de
hipótesis
38. Parametro:
una medida numérica que describe una característica de una población
39. Población:
el conjunto total de elementos sobre los que se desea hacer una afirmación
estadística
40. P-valor:
la probabilidad de obtener un resultado igual o más extremo que el observado en
una muestra dada que la hipótesis nula es verdadera
41. R^2:
una medida del porcentaje de la variabilidad total de una variable explicada
por un modelo de regresión lineal
42. Red
neuronal: un modelo computacional inspirado en el funcionamiento del cerebro
que permite el aprendizaje automático a partir de datos.
43. Regresión
lineal: un modelo matemático que permite predecir el valor de una variable a
partir de otra variable
44. Regresión
lineal: una técnica de análisis que permite establecer la relación entre dos
variables y ajustar un modelo lineal para predecir una variable dependiente a
partir de una o más variables independientes.
45. SVM
(Support Vector Machine): un método de aprendizaje supervisado que permite
clasificar objetos en diferentes categorías utilizando un hiperplano de
separación.
46. Teorema
del límite central: el teorema que afirma que la media de una muestra grande de
una población normal se acerca a la media de la población
47. Test
de hipótesis: un proceso para evaluar la validez de una afirmación estadística
48. Test
T: un test estadístico que compara la media de una muestra con un valor desconocido
de la media de la población
49. Test
Z: un test estadístico que compara la media de una muestra con un valor
conocido de la media de la población
50. Varianza:
una medida de la dispersión de un conjunto de datos respecto a su media