En las estadísticas, la regresión linear es un método de la regresión que modela la relación entre un Y, i , i de la variable dependiente del del X de las variables independientes = 1,…, el p, y un ε al azar del término. El modelo se puede escribir como = \ beta_0 del Y del

l X_1 + + \ beta_1 \ beta_2 X_2 + \ cdots + \ + \ varepsilon de X_p del beta_p

donde está la intercepción el \ beta_0 (" constant" el término), el \ beta_is es los parámetros respectivos de variables independientes, y p es el número de parámetros que se estimarán en la regresión linear. La regresión linear se puede poner en contraste con la regresión no linear .

Este método se llama " linear" porque la relación de la respuesta (la variable dependiente Y) a las variables independientes se asume para ser una función linear de los parámetros. Está a menudo pensó erróneamente que la razón la técnica está llamada " regression" linear; está eso el gráfico del = \ beta_ {0} del Y + \ x beta es una línea recta o ese Y es una función linear de las variables del X . Pero si es el modelo (por ejemplo) = \ alfa del Y del

l + \ beta x + \ + \ varepsilon de la gamma x^2

el problema sigue siendo uno de regresión linear del, es decir, linear en x y x^2 respectivamente, aunque el gráfico en x por sí mismo no es una línea recta. Es decir Y se puede considerar una función linear de los parámetros ( \ alfa, \ beta, y \ la gamma ), aunque no es una función linear de x.

Observaciones históricas

La forma más temprana de regresión linear era el método de los m3inimos cuadr3aticos, que fue publicado por el Legendre en 1805, y por el gauss en 1809. El término “m3inimos cuadr3aticos” es del término de Legendre, carrés de los moindres del . Sin embargo, el gauss demandó que él había sabido el método desde 1795.

Ambos de Legendre y del gauss aplicados el método al problema de determinar, de observaciones astronómicas, las órbitas de cuerpos sobre el sol. El Euler había trabajado en el mismo problema (1748) sin éxito. El gauss publicó otro desarrollo de la teoría de m3inimos cuadr3aticos en 1821, incluyendo una versión del teorema Gauss-De Markov .

Notación y convención de nombramiento

En la notación abajo:
un vector de variables se denota usar una flecha en negrita sobre el vector, tal como \ vec X
las matrices se denotan usar una fuente en negrita, tal como X
un vector de los parámetros (" constants") está un en negrita β sin subíndice Un vector del β de los matriz-tiempos del X se escribe como Xβ . La variable dependiente, Y en la regresión convencionalmente se llama el " Respuesta variable. " Las variables independientes (en forma del vector) se llaman las variables explicativas o los regressors. Otros términos incluyen el " variables exógenas, " " variables de entrada, " y " variables" del calculador;.

Un sombrero, \ sombrero {} , sobre variable denota que se ha estimado la variable o el parámetro, por ejemplo, \ el sombrero \ beta, estimaba los valores del β del vector del parámetro.

El modelo de regresión linear

El modelo de regresión linear se puede escribir en la notación de la vector-matriz como \ Y = X \ + beta \ varepsilon del

l . \,

El ε del término es el " del modelo; term" del error ; (un nombre incorrecto solamente un uso estándar) y representa la variación unpredicted o inexplicada en la variable de la respuesta; convencionalmente se llama el “error” si es realmente un error de medida o no, y se asume para ser independiente del \ del vec X. Para la regresión linear simple, donde hay solamente un solo variable explicativo y dos parámetros, la ecuación antedicha reduce a:

l y = a+bx+ \ varepsilon. \,

Una formulación equivalente que demuestra explícitamente la regresión linear mientras que un modelo de la expectativa condicional se puede dar como del

l \ mbox {E} (y|x) = \ alfa + \ x beta \,

con la distribución condicional y dado el x es idéntico a la distribución del término del error.

Tipos de regresión linear

Hay muchos diversos acercamientos a solucionar el problema de la regresión, es decir, determinando las estimaciones convenientes para los parámetros. ¡técnicas populares son los m3inimos cuadr3aticos y la regresión robusta . -->

Análisis de los m3inimos cuadr3aticos

¡ ¡ ¡

considera también:

los m3inimos cuadr3aticos

El análisis de los m3inimos cuadr3aticos fue desarrollado por el Carl Friedrich Gauss en el 1820s. Este método utiliza el gauss siguiente - asunciones de Markov :
El i del ε de los errores al azar tiene valor previsto 0.
El i
del ε de los errores al azar es sin correlación (éste es más débil que una asunción de la independencia de probabilidad ).
El i
del ε de los errores al azar es el homoscedástico, es decir, todos tienen la misma variación . (Véase también el teorema Gauss-De Markov ). Estas asunciones implican que las estimaciones de los m3inimos cuadr3aticos de los parámetros son óptimas en cierto sentido.

Una regresión linear con coeficientes del p y la regresión interceptan β0 y los puntos de referencias del n (tamaño de muestra), con el n \ el geq (p+1) permite la construcción de los vectores siguientes y la matriz con errores estándar asociados:

\ comienzan {y_ del bmatrix} {1} \ \ y_ {2} \ \ \ vdots \ \ y_ {n} \ fin {bmatrix} = \ comienzan {bmatrix} 1 y x_ {11} y x_ {12} y \ puntea y x_ {1p} \ \ 1 y x_ {21} y x_ {22} y \ puntea y x_ {2p} \ \ \ vdots y \ vdots y \ vdots y y \ vdots \ \ 1 y x_ {n1} y x_ {n2} y \ puntea y x_ {de NP} \ extremo {del bmatrix} \comienzan {bmatrix} \ beta_0 \ \ \ beta_1 \ \ \ vdots \ \ \ beta_p \ fin {bmatrix} + \ comienzan {\ varepsilon_1 \ \ \ varepsilon_2} del bmatrix \ \ \ vdots \ \ \ varepsilon_n \ extremo {bmatrix}

o, de la notación de la vector-matriz arriba,

\ y = \ mathbf {} \ cdot \ + beta \ varepsilon de X. \, Cada punto de referencias se puede dar como el (\ el x_i, y_i del vec) , i=1,2, \ puntos, n. Para n = p, los errores estándar de las estimaciones del parámetro no podían ser calculados. Para n menos que p, parámetros no podía ser calculada.

Los valores estimados de los parámetros se pueden dar como del \ ^ del widehat {\ beta} = (\ ^T del mathbf {X} \ mathbf {X}) {- 1} \ ^T del mathbf {X} {\ vec y}

Usar las asunciones proporcionó por el teorema Gauss-De Markov, es posible analizar los resultados y determinar independientemente de si el modelo determinado usar m3inimos cuadr3aticos es válido. El número de grados de la libertad es dado por el   del n ; −     del p ; −   1.

Las residuales, representando la diferencia entre las observaciones y las predicciones del modelo, se requieren analizar la regresión. Son resueltas de

\ sombrero \ vec \ varepsilon = \ vec y - \ mathbf {} \ sombrero de X \ beta \,

La desviación estándar, \ sombrero \ sigma para el modelo es resuelta de

{\ sombrero \ = \ raíz cuadrada de la sigma {\ frac {\ sombrero \ vec \ varepsilon^T \ sombrero \ vec \ varepsilon} {n-p-1}} = \ raíz cuadrada {\ frac}}

La variación en los errores se puede describir usar la distribución del Ji-cuadrado: del \ sombrero \ sigma^2 \ sim \ frac {\ \ ^2 \ sigma^2 del chi_ {n-p-1}} {n-p-1}

Se computa el % de 100 (1 \ alfa) del intervalo de confianza para el parámetro, \ beta_i , como sigue:

{\ t_ del widehat \ del beta_i \ P. {\ frac {\ alfa} {2}, n - p - 1} \ sombrero \ ^ del _ de la sigma \ raíz cuadrada {(\ ^T del mathbf {X} \ mathbf {X}) {ii} {- 1}}}

donde el t sigue la distribución T del estudiante con grados de n-p-1 de libertad y ^ del _ del (\ ^T del mathbf {X} \ el mathbf {X}) {ii} {- 1} denota el valor situado en la fila del i^ {th} y la columna de la matriz.

El % de la respuesta de 100 (1 \ alfa) del intervalo de confianza malo para una predicción (interpolación o extrapolación) para un del valor \ = \ vec {x_d} del vec {x} se da cerca:

{\ vec {x_0} \ widehat \ t_ beta \ del P. {\ frac {\ alfa} {2}, n - p - 1} \ sombrero \ ^ del _ de la sigma \ raíz cuadrada {\ vec {x_0} (\ ^T del mathbf {X} \ mathbf {X}) {} {- 1} \ ^T del vec {x_0}}}

donde \ vec {x_0} = <1, x_ {2}, x_ {3},…, x_ {p} > .

Los % de 100 (1 \ alfa) predijeron que los intervalos de confianza de la respuesta para los datos está dada cerca:

{\ vec {x_0} \ widehat \ t_ beta \ del P. {\ frac {\ alfa} {2}, n - p - 1} \ sombrero \ ^ del _ de la sigma \ raíz cuadrada {1 + \ vec {x_0} (\ ^T del mathbf {X} \ mathbf {X}) {} {- 1} \ ^T del vec {x_0}}} .

La suma de la regresión del SSR de los cuadrados se da cerca (también comúnmente llamado RSS):

{\ = \ suma del mathit {SSR} {\ dejado ({\ sombrero y_i - \ barra y} \ derecho) ^2} = \ sombrero \ beta^T \ ^T del mathbf {X} \ vec y - \ frac {1} {} \ dejado de n ({\ y^T del vec \ vec u \ u^T del vec \ vec y} \ derecho)}

donde \ barra y = \ el frac {1} {} \ suma y_i y \ vec u de n está un n por 1 vector de unidad (es decir cada elemento es 1). Observar que el u^T y del y^T u del \ del frac del término {1} {n} es equivalente al \ al frac {1} {n} (\ y_i de la suma) ^2.

La suma del error del ESS de los cuadrados se da cerca:

{\ = \ suma del mathit {ESS} {\ dejado ({y_i - \ y_i del sombrero} \ derecho) ^2} = \ y^T del vec \ - \ sombrero \ ^T del beta^T \ del mathbf {X} \ vec y} del vec y.

La suma total de TSS del de los cuadrados se da cerca

{\ = \ suma del mathit {TSS} {\ dejado ({y_i - \ barra y} \ derecho) ^2} = \ y^T del vec \ vec y - \ frac {1} {} \ dejado de n ({\ y^T del vec \ vec u \ u^T del vec \ vec y} \ derecho) = \ + \ mathit {ESS} del mathit {SSR}}.

El coeficiente de Pearson de la regresión, ² de R entonces se da como

{R^2 = \ frac {\ mathit {SSR}} = 1 - \ frac {\ mathit {ESS}} {\ mathit {TSS}}}.

Determinación del modelo de los m3inimos cuadr3aticos

Los valores antedichos se han corregido una vez, el modelo se deben comprobar para saber si hay dos diversas cosas: Si las asunciones de m3inimos cuadr3aticos están satisfechas y
  • Si el modelo es válido

    Comprobación de las asunciones modelo

    Las asunciones modelo son comprobadas calculando las residuales y trazándolas. Se calculan las residuales como sigue:

    \ sombrero \ vec \ varepsilon = \ vec y - \ = \ vec y del sombrero \ del vec y - \ mathbf {} \ sombrero de X \ beta. \,

    Los diagramas siguientes se pueden construir para probar la validez de las asunciones: Un diagrama normal de la probabilidad de las residuales de probar normalidad. Los puntos deben mentir a lo largo de una línea recta.

  • Un diagrama de la serie de tiempo de las residuales, es decir, trazando las residuales en función de tiempo.
  • Residuales contra las variables explicativas, \ mathbf {X} .
  • Residuales contra los valores cabidos, \ sombrero \ vec y \, .
  • Residuales contra la residual precedente.

    No debe haber ningún patrón sensible a los datos en todos sino el primer diagrama.

    Comprobación de la validez modelo

    La validez del modelo se puede comprobar usar métodos siguientes uces de los:

    usar el intervalo de confianza para cada uno de los parámetros, \ beta_i . Si el intervalo de confianza incluye 0, después el parámetro se puede quitar del modelo. Ideal, un nuevo análisis de regresión excepto ese parámetro necesitaría ser realizado y ser continuado hasta que no haya parámetros a quitar.

  • Calcular el coeficiente de Pearson de regresión. Más cercano el valor está a 1; mejor la regresión es. Este coeficiente da qué fracción del comportamiento observado se puede explicar por las variables dadas.
  • Examen de los intervalos de observación y de la predicción de confianza. Más pequeños son los mejores.
  • Computación de las F-estadísticas .

    Modificaciones del análisis de los m3inimos cuadr3aticos

    Hay las varias maneras diferentes en incluyendo las cuales el análisis de los m3inimos cuadr3aticos se puede modificar
    el del

    cargó los m3inimos cuadr3aticos, que es una generalización del método de m3inimos cuadr3aticos
    guarnición polinómica, que implica el caber de un polinomio a los datos dados.

  • Guarnición polinómica

    Un ajuste polinómico es un tipo específico de regresión múltiple. El modelo de regresión simple (un polinomio de primer orden) se puede extender a órdenes más altas. El y_i del \ del scriptstyle del modelo de regresión \, = \, \ alpha_0 + \ alpha_2 del x_i + \ alpha_1 x_i^2 + \ cdots + \ + \ varepsilon_i del x_i^m del alpha_m \ (i = 1, 2, \ puntea, n) es un sistema de ecuaciones polinómicas del m de la orden con el \ el scriptstyle \ \ alpha_0, {\ puntea, \ alpha_m \} polinómicos de los coeficientes. Como antes, podemos expresar el modelo usar \ scriptstyle \ el mathbf de la matriz de los datos {X} , \ scriptstyle \ vec y del vector de la blanco del y del vector del parámetro \ scriptstyle \ el vec \ alpha. La fila del th del i del \ del scriptstyle \ del mathbf {X} y el \ el scriptstyle \ el vec y contendrá el valor del x y del y para la muestra de los datos del th del i . Entonces el modelo se puede escribir como sistema de ecuaciones lineares:

    \ comienzan {bmatrix} y_1 \ \ y_2 \ \ \ vdots \ \ y_n \ fin {bmatrix} = \ comienzan {bmatrix} 1 y x_1 y x_1^2 y \ punto y x_1^m \ \ 1 y x_2 y x_2^2 y \ punto y x_2^m \ \ \ vdots y \ vdots y \ vdots y y \ vdots \ \ 1 y x_n y x_n^2 y \ punto y x_n^m \ fin {bmatrix} \ comienzan {bmatrix} \ alpha_0 \ \ \ alpha_1 \ \ \ alpha_2 \ \ \ vdots \ \ \ alpha_m \ fin {bmatrix} + \ comienzan {} \ varepsilon_1 del bmatrix\ \ \ varepsilon_2 \ \ \ vdots \ \ \ varepsilon_n \ extremo {bmatrix}

    cuál al usar la notación de matriz pura permanece, como antes,

    Y = \ mathbf {} \ vec \ alfa + \, \, de X del varepsilon

    y el vector de coeficientes polinómicos es

    \ widehat {\ vec \ alfa} = (\ ^T del mathbf {X} \ mathbf {X}) ^ {- 1} \; \ ^T Y. del mathbf {X} \,

    Regresión robusta

    Un anfitrión de acercamientos alternativos al cómputo de los parámetros de la regresión se incluye en la categoría conocida como regresión robusta . Una técnica reduce al mínimo el error absoluto malo, o una cierta otra función de las residuales, en vez de error medio cuadrático como en la regresión linear. La regresión robusta es mucho más de cómputo intensiva que la regresión linear y es algo más difícil de ejecutar también. Mientras que las estimaciones de los m3inimos cuadr3aticos no son muy sensibles a romper la normalidad de la asunción de los errores, ésta no es verdad cuando la variación o el medio de la distribución de error no se limita, o cuando un analista que puede identificar afloramientos es inasequible.

    En la cultura de Stata, la regresión robusta del significa la regresión linear con las estimaciones de error estándar Huber-Blancas. Esto relaja la asunción Homoscedasticity para las estimaciones de la variación solamente; los calculadores son estimaciones todavía ordinarias de los m3inimos cuadr3aticos (OLS).

    Usos de la regresión linear

    La línea de tendencia el del de

    para las líneas de tendencia según lo utilizado en el análisis técnico, considera las líneas de tendencia (análisis técnico)

    Una línea de tendencia del representa una tendencia, el movimiento de largo plazo en datos de la serie de tiempo después de que se hayan explicado otros componentes. Dice si un conjunto de datos particular (decir el GDP, los precios del petróleo o los precios de las acciones) ha aumentado o ha disminuido durante el periodo de tiempo. Una línea de tendencia se podría dibujar simplemente por el ojo a través de un sistema de puntos de referencias, pero más correctamente su posición y cuesta se calcula usar técnicas estadísticas como la regresión linear . Las líneas de tendencia son típicamente líneas rectas, aunque algunas variaciones utilicen polinomios de un grado más alto dependiendo del grado de curvatura deseado en la línea.

    Las líneas de tendencia se utilizan a veces en analytics del negocio para demostrar cambios en datos en un cierto plazo. Esto tiene la ventaja de ser simple. Las líneas de tendencia son de uso frecuente sostener que una acción o un acontecimiento particular (tal como entrenamiento, o una campaña publicitaria) causó cambios observados en un punto a tiempo. Esto es una técnica simple, y no requiere un grupo de control, un diseño experimental, o una técnica sofisticada del análisis. Sin embargo, sufre de una carencia de la validez científica en caso de que otros cambios potenciales puedan afectar a los datos.

    Ejemplos

    La regresión linear es ampliamente utilizada en biológico, del comportamiento y ciencias sociales describir relaciones entre las variables. Alinea como una de las herramientas más importantes usadas en estas disciplinas.

    Medicina

    Como un ejemplo, la evidencia temprana que se relacionaba el consumo de tabaco con la mortalidad y la morbosidad vino de los estudios que empleaban la regresión. Los investigadores incluyen generalmente varias variables en su análisis de regresión en un esfuerzo para quitar los factores que pudieron producir las correlaciones falsas por el ejemplo del tabaquismo, los investigadores pudieron incluir estado socioeconómico además de fumar para asegurarse de que ningún efecto observado de fumar en mortalidad no es debido a un cierto efecto de la educación o de la renta. Sin embargo, nunca es posible incluir todas las variables posibles de la confusión en un estudio que emplea la regresión. Para el ejemplo que fumaba, un gene hipotético pudo aumentar mortalidad y también hacer a gente fumar más. Por esta razón, el los ensayos controlados seleccionados al azar se considera ser más digno de confianza que un análisis de regresión.

    Finanzas

    La regresión linear es la base del modelo de tasación de activo fijo, y del concepto de usar el beta para analizar y cuantificar el riesgo sistemático de una inversión. Esto viene directo del coeficiente beta del modelo de regresión linear que se relaciona el rendimiento del capital invertido con la vuelta en todos los activos aventurados.
  • Zenithic
  • Philippe Francq
    Random links:Edward VIII del Reino Unido | Duluth, Georgia | ISO 3166-2: BG | Bruno el bandido | Arturo Lewis (economista)

  • © 2007-2008 enciclopediaespana.com; article text available under the terms of GFDL, from en.wikipedia.org
    ="http://pagead2.googlesyndication.com/pagead/show_ads.js">