Descenso-Gradiente

Reglas-Aprendizaje

Nota: (El descenso de gradiente es un algoritmo de optimización que se utiliza para minimizar alguna función moviéndose iterativamente en la dirección del descenso más pronunciado según lo definido por el negativo del gradiente).

 

Algoritmo-Descenso-Gradiente

-. Algoritmo-Descenso-Gradiente es un algoritmo de optimización iterativo de primer orden para encontrar un mínimo local de una función diferenciable. Es dar pasos repetidos en la dirección opuesta del gradiente de la función en el punto actual, porque esta es la dirección del descenso más pronunciado. Por el contrario, avanzar en la dirección del gradiente conducirá a un máximo local de esa función; el procedimiento se conoce entonces como Ascenso-Gradiente.

  • Los métodos de gradiente se refieren a un método de optimización en el que la dirección de descenso se obtiene a partir de la información del gradiente, no se limita necesariamente al gradiente negativo.

Nota: Para la compresión del concepto del Descenso del Gradiente existe una analogía que expone un escenario hipotético. Una persona está atrapada en las montañas y está tratando de bajar es decir, tratando de encontrar el mínimo global). Hay mucha niebla, por lo que la visibilidad es extremadamente baja. Por lo tanto, el camino que baja de la montaña no es visible, por lo que deben usar la información local para encontrar el mínimo. Pueden utilizar el método de descenso en pendiente, que consiste en observar la inclinación de la colina en su posición actual y luego proceder en la dirección con el descenso más pronunciado es decir, cuesta abajo. Si estuvieran tratando de encontrar la cima de la montaña es decir, el máximo, entonces procederían en la dirección del ascenso más empinado es decir, cuesta arriba. Usando este método, eventualmente encontrarían su camino montaña abajo o posiblemente quedarían atrapados en algún agujero es decir, mínimo local opunto de silla de montar, como un lago de montaña. En esta analogía, la persona representa el algoritmo, y el camino que baja la montaña representa la secuencia de configuración de parámetros que explorará el algoritmo. La pendiente de la colina representa la pendiente de la función en ese punto. El instrumento utilizado para medir la inclinación es la diferenciación . La dirección en la que eligen viajar se alinea con el gradiente de la función en ese punto. La cantidad de tiempo que viajan antes de tomar otra medida es el tamaño del paso.

  • Algoritmo-Descenso-Gradiente se usa para resolver problemas generales de optimización . Procederemos desde un punto de partida a lo largo de una dirección descendente hasta que no se logra ninguna mejora numérica adicional. Si elige el gradiente negativo como dirección de descenso, la dirección del descenso localmente más pronunciado, obtiene el método de descenso más pronunciado. A veces, los términos método de gradiente y método de descenso más pronunciado se usan indistintamente.

 

Problema-Desvanecimiento-Gradiente:

  • En aprendizaje de máquinas, el Problema-Desvanecimiento-Gradiente es una dificultad encontrada para entrenar redes neuronales artificiales mediante métodos de aprendizaje basados en Descenso-Estocástico-Gradientes y de Retropropagación. cada uno de los Pesos de la Red-Neuronal recibe una actualización proporcional a la derivada parcial de la Función-Error con respecto al Peso actual en cada iteración de entrenamiento.
  • El problema es que, en algunos casos, el Gradiente se irá Desvaneciendo a valores muy pequeños, impidiendo eficazmente el peso de cambiar su valor. En el caso peor, esto puede impedir que la Red-Neuronal continúe su entrenamiento. Como ejemplo de la causa del problema, Funciones-Activación tradicionales como la Función-Tangent-Hiperbólica tienen gradientes en la gama (0, 1), y la Retropropagación computa Gradientes por la regla de la cadena. Esto tiene el efecto de multiplicar n de estos números pequeños para computar Gradientes de las capas de frente en una red de n capas, significando que el Gradiente señal de error disminuye exponencialmente con n mientras las capas de frente se entrenan muy despacio.
  • La Retropropagación permite entrenar Redes-Reuronales-Supervisadas-Profundas desde un inicio con muy poco éxito. Lo cual no sólo afectará a las redes prealimentadas de muchas capas, sino también a las redes recurrentes. Estas últimas se entrenan por desdoblamiento en redes neuronales prealimentadas muy profundas, donde se crea una capa nueva cada vez que se da un paso en la secuencia de entrada por la red.

 

Descenso-Gradiente-Estocástico

  • Descenso-Gradiente-Estocástico es un método iterativo para optimizar una función objetivo con propiedades de suavidad adecuadas (por ejemplo. Puede considerarse como una aproximación estocástica de la optimización del descenso del gradiente , ya que reemplaza el gradiente real calculado a partir de todo el conjunto de datos por una estimación del mismo calculado a partir de un subconjunto de datos seleccionado al azar.
  • El Descenso-Gradiente-Estocástico se ha convertido en un método de optimización importante en el Aprendizaje-Automático.

 

Recopilando:

El Descenso-Gradiente, un algoritmo de optimización que juega un papel clave en el campo del Deep-Learming. Red-Neurona-Artificial puede verse como una función matemática que recibe unos valores de entrada y arroja un valor de salida, valores que se ven afectados por unos parámetros o Pesos, tienen una importancia directa en el Error que pueda tener nuestra Red-Neurona-Artificial en sus predicciones, la Función de Coste, que es aquella que trata de cuantificar el Error entre la predicción arrojada y el valor real, con el fin de optimizar los parámetros de la Red-Neurona-Artificial. Mediante el Descenso-Gradiente trataremos de minimizar dicha Función de Coste.