El curso virtual "Métodos de aprendizaje basados en muestras - Curso Virtual - Coursera", es un curso con diferentes contenidos y que ofrece clases en video de Aprox. 22 horas para completar. Explora sus características esenciales, y dale click al botón naranja para obtener información detallada en la plataforma de e-Learning Coursera
DESCRIPCIÓN
En este curso, aprenderá sobre varios algoritmos que pueden aprender políticas casi óptimas basadas en la interacción de prueba y error con el entorno, aprendiendo de la propia experiencia del agente. Aprender de la experiencia real es sorprendente porque no requiere un conocimiento previo de la dinámica del entorno y aún así puede lograr un comportamiento óptimo. Cubriremos métodos de Monte Carlo intuitivamente simples pero poderosos, y métodos de aprendizaje de diferencia temporal, incluido Q-learning. Terminaremos este curso investigando cómo podemos obtener lo mejor de ambos mundos: algoritmos que pueden combinar la planificación basada en modelos (similar a la programación dinámica) y actualizaciones de diferencias temporales para acelerar radicalmente el aprendizaje. Al final de este curso usted será capaz de: - Comprender el aprendizaje de diferencia temporal y Monte Carlo como dos estrategias para estimar funciones de valor a partir de la experiencia muestreada - Comprender la importancia de la exploración, cuando se usa experiencia muestreada en lugar de barridos de programación dinámica dentro de un modelo - Comprender las conexiones entre Monte Carlo y la programación dinámica y TD . - Implementar y aplicar el algoritmo TD, para estimar funciones de valor - Implementar y aplicar Expected Sarsa y Q-learning (dos métodos TD para el control) - Comprender la diferencia entre el control dentro y fuera de la política - Comprender la planificación con experiencia simulada (como opuesto a las estrategias de planificación clásicas) - Implementar un enfoque basado en modelos para RL, llamado Dyna, que usa experiencia simulada - Realizar un estudio empírico para ver las mejoras en la eficiencia de la muestra cuando se usa Dyna cuando se utiliza experiencia muestreada en lugar de barridos de programación dinámica dentro de un modelo: comprender las conexiones entre Monte Carlo y la programación dinámica y TD. - Implementar y aplicar el algoritmo TD, para estimar funciones de valor - Implementar y aplicar Expected Sarsa y Q-learning (dos métodos TD para el control) - Comprender la diferencia entre el control dentro y fuera de la política - Comprender la planificación con experiencia simulada (como opuesto a las estrategias de planificación clásicas) - Implementar un enfoque basado en modelos para RL, llamado Dyna, que usa experiencia simulada - Realizar un estudio empírico para ver las mejoras en la eficiencia de la muestra cuando se usa Dyna cuando se utiliza experiencia muestreada en lugar de barridos de programación dinámica dentro de un modelo: comprender las conexiones entre Monte Carlo y la programación dinámica y TD. - Implementar y aplicar el algoritmo TD, para estimar funciones de valor - Implementar y aplicar Expected Sarsa y Q-learning (dos métodos TD para el control) - Comprender la diferencia entre el control dentro y fuera de la política - Comprender la planificación con experiencia simulada (como opuesto a las estrategias de planificación clásicas) - Implementar un enfoque basado en modelos para RL, llamado Dyna, que usa experiencia simulada - Realizar un estudio empírico para ver las mejoras en la eficiencia de la muestra cuando se usa Dyna
CARACTERÍSTICAS DE ESTE CURSO
Creado por:
Coursera
Ventajas
Ventajas destacadas de los cursos de Coursera
Universidades top
Prepárate desde tu casa con las universidades más prestigiosas del mundo.
Docentes con phd
La calidad de los cursos de Coursera la respaldan sus instructores, que suelen ser decanos y con doctorados.
Crecimiento
Más del 85% de los estudiantes de Coursera reportan beneficios en su carrera profesional, como ascensos o aumentos en su salario.
+ 45 millones
Millones de estudiantes de todo el mundo están cumpliendo sus metas personales y profesionales con Coursera.