
El curso virtual "Métodos de aprendizaje basados en muestras - Curso Virtual - Coursera", es un curso con diferentes contenidos y que ofrece clases en video de Aprox. 22 horas para completar. Explora sus características esenciales, y dale click al botón naranja para obtener información detallada en la plataforma de e-Learning Coursera
En este curso, aprenderá sobre varios algoritmos que pueden aprender políticas casi óptimas basadas en la interacción de prueba y error con el entorno, aprendiendo de la propia experiencia del agente. Aprender de la experiencia real es sorprendente porque no requiere un conocimiento previo de la dinámica del entorno y aún así puede lograr un comportamiento óptimo. Cubriremos métodos de Monte Carlo intuitivamente simples pero poderosos, y métodos de aprendizaje de diferencia temporal, incluido Q-learning. Terminaremos este curso investigando cómo podemos obtener lo mejor de ambos mundos: algoritmos que pueden combinar la planificación basada en modelos (similar a la programación dinámica) y actualizaciones de diferencias temporales para acelerar radicalmente el aprendizaje. Al final de este curso usted será capaz de: - Comprender el aprendizaje de diferencia temporal y Monte Carlo como dos estrategias para estimar funciones de valor a partir de la experiencia muestreada - Comprender la importancia de la exploración, cuando se usa experiencia muestreada en lugar de barridos de programación dinámica dentro de un modelo - Comprender las conexiones entre Monte Carlo y la programación dinámica y TD . - Implementar y aplicar el algoritmo TD, para estimar funciones de valor - Implementar y aplicar Expected Sarsa y Q-learning (dos métodos TD para el control) - Comprender la diferencia entre el control dentro y fuera de la política - Comprender la planificación con experiencia simulada (como opuesto a las estrategias de planificación clásicas) - Implementar un enfoque basado en modelos para RL, llamado Dyna, que usa experiencia simulada - Realizar un estudio empírico para ver las mejoras en la eficiencia de la muestra cuando se usa Dyna cuando se utiliza experiencia muestreada en lugar de barridos de programación dinámica dentro de un modelo: comprender las conexiones entre Monte Carlo y la programación dinámica y TD. - Implementar y aplicar el algoritmo TD, para estimar funciones de valor - Implementar y aplicar Expected Sarsa y Q-learning (dos métodos TD para el control) - Comprender la diferencia entre el control dentro y fuera de la política - Comprender la planificación con experiencia simulada (como opuesto a las estrategias de planificación clásicas) - Implementar un enfoque basado en modelos para RL, llamado Dyna, que usa experiencia simulada - Realizar un estudio empírico para ver las mejoras en la eficiencia de la muestra cuando se usa Dyna cuando se utiliza experiencia muestreada en lugar de barridos de programación dinámica dentro de un modelo: comprender las conexiones entre Monte Carlo y la programación dinámica y TD. - Implementar y aplicar el algoritmo TD, para estimar funciones de valor - Implementar y aplicar Expected Sarsa y Q-learning (dos métodos TD para el control) - Comprender la diferencia entre el control dentro y fuera de la política - Comprender la planificación con experiencia simulada (como opuesto a las estrategias de planificación clásicas) - Implementar un enfoque basado en modelos para RL, llamado Dyna, que usa experiencia simulada - Realizar un estudio empírico para ver las mejoras en la eficiencia de la muestra cuando se usa Dyna
Prepárate desde tu casa con las universidades más prestigiosas del mundo.
La calidad de los cursos de Coursera la respaldan sus instructores, que suelen ser decanos y con doctorados.
Más del 85% de los estudiantes de Coursera reportan beneficios en su carrera profesional, como ascensos o aumentos en su salario.
Millones de estudiantes de todo el mundo están cumpliendo sus metas personales y profesionales con Coursera.
Empieza tu camino de aprendizaje con el mejor precio de la temporada en Coursera Plus.
Accede a más de 10,000 cursos, certificados que impulsan tu hoja de vida y programas de líderes
como Google y Microsoft. ¡Todo con un súper 50% de descuento!
Solo por tiempo limitado. El precio sube el 30 de junio.
Hola, ¿En qué puedo ayudarte? ¿te interesa algún curso? ¿Sobre qué tema?
Rutas curadas por expertos • Auditoría GRATIS
Para los primeros 300 estudiantes
Registro gratis • Sin compromiso • Acceso temprano
Add a review