DiscoverMachine Learning en Español
Machine Learning en Español
Claim Ownership

Machine Learning en Español

Author: Gustavo Lujan

Subscribed: 50Played: 1,467
Share

Description

En esta serie de Podcast titulado Machine Learning en Español se discutirán temas relacionado a Machine Learning (aprendizaje maquina), Data Science (ciencia de datos), Big Data, Artificial Intelligence (inteligencia artificial), Business Intelligence (inteligencia de negocios) y Deep learning entre otros. Su anfitrión Gustavo Lujan, quien es un Data Scientist trabajando para Intel, compartirá su experiencia y tendencias en este fascinante mundo de Machine Learning.
20 Episodes
Reverse
Presentamos el perceptrón como el componente básico y fundamental para la construcción de redes neuronales y posteriormente Deep Learning.
Discutimos Análisis de Componentes Independientes como una de las técnicas más populares para separar señales mezcladas. Esta técnica tiene aplicaciones importantes en el procesamiento de audio, video, EEG y en la mayoría de set de datos que presentan una alta correlación. 
Discutimos Análisis de Componentes Principales como una de las técnicas más populares para reducir las dimensiones de nuestro set de datos. Está técnica nos ayuda a ser más eficientes en el número de variables que alimentamos a nuestro modelo.
En esta ocasión presentamos 3 técnicas de clustering que nos ayudarán a detectar anormalidades: DBSCAN, Gaussian Mixture Models y K-means. Estos 3 algoritmos son de los mas populares y básicos, a partir de ellos se han podido desarrollar nuevas versiones que resuelven algunas desventajas inicialmente detectadas en su implementación. 
La detección de anormalidades no es algo reciente, hay técnicas que han existido por décadas. Los gráficos de control son herramientas que tienen una sólida base matemática y estadística en la cual monitorean como un proceso cambia en el tiempo. Los gráficos de control implementan límites de control que automáticamente detectan anormalidades en tiempo real. Dependiendo del problema, los gráficos de control son una buena alternativa en comparación con algoritmos de aprendizaje maquina mas sofisticados. 
Adaboost es uno de los algoritmos clásicos de aprendizaje máquina. Al igual que Random Forest y XGBoost pertenece a la clase de modelos de ensamble, es decir, que se basan en agregar otros modelos débiles o de base para hacer predicciones. La principal diferencia con Adaboost es que es adaptativo, es decir, aprender de los errores hechos en los primeros modelos poniendo más énfasis en los ejemplos clasificados incorrectamente. 
XGBoost es una librería de software que es open-source y que ha ganado varias competencias de Machine Learning. XGBoost está basado en los principios de gradient booting, el cual a su vez está basado en las ideas de Leo Breiman, el creador de Random Forest. La teoría detrás de gradient boosting fue formalizada por Jerome H. Friedman. Gradient boosting combina modelos simples y utiliza ingeniería muy inteligente la cual incluye una penalización para los árboles y un encogimiento proporcional para los nodos hoja.
13 Random Forest

13 Random Forest

2020-07-1223:16

El Random Forest es uno de los mejores algoritmos que están listos para usarse sin necesidad de hacer mucha afinación. En este episodio tratamos de entender la intuición detrás de este algoritmo y cómo es que trata de tomar ventaja de los árboles de decisión al agregarlos usando un truco muy bueno llamado Bagging. Importancia de variables y el error fuera de la bolsa son características de este algoritmo que nos ayudan a entender mejor cuáles son las variables mas importantes y cuál es el error de generalización, respectivamente. 
Hablamos de los Árboles de Decisión (decision trees) como uno de los algoritmos más básicos pero poderosos en el área de statistical learning. Los árboles de decisión son una de las pocas herramientas en machine learning que pueden ser fácilmente interpretables, lo que hace que sean ampliamente aceptados en áreas donde es importante saber la lógica detrás de los algoritmos. Los árboles de decisión manejan de manera natural diversos tipos de variables y no hay necesidad de normalizar datos lo que los hace muy robustos a outliers. 
Hablamos de la importancia de estadística inferencial, la cual es una serie de métodos y herramientas utilizadas para hacer generalizaciones de una población a partir de una muestra. Una de las técnicas más usadas en estadística inferencia es la prueba de hipótesis. En este episodio damos algunos ejemplos de cuando y porque utilizar las pruebas t para 1 y 2 medias. También argumentamos que el promedio de una muestra no significa nada si no viene acompañado de la varianza de los datos. 
10 Regresion Logistica

10 Regresion Logistica

2020-04-2624:25

Regresión Logística es una técnica muy robusta en machine learning que se utiliza en tres modalidades: binaria, multinomial y ordinal. Hablamos de los supuestos y malentendidos que hay con el uso de esta técnica. Por ejemplo, hay gente que piensa que porque Regresión Logística ajusta un separador lineal en el espacio extendido no es capaz de ajustar una línea de separación compleja en el espacio original. Otro error común, es cuando la gente utiliza regresión lineal para modelar una variable de respuesta ordinal en lugar de utilizar regresión logística ordinal.
En este episodio hablamos de regularización, una técnica efectiva para resolver el problema de overfitting o sobre ajuste. Presentamos dos técnicas: ridge regression y lasso. Este último tiene la propiedad de ser un algoritmo que selecciona automáticamente los parámetros finales.
En este episodio trataré de convencerte porque la Regresión Lineal es uno de los algoritmos más poderosos en Machine Learning. Vamos a hablar de conceptos erróneos, especialmente que Regresión Lineal no es capaz de modelar relaciones no lineales. También hablaremos del mito de normalidad el cual motiva a muchas personas a descartar completamente la Regresión Lineal con datos no normales, cuando en realidad, el supuesto de normalidad no tiene nada que ver con los datos recolectados. Finalmente, te presentamos sugerencias de como validar, pero mas importante, de como solucionar cualquier violación a los supuestos de la Regresión Lineal.
07 COVID-19

07 COVID-19

2020-03-2810:02

Hablamos de como las Ciencias de Datos y Machine Learning pueden ayudar a resolver los retos del COVID-19. En esta ocasión regresamos a la pagina de Kaggle donde diversas instituciones, incluyendo la Casa Blanca, se han unido para tratar de analizar mas de 45,000 artículos publicados en revistas especializadas. La tarea consiste en responder a 10 preguntas clave, que ayudará a los científicos a entender de mejor manera este nuevo virus y futuras pandemias. 
Continuamos sugiriendo cursos para convertirse en un Data Scientist y ofrecemos una recomendación muy buena para aprender R. También hablamos de las plataformas de aprendizaje más populares para Data Scientists, tales como: Coursera, Edx, Udemy y Lynda. Discutimos las diferencias y similitudes, así como ventajas y desventajas de cada una de ellas. Por último, doy mi recomendación personal de cursos que he tomado en cada una de ellas. 
En este episodio platicamos acerca de cómo convertirse en un Data Scientist (Científico de Datos). Empezamos hablando del perfil y expectativas de un Data Scientist (DS), ventajas de ser un DS, hablamos de los pre-requisitos antes de tomar cursos en data science, y por último damos recomendaciones de cursos gratuitos en línea para empezar a aprender.
En este episodio seguimos revisamos los sets de datos más famosos en el mundo de Machine Learning esta vez haciendo uso de Kaggle donde aprendemos acerca de las tendencias y competencias actuales que van desde la detección de Deepfakes hasta la aplicación de Machine Learning en la NFL.
En este episodio revisamos los sets de datos más famosos en el mundo de Machine Learning haciendo uso del repositorio de la Universidad de California en Irvine donde aprendemos acerca de aplicaciones reales de Machine Learning para clasificar tipos de flores, para clasificar tipos de vinos, para predecir la calidad de vinos dada información bioquímica del proceso de elaboración, también vamos a ver como Machine Learning puede identificar oportunidades de compra de carros y por ultimo veremos cómo estas técnica pueden ser utilizadas para identificar enfermedades cardiacas en pacientes. 
En este episodio definimos los conceptos de entrenamiento supervisado y entrenamiento no supervisado. Dentro del entrenamiento supervisado explicamos dos subcategorías: el entrenamiento supervisado para clasificación y el entramiento supervisado para regresión. Por último, mencionamos algunos ejemplos de algoritmos de Machine Learning populares para cada una de las categorías y subcategorías. 
Este primer episodio esta dividido en 3 partes: 1) hablamos del objectivo de esta serie de podcast y hacia quien esta dirigido, 2) una introduccion formal del anfitrion Gustavo Lujan donde habla de su educacion y como llego a ser Data Scientist, 3) por ultimo hablamos de algunas definiciones relacionadas con Machine Learning. 
Comments 
Download from Google Play
Download from App Store