Para comprender todo el proceso de pruebas que vamos a seguir se hace necesario comenzar fijando una serie de conceptos y definiciones que arrastraremos durante todo el desarrollo.
Con el fin de que sea comprensible para todos los lectores no nos ceñiremos a la notación matemática sino que los explicaremos en un lenguaje más coloquial. Enmarcaremos de esta forma todo el lenguaje y los análisis y validaciones a realizar.
Conocimiento
Es todo aquello que permite inferir un resultado esperado a partir de una situación.Inferencia
Es el proceso de aplicar un conocimiento para obtener un resultado (deductiva) o un nuevo conocimiento (inductiva).Aprendizaje
Es el proceso mediante el cual a partir de unos datos de partida o entradas se genera un conocimiento, el cual nos permite obtener soluciones para distintos problemas.Existen dos tipos de aprendizaje:
- Supervisado: aquel que parte de unos datos históricos conocidos para generar un conocimiento.
- No supervisado: parte de un conjunto de datos e intenta descubrir nuevas relaciones o características de estos datos no detectadas a hasta este momento.
Dominio
Todo el conjunto de individuos, entidades y sucesos que componen nuestro ámbito de actuación. Es un subconjunto del mundo real.Instancia o Suceso
Es un elemento concreto del dominio. Digamos que para un dominio X, una instancia es un elemento x Ꞓ X.Atributos
Toda instancia debe estar definida por unas características (definición y valor) para que pueda ser tratado en el mundo computacional. A cada uno de estos pares (clave, valor) asociados a una instancia en un momento dado se le denomina atributo de la instancia. Todos los atributos de una instancia, establecidos en forma matemática, determinan un vector de la forma (a1,a2,a3, … an) por lo que podremos considerar que las instancias de un dominio son los vectores válidos del dominio.Atributos de entrada
Son aquellos atributos que conocemos, para una entidad de un dominio, y son utilizados como base para la resolución de un problema concreto.Atributos objetivo
Son aquellos atributos cuyo valor queremos descubrir por medio del proceso de inferencia. Son el resultado de los procesos de inferencia deductiva, en los cuales consultamos a nuestra base de conocimiento, esperando a cambio una predicción.Modelo
Es una función h(x) que, a partir de un conjunto de instancias caracterizadas por unos atributos de entrada (Escenario) predice o descubre, de forma automática, qué valor tomarán los atributos objetivo. Descubrir y almacenar estos modelos h(x), para su posterior uso, es el objetivo de la inferencia inductiva o generación de conocimiento.Rendimiento de un modelo
Indica la calidad de las predicciones de un modelo, esto es, cómo de buenas o malas se espera que sean estas predicciones. A modo de ejemplo, si un modelo tiene un 0.63 de rendimiento debemos esperar una tasa de acierto del 63% en sus predicciones y decidir si realmente ese valor es adecuado para resolver nuestro problema.Intervalo de confianza
Es el umbral dentro del cual podemos considerar que el resultado de la predicción generada por el modelo es válido.Conjunto de Aprendizaje
Para aprendizajes supervisados, el Conjunto de Aprendizaje es el conjunto de instancias que utilizaremos para el proceso de inferencia. Esto es, el conjunto de datos históricos.Normalmente durante este proceso los datos históricos se dividen en dos: un conjunto de datos o vectores usados para el aprendizaje (Training Set) normalmente definidos como el 75% del conjunto de aprendizaje y un conjunto de datos para la validación posterior de los resultados del modelo (25%).
Overfitting
Es la pesadilla de los modelos de aprendizaje automáticos. El overfitting es una característica que se da cuando un modelo h(x) tiene un rendimiento superior a otro h´(x) para el Training Set pero tiene un rendimiento más pobre para el dominio completo (atributos objetivo conocidos y desconocidos), esto es, en el mundo real fuera del laboratorio.Algoritmos
Son la base de la generación de conocimiento y son las distintas técnicas a aplicar para generar conocimiento, esto es, modelos. Los clasificaremos en tres tipos:- Clasificación: orientados a segmentar las instancias de un dominio en un conjunto de segmentos preestablecidos.
- Regresión: orientados a predecir el valor numérico esperado para un atributo objetivo.
- Clustering: en la línea del algoritmo de clasificación, pero orientado a detectar similaridades dentro del conjunto de instancias del dominio y, por tanto, no trabaja con un conjunto predefinido de segmentos sino que genera los distintos segmentos para detectar la mejor distribución de estos.
Conforme avancemos introduciremos nuevos conceptos orientados definir y usar algoritmos concretos dentro de cada una de los tipologías y, más tarde, entraremos en el mundo del Deep Learning.