WOT

Friday, August 19, 2016

Explicación de términos introductorios clave del análisis predictivo

Nota: Este artículo es una traducción del original que aparece en el sitio de KDnuggets 


Información sobre el libro 'Analítica predictiva' del autor Eric Siegel

Analítica predictiva / Predictive Analytics: Predecir El futuro utilizando big data / Predicting The Future Using Big Data (Spanish Edition)
ISBN-10: 844153442X
ISBN-13: 978-8441534421
Publisher: Anaya Multimedia (September 30, 2013)
Vicente Gonzalez Leon (Translator)
September 30, 2013
Paperback: 383 pages
Language: Spanish

Explicación de términos introductorios clave en el análisis predictivo


Para aquellos que se inician en el tema de análisis predictivo, se presenta en este artículo,de una forma directa y sin florituras, una colección de términos y conceptos introductorios.

Por Eric Siegel, Predictive Analytics World.
Este artículo recoge las definiciones clave incluidas en el popular y galardonado libro del fundador de PAW Eric Siegel, Predictive Analytics: The Power to Predict Who Will Click, Buy, Lie, or Die (revisado y actualizado en 2016), que se ha adoptado como libro de texto de divulgación científica en más de 35 universidades, y que se conoce como “The Freakonomics of big data.”





El análisis predictivo es una tecnología que aprende de la experiencia (datos) para predecir el comportamiento futuro de los individuos con el fin de adoptar las mejores decisiones.
En esta definición, el término individuo se considera en un sentido amplio, y puede referirse tanto a personas como a otros elementos de la organización. La mayoría de los ejemplos de este libro tratan de personas que necesitan hacer pronósticos, como son clientes, personas con deudas, candidatos, empleados, estudiantes, pacientes, donantes, votantes, contribuyentes,  potenciales sospechosos, convictos. etc. Sin embargo, el análisis predictivo también se aplica a determinados tipos de empresas (por ejemplo, las que se dedican al business-to-business), a productos, ubicaciones, restaurantes, vehículos, barcos, vuelos, entregas, edificios, arquetas, transacciones, mensajes de Facebook, películas, satélites, acciones, preguntas, y mucho más. Sea cual sea el dominio, AP hace predicciones sobre un conjunto de individuos cuyo número puede ampliarse si es necesario.

Es un mecanismo que permite predecir el comportamiento de un individuo, bien sea sobre hacer clic, comprar, mentir, o incluso fallecer. Se utilizan como entradas las características (variables) de la persona y proporciona a la salida una puntuación predictiva. Cuanto más alta sea la puntuación, mayor es la probabilidad de que el individuo muestre el comportamiento previsto.


Las capacidades de una máquina más evolucionada son prácticamente imposibles de conseguir, ya que, cualquier logro necesariamente se trivializa (mediante su mecanización) y por lo tanto no impresiona desde el punto de vista subjetivo de la 'inteligencia', por lo que ya no cumple los requisitos. Para expresarlo de otra manera, la palabra 'inteligencia' no tiene una definición formal, así que ¿por qué utilizarla en un contexto de ingeniería? Sin embargo... ¡Todavía me siento como Watson de IBM que parece verdaderamente inteligente cuando participa en el concurso Jeopardy de televisión!. ¡Me siento cautivado! Esta definición no es un extracto del libro de Análisis predictivo, pero sí un resumen de una de mis conclusiones en el capítulo del libro dedicado a Watson.

Es un tipo de modelo que permite predecir la influencia sobre el comportamiento de un individuo como consecuencia de aplicar un tratamiento sobre otro. Entre los sinónimos se distinguen: respuesta diferencial, impacto, impacto incremental, aumento incremental, respuesta gradual, aumento neto, respuesta de la red, persuasión, aumento real, o modelo de respuesta real.
La puntuación que se obtiene como resultado del proceso incremental y del propio modelo incremental en sí responden a la pregunta: '¿En qué medida es más probable que este tratamiento genere el resultado deseado frente a un tratamiento alternativo?" Para obtener una información más completa, consulte el artículo Personalization Is Back: El capítulo 7 de How to Drive Influence by Crunching Numbers (que incluye enlaces para lecturas adicionales al final), trata del análisis predictivo y, para consultar otras citas técnicas ver las Notas correspondientes a ese capítulo, que se puede descargar en formato PDF en www.PredictiveNotes.com.

5. Búsqueda extensa
Es el término que el líder de la industria (y el inversor del Capítulo 1 que hace predicciones) John Elder acuñó para la automatización de los modelos predictivos que prueban muchas variables predictivas y el riesgo asociado de tropezarse con una correlación con la variable objetivo que se puede percibir como significativa, si se considera aisladamente sin tener en cuenta la búsqueda que se emplea para desenmascararla, pero que en realidad se debe a perturbaciones aleatorias. Sinónimos del término son: colector de comparaciones múltiples, pruebas de hipótesis múltiples, grados de libertad del investigador, búsqueda exhaustiva (similar a sobreajuste), efecto de buscar en otros lugares, jardín de senderos que se bifurcan, expedición de pesca, hallazgos de cosecha de cerezas, filtración de información, persecución del significado, y pirateria p.
Para obtener informacion adicional, ver mi artículo “HBO Teaches You How to Avoid Bad Science,” del capítulor 3 de la edición actualizada en 2016 de mi libro, Predictive Analytics, y para consultar otras citas técnicas, las Notas correspondientes a ese capítulo, que se pueden descargar en formato PDF en www.PredictiveNotes.com.

6. Descubrimiento de sospechosos de forma automática (DSA)
En cumplimiento de la ley, la identificación de posibles sospechosos que son desconocidos mediante la aplicación de análisis predictivo para marcarlos y clasificarlos en función de su probabilidad de ser objeto de investigación, ya sea por su participación directa en, o su relación con actividades delictivas.
En este tema se explora en una barra lateral especial el uso por parte de la NSA de análisis predictivo dentro de la ética y el capítulo se centra en la privacidad de análisis predictivo (capítulo 2). También puede leer mi artículo de opinión en Newsweek sobre este tema.
DSA proporciona un novedoso recurso para descubrir nuevos sospechosos. Gracias a él, la policía puede descubrirlos de forma científica, centrar la búsqueda de forma más efectiva aplicando el el mismo estado del arte de la tecnología basada en datos que se utiliza en la detección del fraude, la puntuación del crédito financiero, el filtrado de correo no deseado, y el marketing dirigido.
Nota sobre la automatización: DSA identifica a los individuos que mediante una investigación posterior pueden considerarse sospechosos. Por la definición formal del término según la normativa de orden público, un individuo no sería clasificado como sospechoso por una computadora, sino que lo haría un oficial de policía.


Los cinco efectos de la predicción
1. El efecto de la predicción: Un poco de predicción recorre un largo camino.
2. El efecto de los datos: Los datos son siempre predictivos.
3. El efecto inducción: El arte estimula el aprendizaje automático; las estrategias diseñadas en parte por la creatividad humana, apoyada en los programas de ordenador, tienen éxito en el desarrollo de modelos de predicción que funcionan bien cuando se trata de nuevos casos.
4. El efecto grupo: Cuando se unen en un conjunto los modelos predictivos, las limitaciones de unos las compensan los otros, de manera que es más probable que el conjunto como un todo haga predicciones correctamente que lo pueda hacer cada modelo por separado.
5. El efecto persuasión: Aunque imperceptible, la persuasión de un individuo la puede predecir el modelo incremental, una modelización predictiva a través de dos conjuntos de datos de entrenamiento distintos que registran, respectivamente, los resultados de los dos tratamientos que compiten entre ellos.
Los extractos se han incluido con el permiso del editor de Predictive Analytics: The Power to Predict Who Will Click, Buy, Lie, or Die, Revised and Updated Edition (Wiley, enero de 2016) por Eric Siegel, Ph.D. Siegel es el fundador de Predictive Analytics World conference series — que abarca el despliegue tanto en el sector público como en el privado — editor ejecutivo de The Predictive Analytics Times, y ex profesor de ciencias de la computación en la Universidad de Columbia. Para consultar más información sobre el análisis predictivo, leer la Predictive Analytics Guide.