Minería de Datos: ¿Qué es y para que sirve?


Internet es el más grande repositorio de hypertexto, donde se tienen enlaces, imágenes, videos, texto, documentos, etc. Es debido a esto que se ha incrementado la demanda en el desarrollo de aplicaciones que permitan mantener la información en orden y de rápido acceso; es decir, todo apunta a la necesidad de metodologías de análisis inteligente de datos.

Es así donde la Minería de Datos hace un intento de buscarle sentido al procesamiento de información que actualmente se tiene disponible en la nube. Pero, ¿qué es la minería de datos y para que me sirve? Trataré de explicarme de manera sencilla y resumida los principales conceptos de ésta área con la finalidad de que te intereses en el tema.

La minería de datos (Data Mining en inglés) es un área relativamente “nueva” y prometedora, se puede definir como el proceso de descubrir la información procesable de conjuntos enormes de datos, encontrando patrones y tendencias; puede hacer uso de estadística, Aprendizaje Automático (machine learning), Inteligencia Artificial y técnicas de visualización de datos.

Hay áreas que toman ventaja de los resultados de aplicar minería de datos a su información, como es el caso de la mercadotécnia, medicina, manufactura, química, economía, etc.

La idea principal es encontrar tendencias y patrones predictivos mediante el análisis de lo que ya tenemos y conocemos, por lo que la Minería de datos puede ser descriptiva (descubrir patrones interesantes o relaciones) o predictivas (clasificar nuevos datos).

Sus tareas más comunes son:

  • Clasificación. Organiza un dato dentro de una de las clases categóricas predefinidas.
  • Regresión. El propósito de este modelo es hacer corresponder un dato con un valor real de una variable.
  • Clustering. Es la agrupación de registros, observaciones o clases de objetos similares. Por lo que un cluster es una colección de registros que tienen similitudes y son distintos a cualquier otro cluster.
  • Generación de reglas. Se extraen o generan reglas de los datos, estas hacen referencia al descubrimiento de relaciones de asociación y dependencias funcionales entre los diferentes atributos.
  • Resumen. En esta tarea se proporcionan una descripción compacta de un subconjunto de datos.
  • Análisis de secuencias. Se generan patrones secuenciales, el objetivo es modelar los estados del proceso, extraer e informar de la desviación y tendencias en el tiempo.

En un siguiente post explicaré más acerca de estas tareas y cuales son sus ventajas :).

@silvercorp | Twitter
Silvercorp | Youtube

Anuncios

Acerca de silvercorp

Blog personal de Ye§i creado el 18/Ag/06 enfocado al diseño gráfico, tecnología y programación.

Publicado el abril 24, 2013 en Programación y etiquetado en , . Guarda el enlace permanente. 10 comentarios.

  1. hola yesi, te gustaria subir un poco info sobre hash, salt y creo que es “crypto” lo relacionado con la seguridad en webs, tengo un lagunazo con eso, no me lo enseñaron donde estudie, nisiquiera me hablaron de ello, ni recomendado siquiera, te lo agradeceria con el alma.

  2. hola yesi, por si acaso sabes python, tenog un problema con unas funciones map-reduce en python y apenas se lo basico, te pondre una linea de uno de los archivos porque son 100 y esta es solo una linea de uno de ellos y luego las funciones mapfn y redfn en python debajo a ver si me das una ayuda luego te dire lo que ando buscando:

    linea 1 archivo:

    books/bc/tanselCGSS93/Tuzhilin93:::Alexander Tuzhilin:::Applications of temporal Databases to Knowledge-based Simulations.

    funciones en python:

    def mapfn(k, v):
    for line in v.splitlines():
    yield line.lower(), 1
    “””for word in line.split():
    yield word.lower(), 1
    devuelve cada palabra de los archivos”””

    def reducefn(k, v):
    return k, v

    si notas es la referencia de libros por autor y al final el titulo se parados por triple (:::), cuando son varios autores entre ellos lleva una pequena separacion de doble (::), lo que tengo que hacer es una busqueda por nombre de autor y debe devolver el titulo de los libros escrito por cada autor, conste el codigo no es mio solo lo he modificado porque no se mucho de python apenas tengo unas 3 semanas aprendiendolo y no se como hacer un substring ni un indexOf si es que existe, se te agradece tu atencion.

  3. He probado la herramienta Weka para mineria de suite Pentaho, es muy buena, la has probado o recomiendas una mejor en el mundo del software libre??

  4. gracias me hizo de gran ayda

  5. perdon para que sirve la minería de datos y como se aplica

  1. Pingback: Despidiendo el año | Silvercorp

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s

A %d blogueros les gusta esto: