Manuel KEEL Spanish

Tabla de contenidos

INTRODUCTION...................................................................................................................

...........................................2

DATOS

PREPARATION.....................................................................................................................

...............................3

V

Isualize

D

ATA

...................................................................................................................................................

..........3

D

ATA IMPORTACIÓN

...................................................................................................................................................

...............6

D

ATA EXPORTACIÓN

...................................................................................................................................................

.............11

F

ILE

F

ORMATS

...................................................................................................................................................

............16

DATOS CVS ARCHIVO

FORMAT...................................................................................................................................

...16

TXT y TVS FORMATO DE DATOS ARCHIVO

.......................................................................................................................17

PRN FORMATO DE DATOS ARCHIVO

.....................................................................................................................................18

DIF FORMATO DE DATOS ARCHIVO

......................................................................................................................................20

C4.5 DATOS ARCHIVO

FORMAT...................................................................................................................................

..22

DATOS EXCEL ARCHIVO

FORMAT.................................................................................................................................2

4

DATOS WEKA ARCHIVO

FORMAT..................................................................................................................................

25

XML DATOS ARCHIVO

FORMAT...................................................................................................................................

..27

HTML FORMATO DE DATOS ARCHIVO

..................................................................................................................................32

D

ATA

P

ARTITION

...................................................................................................................................................

........36

E

DIT

D

ATA

...................................................................................................................................................

..................37

DISEÑO EXPERIMENTO

................................................................................................................................................4

0

C

ONFIGURACIÓN DE EXPERIMENTOS

................................................................................................................................41

S

ELECCIÓN DE LOS CONJUNTOS DE DATOS

..............................................................................................................................................42

E

Xperiment

G

RAPH

...................................................................................................................................................

...45

Datos

sets.............................................................................................................................................

......................46

Preprocesamiento

methods.....................................................................................................................................

........48

Estándar

methods.....................................................................................................................................

................49

Métodos de postprocesado

...........................................................................................................................................50

Estadístico

tests............................................................................................................................................

..............51

Visualización

modules.....................................................................................................................................

..........52

Connections...............................................................................................................................

...............................53

G

RAPH

M

GESTIÓN

...................................................................................................................................................

55

LA

LGORITHM PARÁMETROS DE CONFIGURACIÓN

..................................................................................................................56

G

Eneration DE

E

Xperimentos

.....................................................................................................................................57

M

ENU BAR

...................................................................................................................................................

..................59

T

OOL BAR

...................................................................................................................................................

...................62

S

STADO BAR

...................................................................................................................................................

................63

CARRERA

KEEL........................................................................................................................................

...............................64

L

AUNCHING

R

Naciones Unidas

K

ANGUILA

..................................................................................................................................................

64

V

RESULTADOS IEW

...................................................................................................................................................

............64

EDUCATIONAL.....................................................................................................................

.........................................65

YO

NTRODUCCIÓN

...................................................................................................................................................

...........65

M

ENU

B

Arkansas

...................................................................................................................................................

..................65

T

OOL BAR

...................................................................................................................................................

...................68

S

STADO BAR

...................................................................................................................................................

................69

C

ONFIGURACIÓN DE EXPERIMENTOS

................................................................................................................................70

S

ELECCIÓN DE LOS CONJUNTOS DE DATOS

..............................................................................................................................................71

E

Xperiment

G

RAPH

...................................................................................................................................................

...73

Datos

sets.............................................................................................................................................

......................74

Preprocesamiento

methods.....................................................................................................................................

........76

Estándar

methods.....................................................................................................................................

................77

Connections...............................................................................................................................

...............................78

G

RAPH

M

GESTIÓN

...................................................................................................................................................

79

LA

LGORITHM PARÁMETROS DE CONFIGURACIÓN

..................................................................................................................80

R

EXPERIMENTO ONU

...................................................................................................................................................

.......81

Página 2

2

INTRODUCCIÓN QUILLA es una herramienta de software desarrollada para construir y utilizar diferentes

modelos de minería de datos. Nos gustaría

remarcar que esta es la primera herramienta de software de este tipo que contiene un código

libre biblioteca de Java

Algoritmos Evolutivos aprendizaje. Las principales características de la quilla son:

•

Contiene algoritmos pre-procesamiento: transformación, discretización, selecciones de

instancia y

selecciones de características.

•

También contiene un conocimiento Extracción Algoritmos Biblioteca, supervisado y no

supervisado,

destacando la incorporación de múltiples algoritmos de aprendizaje evolutivo.

•

Cuenta con una biblioteca de análisis estadístico para analizar algoritmos.

•

Contiene una interfaz fácil de usar, orientado al análisis de algoritmos.

•

El entorno del QUILLA puede conectarse a Internet para descargar nuevos archivos de

datos para utilizarlos en

futuros análisis.

Podemos distinguir tres partes en el entorno gráfico:

•

La preparación de la parte Bases de datos permite a los usuarios crear diferentes particiones

de su propia

bases de datos o las bases de datos disponibles en la web quilla. Además, es posible editar,

aplicar

transformaciones, generan conjuntos de datos en el formato correcto de los archivos C4.5 o

una vista detallada

parcelas sobre un conjunto de datos concreto.

•

El Diseño de Experimentos parte tiene el objetivo de diseñar los experimentos deseados

utilizando

una interfaz gráfica. Después del experimento está diseñado, la interfaz genera un archivo

.ZIP

que contiene una estructura de directorio con todos los archivos necesarios necesario para

ejecutar esos experimentos

en el equipo local.

La interfaz también permite al usuario añadir sus propios algoritmos para el ser la

experimentación

diseñado. El único requisito es aceptar el formato de archivo de entrada de la quilla.

Incluso, no es

necesaria para utilizar el lenguaje Java para los propios algoritmos de usuario. Esto

proporciona una muy

de manera flexible para el usuario comparar sus propios métodos con los que está en quilla.

•

La Generación de Algoritmos Evolutivos con la biblioteca JCLEC permite al usuario crear

sus propios algoritmos evolutivos utilizando una interfaz gráfica. En esta versión de la

quilla, este

parte no se ha implementado.

Page 3

3

DATOS DE PREPARACIÓN Las siguientes tareas son posibles de llevar a cabo en esta sección:

• Visualizar los datos: Esta opción le permite visualizar conjuntos de datos de formato

QUILLA existentes.

• Importación de datos: Esta opción le permite exportar archivos de formato QUILLA a

otros formatos.

• Exportación de datos: Esta opción le permite importar otros archivos de formato a

formato QUILLA.

• Hacer particiones: Esta opción le permite realizar particiones de bases de datos KEEL

existentes.

• Editar datos: Esta opción le permite editar los conjuntos de datos de formato QUILLA

existentes.

Visualizar datos Opción Visualizar le permite ver información detallada sobre un conjunto de datos de

formato QUILLA existente.

Hay diferentes opciones para mostrar la información, se puede ver el contenido del

conjunto de datos, específica

información sobre los atributos y comparar por medio de cartas dos atributos.

Figura 1. Proceso de visualización de datos.

Página 4

4

La Figura 1 muestra la ventana principal de esta opción. En primer lugar, debe seleccionar

la ruta de datos de origen

conjunto (en formato QUILLA) que desea visualizar (ver Figura 2). Cuando se carga el

archivo, distinta

información sobre el conjunto de datos se muestra de acuerdo con la opción seleccionada.

Figura 2. Cargar conjunto de datos para ver su contenido.

Vista de conjunto de datos. Si selecciona para visualizar esta información, usted puede

visualizar el contenido del conjunto de datos

seleccionado. La información no puede ser modificado; sólo se puede visualizar (ver Figura

3).

Figura 3. Visualizar el contenido del conjunto de datos.

Atributo Info. En esta opción, se puede obtener información detallada sobre los atributos

definidos en

establecen los datos. La información mostró en la parte superior de las ventanas es: tipo de

atributo (entero, real o

Nominal) y si el atributo es de entrada o de salida. Aparece Más información en la parte

inferior izquierda de

la ventana. La información mostró depende del tipo de atributo, en el caso de entero o real

atribuir los valores de rango, la media y la varianza se muestran. En el caso de atributo

nominal, se

Sólo ver sus posibles valores. Por último, en la parte derecha inferior de la ventana, un

cuadro con la

distribución de los valores del atributo se muestra también. La figura 4 muestra la

información de un verdadero atributo

y la Figura 5 muestra la información de un atributo nominal.

Figura 4. General y la información gráfica sobre el atributo real.

Página 5

5

Figura 5. General y la información gráfica sobre el atributo nominal.

Gráficos 2D. En esta opción, usted puede comparar los diferentes atributos. En primer

lugar, usted tiene que seleccionar los dos

atributos que desea comparar, para cada atributo que tiene disponible una lista con todos los

atributos de

conjunto de datos (ver Figura 6).

Figura 6. Seleccione los atributos para comparar.

Una vez seleccionados los atributos, lo que tienes que hacer clic en el botón "Ver tabla" y

un gráfico se muestra.

Si usted necesita incluir el gráfico generado en otro documento, puede utilizar los botones:

"Convertir a

PNG ": esta opción guarda el gráfico como una imagen PNG y" Conver a PDF ": esta

opción guarda la

gráfico como un documento PDF.

Figura 7. Gráfico de comparar el atributo dos seleccionados

Figura 8. Gráficas Visualizar 2D

6

Importación de datos Opción Importar le permite transformar tus archivos en diferentes formatos (txt, Excel,

XML, etc.) para QUILLA

formato. Tenga en cuenta que si usted desea utilizar sus propios conjuntos de datos, el

diseño de los experimentos sólo se hará

el uso de conjuntos de datos según el formato QUILLA, se requerirá, por tanto, un paso

previo de importación.

Figura 1. Dos posibilidades para llevar a cabo el proceso de importación.

La Figura 1 muestra las dos posibles opciones para importar conjuntos de datos. Una

opción consiste en la importación de una

conjunto de datos, la otra opción consiste en la importación de un conjunto de particiones

que tienes disponible en otra

formatos diferentes a formato quilla. En la continuación, se muestra el proceso de las dos

opciones.

1. Importe conjunto de datos. Seleccione esta opción si desea importar un solo archivo

desde otros formatos a

Formato de quilla. La Figura 2 muestra la ventana para esta opción.

Figura 2. opción Importar conjunto de datos.

Página 7

7

Para importar un conjunto de datos, es necesario los siguientes partes:

Paso 1. Seleccione Formato de entrada. En primer lugar, debe seleccionar el formato de

archivo de origen de la

conjunto de datos. El formato admitido son CVS, TXT, PRN, C4.5, Excel, Dif,

PropertyList y Weka.

Las diferentes opciones se muestran en la Figura 3.

Figura 3. Formato admitido a convertir a formato QUILLA.

El botón "Opciones" le permite configurar si es necesario un cierto separador y nula

valor utilizado en el archivo de origen.

Figura 4. Especifique determinadas opciones de formato de archivo de origen.

Paso 2. Seleccione el archivo de origen. Después de especificar el formato de archivo

utilizado en el archivo de origen, el camino de

este archivo se debe especificar (un navegador conocido de muchos otros Programms GUI

es

utilizado para definir este camino).

Figura 5. Especifique la ruta del archivo fuente.

Página 8

8

Paso 3. Guarde los archivos. Una vez que el tipo de conversión y el archivo de origen han

sido

configurado, debe hacer click en el botón Siguiente y, a continuación, el original y el

archivo importado es

se muestra (véase la Figura 6).

Figura 6. El archivo original e importado.

Si estamos de acuerdo con la conversión hecho, hay dos opciones para guardar el archivo

importado:

1. Seleccione la importación a la sección de experimentos: si marca esta opción y haga clic

en Guardar

botón, el conjunto de datos convertida será incluido como opción en los experimentos

quilla. Este

conjunto de datos estará disponible para ejecutar con los métodos de la quilla.

2. No seleccione la importación a la sección de experimentos: si no selecciona esta opción,

cuando

hacer clic en el botón Guardar, usted tiene que seleccionar el directorio de destino para la

establecen datos transformados.

2. Particiones de importación. Seleccione esta opción si tiene particiones de un conjunto

de datos realizado previamente en

otros formatos y que desea importar a la quilla formato. Esta opción permite seleccionar un

conjunto de

formación y archivos de prueba por separado. La Figura 7 muestra la ventana con respecto

a esta opción.

Figura 7. opción Importar particiones.

Para importar las particiones, es necesario los siguientes partes:

Paso 1. Seleccionar formato de entrada. En primer lugar, debe seleccionar el formato de

archivo de origen de la

conjunto de datos. Los formatos admitidos son CVS, TXT, PRN, C4.5, Excel, Dif,

PropertyList y

Weka. Las diferentes opciones se muestran en la Figura 8.

Page 9

9




Figura 9. Especifique determinadas opciones de formato de archivo de origen.

Paso 2. Seleccione el archivo de origen. Después de especificar el formato de archivo

utilizado en el archivo de origen, el camino de

este archivo debe ser especificado. Usted tiene que usar las flechas para incluir los archivos

en la formación o la prueba

correctamente.

Página 10

10

Figura 10. Especifique las rutas de los archivos de origen.

Paso 3. Guarde los archivos. Una vez que el tipo de conversión y archivo de origen se han

configurado,

Debe hacer clic en el botón Siguiente y se muestran el original y el archivo importado (ver

Figura 11).

Figura 11. El archivo original e importado.

Si estamos de acuerdo con la conversión hecho, hay dos opciones para guardar el archivo

importado:

1. Seleccione la importación a la sección de experimentos: Si marca esta opción, dos

nuevas opciones

están disponibles. Con esta opción se configura si el conjunto de datos es un conjunto de

datos reales o de laboratorio

y las particiones que usted está acostumbrado. Dos particiones son aplicables: k veces o

cruz 5x2

validación. Entonces, cuando se selecciona el botón Guardar, y el conjunto de datos que os

volvéis

se incluirá como opción en los experimentos quilla.

2. No seleccione la importación a la sección de experimentos: si no selecciona Importar a

la

sección de experimentos, al hacer clic en el botón de guardar, usted tiene que seleccionar el

destino

directorio para los conjuntos de datos transformados.

Página 11

11

Exportación de datos Exportación de datos le permite transformar los conjuntos de datos en formato QUILLA al

formato deseado (txt, Excel,

xml, html mesa, etc.).

Figura 1. Dos posibilidades para llevar a cabo el proceso de exportación.

La Figura 1 muestra las dos posibles opciones para exportar conjuntos de datos. Una opción

consiste en exportar uno

conjunto de datos, la otra opción consiste en exportar un conjunto de particiones que tienes

disponible en otra

formatos diferentes a formato quilla. En la continuación, se muestra el proceso de las dos

opciones.

1. Exportación conjunto de datos. Seleccione esta opción si desea exportar sólo un único

archivo de formato de quilla hasta

otro formato (véase la Figura 2).

Figura 2. opción Exportar conjunto de datos.

Página 12

12

Esta opción consiste en las siguientes partes:

Paso 1. Seleccione el archivo de origen. En primer lugar, se debe especificar la ruta de

acceso de archivo de origen (un

comúnmente conocido navegador de muchos otros Programms GUI se usa para definir este

camino).

Figura 3. Especifique la ruta del archivo fuente.

Paso 2. Seleccionar formato de entrada. Después de elegir el archivo, debe seleccionar el

formato de

archivo de destino. Los formatos admitidos son CVS, TXT, PRN, C4.5, Excel, Dif,

PropertyList

y Weka. Las diferentes opciones se muestran en la Figura 4.

Figura 4. Formato admitió convertir de formato de quilla.



Figura 5. Especifique determinadas opciones de formato de archivo de destino.

Paso 3. Guarde los archivos. Una vez que el tipo de conversión y la ruta del archivo se

han configurado,

debe hacer clic en el botón Siguiente y, a continuación, se muestra la original y el archivo

exportado (ver Figura

6).

Página 13

13

Figura 6. Previsualización del archivo original y exportado.

Si estamos de acuerdo con la conversión hecho, hace clic en el botón Guardar y usted

puede seleccionar el

directorio de destino para el conjunto de datos transformado.

2. Exportar particiones. Seleccione esta opción si ha realizado previamente las particiones

en QUILLA

formatear y desea exportarlos a otro formato. Esta opción permite seleccionar un conjunto

de entrenamiento

y la prueba de los archivos por separado. La Figura 7 muestra la ventana con respecto a esta

opción.

Figura 7. opción Exportar particiones.

Página 14

14

Esta opción consiste en las siguientes partes:

Paso 1. Seleccione los archivos de origen. En primer lugar, se debe especificar la ruta de

acceso del archivo de origen. Usted

tener que usar las flechas para incluir los archivos en la formación o la prueba

correctamente.

Figura 8. Especifique las rutas de los archivos de origen.

Paso 2. Seleccionar formato de entrada. Después de elegir el archivo, debe seleccionar el

tipo de conversión.

Los formatos admitidos son CVS, TXT, PRN, C4.5, Excel, Dif, PropertyList y Weka. Los

diferentes opciones se muestran en la Figura 9.




Figura 10. Especifique determinadas opciones de formato de archivo de destino.

Página 15

15

Paso 3. Guarde los archivos. Una vez que el tipo de conversión y la ruta del archivo se

han configurado,

debe hacer clic en el botón Siguiente y se muestra la original y el archivo exportado (véase

la Figura 11).

Figura 11. Previsualización del archivo original y exportado.

Si estamos de acuerdo con la conversión hecho, hace clic en el botón Guardar y usted

puede seleccionar el

directorio de destino para el conjunto de datos transformado.

Página 16

16

Formatos de archivo Hay diferentes formatos de los datos con los que se puede trabajar en la herramienta

QUILLA. Después, lo haremos

mostrar los diferentes formatos disponibles.

CVS FORMATO DE DATOS ARCHIVO El archivo CSV (separados por comas-valores). CSV es una implementación de un archivo

de texto delimitado,

que utiliza una coma para separar los valores. El formato de archivo CSV es muy simple y

con el apoyo de

casi todas las hojas de cálculo y sistemas de gestión de bases de datos

Las características de estos archivos son los siguientes:

El primer registro en un archivo CSV puede ser un nombre que contiene registro de

encabezado de las columnas.

Cada registro en un archivo puede tener menos campos que el número de cabeceras de

las columnas. En este caso,

valores vacíos se consideran valores perdidos.

Cada fila debe tener el mismo número de campos separados por comas.

Dos comas adyacente o coma al principio o al final de la línea (espacio-caracteres)

indicar los valores nulos.

La separación del todo y la parte fraccionaria de los números reales se realiza a través de

un

punto en lugar de una coma.

El símbolo de la separación de los números decimales es un punto en lugar de una coma.

iniciales y finales espaciales personajes adyacentes a separadores de campo coma se

ignoran.

Cada registro es una línea terminada por un carácter de nueva línea o un retorno de carro.

serán ignorados Las líneas en blanco.

Los campos que contienen caracteres de doble cotización debe estar rodeado de comillas

dobles, y

las dobles comillas incrustadas deberán estar representados cada uno por un par de doble

consecutivo

citas.

Los campos con espacios iniciales o finales o comas debe delimitarse con comillas

dobles

personajes.

El delimitador de los valores puede ser otro personaje distinto al coma. Muchos

implementaciones de CSV permiten un separador alternativo para ser utilizado, tales como

el carácter pestaña

y el formato resultante es TSV (valores separados Tab).

El último registro de un archivo se puede acabar o no con el carácter de fin de línea.

Estos archivos se almacenan, por defecto, con la extensión. "CSV".

Página 17

17

Los (valores separados por comas-CSV) archivos de datos deben tener el siguiente

formato:

Un ejemplo de archivo CSV válido es: En este ejemplo podemos ver el uso de ciertas reglas explicó antes, como valor nulo

expresado en dos comas consecutivo, el uso de la coma decimal como separador para los

números reales

y el uso de comillas dobles para utilizar el valor de la coma simple como parte de los datos

y no como una

separador.

Otro ejemplo de archivo CSV válido es:

TXT y TVS FORMATO DE DATOS ARCHIVO El TXT (texto separado por aquí) o TSV (Valores separados por tabulaciones), es un dato

de texto simple que

permite a los datos tabulares a intercambiar entre las aplicaciones con un formato interno

diferente. Valores

separados por pestañas se han registrado oficialmente como un tipo MIME (Multipurpose

Internet Mail

Extensiones) bajo el texto / nombre de la ficha de valores separados.


Un archivo en formato TXT consiste en líneas. Cada línea contiene campos separados el

uno del otro

por el carácter de tabulación (tab horizontal, HT, control de código 9 en ASCII).

atributo

1

, Atribuir

2

, ..., Atributo

N

valor

11

, El valor

12

, ..., Valor

1N

...

valor

M1

, El valor

M2

, ..., Valor

Minnesota

Nombre, Apellido, Empresa, EmailAddress

Johnathan, Doe, "Compañía ABC", "[email protected]"

Harrie, Wong, "Company Inc.", "[email protected]"

María, "Jo Smith", "Cualquier Corp.", "[email protected]"

OBS, CAREXPEND, DISPOSINC, DOLLARVALUE, SALARIOS

"1960: 1", 14.2,362,, 270.7

"1960: 2", 14.1,365.9,, 273.4

"1960: 3", 14.6,367.6,, 273.9

"1960: 4", 13.2,369.2,, 273.3

"1961: 1", 10.8,72.9,, 273.7

"1961: 2", 11.7,378.4,, 277.6

"1961: 3", 12.2,385.1,, 282.2

"1961: 4", 13.7,393.2,, 288.4

Página 18

18

Los campos puede ser cualquier cadena de caracteres, excluyendo pestañas. Sin

embargo, las pestañas por lo general no aparecen en

elementos de datos que desea para tabular, así que esto es rara vez una restricción. Hay

varios otros

formatos que son muy similares a TSV, pero utilizan un separador diferente, como por

comas

Valores separados (CSV), que utiliza la coma como separador. Las comas, espacios, y otra

personajes a menudo se utilizan como separadores en formatos aparecen con bastante

frecuencia en los datos para ser

tabulada, al menos en los campos de cabecera.

Cada línea debe contener el mismo número de campos.

La primera línea contiene el nombre de los campos o atributos, es decir, los encabezados

de columna.

Un valor vacío se muestra como un campo vacío entre las pestañas.

Estos archivos pueden ser leídos y editados por cualquier editor de texto.

Aunque TSV es un formato de texto, este tipo de formato no se espera que aparece con

un bonito

formato tabular cuando se imprime con un editor oa la izquierda de la pantalla.

La extensión de este tipo de archivo es. "Txt" 'o ". Tsv.

El TXT (texto separado por tabuladores) o TSV (valores de texto / Separado Tab)

archivos de datos debe

tener el siguiente formato:

Un ejemplo de TXT válida o archivo TSV es el siguiente:

PRN FORMATO DE DATOS ARCHIVO Este formato tiene las mismas características y limitaciones que el formato CSV, la

diferencia es el

separador entre campos en formato PRN son espacios. Sin embargo, los espacios en

formato PRN tienen una

diferente papel que en los archivos de CVS.

atributo

1

<TAB> atributo <TAB> ... <TAB> atributo

N

valor

11

<TAB> Valor

12

<TAB> ... <TAB> Valor

1N

...

valor

M1

<TAB> Valor

M2

<TAB> ... <TAB> Valor

Minnesota

FirstName <TAB> Apellido <TAB> Empresa <TAB> EmailAddress

Johnathan <TAB> Doe <TAB> Compañía ABC <TAB> [email protected]

Harrie <TAB> Wong <TAB> Empresa <TAB> Inc. [email protected]

María <TAB> Jo Smith <TAB> Cualquier <TAB> Corp <TAB>

[email protected] "

Página 19

19


El primer registro en un archivo PRN puede ser un nombre que contiene registro de

encabezado de las columnas.

Cada registro en un archivo con las cabeceras de las columnas puede tener menos

campos que el número de

cabeceras. En este caso, los valores vacíos se consideran valores perdidos.

Cada fila debe tener el mismo número de campos separados por espacios.

Varios espacios juntos serán tratados como un solo espacio.

Los espacios al comienzo o al final de la línea indican valores nulos.

El símbolo de la separación de los números decimales es un punto en lugar de una coma.

Cada registro es una línea terminada por un carácter de nueva línea o un retorno de carro.

serán ignorados Las líneas en blanco.

Los campos pueden contener cita doble, retorno de carro (o cualquier otro carácter).

Los campos que contienen carácter de espacio como valor debe estar rodeado por

comillas dobles.

Un registro con un solo campo sin ningún valor debe tener los requisitos de tipo texto a

prevenir que no se ignora.

El último registro de un archivo se puede acabar o no con el fin del símbolo de línea.

Estos archivos se almacenan por defecto, con la extensión ".prn".

Los archivos PRN tienen los datos separados por espacios en blanco. Por lo tanto, estos

archivos de datos deben tener la

siguiente formato:

Un ejemplo de un archivo PRN válida es la siguiente: atributo

1

atributo

2

... Atributo

N

valor

11

valor

12

... Valor

1N

...

valor

M1

valor

M2

... Valor

Minnesota

OBS DELL GE YAHOO

1 26,99 48,5 22,92

2 26 49,93 20,83

3 26,24 49,96 20,13

4 25,76 49,48 19,98

5 26,73 49,43 19,74

6 24,93 49,83 18,86

7 25,84 49,01 18,23

8 25,91 49,73 17,79

9 24.6 50.15 17.1

Página 20

20

DIF FORMATO DE DATOS ARCHIVO DIF (Data Interchange Format) es un archivo de texto que se utiliza para importar /

exportar entre diferentes

programas de hojas de cálculo como Excel, StarCalc, dBase, y así sucesivamente.

Este tipo de formato se almacena con la extensión ". Dif"


El formato consta de una cabecera seguida de un bloque de datos. El encabezado

comienza con un archivo con

Formato de texto ASCII.

o cadena es cualquier cadena, a menudo es el nombre de archivo u otra información.

o columnas es el número de columnas de una hoja de cálculo de Excel mediante el nombre.

o filas indica el número de filas de una hoja de cálculo de Excel mediante el nombre.

La cabecera termina con lo siguiente:

Esta cabecera es seguida por las células y los registros de la hoja de cálculo con el

información.

La estructura del registro de datos tiene el siguiente formato:

MESA 0,1

"Cuerda"

VECTORES 0, columnas

""

TUPLAS 0, filas

""

DATOS 0,0

""

DATOS 0,0

""

de tipo de datos, los datos "Cuerda"

Página 21

21

donde tipo de datos admite varios tipos: ESPECIAL, numéricos y CADENA,

representada por -1, 0 y 1, respectivamente.

o Tipo ESPECIAL

donde BOT y EOD son cadenas sin comillas. BOT representa el inicio

de la tabla y EOD final de la sección de datos.

o tipo numérico

donde el valor del indicador indica el tipo de datos almacenados en los datos:

- VERDADERO: 1.

- FALSO: 0.

- V: cualquier valor numérico.

- NA: valor faltante.

- ERROR: 0.

o tipo STRING

donde cadena es cualquier carácter de texto.

Un ejemplo de un archivo DIF válida es la siguiente:

-1,0

BOT

...

.1,0

EOD

0, los datos de

Valor-Indicador

1,0

"Cuerda" Mes

Semana

Vehículo

Cantidad

Enero

1

Auto

105.000

Enero

1

Camión

1,050

Enero

1

Autobús

1,575

Enero

1

Camión

2,100

Enero

1

Moto 583

Página 22

22

El formato de archivo interno DIF generado es el siguiente:

C4.5 FORMATO DE DATOS ARCHIVO Los archivos se codifican de acuerdo al formato C4.5. Este formato consta de dos archivos,

uno de ellos es un

el nombre de archivo con extensión ".names", el otro es un archivo de datos con extensión

".data".

Las características de los archivos de nombres son los siguientes:

El archivo .names contiene una serie de entradas que describen las clases, atributos y

valores de

el conjunto de datos. Cada registro se termina con un punto, pero el punto se puede omitir

si sería

han sido el último carácter de una línea). Cada nombre se compone de una cadena de

caracteres sin

comas, comillas o de colon (a menos que escaparon por una barra vertical, |).

Un nombre puede contener un punto, pero este punto debe ser seguido por un espacio en

blanco.

espacios en blanco incrustados se permite sino múltiples espacios en blanco se sustituyen

por un único

espacio.

MESA 0,1

"EXCEL"

VECTORES 0,6

""

TUPLAS 0,4

""

DATOS 0,0

""

-1,0

BOT 1,0

"Mes"

1,0

"Wek"

1,0

"Vehículo"

1,0

"Cantity"

-1,0

BOT 1,0

"Enero"

0,1

V

1,0

"Auto"

0,105.000

V

-1,0

BOT 1,0

"Enero"

0,1

V

1,0

"Camión"

0,1.050

V

-1,0

BOT 1,0

"Enero"

0,1

"Bus"

0,1.575

V

-1,0

BOT 1,0

"Enero"

0,1

"Camión"

0,2.100

V

-1,0

BOT 1,0

"Enero"

0,1

V

1,0

"Moto"

0583

V

-1,0

EOD

Página 23

23

El primer registro del archivo se enumeran los nombres de las clases, separados por

comas y

terminada por un punto. Cada línea sucesiva entonces define un atributo, en el orden en que

que aparecerán en los archivos .data, con el siguiente formato:

<Atributo de nombre: de tipo atributo>.

El nombre-atributo es un identificador seguido de dos puntos. El tipo de atributo

que debe ser uno de:

continua: si el atributo tiene unos valores continuos.

discreta <n>: la palabra 'discreta' seguido de un número entero que

indica cuántos valores puede tomar el atributo.

ignorar: indica que este atributo debe ser ignorada.

A | (barra vertical) significa que el resto de la línea debe ser considerada como un

comentario.

Estos archivos se almacenan, por defecto, con la extensión. "Nombres".

El formato del archivo '.name' es el siguiente:

Las características de los archivos de datos son los siguientes:

El archivo contiene una línea por el objeto. Cada línea contiene los valores de los

atributos ordenados

de acuerdo con archivo .names, seguido por la clase de objeto, con todas las entradas

separadas por

comas.

El formato es el mismo que el archivo CVS (valores separados por comas), explica en

archivos CVS datos

Formato.

A los valores perdidos se indican con '?'.

Estos archivos se almacenan, por defecto, con la extensión. "Datos".

El formato del archivo '.data' es el siguiente: clase 1, clase 2, ..., clase-N.

característica-1: dominio.

característica-2: dominio.

...

característica-M: dominio.

valor

11

, El valor

12

, ..., Valor

1N

valor

21

, El valor

22

, ..., Valor

2N

...

valor

M1

, El valor

M2

, ..., Valor

Minnesota

Página 24

24

Un ejemplo de un archivo de datos C4.5 es la siguiente

contenido del archivo '.name':

contenido del archivo '.data':

FORMATO EXCEL DATOS ARCHIVO Microsoft Excel es un programa de hoja de cálculo escrito y distribuido por Microsoft. Es

actualmente el

más utilizado hoja de cálculo para sistemas operativos Microsoft Windows y Apple

Macintosh. Es

integrado como parte de Microsoft Office.

Una hoja de cálculo es un programa que permite manipular datos numéricos y

alfanuméricos.

Las hojas de cálculo están dispuestos en filas y columnas. La intersección de una fila /

columna se llama celda

Cada celda puede contener datos o una fórmula que puede referirse al contenido de otras

células. Una hoja de cálculo

contiene 256 columnas, que están etiquetados con las letras (de la A a IV) y las filas con

números

(1 a 65,536), haciendo un total de 16.777.216 células mediante hoja de cálculo.

| En primer lugar el nombre de clases

bueno malo.

| Entonces los atributos

dur: continua.

wage1: continua.

wage2: continua.

wage3: continua.

cola: tc, ninguno, tcf.

hora: continuas.

pensiones: contr empl, allw ret, ninguno.

stby_pay: continua.

shift_diff: continua.

educ_allw: sí, no.

festivos: continuas.

vacaciones: normal, generoso, por debajo del promedio.

lngtrm_disabil: sí, no.

dntl_ins: medio, ninguno, lleno.

el duelo: sí, no.

empl_hplan: medio, lleno, ninguno.

2,5.0,4.0,?, Ninguno, 37,?,?, 5, no, 11, debajo de la media, sí, lleno, sí, lleno, buena

3,2.0,2.5,?,?, 35, ninguno,?,?,?, 10, promedio,?,?, Sí, lleno, mal

3,4.5,4.5,5.0, ninguno, 40,?,?,?, No, 11, promedio,?, Media,?,?, Bueno

3,3.0,2.0,2.5, tc, 40, ninguno,?, 5, no, 10, debajo de la media, sí, un medio, sí, lleno, mal

Página 25

25

Debido a la versatilidad de las hojas de cálculo modernas, se utilizan a veces para hacer

más pequeña

bases de datos, informes, y otros usos.

Formato de Microsoft Excel tiene extensión ".xls".

Un ejemplo de un archivo EXCEL válido es:

WEKA FORMATO DE DATOS ARCHIVO Los archivos de datos débiles están en el siguiente formato:

Encabezado. El nombre de la relación se define como la primera línea del archivo

ARFF. El formato es:

@ Relación <nombre-de-relación>

donde <relación-name> es una cadena. La cadena debe ser citado si el nombre incluye

espacios.

Declaración de atributos. Declaraciones de atributos toman la forma de una secuencia

de orderd

declaracionesattribute. Cada atributo en el conjunto de datos tiene su propia declaración

queattribute

define de forma exclusiva el nombre de ese atributo y su tipo de datos. La orden de los

atributos son

declaró indica la posición de la columna en la sección de datos del archivo. Por ejemplo, si

una

atributo es el tercero declaró entonces Weka espera que todo lo que atribuye valores habrá

encontrado en la columna tercera delimitado por comas. El formato de la

declaraciónattribute es:

@ Atributo <atributo-name> <tipo de datos>

<Atributo-name>: debe comenzar con un carácter alfabético. Si los espacios son para ser

incluido en el nombre y luego el nombre completo debe ser citado.

<Tipo de datos>: puede ser cualquiera de los cuatro tipos Actualmente (versión 3.2.1) con

el apoyo de

Weka:

Página 26

26

1) NUMERIC o REAL. Atributo numérico puede ser números reales.

2) INTEGER. Atributo entero puede ser números enteros.

3) FECHA. Fecha atributo es una cadena opcional que especifica cómo los valores de

fecha debe

ser analizado e impreso. La cadena de formato predeterminado acepta la norma ISO-8601

fecha y hora combinada formato: "aaaa-MM-dd'T'HH: mm: ss".

4) STRING. Atributos de Cuerda nos permiten crear atributos que contienen arbitraria

valores textuales.

5) enumerar. Enumerar atributo consiste en un conjunto de valores posibles

separados por comas (caracteres o cadenas), que puede tomar el atributo. Por

ejemplo, si tenemos un atributo que indica el tiempo podr'ıa Express:

@ Tiempo atributo {soleado, lluvioso, nublado}

Sección de datos. La sección de datos del archivo contiene la línea de declaración de

datos y el real

líneas de instancia. La declaracióndata es una sola línea que denota el comienzo del

segmento de datos

en el archivo. El formato es:

@ Datos X11, X12, ..., X1n

X21, x22, ..., X2N

Cada instancia se representa en una sola línea, con retornos de carro que denotan el final de

la

instancia.

Los valores de atributo para cada instancia están delimitados por comas. Deben aparecer en

el orden

que fueron declarados en la sección de encabezado (es decir, los datos correspondientes a la

n-ésima

declaraciónattribute es siempre el campo de n-ésimo del atributo).

Los valores perdidos están representados por un único signo de interrogación, como en:

data

4.4,?, 1,5,?, Iris-setosa

Algunas de las especificaciones de este formato son: o El nombre de la relación y los atributos son de tipo cadena. Este tipo de cadena es el

mismo que

tipo de cadena utilizado en Java.

o Si cualquier nombre contiene espacios, es necesario incluir comillas dobles.

o Si usted necesita para indicar un valores perdidos, usted tiene que utilizar el símbolo "?".

o El símbolo de la separación de los números decimales es un punto en lugar de una coma.

o El símbolo de la separación de datos en la sección de datos es @ coma.

o Un símbolo% significa que el resto de la línea debe ser considerada como un comentario.

o Estos archivos son las tiendas, por defecto, con la extensión ".arff".

Página 27

27

Los archivos de datos WEKA deben tener el siguiente formato:

Un ejemplo de un archivo de WEKA válido es:

XML FORMATO DE DATOS ARCHIVO XML (Extensible Markup Language) es un conjunto de reglas para definir etiquetas

semánticas que organizan un

documento en diferentes partes. XML es un metalenguaje que define la sintaxis para definir

otra

lenguajes de etiquetas estructurados.

Vamos a explicar el formato XML a seguir para convertir el archivo de datos

correctamente:

La primera línea debe seguir la siguiente estructura:

<? Xml version = "1.0" encoding = independiente "UTF-8" = "yes">

Usted puede tener varios atributos, algunos obligatorios y otros no lo son:

relation <relación-name>

attribute <atributo-name-1> <tipo de datos>

...

attribute <atributo de nombre-N> <tipo de datos>

data

valor

11

, El valor

12

, El valor

1N

...

valor

M1

, El valor

M2

, El valor

Minnesota

% Comentario

tiemporelation

perspectivasattribute soleado, nublado, lluvioso

verdadera temperaturaattribute

verdadera humedadattribute

attribute viento VERDADERO, FALSO

juegoattribute sí, no

data

soleado, 85,85, FALSO, no

soleado, 80,90, TRUE, sin

cubierto, 83,86, FALSO, sí

lluvioso, 70,96, FALSO, sí

lluvioso, 68,80, FALSO, sí

Página 28

28

o Versión: indica la versión XML utilizado en el documento. Este campo es obligatorio.

o codificación: indica la forma en que se ha codificado el documento. La opción por

defecto es

UTF-8, pero podría haber otros, como UTF-16, US-ASCII, ISO-8859-1, etc. Este campo no

es

obligatorio salvo.

o independiente: especifica si otros documentos, como un DTD, están obligados a

procesar el documento. El valor predeterminado es no "..

documentos XML deben seguir una estructura jerárquica por medio de etiquetas.

Elementos XML

puede contener otros elementos. Los elementos también pueden tener atributos, estos

siempre se expresan

como pares nombre-valor en la etiqueta de apertura del elemento.

Un documento bien formado debe ajustarse a las siguientes reglas:

• Los nombres de elementos entre mayúsculas y minúsculas, es decir, el siguiente es un

juego bien formada

par: <step> ... <step>, mientras que esto no es <step> ... </ paso>.

• Los elementos no vacíos están delimitados por tanto una etiqueta de comienzo y una

etiqueta final.

• Los valores de atributos siempre deben ser citados, utilizando comillas simples o dobles, y

cada

nombre de atributo debe aparecer sólo una vez en cualquier elemento

• Todos los espacios y retornos de carro se tienen en cuenta en los elementos.

• Los nombres de los elementos no deben comenzar con las letras "xml".

• Los nombres de los elementos no deben utilizar el carácter ":".

• A pesar de que es permisible usar los caracteres "." Y "-" en los nombres de elementos, no

es

recomendada porque el archivo XML de procesamiento aplicación puede interpretar estos

signos

como operadores. Por lo tanto estos caracteres se sustituirán en nuestra herramienta

por el carácter "_".

Caracteres • No se debe utilizar "\" en los nombres de los elementos.

• Los nombres pueden contener cualquier carácter alfanumérico, pero no pueden empezar

con una

carácter numérico o puntuacion.

Los caracteres especiales pueden ser representados ya sea mediante referencias a

entidades, o por medio de numérico

referencias de caracteres. Un ejemplo de una referencia de carácter numérico es "& #

x20AC;", que

se refiere al símbolo del euro a través de su punto de código Unicode en hexadecimal.

Una referencia de entidad es un marcador de posición que representa esa entidad. Se

compone de la entidad de

nombre precedido por un signo ("

Y

") Y seguido por un punto y coma ("

;

"). XML tiene cinco

entidades declarar con anterioridad:

• Y (ampersand) & amp;

• <(menor que) & lt;

•> (mayor que) & gt;

• '(apóstrofe) y apos;

• "(comillas) & quot;

Página 29

29

comentarios se pueden colocar en cualquier parte del árbol, incluyendo en el texto si el

contenido de la

elemento es texto. Comentarios XML comienzan con <! - y terminan con -> .

<! - Esto es un comentario. ->

XML requiere que los elementos pueden anidar correctamente, es decir, elementos no

pueden solaparse. Por

ejemplo, el código de abajo no es XML bien formado, debido a que el <em > y <strong >

elementos se superponen:

<! - ¡FALSO! NO BIEN FORMADO XML! ->

<P> normal <em> subrayado <strong> fuerte subrayado </ em> fuerte </ strong> </ p>

Todos los documentos XML deben contener un único par de etiquetas para definir el

elemento raíz. Todos los demás

elementos deben estar anidados dentro del elemento raíz. Todos los elementos pueden tener

sub (niños)

elementos. Sub elementos deben estar en pares y correctamente anidado dentro de su

elemento padre.

La etiqueta <root> indica el punto de inicio de los datos. Esta etiqueta puede tener

cualquier nombre. Si todo el

hijos de <root> no tienen el mismo nombre en la etiqueta <row>, el usuario debe introducir

el

nombre de esta etiqueta, de lo contrario, se supone que todos los niños tienen el mismo

valor.

Cada etiqueta <row> es padre de que existen etiquetas como atributos. El nombre en la

etiqueta de cada uno de

estos niños serán el nombre del atributo y el valor de la etiqueta es el valor de los datos de

la

atribuir.

Hay como etiquetas <fila> como filas de datos.

Un formato XML válido para la quilla es la siguiente: <? Xml version = "1.0" encoding = independiente "UTF-8" = "yes"?>

<Root>

<Fila1>

<Nombre-atributo-1> atributo-valor-11 </ attribute-name-1>

<Nombre-atributo-2> atributo-valor-12 </ attribute-name-2>

<Nombre-atributo-N> atributo-valor-1N </ attribute-name-N>

</ Fila1>

...

<RowM>

<Nombre-atributo-1> atributo-valor-M1 </ attribute-name-1>

<Nombre-atributo-2> atributo-valor-M2 </ attribute-name-2>

<Nombre-atributo-N> atributo-valor-MN </ attribute-name-N>

</ RowM>

</ Root>

Página 30

30

Otro formato XML válido para Quilla es la siguiente:

Un ejemplo de un archivo XML válido es el siguiente: En este ejemplo hay:

9 atributos: Identificación, curso, nombre, resumen, la numeración, disableprintg,

customtitles, timecreated

y timemodified.

2 casos con estas 9 atributos.

La etiqueta principal es <root>

La etiqueta <cliente> contiene cada instancia. En xml archivo de datos de exportación a

nuestra herramienta, el nombre de

esta etiqueta será el mismo que el nombre de tiendas de relación de datos en formato quilla.

<? Xml version = "1.0" encoding = independiente "UTF-8" = "yes"?>

<Root>

<Fila1>

<Nombre del campo = "atributo de nombre-1"> atributo-valor-11 </ field>

<Nombre del campo = "atributo de nombre-2"> atributo-valor-12 </ field>

<Nombre del campo = "atributo de nombre-N"> atributo-valor-1N </ field>

</ Fila1>

...

<RowM>

<Nombre del campo = "atributo de nombre-1"> atributo-valor-M1 </ field>

<Nombre del campo = "atributo de nombre-2"> atributo-valor-M2 </ field>

<Nombre del campo = "atributo de nombre-N"> atributo-valor-MN </ field>

</ RowM>

</ Root>

Página 31

31

<? Xml version = "1.0" encoding = "UTF-8"?>

<Root>

<Clientes>

<Id> 5 </ id>

<Curso> 66 </ curso>

<Nombre> Mi libro </ name>

<Summary> Resumen del libro </ summary>

<Numeración> 2 </ numeración>

<Disableprinting> 0 </ disableprinting>

<Customtitles> 1 </ customtitles>

<Timecreated> 1114095924 </ timecreated>

<Timemodified> 1114097355 </ timemodified>

</ Clientes>

<Clientes>

<Id> 6 </ id>

<Curso> 207 </ curso>

<Nombre> Mi libro </ name>

<Summary> Un resumen de la prueba </ summary>

<Numeración> 1 </ numeración>

<Disableprinting> 0 </ disableprinting>

<Customtitles> 0 </ customtitles>

<Timecreated> 1114095966 </ timecreated>

<Timemodified> 1114095966 </ timemodified>

</ Clientes>

</ Root>

32

El siguiente ejemplo tiene otra estructura XML, pero los mismos datos que el ejemplo

anterior.

Se puede ver que hay 9 atributos y 2 casos de esto.

HTML FORMATO DE DATOS ARCHIVO HTML, una extensión de Hypertext Markup Language, es el lenguaje de marcado

predominante para la web

páginas. Proporciona un medio para describir la estructura de la información basada en

texto en un documento

(Que denota cierto texto como encabezados, párrafos, listas, etc.) y para complementar el

texto con

formularios interactivos , incrustadas imágenes y otros objetos. HTML se escribe en forma

de etiquetas

(Conocidos como etiquetas), rodeado por paréntesis angulares.

HTML es una aplicación del SGML de acuerdo con la norma internacional ISO 8879.

XHTML es una

reformulación de HTML 4 como aplicación XML 1.0, y permite la compatibilidad con las

aplicaciones de usuario

ya admitidas HTML 4 siguiendo un conjunto de reglas.

Las etiquetas HTML básicas son:

<HTML>: es la etiqueta que define el principio del documento.

<HEAD>: define la cabecera del documento, esta cabecera normalmente Contiene

información

sobre la página, como el título, las etiquetas META para correcta indexación de motores de

búsqueda, ESTILO

etiquetas, que determinan el diseño de la página, y JavaScript de codificación para los

efectos especiales. Dentro

la cabecera <HEAD> encontramos:

<? Xml version = "1.0" encoding = "UTF-8"?>

<Root>

<Row>

<Field name = "id"> 5 </ field>

<Field name = "supuesto"> 66 </ field>

<Nombre del campo = "nombre"> Mi libro </ field>

<Nombre del campo = "resumen"> resumen del libro </ field>

<Field name = "numeración"> 2 </ field>

<Field name = "disableprinting"> 0 </ field>

<Campo name = "customtitles"> 1 </ field>

<Nombre del campo = "timecreated"> 1114095924 </ field>

<Nombre del campo = "timemodified"> 1114097355 </ field>

</ Row>

<Row>

<Field name = "id"> 6 </ field>

<Field name = "supuesto"> 207 </ field>

<Nombre del campo = "nombre"> Mi libro </ field>

<Nombre del campo = "resumen"> Un resumen de la prueba </ field>

<Field name = "numeración"> 1 </ field>

<Field name = "disableprinting"> 0 </ field>

<Campo name = "customtitles"> 0 </ field>

<Nombre del campo = "timecreated"> 1114095966 </ field>

<Nombre del campo = "timemodified"> 1114095966 </ field>

</ Row>

</ Root>

Página 33

33

o <TITLE>: define el título de la página. Este será visible en la barra de título de la

navegador de los espectadores.

o <link>: define algunas características avanzadas, por ejemplo, hojas de estilo utilizadas

para la

el diseño de la página.

<BODY>: contiene el contenido principal o cuerpo del documento, aquí es donde usted

comenzará

escribir su documento y la colocación de sus códigos HTML. Se define comunes a

propiedades

toda la página, como el color y los márgenes de fondo. Dentro del cuerpo puede <BODY>

usted

puede utilizar una gran variedad de etiquetas. La etiqueta que utilizamos en nuestra

herramienta es

o <TABLE>: Esta etiqueta define el comienzo de una tabla (el <TR> representa filas

y <TD> representa las células).

El formato se ha explicado anteriormente corresponde a una página de HTML es:

<HTML>

<HEAD>

...

</ HEAD>

<BODY>

...

<TABLE>

...

</ TABLE>

....

</ BODY>

</ HTML>

Tag <TABLE> El modelo de tablas de HTML permite a los autores para organizar datos - texto, texto

preformateado, imágenes, enlaces,

formularios, campos de formulario, otras tablas, etc. - en filas y columnas de celdas.

Las tablas se definen con la etiqueta <table>. Una tabla se divide en filas (con la etiqueta

<tr>), y cada

fila se divide en celdas de datos (con la etiqueta <td>). Las cartas td gradas para "datos de

la tabla", que es el

contenido de una celda de datos. Una celda de datos puede contener texto, imágenes, listas,

párrafos, formas, líneas horizontales,

mesas, etc.

Diferentes etiquetas que definirán la estructura de la tabla para la obtención de un archivo

de datos válidos son:

o TR: La etiqueta <TR> nos permitirá insertar filas en la tabla.

o TH: La etiqueta <TH> nos permitirá definir la mesa principal tabla.

o TD: La etiqueta <TD> nos permitirá insertar celdas en cada fila. Podemos insertar

cualquier elemento:

imágenes, listas, texto con formato e incluso otras mesas.

Página 34

34

El formato HTML válido para Quilla es la siguiente: <Table>

<Tr>

<Th> Encabezado 1 </ th>



</ Tr>

<Tr>

<Td> Valor 1 </ td>

<Td> Valor 2 </ td>

<Td> Valor 3 </ td>

</ Tr>

<Tr>

<Td> Valor 4 </ td>

<Td> Valor 5 </ td>

<Td> Valor 6 </ td>

</ Tr>

</ Table>

Un ejemplo de un archivo HTML válido es el siguiente: <Html>

<Head>

<h1 align = "center"> VEHÍCULOS </ h1>

</ Head>

<Body>

<Table border = "1" cellspacing = "1" cellpadding = "0">

<Tr align = "center">

<Td> Mes </ td>

<Td> Semana </ td>

<Td> Vehículo </ td>

<Td> Importe </ td>

</ Tr>

<Tr>

<Td> enero </ td>

<Td> 1 </ td>

<Td> Coche </ td>

<Td> 105.0 </ td>

</ Tr>

<Tr>

<Td> enero </ td>

<Td> 1 </ td>

<Td> Camión </ td>

<Td> 1,05 </ td>

</ Tr>

<Tr>

<Td> enero </ td>

<Td> 1 </ td>

<Td> Moto </ td>

Página 35

35

<Td> 1.575 </ td>

</ Tr>

<Tr>

<Td> enero </ td>

<Td> 1 </ td>

<Td> Coche </ td>

<Td> 2.1 </ td>

</ Tr>

</ Table>

</ Body>

</ Html>

Página 36

36

Partición de datos Partición de datos le permite realizar particiones de cualquier conjunto de datos de formato

QUILLA existente. Figura 1 muestra

la ventana principal de esta opción.

Figura 1. Proceso de hacer particiones.

El proceso de partición se compone de las siguientes partes:

Paso 1. Seleccione Archivo. En primer lugar, usted debe elegir el camino del conjunto

completo de datos (en QUILLA

formato) que desea realizar particiones de la misma (ver figura 2).

Figura 2. Elige establecidos para hacer particiones de datos.

Paso 2. Tipo de partición . Una vez seleccionado el archivo, usted tiene que elegir el tipo

de partición.

Los diferentes tipos considerados son:

1. K veces la validación cruzada: esta partición le permite configurar el número de veces

que

las particiones (si desea configurar las diferentes opciones, usted tiene que hacer clic en

Botón "Opciones").

2. 5x2 validación cruzada: esta partición no permite configurar opciones.

3. Hold-Out: esta partición le permite configurar el número de particiones y el

porcentajes de capacitación y de prueba (si desea configurar las diferentes opciones,

tienes que hacer clic en el botón "Opciones").

Figura 3. Tipo de Partición.

Página 37

37

Paso 3. Semilla . Para hacer las particiones del conjunto de datos, es necesario especificar

el azar

generador de ver para realizar el proceso de división.

Figura 4. Seleccione la semilla.

Paso 4: Hacer las particiones . Una vez que los pasos anteriores se han configurado, el

particiones se llevarán a cabo cuando se hace clic en el botón "Dividir". Los archivos

generados durante

el proceso de partición se almacenan en el directorio especificado en el paso 1 y el nombre

de ellos

archivos se da automáticamente y depende del tipo de la partición seleccionada.

Editar Datos Editar datos le permite editar cualquier conjunto de datos de formato QUILLA existentes

con el fin de añadir nuevos atributos, a

eliminar otros, para corregir algunos errores, etc.

Figura 1. Proceso de edición de datos.

La Figura 1 muestra la ventana principal de esta opción. En primer lugar, debe seleccionar

la ruta de datos de origen

conjunto (en formato QUILLA) que desea editar (ver Figura 2).

Figura 2. Cargar conjunto de datos para editar su contenido.

Una vez cargado el archivo, aparece su contenido sobre la mesa. Las modificaciones

pueden llevarse a cabo tanto

en los casos y en variables. En siguiente, se muestran las dos opciones.

1. Datos Edición . En esta opción nuevas instancias se podrían añadir o instancias

existentes podrían ser borrados

o modificado (véase la Figura 3).

Página 38

38

Figura 3. Datos Edition.

El uso de la mesa y los botones situados sobre ella se pueden realizar las siguientes

operaciones:

•

Modificar el contenido de la celda : si desea modificar el contenido de la celda que tiene

que hacer clic en

la celda que desea cambiar. A continuación, sólo tiene que escribir el nuevo valor, y si

es válida, el contenido de la celda se modifica. De lo contrario, se muestra un diálogo de

error.

•

Eliminar una instancia : si desea eliminar una instancia, usted tiene que hacer clic en

cualquier celda

que corresponde a la instancia (fila) que desea eliminar. Entonces, un "Borrar

Se activa el botón instace ". Al hacer clic en él, se eliminará la instancia completa.

•

Añadir una nueva instancia: si desea agregar una nueva instancia, usted tiene que hacer

clic en la opción "Agregar

Botón de Instancia ". A continuación, se añade una nueva instancia, si se ha seleccionado

una celda, el nuevo

se añade ejemplo en la parte superior de la instancia en que hacía la celda seleccionada. Si

no celular era

seleccionado, se añade una nueva instancia de la parte inferior de la tabla. La nueva

instancia tiene

valores vacíos y las diferentes variables pueden ser llenadas haciendo click en los diferentes

las células.

2. Edición de variables. En esta opción de diferentes modificaciones en las variables

pueden ser llevadas a cabo (ver

La Figura 4).

Figura 4. Variable Edition.

El uso de la mesa y los botones situados sobre ella se pueden realizar las siguientes

operaciones:

Página 39

39

•

Añadir nuevas variables : si desea agregar nuevas variables, el "Agregar variable" botón

tiene

a hacer clic en. A continuación, se añade una nueva fila a la parte inferior de la mesa y el

diferentes características pueden ser llenados.

•

Añadir nuevas variables : si quieres eliminar una variable, primero una variable tiene que

ser seleccionado

y luego en el botón "Eliminar Variable" se tiene que hacer clic.

•

Cambie los valores de rango : si desea cambiar los valores de rango, un real o entero

variable tiene que ser seleccionado. Si la variable seleccionada es "entero" o "Real", puede

modificar los valores de rango y, a continuación, haga clic en el botón "Cambiar Range"

para cambiar el

información.

•

Cambie los valores nominales : si desea cambiar los valores nominales, un nominal

variable tiene que ser seleccionado. Si la variable seleccionada es nominal, se puede añadir

o

quitar los valores permitidos para esa variable mediante la lista y "Borrar" y "Agregar"

botón.

•

Cambio de atributos de tipo : si desea cambiar el tipo de variable, lo que tienes que hacer

clic en

la celda que desea cambiar de la columna "Tipo". A continuación, puede modificar el

tipo de variable a través de la lista especificando cualquier otro tipo.

•

Cambie el atributo "función" : si desea cambiar la función de atributo, usted tiene

hacer clic en la celda que desea cambiar de la columna "Función". Entonces puedes

modificar la "función" variable a través de la lista especificando si se trata de "entrada" o

"Salida".

Cuando haya realizado todos los cambios, puede guardarlos en un archivo pulsando el

botón "Guardar".

Página 40

40

DISEÑO EXPERIMENTO La parte Experimentos diseño tiene el objetivo de diseñar los experimentos deseados

utilizando un

interfaz gráfica. Sin duda, esta es la herramienta más innovadora integrada en este

programa. Los

objetivo es utilizar conjuntos de datos y algoritmos disponibles para generar una estructura

de directorio con toda la

archivos necesarios necesarios para ejecutar los experimentos diseñados en el equipo local

seleccionado por el usuario.

Ahora, usted puede olvidarse de scripts y otros archivos de parámetros que hicieron ardua

el diseño de un

experimentar, y comenzar a utilizar las nuevas ventanas interfaz basada.

Con este programa, sólo tiene que seleccionar los datos de entrada (conjuntos de datos), los

algoritmos que desee utilizar

y para hacer las conexiones oportunas entre ellos. También es posible concatenar métodos,

inserte pruebas estadísticas, etc ...

La tarea que es más simplificado es probablemente la configuración de los parámetros; todo

lo puede

hacerse desde un diálogo sencillo y sin necesidad de archivos de configuración externos.

Esta parte de la quilla tiene dos objetivos principales: por un lado, puede utilizar el software

como una prueba y

herramienta de evaluación durante el desarrollo de un algoritmo. Por otro lado, también es

una buena opción

con el fin de comparar los nuevos desarrollos con algoritmos estándar ya implementado y

disponible

en Keel 1.0.

La interfaz permite al usuario añadir nuevos algoritmos para el experimento está diseñado.

El único

requisito es aceptar el formato de entrada y salida del archivo QUILLA (referirse a ellos en

el QUILLA

Manual de referencia ). Esto proporciona una forma muy flexible para el usuario comparar

con nuevos métodos

los de KEEL 1.0.

Página 41

41

Configuración de los experimentos Cuando el experimentos se selecciona la opción, la ventana principal del módulo de

experimentos aparecerá:

En primer lugar, es necesario seleccionar el tipo de experimento y el tipo de particiones

para emplear; la

opciones seleccionadas determinarán el tipo de métodos y conjuntos de datos que estará

disponible para diseñar el

experimento.

Los tipos de particiones disponibles son los siguientes:

• validación cruzada k veces (el valor de k se debe especificar)

• validación cruzada 5x2

• sin validación

Página 42

42

Actualmente, el módulo de experimentos KEEL ofrece los siguientes tipos de

experimentos:

• Clasificación

• Regresión

• El aprendizaje no supervisado

Cuando el tipo de experimento se ha seleccionado, el panel de selección de conjuntos de

datos se mostrará,

permitiendo continuar el diseño de experimentos.

Selección de conjuntos de datos El comité de selección de conjuntos de datos muestra los conjuntos de datos disponibles

para el experimento actual. Sus contenidos

dependerá del tipo de experimento ya seleccionado:

Página 43

43

El siguiente paso es elegir los conjuntos de datos deseados desde el panel. Los botones

Seleccionar todo y Invertir

permite realizar la selección de fácil:

El botón Importar permite importar un puesto en el medio ambiente QUILLA datos

existentes, listo para ser

seleccionado para el experimento actual. Al hacer clic en él, la ventana principal de la

Herramienta de importación de datos

se mostrará. El proceso para importar un nuevo conjunto de datos puede se describe en la

Gestión de Datos

sección del módulo del manual.

Si se añade un nuevo conjunto de datos, aparecerán nuevos botones que permite al usuario

Invierte la selección actual

de los datos del usuario se pone, o para Seleccionar todo de ellos. Además, es posible

añadir incluso más conjuntos de datos

(Con la importación de botón), o para Retire los conjuntos de datos seleccionados.

Cuando se seleccionan todo el conjunto de datos es necesario, el proceso de diseño de

experimento puede continuar. Para hacer eso,

el usuario debe hacer clic en el panel gráfico en blanco para establecer el nodo de conjuntos

de datos del experimento.

Página 44

44

En este punto, el módulo de experimentos KEEL se compruebe si todas las particiones

necesarias de la actual

los conjuntos de datos seleccionados están presentes. Si se encuentran algunas particiones

que faltan (por ejemplo, si el usuario selecciona un valor de k

diferente de los juegos disponibles en la distribución estándar), la herramienta le pedirá la

siguiente

mensaje:

Al hacer clic en sí resultará en la generación de las particiones que faltan dentro de la quilla

ambiente. Si el usuario selecciona No generar las particiones, esta advertencia se mostrará

de nuevo

antes de la generación de la gráfica experimento.

Página 45

45

Experimento Gráfico El gráfico experimento muestra los componentes del experimento actual y describe la

relaciones entre ellos. El usuario puede agregar nuevos componentes utilizando el menú de

la izquierda:

Este menú tiene las siguientes categorías disponibles:

Conjuntos de datos: Modificar los conjuntos de datos de los experimentos.

Métodos Preprocesamiento: preproceso en los conjuntos de datos iniciales.

Métodos estándar: métodos de minería de datos.

Métodos de postprocesado: Post-proceso en los resultados de los métodos estándar.

Las pruebas estadísticas: Los procedimientos estadísticos para contrastar los resultados

obtenidos en el experimento.

Módulos de visualización: Mostrar los resultados de los experimentos de una forma

mejorada.

Conexiones: Vínculos entre los componentes del experimento.

46

Los conjuntos de datos Este módulo permite al usuario editar los conjuntos de datos actuales seleccionados para el

experimento.

Como en el Select conjuntos de datos de panel, el usuario puede Añadir y Eliminar

conjuntos de datos para el experimento (de

los que ya están registrados en el entorno QUILLA). Además, todavía es posible importar

nuevos conjuntos de datos.

Además, el botón Editar permite al usuario indicar que las particiones (formación y prueba)

deseos

usar. De esta manera, es posible alterar temporalmente los archivos que se incluirán en el

experimento.

Página 47

47

Este cuadro de diálogo muestra los archivos iniciales del conjunto de datos. A partir de ella,

es posible Retire un par de la formación de un

par de archivos de entrenamiento / prueba, para quitar todos los archivos.

Además, el diálogo permite a Añadir un nuevo pares de archivos de entrenamiento y de

prueba. Para ello, deben ser seleccionados

mediante el uso de los botones de búsqueda:

Por último, también es posible añadir un conjunto completo de archivos de validación

cruzada k-pliegue seleccionando el

número adecuado de pliegues y pulsando el botón Añadir cv k veces .

Página 48

48

Métodos de preprocesamiento Esta categoría incluye varios métodos de preprocesamiento

• Transformar datos: Métodos para transformar el formato de los datos: Nominal a

binario, decimal

escalamiento ....

• Discretizers: Método para convertir los datos reales o numéricos en datos nominales.

• Selección de características: Métodos para seleccionar características de los datos.

• Generación Instancia: Métodos para generar nuevas instancias de los casos originales

del

conjunto de datos.

• Selección de instancia: Los métodos para seleccionar los casos de los datos.

• Valores perdidos: Métodos para evaluar los datos que contienen valores perdidos.

Para añadir cualquier método de preprocesamiento para el experimento actual, sólo se

necesita para seleccionarla y haga clic en

en el gráfico del experimento:

Página 49

49

Los métodos estándar Esta categoría incluye los métodos de minería de datos incluidos en la herramienta de la

quilla:

• Reglas de asociación : Los métodos para la extracción de reglas de asociación de datos.

• algoritmos de agrupamiento : La agrupación de métodos

• Árboles de decisión : Los métodos para la construcción de árboles de decisión.

• Aprendizaje Regla Fuzzy : Los métodos para realizar el aprendizaje basado en reglas

difusas.

• Hyperrectangles Aprendizaje : Los métodos que utilizan hyperrectangles para extraer

conocimiento a partir de

datos.

• Lazy aprendizaje : métodos que no construyen un modelo en su fase de entrenamiento

Aprender.

• Las redes neuronales : redes neuronales artificiales.

• Aprendizaje Regla : Los métodos para realizar el aprendizaje basado en normas.

• Los clasificadores estadísticos : clasificadores basados en modelos estadísticos.

• Modelos Estadísticos : Construcción de modelos estadísticos basados en datos.

• Descubrimiento Subgrupo : Métodos para el descubrimiento de subgrupos.

• SVM : máquinas de vectores soporte.

• regresión simbólica : Los métodos para la realización de procedimientos de regresión

simbólicos.

Para añadir cualquier método para el experimento actual, sólo se necesita para seleccionarlo

y haga clic en el gráfico de

el experimento:

Página 50

50

Métodos de postprocesado Esta categoría incluye los métodos de postprocesado incluidos en la herramienta de la

quilla:

• postprocesado Regla Fuzzy : Los métodos para la realización de una fase de postproceso

en los resultados

de un método de extracción Regla Fuzzy

Para añadir cualquier método de postprocesado para el experimento actual, sólo se necesita

para seleccionarla y haga clic en


Página 51

51

Las pruebas estadísticas Esta categoría incluye varios módulos estadísticos disponibles para contrastar experimentos

realizados con

la herramienta de software QUILLA:

• Las pruebas de clasificación : procedimientos estadísticos para contrastar los resultados

de la clasificación

experimentos.

• Las pruebas de regresión : procedimientos estadísticos para contrastar los resultados de

la regresión

experimentos.

Para añadir cualquier procedimiento estadístico para el experimento actual, sólo se necesita

para seleccionarlo y haga clic en

la gráfica del experimento:

Página 52

52

Módulos de visualización Esta categoría incluye varios módulos de visualización desarrolladas para analizar y

resumir la

resultados obtenidos en los experimentos:

• Mostrar resultados (de clasificación) : Módulos para que resumen los resultados

obtenidos en la clasificación

problemas.

• Mostrar resultados (regresión) : Módulos para que resumen los resultados obtenidos en

la regresión

problemas.

• Múltiples Resultados (Clasificación) : Módulos para analizar los resultados obtenidos en

la clasificación

problemas con múltiples algoritmos.

• Múltiples Resultados (regresión) : Módulos para analizar los resultados obtenidos en la

regresión

problemas con múltiples algoritmos.

Para añadir cualquier módulo de visualización para el experimento actual, sólo se necesita

para seleccionarlo y haga clic en

la gráfica del experimento:

Página 53

53

Conexiones Las conexiones permiten terminar el diseño del experimento, mediante la conexión de los

incluidos

módulos con flujos que representan el flujo de datos en el experimento. Se pueden utilizar

tanto como

entradas o salidas de los módulos.

1. Inserte conexión: para hacer una conexión, seleccione la

botón de la barra de herramientas de la izquierda. Entonces,

haga clic en el nodo de origen y, finalmente, haga clic en el nodo de destino.

2. Restricciones: hay algunas restricciones que deben ser considerados al realizar las

conexiones

entre los diferentes elementos:

•

Un conjunto de datos no puede tener entradas.

•

Los algoritmos de pre-procesamiento sólo pueden recibir aportaciones de un conjunto de

datos u otro pre-

método de proceso.

•

Métodos de extracción de conocimientos pueden recibir un flujo de un conjunto de datos, a

partir de una pre-

algoritmo de procesamiento o de un método anterior.

•

Los módulos de prueba y visualización deben recibir datos de entrada procedentes de un

método o de una

algoritmo de post-procesamiento.

•

Módulos de prueba y visualización no pueden tener salidas.

•

El gráfico no puede tener ningún ciclo.

Página 54

54

Todas estas restricciones se verifican en tiempo de ejecución cuando se ha creado una

conexión. Si uno de

estas conexiones no se permite, la aplicación mostrará un mensaje de error. En siguientes

figuras algunos

ejemplos de gráficos incorrectos se muestran:

Página 55

55

Gestión Gráfico El gráfico permite realizar las siguientes operaciones de más de sus elementos:

1. Menú contextual: es posible acceder al menú contextual haciendo clic con el botón

derecho

del ratón sobre un determinado nodo en la zona de dibujo. Este menú depende del objeto

seleccionado

y nos permite eliminar objetos, para configurar los parámetros de algoritmos, etc ...

2. Selección objetos: con el fin de seleccionar un solo elemento, basta con hacer clic con el

botón izquierdo del

ratón sobre él. Pero es posible seleccionar varios elementos, al hacer clic en una zona vacía

de la

área y arrastrando el ratón hasta cubrir todos los objetos deseados dibujar.

3. Mover objetos: Es posible mover uno o varios elementos seleccionados con la ayuda de

la izquierda

botón del ratón, arrastrándolos hasta la posición deseada. Otra forma es utilizar el

cursores del teclado.

4. Retire los objetos: Para eliminar un módulo, seleccionarla y pulsar Supr clave. También

es posible

y eliminar por el menú de contexto, de la barra de herramientas.

56

Configuración de los parámetros del algoritmo Una vez que un módulo ha sido insertado en el gráfico, es posible configurar el valor de sus

parámetros.

Para ello, el usuario tiene que hacer doble clic sobre el símbolo algoritmo y un cuadro de

diálogo se mostrará; además,

este cuadro de diálogo puede demostrar a través del menú emergente que aparecerá cuando

el botón derecho del

ratón se presiona (opción Mostrar parámetros).

En la parte superior de este diálogo es posible establecer el número de veces que se

ejecutará el algoritmo

(Sólo disponible para los métodos aleatorios). Cada ejecución se realizará mediante una

semilla generada a partir de la

semilla inicial. La segunda lista permite especificar en que los datos establece los

parámetros serán cambiados.

En la tabla se encuentra en el centro de la ventana, todos los parámetros del algoritmo se

establecen para su

valores iniciales. Estos valores se pueden modificar, en cuanto a los nuevos valores serán

apropiados para la

método concreto; de lo contrario, aparecerá un mensaje de error:

Por último, el Default Values botón permite regresar todos los parámetros a sus valores por

defecto.

Página 57

57

Generación de experimentos Una vez que un experimento ha sido diseñado, el usuario puede generar a través de la

opción Experimento Run

del menú "Herramientas". Además, es posible utilizar el botón de herramientas bar.

En este punto, la herramienta de software realizará varias pruebas acerca de la integridad

del experimento.

En primer lugar, si detecta que hay que faltan particiones para algunos de los conjuntos de

datos empleadas, la

siguiente diálogo se mostrará, lo que permite a regenerarlos:

Esta es la última oportunidad para generarlos. Else, el experimento se generará de forma

incorrecta.

En segundo lugar, si algunos de los elementos de la gráfica no están conectados por flujos,

la siguiente advertencia

será pronta, y los nodos aislados serán descartados.

Si todo es correcto, el usuario tendrá que seleccionar una ruta para el archivo zip del

experimento:

Página 58

58

El proceso de generación genera un archivo ZIP que contiene todos los elementos

necesarios para ejecutar el

experimento. Si la generación experimento se ha completado con éxito, el siguiente

mensaje será

se muestra.

El experimento debe ejecutarse mediante el RunKeel archivo jar situada en "experimento /

scripts"

En la siguiente imagen, podemos ver un ejemplo de la estructura de directorios que se crea.

Nosotros

ver que cuatro directorios se crean:

•

exe directorio : contiene todos los archivos jar de los algoritmos introducidos en el

experimento.

•

scripts de directorio : contiene los archivos de configuración según algoritmo. Además,

contiene el

RunKeel.jar archivo que se utiliza para ejecutar el experimento.

•

conjuntos de datos de directorio: contiene el utilizado en el experimento. Un directorio

para cada conjunto de datos es

creado.

•

resultados directorio: contiene los archivos de salida generados por cada algoritmo.

Página 59

59

Barra de menús Cada elemento de la barra de menú contiene diferentes submenús. Estas son las diferentes

opciones disponibles:

Menú 1. Archivo

•

Nueva Experimento: crea un nuevo experimento.

•

Cargar Experimento: abre un experimento existente. En el cuadro de diálogo Abrir,

seleccione un

nombre de archivo y haga clic en Abrir. Experimentos archivos normalmente se guardan en

formato XML.

•

Guardar Experimento: guarda el experimento actual en un archivo XML. Si es la primera

vez

que se guarda el experimento, se le preguntó acerca de la ruta de destino.

•

Guardar Experimento Como: ahorra experimento actual en un archivo XML. Se le pedirá

sobre la ruta de destino.

•

Salir: cierra la herramienta de diseño de experimento. Si el experimento no se ha guardado

aún,

usted puede hacerlo en este momento.

2. Menú Ver

•

Barra de estado: muestra / oculta la barra de estado (en la parte inferior de las ventanas).

Inicialmente, es

activo.

•

Cuadrícula: muestra / oculta la cuadrícula de alineación. Ayuda al usuario para facilitar la

alineación de

los elementos insertados en el área de drenaje. Inicialmente, es inactivo.

•

Ayuda Panel: mostrar / disimular el panel de ayuda. Inicialmente, es activo.

•

Conjuntos de datos / Algoritmo: mostrar / disimular el panel que contiene los conjuntos

de datos / algoritmos.

Inicialmente, es activo.

Página 60

60

3. Menú Editar

•

Deshacer: con esta opción el usuario puede deshacer algunas acciones.

•

Rehacer: con este usuario opción puede rehacer algunas acciones deshechas.

•

Seleccionar: permite a los usuarios seleccionar uno o más elementos en la zona de dibujo.

4. Menú Herramientas

•

Inserte flujo de datos: permite la conexión de las salidas del algoritmo (o conjunto de

datos) a las entradas de

otro algoritmo, la creación de un flujo de datos que se ejecutará después. Esta opción es

también

disponible en la barra de la izquierda a través del botón

•

Importación de paquetes QUILLA algoritmo: el fin de insertar el método de un usuario,

seleccione esta

opción y explorar el camino para elegir el método.

•

Instantánea: es posible guardar el diseño de experimentos en un archivo de formato de

imagen

(JPEG). De esta manera le permite insertar en cualquier documento, artículo, etc ...

•

Experimento Ejecutar: cuando experimento está totalmente diseñado, utilice esta opción

para crear una postal

archivo que contiene una estructura de directorio con todos los archivos necesarios para

ejecutar el diseño

experimento en el equipo local seleccionado por el usuario.

•

Semilla: establece el valor de la semilla utilizada por el generador de números aleatorios.

Si hay

cualquier algoritmo (insertado en el experimento) que necesita para generar números

aleatorios, se

se llevará en una semilla creada a partir del valor inicial de la semilla. Esta semilla se puede

establecer

Página 61

61

automáticamente o se puede insertar un valor manualmente. La siguiente imagen muestra el

de diálogo impulsada por esta opción:

•

Opciones de ejecución: permite seleccionar algunas opciones de rendimiento para aplicar

a la

experimento. En esta versión, la opción definida es el siguiente:

•

Montón de Java Tamaño : Indique el número de MB que se asignará en cada

la ejecución del algoritmo. El valor predeterminado es 512 MB. Por favor, no establecer

una mayor

valor que la cantidad real de memoria RAM. El mínimo valor aceptado ha sido

establece en 32 MB.

5. Menú de ayuda

•

Contenido: mostrar un cuadro de diálogo de ayuda que contiene información acerca de

cómo utilizar este

programa.

•

Acerca de ...: muestra un cuadro de diálogo con información básica sobre el programa

como nombre,

autores, versión, etc ...

Página 62

62

Barra de herramientas Para ayudar al usuario a encontrar las operaciones más relevantes, la herramienta de

software Experimentos KEEL

proporciona una barra de herramientas con accesos directos a ellos.

La mayoría de ellos también aparecen en la barra de menú (por lo tanto, se refieren a la

sección de la barra de menús para obtener adicional

información sobre ellos). La única opción que aún no aparece en la barra de menú es:

Eliminar : Esta opción permite al usuario eliminar el módulo seleccionado.

63

Barra de estado La barra de estado es una forma sencilla para proporcionar la información útil de usuario

durante la generación de

experimentos.

Se encuentra en la parte inferior de la ventana. Aquí aparecerá información sobre el

bienestar de acción

llevado a cabo, lo que ayuda al usuario a comprender el significado de cada comando o

botón. Varios

ejemplos se muestran a continuación:

Página 64

64

RUN QUILLA

RunKeel Lanzamiento Cuando el usuario se diseña un experimento, se obtendrá un archivo .ZIP que contiene

todos los archivos necesarios para

ejecutar el experimento en cualquier equipo que tenga una máquina virtual Java instalada.

Es necesario para

extraer el contenido del archivo comprimido y luego obtendrá un directorio llamado

"experimento"

(Como lo había llamado el experimento). En su interior, hay un nuevo directorio llamado

"scripts" en el que se

puede iniciar la aplicación RunKEEL escribiendo java -jar RunKeel.jar en una consola.

Entonces la

experimento comienza a correr.

Cuando termine, el usuario obtendrá en el símbolo del sistema el mensaje

EXPERIMENTO "

COMPLETADO SATISFACTORIAMENTE "

Ver resultados Una vez que el plazo de experimento ha terminado, los archivos de resultados se pueden

encontrar en el resultado \ directorio.

Dependiendo del tipo de los métodos utilizados en el experimento, los siguientes

directorios y archivos serán

disponible:

• Métodos : Para cada combinación de un método y un conjunto de datos, habrá un

directorio, llamado

<MethodName> . <DataSetName>.

En el interior, se pueden encontrar los archivos de salida del método (por lo general, una

formación y una prueba

archivo de salida para cada partición, además de todos los archivos de salida adicional

definido por el método). Por

mayor referencia, consulte el Manual de Referencia QUILLA .

• Exámenes: Para cada módulo de prueba empleado, un nuevo directorio llamado con el

nombre de la prueba se

estar disponible. Este directorio contiene los archivos de salida obtenidos como resultado

de la

aplicación del método de ensayo.

Por otro lado, tenga en cuenta que los nuevos conjuntos de datos obtenidos como resultado

de la ejecución de una

método de pre-procesamiento se colocará en los conjuntos de datos \ directorio del

experimento, para permitir una mayor

el empleo de ellos con métodos vinculados en el mismo experimento.

Página 65

Sesenta y cinco

EDUCATIVO

Introducción QUILLA es una herramienta de software desarrollada para construir y utilizar diferentes

modelos de minería de datos. Nos gustaría

remarcar que esta es la primera herramienta de software de este tipo que contiene un código

libre biblioteca de Java

Algoritmos Evolutivos aprendizaje. Las principales características de la quilla son:

•

Contiene algoritmos pre-procesamiento: transformación, discretización, selecciones de

instancia y

selecciones de características.

•

También contiene un conocimiento Extracción Algoritmos Biblioteca, supervisado y no

supervisado,

destacando la incorporación de múltiples algoritmos de aprendizaje evolutivo.

•

Cuenta con una biblioteca de análisis estadístico para analizar algoritmos.

•

Contiene una interfaz fácil de usar, orientado al análisis de algoritmos.

•

El entorno del QUILLA puede conectarse a Internet para descargar nuevos archivos de

datos para utilizarlos en

futuros análisis.

Podemos distinguir tres partes en el entorno gráfico:

•

La preparación de la parte Bases de datos permite a los usuarios crear diferentes particiones

de su propia

bases de datos o las bases de datos disponibles en la web quilla. Además, es posible editar,

aplicar

transformaciones, generan conjuntos de datos en el formato correcto de los archivos C4.5 o

ver datailed

parcelas sobre un conjunto de datos concreto.

•

El Diseño de Experimentos parte tiene el objetivo de diseñar los experimentos deseados

utilizando

una interfaz gráfica. Después del experimento está diseñado, la interfaz genera un archivo

.ZIP

que contiene una estructura de directorio con todos los archivos necesarios necesario para

ejecutar esos experimentos

en el equipo local

La interfaz también permite al usuario añadir sus propios algoritmos para el ser

experimentación

diseñado. El único requisito es aceptar el formato de archivo de entrada de la quilla.

Incluso, no es

necesaria para utilizar el lenguaje Java para los propios algoritmos de usuario. Esto

proporciona una muy

de manera flexible para el usuario comparar sus propios métodos con los que está en quilla.

•

La Generación de Algoritmos Evolutivos con la biblioteca JCLEC permite al usuario crear

sus propios algoritmos evolutivos utilizando una interfaz gráfica. En esta versión de la

quilla, este

parte no se ha implementado.

Barra de menús Cada elemento de la barra de menú contiene diferentes submenús. Estas son las diferentes

opciones disponibles:

Menú 1. Archivo

Página 66

66

2. Nueva Experimento: crea un nuevo experimento.

3. Experimento de carga: se abre un experimento existente. En el cuadro de diálogo Abrir,

seleccione un

nombre de archivo y haga clic en Abrir. Experimentos archivos normalmente se guardan en

formato XML.

4. Guardar Experimento: guarda el experimento actual en un archivo XML. Si es la

primera vez

que se guarda el experimento, se le preguntó acerca de la ruta de destino.

5. Guardar Como Experimento: ahorra experimento actual en un archivo XML. Se le

pedirá

sobre la ruta de destino.

6. Salir: cierra la herramienta de diseño de experimento. Si el experimento no se ha

guardado aún,

usted puede hacerlo en este momento.

3. Menú Ver

•

Barra de estado: muestra / oculta la barra de estado (en la parte inferior de las ventanas).

Inicialmente, es

activo.

•

Cuadrícula: muestra / oculta la cuadrícula de alineación. Ayuda al usuario para facilitar la

alineación de

los elementos insertados en el área de drenaje. Inicialmente, es inactivo.

•

Ayuda Panel: mostrar / disimular el panel de ayuda. Inicialmente, es activo.

•

Conjuntos de datos / Algoritmo: mostrar / disimular el panel que contiene los conjuntos

de datos / algoritmos.

Inicialmente, es activo.

4. Menú Editar

•

Deshacer: con esta opción el usuario puede deshacer algunas acciones.

•

Rehacer: con este usuario opción puede rehacer algunas acciones deshechas.

Página 67

67

•

Seleccionar: permite a los usuarios seleccionar uno o más elementos en la zona de dibujo.

5. Menú Herramientas

•

Inserte flujo de datos: permite la conexión de las salidas del algoritmo (o conjunto de

datos) a las entradas de

otro algoritmo, la creación de un flujo de datos que se ejecutará después. Esta opción es

también

disponible en la barra de la izquierda a través del botón

•

Importación de paquetes QUILLA algoritmo: el fin de insertar el método de un usuario,

seleccione esta

opción y explorar el camino para elegir el método.

•

Instantánea: es posible guardar el diseño de experimentos en un archivo de formato de

imagen

(JPEG). De esta manera le permite insertar en cualquier documento, artículo, etc ...

•

Experimento Ejecutar: cuando experimento está totalmente diseñado, utilice esta opción

para ejecutar la

experimento diseñado y ver los resultados.

•

Semilla: establece el valor de la semilla utilizada por el generador de números aleatorios.

Si hay

cualquier algoritmo (insertado en el experimento) que necesita para generar números

aleatorios, se

se llevará en una semilla creada a partir del valor inicial de la semilla. Esta semilla se puede

establecer

automáticamente o se puede insertar un valor manualmente. La siguiente imagen muestra el

de diálogo impulsada por esta opción:

68

•

Opciones de ejecución: permite seleccionar algunas opciones de rendimiento para aplicar

a la

experimento. En esta versión, la opción definida es el siguiente:

•

Montón de Java Tamaño : Indique el número de MB que se asignará en cada

la ejecución del algoritmo. El valor predeterminado es 512 MB. Por favor, no establecer

una mayor

valor que la cantidad real de memoria RAM. El mínimo valor aceptado ha sido

establece en 32 MB.

6. Menú de ayuda

•

Contenido: mostrar un cuadro de diálogo de ayuda que contiene información acerca de

cómo utilizar este

programa.

•

Acerca de ...: muestra un cuadro de diálogo con información básica sobre el programa

como nombre,

autores, versión, etc ...

Barra de herramientas Para ayudar al usuario a encontrar las operaciones más relevantes, la herramienta de

software Experimentos KEEL

proporciona una barra de herramientas con accesos directos a ellos.

Página 69

69

La mayoría de ellos también aparecen en la barra de menú (por lo tanto, se refieren a la

sección de la barra de menús para obtener adicional

información sobre ellos). La única opción que aún no aparece en la barra de menú es:

Eliminar : Esta opción permite al usuario eliminar el módulo seleccionado.

Barra de estado La barra de estado es una forma sencilla para proporcionar la información útil de usuario

durante la generación de

experimentos.

Se encuentra en la parte inferior de la ventana. Aquí aparecerá información sobre el

bienestar de acción

llevado a cabo, lo que ayuda al usuario a comprender el significado de cada comando o

botón. Varios

ejemplos se muestran a continuación:

Página 70

70

Configuración de los experimentos

Cuando la Educación se selecciona la opción, la ventana principal del módulo de

experimentos aparecerá:

En primer lugar, es necesario seleccionar el tipo de experimento y el tipo de particiones

para emplear; la

opciones seleccionadas determinarán el tipo de métodos y conjuntos de datos que estará

disponible para diseñar el

experimento.

Los tipos de particiones disponibles son los siguientes:

• validación cruzada k veces (el valor de k se debe especificar)

• validación cruzada 5x2

• sin validación

Actualmente, el módulo de experimentos KEEL ofrece los siguientes tipos de

experimentos:

Página 71

71

• Clasificación

• Regresión

Cuando el tipo de experimento se ha seleccionado, el panel de selección de conjuntos de

datos se mostrará,

permitiendo continuar el diseño de experimentos.

Selección de conjuntos de datos El comité de selección de conjuntos de datos muestra los conjuntos de datos disponibles

para el experimento actual. Sus contenidos

dependerá del tipo de experimento ya seleccionado:

El siguiente paso es elegir los conjuntos de datos deseados desde el panel. Los botones

Seleccionar todo y Invertir

permite realizar la selección de fácil:

Página 72

72

El botón Importar permite importar un puesto en el medio ambiente QUILLA datos

existentes, listo para ser

seleccionado para el experimento actual. Al hacer clic en él, la ventana principal de la

Herramienta de importación de datos

se mostrará. El proceso para importar un nuevo conjunto de datos puede se describe en la

Gestión de Datos

sección del módulo del manual.

Cuando se seleccionan todo el conjunto de datos es necesario, el proceso de diseño de

experimento puede continuar. Para hacer eso,

el usuario debe hacer clic en el panel gráfico en blanco para establecer el nodo de conjuntos

de datos del experimento.

Página 73

73

Experimento Gráfico

El gráfico experimento muestra los componentes del experimento actual y describe la

relaciones entre ellos. El usuario puede agregar nuevos componentes utilizando el menú de

la izquierda:

Este menú tiene las siguientes categorías disponibles:

Conjuntos de datos: Modificar los conjuntos de datos de los experimentos.

Métodos Preprocesamiento: preproceso en los conjuntos de datos iniciales.

Métodos estándar: métodos de minería de datos.

Conexiones: Vínculos entre los componentes del experimento.

Página 74

74

Los conjuntos de datos Este módulo permite al usuario editar los conjuntos de datos actuales seleccionados para el

experimento.

Como en el Select conjuntos de datos de panel, el usuario puede Añadir y Eliminar

conjuntos de datos para el experimento (de

los que ya están registrados en el entorno QUILLA). Además, todavía es posible importar

nuevos conjuntos de datos.

Además, el botón Editar permite al usuario indicar que las particiones (formación y prueba)

deseos

usar. De esta manera, es posible alterar temporalmente los archivos que se incluirán en el

experimento.

Página 75

75

Este cuadro de diálogo muestra los archivos iniciales del conjunto de datos. A partir de ella,

es posible Retire un par de la formación de un

par de archivos de entrenamiento / prueba, para quitar todos los archivos.

Además, el diálogo permite a Añadir un nuevo pares de archivos de entrenamiento y de

prueba. Para ello, deben ser seleccionados

mediante el uso de los botones de búsqueda:

Por último, también es posible añadir un conjunto completo de archivos de validación

cruzada k-pliegue seleccionando el

número adecuado de pliegues y pulsando el botón Añadir cv k veces .

Página 76

76

Métodos de preprocesamiento Esta categoría incluye varios métodos de preprocesamiento

• Discretizers: Método para convertir los datos reales o numéricos en datos nominales.

• Selección de características: Métodos para seleccionar características de los datos.

• Generación Instancia: Métodos para generar nuevas instancias de los casos originales

del

conjunto de datos.

Para añadir cualquier método de preprocesamiento para el experimento actual, sólo se

necesita para seleccionarla y haga clic en


Página 77

77

Los métodos estándar Esta categoría incluye los métodos de minería de datos incluidos en la herramienta de la

quilla:

• Árboles de decisión : Los métodos para la construcción de árboles de decisión.

• Aprendizaje Regla Fuzzy : Los métodos para realizar el aprendizaje basado en reglas

difusas.

• Las redes neuronales : redes neuronales artificiales.

• Aprendizaje Regla : Los métodos para realizar el aprendizaje basado en normas.

• Los clasificadores estadísticos : clasificadores basados en modelos estadísticos.

• Modelos Estadísticos : Construcción de modelos estadísticos basados en datos.

• SVM : máquinas de vectores soporte.

Para añadir cualquier método para el experimento actual, sólo se necesita para seleccionarlo

y haga clic en el gráfico de

el experimento:

Página 78

78

Conexiones Las conexiones permiten terminar el diseño del experimento, mediante la conexión de los

incluidos

módulos con flujos que representan el flujo de datos en el experimento. Se pueden utilizar

tanto como

entradas o salidas de los módulos.

1. Inserte conexión: para hacer una conexión, seleccione la

botón de la herramienta de la izquierda

bar. A continuación, haga clic en el nodo de origen y, finalmente, haga clic en el objetivo

node.Ç

2. Restricciones: hay algunas restricciones que deben ser considerados al hacer

conexiones entre los diferentes elementos:

1. Un conjunto de datos no puede tener entradas.

2. Los algoritmos de pre-procesamiento sólo pueden recibir aportaciones de un conjunto de

datos u otro

método de pre-proceso.

Métodos de extracción 3. Conocimiento pueden recibir un flujo de un conjunto de datos, a

partir de una pre-

algoritmo de procesamiento o de un método anterior.

4. El gráfico no puede tener ningún ciclo.

Todas estas restricciones se verifican en tiempo de ejecución cuando es resultado de una

conexión

creado. Si no se permite una de estas conexiones, la aplicación mostrará un error

mensaje. En siguientes figuras se pueden ver algunos ejemplos de gráficos incorrectos.

79

Gestión Gráfico El gráfico permite realizar las siguientes operaciones de más de sus elementos:

1. Menú contextual: es posible acceder al menú contextual haciendo clic con el derecho

botón del ratón sobre un determinado nodo en la zona de dibujo. Este menú depende de la

seleccionada

objetar y nos permite eliminar los objetos, para configurar los parámetros de algoritmos, etc

...

Selección 2. Objetos: con el fin de seleccionar un solo elemento, basta con hacer clic con

el botón izquierdo del

ratón sobre él. Pero es posible seleccionar varios elementos, al hacer clic en una zona vacía

de la

área y arrastrando el ratón hasta cubrir todos los objetos deseados dibujar.

3. Mover objetos: Es posible mover uno o varios elementos seleccionados con la ayuda de

la

botón izquierdo del ratón, arrastrándolos hasta la posición deseada. Otra forma es utilizar el

cursores del teclado.

4. Retire los objetos: Para eliminar un módulo, seleccionarla y pulsar Supr clave. También

es posible

y eliminar por el menú de contexto, de la barra de herramientas.

Página 80

80

Configuración de los parámetros del algoritmo Una vez que un módulo ha sido insertado en el gráfico, es posible configurar el valor de sus

parámetros.

Para ello, el usuario tiene que hacer doble clic sobre el símbolo algoritmo y un cuadro de

diálogo se mostrará; además,

este cuadro de diálogo puede demostrar a través del menú emergente que aparecerá cuando

el botón derecho del

ratón se presiona (opción Mostrar parámetros).

En la parte superior de este diálogo es posible establecer el número de veces que se

ejecutará el algoritmo

(Sólo disponible para los métodos aleatorios). Cada ejecución se realizará mediante una

semilla generada a partir de la

semilla inicial. La segunda lista permite especificar en que los datos establece los

parámetros serán cambiados.

En la tabla se encuentra en el centro de la ventana, todos los parámetros del algoritmo se

establecen para su

valores iniciales. Estos valores se pueden modificar, en cuanto a los nuevos valores serán

apropiados para la

método concreto; de lo contrario, aparecerá un mensaje de error:

Por último, el Default Values botón permite regresar todos los parámetros a sus valores por

defecto.

81

Ejecutar experimento Una vez que un experimento ha sido diseñado, el usuario puede generar a través de la

opción Experimento Run

del menú "Herramientas". Además, es posible utilizar el botón de herramientas bar.

En este punto, nueva ventana nos permite ejecutar el experimento.

Si se pulsa el botón de inicio se llevará a cabo el experimento y los resultados se mostrarán

en el "Informe

sección de área ". En esta sección, la información reportada es el porcentaje total de

aciertos

teniendo en cuenta todas las particiones, el porcentaje de aciertos en cada partición y la

matriz de confusión.

Esta información está indicada tanto para la formación y el conjunto de datos de prueba.

Por otra parte, en la sección de

"Área de partición", se especifica el tiempo de cálculo para cada partición. Un ejemplo es la

ejecución

se muestra en la siguiente figura.

Página 82

82

Manuel KEEL Spanish

Documents

Transcript of Manuel KEEL Spanish