Esp #002-validación de datos en la era digital-traducido

46
“OK, but where did that data come from?” Data validation in the Digital Age Tom Johnson Managing Director Inst. for Analytic Journalism Santa Fe, New Mexico USA t o m @ j t j o h n s o n . c o m 1 Cheryl Phillips Data Enterprise Editor Seattle Times Seattle, Washington USA c p h i l l i p s @ s e a t t l e t I m e s . c o m

description

 

Transcript of Esp #002-validación de datos en la era digital-traducido

Page 1: Esp #002-validación de datos en la era digital-traducido

“OK, but where did that data come from?”

Data validation in the Digital Age

Tom JohnsonManaging DirectorInst. for Analytic JournalismSanta Fe, New Mexico USAt o m @ j t j o h n s o n . c o m

1

Cheryl PhillipsData Enterprise Editor

Seattle TimesSeattle, Washington USA

c p h i l l i p s @ s e a t t l e t I m e s . c o m

Page 2: Esp #002-validación de datos en la era digital-traducido

“OK, pero ¿de dónde provienen los datos?”

Validación de datos en la Era Digital

Tom JohnsonManaging DirectorInst. for Analytic JournalismSanta Fe, New Mexico USAt o m @ j t j o h n s o n . c o m

2

Page 3: Esp #002-validación de datos en la era digital-traducido

Data validation in the Digital Age

Presentation by Cheryl Phillips and Tom Johnson at

National Institute of Computer-Assisted Reporting ConferenceDate/Time: Friday, Feb. 24 at 11 a.m. Location: Frisco/Burlington RoomSt. Louis, Missouri USA

This PowerPoint deck and Tipsheets posted at:

http:// s d r v . m s / w N t i M 7

3

Page 4: Esp #002-validación de datos en la era digital-traducido

Validación de datos en la Era Digital

Presentación por Tom Johnson en

Fecha/Hora:Locación:

Gracias a Cheryl Phillips, Data Enterprise Editor, Seattle TimesSeattle, Washington USA

Esta presentación de Power Point y hoja de tips están publicados en

FIX THIS http:// s d r v . m s / w N t i M 7

4

Page 5: Esp #002-validación de datos en la era digital-traducido

The methodology / = the value of the data set and your story

Important point

5

1Open data is good; bad data is bad.

Page 6: Esp #002-validación de datos en la era digital-traducido

The methodology / = the value of the data set and your story

Punto importante

6

1Open data es buena, pero datos malos, son malos.

Siempre se debe asumir que todos los

datos están sucios. Por lo tanto, deben ser probados para la

validación.

Page 7: Esp #002-validación de datos en la era digital-traducido

The methodology / = the value of the data set and your story

Important point

7

2A data base (or report) is only as good as the methodology used to create it.

Page 8: Esp #002-validación de datos en la era digital-traducido

The methodology / = the value of the data set and your story

Punto importante

8

2Una base de datos (o informe) es sólo tan buena como la metodología utilizada para crearla.

Page 9: Esp #002-validación de datos en la era digital-traducido

Data sets are living things; they have pedigree and genealogy

Important points

9

3•Most [all?] data sets are living things. •And they have a pedigree, a genealogy. •Data sets live in a dynamic environment. •Understand the DB ecology

Page 10: Esp #002-validación de datos en la era digital-traducido

Data sets are living things; they have pedigree and genealogy

Punto importante

10

3•La mayoría [casi todos] los conjuntos de datos se refieren a seres vivos•Y tienen un árbol genealógico, una genealogía.•Los conjuntos de datos viven en un ambiente dinámico.•Entender la ecología de las bases de datos

Page 11: Esp #002-validación de datos en la era digital-traducido

How bad data can misleadIllinois and Missouri sex-offender DB•“St. Louis Post-Dispatch - 2 May 1999: A11 – “ABOUT 700 SEX OFFENDERS DO NOT APPEAR TO LIVE AT THE ADDRESSES LISTED ON A ST. LOUIS REGISTRY; MANY SEX OFFENDERS NEVER MAKE THE LIST” By Reese Dunklin; Data Analysis By David Heath and Julie Luca

•Sun, 3 Oct 2004 - THE DALLAS MORNING NEWS - PAGE-1A “Criminal checks deficient; State's database of convictions is hurt by lack of reporting, putting public safety at risk, law officials say” By Diane Jennings and Darlean Spangenberger•See stories here

Page 12: Esp #002-validación de datos en la era digital-traducido

Cómo los malos datos pueden inducir a error

La base de datos de los delicuentes sexuales de los estados de Illinois y Missouri“St. Louis Post-Dispatch - 2 Mayo 1999: A11 – “Alrededor de 700 delincuentes sexuales no parecen vivir en las direcciones señaladas en un registro de ST. LUIS. Muchos delincuentes sexuales no aparecen en la lista” By Reese Dunklin; Data Analysis By David Heath and Julie Luca

•Sun, 3 Oct 2004 - THE DALLAS MORNING NEWS - PAGE-1A “Controles criminales deficientes. La base de datos de las condenas del estado se ve perjudicada por la falta de información, poniendo en riesgo la seguridad pública, afirman los funcionarios encargados .” By Diane Jennings and Darlean Spangenberger•Vea la historia aquí

Page 14: Esp #002-validación de datos en la era digital-traducido

URLVideoClip

Reportero de WKRC televisión vinculado a delincuente sexual registrado

Ejemplo de un reportero que descubre que su nombre está en una base de datos de delincuentes sexuales porque alguien usó su número de seguro social. (Como si usaran la "cédula“ o carnet de identificación.)

El reportero de WKRC, Rich Jaffe, enfrenta un problema: de acuerdo a documentos policiales, él es un delicuente sexual

Page 15: Esp #002-validación de datos en la era digital-traducido

How bad data can do you wrong2011 - New Mexico Sec. of State’s “questionable voters” data set – “The Big Bundle”•~1.1m voters•Previous SoS didn’t clean voter rolls•Matched name, address, DoB and SS#

– SSA data base; NM driver’s licenses– 2 variables “mismatch” = Questionable?– Asked State Police (not AG’s office) to investigate

Page 16: Esp #002-validación de datos en la era digital-traducido

Cómo los datos incorrectos pueden hacerle daño

2011 – Conjunto de datos de votantes cuestionables de la Secretaría del Estado de Nuevo México- "El paquete grande“ ~1.1m votantes en total: cuestionables 67.000•El SoS previo no limpió las lista de votantes•Se cotejaron nombres, dirección, fecha de nacimiento y #SS

– Las bases de datos de la SSA, las licencias de conducir de Nuevo México

– 2 variables “no coincidieron" cuestionable?– Se solicitó a la policía del Estado (no a la oficina AG) que

investigara

Page 17: Esp #002-validación de datos en la era digital-traducido

Problems with Sec. of State methodology

• What’s the error rate of original DB?• Definition of “error”? (Gonzales or

Gonzalez)• Sample(s) by county and state total?• Error rates of comparative DBs?• Aggregation of error problem

• 2011 Help America Vote Verification Transaction Totals, Year-to-Date, by State https://www.socialsecurity.gov/open/havv/havv-year-to-date-2011.html

Page 18: Esp #002-validación de datos en la era digital-traducido

Problemas con la metodología de la Sec. de Estado

• ¿Cuál es la tasa de error de la base de datos original?• Definición de "error"? (Gonzáles o González)• Totales de las muestras por condados y

estados?• Tasas de error de bases de datos comparativas?• El problema de la agregación del error.

• Totales del 2011 de las transacciones de verificación de Ayude a América a Votar, Año a fecha por estado.

• https://www.socialsecurity.gov/open/havv/havv-year-to-date-2011.html

Page 19: Esp #002-validación de datos en la era digital-traducido

A most wonderful

story!!!

Data base rich with potential

There be dragons!

19

Page 20: Esp #002-validación de datos en la era digital-traducido

Un reportaje

maravilloso

20

Base de datos rica en potencial

Hay dragones!

Validación del proceso de bases de datos

Page 21: Esp #002-validación de datos en la era digital-traducido

1. Pre-plan•2nd monitor•“Logbook” apps

Building genealogy for target DB

3. Do data fit theoretical models?

4. Do a “critical biography” of the data

5. Does biography raise critical warnings?

7. Acquire latest data and related documents

8. Do tables conform to record layout?

9. Do documents specify expected ranges & frequencies?

10. Are data values missing or out of range?

6. Have others run analysis of this data?

Review major checklist

2. Lit. review/ interview peers

Source: Palmer, Griff. “Flowchart/decision tree for data base analysis.” pgs. 136-146. Ver 1.0 Proceedings, IAJ Press (Santa Fe, NM), April 2006. http://www.lulu.com/product/paperback/ver-10-workshop-proceedings/546459

11. Statistical analysis

Page 22: Esp #002-validación de datos en la era digital-traducido

1. Planificación previa- Segundo monitor - Aplicaciones de bitácora

Construyendo una genealogía para la base de datos objeto.

3. Los datos se ajustan a los modelos teóricos?

4. Haga una "biografía crítica" de los datos

5. ¿La biografía crea advertencias críticas?

7. Adquirir los últimos datos y documentos relacionados

8. ¿Las tablas se ajustan al diseño determinado?

9. ¿ Los documentos especifican los rangos y frecuencias esperados?

10. ¿Hay valores de datos faltantes o fuera de rango?

6. Otros han realizado el análisis de estos datos?

Revise los puntos de atención mayores

2. Revisión de la literatura / entrevista de colegas

Fuente: Palmer, Griff. “Flowchart/decision tree for data base analysis.” pgs. 136-146. Ver 1.0 Proceedings, IAJ Press (Santa Fe, NM), April 2006. http://www.lulu.com/product/paperback/ver-10-workshop-proceedings/546459

11. Análisis estadístico

Page 23: Esp #002-validación de datos en la era digital-traducido

Building genealogy for target DB

1. Pre-plan•2nd monitor•“Logbook” apps

3. Do data fit theoretical models?

4. Do a “critical biography” of the data

5. Does biography raise critical warnings?

7. Acquire latest data and related docs

8. Do tables conform to record layout?

9. Do docs specify expected ranges & frequencies?

10. Are data values missing or out of range?

6. Have others run analysis of this data?

11. Review major checklist

2. Lit. review/ interview peers

• Changes in definitions?

• By administrators?• Formal or informal?

• By statute?• Changes in collection

methods, data entry, vetting, updating, file type/format?

• Changes in users and usage

• Data cleaning

11. Review major checklist

Page 24: Esp #002-validación de datos en la era digital-traducido

Construyendo una genealogía para la base de datos objeto.- Advertencias importantes1. Planificación previa- Segundo monitor - Aplicaciones de bitácora

3. Los datos se ajustan a los modelos teóricos?

4. Haga una "biografía crítica" de los datos

5. ¿La biografía crea advertencias críticas?

7. Adquirir los últimos datos y documentos relacionados

8. ¿Las tablas se ajustan al diseño determinado?

9. ¿ Los documentos especifican los rangos y frecuencias esperados?

10. ¿Hay valores de datos faltantes o fuera de rango?

6. Otros han realizado el análisis de estos datos?

Revise los puntos de atención mayores

2. Revisión de la literatura / entrevista de colegas

11. Análisis estadístico

• ¿Hay cambios en las definiciones?

• ¿Por los administradores?• ¿ Formal o informal?• ¿ Por ley?

• ¿ Hay cambios en los métodos de recolección, ingreso de datos, vetos, actualización, el tipo/formato de archivo ?

• ¿Hay cambios en los usuarios y en el uso?

• Limpieza de los datos

Page 25: Esp #002-validación de datos en la era digital-traducido

Data Quality checkpoints

• Constancy of definitions and coding categories?• All at same time and location?

• Completeness: How many records have unfilled cells? Are the tendencies of “nulls” consistent in all records, variable types?

• Precision: Are the numbers rounded or?• Hope for fine-grained, not summaries or

aggregates • Can be especially important with temporal and

geographic data, i.e. What is the range(s) of the time scales?

Page 26: Esp #002-validación de datos en la era digital-traducido

Puntos de control de la calidad de los datos

• ¿Hay constancia de las definiciones y categorías de codificación?• Todo en el mismo momento y lugar?

• Integridad: ¿Cuántos registros de datos tienen células sin llenar? ¿Son las tendencias de "nulos" consistentes en todos los registros, tipos de variables?

• Precisión: ¿Están los números redondeados o no?

• Espere datos detallados y no resúmenes o agregados • Puede ser especialmente importante con datos

temporales y geográficos, ej. ¿ Cuál es el rango (s) de las escalas de tiempo?

Page 27: Esp #002-validación de datos en la era digital-traducido

Newsroom methods for measuring data quality

• Test frequencies on key fieldsBicycle accidents in Seattle included a time field. But it was almost always noon when accidents occurred.Caveat: Don’t over-reach with your conclusions or analysis

Page 28: Esp #002-validación de datos en la era digital-traducido

Métodos de las salas de prensa o redacciones para medir la calidad de los datos

• Ponga a prueba las frecuencias en las áreas clave– La base de datos de los accidentes de bicicleta en Seattle

incluye un campo de hora. Pero casi siempre era mediodía, cuando los accidentes se producían.

– Advertencia: No se extralimite en sus conclusiones o análisis

Page 29: Esp #002-validación de datos en la era digital-traducido

Outliers are importantExplore the reasons behind anomalies or unexpected trends in the data.

From the state of WA: After going back and forth with our analyst on this, we decided it would be easiest for her to just pull the data. You would have been able to get most of the way there through that fiscal.wa.gov site, but there was some stimulus money you wouldn’t have captured and we included the changes so far to the current biennium (based on the supplemental the legislature approved in December).

Page 30: Esp #002-validación de datos en la era digital-traducido

Los valores extremos son importantesExplore las razones detrás de las anomalías o tendencias inesperadas en los datos.

Desde el estado de WA: Después de ir para adelante y para atrás con nuestro analista en esto, decidimos que sería más fácil para ella sólo sacar los datos. Se hubiera podido obtener las mismas conclusiones a través del sitio fiscal.wa.gov, pero había dinero de estímulo que no se hubiera conseguido así que se incluyeron los cambios hasta el momento para el bienio actual (basado en el suplemento que la Asamblea Legislativa aprobó en diciembre).

Page 31: Esp #002-validación de datos en la era digital-traducido

Other Key Data Checks

– When updating data, make sure nothing has changed. Check definitions for expansion or reduction. Talk to creator of the data.

– Be ready to kill a story.

Page 32: Esp #002-validación de datos en la era digital-traducido

Otros controles claves de los datos

• Al actualizar los datos, asegúrese de que nada ha cambiado. Revise las definiciones para la expansión o reducción. Hable con el creador de los datos.

• Esté preparado para eliminar una historia.

• O cambiar la historia

King County inspecciones de restaurantes

Page 33: Esp #002-validación de datos en la era digital-traducido

Other Key Data Checks

– Do the math: run sums, percent change, other calculations. Test your math against the results in the database – do they match?

– Look for unexpected nulls– Run a group by query and sort alphabetically by

major fields to test for misspellings or other categorization errors.

– If your data should include every city, or every county in the state, does it? Are you missing data?

Page 34: Esp #002-validación de datos en la era digital-traducido

Aspectos adicionales para validar los datos

• Haga el cálculo: ejecute las sumas, cambio en los porcentajes, otros cálculos. Ponga a prueba su matemáticas contra los resultados de la base de datos. ¿Coinciden?

• Busque nulos inesperados• Corra un grupo de consulta y ordénelo alfabéticamente

en los campos más importantes para probar si no hay errores ortográficos u otros errores en la categorización.

• Revise si los datos contemplan la información de todo lo que debería estar incluido. Por ejemplo, todas las ciudades o condados del estado. ¿Están? ¿Le faltan datos?

Page 35: Esp #002-validación de datos en la era digital-traducido

Other Key Data Checks

– Check with experts• Research the methodology used with the kind of data

you are working with. • Have experts test your analysis.

– Version control for Web frameworks – use some kind of version control for your database, even if it’s in an Excel spreadsheet. Any time you change it, log what you did and when and why.

Page 36: Esp #002-validación de datos en la era digital-traducido

Aspectos adicionales para validar los datos

• Consulte con expertos• Investigue acerca de la metodología utilizada con

datos similares a los datos con los que se está trabajando.

• Haga que expertos prueben su análisis

• El control de versiones para marcos en la web - Utilice algún tipo de control de versión de su base de datos, incluso aunque esté en una hoja de cálculo Excel. Cada vez que lo cambie, registre lo que hizo y cuándo y por qué.

Page 37: Esp #002-validación de datos en la era digital-traducido

Other Key Data Checks

– Test the data against source documents.

Page 38: Esp #002-validación de datos en la era digital-traducido

Aspecto adicional para validar los datos

• Prueba de los datos contra los documentos originales.• ¿Existen leyes que originaron la base de

datos que se creó?• Si es así, ¿los datos reflejan el lenguaje y la

intención de esas leyes?¿No es así? Entonces, el trabajo del periodista es preguntar "¿Por qué?"

Page 39: Esp #002-validación de datos en la era digital-traducido

Building genealogy for target DB

•Pre-plan2nd monitor“Logbook” apps

•Lit. review/ interview peers

•Do data fit theoretical models?

•Do a “critical biography” of the data

•Does biography raise critical warnings?

•Acquire latest data and related docs

•Do tables conform to record layout?

•Do docs specify expected ranges & frequencies?

•Are data values missing or out of range?

•Have others run analysis of this data?

•Review major checklist

Analysis

NOW you are ready to NOW you are ready to write a story based on write a story based on

a data basea data base!!

Page 40: Esp #002-validación de datos en la era digital-traducido

Construyendo una genealogía para la base de datos objeto.• Planificación previa- Segundo monitor - Aplicaciones de bitácora

• Los datos se ajustan a los modelos teóricos?

• Haga una "biografía crítica" de los datos

• ¿La biografía crea advertencias críticas?

• Adquirir los últimos datos y documentos relacionados

• ¿Las tablas se ajustan al diseño determinado?

• ¿Los documentos especifican los rangos y frecuencias esperados?

• ¿Hay valores de datos faltantes o fuera de rango?

• Otros han realizado el análisis de estos datos?

• Revise los puntos mayoresde atención

• Revisión de la literatura / entrevista de colegas

Análisis

AHORA usted está listo para escribir una

historia basada en una base de datos!

Page 41: Esp #002-validación de datos en la era digital-traducido

Summing Up

• Databases are constantly dynamic, “living” things. Look for and measure their energy and change.

• Beware of rounding error– Always try to get the most fine-grained data possible in its

ORIGINAL data form or application, i.e. avoid PDFs with SUMMARY data

• Beware of changing definitions• Beware of changing…

• Data collectors, data entry personnel, changing process of editing and usage.

Page 42: Esp #002-validación de datos en la era digital-traducido

Recapitulación

• Las bases de datos son cosas constantemente dinámicas y vivas. Busca y mide su energía y cambio.

• Tenga cuidado con los errores de redondeo• Siempre trate de obtener los datos más detallados posible en

su forma de datos o aplicación original, es decir, evitar los archivos PDF con los datos RESUMEN

• Tenga cuidado con las definiciones cambiantes • Tenga cuidado con los cambios de …

• Los recolectores de datos, personal que ingresa los datos, el cambio en el proceso de edición y uso.

Page 43: Esp #002-validación de datos en la era digital-traducido

“OK, but where did that data come from?”

Data validation in the

Tom JohnsonManaging DirectorInst. for Analytic JournalismSanta Fe, New Mexico USAt o m @ j t j o h n s o n . c o m

43

Cheryl PhillipsData Enterprise Editor

Seattle TimesSeattle, Washington USA

c p h i l l i p s @ s e a t t l e t I m e s . c o m

Many Thanks This PowerPoint deck and Tipsheets posted at:

http:// s d r v . m s / w N t i M 7

Page 44: Esp #002-validación de datos en la era digital-traducido

“OK, pero de dónde vinieron los datos?”

Data validation in the

Tom JohnsonDirector Gerente

Instituto de Periodismo AnalíticoSanta Fe, New Mexico USAt o m @ j t j o h n s o n . c o m 44

Cheryl PhillipsData Enterprise Editor

Seattle TimesSeattle, Washington USA

c p h i l l i p s @ s e a t t l e t I m e s . c o m

Muchas GraciasEsta presentación de PowerPoint y Hojas de Tips están publicadas en:

http:// s d r v . m s / w N t i M 7

Page 45: Esp #002-validación de datos en la era digital-traducido

Source: https://www.socialsecurity.gov/open/havv/havv-year-to-date-2011.html

Big topic: Are there other agencies or institutions already looking at the same data?

Page 46: Esp #002-validación de datos en la era digital-traducido

Fuente: https://www.socialsecurity.gov/open/havv/havv-year-to-date-2011.html

Gran tema: ¿Hay otras agencias o instituciones que ya están revisando los mismos datos?

2011 Data de Verificación de Ayuda a América a Votar