Mandelbrot and Simon

7
El debate Mandelbrot y Simon La distribución de frecuencias de las palabras ha sido un objetivo clave del estudio en lingüística estadísticas en los últimos 70 años. Esta distribución sigue aproximadamente una forma matemática simple, conocida como ley de Zipf . En este trabajo se demuestra que el lenguaje humano tiene una estructura muy compleja y fiable en la distribución de frecuencias por encima de esta ley clásica, aunque los métodos de visualización de datos ha oscurecidos este hecho. A continuación, se revisan una serie de fenómenos empíricos relacionados con las frecuencias de palabras. Estos hechos se eligen para ilustrar acerca de los mecanismos que dan lugar a Zipf de ley, y luego se utilizan para evaluar muchas de las explicaciones teóricas de ella en el lenguaje. No tienes cuenta antes rodeos explica todo los hechos básicos, ni se admite con la evaluación independiente de sus supuestos subyacentes. Para avanzar en la comprensión de por qué en el lenguaje se verifica la ley de Zipf, para lograr tal comprensión los estudios deben buscar relaciones más allá de la propia ley , poniendo a prueba las hipótesis y la evaluación de nuevas predicciones con nuevos datos independientes . La ley de Zipf (Zipf, 1949) es una de las regularidades conocidas más enigmática y controvertida en la lingüística. En su forma más sencilla forma, se establece que si las palabras de un texto se cuentan y clasifican en orden decreciente de sus frecuencias, la frecuencia es inversamente proporcional al rango correspondiente (número de orden en la lista).

description

La distribución de frecuencias de las palabras ha sido un objetivo clave del estudio en lingüística estadísticas en los últimos 70 años. Esta distribución sigue aproximadamente una forma matemática simple, conocida como ley de Zipf . En este trabajo se demuestra que el lenguaje humano tiene una estructura muy compleja y fiable en la distribución de frecuencias por encima de esta ley clásica, aunque los métodos de visualización de datos ha oscurecidos este hecho. A continuación, se revisan una serie de fenómenos empíricos relacionados con las frecuencias de palabras.Estos hechos se eligen para ilustrar acerca de los mecanismos que dan lugar a Zipf de ley, y luego se utilizan para evaluar muchas de las explicaciones teóricas de ella en el lenguaje.

Transcript of Mandelbrot and Simon

Page 1: Mandelbrot and Simon

El debate Mandelbrot y SimonLa distribución de frecuencias de las palabras ha sido un objetivo clave del estudio en lingüística estadísticas en los últimos 70 años. Esta distribución sigue aproximadamente una forma matemática simple, conocida como ley de Zipf . En este trabajo se demuestra que el lenguaje humano tiene una estructura muy compleja y fiable en la distribución de frecuencias por encima de esta ley clásica, aunque los métodos de visualización de datos ha oscurecidos este hecho. A continuación, se revisan una serie de fenómenos empíricos relacionados con las frecuencias de palabras.Estos hechos se eligen para ilustrar acerca de los mecanismos que dan lugar a Zipf de ley, y luego se utilizan para evaluar muchas de las explicaciones teóricas de ella en el lenguaje. No tienes cuenta antes rodeos explica todo los hechos básicos, ni se admite con la evaluación independiente de sus supuestos subyacentes. Para avanzar en la comprensión de por qué en el lenguaje se verifica la ley de Zipf, para lograr tal comprensión los estudios deben buscar relaciones más allá de la propia ley , poniendo a prueba las hipótesis y la evaluación de nuevas predicciones con nuevos datos independientes .

La ley de Zipf (Zipf, 1949) es una de las regularidades conocidas más enigmática y controvertida en la lingüística. En su forma más sencilla forma, se establece que si las palabras de un texto se cuentan y clasifican en orden decreciente de sus frecuencias, la frecuencia es inversamente proporcional al rango correspondiente (número de orden en la lista).

Históricamente, los primeros que se aproximaron a los aspectos cuantitativos del idioma fueron los criptógrafos y los escritores de estenografía. Los criptógrafos tuvieron que utilizar tablas de frecuencias de palabras; y es a Estoup al que se deben las primeras observaciones conocidas sobre las frecuencias relativas de las palabras en un texto.Estas observaciones fueron recuperadas y desarrolladas más tarde por George K. Zipf, de la siguiente manera: si se coloca en una tabla la totalidad de las palabras diferentes de un texto cualquiera, clasificadas por frecuencias decrecientes, se observa que la frecuencia de una palabra es inversamente proporcional a su fila en la lista. En otras palabras, el producto de la frecuencia de cualquier palabra por su fila es constante, lo que se traduce en la fórmula:

HA Simon (1955), "On a class of stew distribution functions", Biometrika , 42:425-440. [ PDF]

Page 2: Mandelbrot and Simon

BB Mandelbrot, "A note on a class of skew distribution function. analysis and critique of a paper by H.A. Simon", Information and Control, 2,90-99 (1959).

[ABSTRACT: This note is a discussion of H.A. Simon's model (1955) concerning the class of frequency distributions generally associated with the name of G.K. Zipf. The main purpose is to show that Simon's model is analytically circular in the case of the linguistic laws of Estoup-Zipf and Willis-Yule. Insofar as the economic law of Pareto is concerned, Simon has himself noted that his model is a particular case of that of Champernowne; this is correct, with some reservation. A simplified version of Simon's model is included. ]

Esta nota es un análisis y una discusión al modelo propuesto por de H.A. Simon (1955), en el que se estudian las distribuciones de frecuencias que se asocian generalmente con la relaciones de carácter empírico descubiertas por GK Zipf. El objetivo principal del artículo de Mandelbrot (1959) es mostrar que el modelo propuesto Simon es analíticamente circular en el caso de las leyes lingüísticas de Estoup-Zipf y Willis-Yule. En relación a la ley económica de Pareto, Simon señala que su modelo es un caso particular de la de distribución de Champernowne, lo que es correcto, con algunas reservas. Una versión simplificada del modelo de Simon está incluido.

Conclusiónes

Simon's model is not adequate as an explanation of the whole of the family ( Z). It may conceivably be made acceptable if p > 1, (if the steady-state requirement may be motivated, or is added as a hypothesis). But the model is certainly to be abandoned if p < 1.

El Modelo de Simon no es adecuado como una explicación de la totalidad de la familia (Z). Pero puede ser aceptable si p> 1, (cuando se exija el estado de equilibrio puede estar motivado, o si añade como una hipótesis). Pero el modelo, sin duda que ser abandonado si p <1.REFERENTE A LA LEY Estoup-ZIPF Contra nuestra teoría de esta ley lingüística (1953, 1957a, 1957b) Simon presenta dos objeciones principales, los cuales parecen ser infundada. (a) Se opone a la utilización del procedimiento de maximización de demostrar que el estado de un texto en el que la ley Estoup-Zipf es cierto es la "más probable" estado, o el estado de mayor información. Afirma que la termodinámica (que es el modelo original de nuestra teoría) "prefiere un promedio procedimientos. " Esto es, sin duda, es así, pero es sólo una cuestión de gusto y de conveniencia y, para los grandes sistemas, ambos métodos son conocidos por conducir al mismo resultado. En realidad, en su artículo (1957b), se ha utilizado el argumento-estado medio, en lugar de una maximización.

Page 3: Mandelbrot and Simon

Sin embargo, una ventaja de la maximización es que el logaritmo de la probabilidad de que un Estado puede ser interpretada como una información, y el más Estado probable es entonces también interpretarse como el estado de la información más grande. Esta es una propiedad más interesante, incluso si la maximización de la información no se toma más literalmente que la maximización de la entropía en el estado estacionario de la termodinámica. (b) Pero, precisamente, Simon se opone a priori a nuestro uso del concepto de información, afirmando que "numerosas dudas (que comparte) han sido expresado en cuanto a la pertinencia de la medida de Shannon de información para el medición de la información semántica. "Podemos decir que, a nuestros ojos, no debe haber ninguna duda en este respecto: "la información" es totalmente irrelevante para "semántica", y su uso en la lingüística sólo demuestra que algunos asuntos en ese campo se puede explicar sin la semántica de ningún tipo.

HA Simon, "Some further notes on a class of skew distribution functions", Information and Control, 3, 80-88 (1960).

[ABSTRACT:This note takes issue with a recent criticism by Dr. B. Mandelbrot of a certain stochastic model to explain word-frequency data. Dr. Mandelbrot's principal empirical and mathematical objections to the model are shown to be unfounded. a central question is whether the basic parameter of the distributions is larger or smaller than unity. The empirical data show it is almost always very close to unity, Sometimes slightly larger, sometimes smaller. Simple stochastic models can be constructed for either case, and give a special status, as a limiting case, to instances where the parameter is unity. More generally, the empirical data can be explained by two types of stochastic models as well as by models assuming efficient information coding. The three types of models are briefly characterized and compared.]

En éste artículo Simon manifiesta su desacuerdo con la crítica efectuada por el B. Mandelbrot (1959) de un determinado modelo estocástico para explicar los datos que expresan la relación entre las frecuencia palabras, que se desprenden de la Ley de Zipf. Las principales objeciones empíricas y matemáticas del Dr. Mandelbrot para el modelo se demuestra que son infundadas. una pregunta central es si el parámetro básico de las distribuciones es mayor o menor que la unidad. Los datos empíricos demuestran que es casi siempre muy próximo a la unidad, a veces un poco más grande, a veces más pequeño. Modelos estocásticos simples se pueden construir para cualquiera de los casos, y dan un estatus especial, como un caso límite, para los casos en que el parámetro es la unidad. Más generalmente, los datos empíricos pueden ser explicados por dos tipos de

Page 4: Mandelbrot and Simon

modelos estocásticos, así como por los modelos que suponen eficiente de información de codificación. Los tres tipos de modelos se caracterizan brevemente y se comparan.

BB Mandelbrot, "Final note on a class of skew distribution functions: analysis and critique of a model due to H.A. Simon", Information and Control, 4, 198-216 (1961).

[ABSTRACT: We shall restate in detail our 1959 objections to Simon's 1955 model for the Pareto-Yule-Zipf distribution. Our objections are valid quite irrespectively of the sign of p-1, so that most of Simon's (1960) reply was irrelevant. We shall also analyze the other points brought up in that reply. ]

En éste artículo Mandelbrot repite en detalle las objeciones planteadas en el artículo de 1959 al modelo propuesto por Simon (1955) para la distribución de Pareto-Yule-Zipf. Asevera además que las objeciones son válidas independientemente del signo del parámetro mencionado (p-1), por lo que la mayor parte de las respuesta de Simon (1960) era irrelevante.

HA Simon, "Reply to 'final note' by Benoit Mandelbrot", Information and Control, 4, 217-223 (1961).

[ABSTRACT: Dr. Mandelbrot's original objection (1959) to using the Yule process to explain the phenomena of word frequencies were refuted in Simon (1960), and are now mostly abandoned. the present "reply" refutes the almost entirely new arguments introduced by Dr. Mandelbrot in his "final note", and demonstrates again the adequacy of the models in (1955). ]

La objeción original del Dr. Mandelbrot (1959) de utilizar el proceso de Yule para explicar los fenómenos de frecuencias de palabras fueron refutadas en Simon (1960), y ahora están abandonados en su mayoría. y en éste artículo plantea que refuta los nuevos argumentos presentados por el Dr. Mandelbrot(1955). en su "nota final", y demuestra una vez más la adecuación de los modelos

BB Mandelbrot, "Post scriptum to 'final note'", Information and Control, 4, 300-304 (1961).

[ABSTRACT: My criticism has not changed since I first had the privilege of commenting upon a draft of Simon (1955). ]

Mi crítica no ha cambiado desde que tuve el privilegio de hacer comentarios sobre un borrador del artículo de Simon (1955).

Page 5: Mandelbrot and Simon

HA Simon, "Reply to Dr. Mandelbrot's post scriptum", Information and Control, 4, 305-308 (1961).

[ABSTRACT: Dr. Mandelbrot has proposed a new set of objections to my 1955 models of the Yule distribution. Like his earlier objections, these are invalid. ]

Editorial note: Dr. Mandelbrot feels that no further comment is needed and this debate terminates herewith.

Dr. Mandelbrot propuso una nueva serie de objeciones a mis 1.955 modelos de la distribución de Yule. Al igual que sus objeciones anteriores, éstas no son válidas.

Nota de la redacción: Dr. Mandelbrot se siente que no es necesario hacer más comentarios y el debate termina la presente.