and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf ·...

323
Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of Physics Nicola Cufaro Petroni Lectures on Probability and Stochastic Processes academic year 2017/18

Transcript of and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf ·...

Page 1: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

Department of PhysicsMaster’s Degree in Physics

Class of Probabilistic Methods of Physics

Nicola Cufaro Petroni

Lectures on

Probabilityand

Stochastic Processes

academic year 2017/18

Page 2: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

Copyright c⃝ 2017 Nicola Cufaro PetroniUniversity of Bari Aldo MoroDepartment of Mathematicsvia E. Orabona 4, 70125 Bari

Page 3: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

Contents

I Probability 7

1 Probability spaces 91.1 Samples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91.2 Events . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121.3 Probability . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171.4 Conditional probability . . . . . . . . . . . . . . . . . . . . . . . . . . 201.5 Independent events . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

2 Probability measures 252.1 Probability on N . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

2.1.1 Finite and countable spaces . . . . . . . . . . . . . . . . . . . 252.1.2 Bernoulli trials . . . . . . . . . . . . . . . . . . . . . . . . . . 26

2.2 Probability on R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 312.2.1 Cumulative distribution functions . . . . . . . . . . . . . . . . 312.2.2 Discrete distributions . . . . . . . . . . . . . . . . . . . . . . . 342.2.3 Absolutely continuous distributions: density . . . . . . . . . . 352.2.4 Singular distributions . . . . . . . . . . . . . . . . . . . . . . . 392.2.5 Mixtures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

2.3 Probability on Rn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 412.3.1 Multivariate distribution functions . . . . . . . . . . . . . . . 422.3.2 Multivariate densities . . . . . . . . . . . . . . . . . . . . . . . 442.3.3 Marginal distributions . . . . . . . . . . . . . . . . . . . . . . 462.3.4 Copulas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

2.4 Probability on R∞ and RT . . . . . . . . . . . . . . . . . . . . . . . 51

3 Random variables 553.1 Random variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

3.1.1 Measurability . . . . . . . . . . . . . . . . . . . . . . . . . . . 553.1.2 Laws and distributions . . . . . . . . . . . . . . . . . . . . . . 563.1.3 Generating r.v.’s . . . . . . . . . . . . . . . . . . . . . . . . . 59

3.2 Random vectors and stochastic processes . . . . . . . . . . . . . . . . 613.2.1 Random elements . . . . . . . . . . . . . . . . . . . . . . . . . 613.2.2 Joint and marginal distributions and densities . . . . . . . . . 63

3

Page 4: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes CONTENTS

3.2.3 Independence of r.v.’s . . . . . . . . . . . . . . . . . . . . . . 663.2.4 Decomposition of binomial r.v.’s . . . . . . . . . . . . . . . . . 68

3.3 Expectation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 713.3.1 Integration and expectation . . . . . . . . . . . . . . . . . . . 713.3.2 Change of variables . . . . . . . . . . . . . . . . . . . . . . . . 743.3.3 Variance and covariance . . . . . . . . . . . . . . . . . . . . . 80

3.4 Conditioning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 863.4.1 Conditional distributions . . . . . . . . . . . . . . . . . . . . . 863.4.2 Conditional expectation . . . . . . . . . . . . . . . . . . . . . 893.4.3 Optimal mean square estimate . . . . . . . . . . . . . . . . . . 95

3.5 Combinations of r.v.’s . . . . . . . . . . . . . . . . . . . . . . . . . . 973.5.1 Functions of r.v.’s . . . . . . . . . . . . . . . . . . . . . . . . . 973.5.2 Sums of independent r.v.’s . . . . . . . . . . . . . . . . . . . . 100

4 Limit theorems 1054.1 Convergence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1054.2 Characteristic functions . . . . . . . . . . . . . . . . . . . . . . . . . 108

4.2.1 Definition and properties . . . . . . . . . . . . . . . . . . . . . 1084.2.2 Gaussian laws . . . . . . . . . . . . . . . . . . . . . . . . . . . 1144.2.3 Composition and decomposition of laws . . . . . . . . . . . . . 117

4.3 Laws of large numbers . . . . . . . . . . . . . . . . . . . . . . . . . . 1194.4 Gaussian theorems . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1244.5 Poisson theorems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1264.6 Limit theorems breakdowns . . . . . . . . . . . . . . . . . . . . . . . 130

II Stochastic Processes 133

5 Generalities 1355.1 Laws and identification of s.p.’s . . . . . . . . . . . . . . . . . . . . . 1355.2 Expectations and correlations . . . . . . . . . . . . . . . . . . . . . . 1385.3 Convergence and continuity . . . . . . . . . . . . . . . . . . . . . . . 1395.4 Derivation and integration in m.s. . . . . . . . . . . . . . . . . . . . . 1405.5 Stationarity ed ergodicity . . . . . . . . . . . . . . . . . . . . . . . . 1425.6 Power spectrum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146

6 Heuristic definitions 1496.1 Poisson process . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149

6.1.1 Point processes and renewals . . . . . . . . . . . . . . . . . . . 1496.1.2 Poisson process . . . . . . . . . . . . . . . . . . . . . . . . . . 1546.1.3 Compensated Poisson process . . . . . . . . . . . . . . . . . . 1606.1.4 Compound Poisson process . . . . . . . . . . . . . . . . . . . . 1616.1.5 Shot noise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165

6.2 Wiener process . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167

4

Page 5: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

CONTENTS CONTENTS

6.2.1 Random walk . . . . . . . . . . . . . . . . . . . . . . . . . . . 1676.2.2 Wiener process . . . . . . . . . . . . . . . . . . . . . . . . . . 1686.2.3 Geometric Wiener process . . . . . . . . . . . . . . . . . . . . 174

6.3 White noise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1756.4 Brownian motion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179

6.4.1 Einstein (1905) . . . . . . . . . . . . . . . . . . . . . . . . . . 1806.4.2 Langevin (1908) . . . . . . . . . . . . . . . . . . . . . . . . . . 183

7 Markov processes 1857.1 Markov processes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185

7.1.1 Markov property . . . . . . . . . . . . . . . . . . . . . . . . . 1857.1.2 Chapman-Kolmogorov equations . . . . . . . . . . . . . . . . 1897.1.3 Independent increments processes . . . . . . . . . . . . . . . . 1917.1.4 Stationarity and homogeneity . . . . . . . . . . . . . . . . . . 1947.1.5 Ergodicity . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1967.1.6 Levy processes . . . . . . . . . . . . . . . . . . . . . . . . . . 1987.1.7 Continuity and jumps . . . . . . . . . . . . . . . . . . . . . . 2007.1.8 Poisson, Wiener and Cauchy processes . . . . . . . . . . . . . 2017.1.9 Ornstein-Uhlenbeck processes . . . . . . . . . . . . . . . . . . 2057.1.10 Non Markovian, Gaussian processes . . . . . . . . . . . . . . . 207

7.2 Evolution equations . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2097.2.1 Forward equations . . . . . . . . . . . . . . . . . . . . . . . . 2107.2.2 Backward equations . . . . . . . . . . . . . . . . . . . . . . . 2147.2.3 Families of forward equations . . . . . . . . . . . . . . . . . . 2157.2.4 Equations of notable processes . . . . . . . . . . . . . . . . . . 219

8 Outline of stochastic calculus 2258.1 Wienerian white noise . . . . . . . . . . . . . . . . . . . . . . . . . . 2258.2 Stochastic integration . . . . . . . . . . . . . . . . . . . . . . . . . . . 228

8.2.1 Wiener integral . . . . . . . . . . . . . . . . . . . . . . . . . . 2298.2.2 Ito integral . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231

8.3 Ito stochastic calculus . . . . . . . . . . . . . . . . . . . . . . . . . . 2338.3.1 Elementary integration rules . . . . . . . . . . . . . . . . . . . 2338.3.2 Expectations and covariances . . . . . . . . . . . . . . . . . . 2378.3.3 Stochastic infinitesimals . . . . . . . . . . . . . . . . . . . . . 2388.3.4 Differentiation rules and integration by parts . . . . . . . . . . 240

8.4 Stochastic differential equations (SDE ) . . . . . . . . . . . . . . . . . 2438.4.1 Stochastic differentials and Ito formula . . . . . . . . . . . . . 2438.4.2 SDE ’s and their solutions . . . . . . . . . . . . . . . . . . . . 2448.4.3 SDE ’s and Fokker-Planck aquations . . . . . . . . . . . . . . . 245

8.5 Notables SDE ’s . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2478.5.1 Constant coefficients SDE ’s . . . . . . . . . . . . . . . . . . . 2478.5.2 SDE ’s with time dependent coefficients . . . . . . . . . . . . . 248

5

Page 6: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes CONTENTS

8.5.3 SDE ’s with diffusion linear in x . . . . . . . . . . . . . . . . . 2498.5.4 SDE ’s with drift linear in x . . . . . . . . . . . . . . . . . . . 252

9 Dynamical theory of Brownian motion 2559.1 Free Brownian particle . . . . . . . . . . . . . . . . . . . . . . . . . . 2559.2 Comparison with Einstein-Smoluchowski . . . . . . . . . . . . . . . . 2589.3 Ornstein-Uhlenbeck Markovianity . . . . . . . . . . . . . . . . . . . . 2609.4 Brownian particle in a force field . . . . . . . . . . . . . . . . . . . . 2629.5 Boltzmann distribution . . . . . . . . . . . . . . . . . . . . . . . . . . 265

III Appendices 271

A Consistency (Sect. 2.3.4) 273

B Inequalities (Sect. 3.3.2) 281

C Bertrand paradox (Sect. 3.5.1) 285

D Lp spaces of r.v.’s (Sect. 4.1) 289

E Moments and cumulants (Sect. 4.2.1) 291

F Binomial limit theorems (Sect. 4.3) 295

G Non uniform point processes (Sect 6.1.1) 299

H Stochastic calculus paradoxes (Sect. 6.4.2) 301

I Pseudo-Markovian processes (Sect. 7.1.2) 307

J Fractional Brownian motion (Sect. 7.1.10) 311

K Ornstein-Uhlenbeck equations (Sect. 7.2.4) 313

L Stratonovich integral (Sect. 8.2.2) 317

Index 319

6

Page 7: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

Part I

Probability

7

Page 8: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of
Page 9: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

Chapter 1

Probability spaces

1.1 Samples

The first ideas of modern probability came (around the XVII century) from gam-bling, and we too will start from there. The simplest example is that of a flippedcoin with two possible outcomes: head (T ) and tail (C). When we say that the coinis fair we just mean that there is no reason to surmise a bias in favor of one of thesetwo results. As a consequence T and C are equiprobabile, and to make quantitativethis statement it is customary to assign a probability as a fraction of the unit sothat in our example

p = P T =1

2q = P C =

1

2

Remark that p + q = 1, meaning that with certainty (namely with probability 1)either T or C shows up, and that there are no other possible outcomes. In a similarway for a fair dice with six sides labeled as I, II, ..., V I we have

p1 = P I =1

6; . . . ; p6 = P V I =

1

6

Of course we still find p1 + ...+ p6 = 1From these examples a first idea comes to the fore: at least in the elementary

cases, we allot probabilities by simple counting, a protocol known as classical def-inition (see more later) providing the probability of some statement A about arandom experiment. For instance in a dice throw let A be “a side with an evennumber comes out”: in this case we instinctively add up the probabilities of the out-comes corresponding to A; in other words we count both the possible equiprobableresults, and the results favorable to the event A, and we assign the probability

P A =number of favorable results

number of possible results

Remark that, as before, this probability turns out to be a number between 0 and1. In short, if in a fair dice throw we take A = “a side with an even number comes

9

Page 10: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

out”, B = “a side with a multiple of 3 comes out”, and C = “a side different fromV I comes out”, a simple counting entails that, with 6 equiprobabile results, and 3,2 and 5 favorable results respectively for A,B and C, we get

P A =1

2, P B =

1

3, P C =

5

6

When instead we throw two fair dices the possible result are 36, namely the orderedpairs (n,m) with n and m taking the 6 values I, ..., V I. The fairness hypothesismeans now that the 36 elementary events (I, I) ; (I, II) ; ... ; (V I, V I) are againequiprobable so that for every pair

P I, I =1

36, P I, II =

1

36, . . . ; P V I, V I =

1

36

We then find by counting that A = “the pair (V I, V I) fails to appear” comes outwith the probability

P A =35

36From the previous discussion it follows that the probability of a random event

will be a number between 0 and 1: 1 meaning the certainty of its occurrence and 0its impossibility while the intermediate values represent all the other cases. Theseassignments also allow (at least in the simplest cases) to calculate the probabilitiesof more complicated events by counting equiprobable results. It is apparent thenthe relevance of preliminarily determining the set of all the possible results of theexperiment, but it is also clear that this direct calculation method becomes quicklyimpractical when the number of such results grows beyond a reasonable limit. Forexample, the possible sequences (without repetition) of the 52 cards of a French carddeck are

52 · 51 · 50 · ... · 2 · 1 = 52! ≃ 8 · 1067

a huge number making vain every hope of solving problems by direct counting

Definition 1.1. A sample space Ω is the set (either finite or infinite) of all thepossible results ω of an experiment

Remark that Ω is not necessarily a set of numbers: its elements can be numbers,but in general they are of an arbitrary nature. In our previous examples the samplespace Ω = ω1, ω2, . . . , ωN was finite with cardinality N : for a coin it has just twoelements

Ω = T, C ; N = 2

while for a diceΩ = I, II, . . . , V I ; N = 6

When instead our experiment consists in two coin flips (or equivalently in one flipof two coins) we have

Ω = TT, TC, CT, CC ; N = 4

10

Page 11: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

1.1 Samples

while for n flips

Ω = ω = (a1 , . . . , an) : ai = T oppure C ; N = 2n

The most relevant instances of infinite spaces on the other hand are the sets of theinteger numbers N , of the real numbers R, of the n-tuples of real numbers Rn, ofthe sequences of real numbers R∞, and finally RT the set of the real functions fromT to R. Of course in the case of finite sample spaces Ω – where we can think ofadopting the classical definition – it would be paramount to know first its cardinalityN as in the following examples

Exemple 1.2. Take a box containing M numbered (distinguishable) balls and se-quentially draw n balls by replacing them in the box after every extraction: we callit a sampling with replacement. By recording the extracted numbers we get thatthe possible results of the experiment are ω = (a1, a2, . . . an) with ai = 1, 2, . . .Mand i = 1, 2, . . . n, and possibly with repetitions. The sample spaces – the set ofour n-tuples – can now be of two kinds:

1. ordered samples (a1 , . . . , an): the samples are deemed different even justfor the order of the extracted labels and are called dispositions; for examplewith n = 4 extractions, the sample (4 , 1 , 2 , 1) is considered different from(1 , 1 , 2 , 4); it is easy to find then that the cardinality of Ω is in this case

Nd = Mn

2. non-ordered samples [a1 , . . . , an]: in this case the samples (4 , 1 , 2 , 1) and(1 , 1 , 2 , 4) coincide so that the number of the elements of Ω, called partitions,is now smaller than the previous one, and it is possible to show1 that

Nr =

(M + n− 1

n

)=

(M + n− 1)!

n! (M − 1)!

When instead we draw the balls without replacing them in the box we will have asampling without replacement. Apparently in this case the samples (a1, . . . , an)will exhibit only different labels (without repetitions), and n ≤ M because we cannot draw a number of balls larger than the initial box content. Here too we mustitemize two sample spaces:

1. ordered samples (a1 , . . . , an): the so called permutations of M objects onn places; their number is now

Np = (M)n =M !

(M − n)!= M(M − 1) . . . (M − n+ 1)

because with every draw we leave a chance less for the subsequent extractions.Remark that if n = M , we have N = M ! namely the number of the permuta-tions of M objects on M places

1A.N. Shiryaev, Probability, Springer (New York, 1996)

11

Page 12: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

2. non-ordered samples [a1 , . . . , an]: we have now the combinations of Mobjects on n places, and their number is

Nc =

(M

n

)=

M !

n!(M − n)!(1.1)

because every non-ordered sample [a1, . . . , an] allows n! permutations of itslabels (see the previous remark), and then Nc · n! = Np leading to the requiredresult

We started this section from the equiprobabile elements ω of a sample space Ω, andwent on to calculate the probabilities of more complicated instances by sums andcounting (classical definition). We also remarked however that this course of actionis rather impractical for large Ω, and is utterly inapplicabile for uncountable spaces.We will need then further ideas in order to be able to move around these obstacles

1.2 Events

We already remarked that a subset A ⊆ Ω represents a statement about the resultsof a random experiment. For instance, in the case of three coin flips the samplespace consists of N = 23 = 8 elements

Ω = TTT, TTC, . . . , CCC

and the subset

A = TTT, TTC, TCT, CTT ⊆ Ω

stands for the statement “T comes out at least twice on three flips”. In the followingwe will call events the subsets A ⊆ Ω, and we will say that the event A happens ifthe result ω of the experiment belongs to A, namely if ω ∈ A.

In short the events are a family of propositions and the operations among events(as set operations) are a model for the logical connectives among propositions. Forinstance the connectives OR and AND correspond to the operations union andintersection:

A ∪B = ω : ω ∈ A , OR ω ∈ BA ∩B = AB = ω : ω ∈ A , AND ω ∈ B .

The logical meaning of the following operators on the other hand is illustrated bythe Venn diagrams in the Figure 1.1:

A = ω : ω /∈ A ;A\B = A ∩B = ω : ω ∈ A , but ω /∈ B ;AB = (A\B) ∪ (B\A) (symmetric difference)

12

Page 13: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

1.2 Events

W

B

A

Figure 1.1: Venn diagrams

In this context of course Ω is the sure (certain) event, since every result ω belongsto Ω, while ∅ is the impossible event since no result belongs to it. We will also saythat A e B are disjoint or incompatible whenA ∩ B = ∅. It is apparent that theproperties of the set operations replicate the properties of the logical operations asfor instance in the identities

A ∩B = A ∪B ; A ∪B = A ∩B

known as de Morgan laws. As a consequence for two coin flips, from the events

A = TT, TC, CT = T comes out at least onceB = TC, CT, CC = C comes out at least once

we can produce other events as for example

A ∪B = TT, TC, CT, CC = Ω , A ∩B = TC, CT , A\B = TT

We should remark at once, however, that our family of events in Ω will not necessarilycoincide with the collection ℘(Ω) of all the subsets of Ω. Typically we choose aparticular sub-collection of parts of Ω, as for instance when Ω = R since ℘(R)would include also pathological sets that are practically irrelevant. Only when Ω isfinite ℘(Ω) will be the best selection. In any case, when we define a probabilisticmodel, me must first select a suitable family of events, and we must stop herefor an instant to ask if we can pick up an arbitrary family or not. In fact, since werequire that the set operations among events (logical operations among propositions)produce again acknowledged events, we should also require that our family of eventsbe closed under all the possible et operations

13

Page 14: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

Definition 1.3. A non empty family F ⊆ ℘(Ω) of parts of Ω is an algebra when

Ω ∈ FA ∈ F , ∀A ∈ FA ∩B ∈ F , ∀A,B ∈ F

Moreover F is a σ-algebra if it is an algebra and also meets the further condition∩n

An ∈ F ∀ (An)n∈N of elements of F

Proposition 1.4. If F is a σ-algebra, then

∅ ∈ FA ∪B ∈ F ∀A,B ∈ FA\B ∈ F ∀A,B ∈ F∪n

An ∈ F ∀ (An)n∈N of elements of F

Proof: Omitted2

In short a σ-algebra is a family of parts of Ω closed under finite or countable setoperations, but not necessarily under uncountable operations on event collections(At)t∈T where T is uncountable. From now on we will always suppose that our eventsconstitute a σ-algebra F , and we will also call probabilizable space every pair(Ω,F) where F is a σ-algebra of events of Ω. For a given Ω the simplest examplesof σ-algebras are

F∗ = ∅,Ω ,FA = A,A, ∅,Ω , (A ⊆ Ω) ,F∗ = ℘(Ω) .

In particular the σ-algebra FA is called σ-algebra generated by A and can begeneralized as follows: for a given family E ⊆ ℘(Ω) of parts of Ω, we will callσ-algebra generated by E the smallest σ-algebra σ(E) containing E

Proposition 1.5. Given a family E ⊆ ℘(Ω) of parts Ω, the σ-algebra σ(E) generatedby E always exists

Proof: Omitted3

Definition 1.6. A (finite or countable) family of subsets D = D1, D2 . . . is calleda decomposition of Ω in the atoms Dk, if the Dk are non empty, disjoint partsof Ω such that

∪k Dk = Ω.

2A.N. Shiryaev, Probability, Springer (New York, 1996)3A.N. Shiryaev, Probability, Springer (New York, 1996)

14

Page 15: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

1.2 Events

The decompositions are indeed families of events such that always one, and only oneof them occurs, and hence are the models of mutually exclusive events that exhaustall possibilities. Apparently, however, a decomposition is neither a σ-algebra, noran algebra: it does not contain, for one thing, the unions of atoms. However, basedon the Proposition 1.5, from a decomposition D we will always be able to providethe generated σ-algebra F = σ(D), the simplest example being the decomposition

DA = A,A

supplying the generated σ-algebra FA

Exemple 1.7. We will now quickly discuss a few examples of relevant σ-algebras4:

1. When Ω coincides with the set R of real numbers take first the family I of(both bounded and unbounded) right-closed intervals

I = (a, b], −∞ ≤ a < b ≤ +∞

namely intervals of the type

(a, b], (−∞, b], (a,+∞), (−∞,+∞)

with a, b ∈ R (right-unbounded intervals will conventionally considered right-closed). Since interval unions are not in general intervals, I is neither aσ-algebra, nor an algebra. Dropping the analytical details, take then the σ-algebra generated by I denoted as B(R), and called Borel σ-algebra of R,while its elements will be called Borel sets of R. The σ-algebra B(R) containsall the R subsets of the type

∅, a, [a, b], [a, b), (a, b], (a, b), R

along with their (both countable and uncountable) unions and intersections. Asa matter of fact the same σ-algebra can be generated by different families ofsubsets, notably by that of the open sets of R. The corresponding probabilizablespace will denoted as

(R, B(R))

2. Consider now the case Ω = Rn of the Cartesian product of n real lines: itselements will now be the n-tuples of real numbers ω = x = x1, x2, . . . , xn.As in the previous example, here too there are several equivalent procedures toproduce a suitable σ-algebra that can consequently be seen as generated by theopen sets of Rn: this too will be called Borel σ-algebra of Rn and will bedenoted as B(Rn), so that the probabilizable space will be

(Rn, B(Rn))

4A.N. Shiryaev, Probability, Springer (New York, 1996)

15

Page 16: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

3. If (Rn)n∈N is a sequence of real lines, the Cartesian product R∞ = R1× . . .×Rn× . . . will be the set of the sequences of real numbers with ω = x = (xn)n∈N .In this case we start from the subsets of R∞ called cylinders and consistingof the sequences (xn)n∈N such that a finite number m of their components– say (xn1 , xn2 , ..., xnm) – belong to a Borel set B ∈ B(Rm) called cylinderbase. Since these bases are finite-dimensional, from the results of the previousexamples it is possible to produce cylinder families that generate a σ-algebra de-noted as B(R∞) and again called Borel σ-algebra of R∞. The correspondingprobabilizable space then is

(R∞, B(R∞))

and it is possible to show that the all following subsets belong to B(R∞)

x ∈ R∞ : supn

xn > a , x ∈ R∞ : infnxn < a ,

x ∈ R∞ : limn

xn ≤ a , x ∈ R∞ : limn

xn > a ,

x ∈ R∞ : x converges , x ∈ R∞ : limn

xn > a ,

4. Take finally the set RT of the functions defined on a (generally uncount-able) subset T of R, and denote its elements ω in one of the following ways:x, x( · ), x(t), (xt)t∈T . Following the previous procedures, consider first thecylinders with (finite- or at most countably infinite-dimensional) base B: theseconsists of the functions that in a (at most countable) set of points tj take val-ues belonging B. Build then the σ-algebra generated by such cylinders, denotedB(RT ), and take (

RT , B(RT ))

as the probabilizable space. It is possible to prove, however, that B(RT ) exactlycoincides with the set of cylinders with finite- or at most countably infinite-dimensional bases, namely with the family of parts of RT singled out throughrestrictions on (xt)t∈T on an at most countable set of points tj. As a conse-quence several RT subsets – looking at the behavior of (xt)t∈T in an uncountableset of points t – do not belong to B(RT ): for example, with T = [0, 1], the sets(all relevant for our purposes)

A1 =x ∈ R[0,1] : sup

t∈[0,1]xt < a, a ∈ R

A2 =

x ∈ R[0,1] : ∃ t ∈ [0, 1] ∋′ xt = 0

A3 =

x ∈ R[0,1] : xt is continuous in t0 ∈ [0, 1]

do not belong to B(R[0,1]). In order to circumvent this hurdle it is customaryto restrict our starting set RT . For instance a suitable σ-algebra B(C) can beassembled beginning with the set C of the continuous functions x(t): in sodoing the previous subsets A1, A2 ed A3 all will turn out to belong to B(C).We will neglect however the details of this approach5

5A.N. Shiryaev, Probability, Springer (New York, 1996)

16

Page 17: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

1.3 Probability

1.3 Probability

For finite probabilizable spaces (Ω,F), with Ω of cardinality N , a probability can bedefined by attributing a number p(ωk) at every ωk ∈ Ω so that

0 ≤ p(ωk) ≤ 1 , k = 1, . . . , N ;N∑k=1

p(ωk) = 1

The probability of an event A ∈ F then is

P A =∑ωk∈A

p(ωk)

In this case the triple (Ω, F , P ) is called a finite probability space. We will delayto the general setting a discussion of the usual properties of such a probability, forinstance

P ∅ = 0

P Ω = 1

P A ∪B = P A+ P B if A ∩B = ∅ (additivity)

PA

= 1− P AP A ≤ P B if A ⊆ B

This definition can be extended (with some care about the convergence) to a count-able Ω, but we must also remark that in every case the choice of the numbers p(ωk)is not always a straightforward deal. The procedures to deduce the p(ωk) from theempirical data would constitute the mission of the statistics that we will touchhere only in passing, while for our examples we will adopt the classical definitionalready mentioned in the Section 1.1: we first reduce ourselves to some finite samplespace of N equiprobable elements so that at every ωk a probability p(ωk) = 1/N isallotted, and then, if N(A) is the number of samples belonging to A ∈ F , we take

P A =N(A)

N

Exemple 1.8. Coincidence problem: From a box containing M numbered ballsdraw with replacement an ordered sequence of n balls and record their numbers. Weshowed in the Section 1.1 that the sample space Ω consists of N = Mn equiprobableelements ω = (a1, . . . , an). If then

A = ω : the ak are all different

and since by simple enumeration it is

N(A) = M (M − 1) . . . (M − n+ 1) = (M)n =M !

(M − n)!

17

Page 18: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

from the classical definition we apparently have

P A =(M)nMn

=

(1− 1

M

) (1− 2

M

). . .

(1− n− 1

M

).

This result can be interpreted as a birthdays problem: for n given persons what isthe probability Pn that at least two birthdays coincide? We take the ordered samples– because every different arrangement of the birthdays on n distinguishable personsis a different result – and an answer can be found from the previous discussion withM = 365. If indeed P A is the probability that alle the birthdays differ, it is

Pn = 1− P A = 1− (365)n365n

giving rise to the rather striking results

n 4 16 22 23 40 64Pn 0.016 0.284 0.467 0.507 0.891 0.997

It is unexpected indeed that already for n = 23 the coincidence probability exceeds1/2, and that for just 64 people this event is almost sure. Remark in particularthat when n ≥ 366 apparently we have P A = 0 (namely Pn = 1) because a zerofactor appears in the product: this agrees with the fact that for more than 365 peoplewe surely have coincidences. On the other hand these results are less striking if wecompare them with that of slightly different question: “if I am one of the n persons ofthe previous problem, what is the probability P ′

n that at least one birthday coincideswith my birthday?” In this case N(A) = 365 · 364n−1 and hence

P ′n = 1−

(364

365

)n−1

so that now

n 4 16 22 23 40 64 101P ′n 0.011 0.040 0.056 0.059 0.101 0.159 0.240

while P ′n never coincides with 1 (even for n ≥ 366) since, irrespective of the number

of people, it is always possible that no birthday coincides with my birthday

Finite or countable probability models soon become inadequate because samplespaces often are uncountable: it is easy to check for instance that even the wellknown set of all the T -C infinite sequences of coin flips is uncountable. In thesesituations a probability can not be defined by preliminarily attributing numericalweights to the individual elements of Ω. If indeed we would allot non zero weightsp(ω) > 0 to the elements of an uncountable set, the condition

∑ω∈Ω p(ω) = 1 < +∞

could never be satisfied, and no coherent probability could be defined on this basis.In short, for the general case, a definition of P A can not be given by simpleenumeration as in the finite (or countable) examples, but it needs the new conceptof set measure that we will now introduce

18

Page 19: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

1.3 Probability

Definition 1.9. Given a σ-algebra F of parts of a set Ω, we call measure on Fevery σ-additive map µ : F → [0,+∞], namely a map such that for every sequence(An)n∈N of disjoint elements of F it is

µ∪

n

An

=∑n

µAn

We say moreover that µ is a finite measure se µΩ < +∞, and that it is a σ-finite measure if Ω is decomposable in the union Ω =

∪n An, An ∈ F of disjoint

sets with µAn < +∞, ∀n ∈ N . A finite measure P with P Ω = 1 is called aprobability measure.

Definition 1.10. We say that a statement holds P -almost surely (P -a.s.) if itholds for every ω ∈ Ω, but for a set of P -measure zero

Of course for every A ∈ F we always have µA ≤ µΩ because µ is additive andpositive, and Ω = A ∪A. This entails in particular that if µ is finite we will alwayshave µA < +∞. Remark that a finite measure is always σ-finite, but the conversedoes not hold: for example the usual Lebesgue measure on the real line, whichattributes the measure |b− a| to every interval [a, b], apparently is σ-finite, but notfinite

Proposition 1.11. Given a probability measure P : F → [0, 1], the following prop-erties hold:

1. P ∅ = 0

2. P A\B = P A − P AB , ∀A,B ∈ F

3. P A ∪B = P A+ P B − P AB , ∀A,B ∈ F

4. P AB = P A+ P B − 2P AB , ∀A,B ∈ F

5. P B ≤ P A se B ⊆ A , con A,B ∈ F

6. P ∪

n An ≤∑

n P An , for every sequence of events (An)n∈N

The last property is also known as subadditivity

Proof: Omitted6

Definition 1.12. Kolmogorov axioms: We call probability space every orderedtriple (Ω,F ,P ) where Ω is a set of elements ω also said sample space, F is a σ-algebra of events of Ω, and P is a probability measure on F

6A.N. Shiryaev, Probability, Springer (New York, 1996)

19

Page 20: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

Remark that a event of probability 0 is not necessarily the empty set ∅, while an eventof probability 1 not necessarily coincides with Ω. This is relevant – as we will see later– foremost for uncountable spaces, but even for finite spaces it can be useful give zeroprobability to some sample ω, instead of making Ω less symmetric by eliminatingsuch samples. For instance it is often important to change the probability P onthe same Ω, and in so doing the probability of some ω could vanish: it would bepreposterous, however, to change Ω by eliminating these ω, and we choose in generalto keep them, albeit with 0 probability. An important case of change of probabilityis discussed in the next section

1.4 Conditional probability

Definition 1.13. Given a probability space (Ω,F ,P ) ad two events A,B ∈ F withP B = 0, we will call conditional probability of A w.r.t. B

P A|B ≡ P A ∩BP B

=P ABP B

while P AB takes the name of joint probability of A and B

Remark that for the time being the requirement P B = 0 is crucial to havea coherent definition: we postpone to the Section 3.4 its extension to the caseP B = 0. Anyhow the new map P · |B : F → [0, 1] is again a probability with

P ∅|B = 0 P Ω|B = P B|B = 1 PA|B

= 1− P A|B

P A1 ∪ A2|B = P A1|B+ P A2|B if A1 ∩ A2 = ∅

and so on, so that in fact (Ω,F ,P · |B) is a new probability space

Proposition 1.14. Total probability formula: Given (Ω,F ,P ), an event A ∈ Fand a decomposition D = D1, . . . , Dn with P Dj = 0, j = 1, . . . , n we get

P A =n∑

j=1

P A|Dj P Dj

Proof: Since

A = A ∩ Ω = A ∩

(n∪

j=1

Dj

)=

n∪j=1

(A ∩Dj)

it is enough to remark that the events A ∩Dj are disjoint to have

P A = P

n∪

j=1

(A ∩Dj)

=

n∑j=1

P A ∩Dj =n∑

j=1

P A|Dj P Dj

because P is additive

20

Page 21: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

1.4 Conditional probability

In particular, when D = B, B the total probability formula just becomes

P A = P A|B P B+ PA|B

PB

(1.2)

a form that will be used in the next example

Exemple 1.15. Consecutive draws: Take a box with M balls: m are white andM −m black. Draw now sequentially two balls: neglecting the details of a suitableprobability space, consider the two events

B = “the first ball is white”

A = “the second ball is white”

We will suppose our balls all equiprobable in order to make use of the classicaldefinition. If then the first draw is with replacement, it is apparent that P A =P B = m

M. If on the other hand the first draw is without replacement, and if we

find the first ball white (namely: if B happens), the probability of A would be m−1M−1

;

while if the first ball is black (namely: if B happens) we would have mM−1

. In a thirdexperiment let us draw now consecutively, and without replacement, two balls, andwithout looking at the first let us calculate the probability that the second is whitenamely the probability of A. From our opening remarks we know that

P B =m

MPB=

M −m

M

P A|B =m− 1

M − 1PA|B

=

m

M − 1

so that from the Total probability formula (1.2) we get

P A =m− 1

M − 1

m

M+

m

M − 1

M −m

M=

m

M= P B

In short the probability of A depends on the available information: if we draw withoutreplacement the first outcome affects the probability of the second, and hence P A|Bdiffers from P

A|B

, and both differ from P B. If instead the first outcome is

unknown, we again get P A = P B = mM

as if we had replaced the first ball

Proposition 1.16. Multiplication formula: Given (Ω,F ,P ) and the eventsA1, . . . , An with P A1 . . . An−1 = 0, it is

P A1 . . . An = P An|An−1 . . . A1P An−1|An−2 . . . A1 . . .P A2|A1P A1

Proof: From the definition of conditional probability we have indeed

P An|An−1 . . . A1 P An−1|An−2 . . . A1 . . . P A2|A1 P A1

=P A1 . . . AnP A1 . . . An−1

P A1 . . . An−1P A1 . . . An−2

. . .P A1A2P A1

P A1 = P A1 . . . An

This Multiplication formula is very general and will play a role in the discussion ofthe Markov property in the second part of these lectures

21

Page 22: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

Proposition 1.17. Bayes theorem: Given (Ω,F ,P ) and two events A,B withP A = 0 and P B = 0, it is

P A|B =P B|AP A

P B

If moreover D = D1, . . . , Dn is a decomposition with P Dj = 0, j = 1, . . . , n,we also have

P Dj|B =P B|DjP Dj∑nk=1P B|DkP Dk

Proof: The first statement (also called Bayes formula) again follows from thedefinition of conditional probability because

P B|AP A = P AB = P A|BP B

The second statement then follows from the first and from the theorem of Totalprobability

In the statistical applications the events Dj are called (mutually exclusive and ex-haustive) hypotheses and P Dj their a priori probability, while the conditionalprobabilities P Dj|B take the name of a posteriori probabilities. As we will seein a forthcoming example of the Section 2.1.2, these names originate from the factthat the occurrence of the event B alters the probabilities initially given to thehypotheses Dj

1.5 Independent events

Two events are independent when the occurrence of one of them does not affect theprobability of the other. By taking advantage, then, of our definition of conditionalprobability we could say that A is independent from B if P A|B = P A, andhence if P AB = P AP B. The plus of this second statement w.r.t. thatbased on conditioning is that it holds even when P B = 0. From the symmetryof these equations, moreover, it is easy to see that if A is independent from B, eventhe converse holds

Definition 1.18. Given (Ω,F ,P ), we say that A and B are independent eventswhen

P AB = P AP B

We also say that two σ-algebras F1 e F2 of events (more precisely: two sub-σ-algebras of F) are independent σ-algebras if every event of F1 is independentfrom every event of F2.

This notion of independence can be also extended to more than two events, but wemust pay attention first to the fact that for an arbitrary number of events A,B,C, . . .

22

Page 23: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

1.5 Independent events

we can speak of pairwise independence, namely P AB = P AP B, but alsoof three by three independence, namely P ABC = P AP BP C, and so on,and then, and above all, to the circumstance that such independence levels do notimply each other: for instance three events can be pairwise independent withoutbeing so three by three, and also the converse holds. We are then obliged to extendour definition in the following way

Definition 1.19. Given (Ω,F ,P ) we say that A1, . . . , An ∈ F are independentevents if however taken k indices j1, . . . , jk (with k = 2, . . . , n) we have

P Aj1 . . . Ajk = P Aj1 . . . P Ajk

namely when they are independent pairwise, three by three, . . . , n by n in everypossible way

The notion of independence is contingent on the probability P · : the same eventscan be either dependent or independent according to the chosen P · . This isapparent in particular when we introduce also the idea of conditional independencethat allows to compare the independence under the two different probabilities P · and P · |D

Definition 1.20. Given (Ω,F ,P ), we say that two events A and B are condi-tionally independent w.r.t. D when

P AB|D = P A|DP B|D

if D ∈ F is such that P D = 0

It would be possible to show with a few examples – that we neglect – that Aand B, dependent under a probability P , could be made conditionally independentw.r.t. some other event D. Even the notion of conditional independence will beinstrumental in the discussion of the Markov property in the second part of theselectures

23

Page 24: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

24

Page 25: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

Chapter 2

Probability measures

2.1 Probability on N

2.1.1 Finite and countable spaces

We will explore now the protocols used to define on (Ω,F) a probability P alsocalled either law or distribution, and we will start with finite or countable spacesso that P will be defined in an elementary way

Exemple 2.1. Binomial distributions: An example of finite sample space is theset of the first n + 1 integer numbers Ωn = 0, 1, . . . , n (with the σ-algebra ℘(Ωn)of all its subsets): given then a number p ∈ [0, 1], with q = 1− p, we can define a Pby first attributing to every ω = k the probability

pn(k) =

(n

k

)pk qn−k k = 0, 1, . . . , n (2.1)

and then by taking

P B =∑k∈B

pn(k) (2.2)

as the probability of B ⊆ Ωn. It would be easy to check that such a P is σ-additive,that its values lie in [0, 1], and finally that

P Ωn =n∑

k=0

pn(k) =n∑

k=0

(n

k

)pk qn−k = (p+ q)n = 1 (2.3)

The numbers pn(k) (n = 1, 2, . . . and p ∈ [0, 1]) are called binomial distribution,and we will denote them as B (n; p). The case B (1; p) on Ω1 = 0, 1 with

p1(1) = p p1(0) = q = 1− p

is also called Bernoulli distribution. The bar diagram of a typical binomialdistribution is displayed in the Figure 2.1 for two different values of p. The meaningof these laws, and their link with experiments of ball drawing from urns will bediscussed in the Section 2.1.2.

25

Page 26: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

p = 13

0 1 2 3 nk

0.1

0.2

pnHkL

p = 12

0 1 2 3 nk

0.1

0.2

pnHkL

Figure 2.1: Bar diagrams of binomial distributions B (n; p).

Exemple 2.2. Poisson distributions: By going now to the countable set of theintegers Ω = N = 0, 1, 2, . . ., with F = ℘(N ), we again start by allotting to everyω = k ∈ N the probability

P ω = pα(k) = e−ααk

k!α > 0 (2.4)

and then we define the probability of A ∈ F as

P A =∑k∈A

pα(k)

Positivity and additivity are readily checked, while the normalization follows from

P Ω =∑k∈N

e−ααk

k!= e−α

∑k∈N

αk

k!= e−αeα = 1

The probabilities (2.4) (which are non-zero for every k = 0, 1, 2, . . .) are called Pois-son distribution and are globally denoted as P(α). For the time being the param-eter α > 0 and the formula (2.4) itself are arbitrarily taken: their meaning will bemade clear in the Section 4.5, where it will be also shown that the results of theseprobability spaces are typically obtained by counting, for instance, the number of par-ticles emitted by a radioactive sample in 5 minutes, or the number of phone calls ata call center in one hour, and so on. Examples of Poisson distributions for differentα values are on display in the Figure 2.2

2.1.2 Bernoulli trials

The binomial distribution in Example 2.1 is defined without a reference to somefactual problem, so that in particular the allotment of the probabilities pn(k) looks

26

Page 27: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

2.1 Probability on N

Α = 3

0 1 2 3k

0.1

0.2

pΑ HkL

Α = 8

0 1 2 3k

0.1

0.2

pΑ HkL

Figure 2.2: Bar diagrams of Poisson distributions P(α).

rather unmotivated, albeit coherent. To find an empirical model for B (n; p) taken drawings with replacement from a box containing black and white balls, andthe sample space Ω consisting of all the possible ordered n-tuples of results. It iscustomary to encode the outcomes by numbers – 1 for white, and 0 for black – sothat our samples will be ordered n-tuples of 0 -1 symbols

ω = (a1 , . . . an) ai = 0, 1; i = 1 , . . . , n (2.5)

with the family of all the subsets ℘(Ω) as σ-algebra of the events. Give now to everyω = (a1 , . . . an) the probability

P ω = pkqn−k (2.6)

where k =∑

i ai is the number of white balls in ω, p ∈ [0, 1] is arbitrary, q = 1− p,and finally define the probability of the events A ∈ F as

P A =∑ω∈A

P ω (2.7)

The definitions (2.6) and (2.6) are again unmotivated, and we will devote the fol-lowing remarks to make clear their meaning. First it is easy to see that P as definedin (2.7) is positive and additive. To check then its normalization P Ω = 1 it isexpedient to consider the n+ 1 events

Dk = “there are k white balls among the n outcomes”

=

ω ∈ Ω :

n∑i=1

ai = k

k = 0, . . . , n (2.8)

which apparently constitute a decomposition D of Ω, and to calculate their proba-bilities P Dk

27

Page 28: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

Proposition 2.3. The probabilities P Dk for the decomposition D in (2.8) coin-cide with the pn(k) of the binomial distribution B (n; p)

Proof: Since the k symbols 1 in a sample ω ∈ Dk can be placed in several differentways on the n available positions without changing the probability, every Dk willbe constituted of a certain number – say nk – of equiprobable samples each withprobability P ω = pkqn−k, so that

P Dk =∑ω∈Dk

P ω = nk pk qn−k

We are left then with the problem of finding nk: for a given k =∑

i ai every sampleω = (a1 . . . an) is uniquely identified by a set of occupation numbers [b1 , . . . bk]labeling the positions of the k symbols 1 on the n places of ω; for example, withn = 7

ω = (0, 1, 1, 0, 0, 1, 0) ↔ [2, 3, 6]

Apparently the ordering in [b1 , . . . bk] is immaterial (in our example both [2, 3, 6]and [3, 6, 2] denote the same 7-tuple with a symbol 1 at the 2nd, 3rd e 6th place);moreover the bj values are all different, and hence nk will be the number of all thepossible non ordered k-tuples, without repetitions [b1 , . . . bk] where every bj takesthe values 1, 2, . . . n. From (1.1) we then have that

nk =

(n

k

)P Dk = pn(k) =

(n

k

)pkqn−k

As a consequence the pn(k) of a binomial distribution B (n; p) are the probabilitiesP Dk of the events Dk in the sample space Ω of n drawings, with a P defined asin (2.6) and (2.7)

We are now also able to check the coherence of the definition (2.6) because, fromthe additivity of P and from (2.3), we have

P Ω = P

n∪

k=0

Dk

=

n∑k=0

P Dk =n∑

k=0

pn(k) = 1

Finally, to make the meaning of p ∈ [0, 1] and of (2.6) more apparent, take, forj = 1, . . . , n, the events

Aj = “a white ball comes out at the jth draw” = ω ∈ Ω : aj = 1

while Aj corresponds to a black ball at the jth draw. At variance with the Dk,however, the events Aj are not disjoint (we can find white balls in different draws)so that they are not a decomposition of Ω

28

Page 29: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

2.1 Probability on N

Proposition 2.4. The numbers p ∈ [0, 1] and q = 1− p respectively are the proba-bilities of finding a white and a black ball in every single draw, namely

P Aj = p , PAj

= q = 1− p

Regardless of the value of p, moreover, the events Aj are all mutually independentw.r.t. the P defined in (2.6), and this elucidates the meaning of this definition

Proof: For the sake of brevity we will neglect a complete discussion1 and we willconfine ourselves to a few remarks. For n = 1 (just one draw) we have Ω = Ω1 =0, 1 and from (2.6) we get

P A1 = P 1 = p PA1

= P 0 = q = 1− p

so that p comes out to be the probability of finding a white ball in one single draw,and we will neglect to show that this is so even for every single draw in a sequence.On thew other hand a little algebra, omitted again, would show that for j = ℓ it is

P AjAℓ = p2 PAjAℓ

= pq P

AjAℓ

= q2

so that the events Aj, Ak, together with their complements, are independent w.r.t.P defined in (2.7). This remark can also be extended to three or more events.Finally, since every ω ∈ Ω is the intersection of k events Aj with n − k events Aℓ,apparently the choice (2.6) for the probability of ω has been made exactly in viewof their independence

In short our space (Ω,F ,P ), with P defined as in (2.6), is a model for n indepen-dent verification trials of the event: “a white ball comes out”, while the pn(k) of abinomial distribution B (n; p) are the probabilities of finding k white balls among nindependent draws with replacement. Of course drawing balls from an urn is justan example, and the same model also fits n independent verification trials of anarbitrary event A which occurs with probability p in every trial. The 0 -1 randomexperiments of this model are also known as Bernoulli trials and their corre-sponding probability space is an example of direct product: given n replicas ofthe space describing a single draw with Ω1 = 0, 1, F1 = 1, 0,Ω1, ∅ and P1 aBernoulli distribution B (1; p)

P11 = p , P10 = 1− p

the direct product has the Cartesian product Ω = Ω1× . . .×Ω1 of the n-tuples of 0-1 symbols as sample space, the family of all its parts as σ-algebra F of the events,and a probability P defined by (2.7) taking for every sample the product

P ω = P1a1 · . . . · P1an = pkqn−k k =n∑

j=1

aj

This product probability is not a compulsory choice, but uniquely corresponds to theindependence of the trials

1A.N. Shiryaev, Probability, Springer (New York, 1996)

29

Page 30: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

Exemple 2.5. An application of the Bayes theorem: As foretold at the endof the Section 1.4 we are able now to discuss a statistical application of the Bayestheorem (Proposizione 1.17). Within the notations of the Section 1.4, take twoexternally identical boxes D1 e D2 with black and white balls in different proportions:the fraction of white balls in D1 is

1/2, while that in D2 is2/3. We can not look into

the boxes, but it is allowed to sample their content with replacement. Choose then abox and ask which one has been taken. Apparently D = D1, D2 is a decompositionand, lacking further information, the two events must be deemed equiprobable namely

P D1 = P D2 =1

2

To know better, however, we can draw a few balls: a large number of white balls, forexample, would hint toward D2, and vice versa in the opposite case. The Bayes the-orem provides now the means to make quantitative these so far qualitative remarks.Suppose for instance to perform n = 10 drawings with replacement from the chosenbox, finding k = 4 white, and n− k = 6 black balls, namely that the event

B = “among the n = 10 drawn out balls k = 4 are white”

occurs. According to the two possible urns D1 e D2, the probabilities of B arerespectively the binomial distributions B

(10; 1

2

)and B

(10; 2

3

), namely

P B|D1 =

(10

4

) (1/2)4 ( 1/2

)10−4=

(10

4

)1

210

P B|D2 =

(10

4

) (2/3)4 ( 2/3

)10−4=

(10

4

)24

310

and hence from the Bayes theorem we get

P D1|B =P B|D1 P D1

P B|D1 P D1+ P B|D2 P D2=

1210

1210

+ 24

310

=310

310 + 214= 0.783

P D2|B =214

310 + 214= 0.217

Predictably the relatively small number of white balls hints toward D1, but now wehave a precise quantitative estimate of its probability. Of course further drawingswould change this result, but intuitively these oscillations should stabilize for a largenumber of trials

Exemple 2.6. Multinomial distribution: The Binomial distribution discussedin the Example 2.1 can be generalized by supposing a sample space Ω still madeof ordered n-tuples ω = (a1, . . . , an), but for the fact that now the symbols aj can

30

Page 31: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

2.2 Probability on R

take r + 1 (con r ≥ 1) values b0, b1 , . . . , br instead of just two. For instance wecan think of drawing with replacement n balls from a box containing balls of r + 1different colors, but even here it is expedient to label the r+1 colors with the numbers0, 1, 2, . . . , r. Suppose now that ki, i = 0, 1, . . . , r is the number of balls that in agiven sample ω take the color bi, and start by attributing to ω the probability

P ω = pk00 pk11 · . . . · pkrr

where k0 + k1 + . . . + kr = n, while p0, p1, . . . , pr are r + 1 arbitrary, non negativenumbers such that p0 + p1 + . . .+ pr = 1. Given then the events

Dk1...kr = “among the n balls we find k0 times b0, k1 times b1, . . . , kr times br”

it is possible to prove that they are a decomposition of Ω, and that each contains(n

k1, . . . , kr

)=

n!

k0! k1! . . . kr!

equiprobable samples ω, so that finally

P Dk1...kr = pn(k1, . . . , kr) =

(n

k1, . . . , kr

)pk00 pk11 · . . . · pkrr (2.9)

The set of these probabilities takes the name of multinomial distribution andis denoted with the symbol B (n; p1, . . . , pr). This is a new family of distributionsclassified by the number n of draws, and by the non negative numbers pi ∈ [0, 1], withp0+p1+ . . .+pr = 1, which are the probabilities of finding bi in every single drawing.Remark that the binomial distribution B (n; p) is the particular case with r = 1: inthis instance p1 and p0 are usually labeled p e q, while k1 = k and k0 = n− k

2.2 Probability on R

To analyze how to define a probability on uncountable spaces we will start with(R, B(R)), by remarking at once that the distributions studied in the previousSection 2.1 will constitute the particular case of the discrete distributions

2.2.1 Cumulative distribution functions

Suppose first that somehow a probability P is defined on (R, B(R)) and take

F (x) = P (−∞, x] ∀x ∈ R (2.10)

Proposition 2.7. The function F (x) defined in (2.10) has the following properties

1. F (x) is non decreasing

31

Page 32: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

2. F (+∞) = 1 , F (−∞) = 0

3. F (x) is right continuous with left limits ∀x ∈ R (cadlag); moreover it isoutright continuous if and only if (iff) P x = 0

Proof: The properties 1 and 2 easily result from (2.10). As for 3, remark that amonotone and bounded F (x) always admits the right and left limits F (x+) for everyx ∈ R. Take now a monotone sequence (xn)n∈N such that xn ↓ x from right: since(−∞, xn] → (−∞, x] the continuity of the probability2 will then entail that

F (x+) = limn

F (xn) = limn

P (−∞, xn] = P (−∞, x] = F (x)

so that F (x) is right continuous. The same can not be said, instead, if xn ↑ x fromleft, because now (−∞, xn] → (−∞, x) and hence

F (x−) = limn

F (xn) = limn

P (−∞, xn] = P (−∞, x) = F (x)

Being however (−∞, x] = (−∞, x) ∪ x, we in general get

F (x) = P (−∞, x] = P (−∞, x)+ P x = F (x−) + P x

namely F (x−) = F (x) − P x, so that F (x) would be also left continuous, andhence outright continuous, iff P x = 0

The previous result entail in particular that P x can be non zero iff F (x) isdiscontinuous in x, and in this case

P x = F (x)− F (x−) = F (x+)− F (x−) (2.11)

Moreover, since (−∞, b] = (−∞, a] ∪ (a, b], from the additivity of P we also have

P (−∞, b] = P (−∞, a]+ P (a, b]

and henceP (a, b] = F (b)− F (a) (2.12)

for every −∞ ≤ a < b ≤ +∞

Definition 2.8. We call (cumulative) distribution function ( c.d.f.) on Revery F (x) satisfying 1, 2 and 3

The previous discussion shows that at every P on (R, B(R)) it is always joined ac.d.f. F (x). The subsequent theorem then points out that the reverse is also true:every c.d.f. on R always defines a probability P on (R, B(R)) such that (2.12)holds

2A.N. Shiryaev, Probability, Springer (New York, 1996)

32

Page 33: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

2.2 Probability on R

Theorem 2.9. Given a c.d.f. F (x) on R, there is always one and only one proba-bility P on (R, B(R)) such that

P (a, b] = F (b)− F (a)

for every −∞ ≤ a < b ≤ +∞.

Proof: Omitted3

There is then a one-to-one correspondence between the laws P on (R, B(R)) andthe c.d.f. F (x) on R, so that a probability on (R, B(R)) is well defined iff weknow its c.d.f. F (x). Since, however, in the following we will make use of measureson (R, B(R)) that are not finite (for instance the Lebesgue measure) it will beexpedient to slightly generalize our framework

Definition 2.10. We say that µ is a Lebesgue-Stieltjes (L-S) measure on(R, B(R)) if it is σ-additive, and µB < +∞ for every bounded B. We also callgeneralized distribution function on R ( g.c.d.f.) every G(x) on R satisfyingthe properties 1 and 3, but not in general 2

It is possible to show that, if µ is a L-S measure on (R, B(R)), the function G(x)defined, but for an additive constant, by

G(y)−G(x) = µ(x, y] , x < y

is a g.c.d.f., while the subsequent theorem encodes the revers statement that toevery g.c.d.f. G(x) we can always associate a unique L-S measure

Theorem 2.11. Given a g.c.d.f. G(x) on R, there is always one and only one L-Smeasure µ on (R, B(R)) such that

µ(a, b ] = G(b)−G(a)

for every −∞ ≤ a < b ≤ +∞.

Proof: Omitted4

It is apparent that a g.c.d.f. G(x) complies with the same properties of a c.d.f.but for 2, so that G(x) can also takenegative and larger thant 1 values, and itsasymptotic behavior for x → ±∞ can be not bounded. well known example ofthese measures is the Lebesgue measure on R, namely the σ-finite measure λthat to every interval (a, b] ∈ B(R) assign the measure λ(a, b ] = b − a: in thiscase the g.c.d.f. simply is

G(x) = x

3A.N. Shiryaev, Probability, Springer (New York, 1996)4A.N. Shiryaev, Probability, Springer (New York, 1996)

33

Page 34: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

p

-1 0 1 2 3x

0.2

0.4

0.6

0.8

1.0

FHxL

-1 0 1 2 nx

0.2

0.4

0.6

0.8

1.0

FHxL

Figure 2.3: c.d.f. of a Bernoulli B(1, p) and of a binomial distribution B(n, p).

2.2.2 Discrete distributions

Definition 2.12. We say that a probability P is a discrete distribution on(R, B(R)) if its c.d.f. F (x) is piecewise constant, and discontinuously change itsvalue in a (finite or countable) set of points x1, x2, . . . where it is F (xi)−F (x−

i ) > 0.

La c.d.f. di una legge discreta, dunque, presenta un tipico andamento a scala (vediad esempio la Figura 2.3) dal quale si deduce subito che P (a, b ] = 0 se (a, b] noncontiene nessuno dei punti di discontinuita xi, mentre in generale si ha

P (a, b ] =∑

xi∈(a,b]

[F (xi)− F (x−

i )]= F (b)− F (a)

As already remarked we find P x = 0 wherever F (x) is continuous, and pi =P xi = F (xi)−F (x−

i ) where F (x) makes jumps. As a consequence the probabilityP happens to be concentrated in the (at most) countably many points x1, x2, . . .and is well defined by giving these points and the numbers p1, p2, . . . which also arenamed discrete distribution. The examples of finite and countable probabilityspaces discussed in the Section 2.1 are particular discrete distributions where xk = kare integer numbers. The main difference with the present approach is that in theSection 2.1 the sample space Ω was restricted just to the set of points xk, while hereΩ is extended to R and xk are the points with non-zero probability. This entails,among other, that – beyond the bar diagrams of the Figures 2.1 and 2.2 – we cannow represent a discrete distribution by means of its c.d.f. F (x) with a continuousvariable x ∈ R

Exemple 2.13. Notable discrete distributions: Consider first the case wherejust one value b ∈ R occurs with probability 1, namely P -a.s.: the family of thesedistributions, called degenerate distributions, is denoted by the symbol δb, andits c.d.f. F (x) show just one unit step in x = b, namely is a Heaviside function

ϑ(x) =

1, if x ≥ 00, if x < 0

(2.13)

34

Page 35: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

2.2 Probability on R

-1 0 1 2 nx

0.2

0.4

0.6

0.8

1.0

FHxL

Figure 2.4: c.d.f. of a Poisson distribution P(α).

Of course its bar diagram will have just one unit bar located at x = b. On theother hand in the family B (1; p) of the Bernoulli distributions two values 1and 0 occur respectively with probability p and q = 1 − p, while in the binomialdistributions B (n; p) the values k = 0, . . . , n occur with the probabilities

pn(k) =

(n

k

)pkqn−k, q = 1− p, 0 ≤ p ≤ 1

The corresponding Bernoulli and binomial c.d.f.’s are displayed in the Figure 2.3.Finally in the family P(α) of the Poisson distributions all the integer numbersk ∈ N occur with the probabilities

pk =αke−α

k!, α > 0

and their c.d.f. is shown in the Figure 2.4

2.2.3 Absolutely continuous distributions: density

Definition 2.14. Take two measures µ and ν on the same (Ω,F): we say that ν isabsolutely continuous (a.c.) w.r.t. a µ (and we write ν ≪ µ) when µ(A) = 0for A ∈ F also entails ν(A) = 0. If in particular Ω = R, when a probability P on(R, B(R)) is a.c. w.r.t. the Lebesgue measure we also say for short that its c.d.f.F (x) is a.c.

Theorem 2.15. Radon-Nikodym theorem on R: A c.d.f. F (x) on R is a.c.iff it exists a non negative function f(x) defined on R such that∫ +∞

−∞f(x) dx = 1 F (x) =

∫ x

−∞f(z) dz f(x) = F ′(x)

The function f(x) is called probability density function (p.d.f.) of F (x)

35

Page 36: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

a bx

0.2

0.4

0.6

0.8

1.0

FHxL

a bx

1b-a

f HxL

Figure 2.5: c.d.f. and p.d.f. of the uniform distribution U (a, b).

Proof: Omitted5

It is easy to show that, taken a non negative, Lebesgue integrable and 1-normalizedfunction f(x), the function

F (x) =

∫ x

−∞f(z) dz

always is an a.c. c.d.f. The Radon-Nikodym theorem states the remarkable fact thatalso the reverse holds: every a.c. c.d.f. F (x) is the primitive function of a suitablep.d.f. f(x), so that every a.c. c.d.f. can be given through a p.d.f., which is uniquebut for its values on a Lebesgue negligible set of points. It is possible to show thatan a.c. c.d.f. is also continuous6 and derivable (but for a Lebesgue negligible set ofpoints), and in this case the p.d.f. is nothing else than its derivative

f(x) = F ′(x)

Taking then into account (2.12) and the continuity of F (x), we can now calculatethe probability of an interval [a, b] from a p.d.f. f(x) as the integral

P [a, b] = F (b)− F (a) =

∫ b

a

f(t) dt

It is apparent on the other hand that a discrete c.d.f. can never be a.c. because itis not even continuous: in this case we can never speak of a p.d.f., and we mustrestrict ourselves to the use of the c.d.f.

5M. Metivier, Notions Fondamentales de la Theorie des Probabilites, Dunod(Paris, 1972)

6There are on the other hand (some examples are discussed in the Section 2.2.4) c.d.f. F (x)which are continuous but not a.c., so that the existence of a p.d.f. is not a consequence of thesimple continuity of a c.d.f.

36

Page 37: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

2.2 Probability on R

b-a b b+ax

0.2

0.4

0.6

0.8

1.0

FHxL

b-a b b+ax

1

a 2 Π

f HxL

Figure 2.6: c.d.f. and p.d.f. of the normal distribution N (b, a2).

Exemple 2.16. Uniform distribution: Take first the family of the uniformlaws on an interval [a, b] denoted as U (a, b). The c.d.f. is

F (x) =

0 if x < ax−ab−a

if a ≤ x ≤ b

1 if b < x

as displayed in the Figure 2.5. This c.d.f. defines on (R, B(R)) a probability Pconcentrated on [a, b] that to every interval [x, y] ⊆ [a, b] gives the probability

P [x, y] =y − x

b− a

On the other hand intervals lying outside [a, b] have zero probability, while, sinceF (x) is continuous, P x = 0 for every event reduced to the point x. The p.d.f. isdeduced by derivation

f(x) =

1

b−aif a ≤ x ≤ b

0 else(2.14)

and is displayed in the Figure 2.5 along with its c.d.f.. These behaviors also justifythe name of these laws because the probability of every interval [x, y] ⊆ [a, b] dependsonly on its amplitude y − x and not on its position inside [a, b]. For short: all thelocations inside [a, b] are uniformly weighted

Exemple 2.17. Gaussian (normal) distribution: The family of the Gaussian(normal) laws N(b, a2) is characterized by the p.d.f.

f(x) =1

a√2π

e−(x−b)2/2a2 a > 0, b ∈ R (2.15)

displayed with its c.d.f. in the Figure 2.6. The so called degenerate case a = 0, thatis here excluded, needs a particular discussion developed in the Section 4.2.2. The

37

Page 38: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

1ax

0.2

0.4

0.6

0.8

1.0

FHxL

1ax

a

f HxL

Figure 2.7: c.d.f. and p.d.f. of the exponential distributionE(a)

Gaussian p.d.f. shows a typical bell-like shape with the maximum in x = b. The twoflexes in x = b± a give a measure of the width that hance depends on the parametera. We will speak of standard normal law when b = 0 and a = 1, namely whenthe p.d.f. is

ϕ(x) =1√2π

e−x2/2

Both the standard and non standard Gaussian c.d.f., also called error functions,respectively are

Φ(x) =1√2π

∫ x

−∞e−z2/2 dz F (x) =

1

a√2π

∫ x

−∞e−(z−b)2/2a2 dz (2.16)

and are shown in the Figure 2.6: they can not be given as finite combinations ofelementary functions, but have many analytical expressions and can always be cal-culated numerically

Exemple 2.18. Exponential distributions: The family of the exponentiallaws E(a) has the p.d.f.

f(x) = a e−axϑ(x) =

a e−ax if x ≥ 00 if x < 0

a > 0 (2.17)

while the corresponding c.d.f. is

F (x) = (1− e−ax)ϑ(x) =

1− e−ax if x ≥ 00 if x < 0

both represented in the Figure 2.7.

Exemple 2.19. Laplace distribution: We call Laplace laws, or even bilateralexponentials, denoted as L(a), the laws with p.d.f.

f(x) =a

2e−a|x| a > 0 (2.18)

38

Page 39: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

2.2 Probability on R

1ax

0.2

0.4

0.6

0.8

1.0

FHxL

1ax

a2

f HxL

Figure 2.8: c.d.f. and p.d.f. of the Laplace distributionL(a)

and c.d.f.

F (x) =1

2+

|x|x

1− e−a|x|

2

represented in the Figure 2.8.

Exemple 2.20. Cauchy distributions: Finally the family of the Cauchy lawsC(b, a) has the p.d.f.

f(x) =1

π

a

a2 + (x− b)2a > 0 (2.19)

and the c.d.f.

F (x) =1

2+

1

πarctan

x− b

a

both represented in the Figure 2.9. It is easy to see from the Figuree 2.6 and 2.9, thatthe qualitative behavior of the N(b, a2) and C(b, a) p.d.f.’s are roughly similar: bothare bell shaped curves, symmetrically centered around x = b with a width ruled bya > 0. They however essentially differ for the velocities of their queues vanishing:while the normal p.d.f. asymptotically vanishes rather quickly, the Cauchy p.d.f.goes slowly to zero as x−2. As a consequence the central body of the Cauchy p.d.f.is thinner w.r.t. the normal function, while its queues are correspondingly fatter

2.2.4 Singular distributions

Definition 2.21. We say that P is a singular distribution when its c.d.f. F (x)is continuous, but not a.c.

We have seen that the probability measures which are a.c. w.r.t. the Lebesgue mea-sure, namely that with an a.c. c.d.f. F (x), have a p.d.f. f(x). We also stated that ana.c. F (x) is also continuous, while instead the reverse is not in general true: thereare – but we will neglect here to produce the classical examples – c.d.f. F (x) which

39

Page 40: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

bx

0.2

0.4

0.6

0.8

1.0

FHxL

b-a b b+ax

1Π a

f HxL

Figure 2.9: c.d.f. and p.d.f. of the Cauchy distribution C (b, a)

are continuous (and hence they are not discrete) but not a.c. (and hence have nop.d.f.). It is important then to introduce the previous definition to point out that asingular law can be given neither as a discrete distribution (by means of the numberspk), nor through a p.d.f. f(x): the unique way to define it is to produce a suitablecontinuous c.d.f. F (x) that certainly exists. In the following however we will restrictourselves to the discrete and a.c. distributions, or – as we will see in the next section– to their mixtures, so that the singular distributions will play here only a marginalrole

2.2.5 Mixtures

Definition 2.22. We say that a distribution P is a mixture when its c.d.f. F (x)is a convex combination of other c.d.f.’s, namely when it can be represented as

F (x) =n∑

k=1

pkFk(x), 0 ≤ pk ≤ 1,n∑

k=1

pk = 1

where Fk(x) for k = 1, . . . , n are arbitrary c.d.f.’s

When the Fk(x) are all a.c. with p.d.f.’s fk(x) it is easy to understand that also themixture F (x) comes out to be a.c. with p.d.f.

f(x) =n∑

k=1

pkfk(x)

It is not forbidden, however, to have mixtures composed of every possible kind ofc.d.f., and the following important result puts in evidence that the three types ofdistributions so far introduced (discrete, absolutely continuous and singular), alongwith their mixtures, in fact exhaust all the available possibilities

40

Page 41: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

2.3 Probability on Rn

-2 -1 0 1 2 3 4x

0.2

0.4

0.6

0.8

1.0

FHxL

Figure 2.10: c.d.f. of the mixture of a Bernoulli and a Gaussian

Theorem 2.23. Lebesgue-Nikodym theorem: Every P on (R, B(R)) can berepresented as a mixture of discrete, a.c. and singular probabilities, namely its c.d.f.F (x) always is a convex combination

F (x) = p1F1(x) + p2F2(x) + p3F3(x)

where F1 is discrete, F2 is a.c., F3 is singular, while p1, p2, p3 are non negativenumbers such that p1 + p2 + p3 = 1

Proof: Omitted7

Exemple 2.24. Mixtures: To elucidate these ideas take for instance the c.d.f.displayed in the Figure 2.10: it is the mixture of a normal N(b, a2) and a BernoulliB (1; p), with arbitrary coefficients p1, p2. This F (x) has discontinuities in x = 0and x = 1 because of its Bernoulli component, but wherever it is continuous it is notconstant (as for a purely discrete distribution) because of its Gaussian component.Remark that in this example the distribution – without being singular – can be givenneither as a discrete distribution on 0 and 1, nor by means of a p.d.f. f(x): itsunique correct representation can be given through its c.d.f. F (x)

2.3 Probability on Rn

In the case of (Rn, B(Rn)) we can extend with a few changes the definitions adoptedfor (R, B(R)) in the Section 2.2, the relevant innovation being the interrelationshipbetween the marginal distributions and their (possible) common joint, multivariatedistribution

7M. Metivier, Notions Fondamentales de la Theorie des Probabilites, Dunod(Paris, 1972)

41

Page 42: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

R1

R2

x2

x2+D x2

x1 x1+D x1

x

x+D x

Figure 2.11: Probability for Cartesian products of intervals

2.3.1 Multivariate distribution functions

In analogy with Sezione 2.2.1 take first P as a given probability on (Rn, B(Rn)),and define the n-variate function

F (x) = F (x1, . . . , xn) = P (−∞, x1]× . . .× (−∞, xn] (2.20)

where x = (x1, . . . , xn). Within the synthetic notation

∆kF (x) = F (x1, . . . , xk +∆xk, . . . , xn)− F (x1, . . . , xk, . . . , xn)

(x,x+∆x] = (x1, x1 +∆x1]× . . .× (xn, xn +∆xn]

with ∆xk ≥ 0, it is then possible to show that

P (x,x+∆x] = ∆1 . . .∆nF (x)

For instance, in the case n = 2 we have

P (x,x+∆x] = ∆1∆2F (x)

=[F (x1 +∆x1, x2 +∆x2)− F (x1 +∆x1, x2)

]−[F (x1, x2 +∆x2)− F (x1, x2)

]as it is easy to see from Figure 2.11. Remark that, at variance with the case n =1, the probability P (x,x+∆x] of a Cartesian product of intervals does notcoincide with the simple difference F (x+∆x)−F (x), but it is a combination of 2n

terms produced by the iteration of the ∆k operator. The properties of these F (x)generalize that of the case n = 1 given in the Section 2.2.1

42

Page 43: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

2.3 Probability on Rn

Proposition 2.25. The function F (x) defined in (2.20) has the following properties:

1. For every ∆xk ≥ 0 with k = 1, . . . , n it is always

∆1 . . .∆nF (x) ≥ 0

so that F (x) comes out to be non decreasing in every variable xk

2. We always have

limx→+∞

F (x) = 1 limx→−∞

F (x) = 0

where it is understood that the limit x → +∞ means that every xk goes to+∞, while the x → −∞ means that at least one among the xk goes to −∞

3. F (x) is always continuous from above

limxk↓x

F (xk) = F (x)

where it is understoood that xk ↓ x means that every component of the sequencexk goes decreasing to the corresponding component of x

Proof: Property 1. results from the positivity of every probability; property 2. onthe other hand comes from the remark that the set

(−∞,+∞]× . . .× (−∞,+∞] = Rn

coincides with the whole sample space, while every Cartesian product containingeven one empty factor, is itself empty. The argument for the last property is similarto that of the Proposition 2.7 and we will neglect it for short

Definition 2.26. We call multivariate distribution function on Rn everyfunction F (x) satisfying 1, 2 and 3; we call on the other hand generalized, mul-tivariate distribution function on Rn every function G(x) satisfying 1 and 3,but not necessarily 2

Theorem 2.27. Given a multivariate c.d.f. F (x) on Rn, it exists a unique P on(Rn, B(Rn)) such that for every ∆xk ≥ 0 with k = 1, . . . , n we have

P (x,x+∆x] = ∆1 . . .∆nF (x)

Similarly, given a multivariate g.c.d.f. G(x) on Rn, it exists a unique Lebesgue-Stieltjes measure µ on (Rn, B(Rn)) such that for ∆xk ≥ 0, k = 1, . . . , n it is

µ(x,x+∆x] = ∆1 . . .∆nG(x)

43

Page 44: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

Proof: Omitted: see also Proposition 2.9

In short, also in the n-variate case, a probability P or a Lebesgue–Stieltjes measureµ are uniquely defined respectively by a c.d.f. F (x) or by a g.c.d.f. G(x)

Exemple 2.28. Given the univariate c.d.f. of a uniform law on [0, 1], and theunivariate g.c.d.f. of the Lebesgue measure

F1(x) =

0, se x < 0;x, se 0 ≤ x ≤ 1;1, se 1 < x,

G1(x) = x

it is easy to show that

F (x) = F1(x1) · . . . · F1(xn)

G(x) = G1(x1) · . . . ·G1(xn) = x1 · . . . · xn

respectively are the c.d.f. of a uniform law on the hypercube [0, 1]n, and the g.c.d.f.of the Lebesgue measure on Rn.

The previous example can be generalized: if F1(x), . . . , Fn(x) are n c.d.f. on R, itis easy to show that

F (x) = F1(x1) · . . . · Fn(xn)

always is a c.d.f. on Rn. The reverse, instead, is not true in general: a c.d.f. onRn can not always be factorized in the product of n c.d.f. on R; this happens onlyunder particular circumstances to be discussed later

2.3.2 Multivariate densities

When P is a.c. w.r.t. the Lebesgue measure on (Rn, B(Rn)), namely when F (x) isa.c., a generalization of the Radon–Nikodym theorem 2.15 entails the existence ofa non negative, normalized multivariate density function f(x)∫

Rn

f(x1, . . . , xn) dx1 . . . dxn =

∫Rn

f(x) dnx = 1

and in this case we always find

F (x) =

∫ x1

−∞. . .

∫ xn

−∞f(z) dnz f(x) =

∂nF (x)

∂x1 . . . ∂xn

(2.21)

while the probability of the Cartesian products of intervals are given as

P (a1, b1]× · · · × (an, bn] =

∫ b1

a1

. . .

∫ bn

an

f(x) dnx

44

Page 45: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

2.3 Probability on Rn

Exemple 2.29. Multivariate Gaussian (normal) laws: The family of the mul-tivariate normal laws N(b,A) is characterized by the vectors of real numbers b =(b1, . . . , bn), and by the symmetric (aij = aji), and non-negative definite8 matricesA = ∥aij∥: the statistical meaning of b and A will be discussed in the Section 3.34.When A is positive, its inverse A−1 always exists and N(b,A) has a multivariatep.d.f.:

f(x) = f(x1, . . . , xn) =

√|A−1|(2π)n

e−12(x−b)·A−1(x−b) (2.22)

where |A−1| is the determinant of A−1, x · y =∑

k xkyk is the Euclidean scalarproduct between the vectors x e y, and between vectors and matrices the usual rowsby columns product is adopted, so that for instance

x · Ay =n∑

i,j=1

aijxiyj

On the other hand (in analogy with the case a = 0 when n = 1) the laws N(b,A)with a singular, non invertible A can be defined, but have no p.d.f.: they will bediscussed in detail in the Section 4.2.2. The multivariate, normal p.d.f. (2.22) isthen a generalization of the univariate case presented in the Section 2.2.3: whenn = 1 the p.d.f. of N(b, a2) has just two numerical parameters, b and a ≥ 0; in themultivariate case, instead, we need a vector b and a symmetric, non-negative matrixA. Remark also that for n = 2 the inverse of A is

A−1 =1

(1− r2)a21a22

(a22 −a1a2r

−a1a2r a21

)(2.23)

and the p.d.f. bivariate normal takes the form

f(x1, x2) =e− 1

2(1−r2)

[(x1−b1)

2

a21−2r

(x1−b1)(x2−b2)a1a2

+(x2−b2)

2

a22

]

2πa1a2√1− r2

(2.24)

where the three numbers ak =√akk > 0, k = 1, 2, and r = a12/

√a11a22 with |r| < 1,

are deduced from the three independent elements of A

8A matrix A is non-negative definite if, however taken a vector of real numbers x =(x1, . . . , xn), it is always

x · Ax =n∑

i,j=1

aijxixj ≥ 0

and it is positive definite if this sum is always strictly positive (namely non zero). If A is positive,it is also non singular, namely its determinant |A| > 0 does not vanish, and hence it has an inverseA−1

45

Page 46: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

2.3.3 Marginal distributions

For a given c.d.f. F (x) on Rn = R1 × . . . × Rn it is easy to show that the n − 1variables function

F (1)(x2, . . . , xn) = F (+∞, x2, . . . , xn) = limx1→+∞

F (x1, x2 . . . , xn) (2.25)

again is a c.d.f. on Rn−1 = R2 × . . . × Rn because it still complies with thepropetries 1, 2 and 3 listed in the Section 2.3.1. This is true in fact whateverxi we choose to perform the limit; by choosing however different coordinates we getc.d.f.’s F (i) which are in general different from each other. To avoid ambiguitieswe then adopt a notation with upper indices telling the removed coordinates. Thisoperation can, moreover, be performed on arbitrary m < n variables: we always getc.d.f.’s on a suitable Rn−m. For instance

F (1,2)(x3, . . . , xn) = F (+∞,+∞, x3, . . . , xn) (2.26)

is a c.d.f. on Rn−2 = R3 × . . .×Rn. At the end of this procedure we find n c.d.f.’swith a single variable, as for instance the c.d.f. on R1

F (2,...,n)(x1) = F (x1,+∞, . . . ,+∞)

All the c.d.f.’s deduced from a given multivariate c.d.f. F are called marginal dis-tribution function, and the operation to get them is called marginalization.From the Theorem 2.27 we can extend these remarks also to the probability mea-sures: if P is the probability on (Rn, B(Rn)) associated to F (x), we can definethe marginal probabilities

(Rk, B(Rk)

)with k < n associated to the corresponding

marginal c.d.f.’s. The relation among P and its marginals is then for example

P (2,...,n) (−∞, x1] = F (2,...,n)(x1)

= F (x1,+∞, . . . ,+∞) = P (−∞, x1]×R2 × . . .×Rn

If the initial multivariate c.d.f. F is a.c. also its marginals will be a.c., and from (2.21)we deduce for instance that the p.d.f.’s of F (1), F (1,2) and F (2,...,n) respectively are

f (1)(x2, . . . , xn) =

∫ +∞

−∞f(x1, x2, . . . , xn) dx1 (2.27)

f (1,2)(x3, . . . , xn) =

∫ +∞

−∞

∫ +∞

−∞f(x1, x2, x3, . . . , xn) dx1dx2 (2.28)

f (2,...,n)(x1) =

∫ +∞

−∞. . .

∫ +∞

−∞f(x1, x2, . . . , xn) dx2 . . . dxn (2.29)

For a p.d.f., in other words, the marginalization is performed by integrating on thevariables that are to be removed

46

Page 47: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

2.3 Probability on Rn

Starting hence from a multivariate c.d.f. (or p.d.f.) on Rn we can always deduce,in an unambiguous way, an entire hierarchy of marginal c.d.f.’s with an ever smallernumber of variables, until we get n univariate c.d.f.’s. It is natural to ask thenif this path can also be trodden on the reverse: given a few (either univariate ormultivariate) c.d.f.’s, is it possible to unambiguously find a multivariate c.d.f. suchthat the initial c.d.f.’s are its marginals? The answer is, in general, surprisinglynegative, at least for what concerns unicity, and deserves a short discussion. Takefirst n arbitrary univariate c.d.f.’s F1(x), . . . , Fn(x): it is easy to see that

F (x) = F1(x1) · . . . · Fn(xn)

is again a multivariate c.d.f. (see the end of the Section 2.3.1) whose univariatemarginals are the Fk(x). From the previous marginalization rules we indeed havefor instance

F (2,...,n)(x1) = F1(x1)F2(+∞) . . . Fn(+∞) = F1(x1)

If moreover the given c.d.f.’s are also a.c. with p.d.f.’s fk(x), the product multivariateF will also be a.c. with p.d.f.

f(x) = f1(x1) · . . . · fn(xn)

while its marginal p.d.f.’s are exactly the fk(x). It is easy ti check, however, bymeans of a few elementary counterexamples that the previous product c.d.f. is farfrom the unique multivariate c.d.f. allowing the Fk as its marginals

Exemple 2.30. Multivariate distributions and their marginals: Take thefollowing pair of bivariate p.d.f.’s which are uniform on the domains 9 representedin the Figure 2.12

f(x, y) =

1, if (x, y) ∈ Q,0, if (x, y) ∈ Q,

Q = [0, 1]× [0, 1]

g(x, y) =

2, if (x, y) ∈ Q1 ∪Q2,0, if (x, y) ∈ Q1 ∪Q2,

Q1 =[0, 1/2

]×[0, 1/2

]Q2 =

[1/2, 1

]×[1/2, 1

]It is easy to show now by elementary integrations that first of all the two univariatemarginals of f are uniform U (0, 1) respectively with the p.d.f.’s

f1(x) = f (2)(x) =

∫ +∞

−∞f(x, y) dy =

1, if x ∈ [0, 1],0, if x ∈ [0, 1],

f2(y) = f (1)(y) =

∫ +∞

−∞f(x, y) dx =

1, if y ∈ [0, 1],0, if y ∈ [0, 1],

and then that they also exactly coincide with the corresponding marginals g1 and g2of g, so that

f1(x) = g1(x) f2(y) = g2(y)

9Since the laws with the p.d.f.’s f and g are a.c., the boundaries of the chosen domains havezero measure, and hence we can always take such domains as closed without risk of errors

47

Page 48: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

Q

x

y

1

10

Q1

Q2

x

y

1

1

0.5

0.50

Figure 2.12: Uniform p.d.f. on different domains

This apparently shows that different, multivariate p.d.f.’s can have the same marginalsp.d.f.’s, and hence that if we just have the marginals we can not in a unique wayretrace back the multivariate p.d.f. engendering them. It is also easy to see, more-over, that in our example

f(x, y) = f1(x)f2(y) g(x, y) = g1(x)g2(y) (2.30)

namely that, as already remarked, the product turns out to be a possible bivariatep.d.f. with the given marginals, but also that this is not the only possibility

Exemple 2.31. Marginals of multivariate Gaussian laws: An elementary, buttiresome integration of the type (2.29) – that we will neglect – explicitly gives theunivariate marginals p.d.f.’s of a multivariate Gaussian N(b,A) (2.22): it turns outtha such marginals are again all Gaussian N (bk, a

2k) as in (2.15), with a2k = akk and

that their p.d.f.’s are

fk(xk) =1

ak√2π

e−(xk−bk)2/2a2k (2.31)

It is easy to understand, however, that in general the product of these p.d.f.’s – whichstill is a multivariate normal p.d.f. – does not coincide with the initial multivariatep.d.f. (2.22), unless A is a diagonal matrix: in the simple product, indeed, we wouldnot find the off-diagonal terms of the quadratic form at the exponent of (2.22).Remark in particular that, from the discussion in the Example 2.29, it turns outthat the matrix A of a bivariate normal is diagonal iff r = 0: this point will beresumed in the discussion of the forthcoming Example 3.34

2.3.4 Copulas

The previous remarks prompt a discussion of the following two interrelated problems:

48

Page 49: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

2.3 Probability on Rn

1. what is the general relation between an n-variata c.d.f. F (x1, . . . , xn) and itsn univariate marginals Fk(x)?

2. given n univariate c.d.f.’s Fk(x), do they exist (one or more) n-variate c.d.f.’sF (x1, . . . , xn) having the Fk as their marginals? And, if yes, how and in howmany ways could we retrieve them?

Definition 2.32. We say that a function C(u, v) defined on [0, 1]× [0, 1] and takingvalues in [0, 1] is a copula when it has the following properties:

1. C(u, 0) = C(0, v) = 0, ∀ u, v ∈ [0, 1]

2. C(u, 1) = u, C(1, v) = v, ∀ u, v ∈ [0, 1]

3. C(u2, v2)− C(u2, v1)− C(u1, v2) + C(u1, v1) ≥ 0, ∀ u1 ≤ u2, v1 ≤ v2

In short a copula is the restriction to [0, 1]× [0, 1] of a c.d.f. with uniform marginalsU (0, 1). Typical examples are

CM(u, v) = u ∧ v = minu, vCm(u, v) = (u+ v − 1)+ = maxu+ v − 1, 0C0(u, v) = uv

Cθ(u, v) = (u−θ + v−θ − 1)−1θ θ > 0 (Clayton)

while many others exist in the literature along with their combinations10. It is alsoknown that every copula C(u, v) falls between the Frchet-Hoffding bounds

Cm(u, v) ≤ C(u, v) ≤ CM(u, v)

Theorem 2.33. Sklar theorem (bivariate):

• If H(x, y) is a bivariate c.d.f. and F (x) = H(x,+∞), G(y) = H(+∞, y) areits marginals, there is always a copula C(u, v) such that

H(x, y) = C [F (x), G(y)] (2.32)

this copula is unique if F and G are continuous; otherwise C is unique onlyon the points (u, v) which are possible values of (F (x), G(y));

• if F (x) and G(y) are two c.d.f., and C(u, v) is a copula, then H(x, y) definedas in (2.32) always is a bivariate c.d.f. having F and G as its marginals

10R.B. Nelsen, An Introduction to Copulas, Springer (New York, 1999)

49

Page 50: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

Proof: Omitted11

In short the Sklar theorem states that every bivariate c.d.f. comes from the appli-cation of a suitable copula to its marginals, and that viceversa the application ofan arbitrary copula to any pair of univariate c.d.f.’s always results in a bivariatec.d.f. with the given distributions as marginals. In particular the product bivariateof two univariate c.d.f.’s comes from the application of the copula C0, and hence isjust one among many other available possibilities. Remark finally that in generalthe bivariate c.d.f. resulting from the application of a copula may be not a.c. evenwhen the two univariate c.d.f. are a.c.

Exemple 2.34. Cauchy bivariate distributions: Take two Cauchy distributionsC(0, 1) respectively with c.d.f. and p.d.f.

F (x) =1

2+

1

πarctanx f(x) =

1

π

1

1 + x2

G(y) =1

2+

1

πarctan y g(y) =

1

π

1

1 + y2

The product copula C0 gives the bivariate c.d.f.

H0(x, y) =

(1

2+

1

πarctanx

)(1

2+

1

πarctan y

)which is again a.c. with p.d.f.

h0(x, y) =1

π

1

1 + x2· 1π

1

1 + y2= f(x)g(y)

while the simplest Clayton copula, that with θ = 1

C1(u, v) = (u−1 + v−1 − 1)−1 =uv

u+ v − uv

would give a different c.d.f. H1(x, y) (we neglect it for brevity) which is still a.c.with the p.d.f.

h1(x, y) =32π2(π + 2arctan x)(π + 2arctan y)

(1 + x2)(1 + y2)[2 arctan x(π − 2 arctan y) + π(3π + 2arctan y)]3

On the other hand an application of the extremal Frechet-Hoffding copulas CM andCm would give rise to different c.d.f. which no longer are a.c., but we will not makeexplicit reference to them

The Sklar theorem 2.33 can be generalized to all the multivariate c.d.f.’s H(x) =H(x1, . . . , xn) that turn out to be deducible from the application of suitable multi-variate copulas C(u) = C(u1, . . . , un) to univariate c.d.f.’s F1(x1), . . . , Fn(xn). It is

11R.B. Nelsen, An Introduction to Copulas, Springer (New York, 1999)

50

Page 51: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

2.4 Probability on R∞ and RT

also possible to show that even in this case n arbitrary univariate c.d.f.’s can always– and in several, different ways, according to the chosen copula – be combined inmultivariate c.d.f.’s

A radically different problem arises instead when we try to combine multivariatemarginals into higher order multivariate c.d.f.’s. We will not indulge into details,and we will just restrict us to remark that, given for instance a trivariate c.d.f.F (x, y, z), we can always find its three bivariate marginals

F (1)(y, z) = F (+∞, y, z), F (2)(x, z) = F (x,+∞, z), F (3)(x, y) = F (x, y,+∞)

and that it would be possible – albeit not trivial – to find a way of reassembling Ffrom these marginals by means of suitable copulas. The reverse problem, however,at variance with the case of the Sklar theorem, not always has a solution, becausewe can not always hope to find a c.d.f. F (x, y, z) endowed with three arbitrarilygiven bivariate marginals c.d.f. F1(y, z), F2(x, z) and F3(x, y). At variance withthe case of the univariate marginals, indeed, first of all a problem of compatibilityamong the given c.d.f.’s arises. For instance it is apparent that – in order to bededucible as marginals of the same trivariate F (x, y, z) – they must at least agreeon the univariate marginals deduced from them, namely we should have

F1(+∞, z) = F2(+∞, z), F1(y,+∞) = F3(+∞, y), F2(x,+∞) = F3(x,+∞)

while even this (only necessary) condition can not be ensured if F1, F2 e F3 aretotally arbitrary. In short, the choice of the multivariate marginal c.d.f.’s must bemade according to some suitable consistency criterion, arguably not even restrictedjust to the simplest one previously suggested: a short discussion on this point canbe found in the Appendix A

2.4 Probability on R∞ and RT

The extension of the previous results to the case of the space (R∞, B(R∞)) of thereal sequences is however less straightforward because, while on a (Rn, B(Rn)) wecan always give a probability by means of an n-variables c.d.f., this is not possiblefor (R∞, B(R∞)) because it would be meaningless to have a c.d.f. with an infinitenumber of variables. To give a probability on (R∞, B(R∞)) we must hence usedifferent tools

To this end remark first that if a probability P is given on (R∞, B(R∞)), wecould inductively deduce a whole family of probabilities on the finite dimensionalspaces that we get by selecting an arbitrary, but finite, number of sequence compo-nents. As a matter of fact n arbitrary components of the sequences in (R∞, B(R∞))always are a point in a space (Rn, B(Rn)): to give a probability on this (Rn, B(Rn))from the given P it would be enough to take B ∈ B(Rn) as the basis of a cylinderin B(R∞) (see Example 1.7), and then give to B the probability that P gives to thecylinder. We get in this way an entire family of finite probability spaces which are

51

Page 52: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

consistent (see also Appendix A), in the sense that the c.d.f.’s in a(Rk, B(Rk)

)which is subspace of an (Rn, B(Rn)) with k ≤ n are derived by marginalization ofthe extra components through the usual relations (2.25) and (2.26)

This prompt the idea of defining a probability on (R∞, B(R∞)) through thereverse procedure: give first a family of probabilities on all the finite subspaces(Rn, B(Rn)), and then extend them to all (R∞, B(R∞)). In order to get a successfulprocedure, however, these finite probabilities can not be given in a totally arbitraryway: they must indeed be a consistent family of probabilities, in the sense of thepreviously discussed consistenza. The subsequent theorem encodes this importantresult

Theorem 2.35. Kolmogorov theorem on R∞: Given a consistent family offinite probability spaces (Rn, B(Rn), Pn) there is always a unique probability P on(R∞, B(R∞)) which is an extension of the given family

Proof: Omitted12

Exemple 2.36. Bernoulli sequences: The simplest way to meet the conditionsof the Theorem 2.35 is to take a sequence of univariate c.d.f.’s Gk(x), k ∈ N andto define then another sequence of multivariate c.d.f.’s as

Fn(x1, . . . , xn) = G1(x1) · . . . ·Gn(xn) n ∈ N

According to the Theorem 2.27 we can then define on (Rn, B(Rn)) the probabili-ties Pn associated to Fn, and we can check that these Pn are a consistent familyof probabilities: according to the Kolmogorov theorem 2.35 it exists then a uniqueprobability P on (R∞, B(R∞)) such that

P x ∈ R∞ : (x1, . . . , xn) ∈ B = PnB ∀B ∈ B(Rn)

and in particular

P x ∈ R∞ : x1 ≤ a1, . . . , xn ≤ an = Fn(a1, . . . , an) = G1(a1) · . . . ·Gn(an)

If for example all the Gn(x) are identical Bernoulli distributions B (1; p) so that

Gn(x) =

0, se x < 0;1− p, se 0 ≤ x < 1;1, se 1 ≤ x,

we can define P of xj sequences taking values aj = 0, 1, so that for every k =0, 1, . . . , n

P

x ∈ R∞ : x1 = a1, . . . , xn = an, con

n∑j=1

aj = k

= pk qn−k

12A.N. Shiryaev, Probability, Springer (New York, 1996)

52

Page 53: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

2.4 Probability on R∞ and RT

Such a P extends to the (uncountable) space of infinite sequences of draws (Bernoullisequences) the binomial distributions defined by (2.6) and (2.7) on the finite spacesof n-tuples of draws, as shown in the Section 2.1.2: this extension is crucial in orderto be able to define limits for an infinite number of drawings as will be seen in theAppendix F.

Take finally the space(RT , B(RT )

)and suppose first, as for (R∞, B(R∞)), to

have a probability P on it. This allows again (by adopting the usual cylinderprocedure of the Example 1.7) to get an entire family of probabilities on the finitedimensional subspaces which are consistent as in the case of R∞. We ask then if,by starting backward from a consistent family of probability spaces, we can extendit again to a P on

(RT , B(RT )

): this would ensure the definition of a probability

on the (uncountably) infinite dimensional space(RT , B(RT )

)by giving an infinite

consistent family of probabilities on finite dimensional spaces. The positive answerto this question is in the following theorem

Theorem 2.37. Kolmogorov theorem on RT : Take S = t1, . . . , tn arbitraryfinite subset of T , and a consistent family of probability spaces (Rn, B(Rn), PS):then there always exists a unique probability P on

(RT , B(RT )

)which turns out to

be an extension of the given family

Proof: Omitted13

Exemple 2.38. Wiener measure: Consider T = [0,+∞), so that RT will turnout to be the set of the functions (xt)t≥0, and take the following family of GaussianN (0, t) p.d.f.’s

φt(x) =e−x2/2t

√2πt

t > 0

Given then S = t1, . . . , tn with 0 < t1 < . . . < tn, and a Borelian in Rn, forinstance B = A1 × . . .× An ∈ B(Rn), define PS by giving to B the probability

PSB =

∫An

. . .

∫A1

φtn−tn−1(xn − xn−1) . . . φt2−t1(x2 − x1)φt1(x1) dx1 . . . dxn

It is possible to check then that, with every possible S, the family (Rn, B(Rn), PS) isconsistent, and hence according to the Theorem 2.37 there exists a unique probabilityP defined on

(RT ,B(RT )

)as an extension of the given family. This probability is

also called Wiener measure and plays a crucial role in the theory of the stochasticprocesses. Its meaning could be intuitively clarified as follows: if (xt)t≥0 is the generictrajectory of a point particle, the cylinder of basis B = A1 × . . . × An will be thebundle of the trajectories starting from x = 0, and passing through the windowsA1, . . . , An at the times t1 < . . . < tn. The φtk−tk−1

(xk − xk−1) dxk are moreover

13A.N. Shiryaev, Probability, Springer (New York, 1996)

53

Page 54: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

the (Gaussian) probabilities that the particle, starting from xk−1 at the time tk−1,will be in [xk, xk + dxk] after a delay tk − tk−1, while the product of these p.d.f.’sappearing in the definition indicates the displacements independence in the timeintervals [0, t1], [t1, t2], . . . , [tn−1, tn]. The multiple integral of the definition, finally,allows to calculate the probability attributed to the bundle of trajectories that, at thetimes t1 < . . . < tn, go through the windows A1, . . . , An.

54

Page 55: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

Chapter 3

Random variables

3.1 Random variables

3.1.1 Measurability

Definition 3.1. Given the probabilizable spaces (Ω,F) e (R, B(R)), a functionX : Ω → R is said to be F-measurable – or simply measurable when there is noambiguity – if (see also Figure 3.1)

X−1(B) = X ∈ B =ω ∈ Ω : X(ω) ∈ B

∈ F , ∀B ∈ B(R) .

while to mention the involved σ-algebras we often writ

X : (Ω,F) → (R, B(R))

In probability a measurable X is also called random variable ( r.v.), and when(Ω,F) coincides with (Rn, B(Rn)) it is called Borel function.

Remark that in the previous definition no role whatsoever is played by the probabil-ity measures: X is a r.v. as a result of its measurability only. On the other hand it isindispensable to single out the two involved σ-algebras without which our definitionwould be meaningless

Exemple 3.2. Indicators, and degenerate and simple r.v.’s: The simplestr.v.’s are the indicators IA(ω) of an event A ∈ F defined as

IA(ω) =

1, if ω ∈ A,0, if ω /∈ A,

which apparently are measurable w.r.t. F since A ∈ F . The indicators have severalproperties: for instance it is easy to check that ∀ω ∈ Ω

I∅(ω) = 0 IΩ(ω) = 1 IA(ω) + IA(ω) = 1

IAB(ω) = IA(ω) IB(ω) IA∪B(ω) = IA(ω) + IB(ω)− IA(ω) IB(ω)

55

Page 56: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

B

R

Ω

x = X HΩL

X-1HBL

W

X

Figure 3.1: Graphic depiction of the random variable definition

Aside from the indicators, a relevant role is played by the simple r.v.’s, namelythose taking just a finite number of values xk, k = 1, . . . , n according to

X(ω) =n∑

k=1

xkIDk(ω)

where the Dk ∈ F are a finite decomposition of Ω: in short the simple r.v. X takesthe value xk on the ω ∈ Dk with k = 1, . . . , n. It is not excluded finally the case ofa degenerate (constant) r.v. which takes just one value b on Ω

In short every measurable function X : Ω → R is a r.v. and can be considered firstas a simple way to ascribe numerical values in R to every ω ∈ Ω. Every procedurethat for example awards money winnings to the sides of a dice (the measurabilityis trivially met in these simple cases) can be considered as a r.v.. The rationale torequire the measurability in the general case will be made clear in the next section

3.1.2 Laws and distributions

The measurability comes into play when we take a probability P on (Ω,F): the factthat X ∈ B ∈ F , ∀B ∈ B(R) enables indeed the r.v. X to induce on (R, B(R))a new probability as explained in the following definition

Definition 3.3. Given a probability space (Ω,F ,P ) and a r.v. X : (Ω,F) →(R, B(R)), the law or distribution of X is the new probability PX induced by Xon (R, B(R)) through the relation

PXB = P X ∈ B , B ∈ B(R)

while the c.d.f. FX(x) of PX , namely

FX(x) = PX(−∞, x] = P X ≤ x = P ω ∈ Ω : X(ω) ≤ x , x ∈ R

56

Page 57: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

3.1 Random variables

is called distribution function (c.d.f.) of X, and coincides with the probabilitythat r.v. X be smaller than, or equal to x. We will finally adopt the shorthandnotation

X ∼ PX

to indicate that PX is the distribution of the r.v. X

It is apparent that two r.v.’s X and Y , different in the sense of the Definition 3.1,in general have differen laws PX e PY , but we must remark at once that it is notimpossible for them to have the same law and hence to be identically distributed.For instance, on the probability space of a fair dice, we can define the following twor.v.’s: X taking value 1 on the first four sides of the dice (and 0 on the other two),and Y taking value 0 on the first two sides (and 1 on the remaining four). Albeitdifferent as functions of ω, X and Y take the same values (0 e 1) with the sameprobabilities (respectively 1/3 and

2/3), and hence they have the same distribution.On the other hand, a given r.v. X can have several different laws according to thedifferent probabilities P that we may define on (Ω,F): remember for instance thatevery conditioning modifies the probability on (Ω,F). These remarks show that thelaw – even though that only is practically accessible to our observations – does notdefine the r.v., but it only gives its statistical behavior. It is relevant then to add afew words about what it possibly means to be equal for two or more r.v.’s

Definition 3.4. Two r.v.’s X and Y defined on the same (Ω,F ,P ) are

• indistinguishable, and we simply write X = Y , when

X(ω) = Y (ω) ∀ω ∈ Ω

• identical P -a.s., and we also write Xas= Y , when

P X = Y = P ω ∈ Ω : X(ω) = Y (ω) = 0

• identically distributed (id), and we also write Xd= Y , when their laws

coincide namely if PX = PY so that

FX(x) = FY (x) ∀x ∈ R

It is apparent that indistinguishable r.v.’s also are identical P -a.s., and that r.v.’sidentical P -a.s. also are i.d.: the reverse instead does not hold in general as couldbe shown with a few counterexamples that we will neglect. We will give now aclassification of the r.v.’s according to their laws

57

Page 58: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

Discrete r.v.’s

The discrete r.v.’s are of the type

X(ω) =∑k

xkIDk(ω)

where k ranges on a finite or countable set of integers, while the events Dk = X =xk are a decomposition of Ω. It is easy to see that the distribution PX is in thiscase a discrete probability on the – at most countable – set of numbers xk ∈ R, sothat its c.d.f. is discrete in the sense discussed in the Section 2.2.1. If then we take

pk = PXxk = P X = xk = FX(xk)− FX(x−k )

we also have

PXB =∑

k :xk∈B

pk , B ∈ B(R)

Apparently the simple r.v.’s previously introduced are discrete r.v.’s taking justa finite number of values, and so are also the P -a.s. degenerate r.v.’s taking justthe value b with probability 1, namely with PXb = 1. The discrete r.v.’s areidentified according to their laws, namely we will have for example degenerate r.v.’sδb, Bernoulli B (1; p), binomial B (n; p) and Poisson P(α) whose distributions havealready been discussed in the Section 2.2.2

Continuous and a.c. r.v.’s

A r.v. is said continuous if its c.d.f. FX(x) is a continuous function of x, and inparticular it is said absolutely continuous (a.c.) if its FX is a.c., namely if thereexists a non negative probability density (p.d.f.) fX(x), normalized and such that

FX(x) =

∫ x

−∞fX(y) dy

Remember that not every continuous r.v. also is a.c.: there are indeed continuous,but singular r.v.’s (see Section 2.2.4). These r.v.’s are however devoid of any practicalvalue, so that often in the applied literature the a.c. r.v.’s are just called continuous.All the remark and examples of the Section 2.2.3 can of course be extended to thea.c. r.v.’s that will be classified again according to their laws: we will have thenuniform r.v.’s U (a, b), Gaussian (normal) N (b, a2), exponential E(a), Laplace L(a),Cauchy C(b, a) and so on. We finally remember here – but this will be reconsideredin further detail later – how to calculate PX(B) from a p.d.f. fX(x): for B = (−∞, x]from the given definitions we get first

PX(−∞, x] = P X ≤ x = FX(x) =

∫ x

−∞fX(t) dt =

∫(−∞,x]

fX(t) dt

58

Page 59: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

3.1 Random variables

so that for B = (a, b] we have

PX(a, b] = P a < X ≤ b = FX(b)− FX(a) =

∫ b

a

fX(t) dt =

∫(a,b]

fX(t) dt

With an intuitive generalization we can extend by analogy this result to an arbitraryB ∈ B(R) so that

PXB =

∫B

dFX(x) =

∫B

fX(x) dx

Its precise meaning will be presented however in the discussion of the Corollary 3.23.

3.1.3 Generating r.v.’s

We have shown that a r.v. X on (Ω,F ,P ) is always equipped with a distributiongiven by means of a c.d.f. FX(x), but in fact also the reverse holds. If we haveindeed just a c.d.f. F (x), but neither a r.v. or a probability space, we can alwaysconsider Ω = R as sample space, and the r.v. X defined as the identical mapX : R → R that to every x = ω ∈ Ω associates the same number x ∈ R. If then on(Ω,F) = (R, B(R)) we define a P by means of the given c.d.f. F (x), it is easy toacknowledge that the c.d.f. of X exactly coincides with F (x)

Definition 3.5. If on (Ω,F) = (R, B(R)) we take the probability P defined througha given c.d.f. F (x), the identical map X from (R, B(R), P ) to (R, B(R)) will becalled canonical r.v., and its c.d.f. will coincide with the given F (x)

Functions of r.v.’s

Proposition 3.6. Given a r.v. X(ω) (ω ∈ Ω) and a Borel function ϕ(x) (x ∈ R)defined (at least) on the range of X, the compound function

ϕ[X(ω)

]= Y (ω)

is measurable again and hence is a r.v.

Proof: Omitted1

According to the previous proposition, every Y = ϕ(X) is a r.v. if X is a r.v. and ϕ aBorel function: for instance Xn, |X|, cosX, eX and so on are all r.v.’s. On the otherhand it is important to remark that, given two r.v.’s X and Y , does not necessarilyexist a Borel function ϕ such that Y coincides with ϕ(X): this could be shown bymeans of simple examples that we will neglect. To further discuss this point let usintroduce a new notion: if X : (Ω,F) → (R, B(R)) is a r.v. it is possible to showthat the following family of subsets of Ω

FX =(X−1(B)

)B∈B(R)

⊆ F

1A.N. Shiryaev, Probability, Springer (New York, 1996)

59

Page 60: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

again is a σ-algebra taking the name of σ-algebra generated by X. ApparentlyFX is also the smallest σ-algebra of Ω subsets w.r.t. which X turns out to bemeasurable. Remark that given two r.v.’s X and Y their respective σ-algebras FX

and FY in general neither coincide, nor are are contained in one another. Thefollowing result is then particularly relevant

Theorem 3.7. Given two r.v.’s X and Y , if Y turns out to be FX-measurable(namely if FY ⊆ FX) then there exists a Borel function ϕ such that Y (ω) = ϕ

[X(ω)

]∀ω ∈ Ω.

Proof: Omitted2

In short, the r.v. Y happens to be a function of another r.v. X if (and only if) allthe events in its σ-algebra FY also are events in FX , namely when every statementabout Y (the events in FY ) can be reformulated as an equivalent statement aboutX (namely are also events in FX)

Limits of sequences of r.v.’s

An alternative procedure to generate r.v.’s consists in taking limits of sequences ofr.v.’s (Xn)n∈N . To this end we will preliminarily introduce a suitable definition ofconvergence, even if this point will be subsequently considered in more detail inthe Section 4.1. Remark first that in the following the qualification convergent willbe attributed to both the sequences convergent to finite limits, and that divergenteither to +∞ or to −∞; the wording non convergent will be instead reserved forthe sequences that do not admit a limit whatsoever. Remember moreover that thenotion of convergence that we define here is just the first among the several (nonequivalent) that will be introduced later

A sequence of r.v.’s (Xn)n∈N is a sequence not of numbers, but of functionsof ω ∈ Ω. Only when we fix an ω the elements Xn of the sequence will takethe particular values xn and we get the numerical sequence (xn)n∈N as the sampletrajectory of our sequence of r.v.’s. By choosing on the other hand a different ω′ wewill get a different numerical sequence (x′

n)n∈N , and so on with ω′′... We can thenthink of the sequence of r.v.’s (Xn)n∈N as the set of all its possible samples (xn)n∈Nobtained according to the chosen ω ∈ Ω

Definition 3.8. We say that a sequence of r.v.’s (Xn)n∈N pointwise convergentwhen all the numerical sequences xn = Xn(ω) converge for every ω ∈ Ω

Of course, when our sequence (Xn)n∈N is pointwise convergent every different sample(xn)n∈N either converges toward a different number x, or diverges toward ±∞. Asa consequence the limit is a new function X(ω) of ω ∈ Ω, and the following resultsstate indeed that such a function again is a r.v., while in the reverse every r.v. Xcan be recovered as a limit of suitable simple r.v.’s

2A.N. Shiryaev, Probability, Springer (New York, 1996))

60

Page 61: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

3.2 Random vectors and stochastic processes

Proposition 3.9. If the sequence of r.v.’s (Xn)n∈N is pointwise convergent towardX(ω), then X too is measurable, namely is a r.v.

Proof: Omitted3

Theorem 3.10. Lebesgue theorem: If X is a non negative r.v. (X ≥ 0), we canalways find a sequence (Xn)n∈N of simple, non decreasing r.v.’s

0 ≤ Xn ≤ Xn+1 ≤ X , ∀ω ∈ Ω , ∀n ∈ N

which is pointwise convergent (from below) toward X, and we will also write Xn ↑ X.If instead X is an arbitrary r.v. we can always find a sequence (Xn)n∈N of simpler.v.’s with

|Xn| ≤ |X| , ∀ω ∈ Ω , ∀n ∈ N

which is pointwise convergent toward X

Proof: Omitted4

From the previous results we can prove that, if X and Y are r.v.’s, then also X±Y ,XY , X/Y ... are r.v.’s, provided that they do not take one of the indeterminateforms ∞ − ∞, ∞/∞, 0/0. Remark finally that sometimes, in order to take intoaccount the possible ±∞ limits for some ω, we will suppose that our r.v.’s can alsotake the values +∞ and −∞. In this case we speak of extended r.v.’s whichhowever, with some caution, have the same properties of the usual r.v.’s

3.2 Random vectors and stochastic processes

3.2.1 Random elements

The notion of a r.v. as a measurable function X : (Ω,F) → (R, B(R)) can begeneralized by allowing values in spaces different from (R, B(R)). The sole propertyof (R, B(R)) which is relevant for the definition is indeed to be a probabilizablespace: we can then suppose that our functions take values in more general spaces,and we will speak of random elements that, when not reduced to a simple r.v., willbe denoted as X

Definition 3.11. Take two probabilizable spaces (Ω,F) and (E, E): we say that afunction X : (Ω,F) → (E, E) is a random element when it is F/E-measurable,namely when (see also Figura 3.2)

X−1(B) ∈ F , ∀B ∈ E3A.N. Shiryaev, Probability, Springer (New York, 1996)4A.N. Shiryaev, Probability, Springer (New York, 1996)

61

Page 62: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

BE

Ω

= HΩL

-1HBL

W

X

X

Xx

Figure 3.2: Graphic depiction of the random element definition

Random vectors

Suppose first that (E, E) = (Rn, B(Rn)) withRn = R1×· · ·×Rn Cartesian productof n replicas of the real line: the values taken by the random element X are thenthe n-tuples of real numbers

x = (x1, . . . , xn) = (xk)k=1,...,n ∈ Rn

and in this case we say that X is a random vector (r.vec.) taking values inRn. It would be easy to see that it can be equivalently represented as an n-tuple(Xk)k=1,...,n of r.v.’s Xk each taking values in

(Rk,B(Rk)

)and called components

of the r.vec.: in short to take a r.vec. X = (Xk)k=1,...,n is equivalent to take n r.v.’sas its components. In particulare consider the case (E, E) =

(C,B(C)

)where C

is the set of the complex numbers z = x + iy: since C and R2 are isomorphic, acomplex r.v. Z will be nothing else than a r.vec. with n = 2 whose componentsare its real and imaginary parts according to Z(ω) = X(ω) + iY (ω), where X andY are real r.v.’s

Random sequences

When instead (E, E) = (R∞, B(R∞)) the values of the random element are se-quences of real number

x = (x1, . . . , xn, . . .) = (xn)n∈N ∈ R∞

and X is called random sequence (r.seq.). In this case we can equivalently saythat X coincides with a sequence of r.v.’s (Xn)n∈N , a notion already introducedin the previous section while discussing of convergence

62

Page 63: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

3.2 Random vectors and stochastic processes

Stochastic processes

If finally (E, E) =(RT , B(RT )

), with T a (neither necessarily finite nor countable)

subset of R, the random element X – now called stochastic process (s.p.) –associates to every ω ∈ Ω a function (xt)t∈T , also denoted as x(t) and called tra-jectory. Even here it could be shown that a s.p. can be considered as a family(Xt)t∈T of r.v.’s Xt, also denoted as X(t). A s.p. X can then be considered either asa map associating to ω ∈ Ω a whole function (trajectory) (xt)t∈T ∈ RT , or as a mapassociating to every t ∈ T a r.v. Xt : (Ω,F) → (R, B(R)). In short the componentsXt(ω) = X(ω; t) of a s.p. are functions of two variables t and ω, and the differentnotations are adopted in order to emphasize one or both these variables. Furtherdetails about the s.p.’s will be provided in the Second Part of these lectures. Remarkfinally that if in particular T = 1, 2, . . . = N is the set of the natural numbersthen the s.p. boils down to a sequence of r.v.’s (Xn)n∈N and is also called discretetime stochastic process.

3.2.2 Joint and marginal distributions and densities

When on (Ω,F) we take a probability P , the usual procedures will allow to induceprobabilities also on the spaces (E, E) in order to define laws and distributions ofthe random elements

Laws of random vectors

Given a r.vec. X = (Xk)k=1,...,n, we call joint law (or joint distribution) of itscomponents Xk, the PX defined on (Rn, B(Rn)) through

PXB = PX−1(B)

= P X ∈ B = P (X1, . . . , Xn) ∈ B

where B is an arbitrary element of B(Rn); we call instead marginal laws (ormarginal distributions) of the components Xk, the PXk

defined on(Rk,B(Rk)

)through

PXkA = P

X−1

k (A)= P Xk ∈ A

where A is an arbitrary element of B(Rk). We consequently call joint distributionfunction (joint c.d.f.) of the r.vec. X the c.d.f. of PX , namely

FX(x) = FX(x1, . . . , xn) = PX(−∞, x1]× · · · × (−∞, xn]= P X1 ≤ x1, . . . , Xn ≤ xn

with x = (x1, . . . , xn) ∈ Rn, and marginal distribution function (marginalc.d.f.) of its components Xk the c.d.f.’s of the PXk

, namely

FXk(xk) = P Xk ≤ xk = PXk

(−∞, xk] = PXR1 × · · · × (−∞, xk]× · · · ×Rn

with xk ∈ Rk and k = 1, . . . , n.

63

Page 64: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

Laws of random sequences

The notions about the r.vec.’s can be easily extended to the r.seq.’s X = (Xn)n∈Nby selecting a finite subset of components constituting a r.vec.: taken indeed afinite subset of indices k1, . . . , km, we consider the finite-dimensional, joint lawor distribution of the r.vec. (Xk1 , . . . , Xkm). By choosing the indices k1, . . . , kmin all the possible ways we will have then a (consistent, see Section 2.4) family offinite-dimensional distributions with their finite-dimensional c.d.f.’s

F (x1, k1; . . . ;xm, km) = P Xk1 ≤ x1; . . . ;Xkm ≤ xm

These finite-dimensional distributions (and their c.d.f.’s) of the components Xk arealso called joint, marginal laws or distributions. We must just remember atthis point that, according to the Theorem 2.35, to have this consistent family offinite-dimensional distributions is tantamount to define the probability PX on thewhole space (R∞, B(R∞)) of our r.seq. samples

Laws of stochastic processes

In a similar way we can manage the case of a s.p. X = (Xt)t∈T : given indeed afinite set t1, . . . , tm of instants in T we take the finite-dimensional, joint law ordistribution of the r.vec. (Xt1 , . . . , Xtm) and the corresponding finite-dimensional,joint c.d.f.

F (x1, t1; . . . ;xm, tm) = P Xt1 ≤ x1; . . . ;Xtm ≤ xmThese finite-dimensional distributions (and their c.d.f.’s) of the components Xt areagain called joint, marginal laws or distributions. By choosing now in everypossible way the points t1, . . . , tm we get then a consistent family of c.d.f.’s, andwe remember again that, according to the Theorem 2.37, to have this consistentfamily is tantamount to define a PX on the whole

(RT , B(RT )

)Marginalization

The remarks about joint and marginal distributions discussed in the Section 2.3.3turn out to be instrumental also here. In particular, given the joint c.d.f. FX(x) ofa r.vec. X, we will always be able to find in a unique way the marginal c.d.f.’s byadopting the usual procedure, for example

FXk(xk) = FX(+∞, . . . , xk, . . . ,+∞)

It is easy to see indeed that

FXk(xk) = P Xk ≤ xk = P X1 < +∞, . . . , Xk ≤ xk, . . . , Xn < +∞

= FX(+∞, . . . , xk, . . . ,+∞)

As it has been shown again in the Section 2.3.3, in general it is not possible insteadto recover in a unique way a joint c.d.f. FX from given marginal c.d.f.’s FXk

64

Page 65: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

3.2 Random vectors and stochastic processes

Densities

When the joint c.d.f. FX(x) of a r.vec. X is also a.c. we also have a joint density(joint p.d.f.) fX(x) ≥ 0 such that

FX(x1, . . . , xn) =

∫ x1

−∞. . .

∫ xn

−∞fX(y1, . . . , yn) dy1 . . . dyn

Of course it is also

fX(x1, . . . , xn) =∂nFX(x1, . . . , xn)

∂x1 . . . ∂xn

It is possible to show that in this event also the single components Xk have a.c.marginals c.d.f.’s FXk

(xk) with p.d.f.’s fXk(xk) derivable from the joint p.d.f. fX(x)

by means of the usual marginalization procedure

fXk(xk) =

∫ +∞

−∞. . .

∫ +∞

−∞fX(x1, . . . , xk, . . . , xn) dx1 . . . dxk−1dxk+1 . . . dxn

with n− 1 integrations on all the variables except the kth. Apparently it is also

fXk(xk) = F ′

Xk(xk)

These fXk(xk) are called marginal densities and here too, while from the joint

p.d.f. fX(x) we can always deduce – by integration – the marginals fXk(xk), a

retrieval of the joint p.d.f. from the marginals is not in general unique. From thejoint p.d.f. we can finally calculate PXB with B ∈ B(Rn): if for instance B =(a1, b1]× . . .× (an, bn] in analogy with the univariate case we have

PXB = P X ∈ B = P a1 < X1 ≤ b1, . . . , an < Xn ≤ bn

=

∫ b1

a1

. . .

∫ bn

an

fX(x1, . . . , xn) dx1 . . . dxn

Exemple 3.12. Discrete r.vec.’s: Take a r.vec. with discrete components:since FX is now discrete it will be enough to give the the joint discrete distributions toknow the law. Consider for example a multinomial r.vec. X = (X1, . . . , Xr) withr = 1, 2, . . . , and law B (n; p1, . . . , pr) defined in the Example 2.6. We rememberthat this is the case of a random experiment with r + 1 possible outcomes: theindividual components Xj – representing how many times we find the jth outcomeamong n trials – take values from 0 to n with a joint multinomial law, while it isunderstood that r.v. X0 comes from X0 + X1 + . . . + Xr = n. From (2.9) we thenhave

PXk = P X1 = k1, . . . , Xr = kr =

(n

k1, . . . , kr

)pk00 pk11 · . . . · pkrr (3.1)

with k0 + k1 + . . .+ kr = n, and p0 + p1 + . . .+ pr = 1. In the case r = 1, X reducesto just one component X1 with binomial law B (n; p1)

65

Page 66: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

Resuming then the discussion of the Section 2.1.2, a second example can be ther.vec. X = (X1, . . . , Xn) with the components Xk representing the outcomes ofn coin flips: they take now just the values 0 and 1. As a consequence the Xsamples are the ordered n-tuples (2.5) that in the Bernoulli model occur with aprobability (2.6), so that the joint distribution of the r.vec. X is now

PXa1, . . . , an = P X1 = a1, . . . , Xn = an = pkqn−k aj = 0, 1 (3.2)

with k =∑

j aj and q = 1 − p. A simple calculation would show finally that themarginals of the components Xk are all i.d. with a Bernoulli law B (1; p). For thesake of simplicity we will neglect to display the explicit form of the joint c.d.f. FX

for these two examples

Exemple 3.13. Gaussian r.vec.’s X ∼ N(b,A): A relevant example of a.c. r.vec.is that of the Gaussian (normal) r.vec.’s X = (X1, . . . , Xn) with a multivariate,normal p.d.f. N(b,A) of the type (2.22) presented in the Section 2.3.2. The marginalp.d.f. of a Gaussian r.vec. are of course the Gaussian univariate N (bk, a

2k) of the

type (2.31) as it could be seen with a direct calculation by marginalizing N(b,A).We must remember however that a r.vec. with univariate Gaussian marginals is notforcibly also a Gaussian r.vec.: the joint p.d.f., indeed, is not uniquely defined bysuch marginals, and hence the joint p.d.f. of our r.vec. could differ from a N(b,A),even if its marginals are all N (bk, a

2k)

3.2.3 Independence of r.v.’s

Definition 3.14. Take a probability space (Ω,F ,P ) and a family X = (Xs)s∈Sof r.v.’s with an arbitrary (finite, countable or uncountable) set of indices S: wesay that the components Xs of X are independent r.v.’s if, however taken mcomponents of indices s1, . . . , sm, and however taken the subsets Bk ∈ B(R) withk = 1, . . . ,m, it is

P Xs1 ∈ B1, . . . , Xsm ∈ Bm = P Xs1 ∈ B1 · . . . · P Xsm ∈ Bm

In short, the independence of the r.v.’s in X boils down to the independence (inthe usual sense of the Section 1.5) of all the events that we can define by means ofan arbitrary, finite collection of r.v.’s of X, and in principle this amounts to a verylarge number of relations. The simplest case is that of S = 1, . . . , n when X is ar.vec. with n components, but the definition fits also the case of r.seq.’s and s.p.’s.As already remarked in the Section 3.1.2, we finally recall that it is possible to haver.v.’s identically distributed, but different and also independent: in this case we willspeak of independent and identically distributed r.v.’s (i.i.d.).

Theorem 3.15. Take a r.vec. X = (Xk)k=1,...,n on (Ω,F ,P ): the following twostatements are equivalent

(a) the components Xk are independent;

66

Page 67: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

3.2 Random vectors and stochastic processes

D

x

y

1

1-1 0

D'

x'

y'

1

1-1 0

Figure 3.3: Domains D and D′ in the Example 3.16

(b) FX(x1, . . . , xn) = FX1(x1) · . . . · FXn(xn);

If moreover FX(x) is a.c., then the previous statements are also equivalent to

(c) fX(x1, . . . , xn) = fX1(x1) · . . . · fXn(xn).

Proof: Omitted5

Exemple 3.16. In a first application of the Theorem 3.15 remark that the r.vec.X defined in the Exemple 3.12 with distribution (3.2), and describing the outcomeof n coin flips in the Bernoulli model, is apparently composed of i.i.d. r.v.’s. Thejoint distribution (3.2) (and hence also the joint c.d.f.) turns out indeed to be theproduct of n identical Bernoulli laws B (1; p) representing the marginal laws of theXk. We can say then that X, with the prescribed law (3.2), is a r.vec. of n i.i.d.Bernoulli r.v.’s, and we will also symbolically write X ∼ [B (1; p)]n

Resuming then the Example 2.30 with the Figure 2.12, suppose that f and grespectively are two, different joint p.d.f.’s for the bivariate r.vec.’s U and V . Wehave shown that their marginals coincide, but their relations (2.30) with the jointdistribution are different: the joint p.d.f. of U is the product of its marginals, whilethis is not true for V . We can then conclude from the Theorem 3.15 that U andV , with identical marginals, substantially differ because the components of U areindependent, and that of V are not

In a third example we will suppose again to take two r.vec.’s U = (X, Y ) andV = (X ′, Y ′) with constant p.d.f. (uniform laws) in two different domains of R2:

fU (x, y) =

2π, if (x, y) ∈ D,

0, if (x, y) ∈ D,fV (x

′, y′) =

12, if (x′, y′) ∈ D′,

0, if (x′, y′) ∈ D′,

where the domains D and D′ depicted in Figure 3.3 are

D = (x, y) ∈ R2 : −1 ≤ x ≤ +1, 0 ≤ y ≤√1− x2

D′ = (x′, y′) ∈ R2 : −1 ≤ x′ ≤ +1, 0 ≤ y′ ≤ 15A.N. Shiryaev, Probability, Springer (New York, 1996)

67

Page 68: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

An elementary integration will show that the marginal p.d.f.’s of U are

fX(x) =

√1− x2, if (x ∈ [−1, 1]

0, if x ∈ [−1, 1]fY (y) =

√1− y2, if y ∈ [0, 1]

0, if y ∈ [0, 1]

while the marginals of V are

fX′(x′) =

12, if x′ ∈ [−1, 1]

0, if x′ ∈ [−1, 1]fY ′(y′) =

1, if y′ ∈ [0, 1]0, if y′ ∈ [0, 1]

so thatfU (x, y) = fX(x)fY (y) fV (x

′, y′) = fX′(x′)fY ′(y′)

and hence the components of V are independent r.v.’s, while that of U are not

3.2.4 Decomposition of binomial r.v.’s

The sums of r.v.’s and their laws play an extremely important role and will beextensively discussed in the Section 3.5.2: we will give here just a short preliminaryanalysis for particular, discrete r.v.’s that will enable us to get an important resultabout the binomial laws

Consider a r.vec. U = (X,Y ) whose components take just integer values, andlet their joint and marginal distributions be denoted as

PUj, k = P X = j, Y = k PXj = P X = j PY k = P Y = k

In the following discussion it will be enough to consider X and Y taking just a finitenumber of values

X = j ∈ 0, 1, . . . ,m Y = k ∈ 0, 1, . . . , n (3.3)

but in order to simplify our notations we will suppose that these values are indeedall the relative numbers Z (positive, negative and zero integers), but that only (3.3)have non zero probabilities. Define then the r.v. W = X + Y taking the values

W = ℓ ∈ 0, 1, . . . , n+m

and look for its distribution PW based on the available distributions PU ,PX andPY . In order to do that we will give first a provisional definition of the discreteconvolution between two discrete distributions with integer values, by remarkingalso that a more general one will be provided later in the Definition 3.48

Definition 3.17. Take two discrete laws with integer values P and Q and let p(j)and q(k) be their distributions: we say that the law R is their (discrete) convo-lution P ∗Q when its distribution r(ℓ) is

r(ℓ) =∑k∈Z

p(ℓ− k)q(k) (3.4)

68

Page 69: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

3.2 Random vectors and stochastic processes

Proposition 3.18. Within the given notations it is

PWℓ =∑k∈Z

PUℓ− k, k

If moreover X and Y are also independent we get

PWℓ =∑k∈Z

PXℓ− kPY k = (PX ∗ PY )ℓ (3.5)

so that PW turns out to be the (discrete) convolution of PX and PY

Proof: We have indeed

PWℓ = P W = ℓ = P X + Y = ℓ =∑j+k=ℓ

P X = j, Y = k

=∑j+k=ℓ

PUj, k =∑k∈Z

PUℓ− k, k

When moreover X and Y are also independent, from the Theorem 3.15 we havePUj, k = PXjPY k and hence (3.5) is easily deduced

In the Bernoulli model of the Section 2.1.2 the sample space Ω was the set of then-tuples of results ω = (a1 , . . . an) as in (2.5), where aj = 0, 1 is the outcome of thejth draw, and k =

∑j aj is the number of white balls in an n-tuple of draws. We

then defined the events

Aj = ω ∈ Ω : aj = 1 j = 1, . . . , n

Dk =

ω ∈ Ω :

n∑j=0

aj = k

k = 0, 1, . . . , n

and, taken on Ω the probability (2.6), we have shown that P Dk are a binomialdistribution B (n; p), while the Aj are independent with P Aj = p. We are ablenow to revise this model in terms of r.v.’s: consider first the r.vec.X = (X1, . . . , Xn)(as already defined in the Sections 3.2.2 and 3.2.3) whose independent componentsare the r.v.’s (indicators)

Xj = IAj

namely the outcomes of every draw, and then the (simple) r.v.

Sn =n∑

k=0

kIDk

namely the number of white balls in n draws. Apparently it is Dk = Sn = k andAj = Xj = 1, while among our r.v.’s the following relation holds

Sn =n∑

j=1

Xj (3.6)

69

Page 70: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

because, by definition, for every ω ∈ Ω the value of Sn (number of white balls)is the sum of all the Xj, and hence the r.v.’s in (3.6) are indistinguishable (seeDefinition 3.4) and also i.d.In the Section 2.1.2 we have also seen by direct calculationthat

Xj ∼ B (1; p) Sn ∼ B (n; p)

namely that the sum of n independent Bernoulli r.v.’sXj ∼ B (1; p) is a binomial r.v.Sn ∼ B (n; p). We will now revise these results in the light of the Proposition 3.18

Proposition 3.19. A binomial law B (n; p) is the convolution of n Bernoulli lawsB (1; p) according to

B (n; p) = [B (1; p)]∗n = B (1; p) ∗ . . . ∗B (1; p)︸ ︷︷ ︸n volte

(3.7)

As for the r.v.’s we can then say that:

• if we take n i.i.d. Bernoulli r.v.’s Xk ∼ B (1; p), their sum Sn = X1+ . . .+Xn

will follow the binomial law B (n; p)

• if we take a binomial r.v. Sn ∼ B (n; p), there exist n i.i.d. Bernoulli r.v.’sXk ∼ B (1; p) such that Sn is decomposed (in distribution) into their sum,namely

Snd= X1 + . . .+Xn (3.8)

Proof: The Bernoulli law B (1; p) has the distribution

p1(k) =

(1

k

)pkq1−k =

p se k = 1q se k = 0

so that from (3.4) the law B (1; p) ∗ B (1; p) will give only to 0, 1, 2 the non zeroprobabilities

r(0) = p1(0)p1(0) = q2

r(1) = p1(0)p1(1) + p1(1)p1(0) = 2pqr(2) = p1(1)p1(1) = p2

which coincide with the distribution

p2(k) =

(2

k

)pkq2−k

of the binomial law B (2; p). The complete result (3.7) follows by induction, but wewill neglect to check it. As for the r.v.’s, if X1 . . . , Xn are n i.i.d. Bernoulli r.v.’sB (1; p) i.i.d., from the Proposition 3.18 the distribution of their sum Sn will bethe convolution of their laws, which according to (3.7) will be the binomial B (n; p).If conversely Sn ∼ B (n; p) we know from (3.7) that its law is convolution of nBernoulli B (1; p). From the Definition 3.5 on the other hand we know that to thesen distributions we can always associate n i.i.d. Bernoulli r.v.’s X1, . . . , Xn so that

from the Proposition 3.18 results Snd= X1 + . . .+Xn

70

Page 71: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

3.3 Expectation

3.3 Expectation

3.3.1 Integration and expectation

The expectation of a r.v. X is a numerical indicator specifying the location of thebarycenter of a distribution PX , and takes origin from the notion of weighed average.For simple r.v.’s

X =n∑

k=1

xkIDk

where Dk = X = xk ∈ F is a decomposition, the expectation is just the weighedaverage of its values

E [X] =n∑

k=1

xkPXxk =n∑

k=1

xkP X = xk =n∑

k=1

xkP Dk (3.9)

a definition extended in a natural way also to the general discrete r.v.’s (includingthe case of countably many values) as

E [X] =∞∑k=1

xkPXxk

provided that the series converges. Remark that in particular for every A ∈ F wealways have

E [IA] = P A (3.10)

a simple result that however highlights a relation between the notions of probabilityand expectation that will be instrumental for later purposes

When however X is an arbitrary r.v. we can no longer adopt these elementarydefinitions. In this case we first remark that when X is a non negative r.v. theTheorem 3.10 points to the existence of a non decreasing sequence of non negative,simple r.v.’s (Xn)n∈N such that Xn(ω) ↑ X(ω) for every ω ∈ Ω. From the previouselementary definitions we can then define the non negative, monotonic non decreas-ing numerical sequence (E [Xn])n∈N always admitting a limit (possibly +∞) thatwe can consider as the definition of the expectation of X. To extend then this pro-cedure to a totally arbitrary r.v. X we remember that this is always representableas a difference between non negative r.v.’s in the form

X = X+ −X−

where X+ = maxX, 0 and X− = −minX, 0 are respectively called positive andnegative parts of X. As a consequence we can separately take the two non negativer.v.’s X+ and X−, define their expectation and finally piece together that of X bydifference. Neglecting the technical details, we can then sum up these remarks inthe following definition

71

Page 72: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

Definition 3.20. To define the expectation of a r.v. X we adopt the followingprocedure:

• if X is a non negative r.v. we call expectation the limit (possibly +∞)

E [X] = limn

E [Xn]

where (Xn)n∈N is a monotonic non decreasing sequence of simple r.v.’s suchthat Xn ↑ X for every ω ∈ Ω, and E [Xn] are defined in an elementary way;the existence of such sequences (Xn)n∈N follows from the Theorem 3.10, andit is possible to prove that the result is independent from the choice of theparticular sequence;

• if X ia an arbitrary r.v. we will say that its expectation exists when at leastone of the two non negative numbers E [X+] , E [X−] is finite, and in thatcase we take

E [X] = E[X+]−E

[X−]

if instead both E [X+] and E [X−] are +∞ we will say that the expectation ofX does not exist;

• when both the numbers E [X+] , E [X−] are finite, also E [X] is finite and Xis said integrable, namely to have a finite expectation

E [X] < +∞

since moreover |X| = X+ + X−, if X is integrable, it turns out to be alsoabsolutely integrable, namely

E [|X| ] < +∞

and it is apparent that also the reverse holds, so that we can say that a r.v. isintegrable iff it is absolutely integrable

Since the procedure outlined in the previous definition closely resembles that usedto define the Lebesgue integral we will also adopt in the following the notation

E [X] =

∫Ω

X dP =

∫Ω

X(ω)P dω

More generally, if g is a measurable function from (Ω,F) to (R, B(R)), and µ isa measure (possibly not a probability) on (Ω,F), the Lebesgue integral is definedretracing the procedure of the Definition 3.20 and is denoted as∫

Ω

g dµ =

∫Ω

g(ω)µdω

When µ is not a probability however such an integral is not an expectation

72

Page 73: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

3.3 Expectation

It is also possible to restrict our integrals to the subsets of Ω: if A ∈ F is asubset of Ω, we call Lebesgue integral over the set A the integrals∫

A

X dP =

∫Ω

XIA dP = E [XIA]

∫A

g dµ =

∫Ω

gIA dµ

respectively for a probability P and for a general measure µ. Remark that (3.10)takes now the more evocative form

P A = E [IA] =

∫Ω

IA dP =

∫A

dP (3.11)

apparently stressing that the probability of an event A is nothing else than the theintegral of P on A

Definition 3.21. We will call moment of order k of a r.v. X the expectation (ifit exists)

E[Xk]=

∫Ω

Xk dP k = 0, 1, 2, . . .

and absolute moment of order r the expectation (if it exists)

E [|X|r] =∫Ω

|X|r dP r ≥ 0

It is important finally to recall the notations usually adopted for the integrals when inparticular (Ω,F) = (Rn, B(Rn)), g is a Borel function, and G(x) is the generalizedc.d.f. of a Lebesgue-Stieltjes measure µ: in this case we will speak of a Lebesgue-Stieltjes integral and we will write∫

Ω

g dµ =

∫Rn

g dG =

∫Rn

g(x)G(dx) =

∫Rn

g(x1, . . . , xn)G(dx1, . . . , dxn)

For n = 1 on the other hand we also write∫R

g dG =

∫R

g(x)G(dx) =

∫ +∞

−∞g(x)G(dx)

while the integral on an interval (a, b] will be∫(a,b]

g(x)G(dx) =

∫R

I(a,b](x)g(x)G(dx) =

∫ b

a

g(x)G(dx)

If µ is the Lebesgue measure, G(dx) is replaced by dx and, for n = 1, G(dx) isreplaced by dx. When finally µ is a probability P , G is replaced by a c.d.f. F andthe integral on the whole Rn will take the meaning of an expectation

73

Page 74: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

BRn

Ω

x X= HΩL

y = Y HΩL = gH Lx

-1HBL

W

g

Y

X

X

R

Figure 3.4: Graphical depiction of the Theorem 3.22.

3.3.2 Change of variables

Theorem 3.22. (Change of variables): Take the r.vec. X = (X1, . . . , Xn) on(Ω,F ,P ) with joint distribution PX , and the Borel function g : (Rn, B(Rn)) →(R, B(R)); if Y = g(X) (see Figure 3.4), we have

E [Y ] =

∫Ω

Y (ω) dP (ω) = E [g(X)] =

∫Ω

g(X(ω)) dP (ω)

=

∫Rn

g(x)PXdx =

∫Rn

g(x1, . . . , xn)PXdx1, . . . , dxn

Proof: Omitted6. Remark from Figure 3.4 that in general, with n ≥ 2, X is ar.vec. and g(x) = g(x1, . . . , xn) an n variables function according to the diagram

(Ω,F)X−→ (Rn, B(Rn))

g−→ (R, B(R))

while Y = g(X) is a r.v. In the simplest case n = 1 the r.vec. X has just onecomponent X, and the diagram of the Theorem 3.22 boils down to

(Ω,F)X−→ (R, B(R))

g−→ (R, B(R))

with Y = g(X)

Since the Definition 3.20 of expectation is rather abstract the previous result and itsaftermaths, that basically resort just to the ordinary real integration, are of great

6A.N. Shiryaev, Probability, Springer (New York, 1996)

74

Page 75: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

3.3 Expectation

practical importance. According to the Theorem 3.22 we can indeed calculate theexpectation of Y = g(X) (in the sense of the abstract integral of a function fromΩ to R) as an integral of Borel functions g(x) from Rn to R. Since moreover thedistribution PX on (Rn, B(Rn)) has a c.d.f. F – and possibly a p.d.f. f – we candeduce a few familiar rules of integration. To this end remember that if FX and fXrespectively are the c.d.f. and the p.d.f. of PX , it is possible to prove (but we willneglect the details) that∫

A

g(x)FX(dx) =

∫A

g(x)fX(x) dx ∀A ∈ B(R) (3.12)

so that, if a p.d.f. exists, we can replace FX(dx) by fX(x) dx in in all the followingintegrations

Corollary 3.23. Nel caso n = 1, quando il r.vec. X si riduce ad una sola compo-nente X, se PX ha una c.d.f. FX(x) discreta, dal Teorema 3.22 avremo

E [Y ] = E [g(X)] =

∫ +∞

−∞g(x)FX(dx) =

∑k

g(xk)PXxk (3.13)

e se inoltre g(x) = x (cioe se Y = X) otterremo

E [X] =∑k

xkPXxk (3.14)

sicche potremo anche scrivere

E [Y ] =∑ℓ

yℓPY yℓ =∑k

g(xk)PXxk (3.15)

Se invece FX(x) e a.c. con p.d.f. fX(x), risultera

E [Y ] = E [g(X)] =

∫ +∞

−∞g(x)FX(dx) =

∫ +∞

−∞g(x)fX(x) dx (3.16)

e se g(x) = x si otterra l’usuale relazione

E [X] =

∫ +∞

−∞xFX(dx) =

∫ +∞

−∞xfX(x) dx (3.17)

in base alla quale potremo anche scrivere

E [Y ] =

∫ +∞

−∞yfY (y) dy =

∫ +∞

−∞g(x)fX(x) dx (3.18)

Nel caso n > 1, dette FX(x) e fX(x) le c.d.f. e p.d.f. congiunte di X, e FY (y) efY (y) le c.d.f. e p.d.f. di Y = g(X), le (3.16) e (3.18) divengono

E [Y ] = E [g(X)] =

∫R

yfY (y) dy =

∫Rn

g(x)fX(x) dnx

=

∫ +∞

−∞. . .

∫ +∞

−∞g(x1, . . . , xn)fX(x1, . . . , xn) dx1 . . . dxn (3.19)

75

Page 76: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

Infine probabilita e c.d.f. si calcolano rispettivamente come

PX

[a1, b1]× · · · × [an, bn]

=

∫ b1

a1

. . .

∫ bn

an

fX(x) dnx (3.20)

FX(x1, . . . , xn) =

∫ x1

−∞. . .

∫ xn

−∞fX(y) dny (3.21)

e si ritrovano anche le regole di marginalizzazione

fXk(xk) =

∫ +∞

−∞. . .

∫ +∞

−∞fX(x1, . . . , xn) dx1 . . . dxk−1dxk+1 . . . dxn (3.22)

Proof: Trascurando per brevita la verifica completa dei risultati, osserveremo soloche nel caso n = 1 con FX(x) a.c. e p.d.f. fX(x) l’enunciato del Teorema 3.22 diventa

E [Y ] = E [g(X)] =

∫Ω

Y dP =

∫Ω

g(X)P dω =

∫R

g(x)PXdx

=

∫R

g(x)FX(dx) =

∫R

g(x)fX(x) dx

e fornisce immediatamente (3.16) e (3.17). Inoltre, essendo la (3.17) valida perqualsiasi r.v., se introduciamo la p.d.f. fY della r.v. Y , potremo sicuramente scrivereanche

E [Y ] =

∫ +∞

−∞yFY (dy) =

∫ +∞

−∞yfY (y) dy (3.23)

e quindi confrontando (3.16) con (3.23) si ottiene (3.18): in pratica il expectation diY = g(X) puo essere calcolato in due modi equivalenti secondo la p.d.f., fX o fY ,che si vuole usare, e l’equazione (3.18) altro non e che l’usuale regola per il cambiodi variabile di integrazione y = g(x).

Per ottenere le formule sulle probabilita (sempre per n = 1) si considera poi inparticolare il caso in cui g(x) e un indicatore χB(x) su (R, B(R))

g(x) = χB(x) =

1, se x ∈ B0, altrimenti

B ∈ B(R)

una funzione di Borel che e in relazione con il corrispondente indicatore su (Ω,F)tramite la relazione

χB(X(ω)) = IX−1(B)(ω) ∀ω ∈ Ω

dato che ω ∈ X−1(B) equivale a X(ω) ∈ B. Dal Teorema 3.22 si ha allora

P X ∈ B = PXB = PX−1(B)

= E

[IX−1(B)

]=

∫Ω

IX−1(B) dP

=

∫Ω

χB(X) dP =

∫R

χB(x)PXdx =

∫R

χB(x)FX(dx)

=

∫B

FX(dx) =

∫B

fX(x) dx

76

Page 77: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

3.3 Expectation

un risultato gia anticipato alla fine della Sezione 3.1.2. In particolare, quando B =[a, b], scriveremo

PX[a, b] = P a ≤ X ≤ b =

∫ b

a

fX(x) dx (3.24)

mentre per B = (−∞, x] si ha

PX(−∞, x] = P X ≤ x = FX(x) =

∫ x

−∞fX(t) dt (3.25)

formule che, come altre di questa sezione, sono in generale prese come punti dipartenza di trattazioni piu elementari. Si noti infine che, quando supponiamol’esistenza di una p.d.f. f , le c.d.f. delle leggi discusse nel corollario sono eviden-temente a.c., e quindi continue: pertanto la probabilita assegnata ai singoli punti erigorosamente nulla. Conseguentemente l’inclusione o l’esclusione degli estremi degliintervalli considerati e perfettamente irrilevante: per questo motivo, ad esempio, ilfatto che nella formula (3.24) l’intervallo sia chiuso in ambedue gli estremi e unapura questione di convenienza di notazione

Exemple 3.24. Se X ∼ δb e una r.v. degenere il suo expectation e banalmente

E [X] = b · 1 = b (3.26)

mentre se X ∼ B (1; p) e una r.v. di Bernoulli avremo

E [X] = 1 · p+ 0 · (1− p) = p (3.27)

Se poi X ∼ B (n; p) e una r.v. binomiale con un riscalamento di indici si ha

E [X] =n∑

k=1

k

(n

k

)pkqn−k = np

n∑k=1

(n− 1

k − 1

)pk−1qn−k

= npn−1∑k=0

(n− 1

k

)pkqn−1−k = np (3.28)

e infine, in maniera analoga, se X ∼ P(α) e una r.v. di Poisson si ha

E [X] = e−α

∞∑k=0

kαk

k!= e−α

∞∑k=1

αk

(k − 1)!= αe−α

∞∑k=0

αk

k!= α (3.29)

Exemple 3.25. La formula (3.17) ci permette ora di calcolare il expectation deller.v. X dotate di p.d.f. fX . Per una r.v. uniforme X ∼ U (a, b) con p.d.f. (2.14)si ha

E [X] =

∫ b

a

x

b− adx =

1

b− a

[x2

2

]ba

=a+ b

2(3.30)

77

Page 78: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

mentre se X e una r.v. Gaussiana X ∼ N (b, a2) con p.d.f. (2.15), posto y =(x− b)/a, e tenendo conto dei noti integrali Gaussiani∫ ∞

−∞e−y2/2 dy =

√2π

∫ ∞

−∞ye−y2/2 dy = 0

∫ ∞

−∞y2e−y2/2 dy =

√2π (3.31)

si ha

E [X] =1

a√2π

∫ ∞

−∞x e−(x−b)2/2a2 dx =

1√2π

∫ ∞

−∞(ay + b)e−y2/2 dy

=b√2π

∫ ∞

−∞e−y2/2 dy = b (3.32)

Se poi X e una r.v. esponenziale X ∼ E(a) con p.d.f. (2.17) il expectation e

E [X] =

∫ +∞

0

ax e−ax =1

a

[−(1 + ax)e−ax

]+∞0

=1

a(3.33)

e se e una r.v. di Laplace X ∼ L(a) con p.d.f. (2.18) il expectation e

E [X] =

∫ +∞

−∞

a

2x e−a|x| = 0 (3.34)

Sara importante osservare, invece, che se X e una r.v. di Cauchy X ∼ C(a, b)con p.d.f. (2.19) il expectation non esiste nel senso della Definizione 3.20, cioe neconverge, ne diverge: semplicemente non e definito. Infatti, usando la funzionedi Heaviside (2.13), e facile rendersi conto del fatto che X+ = Xϑ(X) e X− =−Xϑ(−X). Prendendo allora per semplicita una legge di Cauchy C(a, 0) con b = 0in modo che la p.d.f. (2.19) risulti simmetrica con fX(−x) = fX(x), si ha

E[X+]= E

[X−] = a

π

∫ +∞

0

x

a2 + x2dx =

a

π

[1

2ln(a2 + x2)

]+∞

0

= +∞

per cui E [X] e del tipo ∞−∞, e quindi il expectation non e definito come integraledi Lebesgue. Non e rilevante invece il fatto che il valor principale

limM→+∞

a

π

∫ +M

−M

x

a2 + x2dx = 0

esista finito: il expectation e un integrale di Lebesgue, e non uno di Riemann, netanto meno un valor principale. Come vedremo piu avanti nella Sezione 4.6, questadifferenza e molto piu di una sottigliezza matematica e ha delle implicazioni piuttostoprofonde.

Proposition 3.26. Siano X e Y r.v. integrabili definite su (Ω,F ,P ):

1. E [aX + bY ] = aE [X] + bE [Y ] con a, b ∈ R

78

Page 79: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

3.3 Expectation

2.∣∣E [X]

∣∣ ≤ E [|X|]

3. se X = 0, P -a.s., allora E [X] = 0; se poi X e una generica r.v. e A unevento

E [XIA] =

∫A

X dP = 0 se P A = 0

4. se X ≤ Y , P -a.s. allora E [X] ≤ E [Y ], e se X = Y , P -a.s. allora E [X] =E [Y ]

5. se X ≥ 0 e E [X] = 0, allora X = 0, P -a.s., cioe X e degenere δ0

6. se E [XIA] ≤ E [Y IA] , ∀A ∈ F , allora X ≤ Y , P -a.s., e in particolare seE [XIA] = E [Y IA] , ∀A ∈ F , allora X = Y , P -a.s.

7. se X e Y sono indipendenti, allora anche XY e integrabile e

E [XY ] = E [X] ·E [Y ]

Proof: Omitted7. Questi risultati sono, in una diversa notazione, le solite proprietadell’integrale di Lebesgue

Exemple 3.27. Come particolare applicazione osserviamo che dalla proprieta 1.il expectation E [ · ] risulta essere un funzionale lineare, e che questo consente al-cune semplificazioni di calcolo. In particolare ricorderemo che per calcolare il ex-pectation (3.28) di una r.v. binomiale Sn con legge B (n; p) abbiamo utilizzatonell’Esempio 3.24 la definizione elementare (3.9): sebbene in questo modo il risul-tato sia stato ottenuto direttamente e con poco sforzo, e opportuno osservare che unmetodo ancora piu rapido consiste nel ricordare l’equazione (3.8) in base alla qualeogni r.v. binomiale coincide in distribuzione con la somma di n r.v. X1, . . . , Xn i.i.d.di Bernoulli B (1; p). Siccome il expectation dipende solo dalla distribuzione di unar.v., e siccome da (3.27) sappiamo che E [Xj] = p, dalla linearita del expectationabbiamo allora immediatamente che

E [Sn] = E

[n∑

j=1

Xj

]=

n∑j=1

E [Xj] = np (3.35)

risultato che ovviamente coincide con (3.28)

I valori d’attesa soddisfano ovviamente anche alcune importanti disuguaglianze chesono tipiche della teoria dell’integrazione: esse sono ricapitolate nella loro formu-lazione probabilitstica nell’Appendice B. Nella successiva Sezione 3.3.3 introdur-remo invece separatamente la Disuguaglianza di Chebyshev (Proposizione 3.41) perl’importanza che essa rivestira nella discussione della Legge dei Grandi Numeri

7N. Cufaro Petroni, Calcolo delle Probabilita, Edizioni dal Sud (Bari, 1996)

79

Page 80: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

3.3.3 Variance and covariance

Il expectation di una r.v. X e un numero che individua per cosı dire il baricentrodella sua distribuzione. Esso pero da un lato non e l’unico indicatore di centralita, edall’altro non esaurisce tutta l’informazione contenuta nella legge di X. Ricordiamoinfatti che il expectation puo non essere neanche uno dei possibili valori di X: adesempio il expectation p di una r.v. di Bernoulli B (1; p) (che assume solo i valori0 e 1) non e in generale ne 0, ne 1. Ci sono inoltre anche altri parametri numericiche possono altrettanto legittimamente individuare il centro di una distribuzione:ad esempio la moda (o le mode) che, per r.v. dotate di p.d.f., e semplicemente ilvalore (o i valori) di x in cui fX(x) ha un massimo. Si vede facilmente che – trannecasi molto particolari – il expectation non coincide con la moda della distribuzione:in particolare quando la distribuzione non e simmetrica essa ha il suo massimo ed ilsuo baricentro (se esso esiste) in posizioni diverse.

E dunque importante esaminare anche altri parametri numerici che contribuis-cano a caratterizzare la r.v. X e la sua legge. Uno particolarmente rilevante saracostituito da una qualche misura della dispersione con cui i valori della r.v. sidistribuiscono attorno al expectation . Le deviazioni dei valori di X rispetto aE [X] sono descritte dallo scarto X −E [X] e si potrebbe pensare a prima vista cheuna misura significativa della dispersione potrebbe essere data dal suo expectationE [X −E [X]]. Si vede subito pero che il suo valore e identicamente nullo

E [X −E [X]] = E [X]−E [X] = 0

e che quindi esso non puo essere assunto come una buona misura della dispersionedi X. Siccome e intuitivamente chiaro che questa situazione dipende essenzialmentedal fatto che X −E [X] assume valori positivi e negativi, si usa prendere in consid-erazione piuttosto lo scarto quadratico (X −E [X])2 che invece assume solo valoripositivi e che avra quindi una expectation in generale diverso da zero

Definition 3.28. Se X, Y sono r.v. integrabili, e X = (X1, . . . , Xn) e un r.vec.con componenti integrabili

• si chiama varianza di X il numero non negativo (finito o infinito)

V [X] = E[(X −E [X])2

]= σ2

X

e deviazione standard la sua radice quadrata positiva σX = +√V [X]

• si chiama covarianza di X e Y la quantita (se esiste)

cov [X, Y ] = E [ (X −E [X])(Y −E [Y ]) ](cov [X,X] = V [X]

)e (se V [X] = 0, V [Y ] = 0) coefficiente di correlazione la quantita

ρ [X,Y ] =cov [X, Y ]√V [X]

√V [Y ]

80

Page 81: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

3.3 Expectation

• se cov [X, Y ] = 0, ovvero ρ [X,Y ] = 0, X e Y si dicono r.v. non correlate

• si chiama matrice delle covarianze (rispettivamente delle correlazioni)del r.vec. X la matrice n × n, R = ∥rij∥ (rispettivamente P = ∥ρij∥) i cuielementi sono rij = cov [Xi, Xj] (rispettivamente ρij = ρ [Xi, Xj]).

Proposition 3.29. Se X ed Y sono r.v., e a e b sono numeri si ha:

1. cov [X, Y ] = E [XY ]−E [X]E [Y ], e in particolare V [X] = E [X2]−E [X]2

2. se V [X] = 0, allora X = E [X], P -a.s.

3. V [a+ bX] = b2 V [X]

4. V [X + Y ] = V [X] + V [Y ] + 2 cov [X,Y ]

5. se X ed Y sono indipendenti, allora sono anche non correlate

Proof:

1. Sviluppando il prodotto nella definizione si ha infatti:

cov [X,Y ] = E [XY ]− 2E [X]E [Y ] +E [X]E [Y ] = E [XY ]−E [X]E [Y ]

Ponendo poi X = Y si ottiene anche il risultato sulla varianza

2. Siccome (X − E [X])2 ≥ 0, il risultato segue direttamente dalla 5 di Propo-sizione 3.26: infatti se V [X] = 0 allora X −E [X] = 0, P -a.s. (cioe e una r.v.degenere δ0) e quindi X = E [X], P -a.s.

3. Per la linearita del expectation si ha E [a+ bX] = a+ bE [X], e quindi

V [a+ bX] = E[(a+ bX − a− bE [X])2

]= b2E

[(X −E [X])2

]= b2V [X]

4. Si ha infatti

V [X + Y ] = E[(X + Y −E [X + Y ])2

]= E

[(X −E [X] + Y −E [Y ])2

]= V [X] + V [Y ] + 2E [(X −E [X]) (Y −E [Y ])]

= V [X] + V [Y ] + 2 cov [X, Y ]

Si noti che, diversamente da quel che avviene per il expectation E , la varianzaV non e un funzionale lineare. In particolare abbiamo appena mostrato chein generale V [X + Y ] non coincide con la somma V [X] + V [Y ]; cio avvienesolo se le due r.v. X e Y sono anche non correlate: solo in questo caso infattisi ha

V [X + Y ] = V [X] + V [Y ] se cov [X,Y ] = 0

81

Page 82: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

5. A causa dell’indipendenza di X ed Y dalla definizione si ha

cov [X, Y ] = E [X −E [X]] E [Y −E [Y ]] = 0

cioe X e Y sono anche non correlate

Proposition 3.30. Comunque date due r.v. X e Y , risulta sempre

|ρ [X, Y ] | ≤ 1

Inoltre si ha |ρ [X, Y ] | = 1 se e solo se esistono due numeri a = 0 e b tali cheY = aX + b, P -a.s.; in particolare risulta a > 0 se ρ [X, Y ] = +1, e a < 0 seρ [X, Y ] = −1

Proof: Omitted8. Queste importanti proprieta del coefficiente di correlazione ρ nonsi estendono anche alla covarianza che puo infatti assumere qualunque valore realepositivo o negativo. La precedente proposizione mostra in particolare che ρ e unamisura della linearita della dipendenza fra X e Y : infatti quando ρ assume i suoivalori estremi ±1, Y dipende linearmente da X, addirittura in maniera funzionale.

Exemple 3.31. Indipendenza e non correlazione: Il punto 5 della Propo-sizione 3.29 afferma che se due r.v. sono indipendenti esse sono anche non cor-relate. E importante pero osservare che in generale il viceversa non e vero: due r.v.possono non essere indipendenti, pur essendo non correlate. Ad esempio sia α unar.v. che assume i tre valori 0, π

2, π con uguali probabilita 1

3, e siano poi definite le

r.v. X = sinα e Y = cosα. Si verifica subito che X ed Y sono non correlate: infatti

E [X] =1

3· 0 + 1

3· 1 + 1

3· 0 =

1

3E [Y ] =

1

3· 1 + 1

3· 0 + 1

3· (−1) = 0

E [XY ] =1

3· (1 · 0) + 1

3· (0 · 1) + 1

3· (−1 · 0) = 0

per cuiE [X]E [Y ] = 0 = E [XY ]

Ma si verifica altrettanto facilmente che esse non sono indipendenti: infatti

P X = 1 =1

3P Y = 1 =

1

3P X = 1, Y = 1 = 0

e quindi

P X = 1, Y = 1 = 0 = 1

9= P X = 1P Y = 1

8P.L. Meyer, Introductory Probability and Statistical Applications, Addison-Wesley (Reading, 1980)

82

Page 83: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

3.3 Expectation

Proposition 3.32. Condizione necessaria e sufficiente affinche una matrice n× n,R sia matrice delle covarianze di un r.vec. X = (X1, . . . , Xn), e che tale matrice siasimmetrica e definita non negativa; ovvero, equivalentemente, che esista una matricen× n, C tale che R = CCT, dove CT e la trasposta della matrice C.

Proof: Si vede facilmente dalla definizione che la matrice delle covarianze R di unr.vec. X e simmetrica (rij = rji), e si verifica anche subito che essa e definita nonnegativa: infatti, comunque scelti n numeri reali λ1, . . . , λn, si ha

n∑i,j=1

rijλiλj =n∑

i,j=1

λiλjE [(Xi −E [Xi])(Xj −E [Xj])]

= E

( n∑i=1

λi(Xi −E [Xi])

)2 ≥ 0

La proposizione afferma che queste proprieta sono caratteristiche delle matrici dellecovarianze, nel senso che e vero anche l’inverso: ogni matrice simmetrica e definitanon negativa e una buona matrice delle covarianze di qualche r.vec. X. Omettiamo9

la dimostrazione di questa affermazione e del resto della proposizione

Exemple 3.33. Esamineremo innanzitutto alcuni esempi di varianze di leggi dis-crete: se X ∼ δb e una r.v. degenere ovviamente si ha V [X] = 0; se inveceX ∼ B (1; p) e una r.v. di Bernoulli si vede subito che, essendo E [X] = p, si ha

V [X] = E[(X −E [X])2

]= (1− p)2 p+ (0− p)2 (1− p) = p (1− p)

Se poi Sn ∼ B (n; p) e una r.v. binomiale, siccome da (3.8) sappiamo che indistribuzione essa e la somma di n r.v. X1, . . . , Xn di Bernoulli i.i.d. B (1; p), acausa della indipendenza delle Xj avremo

V [Sn] = V

[n∑

j=1

Xj

]=

n∑j=1

V [Xj] =n∑

j=1

p(1− p) = np(1− p) (3.36)

Se X ∼ P(α) e una r.v. di Poisson, per la quale da (6.12) gia sappiamo cheE [X] = α, conviene partire dal calcolo di

E [X(X − 1)] =∞∑k=0

k(k − 1)e−ααk

k!= e−α

∞∑k=2

αk

(k − 2)!= α2e−α

∞∑k=0

αk

k!= α2

da cui si ricava

E[X2]= α2 +E [X] = α2 + α

9N. Cufaro Petroni, Calcolo delle Probabilita, Edizioni dal Sud (Bari, 1996)

83

Page 84: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

e in definitiva

V [X] = E[X2]−E [X]2 = α2 + α− α2 = α

Si noti la proprieta delle leggi di Poisson per le quali E [X] = V [X] = α. Passandopoi alle leggi dotate di p.d.f. abbiamo per una r.v. uniforme X ∼ U (a, b)

E[X2]=

∫ b

a

x2

b− adx =

1

b− a

[x3

3

]ba

=b3 − a3

3(b− a)

e tenendo conto di (3.30) si ottiene

V [X] = E[X2]−E [X]2 =

b3 − a3

3(b− a)− (a+ b)2

4=

(b− a)2

12(3.37)

Analogamente per una r.v. esponenziale X ∼ E(a) si ha con y = ax

E[X2]=

∫ +∞

0

x2ae−axdx =1

a2

∫ +∞

0

y2e−ydy =1

a2[−(2 + 2y + y2)e−y

]+∞0

=2

a2

e quindi tenendo conto di (3.33)

V [X] = E[X2]−E [X]2 =

2

a2− 1

a2=

1

a2(3.38)

In modo simile si dimostra che per una r.v. di Laplace X ∼ L(a) si ha

V [X] =2

a2(3.39)

Se infine X ∼ N (b, a2) e una r.v. Gaussiana, tenendo conto degli integrali Gaus-siani (3.31) si ha con y = (x− b)/a

E[X2]=

∫ +∞

−∞x2 e

−(x−b)2/2a2

a√2π

dx =1√2π

∫ +∞

−∞(ay + b)2e−y2/2dy = a2 + b2

e quindi da (3.32)

V [X] = E[X2]−E [X]2 = (a2 + b2)− b2 = a2 (3.40)

Per una r.v. di Cauchy X ∼ C(a, b) invece la varianza non puo essere definitaperche il suo expectation non esiste come abbiamo visto alla fine della Sezione 3.3.2,e comunque anche il suo secondo momento e divergente come puo essere visto piufacilmente nel caso b = 0, con y = x/a

E[X2]=

a

π

∫ +∞

−∞

x2

a2 + x2dx =

a2

π

∫ +∞

−∞

y2

1 + y2dy =

a2

π[y − arctan y]+∞

−∞ = +∞

84

Page 85: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

3.3 Expectation

Exemple 3.34. Vettori Gaussiani bivariati: Se X = (X,Y ) ∼ N(b,A) e unr.vec. Gaussiano (normale) bivariato sappiamo che la sua p.d.f. congiunta (2.24) ecaratterizzata da cinque parametri: le due componenti di b = (b1, b2) ∈ R2, e i trenumeri a1 > 0, a2 > 0, |r| ≤ 1 associati agli elementi della matrice simmetrica edefinita positiva A dalle relazioni

ak =√akk r =

a12√a11a22

=a21√a11a22

Come gia indicato nell’Esempio 2.31, le marginali sono a loro volta delle r.v. normaliN (bk, a

2k) con p.d.f.

fX(x) =

∫ ∞

−∞fX(x, y) dy =

1

a1√2π

e−(x−b1)2/2a21 ,

fY (y) =

∫ ∞

−∞fX(x, y) dx =

1

a2√2π

e−(y−b2)2/2a22 ,

Un calcolo diretto mostrerebbe ora che l’interpretazione probabilistica dei cinqueparametri che compaiono in una N(b,A) bivariata e

b1 = E [X] b2 = E [Y ]

a21 = a11 = V [X] a22 = a22 = V [Y ] r =a12√a11a22

=a21√a11a22

= ρ [X, Y ]

e pertanto il vettore delle medie b e la matrice delle covarianze A sono

b =

(b1b2

)=

(E [X]E [Y ]

)A =

(a11 a12a21 a22

)=

(V [X] cov [X,Y ]

cov [X, Y ] V [Y ]

)=

(a21 a1a2r

a1a2r a22

)Abbiamo gia messo in evidenza che due r.v. X e Y indipendenti sono anche noncorrelate, ma che in generale il viceversa non e vero. E importante sottolineare allorache invece, se le componenti Xk di un r.vec. X congiuntamente gaussiano sono noncorrelate, esse risultano anche indipendenti. In altre parole: le componenti diun r.vec. X ∼ N(b,A) Gaussiano multivariato sono indipendenti se esolo se esse sono non correlate. Che cio sia vero si deduce – ad esempio nelcaso bivariato – dal fatto che se le componenti X e Y sono non correlate si har = ρ [X,Y ] = 0, e in tal caso la p.d.f. congiunta (2.24) si riduce a

fX(x, y) =1

2πa1a2e−(x−b1)2/a21 e−(y−b2)2/a22

e si vede subito che fX(x, y) = fX(x) · fY (y), sicche in base al Teorema 3.15 X e Yrisultano anche indipendenti.

85

Page 86: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

Proposition 3.35. Disuguaglianza di Chebyshev: Se X e una r.v. integrabilee non negativa si ha

P X ≥ ϵ ≤ E [X]

ϵ∀ϵ > 0 (3.41)

Proof: Il risultato discende immediatamente dalle relazioni

E [X] ≥ E[XIX≥ϵ

]≥ ϵE

[IX≥ϵ

]= ϵP X ≥ ϵ

dove ϵ > 0 e ovviamente arbitrario.

Corollary 3.36. Se X e una r.v. di quadrato integrabile, per ogni ϵ > 0 risulta

P |X| ≥ ϵ = PX2 ≥ ϵ2

≤ E [X2]

ϵ2

P∣∣X −E [X]

∣∣ ≥ ϵ

≤E[(X −E [X])2

]ϵ2

=V [X]

ϵ2(3.42)

Proof: Basta applicare la (3.41) alle particolari r.v. proposte

3.4 Conditioning

3.4.1 Conditional distributions

Nella Sezione 1.4 la probabilita condizionata e stata definita solo nei casi in cui laprobabilita dell’evento condizionante e diversa da zero. Questa limitazione diventaproblematica quando l’evento condizionante e Y = y, con Y r.v. a.c.: e notoinfatti che in questo caso P Y = y = 0. Sara quindi necessario assegnare unadefinizione coerente e una notazione adeguata per questo tipo di condizionamento

Definition 3.37. Se X e Y sono due r.v. con c.d.f. congiunta FXY (x, y) deriv-abile in y, e se Y e a.c. con p.d.f. fY (y), chiameremo c.d.f. di X condizionatadall’evento Y = y la

FX|Y (x|y) = FX(x|Y = y) ≡ ∂yFXY (x, y)

fY (y)(3.43)

per tutte le y tali che fY (y) = 0 (e quindi PY -a.s.); per le y in cui fY (y) = 0 (uninsieme di misura PY nulla) la FX(x|Y = y) assume invece un valore arbitrario: adesempio zero. Se poi anche X e a.c. e se la p.d.f. congiunta e fXY (x, y) la p.d.f.di X condizionata dall’evento Y = y sara

fX|Y (x|y) = fX(x|Y = y) ≡ fXY (x, y)

fY (y)(3.44)

per le y tali che fY (y) = 0, e zero per le y in cui fY (y) = 0

86

Page 87: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

3.4 Conditioning

Per giustificare in maniera intuitiva queste definizioni, dette FXY (x, y), FX(x) eFY (y) rispettivamente le c.d.f. congiunta e marginali di X e Y , e fY (y) = F ′

Y (y) lap.d.f. di Y , e supponendo che la FXY (x, y) sia derivabile rispetto a y, si considerainizialmente l’evento condizionante modificato nella forma y < Y ≤ y + ∆y, inmodo che abbia una probabilita diversa da zero: la Definizione 3.37 si ritrova poipassando al limite per ∆y → 0. Infatti dalla definizione elementare di probabilitacondizionata si ha

FX(x|y < Y ≤ y +∆y) = P X ≤ x|y < Y ≤ y +∆y

=P X ≤ x , y < Y ≤ y +∆y

P y < Y ≤ y +∆y

=FXY (x, y +∆y)− FXY (x, y)

FY (y +∆y)− FY (y)=

FXY (x,y+∆y)−FXY (x,y)∆y

FY (y+∆y)−FY (y)∆y

e quindi al limite per ∆y → 0 si ritrova la (3.43)

FX(x | Y = y) ≡ lim∆y→0

FX(x | y < Y ≤ y +∆y) =∂yFXY (x, y)

F ′Y (y)

=∂yFXY (x, y)

fY (y)

Se poi supponiamo che anche X sia dotata di p.d.f. fX(x), e che fXY (x, y) siala p.d.f. congiunta, con un’ulteriore derivazione di (3.43) rispetto a x si ottienefacilmente la p.d.f. condizionata (3.44). Le (3.43) e (3.44) definiscono le distribuzionicondizionate per tutti i valore di y per i quali fY (y) > 0, e quindi PY -qo. Nei puntiin cui invece fY (y) = 0, il valore di FX(x | Y = y) (o della p.d.f.) puo esserescelto arbitrariamente (ad esempio uguale a zero) visto che esso comunque non puoinfluenzare il risultato dei calcoli. Si noti inoltre che, se X ed Y sono indipendenti,dal Teorema 3.15 segue facilmente che

fX|Y (x|y) = fX(x) (3.45)

Formule analoghe valgono ovviamente anche nel caso di r.v. discrete, ma in questocaso le p.d.f. condizionate sono sostituite da probabilita condizionate sulla base delledefinizioni elementari della Sezione 1.4.

Proposition 3.38. Se X, Y sono due r.v. con p.d.f. congiunta fXY (x, y), allora

PXA|Y = y =

∫A

fX|Y (x|y) dx =1

fY (y)

∫A

fXY (x, y) dx (3.46)

PXY A×B =

∫B

PXA|Y = yfY (y) dy (3.47)

PXA =

∫ +∞

−∞PXA|Y = yfY (y) dy (3.48)

87

Page 88: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

Proof: Dalla (3.44) si ottiene innanzitutto la (3.46)

PXA|Y = y = P X ∈ A|Y = y =

∫A

fX|Y (x|y) dx =1

fY (y)

∫A

fXY (x, y) dx

e poi da questa anche le formule (3.47) e (3.48)

PXY A×B = P X ∈ A, Y ∈ B =

∫A×B

fXY (x, y) dxdy

=

∫A

dx

∫B

dy fX|Y (x|y)fY (y)

=

∫B

PXA|Y = yfY (y) dy

PXA = P X ∈ A =

∫ +∞

−∞PXA|Y = yfY (y) dy

La (3.48) mostra come si ritrova PX dalla sua distribuzione condizionata (3.46)

Proposition 3.39. Se X, Y sono due r.v. con p.d.f. congiunta fXY (x, y), allora

fXY (x, y|a ≤ Y ≤ b) =fXY (x, y)∫ b

afY (y′) dy′

χ[a,b](y) (3.49)

fX(x|a ≤ Y ≤ b) =

∫ b

afXY (x, y

′) dy′∫ b

afY (y′) dy′

(3.50)

fY (y|a ≤ Y ≤ b) =fY (y)∫ b

afY (y′) dy′

χ[a,b](y) (3.51)

dove abbiamo introdotto l’indicatore dell’evento B in (R, B(R))

χB(x) =

1, se x ∈ B0, altrimenti

B ∈ B(R)

Proof: Infatti dalle definizioni si ha innanzitutto che

FXY (x, y|a ≤ Y ≤ b) =P X ≤ x, Y ≤ y, a ≤ Y ≤ b

P a ≤ Y ≤ b

=

0 se y ≤ aPX≤x, a≤Y≤y

Pa≤Y≤b = FXY (x,y)−FXY (x,a)FY (b)−FY (a)

se a ≤ y ≤ bPX≤x, a≤Y≤b

Pa≤Y≤b = FXY (x,b)−FXY (x,a)FY (b)−FY (a)

se b ≤ y

e quindi la (3.49) segue ricordando che

fXY (x, y|a ≤ Y ≤ b) = ∂x∂yFXY (x, y|a ≤ Y ≤ b)

FY (b)− FY (a) =

∫ b

a

fY (y′) dy′

Dalla (3.49) poi si ricavano (3.50) e (3.51) con una semplice marginalizzazione

88

Page 89: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

3.4 Conditioning

Proposition 3.40. Se X = (X1, X2) ∼ N (b,A) e un r.vec. Gaussiano bivariatocon p.d.f. (2.24), la legge di X2 condizionata da X1 = x1 e ancora Gaussiana con

N

(b2 + r(x1 − b1)

a2a1

, (1− r2)a22

)(3.52)

Proof: Sappiamo che la p.d.f. bivariata di X ha la forma (2.24), e che le sue duemarginali sono N (bk, a

2k) con p.d.f. (2.31). Un’applicazione diretta della (3.44) con-

duce allora alla seguente p.d.f. condizionata

fX2|X1(x2|x1) =e− 1

2(1−r2)

[(x1−b1)

2

a21−2r

(x1−b1)(x2−b2)a1a2

+(x2−b2)

2

a22

]

2πa1a2√1− r2

a1√2π e

(x1−b1)2

2a21

=e− 1

2(1−r2)

[r2

(x1−b1)2

a21−2r

(x1−b1)(x2−b2)a1a2

+(x2−b2)

2

a22

]√2πa22(1− r2)

=e− 1

2a22(1−r2)

[(x2−b2)−r(x1−b1)

a2a1

]2√2πa22(1− r2)

e quindi al risultato (3.52)

Fin qui abbiamo trattato solo il caso del condizionamento reciproco fra due r.v.,ma questa limitazione e dovuta solo al desiderio di semplificare la notazione. Percompletezza, quindi, ricorderemo che dati due r.vec. X = (X1, . . . , Xn) e Y =(Y1, . . . , Ym) dotati di p.d.f. congiunta fXY (x1, . . . , xn, y1, . . . , ym), con una proce-dura identica a quella adottata nel caso di due sole r.v. e possibile introdurre anchela p.d.f. di X condizionata dall’evento Y1 = y1, . . . , Ym = ym come

fX|Y (x1, . . . , xn | y1, . . . , ym) =fXY (x1, . . . , xn, y1, . . . , ym)

fY (y1, . . . , ym)(3.53)

3.4.2 Conditional expectation

Sappiamo che se B e un evento di probabilita diversa da zero la probabilita con-dizionata P · | B si definisce in maniera elementare (Sezione 1.4) ed e a tutti glieffetti una misura di probabilita su (Ω,F). Se allora X e una r.v. essa sara anchedotata in maniera naturale di una distribuzione condizionata PX · | B, di unac.d.f. condizionata FX( · | B) ed eventualmente di una p.d.f. condizionata fX( · | B).Se invece l’evento condizionante e Y = y dove Y e una r.v. a.c. abbiamo vistonella sezione precedente in che maniera e possibile introdurre le analoghe quantitaPX · | Y = y, FX( · | Y = y) e fX( · | Y = y). E pertanto possibile ripercorrere leprocedure sviluppate nella Sezione 3.3.1 utilizzando queste nuove misure per definirele attese condizionate nei vari casi. Noi supporremo nel seguito che le nostre r.v.siano sempre dotate di p.d.f.

89

Page 90: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

Definition 3.41. Diremo valore d’attesa condizionato di X rispetto ad unevento B di misura non nulla il numero

E [X|B] =

∫ +∞

−∞xfX(x|B) dx (3.54)

e valore d’attesa condizionato di X rispetto a Y = y la funzione

E [X|Y = y] =

∫ +∞

−∞xfX|Y (x|y) dx (3.55)

o piu in generale expectation condizionato di g(X) la funzione

E [g(X)|Y = y] =

∫ +∞

−∞g(x)fX|Y (x|y) dx (3.56)

Chiameremo infine valore d’attesa condizionato di X rispetto ad una r.v.Y la nuova r.v. E [X|Y ] definita da

E [X|Y ] (ω) ≡ m (Y (ω)) (3.57)

dove abbiamo postom(y) ≡ E [X|Y = y] (3.58)

Sara bene ribadire che nell’ultima definizione (3.57) di valore d’attesa condizionatorispetto ad una r.v. si parte dall’osservazione che il expectation (3.55) puo essereconsiderato come una funzione m(y) del valore y della r.v. condizionante, e che equindi anche possibile introdurre – sulla base del Terema 3.6 – una nuova r.v. m(Y )per la quale viene generalmente adottata la nuova notazione sintetica E [X|Y ]. Eimportante ricordare a questo proposito che questa espressione denotera da ora in poiuna r.v., e non piu solo un numero o una funzione come negli ordinari valori d’attesa,e che tale nuova r.v. giochera un ruolo particolarmente rilevante negli sviluppi deicapitoli seguenti

Proposition 3.42. Date due r.v. X e Y su (Ω,F ,P ) si hanno le seguenti proprietadelle attese condizionate rispetto a una r.v.

1. E [E [X|Y ]] = E [X]

2. E [X|Y ] = E [X] P -a.s. se X e Y sono indipendenti

3. E [φ(X,Y )|Y = y] = E [φ(X, y)|Y = y] PY -qo

4. E [φ(X,Y )|Y = y] = E [φ(X, y)] PY -qo se X e Y sono indipendenti

5. E [X g(Y )|Y ] = g(Y )E [X|Y ] P -a.s.

Proof:

90

Page 91: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

3.4 Conditioning

1. Da (3.44), (3.55) e (3.58) si ha

E [E [X|Y ]] = E [m(Y )] =

∫R

m(y)fY (y) dy =

∫R

E [X|Y = y] fY (y) dy

=

∫R

[∫R

xfX|Y (x | y) dx]fY (y) dy

=

∫R

[∫R

xfXY (x, y)

fY (y)dx

]fY (y) dy

=

∫R

x

[∫R

fXY (x, y) dy

]dx =

∫R

xfX(x) dx = E [X]

2. Tenendo conto dell’indipendenza e di (3.45) abbiamo facilmente che

m(y) = E [X|Y = y] =

∫R

x fX|Y (x|y) dx =

∫R

x fX(x) dx = E [X]

per cui E [X|Y ] = m(Y ) = E [X]

3. Ricordando la relazione (3.49) possiamo scrivere

E [φ(X, Y )|y ≤ Y ≤ y +∆y]

=

∫R

dx

∫R

dz φ(x, z)fXY (x, z|y ≤ Y ≤ y +∆y)

=

∫ +∞

−∞dx

∫ y+∆y

y

dz φ(x, z)fXY (x, z)

FY (y +∆y)− FY (y)

D’altra parte siccome

FY (y +∆y)− FY (y) = F ′Y (y)∆y + o(∆y) = fY (y)∆y + o(∆y)

risulta anche

lim∆y→0

∫ y+∆y

y

dz φ(x, z)fXY (x, z)

FY (y +∆y)− FY (y)= φ(x, y)

fXY (x, y)

fY (y)

= φ(x, y)fX|Y (x | y)

e pertanto potremo scrivere

E [φ(X, Y )|Y = y] = lim∆y→0

E [φ(X, Y )|y ≤ Y ≤ y +∆y]

=

∫ +∞

−∞φ(x, y)fX|Y (x | y) dx = E [φ(X, y)|Y = y]

4. Se X e Y sono indipendenti il risultato segue dal punto precedente e da (3.45)

91

Page 92: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

5. Dal punto 3 segue in particolare che

E [X g(Y )|Y = y] = E [X g(y)|Y = y] = g(y)E [X|Y = y]

e l’enunciato si ricava allora applicando queste funzioni di y alla r.v. Y .

Utilizzando le p.d.f. condizionate (3.53) e infine anche possibile introdurre le attesecondizionate rispetto a eventi di probabilita nulla del tipo Y1 = y1, . . . , Ym = ym

m(y1, . . . , ym) = E [X|Y1 = y1, . . . , Ym = ym]

=

∫R

xfX|Y (x|y1, . . . , ym) dx ,

e quindi anche le attese condizionate rispetto a un r.vec.

E [X|Y ] = E [X|Y1, . . . , Ym] = m(Y1, . . . , Ym) = m(Y ) (3.59)

Le proprieta di queste nuove r.v. sono simili a quelle delle attese condizionate dauna sola r.v. introdotte all’inizio di questa sezione e non saranno qui elencate

Exemple 3.43. Vita media: Supponiamo che il tempo durante il quale opera,senza rompersi, un componente di un dato apparato sia descritto da una r.v. Y conp.d.f. fY (y), con la precisazione che, se l’apparato comincia a funzionare all’istantey = 0, la fY (y) sara definita come identicamente nulla per y < 0. Poniamoci allorail problema di determinare

fY−y0(y|Y ≥ y0) e E [Y − y0|Y ≥ y0]

cioe la p.d.f. e il expectation (vita media) del tempo di vita residuo del nostro com-ponente, sotto l’ipotesi che esso sia ancora funzionante al tempo y0 > 0. Supponendoallora, per rendere significativo il nostro problema, che P Y ≥ y0 > 0, da (3.51)con a = y0 e b = +∞ si ha innanzitutto

E [Y − y0|Y ≥ y0] =

∫R

(y − y0)fY (y|Y ≥ y0) dy =

∫ +∞y0

(y − y0)fY (y) dy∫ +∞y0

fY (y) dy(3.60)

D’altra parte per calcolare la p.d.f. del tempo residuo Y − y0 osserveremo prima che

FY−y0(y|Y ≥ y0) = P Y − y0 ≤ y|Y ≥ y0= P Y ≤ y + y0|Y ≥ y0 = FY (y + y0|Y ≥ y0)

e quindi da (3.51) otterremo

fY−y0(y|Y ≥ y0) = ∂yFY−y0(y|Y ≥ y0) = ∂yFY (y0 + y|Y ≥ y0)

= fY (y0 + y|Y ≥ y0) =fY (y0 + y)χ(y0,+∞)(y0 + y)∫ +∞

y0fY (y′) dy′

=fY (y0 + y)χ(0,+∞)(y)∫ +∞

y0fY (y′) dy′

(3.61)

92

Page 93: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

3.4 Conditioning

Naturalmente questo risultato permette di ricavare di nuovo la vita media (3.60) conun calcolo esplicito

E [Y − y0|Y ≥ y0] =

∫ +∞

−∞yfY−y0(y|Y ≥ y0) dy =

∫ +∞0

yfY (y0 + y) dy∫ +∞y0

fY (y′) dy′

=

∫ +∞y0

(y − y0)fY (y) dy∫ +∞y0

fY (y) dy

E interessante esaminare ora questi risultati nel caso particolare in cui Y ∼ E(a)sia una r.v. esponenziale. In tal caso sappiamo infatti da (2.17) e (3.33) che

fY (y) = ae−ayϑ(y) E [Y ] =1

a

e siccome con z = y − y0 si ha∫ +∞

y0

fY (y) dy =

∫ +∞

y0

ae−ay dy = e−ay0∫ +∞

y0

(y − y0)fY (y) dy =

∫ +∞

0

zfY (z + y0) dz =

∫ +∞

0

za e−a(z+y0) dz =e−ay0

a

fY (y0 + y)χ(0,+∞)(y) = a e−a(y0+y) χ(0,+∞)(y) = e−ay0fY (y)

si vede da (3.60) e da (3.61) che

E [Y − y0|Y ≥ y0] =1

a= E [Y ] fY−y0(y|Y ≥ y0) = fY (y)

Quindi, non solo la vita media del nostro componente – condizionata dal fatto cheesso ha funzionato fino all’istante y = y0 – non dipende da y0 ed e sempre egualea E [Y ], ma anche la p.d.f. di Y − y0 condizionata da Y ≥ y0 non dipende da y0e resta sempre eguale alla p.d.f. non condizionata. Questo comportamento (dettoanche assenza di memoria o di usura) e caratteristico delle r.v. esponenzialinel senso che non vi sono altre distribuzioni diverse da quella esponenziale che sianodotate di queste proprieta

Exemple 3.44. Ago di Buffon: Un ago di lunghezza unitaria viene lanciato acaso su un piano sul quale sono tracciate delle linee parallele a distanza unitaria fraloro: quale e la probabilita che l’ago intersechi una di queste linee? Innanzitutto,data la regolarita della ripetizione delle linee sul tavolo, sara sufficiente esaminareil problema con due sole linee facendo l’ipotesi che il centro dell’ago cada fra questeultime. Inoltre la posizione di tale centro lungo le rette parallele alle due linee eininfluente: potremmo tenerne conto aggiungendo un’opportuna variabile al nostroproblema, ma potremmo poi eliminarla facilmente senza cambiare il risultato. Laposizione dell’ago sara allora caratterizzata mediante due sole r.v.: la distanza X

93

Page 94: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

X Q

Figure 3.5: Problema dell’ago di Buffon.

del suo punto di mezzo dalla linea sinistra, e l’angolo Θ che esso forma con unaperpendicolare alle linee parallele (vedi Figura 3.5). Che l’ago sia lanciato a casoqui vuol dire che la coppia di r.v. X,Θ e distribuita in maniera uniforme in [0, 1]×[−π

2, π2], cioe che

fXΘ(x, θ) =1

πχ[0,1](x)χ[−π

2,π2](θ)

E facile vedere allora che le p.d.f. marginali sono

fX(x) = χ[0,1](x) fΘ(θ) =1

πχ[−π

2,π2](θ)

e che le due r.v. X e Θ sono indipendenti. Posto ora

B =(x, θ) : x ≤ 1

2cos θ, oppure x ≥ 1− 1

2cos θ, con −π

2≤ θ ≤ π

2

e evidente che l’evento del quale vogliamo calcolare la probabilita e

A = l’ago interseca una linea =ω ∈ Ω : (X,Θ) ∈ B

e che IA = χB(X,Θ), con χB(x, θ) indicatore dell’insieme B in R2. Il risultatopuo essere ottenuto in diverse maniere equivalenti, e noi ne sceglieremo una chefa uso, in successione, di (3.10), di 1 della Proposizione 3.42, dell’uniformita delladistribuzione di Θ, e di 4 della Proposizione 3.42:

P A = E [IA] = E [χB(X,Θ)] = E [E [χB(X,Θ)|Θ] ]

=

∫ π/2

−π/2

E [χB(X,Θ)|Θ = θ]dθ

π=

1

π

∫ π/2

−π/2

E [χB(X, θ)] dθ

94

Page 95: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

3.4 Conditioning

A questo punto bastera ricordare che a causa dell’uniformita di X si ha

E [χB(X, θ)] = PX ≤ 1

2cos θ ∪ X ≥ 1− 1

2cos θ

=

1

2cos θ +

1

2cos θ = cos θ

per ottenere

P A =1

π

∫ π/2

−π/2

cos θ dθ =2

π

Sara interessante osservare che questo risultato puo essere (ed e stato) usato per dareuna stima empirica di π: se lanciamo l’ago n volte, se definiamo n r.v. i.i.d. Yk

(con k = 1, . . . , n) di Bernoulli che siano eguali ad 1 se l’ago interseca una linea alk-mo lancio e a 0 nel caso contrario, se supponiamo che p sia la probabilita che l’agointersechi una linea in ogni singolo lancio, e se definiamo la r.v. νn = Y1 + · · ·+ Yn

per indicare il numero di volte in cui l’ago interseca una linea su n lanci, allora eintuitivo capire (e la Legge dei Grandi Numeri che discuteremo nella successivaSezione 4.3 lo confermera) che, con n abbastanza grande, la r.v. νn/n approssimerabene il numero p. Sapendo allora, dalla discussione precedente, che p = 2/π, unabuona approssimazione del valore di π sara data da un valore misurato della r.v.2n/νn con n abbastanza grande. Questo metodo per stimare π e stato usato varievolte nel corso della storia10 e rappresenta il primo caso conosciuto di applicazionidelle regolarita statistiche alla soluzione di problemi di analisi numerica: un metododivenuto successivamente noto come metodo di Monte Carlo del quale avremomodo di riparlare nel corso di queste lezioni

3.4.3 Optimal mean square estimate

Per mettere meglio in evidenza le relazioni che legano le r.v. X, Y e E [X|Y ] definitain (3.57) e (3.58), bisogna ricordare che in generale X e Y possono essere statisti-camente dipendenti senza che esista una qualche funzione di Borel h(y) tale cheX = h(Y ): la dipendenza statistica, cioe, non si traduce necessariamente in unadipendenza funzionale (vedi anche la discussione nella Sezione 3.1.3). D’altra parte,date X e Y statisticamente dipendenti, puo capitare che si vogliano usare le misuredi Y per ottenere informazioni sui (stimare i) valori della X. In pratica cio vienefatto considerando delle r.v. della forma h(Y ) che vengono usate come stimatori diX. Siccome pero abbiamo osservato che in generale non potremo sperare di trovareuna h tale che X = h(Y ), sara necessario fissare un criterio che permetta di sceglierein maniera ottimale uno stimatore di X: il piu noto consiste nel cercare di deter-minare il miglior stimatore in media quadratica (in m.s.). Si definisce prima l’errorequadratico medio (eqm) che si commette stimando X con un generico stimatoreh(Y )

E[(X − h(Y ))2

]10La stima fu tentata per la prima volta nel 1850 dall’astronomo svizzero R. Wolf (1816 - 1893)

che, lanciando l’ago 5 000 volte ottenne come risultato 3.1596.

95

Page 96: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

e poi si elegge come miglior stimatore quello ottenuto con la h∗(Y ) che rende minimotale eqm

E[(X − h∗(Y ))2

]= inf

hE[(X − h(Y ))2

]La determinazione di tale stimatore ottimale, cioe della funzione di Borel h∗ cherende minimo l’eqm, costituisce un tipico problema variazionale che comunque, an-che nella sua veste piu generale, ammette sempre una soluzione formale esatta: eimportante sottolineare allora – come espresso dall’enunciato della successiva propo-sizione – che tale soluzione h∗(y) coincide proprio con lam(y) = E [X|Y = y] definitain (3.58)

Proposition 3.45. Il miglior stimatore in m.s. di X tramite Y e E [X|Y ], ed equindi definito dalla funzione di Borel

h∗(y) = m(y) = E [X|Y = y]

Proof: Se h(Y ) e il generico stimatore e h∗(Y ) = E [X|Y ], si ha:

E[(X − h(Y ))2

]= E

[(X − h∗(Y ) + h∗(Y )− h(Y ))2

]= E

[(X − h∗(Y ))2

]+E

[(h∗(Y )− h(Y ))2

]+2E [(X − h∗(Y ))(h∗(Y )− h(Y ))]

Da 1 e 5 della Proposizione 3.42 si ha pero che

E [(X − h∗(Y ))(h∗(Y )− h(Y ))] = E[E[(X − h∗(Y ))(h∗(Y )− h(Y ))

∣∣Y ]]= E

[(h∗(Y )− h(Y ))E

[(X − h∗(Y ))

∣∣Y ]]e siccome

E[(X − h∗(Y ))

∣∣Y ] = E [X|Y ]−E [h∗(Y )|Y ] = E [X|Y ]− h∗(Y ) = 0

in definitiva risulta

E[(X − h(Y ))2

]= E

[(X − h∗(Y ))2

]+E

[(h∗(Y )− h(Y ))2

]D’altra parte E [(h∗(Y )− h(Y ))2] ≥ 0, e quindi

E[(X − h(Y ))2

]≥ E

[(X − h∗(Y ))2

]comunque scelta la funzione di Borel h

La funzione m(y) = E [X|Y = y] prende anche il nome di curva di regressione diX su Y : tale nome ha la sua origine negli studi di sir F. Galton (1822 - 1911) sullarelazione che intercorre fra le altezze delle generazioni dei genitori e dei figli in unadata popolazione. I suoi risultati – esprimibili in termini di attese condizionate –mostravano che quando i genitori sono piu alti della media, i figli tendono ad esserepiu bassi dei genitori; quando invece i genitori sono piu bassi, i figli tendono adessere piu alti di loro: in ambedue i casi l’altezza dei figli regredisce verso il valoremedio dell’altezza della popolazione

96

Page 97: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

3.5 Combinations of r.v.’s

3.5 Combinations of r.v.’s

3.5.1 Functions of r.v.’s

Proposition 3.46. Se X e una r.v. con p.d.f. fX(x), e se y = φ(x) e una funzionecontinua e regolare, il cui intervallo di definizione e decomponibile in n intervallidisgiunti [ak, bk] all’interno dei quali φ e derivabile e strettamente monotona, conderivata non nulla in ogni punto, allora la p.d.f. fY (y) della r.v. Y = φ(X) e

fY (y) =n∑

k=1

fX(xk(y)

)∣∣φ′(xk(y)

)∣∣ χ[αk,βk](y) (3.62)

dove [αk, βk] sono gli intervalli dei valori assunti da φ per x ∈ [ak, bk], e per un datoy le xk(y) rappresentano le (al piu n) soluzioni dell’equazione φ(x) = y

Proof: Per cominciare supponiamo che X prenda valori solo nell’intervallo [a, b](cioe che fX(x) sia nulla al di fuori di tale intervallo), e che la funzione φ(x) siadefinita, derivabile e strettamente crescente (φ′(x) > 0) su tutto [a, b]. Detto allora[α, β] l’insieme dei valori assunti da φ(x), indichiamo con x1(y) = φ−1(y) la soluzionedell’ equazione φ(x) = y che esiste ed e unica (e monotona come funzione di y) sey ∈ [α, β]. E evidente allora che

FY (y) = P Y ≤ y =

0 per y < α1 per y > β

mentre per y ∈ [α, β], con il cambiamento di variabile di integrazione z = φ(x), x =φ−1(z) = x1(z), si ha

FY (y) = P Y ≤ y = P φ(X) ≤ y = PX ≤ φ−1(y)

= P X ≤ x1(y)

=

∫ x1(y)

a

fX(x) dx =

∫ y

α

fX(x1(z)

)x′1(z) dz =

∫ y

α

fY (z) dz

Pertanto in definitiva avremo

fY (y) = fX(x1(y)

)x′1(y)χ[α,β](y) =

fX(x1(y)

)x′1(y) per α ≤ y ≤ β

0 altrove

D’altra parte, se φ fosse strettamente decrescente un analogo ragionamento condur-rebbe alla conclusione

fY (y) = −fX(x1(y)

)x′1(y)χ[α,β](y)

per cui in ogni caso, quando φ e strettamente monotona su [a, b], potremo scrivere

fY (y) = fX(x1(y)

)|x′

1(y)|χ[α,β](y) (3.63)

97

Page 98: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

Siccome inoltre per un ben noto risultato dell’analisi

x′1(y) =

1

φ′(x1(y)

)la nostra trasformazione per funzioni φ monotone si potra enunciare nella forma

fY (y) =fX(x1(y)

)∣∣φ′(x1(y)

)∣∣ χ[α,β](y) (3.64)

cioe la (3.62) con un solo termine nella somma. Quando invece φ non e strettamentemonotona su tutto l’insieme dei valori assunti da X, in molti casi di utilita praticail suo insieme di definizione si potra decomporre nell’unione di n intervalli disgiunti[ak, bk] all’interno dei quali essa e derivabile e strettamente monotona, con derivatanon nulla in ogni punto. Se allora [αk, βk] sono gli intervalli dei valori assunti da φper x ∈ [ak, bk], e se per un dato y le xk(y) rappresentano le soluzioni dell’equazioneφ(x) = y, in modo analogo al caso monotono si prova11 la (3.62). Occorre precisarecomunque che il numero degli addendi di questa somma dipende da y, nel senso cheper un dato y saranno presenti solo gli m ≤ n termini corrispondenti alle soluzionidi φ(x) = y per i quali χ[αk,βk](y) = 1. Naturalmente, nel caso in cui l’equazioneφ(x) = y non ha nessuna soluzione il numero di addendi della somma e nullo efY (y) = 0

Nel caso piu generale Y = φ(X) e una trasformazione di un r.vec. X con n com-ponenti Xj in un r.vec. Y con m componenti mediante le funzioni

Yk = φk(X1, . . . , Xn) , k = 1, . . . ,m

Non si perde pero in generalita se ci si limita al caso n = m. Infatti:

• se m < n, e sempre possibile aggiungere ad Y altre n−m componenti ausil-iarie tutte eguali a Xm+1, . . . , Xn; una volta risolto il problema in questaforma e determinata la p.d.f. congiunta fY (y1, . . . , yn), si eliminano le vari-abili ym+1, . . . , yn in eccesso mediante una marginalizzazione;

11Osserviamo per completezza che l’equazione (3.62) si puo anche scrivere nella forma

fY (y) =

∫ +∞

−∞fX(x) δ

[y − φ(x)

]dx (3.65)

introducendo la distribuzione δ(x) di Dirac per la quale vale, con le nostre notazioni, la relazione

δ[y − φ(x)

]=

n∑k=1

δ[x− xk(y)

]∣∣φ′(xk(y)

)∣∣ χ[αk,βk](y)

Per maggiori dettagli vedi V.S. Vladimirov, Le distribuzioni nella fisica matematica, Mir(Mosca, 1981)

98

Page 99: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

3.5 Combinations of r.v.’s

• se m > n, m − n fra le Yk risulteranno funzioni delle altre n componenti; inquesto caso si risolve il problema per le prime n r.v. Yk, e poi la distribuzionedelle rimanenti viene ricavata in funzione delle precedenti.

Posto quindi n = m, ci limiteremo a ricordare il risultato principale: se per un datoy, le xj(y) sono le (al piu n) soluzioni del sistema di n equazioni yk = φk(x1, . . . , xn),allora la p.d.f. congiunta del r.vec. Y sara

fY (y) =n∑

j=1

fX(xj(y))

|J(xj(y))|χj(y) (3.66)

dove J(x) e il determinante Jacobiano della trasformazione con elementi del tipo∂φk/∂xl, mentre le χj(y) sono funzioni che valgono 1 se in corrispondenza di y esistela j-ma soluzione, e 0 altrimenti. Questa formula pertanto generalizza la (3.62) conanaloghe precisazioni sul numero di addendi della somma in funzione del numero(eventualmente nullo) di soluzioni del dato sistema di equazioni.

Exemple 3.47. Funzioni lineari: Se Y = aX+b, cioe φ(x) = ax+b, con a = 0,l’equazione y = φ(x) ammette sempre una ed una sola soluzione: x1(y) = (y− b)/a.Ne segue che

faX+b(y) =1

|a|fX

(y − b

a

)In particolare, se X ∼ N (0, 1) e una r.v. normale standard, allora Y = aX + b ∼N(b, a2); viceversa, se X ∼ N(b, a2), allora Y = (X − b)/a ∼ N (0, 1) e normalestandard.Funzioni quadratiche: Se invece Y = X2, cioe φ(x) = x2, l’equazione y = φ(x)ammettera soluzioni x1(y) = −√

y e x2(y) = +√y solo se y ≥ 0. Con ϑ(y) funzione

di Heaviside (2.13) avremo allora

fX2(y) =1

2√y

[fX(

√y) + fX(−

√y)]ϑ(y)

In particolare, se X ∼ N (0, 1) si ha

fX2(y) =e−y/2

√2πy

ϑ(y) (3.67)

che, come vedremo nella sezione seguente, e una legge del χ2 con un grado di liberta.Funzioni esponenziali: Se infine Y = eX e X ∼ N(b, a2) da (3.62) si ha

feX (y) =e−(ln y−b)2/2a2

ay√2π

ϑ(y)

una legge che prende anche il nome di log-normale, e che indicheremo con lnN(b, a2).Valore di attesa e varianza di una r.v. Y ∼ lnN (b, a2) sono

E [Y ] = eb+a2/2 V [Y ] = e2b+a2(ea2 − 1) (3.68)

99

Page 100: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

Infatti se X ∼ N(b, a2) si ha innanzitutto con z = x−a2−ba

E [Y ] = E[eX]=

∫ +∞

−∞exe−

(x−b)2

2a2

a√2π

dx = eb+a2/2

∫ +∞

−∞

e−z2

2

√2π

dz = eb+a2/2

Siccome d’altra parte 2X ∼ N (2b, 4a2) dal risultato precedente segue anche

E[Y 2]= E

[e2X]= e2b+2a2

e quindi

V [Y ] = E[Y 2]−E [Y ]2 = e2b+2a2 − e2b+a2 = e2b+a2(ea

2 − 1)

Un ultimo esempio di applicazione di (3.62) che va sotto il nome di Paradosso diBertrand e rinviato all’Appendice C

3.5.2 Sums of independent r.v.’s

Definition 3.48. Chiameremo convoluzione di due p.d.f. f e g la funzione

(f ∗ g)(x) = (g ∗ f)(x)

=

∫ ∞

−∞f(x− y)g(y) dy =

∫ ∞

−∞g(x− y)f(y) dy

Si verifica che la convoluzione di due p.d.f. e ancora una p.d.f.

Proposition 3.49. Date due r.v. indipendenti X e Y rispettivamente con p.d.f.fX(x) e fY (y), la p.d.f. della loro somma Z = X + Y e la convoluzione delle lorop.d.f.

fZ(x) = (fX ∗ fY )(x) = (fY ∗ fX)(x)

Proof: Se due r.v. X e Y hanno p.d.f. congiunta fXY (x, y) e consideriamo Z =φ(X, Y ), dove z = φ(x, y) e una funzione di Borel, dato z e definito per brevita

φ ≤ z = (x, y) ∈ R2 : φ(x, y) ≤ z

la c.d.f. della r.v. Z si calcola facilmente come

FZ(z) = P Z ≤ z = P φ(X, Y ) ≤ z =

∫φ≤z

fXY (x, y) dxdy

Se poi in particolare φ(x, y) = x + y, e se le r.v. X e Y sono indipendenti, cioe sefXY (x, y) = fX(x)fY (y), con il cambiamento di variabile u = x+ y avremo che

FZ(z) =

∫x+y≤z

fX(x)fY (y) dx dy =

∫ ∞

−∞

[∫ z−x

−∞fY (y) dy

]fX(x) dx

100

Page 101: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

3.5 Combinations of r.v.’s

=

∫ ∞

−∞

[∫ z

−∞fY (u− x) du

]fX(x) dx

=

∫ z

−∞

[∫ ∞

−∞fY (u− x)fX(x) dx

]du

Equivalentemente, invertendo l’ordine delle integrazioni, si ha anche

FZ(z) =

∫ z

−∞

[∫ ∞

−∞fX(u− y)fY (y) dy

]du

e quindi potremo dire che Z = X + Y ha come p.d.f.

fZ(z) =

∫ ∞

−∞fY (z − x)fX(x) dx =

∫ ∞

−∞fX(z − y)fY (y) dy

cioe fZ = fX ∗ fY = fY ∗ fX

Le considerazioni precedenti si adattano facilmente anche al caso di piu di due r.v.:se X1, . . . , Xn sono n r.v. indipendenti dotate di p.d.f., la p.d.f. della loro sommaZ = X1 + · · ·+Xn e la convoluzione delle rispettive p.d.f.

fZ(x) = (fX1 ∗ . . . ∗ fXn)(x) (3.69)

Exemple 3.50. Somme di r.v. uniformi: Se X1, . . . , Xn sono r.v. i.i.d. U (−1, 1)la loro p.d.f. puo anche essere espressa mediante l’uso della funzione ϑ(x) di Heav-iside (2.13)

fXk(x) = f(x) =

1

2ϑ(1− |x|) k = 1, . . . , n

Si mostra allora con un calcolo diretto che

fX1+X2(x) =2− |x|

4ϑ(2− |x|) ,

fX1+X2+X3(x) =

[ϑ(1− |x|)3− x2

8+ ϑ(|x| − 1)

(3− |x|)2

16

]ϑ(3− |x|)

e per induzione si prova per Y = X1 + · · ·+Xn la formula

fY (x) =ϑ(n− |x|)2n(n− 1)!

[(n+x)/2]∑k=0

(−1)k(n

k

)(n+ x− 2k)n−1

nella quale con [α] indichiamo la parte intera del numero reale α. Pertanto il primorisultato rilevante e che le somme di r.v. indipendenti e uniformi non sono affattouniformi: ad esempio la fX1+X2 e una distribuzione triangolare su [−2, 2], mentrela fX1+X2+X3 e composta di tre rami di parabola connessi con continuita su [−3, 3].Somme di r.v. Gaussiane: Alla luce dell’esempio precedente acquistano inter-esse le leggi che combinate tramite convoluzione con altre leggi della stessa famiglia

101

Page 102: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

producono ancora leggi della medesima famiglia. Cosı, se X ∼ N (b1, a21) ed Y ∼

N (b2, a22) sono Gaussiane e indipendenti, si ottiene da un calcolo diretto che X+Y ∼

N (b1 + b2 , a21 + a22), ovvero simbolicamente

N (b1, a21) ∗N (b2, a

22) = N (b1 + b2 , a

21 + a22) (3.70)

Questo importante risultato, che si estende anche ad un numero arbitrario di r.v.,prende il nome di proprieta riproduttiva delle r.v. normali, e puo essere piufacilmente provato (assieme ad altri analoghi risultati per altre famiglie di leggi) conl’uso delle funzioni caratteristiche come vedremo piu avanti nella Sezione 4.2.3.Distribuzione χ2

n: Se X1, . . . , Xn sono r.v. i.i.d. tutte N (0, 1), tenendo contodi (3.67) e applicando ripetutamente la regola delle convoluzioni alle fX2

k(x), si ot-

tiene per la r.v. Z = X21 + . . .+X2

n la p.d.f.

fZ(x) =xn/2−1e−x/2

2n/2Γ(n/2)ϑ(x)

nota con il nome di distribuzione del χ2 con n gradi di liberta e indicata con ilsimbolo χ2

n. Qui Γ(x) e la funzione Gamma definita da

Γ(x) =

∫ +∞

0

zx−1e−z dz (3.71)

che soddisfa le proprieta

Γ(x) = (x− 1)Γ(x− 1) Γ(1) = 1 Γ

(1

2

)=

√2

sicche si ha

Γ(n2

)=

(n− 2)!! 2−n/2 se n e pari(n− 2)!! 2−(n−1)/2 se n e dispari

Si dimostra che il expectation e la varianza di una r.v. Z con legge χ2n sono

E [Z] = n V [Z] = 2n

Distribuzione di Student Tn: Se X0, X1, . . . , Xn sono n + 1 r.v. i.i.d. normaliN (0, a2), posto

T =X0√

(X21 + · · ·+X2

n)/n=

X0/a√(X2

1 + · · ·+X2n)/na

2=

X0/a√Z/n

dagli esempi precedenti si ha che Xk/a sono tutte N (0, 1), mentre Z = (X21 + · · ·+

X2n)/a

2 e χ2n. Si dimostra allora che la p.d.f. di T e

fT (t) =1√πn

Γ(n+12

)Γ(n2

) (1 +

t2

n

)−(n+1)/2

102

Page 103: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

3.5 Combinations of r.v.’s

prende il nome di distribuzione t di Student e si indica con il simbolo Tn. Per n = 1la distribuzione di Student coincide con quella di Cauchy C(1, 0). Si dimostra cheexpectation e varianza di una r.v. T con legge Tn sono

E [T ] = 0 per n ≥ 2 V [T ] =n

n− 2per n ≥ 3

mentre non esistono per gli altri valori di n.

103

Page 104: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

104

Page 105: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

Chapter 4

Limit theorems

4.1 Convergence

I Teoremi Limite sono affermazioni relative ai limiti di successioni di somme di r.v.al crescere del numero degli addendi. Siccome al concetto di convergenza di unasuccessione di r.v. (Xn)n∈N si possono dare molti significati non equivalenti fra loro,sara importante prima di tutto chiarire questo punto elencando i tipi di convergenzapiu comuni e le relazioni che intercorrono fra loro

Definition 4.1. Data una successione di v.a. (Xn)n∈N su (Ω,F ,P ), essa

• converge in probabilita alla r.v. X, e scriveremo XnP−→ X, se

P |Xn −X| > ϵ n−→ 0 , ∀ ϵ > 0

• converge quasi ovunque (P -a.s.) o con probabilita 1 alla r.v. X, e

scriveremo Xnqo−→ X o anche Xn

n−→ X P -a.s., se

P Xn → X = 1 ovvero P Xn → X = 0

dove Xn → X e l’insieme degli ω per i quali (Xn)n∈N non converge a X

• converge in Lp (con 0 < p < +∞) alla r.v. X e scriveremo XnLp

−→ X, se

E [|Xn −X|p ] n−→ 0

se poi p = 2 si dice anche che (Xn)n∈N converge in media quadratica

(mq) e si usa la notazione Xnmq−→ X. Il significato preciso dei simboli Lp =

Lp(Ω,F ,P ) e chiarito nell’Appendice D

• converge in distribuzione, e scriveremo Xnd−→ X, se

E [f(Xn)]n−→ E [f(X)] , ∀ f ∈ C(R)

dove C(R) indica l’insieme delle funzioni limitate e continue su R

105

Page 106: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

d

P qo

Lp

Figure 4.1: Relazioni fra i quattro tipi di convergenza secondo il Teorema 4.4

Definition 4.2. Data una successione di c.d.f.(Fn(x)

)n∈N , essa

• converge debolmente alla c.d.f. F (x), e scriveremo Fnw−→ F , se∫

R

f(x)Fn(dx)n−→∫R

f(x)F (dx) , ∀ f ∈ C(R)

dove C(R) indica l’insieme delle funzioni limitate e continue

• converge in generale alla c.d.f. F (x), e scriveremo Fng−→ F , se

Fn(x)n−→ F (x) , ∀x ∈ PC(F )

dove PC(F ) e l’insieme dei punti x ∈ R per i quali F (x) e continua.

Proposition 4.3. Una successione di c.d.f.(Fn(x)

)n∈N converge debolmente alla

c.d.f. F (x) se e solo se essa vi converge in generale

Proof: Omessa1

Data ora la successione di r.v. (Xn)n∈N , e dette FXn le c.d.f. di Xn, si vede immedi-atamente che (Xn)n∈N converge in distribuzione alla r.v. X con c.d.f. FX se e solo

se FXn

w−→ FX , ovvero equivalentemente se e solo se FXn

g−→ FX . In pratica – conle dovute precisazioni – le convergenze in distribuzione, debole e in generale sonoequivalenti. Questo implica che una convergenza in distribuzione di una successionedi r.v. puo essere anche dimostrata esaminando semplicemente il comportamentodella successione delle loro c.d.f., ossia delle loro leggi. In particolare basta verifi-care che FXn(x)

n−→ FX(x) in tutti i punti x in cui la c.d.f. limite FX(x) e continua.

I quattro tipi di convergenza elencati nella Definizione 4.1, invece, non sonoequivalenti tra loro e le loro reciproche relazioni sono elencate nel seguente Teoremae riassunte graficamente nella Figura 4.1

1A.N. Shiryaev, Probability, Springer (New York, 1996)

106

Page 107: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

4.1 Convergence

Theorem 4.4. Data una successione di r.v. (Xn)n∈N e una r.v. X, risulta

1. Xnqo−→ X =⇒ Xn

P−→ X;

2. XnLp

−→ X =⇒ XnP−→ X , p > 0;

3. XnP−→ X =⇒ Xn

d−→ X;

4. Xnd−→ c =⇒ Xn

P−→ c , se c e un numero (convergenza degenere)

Proof: Omessa2

Implicazioni diverse da quelle qui elencate, invece, non sono in generale assicuratecome si potrebbe far vedere con dei semplici controesempi. Ciononostante e possi-bile individuare delle ipotesi supplementari che garantiscono anche altre implicazionidiverse da quelle espresse nel Teorema 4.4: alcune fra le piu note condizioni supple-mentari sono raccolte nel successivo teorema.

Theorem 4.5. Data una successione di r.v. (Xn)n∈N e una r.v. X

1. se XnP−→ X, allora esiste sempre una successione estratta (Xnk

)k∈N tale che

Xnk

qo−→ X;

2. se XnLp

−→ X, allora esiste sempre una successione estratta (Xnk)k∈N tale che

Xnk

qo−→ X;

3. se Xnqo−→ X, e se esiste una v.a. Y ≥ 0 con E [|Y |] < +∞ tale che |Xn−X| <

Y , allora risulta anche XnLp

−→ X.

Proof: Omessa3

Theorem 4.6. Criterio di convergenza degenere in m.s.: Una successione dir.v. (Xn)n∈N converge in m.s. verso il numero m (convergenza degenere) se e solose

E [Xn]n−→ m V [Xn]

n−→ 0 (4.1)

Proof: Infatti si ha

(Xn −m)2 = [(Xn −E [Xn]) + (E [Xn]−m)]2

= (Xn −E [Xn])2 + (E [Xn]−m)2 + 2(Xn −E [Xn])(E [Xn]−m)

e siccome ovviamente

E [(Xn −E [Xn])(E [Xn]−m)] = (E [Xn]−m)E [Xn −E [Xn]] = 0

2N. Cufaro Petroni, Calcolo delle Probabilita, Edizioni dal Sud (Bari, 1996)3A.N. Shiryaev, Probability, Springer (New York, 1996)

107

Page 108: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

risulta

E[(Xn −m)2

]= V [Xn] + (E [Xn]−m)2

e quindi la convergenza degenere in m.s. e equivalente alle condizioni (4.1)

4.2 Characteristic functions

4.2.1 Definition and properties

Definition 4.7. Chiameremo funzione caratteristica ( ch.f.) del r.vec. X =(X1, . . . , Xn) la funzione

φX(u) = φX(u1, . . . , un) = E[eiu·X

]u ∈ Rn (4.2)

dove u ·X =∑

k ukXk. Se X e dotato di p.d.f. la ch.f. φX(u) puo essere scrittacome

φX(u) =

∫Rn

eiu·xfX(x) dnx =

∫ +∞

−∞. . .

∫ +∞

−∞eiu·xfX(x1 . . . xn) dx1 . . . dxn

e se il r.vec. X si riduce ad una sola componente X la ch.f. diviene

φX(u) =

∫ +∞

−∞eiuxfX(x) dx u ∈ R

per cui una ch.f. non e altro che la trasformata di Fourier di una p.d.f.

Proposition 4.8. Se φX(u) e la ch.f. della r.v. X per ogni u ∈ R risulta

φX(u) = φX(−u) |φX(u)| ≤ φX(0) = 1

dove z e il complesso coniugato del numero complesso z. Inoltre φX(u) e uniforme-mente continua in R, ed e reale e pari se e solo se fX(x) e pari

Proof: La prima affermazione discende immediatamente dalla definizione, mentreper la seconda si ha

|φX(u)| =∣∣∣∣∫ +∞

−∞eiuxf(x) dx

∣∣∣∣ ≤ ∫ +∞

−∞f(x) dx = φX(0) = 1

Inoltre se fX(x) e pari la parte immaginaria di φX(u) si annulla per ragioni di simme-tria e la parte reale risulta evidentemente pari. Omettiamo4 invece la dimostrazionedell’uniforme continuita

4N. Cufaro Petroni, Calcolo delle Probabilita, Edizioni dal Sud (Bari, 1996)

108

Page 109: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

4.2 Characteristic functions

Proposition 4.9. Se X e una r.v. con ch.f. φX(u), se a, b sono numeri e se Y =aX + b si ha

φY (u) = eibuφX(au) (4.3)

Se X = (X1, . . . , Xn) e un r.vec., dette φX(u1, . . . , un) e φXk(uk) rispettivamente le

ch.f. congiunta e marginali, si ha

φXk(uk) = φX(0, . . . , uk, . . . , 0) (4.4)

Se poi le componenti Xk sono indipendenti e Sn = X1 + . . .+Xn, risulta

φSn(u) = φX1(u) · . . . · φXn(u) (4.5)

Proof: Se Y = aX + b, dalla definizione (4.2) si ha la (4.3)

φY (u) = E[eiuY

]= eiubE

[ei(au)X

]= eibuφX(au)

Anche la (4.4) deriva immediatamente dalla definizione (4.2), e infine se le Xk sonoanche indipendenti si ha la (4.5)

φSn(u) = E[eiuSn

]= E

[eiuX1 · . . . · eiuXn

]= E

[eiuX1

]· . . . ·E

[eiuXn

]= φX1(u) · . . . · φXn(u)

Quest’ultima proprieta sara particolarmente importante nella discussione dei Teo-remi limite e delle proprieta riproduttive: infatti, mentre in base all’equazione (3.69)la p.d.f. fSn(x) della somma di n r.v. indipendenti e il prodotto di convoluzione(fX1 ∗ . . . ∗ fXn)(x) delle rispettive p.d.f., la sua ch.f. φSn(u) e il prodotto ordinarioφX1(u) · . . . · φXn(u) delle corrispondenti ch.f.

Exemple 4.10. Per le leggi discrete la ch.f. si trova calcolando il expectation (4.2)mediante una somma: in questo modo la ch.f. di una r.v. degenere X ∼ δb e

φX(u) = eibu (4.6)

mentre per una r.v. di Bernoulli X ∼ B (1; p) si ha

φX(u) = p eiu + q (4.7)

Per una r.v. binomiale Sn ∼ B (n; p) conviene invece ricordare che in base

alla (3.8) risulta Snd= X1 + . . . + Xn con Xk Bernoulli i.i.d. e pertanto da (4.5)

e (4.7) si haφX(u) = (p eiu + q)n (4.8)

Infine per una r.v. di Poisson X ∼ P(α) la ch.f. e

φX(u) =∞∑k=0

eiuke−ααk

k!= e−α

∞∑k=0

(αeiu

)kk!

= eα(eiu−1) (4.9)

109

Page 110: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

Per le leggi dotate di p.d.f. invece il calcolo della ch.f. si esegue mediante opportuneintegrazioni: cosı per una r.v. uniforme X ∼ U (a, b) si ha

φX(u) =

∫ b

a

eiux

b− adx =

eibu − eiau

i(b− a)u(4.10)

e in particolare per X ∼ U (−1, 1) risulta

φX(u) =sinu

u(4.11)

Per una r.v. Gaussiana X ∼ N(b, a2) conviene ricordare dall’Esempio 3.47 cheY = (X − b)/a ∼ N (0, 1) e che da (4.3) si ha

φX(u) = eibuφY (au)

sicche sara sufficiente calcolare la ch.f. φY di una normale standard N(0, 1). Usandoallora le proprieta di convergenza dello sviluppo in serie di potenze degli esponenzialiavremo che

φY (u) = E[eiuY

]=

1√2π

∫ +∞

−∞eiuxe−x2/2 dx

=1√2π

∫ +∞

−∞e−x2/2

∞∑n=0

(iux)n

n!dx =

∞∑n=0

(iu)n

n!

1√2π

∫ +∞

−∞xne−x2/2 dx

e siccome

1√2π

∫ +∞

−∞xne−x2/2 dx =

0 per n = 2k + 1(2k − 1)!! per n = 2k

si ottiene

φY (u) =∞∑k=0

(iu)2k

(2k)!(2k − 1)!! =

∞∑k=0

(−u2

2

)k1

k!= e−u2/2 (4.12)

da cui in definitivaφX(u) = eibu−a2u2/2 (4.13)

In particolare se X ∼ N (0, a2) la p.d.f. e la ch.f. sono rispettivamente

fX(x) =1

a√2π

e−x2/2a2 φX(u) = e−a2u2/2

caso che mette bene in evidenza sia il fatto che la ch.f. di una p.d.f. Gaussiana eancora una funzione Gaussiana, sia la relazione inversa che sussiste fra la larghezza(varianza) a2 della p.d.f. e la larghezza 1/a2 della ch.f.. Con integrazioni elementarisi verifica poi che la ch.f. di una r.v. esponenziale X ∼ E(a) e

φX(u) =

∫ +∞

0

ae−axeixu dx =a

a− iu=

a2 + iau

a2 + u2(4.14)

110

Page 111: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

4.2 Characteristic functions

e quella di una r.v. di Laplace X ∼ L(a)

φX(u) =

∫ +∞

−∞

a

2e−a|x|eixu dx =

a2

a2 + u2(4.15)

Infine per una r.v. di Cauchy X ∼ C(a, b) la ch.f.

φX(u) =

∫ +∞

−∞

a

π

eixu

a2 + (x− b)2dx = e−a|u|+ibu (4.16)

si ricava dal teorema dei residui con un’integrazione in campo complesso

Theorem 4.11. Se X e una r.v. con ch.f. φ(u), se E [|X|n] < +∞,∀n ∈ N , e se

limn

E [|X|n]1/n

n=

1

R< +∞

allora φ(u) e derivabile ad ogni ordine n ∈ N con

φ(n)(u) = E[(iX)neiuX

]φ(n)(0) = in E [Xn] (4.17)

e inoltre per |u| < R/3 si ha lo sviluppo in Serie di Taylor

φ(u) =∞∑n=0

(iu)n

n!E [Xn] =

∞∑n=0

un

n!φ(n)(0) (4.18)

Se invece E[|X|k

]< +∞ solo per un numero finito n di esponenti k = 1, . . . , n,

allora la φ(u) risulta derivabile solo fino all’ordine n, e vale la Formula di Taylor

φ(u) =n∑

k=0

(iu)k

k!E[Xk]+ o(un) =

n∑k=0

uk

k!φ(k)(0) + o(un) (4.19)

con un resto infinitesimo di ordine superiore a n per u → 0.

Proof: Omessa5. Osserveremo solo che, una volta verificate le condizioni per il pas-saggio al limite sotto segno di integrale, la relazione (4.17) non e altro che il risultatodi una derivazione multipla sotto segno di integrale. Quanto allo sviluppo (4.18) essoessenzialmente discende dallo sviluppo in serie di Taylor dell’esponenziale secondolo schema euristico

φ(u) = E[eiuX

]= E

[∞∑n=0

(iu)n

n!Xn

]=

∞∑n=0

(iu)n

n!E [Xn] =

∞∑n=0

un

n!φ(n)(0)

Questi risultati mettono in evidenza l’importante relazione che intercorre fra ch.f.φ(u) e momenti E [Xn] di una r.v. X: ulteriori dettagli sul cosiddetto problemadei momenti e sui cumulanti sono riportati nell’Appendice E

5N. Cufaro Petroni, Calcolo delle Probabilita, Edizioni dal Sud (Bari, 1996)

111

Page 112: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

Con una dimostrazione del tutto analoga il precedente teorema puo essere estesoanche al caso di sviluppi attorno al punto u = v invece che u = 0, e in tal caso –con un opportuno raggio di convergenza – si avra lo sviluppo

φ(u) =∞∑n=0

in(u− v)n

n!E[XneivX

]Theorem 4.12. Teorema di unicita: Se f(x) e g(x) sono due p.d.f. dotate dellastessa ch.f., cioe se∫ +∞

−∞eiuxf(x) dx =

∫ +∞

−∞eiuxg(x) dx , ∀u ∈ R

allora risulta anche f(x) = g(x) in ogni x ∈ R, con la possibile eccezione di uninsieme di punti di misura di Lebesgue nulla

Proof: Omessa6

Theorem 4.13. Formula di inversione: Se φ(u) e la ch.f. di una legge a.c.,allora la corrispondente p.d.f. e

f(x) =1

2πlim

T→+∞

∫ T

−T

e−iuxφ(u) du =1

2πVP

∫ +∞

−∞e−iuxφ(u) du (4.20)

Proof: Omessa7

Theorem 4.14. Condizione necessaria e sufficiente affinche le componenti di unr.vec. X = (X1, . . . , Xn) siano indipendenti e che

φX(u1, . . . , un) = φX1(u1) · . . . · φXn(un)

cioe che la ch.f. congiunta φX(u) sia il prodotto delle ch.f. marginali φXk(uk) delle

componenti

Proof: Omessa8

In pratica tutti questi risultati suggeriscono che la legge di una r.v. puo essere equiv-alentemente rappresentata sia dalla sua p.d.f. (o dalla c.d.f. quando essa non e a.c.),sia anche dalla sua ch.f.: infatti la conoscenza dell’una consente di ricavare l’altrain maniera univoca, e viceversa. Inoltre tutte le informazioni rilevanti (come attesee momenti) possono essere ottenute, in maniera separata, sia dalla p.d.f. che dallach.f.. Prima pero di accettare definitivamente l’idea che la legge di una r.v. possa

6A.N. Shiryaev, Probability, Springer (New York, 1996)7A.N. Shiryaev, Probability, Springer (New York, 1996)8N. Cufaro Petroni, Calcolo delle Probabilita, Edizioni dal Sud (Bari, 1996)

112

Page 113: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

4.2 Characteristic functions

essere ben rappresentata dalla sola ch.f., dobbiamo far notare un punto piuttostodelicato: la difficolta con la quale a volte si puo stabilire se una data funzione φ(u)e la ch.f. di qualche legge o meno. Che una funzione f(x) sia una possibile p.d.f. epiuttosto facile da controllare: basta che sia una funzione reale, non negativa e nor-malizzata. Per una ch.f. invece non basta sapere che φ(u) ammette una trasformatadi Fourier inversa secondo la formula (4.20): bisogna anche essere certi (e senzaeseguire direttamente calcoli che spesso sono complicati) che la trasformata inversasia una buona p.d.f.. Insomma abbiamo bisogno di una qualche caratterizzazioneintrinseca di φ(u) che ci permetta di essere sicuri di poterla considerare una buonach.f..

Theorem 4.15. Teorema di Bochner: Una funzione continua φ(u) e una ch.f.se e solo se essa e definita non negativa 9, e φ(0) = 1

Proof: Omessa10. A questo proposito osserveremo solo che, se φ(u) e la ch.f. di unar.v.X, sappiamo che essa e (uniformemente) continua e che φ(0) = 1. Inoltre e facilecontrollare che, comunque scelti u1, . . . , un, e comunque presi n numeri complessiz1, . . . , zn, risulta

n∑j,k=1

zjzk φ(uj − uk) =n∑

j,k=1

zjzk E[ei(uj−uk)X

]= E

[n∑

j,k=1

zjzk eiujXe−iukX

]

= E

[n∑

j=1

zjeiujX

n∑k=1

zkeiukX

]= E

∣∣∣∣∣n∑

j=1

zjeiujX

∣∣∣∣∣2 ≥ 0

cioe che φ(u) e definita non negativa. Il Teorema di Bochner afferma che e veroanche l’inverso: qualunque funzione di variabile reale e a valori complessi φ(u) chegoda di queste tre proprieta e una buona ch.f.

La stretta relazione che sussiste fra la c.d.f. F (x) (o la p.d.f. f(x)) e la ch.f.φ(t) di una legge suggerisce che la convergenza debole di una successione di c.d.f.(Fn(x)

)n∈N possa essere analizzata mediante lo studio della convergenza puntuale

della corrispondente successione di ch.f.(φn(u)

)n∈N . I risultati del teorema seguente

individuano le condizioni sotto le quali la convergenza debole Fnw−→ F e equivalente

alla convergenza punto a punto φn(u) → φ(u) delle corrispondenti ch.f.

9Si dice che una funzione φ(u) e definita non negativa quando, comunque scelti n puntiu1, . . . , un, la matrice ∥φ(uj − uk)∥ risulta definita non negativa, cioe quando, comunque presin numeri complessi z1, . . . , zn, risulta

n∑j,k=1

zjzk φ(uj − uk) ≥ 0 (4.21)

10A.N. Shiryaev, Probability, Springer (New York, 1996)

113

Page 114: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

Theorem 4.16. Teorema di continuita di Paul Levy: Data la successione dic.d.f.

(Fn(x)

)n∈N e la corrispondente successione di ch.f.

(φn(u)

)n∈N

1. se Fnw−→ F e se F (x) risulta essere una c.d.f., allora anche φn(u)

n−→ φ(u)in ogni u ∈ R, e φ(u) risulta essere la ch.f. di F (x);

2. se il limite φ(u) = limn φn(u) esiste per ogni u ∈ R, e se φ(u) e continua inu = 0, allora φ(u) e la ch.f. di una c.d.f. F (x) e risulta Fn

w−→ F

3. se in particolare sappiamo a priori che F (x) e una c.d.f. e φ(u) la sua ch.f.,allora Fn

w−→ F se e solo se φn(u)n−→ φ(u) in ogni u ∈ R

Proof: Omessa11

4.2.2 Gaussian laws

I r.vec. con legge congiunta Gaussiana N(b,A) giocano un ruolo estremamente im-portante in probabilita e statistica. Questo e dovuto innanzitutto, come vedremonella Sezione 4.4, al cosiddetto Teorema Limite Centrale secondo il quale somme diun gran numero di r.v. indipendenti, ma con leggi arbitrarie e soggette a condizioninon troppo restrittive, tendono a distribuirsi in maniera Gaussiana. E questa labase teorica della cosiddetta Legge degli errori secondo la quale gli errori casualicommessi nelle misure fisiche – errori che derivano dalla somma di un gran numerodi piccoli disturbi elementari indipendenti e incontrollabili – si distribuiscono inmaniera Gaussiana. In secondo luogo le r.v. Gaussiane godono di altre proprietacaratteristiche:

• hanno leggi N(b, a2) determinate solo da un numero piccolo (due) di parametri

• sono caratterizzate dall’equivalenza fra indipendenza e non correlazione, unaproprieta non posseduta dalle altre r.v. (come visto nella Sezione 3.3.3)

• possiedono momenti finiti di ogni ordine e possono quindi essere analizzatecon le tecniche di analisi funzionale introdotte nell’Appendice D

Data la loro importanza sara quindi utile determinare la maniera piu efficace ecompleta per rappresentare la famiglia di leggi Gaussiane N(b, a2), e qui di seguitoesamineremo questo problema alla luce delle proprieta delle loro ch.f..

Come e noto, quando a > 0, la p.d.f. di una r.v. X ∼ N(b, a2) e

fX(x) =1

a√2π

e(x−b)2/2a2

Siccome a2 = V [X], quando a ↓ 0 la legge di X converge intuitivamente verso quelladi una r.v. degenere che prende solo il valore X = b , P -a.s.. D’altra parte e noto

11A.N. Shiryaev, Probability, Springer (New York, 1996)

114

Page 115: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

4.2 Characteristic functions

che una r.v. degenere in b e caratterizzata da una legge δb tipicamente non continua,e quindi non dotata di p.d.f.. Per questo motivo – nella misura in cui ci limitiamo arappresentare le leggi solo mediante le loro p.d.f. – siamo obbligati a tenere separatoil caso a > 0 (in cuiX e dotata di p.d.f. Gaussiana) dal caso a = 0 (in cuiX degeneraattorno al valore b e non puo essere descritta da una p.d.f.), e ad ammettere che ledue descrizioni non passano con continuita una nell’altra quando a ↓ 0. Per aggirarequesta difficolta ricorderemo allora che una r.v., oltre che mediante le sue c.d.f. op.d.f., puo essere descritta altrettanto bene tramite la sua ch.f., e che per le r.v. quiconsiderate abbiamo da (4.6) e (4.13)

φX(u) =

eibu se a = 0, legge δbeibu−u2a2/2 se a > 0, legge N(b, a2)

E allora evidente che – diversamente dalla rispettiva p.d.f. – la ch.f. con a = 0 siottiene con continuita da quella per a > 0 al limite per a ↓ 0, e che potremo parlaredella famiglia di leggi N(b, a2) per a ≥ 0, con N (b, 0) = δb, nel senso che ora tuttequeste leggi saranno rappresentate dalla famiglia di ch.f.

φX(u) = eibu−u2a2/2 a ≥ 0

in modo che il caso degenere non sia altro (come e anche intuitivamente chiaro) cheil caso limite del caso non degenere.

Queste osservazioni possono essere estese anche alla definizione dei r.vec. Gaus-siani X ∼ N(b,A) per i quali – con una descrizione in termini di p.d.f. – andrebberodistinti i casi in cui la matrice definita non negativa delle covarianze A e non sin-golare (definita positiva), da quelli in cui essa e singolare (|A| = 0). Va notato,peraltro, a questo proposito che la difficolta di dare una descrizione unitaria perr.vec. con piu di una sola componente e accresciuta dal fatto che nei casi singolarile varie componenti possono esibire comportamenti differenti: non e esclusa, infatti,l’eventualita che alcune componenti siano degeneri e altre no, e che quindi la dis-tribuzione sia intrinsecamente mista. L’uso delle ch.f. ci permette invece ancora unavolta di dare una descrizione unitaria e coerente

Definition 4.17. Diremo che X = (X1, . . . , Xn) ∼ N(b,A) e un r.vec. Gaus-siano (o normale) con vettore delle medie b = (b1, . . . , bn) ∈ Rn e matrice dellecovarianze simmetrica e definita non negativa A = ∥akl∥, se la sua ch.f. ha la forma

φX(u) = φX(u1, . . . , un) = ei b ·u e−u·Au/2 u ∈ Rn (4.22)

dove con b · u =∑

k bkuk indichiamo l’usuale prodotto scalare tra vettori in Rn

La ch.f. (4.22) e ovviamente una diretta generalizzazione della ch.f. (4.13) per r.v.Gaussiane con una sola componente, e riassume quest’ultima forma se b e un numeroe la matrice delle covarianze si riduce a un solo elemento a2. Si noti che – rispettoalla formulazione (2.22) in termini di p.d.f. – la ch.f. (4.22) fa uso solo della matrice

115

Page 116: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

A, e non della sua inversa A−1, e quindi non risente della sua eventuale singolarita.Siccome pero il caso singolare costituisce un’estensione di quello che finora avevamointeso per r.vec. Gaussiano, senza peraltro essere riducibile nel caso singolare aduna semplice legge degenere, dovremo verificare nella successiva proposizione che laDefinizione 4.17 sia completamente accettabile e coerente

Proposition 4.18. Nel caso non singolare |A| = 0 la (4.22) e la ch.f. di una p.d.f.Gaussiana (2.22); nel caso singolare |A| = 0 essa e comunque la ch.f. di una leggeche continueremo a chiamare Gaussiana N(b,A) pur non essendo dotata di p.d.f.

Proof: Se A e una matrice non singolare (cioe se |A| = 0) si puo definire la suainversa A−1 e si puo mostrare con un calcolo diretto (qui omesso) della trasformatadi Fourier inversa che la φX(u) della Definizione 4.17 e proprio la ch.f. di un r.vec.X ∼ N(b,A) dotato di p.d.f. normale multivariata (2.22)

fX(x) =

√|A−1|(2π)n

e−12(x−b) ·A−1(x−b)

Se invece A e una matrice singolare (se, cioe, |A| = 0), A−1 non esiste e la (4.22) nonpotra piu essere considerata come la trasformata di Fourier di una qualche p.d.f..Ciononostante si puo mostrare che essa continua ad essere la ch.f. della legge di unopportuno r.vec. non dotato di p.d.f.. Infatti, preso n ∈ N , si considera la matriceAn = A+ 1

nI, dove I e la matrice identita, e si osserva che essa e ancora simmetrica

e definita non negativa, ma che – a differenza di A – risulta anche non singolare perogni n ∈ N . Ne segue allora che per ogni n ∈ N l’inversa A−1

n esiste e la funzione

φn(u) = ei b ·u e−u·Anu/2

e la ch.f. di un r.vec. con legge N(b,An) dotato di opportuna p.d.f. Gaussiana.Siccome pero per ogni u fissato risulta ovviamente

limn

φn(u) = ei b·u e−u·Au/2 = φX(u)

e la funzione limite (4.22) e continua in u = (0, . . . , 0), il Teorema di continuita 4.16ci garantisce che φX(u) e la ch.f. di una legge, anche se quest’ultima non e dotatadi p.d.f.. I r.vec. distribuiti secondo questa legge ottenuta come limite di ch.f.Gaussiane, saranno quindi considerati a pieno titolo come dei r.vec. Gaussiani conlegge N(b,A) nel caso singolare |A| = 0

Proposition 4.19. Dato un r.vec. Gaussiano X = (X1, . . . , Xn) ∼ N(b,A) si ha

bk = E [Xk] ; akl = cov [Xk, Xl] akk = a2k = V [Xk]

e le componenti Xk ∼ N (bk, a2k) sono indipendenti se e solo se sono non correlate

116

Page 117: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

4.2 Characteristic functions

Proof: Il significato probabilistico degli elementi di b e di A = ∥akl∥ (gia discussonell’Esempio 3.34 per il caso bivariato non degenere) si ricava con un calcolo di-retto, qui omesso, facendo uso della ch.f. (4.22). Che le componenti Xk siano ancoraGaussiane N (bk, a

2k) (come anticipato senza prova nell’Esempio 3.13) puo poi es-

sere dimostrato evitando una laboriosa marginalizzazione tramite integrali: infattida (4.4) si ricava subito che le ch.f. marginali del nostro r.vec. Gaussiano sono

φXk(uk) = eibkuk e−u2

ka2k/2

e quindi sono a loro volta Gaussiane N (bk, a2k). Infine l’equivalenza fra indipendenza

e non correlazione delle componenti (gia discussa nell’Esempio 3.34 per il caso bi-variato non degenere) puo ora essere dimostrata del tutto in generale: innanzituttoe ovvio che se le Xk sono indipendenti esse sono anche non correlate. Viceversa,se le componenti di un r.vec. Gaussiano N(b,A) sono non correlate la matrice dellecovarianze A risulta diagonale con akl = δkla

2k e pertanto la sua ch.f. e

φX(u1, . . . , un) = ei b·u e−∑

k a2ku2k/2 =

n∏k=1

(eibkuk e−a2ku

2k/2)=

n∏k=1

φXk(uk)

dove le φXk(uk) sono le ch.f. delle singole componenti. Ne segue in base al Teo-

rema 4.14 che le componenti di X sono indipendenti.

Proposition 4.20. Dato il r.vec. X = (X1, . . . , Xn), le seguenti affermazioni sonoequivalenti

1. X ∼ N(b,A)

2. c ·X ∼ N (c · b , c · Ac) comunque scelto c ∈ Rn

3. X = CY + b dove Y ∼ N (0, I), C e non singolare e A = CCT

Proof: Omessa12. Si noti in particolare che nel punto 3 il r.vec. Y e Gaussiano concomponenti Yk normali standard N (0, 1) e indipendenti dato che la sua matrice dellecovarianze e δjk. Pertanto la proposizione afferma tra l’altro che le componenti di ungenerico r.vec. Gaussiano X ∼ N(b,A) risultano sempre essere combinazioni linearidelle componenti normali standard e indipendenti del r.vec. Y ∼ N (0, I), e quindiche, viceversa, opportune combinazioni lineari delle componenti di un qualunquer.vec. X ∼ N(b,A) possono sempre essere rese standard e indipendenti

4.2.3 Composition and decomposition of laws

Con il termine di proprieta riproduttiva di una famiglia di leggi si suoleindicare il fatto che tale famiglia e chiusa sotto l’operazione di convoluzione, nel

12N. Cufaro Petroni, Calcolo delle Probabilita, Edizioni dal Sud (Bari, 1996)

117

Page 118: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

senso che la composizione tramite convoluzione delle p.d.f. di due o piu leggi dellafamiglia produce ancora una legge della stessa famiglia. Abbiamo gia incontratole proprieta riproduttive (3.70) delle r.v. normali N(b, a2) nella Sezione 3.5.2, mane abbiamo rinviato la verifica esplicita per evitare delle integrazioni che in questo,come in molti altri casi, potrebbero non essere di facile esecuzione. L’uso delle ch.f.permette invece anche in questa occasione una grande semplificazione in quanto,come sappiamo dalla Proposizione 4.9, alla composizione tramite convoluzione dellep.d.f. corrisponde la banale composizione tramite prodotto semplice delle ch.f.

Exemple 4.21. Le proprieta riproduttive (3.70) delle leggi Gaussiane N(b, a2)

N (b1, a21) ∗N (b2, a

22) = N (b1 + b2 , a

21 + a22)

si giustificano ricordando semplicemente la Proposizione 4.9 e (4.13), e osservandoche il prodotto delle ch.f. φ1(u) e φ2(u) delle leggi N (b1, a

21) e N (b2, a

22) e

φ(u) = φ1(u)φ2(u) = eib1u−a21u2/2eib2u−a22u

2/2 = ei(b1+b2)u−(a21+a22)u2/2

cioe e la ch.f. di una legge N (b1+b2 , a21+a22). Pertanto la famiglia di leggi N(b, a2)

al variare dei parametri a e b e chiusa sotto operazioni di composizione medianteconvoluzione. Come caso particolare con a1 = a2 = 0 si ritrovano poi anche leproprieta riproduttive delle leggi degeneri δb

δb1 ∗ δb2 = δb1+b2 (4.23)

Con lo stesso metodo si puo dimostrare che anche le leggi di Poisson P(α) godonodelle loro proprieta riproduttive nel senso che

P(α1) ∗P(α2) = P(α1 + α2) (4.24)

Infatti da (4.9) vediamo che il prodotto delle ch.f. delle leggi P(α1) e P(α2) e

φ(u) = eα1(eiu−1)eα2(eiu−1) = e(α1+α2)(eiu−1)

che coincide con la ch.f. della legge P(α1 + α2).

Le famiglie δb, N(b, a2) e P(α) – la cui importanza sara messa ben in evidenza dallasuccessiva discussione sui teoremi limite – godono anche di un’ulteriore proprieta:esse sono chiuse non solo sotto composizione, ma anche sotto decomposizionemediante convoluzioni. Cosı, ad esempio, se una legge Gaussiana N(b, a2) si de-compone nella convoluzione di altre due leggi, queste ultime non possono che essereanche loro due leggi Gaussiane della famiglia N(b, a2). In altri termini, non solole leggi ottenute componendo due Gaussiane sono ancora Gaussiane, ma solo com-ponendo leggi Gaussiane si puo ottenere tale risultato. In questo senso si dice chela famiglia N(b, a2) e chiusa sotto composizione e decomposizione mediante con-voluzioni. Lo stesso risultato e vero anche per le famiglie δb e P(α), ma, diversa-mente da quelli sulle composizioni, i risultati sulle decomposizioni sono piuttostodifficili da dimostrare13

13M. Loeve, Probability Theory - I, Springer (New York, 1977)

118

Page 119: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

4.3 Laws of large numbers

Exemple 4.22. Ci sono ancora altre famiglie di leggi chiuse sotto composizionemediante convoluzione: con gli stessi semplici metodi si provano infatti da (4.16) leproprieta riproduttive delle leggi di Cauchy C(a, b)

C(a1, b1) ∗ C(a2, b2) = C(a1 + a2, b1 + b2) (4.25)

Non bisogna pero pensare che si tratti di proprieta del tutto generali: ad esempiouna combinazione di leggi esponenziali E(a) non riproduce un’altra esponenzialecon un nuovo parametro, ma produce invece una legge di un genere differente. Infattisi vede facilmente da (4.14) che se φ1(u) e φ2(u) sono le ch.f. delle leggi E(a1) eE(a2), il loro prodotto

φ(u) = φ1(u)φ2(u) =a1

a1 − iu

a2a2 − iu

non e piu la ch.f. di una legge esponenziale. Tralasciando uno studio di quest’altrotipo di leggi, osserveremo invece che limitandoci a comporre solo leggi esponenzialicon il medesimo parametro a si producono altre famiglie di leggi che saranno usatenel seguito: infatti il prodotto delle ch.f. φa(u) di n leggi esponenziali E(a) tutte conlo stesso a e

φ(u) = φna(u) =

(a

a− iu

)n

(4.26)

e si verifica facilmente con un calcolo diretto che la corrispondente p.d.f. e

fZ(x) =(ax)n−1

(n− 1)!ae−axϑ(x) n = 1, 2, . . . (4.27)

dove ϑ(x) e la funzione di Heaviside. Le leggi di questa nuova famiglia portano ilnome di leggi di Erlang En(a), ed e facile verificare da (3.33) e (3.38) che seX ∼ En(a), allora

E [X] =n

aV [X] =

n

a2(4.28)

Si noti la particolare reciprocita che sussiste fra le distribuzioni di Erlang (4.27) equelle di Poisson: l’espressione

xke−x

k!ϑ(x) k = 0, 1, 2 . . .

puo infatti essere considerata sia come una distribuzione discreta di Poisson P(x)in k (con parametro x > 0), sia come una p.d.f. di Erlang Ek+1(1) in x (con a = 1)

4.3 Laws of large numbers

I Teoremi Limite classici sono proposizioni riguardanti limiti per n → ∞ di sommeSn = X1+· · ·+Xn di successioni (Xn)n∈N di r.v., e in essi, come vedremo, giocano un

119

Page 120: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

ruolo preminente le famiglie di leggi δb, N(b, a2) eP(α). Va detto subito pero che taliTeoremi Limite non sono una conseguenza delle proprieta di composizione e decom-posizione tipiche di queste tre famiglie che abbiamo richiamato nella Sezione 4.2.3.Si tratta invece di risultati piu profondi che travalicano i confini delle precedenti dis-cussioni. Innanzitutto, infatti, mentre le proprieta di composizione e decomposizionesi riferiscono solo a somme finite di r.v., i teoremi che ora esamineremo sono risultatisu limiti di successioni di somme di r.v.. Inoltre, mentre nelle proprieta di compo-sizione e decomposizione una r.v., ad esempio Gaussiana, e somma di un numerofinito di altre r.v. indipendenti e ancora Gaussiane, nel Teorema Limite Centralela legge normale emerge come limite in distribuzione di somme di r.v. indipendenticon legge arbitraria all’interno di condizioni molto larghe. Cominceremo discutendole Leggi dei Grandi Numeri che, diversamente dai Teoremi Gaussiani che sarannodiscussi nella Sezione 4.4, sono un caso di convergenza degenere: la successione Sn

convergera infatti verso un numero, ovvero verso una r.v. che assume un solo valoreP -a.s.. La versione piu antica di questo primo importante risultato, il Teorema diBernoulli (1713), e richiamata nell’Appendice F

Theorem 4.23. Legge debole dei Grandi Numeri: Data una successione (Xn)n∈Ndi r.v. i.i.d. con E [|Xn|] < +∞, e posto Sn = X1 + · · ·+Xn e E [Xn] = m, risulta

Sn

n

P−→ m

Proof: In questa formulazione le Xk non sono in generale r.v. di Bernoulli, e quindiSn non e piu binomiale, sicche sara necessario introdurre un metodo di dimostrazionediverso da quello utilizzato da Bernoulli. Osserviamo allora innanzitutto che, in baseal punto 4 del Teorema 4.4, la convergenza degenere in probabilita (nel nostro casoverso il numero m) e equivalente alla convergenza in distribuzione verso la medesimacostante e quindi per la dimostrazione potremo legittimamente usare il Teorema 4.16.Se allora φ(u) e la ch.f. delle Xn, le ch.f. delle Sn/n saranno

φn(u) = E[eiuSn/n

]=

n∏k=1

E[eiuXk/n

]=[φ(un

)]nD’altra parte, dato che le nostre r.v. sono integrabili, dalla (4.19) si ha

φ(u) = 1 + ium+ o(u) u → 0

e quindi, con u arbitrario ma fissato,

φ(un

)= 1 + i

u

nm+ o

(1

n

)n → ∞

Ne segue che, per ogni u ∈ R, avremo

φn(u) =

[1 + i

u

nm+ o

(1

n

)]nn−→ eimu

120

Page 121: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

4.3 Laws of large numbers

e siccome eimu e la ch.f. di una r.v. degenere attorno al valore m, il risultato seguedal Teorema 4.16.

Esiste anche una versione della Legge debole dei Grandi Numeri adatta a successionidi r.v. indipendenti, ma non identicamente distribuite. Converra osservare a questoscopo che la tesi del Teorema 4.23 puo essere anche posta nella forma

Sn −E [Sn]

n

P−→ 0 (4.29)

che, non facendo piu richiamo a un comune valore delle attese, e piu adatta atrattare il caso delleXn indipendenti, ma non identicamente distribuite. Nel teoremaseguente mostreremo che l’ipotesi di identica distribuzione puo essere sostituita daopportune ipotesi sulle varianze V [Xn] che ora devono essere supposte finite

Theorem 4.24. Se le r.v. di (Xn)n∈N sono indipendenti, se E [|Xn|2] < +∞ eposto Sn = X1 + · · ·+Xn, se esiste un numero C > 0 tale che

V [Xn] < C ∀n ∈ N

allora risultaSn −E [Sn]

n

P−→ 0

Proof: Dalla disuguaglianza di Chebyshev (3.42), e per ϵ > 0 arbitrario

P

∣∣∣∣Sn −E [Sn]

n

∣∣∣∣ ≥ ϵ

≤ 1

ϵ2V

[Sn −E [Sn]

n

]=

1

n2ϵ2V

[n∑

k=1

(Xk −E [Xk])

]

=1

n2ϵ2

n∑k=1

V [Xk −E [Xk]] =1

n2ϵ2

n∑k=1

V [Xk] ≤nC

n2ϵ2

=C

nϵ2n−→ 0

e il teorema e dimostrato per definizione di convergenza in probabilita.

La Legge dei Grandi Numeri gioca un ruolo fondamentale nel calcolo delle probabilitain quanto, tra l’altro, consente di stimare il expectation di una r.v. X con la mediaaritmetica dei risultati di un gran numero di osservazioni indipendenti. In pratica siconsidera una successione (Xn)n∈N di misure indipendenti di X (le Xn sono quindii.i.d.) e si calcola la media aritmetica Sn/n. In base al Teorema 4.23 potremoallora affermare con grande confidenza che il valore osservato della media Sn/n sidiscosta dal numero E [X] di una quantita infinitesima con n. L’espressione congrande confidenza, pero, resta per il momento problematica: le Leggi dei GrandiNumeri formulate finora, infatti, assicurano la convergenza di Sn/n verso E [X]solamente in probabilita, e non P -a.s.. Pertanto, la probabilita che la successioneSn/n non converga verso E [X] potrebbe, a rigore, essere diversa da zero. Se non

121

Page 122: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

disponessimo di risultati piu forti dei Teoremi 4.23 e 4.24, potremmo sospettareche, con probabilita non nulla, la media di una successione di misure non convergaverso E [X], e questo creerebbe una situazione particolarmente delicata in tuttele applicazioni. Per questo motivo grandi sforzi sono stati dedicati alla ricerca diLeggi dei Grandi Numeri in forma forte (vere cioe P -a.s.) in modo da assicurare lacorrettezza delle procedure empiriche con probabilita 1

Theorem 4.25. Legge forte dei Grandi Numeri: Data una successione (Xn)n∈Ndi r.v. i.i.d. con E [|Xn|] < +∞, e posto Sn = X1 + · · ·+Xn e E [Xn] = m, risulta

Sn

n

qo−→ m

Proof: Omessa14. Si noti che le ipotesi di questo Teorema forte coincidono conquelle del Teorema debole 4.23: la differenza dell’enunciato (convergenza P -a.s.,invece di convergenza in probabilita) e giustificata solo dall’uso di tecniche di di-mostrazione piu evolute. Si prova poi che e possibile fare a meno dell’identica dis-tribuzione delle Xn a prezzo di qualche ipotesi aggiuntiva sulle varianze, e che irisultati restano validi anche se il expectation E [Xn] esiste ma non e finito. Noipero eviteremo di entrare nei dettagli tecnici di questi importanti risultati, e mostr-eremo invece alcuni esempi di applicazione pratica della Legge forte dei GrandiNumeri

Exemple 4.26. Supponiamo di considerare una funzione continua g(x) : [0, 1] →[0, 1] e di voler calcolare

I =

∫ 1

0

g(x) dx (4.30)

in modo numerico, senza cioe trovare la primitiva di g(x). Mostreremo come epossibile far questo sfruttando delle regolarita statistiche, secondo un metodo notocome Monte Carlo del quale presenteremo due possibili versioni.

Consideriamo prima di tutto il r.vec. U = (X, Y ) a valori in(R2,B(R2)

)con

componenti indipendenti ed uniformemente distribuite in [0, 1] con

fU (x, y) =

1 (x, y) ∈ [0, 1]× [0, 1]0 altrove

in modo che U risulti uniformemente distribuito in [0, 1]× [0, 1]. Posto allora

A =(x, y) ∈ [0, 1]× [0, 1] : g(x) ≥ y

∈ B(R2) B =

(X,Y ) ∈ A

∈ F

χA(x, y) =

1 (x, y) ∈ A0 altrove

IB(ω) =

1 ω ∈ B0 altrove

14A.N. Shiryaev, Probability, Springer (New York, 1996)

122

Page 123: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

4.3 Laws of large numbers

O 1

1

x

I

gHxL

y

Figure 4.2: Calcolo dell’integrale definito (4.30) con il metodo di Monte Carlo

la r.v. Z = IB = χA(X, Y ) sara una Bernoulli B (1; p) con

p = E [Z] = P B = P (X, Y ) ∈ A = P Y ≤ g(X)

=

∫A

fU (x, y) dx dy =

∫ 1

0

[∫ g(x)

0

dy

]dx =

∫ 1

0

g(x) dx = I

In pratica il valore di I coincide con la probabilita che un punto aleatorio X, Yverifichi l’evento Y ≤ g(X), ovvero con il expectation di Z. Pertanto l’integraleI puo essere calcolato stimando E [Z] tramite la Legge forte dei Grandi Numeri.Scelti n punti (X,Y ) uniformemente distribuiti in [0, 1] × [0, 1], sia (Zn)n∈N unasuccessione di r.v. i.i.d. distribuite come Z, e Sn = Z1+ . . .+Zn: il valore I = E [Z]e allora ben approssimato da Sn/n per grandi valori di n. Concretamente questo vuoldire stimare I = p = P Y ≤ g(X) contando il numero di punti casuali e uniformiin [0, 1]× [0, 1] che cadono sotto la curva y = g(x) nella Figura 4.2, e dividendo ilrisultato per il numero totale di punti estratti.

Il calcolo numerico dell’integrale I puo essere eseguito anche con una proceduraalternativa, osservando che se X e una r.v. uniforme U (0, 1), e se Y = g(X), risulta

E Y = E[g(X)

]=

∫ 1

0

g(x) dx = I

Pertanto si potra anche valutare I stimando il expectation di Y = g(X) con unamedia aritmetica: detta (Xn)n∈N una successione di r.v. i.i.d. uniformi U (0, 1), laLegge dei grandi numeri ci dice che con probabilita 1 avremo

1

n

n∑k=1

g(Xk)n−→ E [g(X)] = I

sicche con un numero adeguato di misure si potra sempre avere una approssimazionedel valore di I con l’accuratezza voluta.

123

Page 124: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

4.4 Gaussian theorems

I Teoremi Gaussiani riguardano convergenze in distribuzione verso leggi normalistandard N(0, 1), e siccome saremo interessati alla forma delle distribuzioni limitepiu che ai valori d’attesa o alle varianze, sara utile standardizzare le successioniin questione. Ricorderemo allora che una r.v. X si dice standardizzata quandoE [X] = 0 e V [X] = 1, per cui nel seguito studieremo il comportamento di sommeSn standardizzate

S∗n =

Sn −E [Sn]√V [Sn]

(4.31)

Nelle versioni piu arcaiche di questi teoremi le somme Sn in questione erano r.v.binomiali (vedi Appendice F), ma ne esistono ormai delle formulazioni molto piugenerali che possono essere dimostrate sotto una grande varieta di ipotesi

Theorem 4.27. Teorema Limite Centrale per r.v. i.i.d.: Data una successione(Xn)n∈N di r.v. i.i.d. con E [X2

n] < +∞ e V [Xn] > 0, e definite Sn = X1+ . . .+Xn

e S∗n come in (4.31), risulta

S∗n

d−→ N(0, 1)

Proof: Siccome la convergenza in distribuzione di una successione di r.v. equiv-ale alla convergenza in generale della corrispondente successione di c.d.f. (vediSezione 4.1), la tesi del nostro teorema afferma che

P S∗n ≤ x n−→ Φ(x) , ∀ x ∈ R

dove

Φ(x) =1√2π

∫ x

−∞e−z2/2 dz

e la funzione errore standard (2.16) che e anche continua in ogni x. Per la di-mostrazione faremo allora uso del Teorema 4.16: siccome le Xn sono i.i.d., poniamo

m = E [Xn] σ2 = V [Xn] φ(u) = E[eiu(Xn−m)

]e osserviamo prima di tutto che

E [Sn] = nm V [Sn] = nσ2 S∗n =

1

σ√n

n∑k=1

(Xk −m)

Dall’indipendenza delle Xn si ha allora

φn(u) = E[eiuS

∗n]= E

[n∏

k=1

eiu(Xk−m)/σ√n

]=

n∏k=1

E[eiu(Xk−m)/σ

√n]=

(u

σ√n

)]nOra φ(u) e la ch.f. delle Xn−m, con momenti finiti almeno fino al secondo ordine e

E [Xn −m] = 0 E[(Xn −m)2

]= σ2

124

Page 125: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

4.4 Gaussian theorems

Quindi dalla (4.19) sappiamo che

φ(u) = 1− σ2u2

2+ o(u2) u → 0

e pertanto, con u arbitrario ma fissato e n → ∞, risultera

φn(u) =

[1− u2

2n+ o

(1

n

)]nn−→ e−u2/2

Siccome da (4.13) sappiamo che e−u2/2 e la ch.f. di N (0, 1), il teorema resta provatosulla base del Teorema 4.16.

Si osservi che, siccome ora V [Sn] = nσ2, la formulazione (4.29) della Legge deiGrandi Numeri (tenendo conto della particolare equivalenza fra convergenze in prob-abilita e in distribuzione verso 0) si potrebbe riscrivere come

Sn −E [Sn]

V [Sn]

d−→ δ0 = N (0, 0)

con un denominatore che cresce come n, mentre la tesi del Teorema Limite Cen-trale 4.27 e

S∗n =

Sn −E [Sn]√V [Sn]

d−→ N (0, 1)

Queste due formulazioni mettono bene in luce le analogie e le differenze fra i dueenunciati: nel Teorema Limite Centrale la varianza compare sotto radice per cui ildenominatore cresce solo come

√n, e questo giustifica in maniera intuitiva che la

convergenza non sia piu degenere. Ricorderemo infine l’enunciato di un’altra ver-sione del Teorema Limite Centrale che, introducendo opportune ulteriori condizionitecniche, permette di fare a meno dell’ipotesi di identica distribuzione delle Xn

Theorem 4.28. Teorema Limite Centrale per r.v. indipendenti: Data unasuccessione (Xn)n∈N di r.v. indipendenti con E [X2

n] < +∞ e V [Xn] > 0, e definiteSn = X1 + . . .+Xn e S∗

n come in (4.31), posto

mn = E [Xn] Vn =√

σ21 + · · ·+ σ2

n

se esiste δ > 0 tale che (condizioni di Lyapunov)

1

V 2+δn

n∑k=1

E[|Xk −mk|2+δ

] n−→ 0

allora si haS∗n

d−→ N(0, 1)

Proof: Omessa15

15A.N. Shiryaev, Probability, Springer (New York, 1996)

125

Page 126: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

4.5 Poisson theorems

In alcune vecchie formulazioni binomiali dei Teoremi Gaussiani (vedi ad esempio ilTeorema Limite Locale nella Appendice F) la convergenza verso una legge normaleveniva discussa tentando di approssimare i valori di una distribuzione binomialemediante valori di funzioni Gaussiane, ma – a causa delle differenze strutturali cheintercorrono fra le leggi binomiali e quelle Gaussiane – la validita di tale approssi-mazione si rivela sempre piu incerta man mano che ci si allontana dal centro versole code delle distribuzioni. Queste difficolta, peraltro, divengono particolarmenteevidenti se p e molto prossimo a 0 oppure a 1. Infatti una curva gaussiana e perfet-tamente simmetrica attorno al suo massimo, mentre una distribuzione binomiale loe solo quando p = 1

2: se p si discosta da 1

2avvicinandosi a 0 oppure 1 tale simmetria

si perde. Per questi valori di p dunque non e ragionevole pretendere che una curvanormale approssimi bene la distribuzione binomiale, se non nelle immediate vici-nanze del suo massimo. Queste osservazioni ci suggeriscono allora di cercare altreapprossimazioni asintotiche (per n → ∞) della distribuzione binomiale quando p siavvicina a 0 oppure a 1, anche perche in alcuni particolari tipi di problemi saremoobbligati a costruire modelli probabilistici piuttosto diversi da quello originario diBernoulli. Piu precisamente puo capitare che la probabilita p non sia la stessa alvariare del numero di tentativi n, ma ne dipenda esplicitamente, e in particolare noici interesseremo al caso in cui p(n) → 0 per n → ∞ come vedremo discutendo unsemplice esempio

Exemple 4.29. Istanti aleatori: Supponiamo che un centralino telefonico riceva,in istanti casuali, delle telefonate il cui numero medio e proporzionale alla lunghezzadell’intervallo di tempo considerato. In particolare sia noto che arrivano in mediaλ = 1.5 telefonate al minuto, cioe 90 telefonate all’ora. Detta allora S la r.v. cheindica il numero delle telefonate che arrivano in un intervallo di T = 3 minuti,ci chiediamo quale e la distribuzione di S. Osserveremo allora innanzitutto che Sassume solo valori interi k = 0, 1, . . . non limitati superiormente: l’insieme dei pos-sibili valori di S coincide quindi con tutto N ∪ 0. Inizieremo allora cercando unaprocedura per approssimare i risultati esatti: siccome arrivano mediamente λ = 1.5telefonate al minuto, inizieremo col suddividere T in un numero n di sottointervalliuguali fra loro, e abbastanza piccoli da far in modo che in ciascuno di essi ci si at-tenda di ricevere non piu di una telefonata. Ad esempio con n = 9 il numero mediodi telefonate nei sottointervalli diventa

λT

n= 1.5× 3

9=

1

2

e quindi, in prima approssimazione, potremo supporre che non arrivi piu di unatelefonata. Il nostro modello sara allora composto di n = 9 tentativi indipendentidi verificare che in ciascuno dei 9 sottointervalli cada una telefonata, e a questoscopo definiremo 9 r.v. di Bernoulli X

(9)j (j = 1, . . . , 9) che assumono valore 1 se

capita una telefonata nel j-mo sottointervallo, e valore 0 in caso contrario. Siccome

126

Page 127: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

4.5 Poisson theorems

X(9)j ∼ B (1; p), e siccome nel nostro modello E

[X

(9)j

]= 1

2, da (3.27) avremo anche

che p = p(9) = 12. Conseguentemente la r.v. S9 = X

(9)1 + . . .+X

(9)9 che rappresenta

approssimativamente il numero di telefonate in T sara binomiale B(9; 1

2

), cioe

P S9 = k =

(9

k

)(1

2

)k (1

2

)9−k

=

(9

k

)(1

2

)9

k = 0, 1, . . . , 9

Il difetto di questa prima approssimazione, come e chiaro, sta nell’ipotesi che in ognisottointervallo possa arrivare al piu una telefonata, cioe nell’aver approssimato unar.v. S che assume infiniti valori, con una r.v. S9 ∼ B

(9; 1

2

)i cui possibili valori

sono invece solo 10. Questa osservazione ci suggerisce, pero, anche la strada permigliorare l’approssimazione: se il numero n dei sottointervalli di T aumenta, daun lato otteniamo delle r.v. Sn con un numero sempre crescente di possibili valori, edall’altro, rendendo sempre piu piccola la durata dei sottointervalli, saremo semprepiu sicuri del fatto che in ognuno di essi non arrivi piu di una sola telefonata. Cosı,ad esempio, con n = 18 sottointervalli otteniamo

p(18) =λT

n= 1.5× 3

18=

1

4

e quindi S18 ∼ B(18; 1

4

), cioe

P S18 = k =

(18

k

)(1

4

)k (3

4

)18−k

k = 0, 1, . . . , 18

Potremo pertanto continuare a migliorare la nostra approssimazione aumentando ilvalore di n, nel qual caso risultera

p(n) =λT

n= 1.5× 3

n

n−→ 0 np(n) = λT = α, ∀n ∈ N

e dovremo chiederci a quale distribuzione limite (n → ∞) tende, in queste con-dizioni, la successione di leggi binomiali B (n; p(n))

pn(k) = P Sn = k =

(n

k

)p(n)k

(1− p(n)

)n−k(4.32)

La risposta e contenuta nel successivo teorema che riporteremo comunque nella suaforma classica binomiale16 prima di darne le versioni piu moderne

Theorem 4.30. Teorema di Poisson per r.v. binomiali: Data la successionedi r.v. binomiali Sn ∼ B (n; p(n)) come in (4.32), se esiste α > 0 tale che

p(n) → 0 q(n) = 1− p(n) → 1 np(n) → α n → ∞16S.D. Poisson, Recherches sur la Probabilite des Jugements en Matiere Crim-

inelle et en Matiere Civile, Bachelier (Paris, 1837)

127

Page 128: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

allora Sn converge in distribuzione verso la legge di Poisson P(α) nel senso che

Snd−→ P(α) ovvero lim

npn(k) =

αk e−α

k!, k = 0, 1, . . .

Proof: Siccome, qualunque sia α > 0, da un certo n in poi si ha α/n < 1, a partireda quell’n le ipotesi fatte ci autorizzano a scrivere

p(n) =α

n+ o(n−1)

sicche per k = 0, 1, . . . , n avremo

pn(k) =n(n− 1) . . . (n− k + 1)

k!

[αn+ o(n−1)

]k [1− α

n+ o(n−1)

]n−k

Ricordando allora un ben noto limite notevole si ha

n(n− 1) . . . (n− k + 1)[αn+ o(n−1)

]k=

n(n− 1) . . . (n− k + 1)

nk[α + o(1)]k

=

(1− 1

n

). . .

(1− k − 1

n

)[α + o(1)]k

n−→ αk

[1− α

n+ o(n−1)

]n−k

=[1− α

n+ o(n−1)

]n [1− α

n+ o(n−1)

]−k n−→ e−α

da cui segue immediatamente la tesi.

Theorem 4.31. Teorema di Poisson per r.vec. multinomiali: Data una suc-cessione di r.vec. multinomiali Sn = (X1, . . . , Xr) ∼ B (n; p1, . . . , pr) con

P X1 = k1, . . . , Xr = kr =n!

k0!k1! . . . kr!pk00 pk11 . . . pkrr

p0 + p1 + . . .+ pr = 1k0 + k1 + . . .+ kr = n

se per j = 1, . . . , r e per n → ∞ esistono degli αj > 0 tali che

pj = pj(n) → 0 p0 = p0(n) → 1 npj(n) → αj

alloraSn = (X1, . . . , Xr)

d−→ P(α1) · . . . ·P(αr).

Proof: Omessa: analoga a quella del Teorema 4.30

Il precedente Teorema 4.30 e stato dimostrato usando esplicitamente le proprietadelle leggi binomiali ottenute sommando r.v. di Bernoulli i.i.d.. Esso puo esseregeneralizzato anche a somme di r.v. di Bernoulli indipendenti ma non identicamentedistribuite: in questo caso pero le leggi delle somme non sono piu binomiali e ladimostrazione precedente non trova applicazione. Per fissare le idee consideriamo

128

Page 129: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

4.5 Poisson theorems

una successione di esperimenti, e per ogni n della successione siano date n r.v.

indipendenti X(n)1 , . . . , X

(n)n di Bernoulli con X

(n)k ∼ B

(1; p

(n)k

), cioe

P X(n)k = 1 = p

(n)k P X(n)

k = 0 = q(n)k p

(n)k + q

(n)k = 1 k = 1, . . . , n

La r.v. somma Sn = X(n)1 + · · ·+X

(n)n prendera allora certamente valori da 0 ad n,

ma in generale non sara piu una r.v. binomiale dato che gli addendi non sono piuidenticamente distribuiti. Nei casi piu generali avremo infatti

• per ogni k fissato: le p(n)k variano al variare di n sicche le r.v. X

(n)k cambiano

distribuzione al variare di n; cioe nel passaggio da un n al successivo le r.v.che si trovano in un determinato posto k vengono aggiornate

• per ogni n fissato le X(n)k non sono identicamente distribuite, sicche le r.v. Sn

non sono binomiali

In sostanza avremo a che fare con schemi triangolari del tipo

X(1)1 p

(1)1

X(2)1 , X

(2)2 p

(2)1 , p

(2)2

......

X(n)1 , . . . , X

(n)n p

(n)1 , . . . , p

(n)n

......

In ciascuna riga le X(n)k sono indipendenti, ma non identicamente distribuite; lungo

le colonne i valori delle p(n)k (e quindi le leggi) in generale si modificano. Il successivo

teorema stabilisce le condizioni sotto le quali le Sn convergono ancora in distribuzioneverso P(α)

Theorem 4.32. Date per ogni n ∈ N e k = 1, . . . , n le r.v. indipendenti X(n)k con

PX

(n)k = 1

= p

(n)k P

X

(n)k = 0

= q

(n)k p

(n)k + q

(n)k = 1

e posto Sn = X(n)1 + · · ·+X

(n)n , se

max1≤k≤n

p(n)k

n−→ 0n∑

k=1

p(n)k

n−→ α > 0

allora risulta

Snd−→ P(α)

129

Page 130: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

Proof: Data l’indipendenza delle X(n)k , e ricordando (4.7), si ha

φSn(u) = E[eiuSn

]=

n∏k=1

[p(n)k eiu + q

(n)k

]=

n∏k=1

[1 + p

(n)k (eiu − 1)

]Siccome per ipotesi p

(n)k

n−→ 0, dallo sviluppo in serie del logaritmo si ha

lnφSn(u) =n∑

k=1

ln[1 + p

(n)k (eiu − 1)

]=

n∑k=1

[p(n)k (eiu − 1) + o(p

(n)k )] n−→ α(eiu − 1)

e data la continuita del logaritmo

φSn(u)n−→ eα(e

iu−1)

Ricordando allora la (4.9), dal Teorema 4.16 si ha Snd−→ P(α).

Theorem 4.33. Se S e una r.v. di Poisson P(α) allora

S∗ =S − α√

α

d−→ N(0, 1) α → +∞

Proof: Detta φα la ch.f. di S∗, da (4.9) e dallo sviluppo in serie di un esponenzialesi ha per α → +∞

φα(u) = E[eiuS

∗]= e−iu

√αE[eiuS/

√α]

= exp[−iu

√α + α

(eiu/

√α − 1

)]= exp

[−iu

√α− α + α

(1 +

iu√α− u2

2α+ o

(1

α

))]→ e−u2/2

Il risultato segue allora dal Teorema 4.16.

4.6 Limit theorems breakdowns

I teoremi limite sono affermazioni piuttosto generali sui comportamenti di somme diun numero molto grande r.v. indipendenti, ma non bisogna pensare che essi possanoessere applicati in maniera del tutto indiscriminata. In particolare va esercitatauna certa cautela nel verificare che le loro ipotesi siano effettivamente rispettate,specialmente quelle che riguardano l’esistenza dei momenti E [Xn] e E [X2

n]. Aquesto scopo discuteremo brevemente un esempio che mette in evidenza come deiproblemi rilevanti possano nascere gia in situazioni molto comuni.

130

Page 131: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

4.6 Limit theorems breakdowns

X

Q

a

A B

C

Figure 4.3: Costruzione di r.v. con legge C(a)

Exemple 4.34. Supponiamo che, come nella Figura 4.3, un raggio di luce emesso dauna sorgente luminosa collocata in A su una parete colpisca uno specchio collocato inC ad una distanza a, e libero di muoversi ruotando attorno ad un perno. La posizionedello specchio sia aleatoria nel senso che l’angolo Θ di riflessione del raggio sia unar.v. uniforme U

(−π

2, π2

). Sia poi X = a tanΘ la distanza da A del punto B in cui

il raggio riflesso colpisce la parete. Mostriamo allora prima di tutto che X e unar.v. con legge di Cauchy C(a, 0). Infatti siccome nel nostro modello

fΘ(θ) =

1/π se |θ| ≤ π/20 se |θ| > π/2

mentre X risulta dall’applicazione ad Θ della funzione x = g(θ) = a tan θ che emonotona su

(−π

2, π2

), posto

θ1(x) = g−1(x) = arctanx

a

e osservato cheθ′1(x) =

a

a2 + x2

dalla regola di trasformazione (3.63) si ottiene per X la p.d.f. di Cauchy C(a, 0)

fX(x) = fΘ(θ1(x)

)|θ′1(x)| =

1

π

a

a2 + x2

visto che fΘ assume costantemente il valore 1πin[−π

2, π2

], e che θ1(x) ∈

[−π

2, π2

].

Resta cosı accertato che una legge di Cauchy puo emergere in maniera naturale incasi anche molto semplici e realistici. Per provare ad applicare i teoremi limite alnostro modello, possiamo ora supporre di ripetere, in maniera indipendente, variemisure di X ottenendo una successione (Xn)n∈N di r.v. i.i.d. tutte con legge diCauchy C(a, 0). Da (4.16) sappiamo pero che la ch.f. di queste leggi e

φ(u) = E[eiuXn

]= e−a|u|

131

Page 132: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

e quindi che, posto Sn = X1+· · ·+Xn, la ch.f. della media aritmetica Sn/n e sempre

φn(u) = E[eiu

Snn

]= E

[n∏

k=0

eiuXkn

]=[φ(un

)]n=(e−

a|u|n

)n= e−a|u| = φ(u)

Ne segue allora banalmente che

φn(u)n−→ φ(u) ∀u ∈ R

e quindi dal Teorema 4.16Sn

n

d−→ X

Pertanto non si riscontra nessuna convergenza degenere del tipo previsto dalla Leggedei Grandi Numeri (debole o forte). Inoltre, con le stesse procedure, si verifica anchefacilmente che con λn arbitrario risulta sempre λnSn ∼ C(nλna, 0), sicche in nessuncaso le somme di r.v. di Cauchy indipendenti mostrano una tendenza a convergereverso leggi normali come previsto dai Teoremi Gaussiani

Il nostro esempio, quindi, si pone al di fuori della giurisdizione dei teoremi limiteclassici studiati finora, e una sua trattazione completa richiederebbe l’introduzione diconcetti piu evoluti sulle possibili leggi limite e sui corrispondenti teoremi (si vedaanche a questo proposito la successiva Sezione 7.1.3). Noi concluderemo questerapide osservazioni ricordando solo che il comportamento apparentemente anomalodel nostro esempio, che sembra violare teoremi enunciati in precedenza, e sostanzial-mente dovuto al fatto che le ipotesi di questi teoremi non sono soddisfatte: comeabbiamo gia osservato nell’Esempio 3.25, una r.v. X di Cauchy C(a, 0) non ha un ex-pectation definito, mentre l’esistenza di E [X] (nel senso di un integrale di Lebesgue)e un’ipotesi importante nelle dimostrazioni dei Teoremi Gaussiani e delle Leggi deiGrandi Numeri

132

Page 133: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

Part II

Stochastic Processes

133

Page 134: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of
Page 135: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

Chapter 5

Generalities

Il concetto di s.p. X(t) = X(ω; t) su uno spazio di probabilita (Ω,F ,P ) con t > 0 estato gia introdotto nella Sezione 3.2 dove e stato fatto osservare che esso puo essereguardato da due punti di vista complementari:

• come un’applicazione che ad ogni fissato t > 0 associa una r.v. X(ω; t) = X(t)che descrive lo stato del sistema all’istante t; in questo caso il s.p. e una famigliadi r.v. al variare di t;

• come un’applicazione che ad ogni fissato ω ∈ Ω associa una intera traiettoriaX(ω; t) = x(t) del processo; in questo secondo caso il s.p. consiste nell’insieme(pesato) di tutte le traiettorie possibili del processo.

I due punti di vista sono sostanzialmente equivalenti e vengono adottati secondo lenecessita. Sara opportuno osservare subito, comunque, che t e qui considerato comeun tempo solo per fissare le idee: in effetti qualunque famiglia di r.v. X(α) descrittada un o piu parametri α costituisce un s.p. L’idea che il parametro sia un temponasce solo dal fatto che gli esempi piu noti sono di questo tipo. In generale i nostris.p. saranno definiti per t ≥ 0, ma non sono escluse altre possibilita: ad esempiot ∈ R. Come vedremo in un capitolo successivo, inoltre, un s.p. puo avere piu di unasola componente: X(t) =

(X1(t), . . . , XM(t)

), anche se in questa prima parte del

corso ci limiteremo per semplicita solo al caso M = 1. Inoltre nel seguito parleremospesso anche degli incrementi X(s)−X(t) di X(t) sull’intervallo [t, s], usando lanotazione ∆X(t) = X(t + ∆t) −X(t) con ∆t = s − t > 0, e del processo degliincrementi ∆X(t) al variare di t con ∆t > 0 fissato

5.1 Laws and identification of s.p.’s

Ad ogni s.p. dato puo essere associata un’intera gerarchia consistente di leggi finito-dimensionali che – come stabilito nel Teorema di Kolmogorov 2.37 – determinanounivocamente la legge globale del s.p.. Tale associazione viene effettuata nelmodo seguente: fissato un arbitrario numero finito n di arbitrari istanti di tempo

135

Page 136: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

t1, . . . , tn, si considerano tutte le leggi congiunte dei vettori (X(t1), . . . , X(tn)) cosıottenuti. Tali leggi possono essere rappresentate mediante le loro ch.f.

φ(u1, t1; . . . ;un, tn)

ma noi nel seguito useremo anche le loro distribuzioni discrete (tipicamente convalori interi k, ℓ . . .), ovvero – se a.c., come supporremo spesso – le loro p.d.f. con lenotazioni rispettive

p(k1, t1; . . . ; kn, tn) f(x1, t1; . . . ;xn, tn)

Allo stesso modo, introdotti altrim istanti s1, . . . , sm, potremo parlare di probabilitae di p.d.f. condizionate secondo le notazioni della Sezione 3.4.1

p(k1, t1; . . . ; kn, tn| ℓ1, s1; . . . ; ℓm, sm) =p(k1, t1; . . . ; kn, tn; ℓ1, s1; . . . ; ℓm, sm)

p(ℓ1, s1; . . . ; ℓm, sm)

f(x1, t1; . . . ;xn, tn| y1, s1; . . . ; ym, sm) =f(x1, t1; . . . ; xn, tn; y1, s1; . . . ; ym, sm)

f(y1, s1; . . . ; ym, sm)

L’ordine delle ti, sj e per ora irrilevante, ma di solito si scelgono in modo che

tn ≥ . . . ≥ t1 ≥ sm ≥ . . . ≥ s1 ≥ 0

In particolare si chiamano p.d.f. e probabilita di transizione le p.d.f. e prob-abilita condizionate a due istanti f(x, t|y, s) e p(k, t|ℓ, s). Passiamo ora definire idiversi tipi di uguaglianza di due s.p. X(t) e Y (t):

1. X(t) e Y (t) si dicono indistinguibili, o identici P -a.s. se tutte le traiettoriedei due processi coincidono in ogni t, con la possibile eccezione di un lorosottoinsieme di probabilita nulla, cioe se

P X(t) = Y (t), ∀t > 0 = 1

2. X(t) e Y (t) si dicono equivalenti (e in questo caso si dice anche che X(t) euna modificazione di Y (t) e viceversa) se invece per ogni dato t le traiettoriecoincidono P -a.s., cioe se

P X(t) = Y (t) = 1, ∀t > 0

3. X(t) e Y (t) si dicono infine equivalenti in senso lato, ovvero uguali in dis-tribuzione se tutte le loro leggi congiunte finito-dimensionali (e quindi anchele loro leggi globali) coincidono

Le tre definizioni sono piuttosto diverse. Ad esempio e facile vedere che due processiindistinguibili sono equivalenti, ma non e vero il viceversa: posto infatti

Nt = X(t) = Y (t) t > 0

N = X(t) = Y (t), ∀t > 0 =∪t>0

Nt

136

Page 137: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

5.1 Laws and identification of s.p.’s

l’indistinguibilita richiede P N = 0, e quindi anche P Nt = 0, ∀t > 0, cioeimplica l’equivalenza. La semplice equivalenza, invece, richiede solo che P Nt =0, ∀t > 0, ma questo non basta per avere anche P N = P

∪Nt = 0 a causa del

fatto che l’insieme degli istanti t > 0 non e numerabile. Allo stesso modo processiequivalenti hanno anche le stesse p.d.f. finito-dimensionali, ma non si puo dire ingenerale che sia vero il viceversa.

Come gia ricordato il Teorema di Kolmogorov 2.37 garantisce che la conoscenzadi una intera famiglia consistente di p.d.f. finito-dimensionali e sufficiente per deter-minare una probabilita su tutto lo spazio

(RT , B(RT )

)con T = [0,+∞). E stato

pero fatto anche notare nell’Esempio 4 che B(RT ) non e sufficientemente grande peri nostri propositi: affermazioni come il processo e continuo in un dato istante, adesempio, corrispondono a sottoinsiemi di traiettorie che non trovano posto in taleσ-algebra. Si rende quindi necessaria un’estensione del nostro spazio di probabilita.Senza entrare in dettagli tecnici ci limiteremo qui solo a ricordare che tale estensionee sempre possibile in maniera coerente e non ambigua se il nostro processo gode diuna proprieta detta separabilita1, che eviteremo di definire precisamente. In questocaso le p.d.f. finito-dimensionali determinano una misura di probabilita estendibile atutti i sottoinsiemi di traiettorie di interesse pratico, e per di piu questa limitazionesi rivela essere piu formale che sostanziale alla luce del risultato seguente

Theorem 5.1. Comunque assegnato un processo e sempre possibile costruirne unamodificazione separabile: ogni processo e quindi equivalente a un processo separabile

Proof: Omessa2

Conseguentemente potremo sempre supporre di avere a che fare con processi separa-bili per i quali la conoscenza delle p.d.f. finito-dimensionali determina la probabilitasu un opportuno spazio di traiettorie comprendente tutti gli eventi necessari.

Generalizzando poi le idee sulle r.v. canoniche esposte nella Sezione 3.1.3, potremoanche dire che, assegnata – tramite una famiglia consistente di leggi finito dimen-sionali – una probabilita P sull’insieme delle traiettorie

(RT , B(RT )

), sara sempre

possibile costruire un s.p. che abbia proprio P come legge globale

Definition 5.2. Data una probabilita P sullo spazio delle traiettorie(RT , B(RT )

),

si chiama processo canonico il s.p. X(t) definito come l’applicazione identica da(RT ,B(RT ),P

)in(RT , B(RT )

), la cui distribuzione coincidera con la P assegnata

Queste osservazioni spiegano perche i s.p. (come le r.v.) sono essenzialmente classifi-cati sulla base delle loro leggi, anche se ad una data distribuzione possono comunquecorrispondere molti differenti processi che condividono solo la loro legge globale

Definition 5.3. Diremo che X(t) e un processo Gaussiano quando, comunquescelti t1, t2, . . . , tn per ogni n = 0, 1, . . ., risulta (X(t1), . . . , X(tn)) ∼ N (b,A) doveb e A sono vettori delle medie e matrici delle covarianze dipendenti da t1, t2, . . . , tn

1J.L. Doob, Stochastic Processes, Wiley (New York, 1953)2J.L. Doob, Stochastic Processes, Wiley (New York, 1953)

137

Page 138: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

5.2 Expectations and correlations

Una buona parte delle informazioni relative a un s.p. X(t) (che per ora suppor-remo avere solo una componente) puo essere ottenuta anche guardando soltanto ivalori d’attesa (quando essi esistono) in uno o piu istanti di tempo, e senza doverfornire tutti i dettagli sulle distribuzioni finito-dimensionali. Innanzitutto e possibileintrodurre il expectation e la varianza di un s.p. in ogni istante t:

m(t) = E [X(t)] σ2(t) = V [X(t)] (5.1)

In secondo luogo e importante introdurre momenti del secondo ordine che descrivonola correlazione tra i valori di un s.p. in diversi istanti di tempo: a questo scoposi definisce prima di tutto l’autocorrelazione di un s.p. X(t) come la funzione(simmetrica nei suoi due argomenti)

R(s, t) = R(t, s) = E [X(s)X(t)] (5.2)

Quando non ci sono equivoci possibili trascureremo in futuro di indicare gli indicidel processo nelle attese e autocorrelazioni. Sara bene osservare subito, pero, che quila parola correlazione viene usata con un significato leggermente diverso rispetto aquanto fatto per la correlazione di due r.v.. Per questo motivo definiremo quindi an-che un’autocovarianza e un coefficiente di correlazione di X(t) rispettivamentecome

C(s, t) = cov [X(s), X(t)] = R(s, t)−m(s)m(t) (5.3)

ρ(s, t) = ρ [X(s), X(t)] =C(s, t)

σ(s)σ(t)(5.4)

e osserveremo che in particolare l’autocovarianza C(s, t) di un processo contieneanche la sua varianza dato che evidentemente

V [X(t)] = σ2(t) = C(t, t) (5.5)

Infine si dice processo centrato quello per il quale risulta

m(t) = 0 R(s, t) = C(s, t)

Ci vuol poco per riconoscere che, assegnato un arbitrario s.p. X(t), il processo

X(t) = X(t)−m(t) = X(t)−E [X(t)]

risulta sempre centrato. La conoscenza delle funzioni m(t), R(s, t), C(s, t) e ρ(s, t)a uno e due tempi, pur non esaurendo in generale le informazioni relative a uns.p., consente di avere un’idea abbastanza precisa della sua natura, e in alcuni casiparticolari esse possono fornire addirittura una descrizione completa delle leggi delprocesso.

138

Page 139: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

5.3 Convergence and continuity

5.3 Convergence and continuity

I tipi di convergenza introdotti nella Definizione 4.1 per le successioni di r.v. (Xn)n∈Npossono essere facilmente estesi ai s.p. per definire i corrispondenti tipi di conver-genza di X(t) verso una qualche r.v. X0 per t → t0. Cosı ad esempio la convergenzain media quadratica (m.s.)

X(t)mq−→ X0 t → t0

sara definita dalimt→t0

E[|X(t)−X0|2

]= 0 (5.6)

Allo stesso modo si possono introdurre le convergenze P -a.s., in probabilita, in Lp ein distribuzione che rispetteranno anche le mutue relazioni elencate nel Teorema 4.4per le convergenze delle successioni. Inoltre e anche possibile dimostrare la validitadei criteri di Cauchy corrispondenti ad ogni tipo di convergenza. Sara inoltreutile introdurre un nuovo concetto: quello della convergenza di una successionedi processi verso un altro processo

Definition 5.4. Diremo che una successione di processi Xn(t)n∈N convergein distribuzione verso il processo X(t) quando tutte le distribuzioni k-dimensionalidei vettori (Xn(t1), . . . , Xn(tk)) convergono debolmente verso le corrispondenti dis-tribuzioni dei vettori (X(t1), . . . , X(tk)), con k = 1, 2, . . .

Siamo in grado a questo punto di introdurre i vari concetti di continuita di unprocesso, con la precisazione dei tipi di convergenza adottati. Bisogna pero chiariresubito che in questo caso dovremo anche distinguere le continuita in ogni dato,arbitrario istante t, dalla continuita globale delle traiettorie del processo per ogni t,e adotteremo quindi lo schema seguente

Definition 5.5. Dato un s.p. X(t) con t ≥ 0 su (Ω,F ,P ) diremo che esso e

• continuo P -a.s., in probabilita, in Lp o in distribuzione se in ogniarbitrario, ma fissato t ≥ 0, e per s → t risulta X(s) → X(t) rispettivamenteP -a.s., in probabilita, in Lp o in distribuzione; un s.p. continuo in probabilitasi dice anche stocasticamente continuo;

• continuo globalmente (ovvero sample continuous) se quasi ogni traiettoriarisulta continua in ogni t ≥ 0, ovvero se

P ω ∈ Ω : X(t;ω) e continua ∀t ≥ 0 = 1

Quest’ultimo tipo di continuita globale non va confuso con la continuita P -a.s.definita nel punto precedente: il s.p. e continuo P -a.s. se ogni istante t e quasicertamente un punto di continuita; esso invece e continuo globalmente se l’insiemedelle traiettorie non continue anche in un solo t e di probabilita zero

139

Page 140: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

I vari tipi di continuita non sono ovviamente equivalenti fra loro, ma soddisfanodelle relazioni del tutto analoghe a quelle fra le diverse convergenze elencate nelTeorema 4.4. In particolare la continuita in L2 (cioe la continuita in m.s.) e con-dizione sufficiente per la continuita stocastica. Sara allora utile osservare che lacontinuita in m.s. puo essere controllata esaminando le proprieta di continuita dellefunzioni di autocorrelazione

Proposition 5.6. Un s.p. X(t) e continuo in m.s. – e quindi e stocasticamentecontinuo – se e solo se l’autocorrelazione R(s, t) e continua in s = t

Proof: Infatti siccome

E[|X(s)−X(t)|2

]= E

[X2(s)

]+E

[X2(t)

]− 2E [X(s)X(t)]

= R(t, t) +R(s, s)− 2R(s, t)

dalla definizione e da (5.6) ricaviamo che la continuita in m.s. in t equivale allacontinuita di R(s, t) in s = t.

Delle opportune condizioni sufficienti per la continuita globale di un processo diMarkov saranno invece introdotte successivamente nella Sezione 7.1.7, e sara beneosservare infine che la continuita globale implica evidentemente tutti gli altri tipi dicontinuita considerati

5.4 Derivation and integration in m.s.

Anche la derivazione e l’integrazione di un s.p. richiedono delle opportune proceduredi limite e quindi possono essere definite in vario modo secondo il tipo di convergenzainvocato. Nei capitoli che seguono saranno affrontati alcuni punti importanti inmerito a questi argomenti, mentre qui per cominciare ci limiteremo ad esaminaresolo la convergenza in m.s. (e quindi anche in probabilita). Innanzitutto, secondole nostre definizioni, un s.p. X(t) e derivabile in m.s. se esiste un altro processoX(t) tale che per ogni t ≥ 0

X(t+∆t)−X(t)

∆t

mq−→ X(t) ∆t → 0

ovvero se

lim∆t→0

E

[∣∣∣∣X(t+∆t)−X(t)

∆t− X(t)

∣∣∣∣2]= 0 (5.7)

Possiamo allora mostrare che, come per la continita in m.s., anche la derivabilita inm.s. puo essere messa in relazione alla derivabilita della funzione di autocorrelazione:

Proposition 5.7. Un s.p. X(t) e derivabile in m.s. in t, se e solo se la derivataseconda mista R1,1 = ∂s∂tR dell’autocorrelazione R(s, t) esiste in s = t. In tal caso

si ha anche E[X(t)

]= m(t)

140

Page 141: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

5.4 Derivation and integration in m.s.

Proof: L’esistenza della derivata in ogni t e garantita dal rispetto del corrispondentecriterio di Cauchy per il limite (5.7), cioe da

lim∆s,∆t→0

E

[∣∣∣∣X(t+∆s)−X(t)

∆s− X(t+∆t)−X(t)

∆t

∣∣∣∣2]= 0

Siccome d’altra parte

E

[X(t+∆t)−X(t)

∆t

X(t+∆s)−X(t)

∆s

]=

R(t+∆s, t+∆t)−R(t+∆s, t)−R(t, t+∆t) +R(t, t)

∆t∆s

E

[∣∣∣∣X(t+∆t)−X(t)

∆t

∣∣∣∣2]

=R(t+∆t, t+∆t)−R(t+∆t, t)−R(t, t+∆t) +R(t, t)

∆t2

i cui limiti per ∆s,∆t → 0 – se convergono – valgono R1,1(t, t), si ha che il criteriodi Cauchy e soddisfatto e X(t) esiste se e solo se R1,1(t, t) esiste, dato che in questocaso

E

[∣∣∣∣X(t+∆s)−X(t)

∆s− X(t+∆t)−X(t)

∆t

∣∣∣∣2]

−→ R1,1(t, t)− 2R1,1(t, t) +R1,1(t, t) = 0

Che poi risulti anche E[X(t)

]= m(t), si prova verificando le condizioni per lo

scambio dell’attesa con i limiti

Quanto agli integrali stocastici, dei quali parleremo piu a lungo nella Sezione 8.2,qui ci limiteremo solo ad esaminare quelli del tipo∫ b

a

X(t) dt (5.8)

che – se convergono in qualche senso – definiscono una nuova r.v.. Noi per orali considereremo definiti secondo la procedura di Riemann e ne esamineremo laconvergenza in m.s., mentre rimanderemo a un momento successivo una discussionepiu approfondita dell’integrazione stocastica piu generale. Considerata dunque unadecomposizione di [a, b] in intervalli di ampiezza ∆tj, detti τj dei punti appartenentia tali intervalli, e posto δ = max∆tj, diremo che l’integrale (5.8) esiste in m.s. seesiste il limite

limδ→0

-mq∑j

X(τj)∆tj (5.9)

indipendentemente dalla scelta dei punti τj negli intervalli della decomposizione.

141

Page 142: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

Proposition 5.8. L’integrale (5.8) esiste in m.s. se e solo se l’autocorrelazioneR(s, t) di X(t) e integrabile nel senso che∫ b

a

∫ b

a

|R(s, t)| ds dt < +∞

In tal caso si ha anche∫ b

a

∫ b

a

R(s, t) ds dt = E

[∣∣∣∣∫ b

a

X(t) dt

∣∣∣∣2]≥ 0 (5.10)

Proof: L’esistenza del limite (5.9) e garantita dal rispetto del corrispondente criteriodi Cauchy, cioe

limϵ,δ→0

E

∣∣∣∣∣∑j

X(ρj)∆sj −∑k

X(τk)∆tk

∣∣∣∣∣2 = 0

Siccome d’altra parte si ha

E

[∑j

X(ρj)∆sj ·∑k

X(τk)∆tk

]=∑j.k

R(ρj, τk)∆sj∆tk

E

[∑j

X(τj)∆tj ·∑k

X(τk)∆tk

]=∑j.k

R(τj, τk)∆tj∆tk

i cui limiti – se esistono – coincidono con l’integrale a primo membro di (5.10),l’integrabilita in m.s. di X(t) coincidera con l’integrabilita di R(s, t). Verificando lecondizioni per lo scambio di limiti e attese si ritrova poi anche (5.10)

5.5 Stationarity ed ergodicity

Definition 5.9. Diremo che X(t) e un processo stazionario quando comunquescelto s ∈ R i due processi X(t) e X(t + s) sono uguali in distribuzione. Diremoinvece che il processo ha incrementi stazionari quando, fissato ∆t > 0, risulta

∆X(t)d= ∆X(s) ∀ s, t ∈ R

In altri termini la legge globale di un processo stazionario deve essere invariante perun arbitrario cambiamento dell’origine dei tempi, cioe (se il processo e dotato dip.d.f.) comunque scelti t1, . . . , tn e s deve risultare

f(x1, t1; . . . ; xn, tn) = f(x1, t1 + s; . . . ;xn, tn + s) (5.11)

142

Page 143: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

5.5 Stationarity ed ergodicity

Si noti invece che la stazionarieta degli incrementi richiede solo che la loro legge altempo t dipenda da ∆t ma non da t: essa quindi non implica ne la stazionarieta delprocesso degli incrementi (che richiederebbe delle condizioni anche sulle loro leggicongiunte), ne tanto meno quella del processo X(t) stesso. Viceversa la stazionarietadel processo X(t) implica la stazionarieta degli incrementi. Infatti dalla (5.11) segueinnanzitutto che la p.d.f. a un tempo di un processo stazionario deve essere costante,e che la sua p.d.f. congiunta a due tempi deve dipendere solo dalla differenza di questi

f(x, t) = f(x) (5.12)

f(x1, t1;x2, t2) = f(x1, x2; τ) τ = t2 − t1 (5.13)

Avremo allora per la c.d.f. degli incrementi ∆X(t)

F∆X(x, t) = P ∆X(t) ≤ x =

∫P X(t+ τ)−X(t) ≤ x|X(t) = y f(y) dy

=

∫P X(t+ τ) ≤ x+ y|X(t) = y f(y) dy

da cui con una derivazione e tenendo conto di (5.13) si ricava la p.d.f.

f∆X(x) =

∫f(x+ y, t+ τ |y, t)f(y) dy =

∫f(x+ y, y; τ) dy (5.14)

che non dipende piu da t, ma solo da τ : cioe gli incrementi sono stazionariOvviamente l’attesa e la varianza di un processo stazionario sono costanti, mentre

l’autocorrelazione dipende solo dalla differenza dei tempi

E [X(t)] = m E [X(t)X(t+ τ)] = R(τ) ∀ t ≥ 0 (5.15)

Per un processo stazionario sara dunque vero che

C(τ) = R(τ)−m2 σ2(t) = σ2 = C(0) = R(0)−m2 ρ(τ) =R(τ)−m2

R(0)−m2

e inoltre, data la simmetria di R(s, t) nei suoi due argomenti, la R(τ) risultera essereanche una funzione pari. Si noti pero che, mentre le relazioni (5.15) sono sempre ver-ificate per un processo stazionario, il viceversa non e vero: le sole condizioni (5.15)non sono sufficienti a garantire la stazionarieta nel senso della Definizione 5.9. Co-munque data la loro importanza, quando di un processo sappiamo solo che soddisfale relazioni (5.15), si usa dire che esso e stazionario in senso lato.

Proposition 5.10. Un processo stazionario in senso lato X(t) con autocorrelazioneR(τ) e continuo in m.s. se R(τ) e continua in τ = 0, e derivabile in m.s. se R′′(τ)esiste in τ = 0, e infine e integrabile in m.s. su [−T, T ] se∫ 2T

−2T

(2T − |τ |)R(τ) dτ < +∞

143

Page 144: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

Proof: Si tratta ovviamente di semplici corollari delle Proposizioni 5.6, 5.7 e 5.8. Inparticolare la condizione di integrabilita si ottiene da quella della Proposizione 5.8con un cambiamento di variabili e una integrazione elementare.

Per un processo stazionario diventa ragionevole supporre – con una estensione dellaLegge dei Grandi Numeri – che i valori d’attesa possano essere sostituiti da qualcheforma di limite di medie temporali del processo. Quando cio accade si usa direche il processo e ergodico. Esamineremo ora le condizioni sotto le quali si puodire che un s.p. stazionario e anche ergodico per l’attesa e per l’autocorrelazione.Preliminarmente introduciamo a questo scopo, con T > 0 arbitrario, le r.v.

XT =1

2T

∫ T

−T

X(t) dt RT (τ) =1

T

∫ T

0

X(t)X(t+ τ) dt

che rappresentano rispettivamente la media temporale del s.p., e l’autocorrelazionenella forma di media temporale come era stata inizialmente introdotta da G.I. Taylornel 1920, e definiamo inoltre la funzione

r(τ, σ) = E [X(t+ σ + τ)X(t+ σ)X(t+ τ)X(t)]−R2(t)

Theorem 5.11. Dato un s.p. stazionario X(t), risulta

limT→∞

-mq XT = m limT→∞

-mq RT (τ) = R(τ) (5.16)

se sono soddisfatte rispettivamente le condizioni

limT→∞

1

T

∫ 2T

−2T

(1− |τ |

2T

)C(τ) dτ = 0 (5.17)

limT→∞

1

T

∫ 2T

−2T

(1− |σ|

2T

)r(τ, σ) dσ = 0 (5.18)

Diremo allora che il processo e ergodico per l’attesa e per l’autocorrelazione

Proof: Le convergenze in m.s. (5.16) possono essere verificate tramite i criteri (4.1)del Teorema 4.6 che nel caso dell’ergodicita per l’attesa sono

limT→∞

E[XT

]= m lim

T→∞V[XT

]= 0 (5.19)

Trascurando di verificare che lo scambio fra integrali e valori d’attesa e possibile, ilprimo criterio e banalmente soddisfatto dato che per ogni T > 0 si ha

E[XT

]=

1

2T

∫ T

−T

E [X(t)] dt =m

2T

∫ T

−T

dt = m

Quanto al secondo criterio (5.19) osserviamo che

V[XT

]= E

[X

2

T

]−E

[XT

]2=

1

4T 2E

[∫ T

−T

∫ T

−T

X(s)X(t) dsdt

]−m2

=1

4T 2

∫ T

−T

∫ T

−T

[R(t− s)−m2

]dsdt =

1

4T 2

∫∫D

C(t− s) dsdt

144

Page 145: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

5.5 Stationarity ed ergodicity

Ds

t

T

T

-T

-T

2T

-2T

0

D

Σ

Τ

T

T

-T

-T

2T

-2T

0

Figure 5.1: Modifica del dominio di integrazione per il cambiamento di vari-abili (5.20)

e che, con il seguente cambiamento di variabili di integrazione rappresentato anchenella Figura 5.1

τ = t− s σ = s |J | = 1 (5.20)

si ottiene

V[XT

]=

1

4T 2

∫∫D

C(t− s) dsdt =1

4T 2

∫∫∆

C(τ) dσdτ

=1

4T 2

[∫ 0

−2T

dτ C(τ)

∫ T

−T−τ

dσ +

∫ 2T

0

dτ C(τ)

∫ T−τ

−T

]=

1

4T 2

[∫ 0

−2T

C(τ)(2T + τ) dτ +

∫ 2T

0

C(τ)(2T − τ) dτ

]=

1

2T

∫ 2T

−2T

C(τ)

(1− |τ |

2T

)dτ

e quindi la seconda equazione (5.19) e verificata se l’ipotesi (5.17) e soddisfatta.Tralasceremo invece l’analoga dimostrazione esplicita dell’ergodicita per l’autocorrelazione.

Corollary 5.12. Un s.p. stazionario X(t) e ergodico per l’attesa e l’autocorrelazione

145

Page 146: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

se risulta ∫ +∞

0

|C(τ)| dτ < +∞ (5.21)

Proof: Infatti, siccome∣∣∣∣1− |τ |2T

∣∣∣∣ ≤ 1 − 2T ≤ τ ≤ 2T

dalla simmetria di C(τ) abbiamo facilmente∣∣∣∣ 1T∫ 2T

−2T

(1− |τ |

2T

)C(τ) dτ

∣∣∣∣ ≤ 1

T

∫ 2T

−2T

|C(τ)| dτ =2

T

∫ 2T

0

|C(τ)| dτ

ed quindi la (5.17) e soddisfatta se la (5.21) e verificata. Tralasceremo invece diverificare la condizione per l’ergodicita dell’autocorrelazione

5.6 Power spectrum

Si potrebbe pensare di eseguire una analisi in frequenza di un s.p. X(t) (tipicamentenel caso in cui X(t) e un segnale) semplicemente calcolandone la trasformata diFourier, ma ci si accorge facilmente del fatto che in generale le traiettorie non sono diquadrato integrabile su [0,+∞), sicche una trasformata definita in maniera direttasemplicemente non esiste. Si ricorre allora ad un espediente che si avvale dalladefinizione di una trasformata troncata

XT (ϖ) =

∫ T

0

X(t)e−iϖtdt (5.22)

che per ogni T > 0 esiste ed e un nuovo s.p. con indice ϖ. Partendo allora dall’ideasecondo la quale il modulo quadro di una trasformata di Fourier rappresenta ilcontributo energetico delle singole componenti del segnale, lo spettro di potenzaviene inizialmente introdotto come

S(ϖ) = limT→∞

-mq1

T

∣∣∣XT (ϖ)∣∣∣2 (5.23)

Questo S(ϖ) e in linea di principio ancora un s.p. con parametro ϖ, ed e quindiun risultato notevole il fatto che, per s.p. stazionari ed ergodici, S(ϖ) risulti inveceuna funzione ordinaria (non aleatoria) calcolabile anche come trasformata di Fourierdella funzione di autocorrelazione R(τ)

Theorem 5.13. Teorema di Wiener-Khinchin: Dato un s.p. stazionario X(t),se esso e ergodico nel senso che soddisfa le ipotesi del Teorema 5.11, risulta

S(ϖ) = limT→∞

-mq1

T

∣∣∣XT (ϖ)∣∣∣2 = ∫ +∞

−∞R(τ) e−iϖτdτ (5.24)

146

Page 147: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

5.6 Power spectrum

Proof: Le ipotesi formulate garantiscono la convergenza dei limiti e la legittimitadei passaggi formali che eseguiremo, ma noi trascureremo di verificare esplicitamentequesti aspetti. Ci limiteremo invece a mostrare in che modo il risultato (5.24) emergedalla definizione (5.23) e dal Teorema 5.11. Dalle definizioni (5.22) e (5.23), e con ilcambiamento di variabili di integrazione (5.20) si ha innanzitutto

S(ϖ) = limT→∞

-mq1

T

∫ T

0

∫ T

0

X(t)X(s)e−iϖ(t−s)dtds

= limT→∞

-mq1

T

[∫ 0

−T

∫ T

−τ

dσe−iϖτX(σ)X(σ + τ)

+

∫ T

0

∫ T−τ

0

dσe−iϖτX(σ)X(σ + τ)

]= lim

T→∞-mq

1

T

∫ T

0

[eiϖτ

∫ T

τ

X(σ)X(σ − τ) dσ

+e−iϖτ

∫ T−τ

0

X(σ)X(σ + τ) dσ

]

e siccome con un altro cambiamento di variabili si verifica che∫ T

τ

X(σ)X(σ − τ) dσ =

∫ T−τ

0

X(σ)X(σ + τ) dσ

in definitiva avremo

S(ϖ) = limT→∞

-mq

∫ T

0

dτ cosϖτ2

T

∫ T−τ

0

X(σ)X(σ + τ) dσ

Per semplificare la dimostrazione supporremo ora che il limite in questione possaessere eseguito in due passaggi separati e successivi

S(ϖ) = limT→∞

∫ T

0

dτ cosϖτ limT ′→∞

-mq2

T ′

∫ T ′−τ

0

X(σ)X(σ + τ) dσ

Eseguendo prima il limite in T ′ con τ arbitrario, ma finito e fissato in [0, T ], potremofare uso dell’ipotizzata ergodicita per l’autocovarianza come espressa nella secondadi (5.16) nel Teorema 5.11 per ottenere

S(ϖ) = limT→∞

2

∫ T

0

R(τ) cosϖτ dτ =

∫ +∞

−∞R(τ) e−iϖτdτ

dove abbiamo tenuto conto del fatto che R(τ) e una funzione reale e pari.

La rilevanza pratica di questo risultato ha fatto sı che nel corso degli anni sia prevalsala tendenza a considerare (5.24) come la definizione stessa di spettro di potenzatrascurando completamente la sua origine. Adotteremo anche noi questo punto divista e da ora in poi ci uniformeremo alla seguente definizione che non fa piu esplicitoriferimento all’ergodicita del processo, ma solo alla sua stazionarieta

147

Page 148: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

Definition 5.14. Dato un processo stazionario X(t) chiameremo spettro di po-tenza la trasformata di Fourier della sua autocorrelazione definita dalle relazioni direciprocita

S(ϖ) =

∫ +∞

−∞R(τ) e−iϖτdτ R(τ) =

1

∫ +∞

−∞S(ϖ) eiϖτdϖ (5.25)

Si noti che la tipica condizione di ergodicita (5.21) richiede che C(τ) sia infinitesimaper τ → ±∞, ovvero che X(t) e X(t+ τ) siano non correlate per grandi separazioniτ . In questo caso dalle definizioni si ha ovviamente R(τ) → m2 per τ → ±∞, equindi la trasformata di Fourier (5.25) non esiste se m non si annulla. Per evitarequesti problemi si usa allora introdurre anche una seconda definizione che fa appelloall’autocovarianza C(τ) invece che all’autocorrelazione R(τ)

Definition 5.15. Dato un processo stazionario X(t) chiameremo spettro di co-varianza la trasformata di Fourier della sua autocovarianza definita dalle relazionidi reciprocita

Sc(ϖ) =

∫ +∞

−∞C(τ) e−iϖτdτ C(τ) =

1

∫ +∞

−∞Sc(ϖ) eiϖτdϖ (5.26)

148

Page 149: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

Chapter 6

Heuristic definitions

6.1 Poisson process

In questa prima discussione introdurremo il processo di Poisson con la esplicitacostruzione delle sue traiettorie dalle quali ricaveremo poi anche tutte le principaliproprieta statistiche. Come vedremo questa procedura, che e ovviamente suggestivae istruttiva, non e facilmente replicabile nel caso di altri processi per i quali ladefinizione dovra essere data come limite o seguendo metodi piu generali

6.1.1 Point processes and renewals

Supponiamo che su un asse di tempi siano lanciati a caso dei punti, e poniamociprima di tutto il problema di studiare la r.v. che conta il numero di punti che cadonoin un intervallo [s, t] di ampiezza ∆t = t−s > 0. Cosı formulata, pero, la domanda epiuttosto vaga e imprecisa: innanzitutto bisogna chiarire cosa si intende dicendo chei punti sono lanciati a caso; inoltre, se un punto e lanciato a caso (qualunque cosa ciovoglia dire, tranne eventualita molto particolari) su un asse infinito la probabilita dicadere in un intervallo finito [s, t] sara semplicemente zero; infine si deve precisarequale e il numero dei punti lanciati. Per trovare una risposta coerente a questedomande seguiremo allora una procedura di approssimazioni successive

Proposition 6.1. Se su un asse illimitato viene lanciato a caso (nel senso definitoprecisamente piu oltre) un numero infinito di punti indipendenti, e se il numeromedio di punti per unita di tempo (intensita) e λ, la r.v.

N = numero dei punti che cadono in un intervallo di ampiezza ∆t

segue una distribuzione di Poisson di parametro λ∆t, cioe N ∼ P(λ∆t) con

P N = k = e−λ∆t (λ∆t)k

k!

Inoltre le analoghe r.v. N1 ∼ P(λ∆t1) e N2 ∼ P(λ∆t2) relative a intervalli nonsovrapposti sono indipendenti

149

Page 150: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

-Τ2 Τ2s t

Dt

s1 t1 s2 t2

Dt1 Dt2

-Τ2 Τ2

Figure 6.1: Istanti aleatori lanciati su intervalli finiti[− τ

2, τ2

].

Proof: Per affrontare gradualmente il problema partiremo con un intervallo finito[−τ/2, τ/2] con τ > 0 e contenente [s, t] (vedi Fig. 6.1), e lanceremo n punti a casonel senso che:

• la posizione di ogni punto in [−τ/2, τ/2] e aleatoria e indipendente da quelladegli altri,

• la distribuzione di questa posizione aleatoria e uniforme in [−τ/2, τ/2].

Abbiamo cosı precisato che ciascuno degli n punti cadra in [s, t] con probabilita

p =∆t

τ

e che, essendo gli n lanci indipendenti, la r.v. X = numero dei punti che cadono in[s, t] seguira una distribuzione binomiale B (n; p). Ovviamente X dipende da n e τarbitrariamente scelti, e noi supporremo di far crescere contemporaneamente n e τall’infinito, mantenendo ∆t costante e supponendo che il rapporto n/τ (numero dipunti per unita di tempo) si mantenga limitato e converga verso un numero finito epositivo λ; cioe supporremo che

n → ∞ τ → +∞ n

τ→ λ > 0 (6.1)

p =∆t

τ→ 0 np =

n

τ∆t → λ∆t (6.2)

In questo modo, al variare di n e τ , abbiamo costruito una famiglia di r.v. binomialiX ∼ B (n; p) che nel limite (6.1) soddisfano le ipotesi del Teorema binomiale diPoisson 4.30, per cui potremo dire che in distribuzione avremo

Xd−→ N ∼ P(λ∆t)

e potremo quindi trarre una prima conclusione: se viene lanciato su un asse illimitatoun numero infinito di punti aleatori e indipendenti, e se il numero di punti per unita

150

Page 151: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

6.1 Poisson process

di tempo e mediamente λ (un numero che ha quindi le dimensioni di una frequenza),la r.v. limite N = numero dei punti che cadono in un intervallo di ampiezza ∆t segueuna distribuzione di Poisson P(λ∆t), cioe

P N = k = e−λ∆t (λ∆t)k

k!

Ripetiamo ora la procedura prendendo, come in Figura 6.1, due intervalli disgiunti[s1, t1] e [s2, t2] in [−τ/2, τ/2] con ∆t1 = t1−s1 e ∆t2 = t2−s2: lanciando n punti conle medesime caratteristiche del caso precedente, e ponendo X1 = numero dei puntiche cadono in [s1, t1], X2 = numero dei punti che cadono in [s2, t2], e X0 = numerodei punti che cadono altrove in [−τ/2, τ/2] avremo che il r.vec.X = (X1, X2) seguirauna distribuzione multinomiale B (n; p1, p2) con r = 2 e con

p1 =∆t1τ

, p2 =∆t2τ

Se allora supponiamo come prima di far crescere contemporaneamente n e τ versol’infinito, sempre in modo che le (6.1) siano rispettate e mantenendo ∆t1 e ∆t2costanti, avremo questa volta

p1 =∆t1τ

→ 0, np1 =n

τ∆t1 → λ∆t1

p2 =∆t2τ

→ 0, np2 =n

τ∆t2 → λ∆t2

e quindi in base al Teorema multinomiale di Poisson 4.31

X = (X1, X2)d−→ (N1, N2) ∼ P(λ∆t1) ·P(λ∆t2)

Pertanto le due r.v. limite N1 e N2, si comporteranno come due r.v. di Poissonindipendenti. Si noti che invece, lungo il procedimento di limite, per ogni n finito ler.v. X1 e X2 non sono indipendenti.

Nell’Appendice G verra spiegato come si modificano questi risultati se l’intensitaλ dei punti non e piu supposta uniforme. Introdurremo poi la successione di r.v.Tn che rappresentano le posizioni temporali dei nostri punti aleatori. Per definiretale successione, pero, dovremo assegnare un ordine e degli indici ai punti fissandoprima di tutto un’arbitraria origine non aleatoria T0 = 0, e stabilendo poi che T1

e l’istante in cui cade il primo punto a destra dell’origine, T2 l’istante del secondo,mentre T−1 e quello del primo a sinistra, e cosı via. Ne risulta una successionebilaterale Tn, con n = ±1,±2, . . ., di r.v. che, pero, non sono piu indipendenti datoche ora ogni Tn non puo precedere Tn−1. Si noti che viceversa il tempo d’attesa∆Tn = Tn+1 − Tn dell’(n+ 1)−mo punto resta indipendente da Tn. La successionedei Tn cosı introdotta e un tipico esempio particolare di processo di punto, e noine studieremo ora la distribuzione di probabilita

151

Page 152: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

Proposition 6.2. Le r.v. Tn con n ≥ 1, quelle cioe che cadono dopo T0 = 0,seguono le leggi di Erlang En(λ); quelle che cadono prima di T0 = 0, per simmetria,

verificano la relazione −T−nd= Tn; infine i tempi d’attesa fra due punti successivi

∆Tn = Tn+1 − Tn sono r.v. i.i.d. positive che seguono tutte la legge esponenzialeE(λ)

Proof: Consideriamo innanzitutto il caso n ≥ 1 dei punti che cadono a destra di(cioe dopo) T0 = 0: se N e il numero di punti in [0, t] con legge P(λt), e ϑ(t) e lafunzione di Heaviside (2.13), la c.d.f. di Tn > 0 sara

Fn(t) = P Tn ≤ t = P N ≥ n = 1− P N < n =

[1− e−λt

n−1∑k=0

(λt)k

k!

]ϑ(t)

e quindi la p.d.f.

fn(t) = F ′n(t) =

[n−1∑k=0

(λt)k

k!−

n−1∑k=1

(λt)k−1

(k − 1)!

]λe−λtϑ(t) =

(λt)n−1

(n− 1)!λe−λtϑ(t) (6.3)

coincide con la p.d.f. (4.27) di una distribuzione di Erlang En(λ). In particolarela legge di T1 e la E1(λ), cioe un’esponenziale E(λ) con p.d.f. f1(t) = λe−λtϑ(t).

Analogamente si dimostra che −T−nd= Tn, ma per brevita trascureremo di farlo.

Per studiare la legge dei tempi d’attesa ∆Tn, invece, cominciamo con il ricordareche da (4.26) le ch.f. delle Tn di Erlang sono

φn(u) = E[eiuTn

]=

∫ +∞

0

(λt)n−1

(n− 1)!λe−λteiutdt =

λ− iu

)n

e inoltre che Tn e ∆Tn sono r.v. indipendenti. Pertanto, detta φ(u) la ch.f. di ∆Tn,la r.v. Tn+1 = Tn +∆Tn avra ch.f. φn+1(u) = φn(u)φ(u) e quindi

φ(u) =φn+1(u)

φn(u)= φ1(u) =

λ

λ− iu

cioe le ∆Tn sono tutte r.v. i.i.d. con legge esponenziale E(λ).

Si noti che le r.v. ∆Tn sono un particolare esempio di successione di rinnovi, cioedi r.v. i.i.d. Zn > 0, che possono essere usate a loro volta come punto di partenzaper costruire un processo di punto secondo le relazioni

Tn =n−1∑k=0

Zk Zn = ∆Tn (6.4)

In pratica ogni successione di rinnovi genera un processo di punto e viceversa, ma vadetto che in generale i rinnovi possono seguire una legge arbitraria diversa da E(λ).E importante allora notare che una successione di rinnovi esponenziali genera sempreun processo di punto Tn con leggi di Erlang (vedi Esempio 4.22), e numeri di puntiarrivati in intervalli finiti N distribuiti secondo leggi di Poisson, come mostreremonella proposizione seguente

152

Page 153: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

6.1 Poisson process

z

s

D

t

t

Figure 6.2: Dominio di integrazione per l’integrale (6.5)

Proposition 6.3. Se Zn e una successione di rinnovi con legge E(λ), e Tn e ilcorrispondente processo di punto (6.4) con leggi di Erlang En(λ), il numero N deipunti Tn che cadono in [0, t] segue la legge di Poisson P(λt)

Proof: Infatti, con uno scambio nell’ordine delle integrazioni sul dominio D rapp-resentato nella Figura 6.2

P N = n = P Tn ≤ t, Tn+1 > t = P Tn ≤ t, Tn + Zn > t= E [P Tn ≤ t, Tn + Zn > t |Zn]

=

∫ +∞

0

P Tn ≤ t, Tn + Zn > t |Zn = zλe−λz dz

=

∫ +∞

0

P t− z < Tn ≤ tλe−λz dz

=

∫ +∞

0

dz λe−λz

∫ t

t−z

(λs)n−1

(n− 1)!λe−λsϑ(s) ds

=

∫∫D

λe−λz (λs)n−1

(n− 1)!λe−λsϑ(s) dz ds

=

∫ t

0

ds(λs)n−1

(n− 1)!λe−λs

∫ +∞

t−s

λe−λz dz =

∫ t

0

(λs)n−1

(n− 1)!λe−λse−λ(t−s)ds

= e−λtλn

n!

∫ t

0

nsn−1ds = e−λt (λt)n

n!(6.5)

Ne consegue che N e distribuita secondo la legge di Poisson P(λt) come nel processodi punto introdotto all’inizio di questa sezione

153

Page 154: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

6.1.2 Poisson process

Definition 6.4. Assegnato un processo di punto Tn di intensita λ, il processo diPoisson standard di intensita λ e il s.p. N(t) con t > 0 che conta il numeroaleatorio di punti Tn che cadono in [0, t], con la condizione iniziale N(0) = 0,P -a.s.. Sulla base del processo di punto Tn il s.p. N(t) potra quindi essere ancherappresentato come

N(t) =∞∑k=1

ϑ(t− Tk) (6.6)

dove ϑ e la funzione di Heaviside (2.13). Inoltre, con ∆t > 0 fissato, si definisce ilcorrispondente processo degli incrementi di Poisson ∆N(t) = N(t+∆t)−N(t)che conta il numero di punti Tn che cadono in un intervallo di ampiezza ∆t

Proposition 6.5. Il processo di Poisson N(t) ha incrementi indipendenti e stazionari;inoltre, posto per comodita

qα(k) = e−ααk

k!(6.7)

le distribuzioni e le ch.f. di N(t) e ∆N(t) rispettivamente sono

pN(k, t) = P N(t) = k = qλt(k) = e−λt (λt)k

k!(6.8)

p∆N(k) = P ∆N(t) = k = qλ∆t(k) = e−λ∆t (λ∆t)k

k!(6.9)

φN(u, t) = eλt(eiu−1) φ∆N(u) = eλ∆t(eiu−1) (6.10)

infine le probabilita di transizione (cioe le probabilita condizionate a due tempi)di N(t), con ∆t > 0 e k ≥ ℓ, sono

pN(k, t+∆t| ℓ, t) = qλ∆t(k − ℓ) (6.11)

Proof: Gli incrementi relativi a intervalli non sovrapposti (con al piu un estremo incomune) sono r.v. indipendenti per costruzione, e inoltre l’incremento ∆N(t) risultaanche indipendente da N(t): pertanto il processo di Poisson costituisce il primoesempio di processo ad incrementi indipendenti , una categoria di s.p. della qualeriparleremo nella Sezione 7.1.3. Dalla discussione svolta nelle sezioni precedentisappiamo inoltre che, per ogni t > 0, N(t) ∼ P(λt), mentre ∆N(t) ∼ P(λ∆t),e quindi che valgono le (6.8), (6.9) e (6.10). Ne segue che le leggi degli incrementi∆N(t) – diversamente da quanto avviene per quelle diN(t) – non cambiano al variaredi t ma dipendono solo da ∆t, per cui potremo anche dire che N(t) ha incrementistazionari (vedi Sezione 5.5). Infine, per l’indipendenza degli incrementi, si ha

pN(k, t+∆t|ℓ, t) = P N(t+∆t) = k |N(t) = ℓ= P N(t+∆t)−N(t) +N(t) = k |N(t) = ℓ= P ∆N(t) = k − ℓ

= qλ∆t(k − ℓ) = e−λ∆t (λ∆t)k−ℓ

(k − ℓ)!

154

Page 155: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

6.1 Poisson process

s t

0.2

0.4

0.6

0.8

1.0

1.2

Figure 6.3: Coefficiente di correlazione ρN(s, t) (6.15) del processo di Poisson stan-dard N(t).

cioe la (6.11). Si noti come questa distribuzione dipenda solo da ∆t, e non da t, acausa della stazionarieta degli incrementi (Sezione 5.5); e da k− ℓ, ma non da k e ℓseparatamente, a causa dell’indipendenza degli incrementi (Sezione 7.1.3)

Proposition 6.6. Le proprieta statistiche principali del processo di Poisson stan-dard N(t) sono

mN(t) = σ2N(t) = λt (6.12)

RN(s, t) = λmins, t+ λ2st (6.13)

CN(s, t) = λmins, t (6.14)

ρN(s, t) =mins, t√

st=

√s/t se s < t√t/s se t < s

(6.15)

Proof: Le (6.12) discendono immediatamente da (6.8). Per dimostrare la (6.13) sicomincia con l’osservare che dai risultati precedenti per s = t si ha

RN(t, t) = E[N2(t)

]= V [N(t)] +E [N(t)]2 = λt+ λ2t2

e poi che da questa, e dall’indipendenza degli incrementi, per s < t avremo

RN(s, t) = E [N(s)N(t)] = E [N(s)(N(t)−N(s) +N(s))]

= E [N(s)]E [N(t)−N(s)] +RN(s, s)

= λs · λ(t− s) + λs+ λ2s2 = λs+ λ2st

cioe in definitiva la (6.13) per scelte arbitrarie di s e t; (6.14) e (6.15) seguono poidalla definizione (5.3) e da (6.12). Da (6.14) ritroviamo coerentemente anche lavarianza (6.12) σ2

N(t) = C(t, t) = λt

155

Page 156: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

t

T1 Tn

2

4

6

8

Figure 6.4: Esempio di traiettoria del processo di Poisson N(t) con 10 punti. Nelgrafico sono mostrati anche il processo di punto Tn e la funzione mN(t) = λt

Si noti che la varianza (6.12) aumenta linearmente con il tempo: un comportamento,detto talora diffusivo, che ritroveremo anche in altri processi. L’andamento del co-efficiente di correlazione (6.15), invece, puo essere visto nella Figura 6.3 nella quale,per fissare le idee, abbiamo considerato s come costante e t come variabile. Comesi osserva chiaramente la correlazione diminuisce – benche piuttosto lentamente –quando i due istanti di tempo si allontanano: il processo all’istante t progressi-vamente dimentica il suo stato all’istante s man mano che il tempo trascorre. Ilprocesso N(t) gode anche di altre proprieta che incontreremo nel seguito. Ad es-empio si verifica facilmente per sostituzione che le distribuzioni (6.8) sono soluzionidell’equazione

∂tpN(n, t) = −λ [pN(n, t)− pN(n− 1, t)] pN(n, 0) = δn0 (6.16)

che costituisce un primo esempio di master equation: un tipo di equazione cheesamineremo con maggior dettaglio piu innanzi (Sezione 7.2.3). Peraltro anche leprobabilita di transizione pN(k, t|ℓ, s) in (6.11) sono soluzioni della medesima masterequation, ma con condizioni iniziali pN(k, s

+) = δkℓ. Dallo sviluppo in serie dipotenze dell’esponenziale per t → 0+ si ricavano poi i seguenti comportamenti

pN(n, t) = [1− λt+ o(t)](λt)n

n!=

1− λt+ o(t) n = 0λt+ o(t) n = 1o(t) n ≥ 2

(6.17)

che sono caratteristici delle distribuzioni del processo di Poisson: si potrebbe di-mostrare infatti (ma noi trascureremo di farlo) che se la pN(n, t) di un processodi nascita – come e il processo di Poisson – soddisfa le (6.17), allora essa e anchesoluzione di (6.16) e quindi deve avere la forma (6.8).

156

Page 157: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

6.1 Poisson process

t

2

4

6

8

Figure 6.5: Esempio di alcune traiettorie del processo di Poisson N(t) che si dis-tribuiscono attorno all’attesa mN(t) = λt

Le tipiche traiettorie del processo di Poisson N(t) per t > 0 sono mostratenella Figura 6.4: esse consistono in scalinate crescenti e infinite con gradini dilunghezza aleatoria (gli istanti del processo di punto), ma di altezza determinis-ticamente uguale a 1, e rappresentano il conteggio del numero di punti aleatori checadono nell’intervallo [0, t]. La relazione fra le traiettorie e la funzione lineare mN(t)e mostrata nelle figure: osservate su un piccolo intervallo temporale le singole traiet-torie in Figura 6.5 si discostano poco dalla loro tendenza media e nel complesso essesi distribuiscono equamente attorno a mN(t) = λt. Se poi consideriamo tempi piulunghi come in Figura 6.6 le traiettorie, continuano a distribuirsi equamente attornoalla retta λt, ma se ne allontanano progressivamente per effetto dell’aumento dellavarianza. Il fatto che nella Figura 6.6 le traiettorie sembrino allontanarsi poco damN(t) = λt dipende principalmente da un effetto di scala: la deviazione standard e√λt, mentre la scala dell’asse verticale cresce come λt.

Proposition 6.7. Per ogni t > 0 il processo di Poisson N(t) e continuo ma nonderivabile in m.s.; invece esso e continuo e derivabile P -a.s., e in questo sensorisulta N(t) = 0. Inoltre N(t) non e stazionario.

Proof: In base alla Proposizione 5.6 la continuita in m.s. deriva dal fatto chel’autocorrelazione (6.13) e una funzione continua. Non esiste invece in s = t laderivata mista ∂s∂tRN : infatti la derivata prima e

∂tRN(s, t) = λϑ(s− t) + λ2s

dove ϑ e la funzione di Heaviside (2.13) con una discontinuita in s = t, e quindi laderivata seconda ∂s∂tRN non esiste in s = t. Dalla Proposizione 5.7 segue allora cheil processo non e derivabile in m.s. in nessun t > 0. Invece per dimostrare che la

157

Page 158: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

t

200

400

600

800

1000

Figure 6.6: Traiettorie del processo di Poisson N(t) con 1 000 punti. La deviazionestandard aumenta come

√λt, ma le traiettorie sembrano discostarsi poco dall’attesa

mN(t) = λt per un effetto di scala:√1 000 ≃ 32

derivata P -a.s. esiste e si annulla dovremmo provare che

P

lim∆t→0

∆N(t)

∆t= 0

= 1 ∀t > 0

ma noi ci accontenteremo di mostrare solo che per ogni t > 0

lim∆t→0

P

∣∣∣∣∆N(t)

∆t

∣∣∣∣ < ϵ

= 1 ∀ϵ > 0 (6.18)

Infatti, fissato un arbitrario ϵ > 0 e scelto |∆t| < 1/ϵ, da (6.9) su intervalli diampiezza |∆t| si ha al limite per ∆t → 0

P

∣∣∣∣∆N(t)

∆t

∣∣∣∣ < ϵ

= P ∆N(t) = 0 = e−λ|∆t| −→ 1

Per la continuita P -a.s. poi si adoperano degli argomenti analoghi a quelli usati perla derivabilita P -a.s.. Infine la non stazionarieta (anche solo in senso lato) di N(t) siverifica osservando che l’attesa (6.12) non e costante, e che l’autocorrelazione (6.13)non dipende solo da t− s, ma da s e t separatamente

Data la conformazione a salti delle traiettorie del processo di Poisson, le continuitain m.s. e P -a.s. della Proposizione 6.7 possono risultare sorprendenti. Bisogna peroricordare a questo proposito che tali continuita (come pure la continuita stocastica)affermano solo che ogni t e un punto di continuita in m.s. e P -a.s.. Non viene inveceaffatto garantita la continuita globale delle traiettorie, e infatti, come vedremo piuoltre, il processo di Poisson non soddisfa i criteri di questo secondo – e piu forte –

158

Page 159: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

6.1 Poisson process

s s + Dt t t + Dt

DtDt

s s + Dtt t + Dt

DtDt

Figure 6.7: Possibili disposizioni degli intervalli per il calcolodell’autocorrelazione (6.20) degli incrementi di Poisson con ∆t > 0

tipo di continuita. Allo stesso modo, intuitivamente la derivabilita P -a.s. di N(t)dipende dal fatto che le traiettorie del processo N(t) sono tutte costanti a trattitranne che nell’insieme di punti (di misura di Lebesgue nulla) in cui si presentano lediscontinuita. Quanto all’apparente incongruita fra la non derivabilita in m.s. e laderivabilita P -a.s. osserveremo solo che essa e una tipica manifestazione del diversosignificato delle due convergenze: questo puo essere anche sottolineato ricordandoad esempio che – in analogia con (6.18) – l’esistenza della derivata N(t) = 0 in m.s.richiederebbe che la quantita

E

[∣∣∣∣∆N(t)

∆t

∣∣∣∣2]=

E [(∆N(t))2]

∆t2=

λ∆t+ λ2∆t2

∆t2=

λ

∆t+ λ2

sia infinitesima per ∆t → 0, il che evidentemente non avviene. Questa discussionesulla derivabilita sara ripresa nella Sezione 6.3 sul rumore bianco

Proposition 6.8. Il processo degli incrementi di Poisson ∆N(t) con ∆t > 0 fissatoe stazionario in senso lato, infatti si ha

m∆N = σ2∆N = λ∆t (6.19)

R∆N(τ) =

λ2∆t2 se |τ | ≥ ∆tλ2∆t2 + λ(∆t− |τ |) se |τ | < ∆t

(6.20)

C∆N(τ) =

0 se |τ | ≥ ∆tλ(∆t− |τ |) se |τ | < ∆t

(6.21)

ρ∆N(τ) =

0 se |τ | ≥ ∆t

1− |τ |∆t

se |τ | < ∆t(6.22)

S∆N(ϖ) = 2λ(∆t)21− cosϖ∆t

(ϖ∆t)2(6.23)

dove S∆N e lo spettro di covarianza (5.26).

159

Page 160: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

Proof: Avevamo gia osservato che N(t) ha incrementi indipendenti e stazionari :qui si mostra che il s.p. ∆N(t) e anche stazionario in senso lato. Il risultato (6.19)dipende dal fatto che gli incrementi ∆N(t) sono distribuiti secondo la legge P(λ∆t).Per calcolare la funzione di autocorrelazione

R∆N(s, t) = E [∆N(s)∆N(t)]

bisogna poi ricordare che gli incrementi su intervalli di tempo non sovrapposti (vediFigura 6.7) sono indipendenti, e che quindi se |t− s| ≥ ∆t

R∆N(s, t) = E [∆N(s)]E [∆N(t)] = λ2∆t2 |t− s| ≥ ∆t

Se invece |t−s| < ∆t, supponiamo dapprima t > s e osserviamo che (vedi Figura 6.7)

∆N(s)∆N(t) = [N(s+∆t)−N(s)][N(t+∆t)−N(t)]

= [N(s+∆t)−N(t) +N(t)−N(s)][N(t+∆t)−N(t)]

= [N(t)−N(s)][N(t+∆t)−N(t)] + [N(s+∆t)−N(t)]2

+[N(s+∆t)−N(t)][N(t+∆t)−N(s+∆t)]

per cui, data la disposizione degli intervalli, si avra

R∆N(s, t) = λ(t− s) · λ∆t+ λ(∆t− t+ s) + λ2(∆t− t+ s)2

+λ(∆t− t+ s) · λ(t− s)

= λ2∆t2 + λ[∆t− (t− s)]

Se invece t < s bastera eseguire uno scambio di s con t: mettendo insieme tutti i casisi ottiene cosı la (6.20) con τ = t−s. Da questi risultati discendono immediatamenteanche l’autocovarianza (6.21) e il coefficiente di correlazione (6.22), mentre lo spettrodi covarianza (6.23) si calcola con un’elementare trasformata di Fourier.

6.1.3 Compensated Poisson process

Il processo di Poisson e il corrispondente processo di punto sono anche il primo passoper definire altri importanti processi: si chiama processo di Poisson compensato ilprocesso

N(t) = N(t)− λt (6.24)

Siccome λt e l’attesa di N(t), si vede subito che il processo N(t) non e altro che ilprocesso di Poisson centrato con traiettorie come quelle della Figura 6.8. Tenendoconto di (6.13) si ha dunque

mN(t) = 0 σ2N(t) = λt

RN(s, t) = CN(s, t) = λmins, t ρN(s, t) =mins, t√

st

160

Page 161: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

6.1 Poisson process

t

-1.0

-0.5

0.5

1.0

1.5

Figure 6.8: Campione di traiettoria del processo di Poisson compensato (6.24).

per cui la varianza ancora una volta aumentera linearmente nel tempo e le traietto-rie si disporranno equamente attorno all’asse orizzontale allontanandosene gradata-mente come in Figura 6.9. Il processo N(t) avra quindi la tendenza a diffondereattorno al valore 0. Si noti pero che ora rispetto alla Figura 6.6 la diffusione edivenuta piu visibile: l’effetto di scala infatti e stato eliminato con la centratura. In-oltre, siccome l’autocorrelazione di N(t) coincide essenzialmente con quella di N(t), irisultati della Proposizione 6.7 valgono anche per il processo di Poisson compensato.Infine da (6.10) si ricava per la ch.f. che

φN(u, t) = φN(u, t)e−iuλt = eλt(e

iu−iu−1)

Il processo di Poisson compensato gioca un ruolo particolarmente importante nellateoria delle equazioni differenziali stocastiche per processi a salti, un aspetto chenon potremo affrontare in queste lezioni.

6.1.4 Compound Poisson process

Definition 6.9. Dato un processo di punto Tn, generalizzando l’espressione (6.6)chiameremo processo di Poisson composto il processo

X(t) =∞∑k=1

Xkϑ(t− Tk) (6.25)

dove le Xk sono una successione di r.v. indipendenti dalle Tk. Se poi N(t) e ilprocesso di Poisson standard associato alle Tn, il processo (6.25) potra essere rapp-resentato anche come la somma del numero aleatorio N(t) di r.v. Xk arrivate entroil tempo t

X(t) =

N(t)∑k=1

Xk (6.26)

161

Page 162: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

t

-40

-20

20

40

Figure 6.9: Traiettorie del processo di Poisson compensato (6.8) di 1 000 passi

In pratica il processo di Poisson composto ha delle traiettorie analoghe a quelledel processo di Poisson standard, ma in corrispondenza di ogni istante Tk, invece dicompiere un salto di lunghezza deterministicamente uguale a 1, esso compie ora unsalto di lunghezza aleatoria Xk. Nella Figura 6.10 se ne puo vedere un esempio per ilquale abbiamo scelto delle Xk tutte distribuite come normali standard indipendentiNaturalmente il processo di Poisson standard e a sua volta un caso particolare diProcesso di Poisson composto: quello che si ottiene quando Xk = 1,P -a.s.. NellaFigura 6.11 sono rappresentati alcuni esempi di traiettorie per tempi lunghi che, aduna osservazione puramente qualitativa, non appaiono molto diverse da quelle delprocesso di Poisson compensato. Come vedremo nella successiva proposizione, laseconda rappresentazione (6.26) del processo X(t) risulta particolarmente utile nelcalcolo delle sue caratteristiche statistiche principali

Proposition 6.10. Dato un processo di Poisson composto X(t) (6.25), se le Xk

sono r.v. i.i.d. con E [Xk] = µ, e V [Xk] = σ2, allora risulta

mX(t) = λµt (6.27)

σ2X(t) = λ(µ2 + σ2)t (6.28)

RX(s, t) = λ(µ2 + σ2)mins, t+ λ2µ2st (6.29)

CX(s, t) = λ(µ2 + σ2)mins, t (6.30)

ρX(s, t) =mins, t√

st(6.31)

Proof: Si ottiene innanzitutto la (6.27) utilizzando la rappresentazione (6.26) del

162

Page 163: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

6.1 Poisson process

t

-2

-1

1

Figure 6.10: Campione di traiettoria di un processo di Poisson composto (6.25) concomponenti Xk i.i.d. e N (0, 1)

processo X(t) e le usuali proprieta delle attese condizionate:

mX(t) = E

N(t)∑k=1

Xk

=∞∑n=0

e−λt (λt)n

n!E

N(t)∑k=1

Xk

∣∣∣∣∣∣N(t) = n

=

∞∑n=0

e−λt (λt)n

n!E

[n∑

k=1

Xk

]=

∞∑n=1

e−λt (λt)n

(n− 1)!µ

= λµt

∞∑n=0

e−λt (λt)n

n!= λµt

Tenendo inoltre conto della relazione generale E [XkXℓ] = µ2 + σ2δkℓ facilmenteverificabile sulla base delle ipotesi, e poi possibile calcolare prima

RX(t, t) = E[X(t)2

]= E

N(t)∑k,ℓ=1

XkXℓ

=∞∑n=0

e−λt (λt)n

n!E

[n∑

k,ℓ=1

XkXℓ

]

=∞∑n=0

e−λt (λt)n

n!

n∑k,ℓ=1

(µ2 + σ2δkℓ) =∞∑n=0

e−λt (λt)n

n!(n2µ2 + nσ2)

= µ2

∞∑n=1

ne−λt (λt)n

(n− 1)!+ σ2

∞∑n=1

e−λt (λt)n

(n− 1)!

= µ2λt∞∑n=0

(n+ 1)e−λt (λt)n

n!+ σ2λt

∞∑n=0

e−λt (λt)n

n!

= (λt)2µ2 + λt(µ2 + σ2)

163

Page 164: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

t

-60

-40

-20

20

40

Figure 6.11: Esempi di traiettorie di 1 000 passi di un processo di Poisson com-posto (6.25) con componenti Xk i.i.d. e N (0, 1)

e poi l’autocorrelazione (6.29) tenendo conto dell’indipendenza degli incrementi:scegliendo infatti, per fissare le idee, s < t si ha

RX(s, t) = E [X(s)X(t)] = E [X(s)(X(t)−X(s) +X(s))]

= E [X(s)]E [X(t)−X(s)] +R(s, s)

= λ2µ2s(t− s) + (λs)2µ2 + λs(µ2 + σ2) = λ2µ2st+ λs(µ2 + σ2)

e quindi in generale la (6.29) con s, t arbitrari. L’autocovarianza (6.30), la vari-anza (6.28) e il coefficiente di correlazione (6.31) si ottengono poi banalmente dalledefinizioni (5.3) e (5.5).

La varianza avra quindi ancora un carattere diffusivo aumentando linearmente conil tempo, come si vede anche dalla Figura 6.11. Si noti che il coefficiente di cor-relazione (6.29) coincide con quello dei processi di Poisson standard e compen-sato (6.15), mentre autocorrelazione e autocovarianza si riducono alle corrispondentiformule (6.13) per µ = 1, σ = 0. Pertanto anche le proprieta di stazionarieta, con-tinuita e derivabilita del processo di Poisson composto coincidono con quelle delprocesso di Poisson standard riassunte nella Proposizione 6.7. Infine si noti che, seφ(u) e la ch.f. comune a tutte le Xk, la ch.f. del processo di Poisson composto e

φX(u, t) = E[eiuX(t)

]=

∞∑n=0

e−λt (λt)n

n!E[eiu

∑nk=1 Xk

]=

∞∑n=0

e−λt (λt)n

n!φ(u)n = eλt[φ(u)−1] (6.32)

Anche questa ch.f. si riduce a quella del processo di Poisson standard (6.10) seXk = 1, P -a.s. per ogni k dato che in questo caso φ(u) = eiu

164

Page 165: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

6.1 Poisson process

t

0.1

0.2

0.3

0.4

0.5

0.6

Figure 6.12: Campione di traiettoria del processo di rumore granulare (6.33) confunzione h(t) della forma (6.34).

6.1.5 Shot noise

Definition 6.11. Dato un processo di punto di intensita λ, chiameremo rumoregranulare (shot noise) il s.p.

X(t) =∞∑k=1

h(t− Tk) (6.33)

dove h(t) e un’arbitraria funzione che in genere (ma non necessariamente)e diversada 0 solo per t > 0

Esempio tipico di funzione h(t) e

h(t) = q at e−atϑ(t) a > 0, q > 0 (6.34)

che produce campioni di traiettorie come quelle della Figura 6.12. Si puo immag-inare per fissare le idee che questo processo descriva le correnti prodotte dall’arrivoaleatorio di elettroni isolati al catodo di una valvola per effetto termoelettrico: inquesto caso i tempi di arrivo costituiscono ovviamente un processo di punto, e ognielettrone produce nel circuito un impulso di corrente h(t) che tipicamente si spegnecon andamento esponenziale. Inoltre arrivi ravvicinati generano sovrapposizioni diimpulsi che producono effetti come quelli della Figura 6.12.

Proposition 6.12. Se h(x) e una funzione integrabile e di quadrato integrabile, il

165

Page 166: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

Τ1a

1.0

0.5

Figure 6.13: Coefficiente di correlazione ρX(τ) (6.38) di un rumore granulare confunzione h(t) della forma (6.34).

rumore granulare X(t) (6.33) e stazionario in senso lato, e posto τ = t− s risulta

mX(t) = λH σ2X(t) = λg(0) (6.35)

RX(τ) = λg(|τ |) + λ2H2 CX(τ) = λg(|τ |) ρX(τ) =g(|τ |)g(0)

(6.36)

H =

∫ +∞

−∞h(t) dt g(t) =

∫ +∞

−∞h(t+ s)h(s) ds (6.37)

Proof: Omessa1. Osserveremo soltanto che la stazionarieta e coerente con la naturadelle traiettorie che, consistendo in treni di impulsi di forma h e intensita λ, nonhanno piu la tendenza a diffondere allontanandosi dall’asse orizzontale

Exemple 6.13. I risultati della Proposizione (6.12) sono del tutto generali, ma leproprieta analitiche di un rumore granulare X(t) dipenderanno esplicitamente dallascelta della funzione h: ad esempio con una h(t) della forma (6.34) si hanno iseguenti risultati (vedi anche Figura 6.13)

H =q

ag(t) =

q2

4a(1 + a|t|) e−a|t|

mX(t) =λq

aσ2X(t) =

λq2

4aRX(τ) =

λq2

4a(1 + a|τ |) e−a|τ | +

λ2q2

a2

CX(τ) =λq2

4a(1 + a|τ |) e−a|τ | ρX(τ) = (1 + a|τ |) e−a|τ | (6.38)

e quindi, tenendo conto dei risultati presentati nella Sezione 5, potremo dire che

1A. Papoulis, Probability, Random Variables and Stochastic Processes, McGrawHill (Boston, 2002)

166

Page 167: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

6.2 Wiener process

• X(t) e continuo in m.s. perche la sua autocorrelazione RX(τ) e una funzionecontinua in τ = 0 (Proposizione 5.6)

• X(t) e derivabile in m.s. perche si potrebbe mostrare esplicitamente che laderivata seconda R′′

X(τ) esiste in τ = 0 (Proposizione 5.10)

• X(t) e ergodico per l’attesa e per l’autocorrelazione perche la condizione (5.21)e ovviamente soddisfatta dalla nostra CX(τ) (Corollario 5.12)

• Lo spettro di covarianza del rumore granulare del nostro esempio si calcolainfine dalla (6.38) e dalla (5.26) e si ha

SX(ϖ) =λa2q2

2π (a2 +ϖ2)2(6.39)

6.2 Wiener process

Il processo di Wiener (detto anche moto Browniano, nome che pero noi riserveremoper il fenomeno fisico che sara discusso nella Sezione 6.4 e nel Capitolo 9) puo essereintrodotto, come faremo piu oltre, definendo in maniera formale le sue proprieta. Inquesta introduzione, invece, seguiremo una strada piu intuitiva che passa attraversola costruzione esplicita delle traiettorie, analogamente a quanto fatto per il processodi Poisson. A differenza di quest’ultimo, pero, il processo di Wiener risultera dallimite di una successione di processi elementari noti come random walk , e per questomotivo le sue traiettorie potranno solo essere approssimate da quelle di un randomwalk con un gran numero di passi.

6.2.1 Random walk

Definition 6.14. Dati s > 0, τ > 0, e la successione (Xj)j≥0 di r.v. i.i.d.

X0 = 0, P -a.s. Xj =

+s, con probabilita p−s, con probabilita q = 1− p

j = 1, 2, . . .

chiameremo random walk il s.p.

X(t) =∞∑j=0

Xjϑ(t− jτ) (6.40)

per il quale ovviamente risulta

X(t) =

X0 = 0 0 ≤ t < τX1 + . . .+Xn nτ ≤ t < (n+ 1)τ, n = 1, 2, . . .

167

Page 168: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

t

s

2s

-s

Τ 2Τ

Figure 6.14: Tipica traiettoria di un random walk simmetrico con 15 passi.

Le possibili traiettorie di un random walk sono pertanto delle gradinate ascendentie discendenti come quelle mostrate in Figura 6.14 che a prima vista somigliano aquelle di un processo di Poisson composto (6.25). Diversamente da queste, invece,la lunghezza dei gradini ora non e piu aleatoria ma costante e uguale a τ , mentre laloro altezza prende solo i due possibili valori ±s. Siccome inoltre risulta

E [Xj] = (p− q)s E[X2

j

]= s2 V [Xj] = 4pqs2

e anche facile rendersi conto del fatto che, con n = 0, 1, 2, . . . si ha

E [X(t)] = (p− q)ns V [X(t)] = 4pqns2 nτ ≤ t < (n+ 1)τ (6.41)

per cui, se ad esempio p = q, il valore assoluto dell’attesa crescera con n, cioe con t.Quando invece p = q = 1

2si parla di random walk simmetrico, e in questo caso

E [X(t)] = 0 per ogni t. La varianza invece cresce con n, e quindi con t, in ogni caso.Naturalmente, per costruzione, anche in questo caso gli incrementi ∆X(t) sarannoindipendenti se i corrispondenti intervalli sono disgiunti

6.2.2 Wiener process

Definition 6.15. Considerata al variare di s > 0 e τ > 0 la famiglia di tutti irandom walk simmetrici X(t) con p = q = 1

2, chiameremo processo di Wiener

standard W (t), con W (0) = 0,P -a.s., il s.p. limite in distribuzione (nel sensodella Definizione 5.4) dei random walk X(t) quando

τ → 0 s → 0s2

τ→ D > 0 (6.42)

Inoltre, assegnato un ∆t > 0, si definisce anche il processo degli incrementi diWiener ∆W (t) = W (t+∆t)−W (t)

168

Page 169: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

6.2 Wiener process

0.5 1t

-2.0

-1.5

-1.0

-0.5

0.5

1.0

WHtL

Figure 6.15: Tipiche traiettorie con 1 000 passi di un random walk simmetrico chepuo essere considerato come un’approssimazione di un processo di Wiener W (t) conD = 1.

Noi supporremo per semplicita che il limite su cui si basa la precedente definizioneesista, cioe che – nel limite (6.42) – tutte le distribuzioni finto-dimensionali di X(t)convergano verso delle distribuzioni finito-dimensionali consistenti che definiscono lalegge di W (t). Definito dunque W (t) secondo la procedura euristica qui delineata,osserviamo innanzitutto che le sue traiettorie (diversamente da quelle del processo diPoisson o di un random walk) non potranno piu essere riprodotte in maniera esattaperche si tratta di un processo limite. Possiamo pero assumere intuitivamente –sulla base della discussione fin qui svolta – che le traiettorie di un random walk conun gran numero di passi appaiano come una buona approssimazione delle traiet-torie di W (t). Tali approssimazioni assumono un aspetto simile a quello propostonella Figura 6.15 dove i campioni sono quelli di un random walk di 1 000 passi. Sinoti come su tempi lunghi queste curve somiglino qualitativamente a quelle di unprocesso di Poisson compensato della Figura 6.9, o composto della Figura 6.11. Ladifferenza essenziale fra le vere traiettorie di W (t) e le sue approssimazioni sta nelfatto che se osservassimo piu da vicino la traiettoria approssimate di Figura 6.15ritroveremmo quella del random walk di Figura 6.14, mentre se ingrandissimo aqualunque livello una vera traiettoria di W (t) ritroveremmo sempre lo stesso tipodi traiettorie irregolari. In altri termini i campioni di un processo di Wiener ap-paiono sempre dello stesso tipo quale che sia la scala spazio-temporale alla quale lesi osserva. Nella discussione seguente converra per brevita indicare con la notazione

ϕa2(x) =e−x2/2a2

√2πa2

Φa2(x) =

∫ x

−∞ϕa2(y) dy

rispettivamente la p.d.f. e la c.d.f. di una legge N (0, a2)

169

Page 170: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

Proposition 6.16. Un processo di Wiener standard W (t) ha incrementi indipen-denti e stazionari; inoltre risulta

W (t) ∼ N (0, Dt) ∆W (t) ∼ N (0, D∆t) (6.43)

e quindi le rispettive p.d.f. e ch.f. sono

fW (x, t) = ϕDt(x) =e−x2/2Dt

√2πDt

f∆W (x) = ϕD∆t(x) =e−x2/2D∆t

√2πD∆t

(6.44)

φW (u, t) = e−Dtu2/2 φ∆W (u) = e−D∆t u2/2 (6.45)

Infine le p.d.f. di transizione ( p.d.f. condizionate) con ∆t > 0 sono N (y,D∆t)cioe

fW (x, t+∆t|y, t) = ϕD∆t(x− y) = f∆W (x− y) =e−(x−y)2/2D∆t

√2πD∆t

(6.46)

Proof: Siccome il processo W (t) e stato definito come limite di processi di randomwalk X(t) che hanno per definizione incrementi indipendenti, e molto ragionev-ole affermare che anche tutti gli incrementi ∆W (t) corrispondenti a intervalli nonsovrapposti siano indipendenti: il processo di Wiener costituisce quindi il secondoesempio di processo a incrementi indipendenti che incontriamo. Il risultato (6.43)discende invece dal Teorema Limite Centrale 4.27: infatti, scelto un t arbitrario mafissato, si consideri la successione di random walk simmetrici X(t) con

τ =t

ns2 =

Dt

nn = 1, 2, . . .

in modo che le (6.42) siano soddisfatte per n → ∞. In tal caso

X(t) = X(nτ) = X0 +X1 + . . .+Xn = Sn n = 0, 1, 2, . . .

con E [Sn] = 0 e V [Sn] = Dt, come si ricava da (6.41) per p = q = 12. Dal Teorema

Limite Centrale 4.27 abbiamo allora che per n → ∞

S∗n =

X(t)√Dt

d−→ N (0, 1)

Se allora W (t) e il limite in distribuzione di X(t) potremo dire che

W (t)√Dt

∼ N (0, 1)

ovvero W (t) ∼ N (0, Dt) cioe (6.43), e la p.d.f. del processo di Wiener sara quindiquella riportata in (6.44). La ch.f. (6.45) si calcola poi facilmente da (4.13) tenendoconto di (6.43). Anche la legge (6.43) degli incrementi ∆W (t) e le sue p.d.f. (6.44)

170

Page 171: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

6.2 Wiener process

e ch.f. (6.45) si ricavano sulla base di analoghe considerazioni. Infine per la p.d.f. ditransizione, ricordando (6.43) e l’indipendenza degli incrementi, si ha per ∆t > 0

FW (x, t+∆t|y, t) = P W (t+∆t) ≤ x |W (t) = y= P W (t+∆t)−W (t) +W (t) ≤ x |W (t) = y= P ∆W (t) ≤ x− y |W (t) = y= P ∆W (t) ≤ x− y = ΦD∆t(x− y)

e quindi (6.46) si ottiene per derivazione rispetto a x

Proposition 6.17. Le caratteristiche statistiche del processo di Wiener standardW (t) sono

mW (t) = 0 σ2W (t) = Dt (6.47)

RW (s, t) = CW (s, t) = Dmins, t (6.48)

ρW (s, t) =mins, t√

st=

√s/t se s < t√t/s se t < s

(6.49)

Proof: Le (6.47) discendono direttamente da (6.43). Per calcolare l’autocorrelazione (6.48)(che coincide con l’autocovarianza dato che l’attesa e nulla) consideriamo dapprimail caso s = t per il quale da (6.43) abbiamo

RW (t, t) = E[W 2(t)

]= V [W (t)] = Dt (6.50)

e poi, con s < t, osserviamo che gli incrementi W (s) = W (s)−W (0) e W (t)−W (s)sono r.v. indipendenti con leggi N (0, Ds) e N (0, D(t− s)) rispettivamente, sicche

RW (s, t) = E [W (s)W (t)] = E[W (s)

(W (t)−W (s) +W (s)

)]= E

[W 2(s)

]= RW (s, s) = Ds

In definitiva, abbandonando anche la limitazione s < t, si ricava facilmente (6.48) econseguentemente anche (6.49).

Nonostante le evidenti differenze fra i sue processi, i risultati di questa propo-sizione sul processo di Wiener sono molto simili a quelli della corrispondente Propo-sizione 6.6 per il processo di Poisson standard, con il coefficienteD che gioca un ruoloanalogo a quello dell’intensita λ. Il coefficiente D > 0 (la cui esistenza e stata ipo-tizzata all’interno del processo di limite che definisce W (t), e che per costruzione hadimensioni m2/sec) prende il nome di coefficiente di diffusione ed e un parametrocaratteristico del processo. Si noti, infine, che anche in questo caso, come per il pro-cesso di Poisson, la varianza aumenta linearmente con il tempo t, sicche anche ilprocesso di Wiener puo essere considerato (in questo senso) una diffusione.

171

Page 172: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

Proposition 6.18. Per ogni t > 0 un processo di Wiener standard W (t) e continuoin m.s. e P -a.s., ma non e derivabile ne in m.s. ne P -a.s.. Inoltre W (t) non estazionario, ma e gaussiano e, comunque scelti t1 < t2 < . . . < tn (l’ordine e sceltoper comodita), risulta (W (t1), . . . ,W (tn)) ∼ N (0,A) con matrice delle covarianze

A = D

t1 t1 t1 . . . t1t1 t2 t2 t2t1 t2 t3 t3...

. . ....

t1 t2 t3 . . . tn

(6.51)

Proof: La continuita, la non derivabilita in m.s. e la non stazionarieta di W (t)si dimostrano con argomenti simili a quelli usati nella dimostrazione della Propo-sizione 6.7 per il processo di Poisson N(t): infatti le funzioni di autocorrelazionedei due processi sono essenzialmente identiche. Quanto alla non derivabilita P -a.s.questa puo essere dedotta dalla negazione del punto 1. nel Teorema 4.4 dimostrandoche W (t) non e derivabile neanche in probabilita, visto che risulta∣∣∣∣∆W (t)

∆t

∣∣∣∣ P−→ +∞ per ∆t → 0, ∀t > 0

ovvero

lim∆t→0

P

∣∣∣∣∆W (t)

∆t

∣∣∣∣ > M

= 1 ∀M > 0, ∀t > 0 (6.52)

Infatti, comunque scelto M > 0, da (6.44) si ha

P

∣∣∣∣∆W (t)

∆t

∣∣∣∣ > M

= 1− P

∣∣∣∣∆W (t)

∆t

∣∣∣∣ ≤ M

= 1−

∫ M |∆t|

−M |∆t|

e−x2/2D|∆t|√2πD|∆t|

dx

e quindi la (6.52) discende dall’osservazione che posto y = x/√

|∆t| risulta

lim∆t→0

∫ M |∆t|

−M |∆t|

e−x2/2D|∆t|√2πD|∆t|

dx = lim∆t→0

∫ M√

|∆t|

−M√

|∆t|

e−y2/2D

√2πD

dy = 0

Per la continuita P -a.s. in ogni t > 0 ci limiteremo invece ad osservare – anticipandoi risultati della Proposizione 7.23 – che in realta il processo di WienerW (t) non e solocontinuo in m.s. e P -a.s., ma lo e addirittura nel senso globale (sample continuous)della Definizione 5.5: quasi ogni traiettoria di W (t) risulta continua in ogni t. Lasemplice continuita P -a.s. in ogni t > 0 discende pertanto dal fatto (vedi la fine dellaSezione 5.3) che la continuita globale implica anche tutti gli altri tipi di continuita.Infine, dalla Proposizione 6.16 gia sappiamo che la p.d.f. di W (t) e la p.d.f. ditransizione sono Gaussiane. Questo ci permette di ottenere facilmente anche le

172

Page 173: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

6.2 Wiener process

p.d.f. congiunte2 dei vettori (W (s),W (t)): preso per comodita s < t, avremo lap.d.f.

fW (x, t; y, s) = fW (x, t|y, s)fW (y, s) = ϕD(t−s)(x− y)ϕDs(y) (6.53)

che – scritte esplicitamente e confrontate con la p.d.f. (2.24) – risultano essere nor-mali bivariate N (0,A) con matrice delle covarianze

A = D

(s ss t

)Una volta determinate le leggi a due istanti, si passa a quelle con n = 3, 4, . . . istantiiterando il procedimento: scelti ad esempio tre istanti t1 < t2 < t3 (l’ordine e fissatoper comodita), e sfruttando l’indipendenza degli incrementi, si calcola prima – conun procedimento analogo a quello che conduce alla (6.46) – la p.d.f. condizionata

fW (x3, t3 | x2, t2;x1, t1) = ϕD(t3−t2)(x3 − x2)

e poi, tenendo conto di (6.53), la p.d.f. congiunta

fW (x3, t3;x2, t2; x1, t1) = fW (x3, t3 |x2, t2; x1, t1)fW (x2, t2;x1, t1)

che risulta Gaussiana con matrice delle covarianze della forma (6.51). Ripetendo laprocedura, comunque presi t1 < . . . < tn, si mostra che le p.d.f. congiunte dei vettori(W (t1), . . . ,W (tn)) sono tutte N (0,A) con matrici delle covarianze (6.51), e quindiche il processo di Wiener W (t) e un processo Gaussiano.

Si verifica infine con un calcolo diretto che le p.d.f. fW (x, t| y, s) sono soluzionidell’equazione

∂tf(x, t) =D

2∂2xf(x, t), f(x, s+) = δ(x− y) (6.54)

che costituisce un primo esempio di equazione di Fokker-Planck (Sezione 7.2.3)

2Si noti che dalle p.d.f. congiunte (6.53) si possono ritrovare le marginali (6.44)

fW (x, t) =

∫ +∞

−∞fW (x, t; y, s) dy = [ϕD(t−s) ∗ ϕDs](x) = ϕDt(x)

e che il calcolo si esegue facilmente utilizzando la proprieta riproduttiva (3.70) delle leggi normali

N (0, D(t− s)) ∗N (0, Ds) = N (0, Dt)

173

Page 174: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

Proposition 6.19. Il processo degli incrementi di Wiener ∆W (t) con ∆t > 0 estazionario in senso lato, infatti risulta

m∆W = 0 σ2∆W = D∆t (6.55)

R∆W (τ) = C∆W (τ) =

0 se |τ | ≥ ∆tD(∆t− |τ |) se |τ | < ∆t

(6.56)

ρ∆W (τ) =

0 se |τ | ≥ ∆t

1− |τ |∆t

se |τ | < ∆t(6.57)

S∆W (ϖ) = 2D(∆t)21− cosϖ∆t

(ϖ∆t)2(6.58)

Proof: Avevamo gia osservato che gli incrementi ∆W (t) sono indipendenti e stazionari:qui si mostra inoltre che il processo degli incrementi e stazionario in senso lato.I risultati (6.55) derivano direttamente da (6.43), cioe dal fatto che ∆W (t) ∼N (0, D∆t). Per calcolare invece le funzioni di autocorrelazione e autocovarianzasi ripercorre la procedura utilizzata nel caso degli incrementi di Poisson: ricor-dando che gli incrementi su intervalli di tempo non sovrapposti sono indipendenti,se |t− s| ≥ ∆t si ha

R∆W (s, t) = E [∆W (s)∆W (t)] = E [∆W (s)]E [∆W (t)] = 0

Se invece |t− s| < ∆t, supponendo prima t > s risulta (vedi Figura 6.7)

∆W (s)∆W (t) = [W (s+∆t)−W (s)] [W (t+∆t)−W (t)]

= [W (s+∆t)−W (t) +W (t)−W (s)] [W (t+∆t)−W (t)]

= [W (t)−W (s)][W (t+∆t)−W (t)] + [W (s+∆t)−W (t)]2

+[W (s+∆t)−W (t)][W (t+∆t)−W (s+∆t)]

per cui – per l’indipendenza degli incrementi coinvolti e per l’annullarsi delle loroattese – con τ = t− s > 0 si avra

R∆W (τ) = E[[W (s+∆t)−W (t)]2

]= D(∆t− τ)

Nel caso t < s basta poi uno scambio di s con t: mettendo insieme tutti i casi sipuo scrivere quindi la (6.56). Con questi risultati discendono immediatamente dalleloro definizioni anche (6.57) e (6.58).

6.2.3 Geometric Wiener process

Come nel caso del processo di Poisson, anche ora potremo ricavare dal processo diWiener molti altri processi, ma noi ci soffermeremo brevemente solo sul cosiddettoprocesso di Wiener (o moto Browniano) geometrico definito come

X(t) = eW (t) X(0) = 1 (6.59)

174

Page 175: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

6.3 White noise

0.5 1t

0.1

0.2

0.5

1.0

2.0

ZHtL

Figure 6.16: Traiettorie (scala logaritmica e D = 1) di un moto Browniano geomet-rico (6.61) approssimate con esponenziali di random walks di 1 000 passi

doveW (t) e un processo di Wiener. Questo tipo di processi e particolarmente impor-tante nel campo della finanza matematica e abbiamo gia osservato nella Sezione 3.47che la sua p.d.f. e log-normale

fX(x, t) =e− ln2 x/2Dt

x√2πDt

x > 0 (6.60)

mentre per l’attesa e la varianza si ha

mX(t) = eDt/2 σ2X(t) =

(eDt − 1

)eDt

Ovviamente le traiettorie di X(t) – diversamente da quelle del processo di WienerW (t) – non prenderanno mai valori negativi (Figura 6.16 in scala logaritmica) equesto e uno dei motivi principali per i quali il moto Browniano geometrico e con-siderato un buon modello per descrivere l’andamento dei prezzi sul mercato. Nelleapplicazioni viene pero piuttosto usata una variante di X(t) centrata attorno alvalore 1 definita da

Z(t) =X(t)

mX(t)= eW (t)−Dt/2 (6.61)

per la quale facilmente si verifica che

mZ(t) = 1 σ2Z(t) = eDt − 1

6.3 White noise

Da un punto di vista strettamente formale il rumore bianco (white noise) non esistecome processo stocastico, nello stesso senso in cui la delta di Dirac δ(x) non esiste

175

Page 176: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

come funzione. Trascurando per brevita le procedure rigorose con le quali si puo dareun significato preciso a questo concetto, noi ci limiteremo qui ad alcune osservazionieuristiche per metterne in luce le opportunita e i rischi

Definition 6.20. Chiameremo rumore bianco (white noise) un processo B(t)per il quale l’autocovarianza sia

CB(s, t) = q(t)δ(t− s) (6.62)

dove q(s) > 0 e detta intensita del rumore bianco. Il rumore bianco e stazionarioquando l’intensita q e costante e in questo caso con τ = t− s avremo

CB(τ) = qδ(τ) SB(ϖ) = q (6.63)

per cui lo spettro di covarianza risulta piatto e giustifica il nome adottato.

I rumori bianchi possono quindi essere considerati dei processi singolari, come peral-tro rivelato dalla presenza della δ di Dirac nella loro definizione. La loro irregolaritae inoltre confermata dal fatto che la (6.62) implica in particolare che i valori delprocesso B(t) in istanti differenti sono sempre non correlati, e quindi che in un certosenso essi assumono valori non prevedibili sulla base di osservazioni in altri istanti.In particolare noi esamineremo alcuni esempi e mostreremo come la loro singolaritasia spesso legata all’introduzione di processi ottenuti come derivate di processi nonderivabili, nello stesso senso in cui la δ di Dirac puo essere considerata come laderivata della funzione di Heaviside che notoriamente non e derivabile.

Exemple 6.21. Rumore bianco di Poisson: Un primo esempio e il caso parti-colare di rumore granulare (6.33) che si ottiene prendendo h(t) = δ(t): con questascelta il processo puo essere immaginato come costituito da una successione di im-pulsi δ ai tempi aleatori Tk, e puo essere formalmente visto come la derivata, trai-ettoria per traiettoria, del processo di Poisson nella forma (6.6)

N(t) =∞∑k=1

δ(t− Tk) (6.64)

che prende anche il nome di processo degli impulsi di Poisson. Per mostrareche (6.64) e proprio un rumore bianco stazionario con intensita λ bastera poi osser-vare che da (6.35) con h(t) = δ(t) si ha H = 1 e g(t) = δ(t), e quindi

mN = λ RN(τ) = λ2 + λδ(τ) CN(τ) = λδ(τ) (6.65)

Un altro rumore bianco stazionario, ma con attesa nulla, si ricava poi derivando unprocesso di Poisson compensato (6.24)

˙N(t) = N(t)− λ (6.66)

176

Page 177: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

6.3 White noise

Τ

CZHΤ L

D

D

Dt

-Dt Dt

Figure 6.17: Autocovarianza CZ(τ) (6.69) del rapporto incrementale (6.68) di unprocesso di Wiener: l’area del triangolo e sempre D per qualunque valore di ∆t, mala sua forma diventa sempre piu stretta e alta per ∆t → 0.

Si tratta quindi del processo degli impulsi centrato dato che da (6.65) e facile ricavare

m ˙N= mN − λ = 0

Che anche in questo caso si tratti di un rumore bianco stazionario si deduce osser-vando che da (6.65) e (6.66) si ha

R ˙N(τ) = C ˙

N(τ) = RN(τ)− λ2 = λδ(τ)

E utile infine notare che tutti gli altri rumori granulari (6.33) con h(t) diverse daδ(t) si possono ricavare per convoluzione dal processo degli impulsi e dalla funzioneh(t) secondo la relazione

X(t) = [N ∗ h](t) (6.67)

Exemple 6.22. Rumore bianco di Wiener: Un altro tipo di rumore bianco einfine associato al processo di Wiener W (t): come abbiamo gia osservato W (t) none derivabile (in nessun senso) e quindi possiamo immaginare che la sua derivataformale W (t) possa avere le proprieta singolari di un rumore bianco. Infatti se, con∆t fissato, consideriamo il processo dei rapporti incrementali

Z(t) =∆W (t)

∆t(6.68)

vediamo facilmente dai risultati della Proposizione 6.19 relativi al processo degliincrementi ∆W (t) su intervalli di ampiezza |∆t|che

mZ = 0 RZ(τ) = CZ(τ) =

0 se |τ | ≥ |∆t|D|∆t|

(1− |τ |

|∆t|

)se |τ | < |∆t| (6.69)

177

Page 178: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

La funzione RZ(τ) = CZ(τ) e mostrata in Figura 6.17 e da essa si vede che

CZ(τ) → D δ(τ) ∆t → 0

Pertanto, se ammettiamo in qualche senso che esista W (t) come il limite

Z(t) =∆W (t)

∆t→ W (t) ∆t → 0

ci attendiamo anche che risulti

mW = 0 RW (τ) = CW (τ) = D δ(τ) (6.70)

cioe che W (t) sia proprio un rumore bianco stazionario con intensita D.

Queste considerazioni ci permettono di anticipare intuitivamente alcune proprietadegli incrementi che saranno riprese in seguito in maniera piu sistematica. Consid-eriamo i processi degli incrementi finora introdotti ∆N(t),∆N(t) e ∆W (t) con ∆tarbitrario ma fissato, e osserviamo che, essendo m∆N(t) = m∆W (t) = 0 da (6.19)e (6.55), su intervalli di ampiezza |∆t| abbiamo

E[∆N2(t)

]= σ2

∆N= λ|∆t| E

[∆W 2(t)

]= σ2

∆W = D|∆t| (6.71)

E[∆N2(t)

]= σ2

∆N +m2∆N = λ|∆t|+ λ2∆t2 (6.72)

e in definitiva – ma in un senso per ora solo simbolico – al limite per ∆t → 0

E[dN2(t)

]= E

[dN2(t)

]= λ|dt| E

[dW 2(t)

]= D|dt| (6.73)

Queste relazioni suggeriscono l’idea che in realta gli incrementi infinitesimi dei nostriprocessi non siano dell’ordine di dt, ma siano piuttosto dell’ordine di

√dt, ovvero,

ancora con una notazione simbolica,

dN(t) = O(√

dt)

dN(t) = O(√

dt)

dW (t) = O(√

dt)

Pur nella sua attuale imprecisione, questo risultato spiega intuitivamente perche ilimiti di rapporti incrementali del tipo (6.68) non esistano, e giustifica quindi lanon derivabilita dei processi considerati. Comunque, se strettamente parlando i

rumori bianchi N(t),˙N(t) e W (t) non esistono, gli incrementi ∆N(t), ∆N(t) e

∆W (t) invece esistono, e in un certo senso (come vedremo piu precisamente quandointrodurremo il calcolo stocastico) esistono e giocano un ruolo importante anche i

loro differenziali stocastici dN(t), dN(t) e dW (t) che per ora possono essere solointuitivamente pensati come incrementi infinitesimi in dt, ma dell’ordine di

√dt.

Quello che invece non e possibile scrivere senza correre il rischio di commettere erroriseri e una diretta generalizzazione delle solite formule del calcolo infinitesimale chelegano differenziali e derivate: insomma per i processi stocastici i simboli

dN(t) dN(t) dW (t)

178

Page 179: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

6.4 Brownian motion

possono essere correttamente definiti (come vedremo nel Capitolo 8); essi pero nonpossono essere identificati in maniera indiscriminata con le rispettive espressioni

N(t) dt˙N(t) dt W (t) dt

sia perche le derivate coinvolte non sono ben definite, sia perche gli incrementiinfinitesimi sono dell’ordine di

√dt, e non di dt. Vedremo nell’Appendice H a

quali rischi esporrebbe un uso ingenuo delle solite regole del calcolo differenziale,e spiegheremo nel Capitolo 8 come questi problemi possano essere adeguatamenteaffrontati

6.4 Brownian motion

Dopo le osservazioni di Robert Brown3 nel 1827 sul moto delle particelle di pollineimmerse in un fluido (da allora noto come moto Browniano) si aprı un lungo dibat-tito sulla natura di questo fenomeno e si avanzo anche l’ipotesi che le particelle dipolline fossero vive. Esperimenti successivi mostrarono che questo non era il caso,ma l’origine del movimento restava misteriosa. Bisogno attendere i lavori di Ein-stein4 (1905) e Smoluchowski5 (1906) per avere una teoria che desse una rispostasoddisfacente. In particolare Einstein costruı un modello fisico del fenomeno basatosull’interazione delle particelle con le molecole del fluido circostante, stabilı che ilmovimento e caratterizzato da un coefficiente di diffusione D legato alla temper-atura, e previde che in un tempo t lo spostamento quadratico medio in ogni direzionee proporzionale a

√Dt. Tutte queste affermazioni – che oggi sembrano banali – er-

ano all’epoca piuttosto controverse, ed e importante osservare che il successo delmodello di Einstein contribuı in maniera significativa a stabilire l’idea che la mate-ria fosse composta di atomi e molecole (come poi mostrato definitivamente da JeanPerrin6 nel 1909): un’idea tutt’altro che generalmente condivisa in quei tempi

Bisogna inoltre ricordare che una teoria coerente e rigorosa dei processi stocasticie un risultato piuttosto recente. Le prime idee pionieristiche su modelli che possonoessere ricondotti al processo di Wiener sono contenute in un lavoro di ThorvaldThiele (1880) sul metodo dei minimi quadrati, e nella tesi di dottorato di LouisBachelier (1900). Quest’ultimo lavoro in particolare e rimasto a lungo ignoratoperche il suo argomento era una descrizione dei prezzi sui mercati finanziari, unproblema che solo di recente e diventato popolare in ambiente fisico e matematico.

3R. Brown, A brief account of microscopical observations made in the months of June, Julyand August, 1827, on the particles contained in the pollen of plants; and on the general existenceof active molecules in organic and inorganic bodies, Phil. Mag. 4 (1828) 161-173

4A. Einstein, Uber die von der molekularkinetischen Theorie der Warme geforderte Bewegungvon in ruhenden Flussigkeiten suspendierten Teilchen, Ann. Phys. 17 (1905) 549-560

5M. von Smoluchowski, Zur kinetischen Theorie der Brownschen Molekularbewegung undder Suspensionen, Ann. Phys. 21 (1906) 757-779

6J. Perrin, Mouvement brownien et realite moleculaire, Ann. Chim. Phys. 8-ieme serie 18(1909) 5-114

179

Page 180: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

Per questo motivo i primi lavori che hanno aperto effettivamente la strada allo studiomoderno dei processi sono quelli di Einstein nel 1905, di Smoluchowski nel 1906 e diLangevin7 nel 1908. In particolare questo gruppo di articoli individua fin dall’iniziole due strade che si possono percorrere per esaminare l’evoluzione di un fenomenoaleatorio:

1. Si puo studiare l’evoluzione delle leggi, cioe – nella nostra notazione – dellep.d.f. fX(x, t) e delle p.d.f. di transizione fX(x, t|y, s), determinando le oppor-tune equazioni differenziali alle derivate parziali che queste funzioni devonosoddisfare; in questo caso, quindi, l’attenzione e rivolta alle distribuzioni delprocesso, e non al processo stesso e alle sue traiettorie.

2. Alternativamente si possono esaminare le traiettorie x(t) del processo con-siderandole come generalizzazioni di funzioni tradizionali, e in questo casoavremo a che fare con equazioni differenziali sul processo X(t) come nellatradizionale meccanica Newtoniana, ma bisognera esercitare particolare curaper definire correttamente che cosa queste equazioni possono significare. In-fatti, mentre le p.d.f. del processo sono funzioni ordinarie, i processi X(t) dicui ci occupiamo non sono in generale derivabili.

Storicamente gli articoli di Einstein e Smoluchowski si pongono nel primo filone,mentre quello di Langevin ha aperto la seconda strada. Noi esamineremo ora breve-mente i problemi posti da questi articoli per introdurre l’argomento in manieraintuitiva, rinviando al Capitolo 9 una discussione piu approfondita del moto Brow-niano.

6.4.1 Einstein (1905)

Proviamo a ripercorrere – con una notazione e un linguaggio adattati ai nostri – gliargomenti del lavoro di Einstein: prendiamo in considerazione innanzitutto un inter-vallo di tempo τ che sia contemporaneamente abbastanza piccolo rispetto ai tempimacroscopici delle osservazioni, e abbastanza grande rispetto ai tempi microscopicidel movimento delle molecole del fluido. Questa scelta, come vedremo, e importante:essa da un lato riflette l’osservazione secondo la quale le particelle di polline sonopiccole su scale macroscopiche, ma sono anche grandi su scale molecolari; dall’altroconsente di avanzare realisticamente l’ipotesi che due spostamenti in intervalli τsuccessivi siano indipendenti. Infatti, se τ e grande rispetto ai tempi caratteristicidell’agitazione termica molecolare, potremo pensare che gli spostamenti corrispon-denti risultino dalla somma di molti urti individuali e quindi siano complessivamenteindipendenti fra di loro. La piccolezza di τ su scale macroscopiche, invece, permettedi introdurre degli opportuni sviluppi in serie. La scala di un parametro come τche e contemporaneamente piccolo su scale macroscopiche e grande su scale micro-scopiche si dice anche mesoscopica. Va detto comunque che una descrizione del moto

7P. Langevin, On the theory of Brownian motion, C. R. Acad. Sci. (Paris) 146 (1908) 530-533

180

Page 181: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

6.4 Brownian motion

Browniano a scale piu piccole (che noi discuteremo nel Capitolo 9) e stata succes-sivamente proposta da Ornstein e Uhlenbeck in un altro celebre lavoro8 (1930) nelquale viene definito un nuovo processo che prende il nome dai suoi due proponentie che noi discuteremo in dettaglio nei prossimi capitoli

Sia allora Z la r.v. che rappresenta lo spostamento della particella di pollinein τ e g(z) la sua p.d.f. che supporremo simmetrica e concentrata attorno a valoriprossimi a z = 0 ∫ +∞

−∞g(z) dz = 1, g(−z) = g(z)

g(z) = 0 solo per piccoli valori di z

Einstein dimostra innanzitutto che, se X(t) e la posizione della particella di pollineall’istante t, la sua p.d.f. f(x, t) soddisfa l’equazione

f(x, t+ τ) =

∫ +∞

−∞f(x+ z, t)g(z) dz (6.74)

Il suo ragionamento e prevalentemente fisico, ma noi preferiamo darne una giustifi-cazione in un linguaggio piu aderente alla nostra notazione. Sappiamo infatti dalleregole sul condizionamento che per le due r.v. X(t) e X(t+ τ) si ha in ogni caso

f(x, t+ τ) dx = P x ≤ X(t+ τ) < x+ dx

=

∫ +∞

−∞P x ≤ X(t+ τ) < x+ dx |X(t) = y f(y, t) dy

D’altra parte sulla base delle nostre ipotesi potremo dire che Z = X(t + τ)−X(t)e indipendente da X(t) per cui

P x ≤ X(t+ τ) < x+ dx |X(t) = y = P x ≤ X(t) + Z < x+ dx |X(t) = y= P x ≤ y + Z < x+ dx |X(t) = y= P x− y ≤ Z < x− y + dx= g(x− y) dx

Ponendo allora z = y − x e usando le proprieta di simmetria di g(z) ne segue che

f(x, t+ τ) dx = dx

∫ +∞

−∞g(x− y)f(y, t) dy

= dx

∫ +∞

−∞f(x+ z, t)g(z) dz

8L.S. Ornstein, G.E. Uhlenbeck, On the theory of Brownian Motion, Phys. Rev. 36 (1930)823-841

181

Page 182: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

ossia la richiesta equazione (6.74). Siccome ora τ e piccolo e g(z) e non nulla soloper piccoli valori di z, potremo adottare in (6.74) i seguenti sviluppi di Taylor

f(x, t+ τ) = f(x, t) + τ∂tf(x, t) + o(τ)

f(x+ z, t) = f(x, t) + z∂xf(x, t) +z2

2∂2xf(x, t) + o(z2)

ottenendo quindi (in notazione sintetica)

f + τ∂tf = f

∫g(z) dz + ∂xf

∫zg(z) dz + ∂2

xf

∫z2

2g(z) dz

e siccome per le nostre ipotesi∫ +∞

−∞g(z) dz = 1

∫ +∞

−∞zg(z) dz = 0

in definitiva si ha

∂tf(x, t) = ∂2xf(x, t)

1

∫ +∞

−∞z2g(z) dz

Ora e evidente che g(z) (la p.d.f. dell’incremento Z in τ) dipende da τ , e che persimmetria E [Z] = 0, sicche ∫ +∞

−∞z2g(z) dz

e la varianza di Z e potremo ragionevolmente supporre che essa sia infinitesimaper τ → 0 (nel senso che l’incremento Z tende ad essere invariabilmente nullo perτ → 0). Se allora introduciamo l’ipotesi che

limτ→0

1

τ

∫ +∞

−∞z2g(z) dz = D

la nostra equazione si riduce a

∂tf(x, t) =D

2∂2xf(x, t)

cioe coincide con l’equazione (6.54) che abbiamo trovato essere soddisfatta dallep.d.f. del processo di Wiener, per cui le sue soluzioni, con la condizione inizialef(x, 0+) = δ(x) (ossia X(0) = 0, P -a.s.), saranno ovviamente le p.d.f. normaliN (0, Dt) in modo tale che

E [X(t)] = 0 V [X(t)] = Dt (6.75)

La prima importante conclusione e quindi che nel modello di Einstein la posizionedella particella Browniana puo essere descritta da un processo di Wiener con coef-ficiente di diffusioneD. Sulla base di considerazioni termodinamiche, infine, Einstein

182

Page 183: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

6.4 Brownian motion

fu anche in grado di legare il valore della costante di diffusione alla temperatura delfluido mediante la relazione

D =kT

3πηa(6.76)

dove k e la costante di Boltzmann, T la temperatura, η la viscosita e a il di-ametro della particella supposta sferica. La (6.76) e gli altri risultati qui riportatisaranno ricavati nuovamente, e in maniera piu semplice, nella successiva trattazionedi Langevin

6.4.2 Langevin (1908)

Nel 1908 Langevin ottenne sostanzialmente gli stessi risultati di Einstein trattandodirettamente le traiettorie delle particelle con un’accorta (anche se poco rigorosa)generalizzazione delle equazioni del moto di Newton. In questo modello X(t) indicala posizione e V (t) = X(t) la velocita della particella, e si suppone che quest’ultimasia soggetta a due tipi di forze dovute al mezzo in cui essa e immersa:

• una forza di attrito viscoso che, con le notazioni introdotte poco prima, eproporzionale alla velocita e vale −6πηaV (t);

• una forza aleatoria prodotta dagli urti delle molecole rappresentata da unprocesso B(t) con media nulla E [B(t)] = 0, e non correlato con X(t).

Conseguentemente l’equazione di Newton del moto e

mX(t) = −6πηaX(t) +B(t) (6.77)

e questa, con V (t) = X(t), puo essere anche scritta sotto forma di una equazionedel primo ordine per la velocita

mV (t) = −6πηaV (t) +B(t) (6.78)

che prende il nome di equazione di LangevinMostreremo nella Sezione 8.1 che a tutti gli effetti il processo B(t) si comporta

come il rumore bianco di Wiener discusso nell’Esempio 6.22, e questo costituirail punto di partenza per la formulazione del calcolo stocastico di Ito. Per il mo-mento pero ci limiteremo a ricavare alcune informazioni sulla varianza del processocalcolando E [X2(t)]. Si moltiplica allora (6.77) per X(t)

mX(t)X(t) = −6πηaX(t)X(t) +X(t)B(t)

e si osserva che usando le solite regole del calcolo differenziale

d

dt

[X2(t)

]= 2X(t)X(t) (6.79)

d2

dt2[X2(t)

]= 2X2(t) + 2X(t)X(t) = 2V 2(t) + 2X(t)X(t) (6.80)

183

Page 184: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

potremo anche scrivere

m

2

d2

dt2[X2(t)

]−mV 2(t) = −3πηa

d

dt

[X2(t)

]+X(t)B(t)

Prendendo ora le attese di ambedue i membri, e ricordando che per le nostre ipotesiE [X(t)B(t)] = E [X(t)]E [B(t)] = 0, otteniamo l’equazione

m

2

d2

dt2E[X2(t)

]−E

[mV 2(t)

]= −3πηa

d

dtE[X2(t)

]Ma dalla meccanica statistica sappiamo che, all’equilibrio, l’energia cinetica mediadi una particella deve soddisfare la relazione

E[m2V 2(t)

]=

kT

2(6.81)

dove k e la costante di Boltzmann e T la temperatura. Conseguentemente la nostraequazione diviene

m

2

d2

dt2E[X2(t)

]+ 3πηa

d

dtE[X2(t)

]= kT

Una prima integrazione conduce allora a

d

dtE[X2(t)

]=

kT

3πηa+ Ce−6πηat/m

dove C e una costante di integrazione, e dopo un breve transitorio (l’esponenziale einfinitesimo con un tempo caratteristico dell’ordine di 10−8 sec) si ha

d

dtE[X2(t)

]=

kT

3πηa= D

cioe la (6.76), e con una seconda integrazione si ritrova lo stesso risultato dell’analisidi Einstein

V [X(t)] = E[X2(t)

]= Dt (6.82)

dove abbiamo anche supposto che X(0) = 0, in modo che E [X2(0)] = 0. I vantaggidella trattazione di Langevin sono nel fatto che essa si presenta come piuttostointuitiva essendo basata su un modello fisico con una semplice equazione del moto;e anche i calcoli sono piuttosto elementari. Essa presenta, pero, anche dei rischi acausa delle sue basi matematiche poco solide come viene esposto nell’Appendice H.Le basi rigorose per una riformulazione convincente di questo modello di Langevinsono rinviate al Capitolo 8

184

Page 185: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

Chapter 7

Markov processes

7.1 Markov processes

7.1.1 Markov property

Sebbene la proprieta di Markov sia in genere data con una direzione temporalepreferenziale, quella dal passato verso il futuro, essa e in realta simmetrica nelledue direzioni, e potrebbe essere intuitivamente espressa dicendo che gli eventi delfuturo e quelli del passato risultano reciprocamente indipendenti condizionatamentealla conoscenza dell’informazione disponibile al presente. Per sottolineare questasimmetria partiremo dando la seguente definizione di proprieta di Markov, riser-vandoci di mostrare poi che essa e equivalente ad altre, piu familiari formulazioni

Definition 7.1. Diremo che un processo vettoriale con M componenti X(t) =(X1(t), . . . , XM(t)

)e un processo di Markov se, comunque scelti gli istanti di

tempo s1 ≤ . . . ≤ sm ≤ s ≤ t1 ≤ . . . ≤ tn, e i vettori y1, . . . ,ym,y,x1, . . . ,xn,risulta

F (xn, tn; . . . ;x1, t1;ym, sm; . . . ;y1, s1 |y, s)= F (xn, tn; . . . ;x1, t1 |y, s)F (ym, sm; . . . ;y1, s1 |y, s) (7.1)

dove le F sono le c.d.f. congiunte e condizionate del processo

In pratica quindi, piu che l’ordine degli istanti di tempo, nella Markovianita e impor-tante la loro separazione, tramite un presente s, in due gruppi (il passato s1, . . . , sm,e il futuro t1, . . . , tn) che pero giocano ruoli simmetrici. Inoltre, proprio per questomotivo, anche l’ordine degli istanti all’interno dei due gruppi e irrilevante. Ovvia-mente, se X(t) e un processo a.c. dotato di p.d.f. la (7.1) si scrivera come

f(xn, tn; . . . ;x1, t1;ym, sm; . . . ;y1, s1 |y, s)= f(xn, tn; . . . ;x1, t1 |y, s) f(ym, sm; . . . ;y1, s1 |y, s) (7.2)

185

Page 186: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

mentre se invece e discreto con valori interi k, ℓ, e distribuzione p, si ha

p(kn, tn; . . . ;k1, t1; ℓm, sm; . . . ; ℓ1, s1 | ℓ, s)= p(kn, tn; . . . ;k1, t1 | ℓ, s) p(ℓm, sm; . . . ; ℓ1, s1 | ℓ, s) (7.3)

Proposition 7.2. X(t) e un processo di Markov se e solo se

F (xn, tn; . . . ;x1, t1 |y, s;ym, sm; . . . ;y1, s1) = F (xn, tn; . . . ;x1, t1 |y, s) (7.4)

comunque scelti s1 ≤ . . . ≤ sm ≤ s ≤ t1 ≤ . . . ≤ tn, e y1, . . . ,ym,y,x1, . . . ,xn;inoltre in (7.4) i ruoli del passato s1, . . . , sm e del futuro t1, . . . , tn possono esserescambiati

Proof: Sara utile osservare che nei casi in cui X(t) e o a.c., o discreto con valoriinteri k, ℓ, la condizione (7.4) si scrive rispettivamente come

f(xn, tn; . . . ;x1, t1 |y, s;ym, sm; . . . ;y1, s1) = f(xn, tn; . . . ;x1, t1 |y, s) (7.5)

p(kn, tn; . . . ;k1, t1 | ℓ, s; ℓm, sm; . . . ; ℓ1, s1) = p(kn, tn; . . . ;k1, t1 | ℓ, s) (7.6)

Per comodita di scrittura dimostreremo allora la nostra proposizione solo nellaforma (7.5): innanzitutto, se e vera la (7.5) si ha

f(xn, tn; . . . ;x1, t1;ym, sm; . . . ;y1, s1 |y, s)

=f(xn, tn; . . . ;x1, t1;y, s;ym, sm; . . . ;y1, s1)

f(y, s)

=f(xn, tn; . . . ;x1, t1;y, s;ym, sm; . . . ;y1, s1)

f(y, s;ym, sm; . . . ;y1, s1)

f(y, s;ym, sm; . . . ;y1, s1)

f(y, s)

= f(xn, tn; . . . ;x1, t1 |y, s;ym, sm; . . . ;y1, s1) f(ym, sm; . . . ;y1, s1 |y, s)= f(xn, tn; . . . ;x1, t1 |y, s) f(ym, sm; . . . ;y1, s1 |y, s)

cioe si ritrova (7.2) e il processo e Markoviano. Viceversa, se il processo e Marko-viano, cioe se e vera (7.2), si ha

f(xn, tn; . . . ;x1, t1 |y, s;ym, sm; . . . ;y1, s1)

=f(xn, tn; . . . ;x1, t1;y, s;ym, sm; . . . ;y1, s1)

f(y, s;ym, sm; . . . ;y1, s1)

=f(xn, tn; . . . ;x1, t1;y, s;ym, sm; . . . ;y1, s1)

f(y, s)

f(y, s)

f(y, s;ym, sm; . . . ;y1, s1)

=f(xn, tn; . . . ;x1, t1;ym, sm; . . . ;y1, s1 |y, s)

f(ym, sm; . . . ;y1, s1 |y, s)= f(xn, tn; . . . ;x1, t1 |y, s)

cioe si ritrova (7.4). Inoltre, data la simmetria passato-futuro delle (7.1), l’ordinedegli istanti di tempo non e rilevante per la dimostrazione e puo essere modificatoscambiando passato e futuro, ma sempre nel rispetto della loro separazione

186

Page 187: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

7.1 Markov processes

In questa seconda formulazione – nella versione dal passato al futuro – la proprieta diMarkov esprime l’idea che l’informazione contenuta nell’ultima osservazione disponi-bile (il presente, qui rappresentato dall’istante s) riassume tutto il passato (gli istantis1, . . . , sm) ai fini della previsione del futuro t: a questo scopo infatti conta conosceredove si trova in processo nell’istante presente s, ma non serve sapere come (cioe lungoquale percorso) ci si e arrivati. Ovviamente il futuro non e in assoluto indipendentedal passato, ma quest’ultimo risulta ridondante in quanto la storia precedente eriassunta nel presente s. Si tratta della maniera piu semplice per introdurre unadipendenza non triviale fra i valori del processo in istanti differenti. Si noti che se ilfuturo si riduce a un solo istante t le (7.5) e (7.6) assumono una forma semplificatache mette in evidenza il ruolo delle p.d.f. e delle probabilita di transizione

f(x, t |y, s;ym, sm; . . . ;y1, s1) = f(x, t |y, s) (7.7)

p(k, t | ℓ, s; ℓm, sm; . . . ; ℓ1, s1) = p(k, t | ℓ, s) (7.8)

Corollary 7.3. X(t) e un processo di Markov se e solo se, comunque scelti gliistanti di tempo s1 ≤ . . . ≤ sm ≤ s ≤ t1 ≤ . . . ≤ tn, e assegnata un’arbitrariafunzione di Borel limitata g(x1, . . . ,xn), risulta P -a.s.

E [g(X(t1), . . . ,X(tn)) |X(s),X(sm), . . . ,X(s1)]

= E [g(X(t1), . . . ,X(tn)) |X(s)] (7.9)

ovvero equivalentemente se, per quasi ogni (in PX) scelta di y1, . . . ,ym,y, risulta

E [g(X(t1), . . . ,X(tn)) |X(s) = y,X(sm) = ym, . . . ,X(s1) = y1]

= E [g(X(t1), . . . ,X(tn)) |X(s) = y] (7.10)

Per la Definizione 3.41, la condizione (7.9) e anche equivalente a richiedere che perogni fissata g(x1, . . . ,xn) esista un’altra funzione di Borel h(x) tale che P -a.s.

E [g(X(t1), . . . ,X(tn)) |X(s),X(sm), . . . ,X(s1)] = h(X(s)) (7.11)

Anche in questo caso i ruoli del passato e del futuro possono essere scambiati

Proof: Se e vera la (7.10), bastera considerare il caso in cui g = χA e la funzioneindicatrice dell’evento A = (−∞,x1]× . . .× (−∞,xn], per avere

F (xn, tn, . . . ,x1, t1 |y, s;ym, sm . . . ;y1, s1)

= P (X(t1), . . . ,X(tn)) ∈ A |X(s) = y; . . . ;X(s1) = y1= E [χA(X(t1), . . . ,X(tn)) |X(s) = y; . . . ;X(s1) = y1]

= E [χA(X(t1), . . . ,X(tn)) |X(s) = y]

= P (X(t1), . . . ,X(tn)) ∈ A |X(s) = y = F (xn, tn, . . . ,x1, t1 |y, s)

cioe la (7.4). D’altra parte, se viceversa e vera (7.4), la (7.10) ne discende facilmenteperche le attese condizionate si calcolano proprio a partire dalla conoscenza dellec.d.f. condizionate

187

Page 188: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

Bisogna precisare che la Markovianita di un processo vettoriale X(t) non implicaaffatto la Markovianita delle singole componenti Xj(t) o di un loro sottoinsieme:le singole componenti, infatti, contengono meno informazione dell’intero vettore,e quindi spesso risultano non Markoviane. Questa osservazione, pero, puo essereguardata anche da una prospettiva rovesciata: ad esempio, se un dato processo conuna sola componente X1(t) non e Markoviano, e possibile in generale aggiungerealtre componenti per costruire un vettore che sia Markoviano. In un certo sensoquesto allarga molto il dominio di applicabilita delle proprieta di Markov, perchein molti casi di interesse pratico potremo sempre considerare i nostri processi comecomponenti di qualche opportuno processo vettoriale Markoviano (vedi in particolarela discussione sul moto Browniano nella Sezione 9.3)

Proposition 7.4. Regola di moltiplicazione a catena: La legge di un processodi Markov X(t) e completamente determinata dalla distribuzione a un istante e dalladistribuzione di transizione, ovvero – rispettivamente nei casi a.c. e discreto – da

f(x, t) e f(x, t |y, s) (7.12)

p(k, t) e p(k, t | ℓ, s) (7.13)

secondo le regole di moltiplicazione a catena

f(xn, tn; . . . ;x1, t1) = f(xn, tn|xn−1, tn−1) . . . f(x2, t2|x1, t1)f(x1, t1) (7.14)

p(kn, tn; . . . ;k1, t1) = p(kn, tn|kn−1, tn−1) . . . p(k2, t2|k1, t1)p(k1, t1) (7.15)

con i tempi in ordine crescente t1 ≤ . . . ≤ tn, ovvero nell’ordine inverso

Proof: Come gia ricordato nella Sezione 5.1, la legge globale di un processo e de-terminata dalla conoscenza di tutte le leggi congiunte finito-dimensionali in un nu-mero arbitrario di istanti arbitrari; ma e facile vedere – ad esempio nel caso a.c. –che se X(t) e Markoviano tali leggi congiunte si ricavano da (7.12). Presi infattit1 ≤ . . . ≤ tn arbitrari (eventualmente anche nell’ordine inverso), dalla definizionedi p.d.f. condizionata (3.53) e da (7.7) si ottiene

f(xn, tn; . . . ;x1, t1) = f(xn, tn |xn−1, tn−1; . . . ;x1, t1) ·f(xn−1, tn−1 |xn−2, tn−2; . . . ;x1, t1) · . . .

·f(x2, t2 |x1, t1) f(x1, t1)

= f(xn, tn |xn−1, tn−1) f(xn−1, tn−1 |xn−2, tn−2) · . . .·f(x2, t2 |x1, t1) f(x1, t1)

cioe la regola (7.14) per cui le p.d.f. congiunte si ricavano tutte dalla conoscenzadelle (7.12). Nel caso discreto la dimostrazione e del tutto analoga. Si noti che perpoter ottenere la (7.14) dalla Markovianita (7.7) i tempi devono essere ordinati inmaniera crescente o decrescente: ogni altra possibilita e esclusa

188

Page 189: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

7.1 Markov processes

7.1.2 Chapman-Kolmogorov equations

L’importanza della Markovianita si apprezza immediatamente se si riflette al fattoche in base alla Proposizione 7.4 tale proprieta consente di ricostruire completamentetutta la gerarchia delle p.d.f. congiunte di X(t) – cioe la sua legge globale – a par-tire dalla sola conoscenza delle leggi a un istante e delle leggi di transizione (7.12)o (7.13): una considerevole semplificazione sicuramente non disponibile per tuttigli altri tipi di processi. A questo proposito e bene osservare subito, pero, che lefunzioni (7.12) e (7.13) sono sempre definite per qualunque tipo di processo, anchenon Markoviano; in quest’ultima eventualita pero esse non sono piu sufficienti perdeterminare completamente la legge del processo. Inoltre bisogna ricordare che ingenerale possono esistere processi differenti (non tutti di Markov, ovviamente) checondividano fra loro le medesime (7.12) o (7.13) come legge a un istante e legge ditransizione. In pratica, una volta data (ad esempio nel caso a.c.) la coppia di fun-zioni (7.12), ci saranno in generale differenti processi che le ammettono come p.d.f.a un istante e p.d.f. di transizione: se fra tali processi ve ne e uno Markoviano (mapotrebbe anche non esserci) esso non puo che essere uno solo e ricostruibile, tramitela regola di moltiplicazione a catena (7.14), a partire dalle sole (7.12). Queste con-siderazioni suggeriscono allora che la semplice assegnazione a priori di una coppiadi funzioni di tipo (7.12) non garantisce affatto che sia possibile costruire un pro-cesso di Markov: tali funzioni potrebbero infatti essere associate a un processo nonMarkoviano, oppure a una pluralita di processi dei quali uno solo e Markoviano. Saraquindi importante innanzitutto essere in grado di capire se delle p.d.f. del tipo (7.12)assegnate possono o meno generare un processo di Markov: in effetti vedremo subitoche, mentre la forma di f(x, t) e arbitraria, non ogni possibile p.d.f. di transizionef(x, t |y, s) e Markoviana. Nel seguito gli integrali e le somme senza ulteriori indi-cazioni sono eseguiti su tutto il dominio disponibile, ad esempio RM ,N , mentre dxe una semplificazione di dMx

Proposition 7.5. Equazioni di Chapman-Kolmogorov: Se X(t) e un processodi Markov, e s ≤ r ≤ t, nel caso a.c. saranno soddisfatte le equazioni

f(x, t) =

∫f(x, t |y, s)f(y, s) dy (7.16)

f(x, t |y, s) =

∫f(x, t |z, r)f(z, r |y, s) dz (7.17)

mentre nel caso discreto avremo

p(k, t) =∑ℓ

p(k, t | ℓ, s)p(ℓ, s) (7.18)

p(k, t | ℓ, s) =∑j

p(k, t | j, r)p(j, r | ℓ, s) (7.19)

L’ordine degli istanti s, r, t puo anche essere invertito, ma r deve sempre essereintermedio fra s e t

189

Page 190: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

Proof: Prima di tutto osserviamo che le equazioni (7.16) e (7.18) sono soddisfatteda qualunque processo (anche non Markoviano): infatti, se ad esempioX(t) e dotatodi p.d.f., la (7.16) deriva direttamente dalle definizioni

f(x, t) =

∫f(x, t;y, s) dy =

∫f(x, t |y, s)f(y, s) dy

Nel caso discreto la (7.18) si ricava nello stesso modo. Invece solo i processi diMarkov soddisfano le equazioni (7.17) e (7.19): cosı, ad esempio, per ricavare (7.17)bastera osservare che

f(x, t |y, s) =

∫f(x, t;z, r |y, s) dz =

∫f(x, t |z, r;y, s)f(z, r |y, s) dz

=

∫f(x, t |z, r)f(z, r |y, s) dz

se si usano non solo le definizioni, ma anche la proprieta di Markov (7.7) valida sianell’ordine s ≤ r ≤ t, sia nell’ordine inverso t ≤ r ≤ s

Si noti pertanto che, se da un lato le (7.16) e (7.18) sono solo relazioni che permettonodi calcolare le leggi a tempi successivi t partendo da tempi precedenti s (le p.d.f.e le probabilita di transizione in questo caso fungono da propagatori), dall’altro leequazioni (7.17) e (7.19) sono delle vere e proprie condizioni di compatibilita per lep.d.f. e per le probabilita di transizione: se (7.17) e (7.19) non sono rispettate, lef(x, t |y, s) e p(k, t | ℓ, s) non possono essere usate per costruire processi Markoviani;se invece esse sono soddisfatte, esse potranno facilmente generare processi Markov

Definition 7.6. Chiameremo leggi di transizione Markoviane quelle per lequali f(x, t |y, s) oppure p(k, t | ℓ, s) soddisfano rispettivamente (7.17) oppure (7.19);inoltre, fissato l’istante del condizionamento s ≥ 0, distingueremo in ciascuna di esseuna regione avanzata t ∈ [0, s] e una regione ritardata t ∈ [s,+∞)

Proposition 7.7. Ad ogni legge di transizione Markoviana assegnata nella regioneritardata

f(x, t |y, s) ovvero p(k, t | ℓ, s) 0 ≤ s ≤ t

e associata un’intera famiglia di processi di Markov: uno per ogni legge iniziale datatramite una f0(x) oppure una p0(ℓ)

Proof: Limitandoci per brevita al caso a.c., data un’arbitraria p.d.f. iniziale f(x, 0) =f0(x), la p.d.f. Markoviana f(x, t |y, s) nella regione ritardata permettera di deter-minare le p.d.f. in ogni istante

f(x, t) =

∫f(x, t |y, 0)f0(y) dy

completando cosı la coppia di funzioni (7.12) necessaria per ricavare la legge delprocesso di Markov dalla regola di moltiplicazione a catena (7.14). Si noti infatti che,

190

Page 191: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

7.1 Markov processes

ddp di transizione

Markov

Chapman-Kolmogorov

processips ps ps ps ps ps ps

f f f f

Figure 7.1: Schema delle possibili relazioni fra Markovianita dei processi e rispettodelle equazioni di Chapman-Kolmogorov da parte delle p.d.f. di transizione. Lefrecce indicano che solo per processi di Markov la legge del s.p. puo essere ricavataa partire dalla semplice conoscenza delle p.d.f. iniziali e di transizione.

per eseguire quest’ultima operazione, e sufficiente conoscere la p.d.f. di transizionenella regione ritardata applicando la regola di moltiplicazione a catena con i tempiin ordine crescente

Tutto quanto osservato finora si pone nella prospettiva di generare un processoMarkoviano assegnando a priori f0(x) e f(x, t |y, s): abbiamo appena visto chequesta operazione e sempre possibile se f(x, t |y, s) e Markoviana ed e nota almenonella regione ritardata. Esiste pero un altro punto di vista altrettanto rilevante: as-segnato un determinato s.p. come possiamo verificare se esso e o meno Markoviano?In questa seconda prospettiva le equazioni di Chapman-Kolmogorov sono una con-dizione solo necessaria per la Markovianita di un processo, cioe ci permettono didire con certezza se un processo non e Markoviano. Si danno infatti esempi di pro-cessi – vedi Appendice I – che non sono Markoviani pur avendo leggi di transizioneMarkoviane. La discussione (vedi anche Figura 7.1) va allora inquadrata in quantodetto poc’anzi circa la non unicita dei processi che ammettono le medesime leggi ditransizione. In pratica, se un s.p. e assegnato a priori e, ad esempio, le sue p.d.f. ditransizione soddisfano le equazioni Chapman-Kolmogorov, questo non e sufficienteper affermare che il processo e Markoviano: quello che invece in questo caso puoessere detto comunque e che a partire da quelle p.d.f. di transizione Markoviane sipotra sempre costruire in modo unico un processo di Markov, precisando pero che cipossono essere anche altri processi (non Markoviani) con le medesime (7.12), e chein particolare il s.p. assegnato inizialmente potrebbe essere proprio uno di questi

7.1.3 Independent increments processes

Definition 7.8. Si dice che X(t) e un processo ad incrementi indipendentise, comunque scelti 0 ≤ t0 < t1 < . . . < tn−1 < tn, le r.v. X(t0), X(t1)−X(t0), . . . ,X(tn) − X(tn−1) risultano indipendenti. In particolare ogni incremento ∆X(t) =

191

Page 192: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

X(t+∆t)−X(t) con ∆t > 0 sara indipendente1 da ogni X(s) con s ≤ t

Abbiamo gia incontrato diversi esempi di processi che per costruzione risultavanoavere incrementi indipendenti (ad esempio i processi di Poisson e di Wiener), e oravogliamo mostrare che i processi che godono di questa proprieta sono tutti processidi Markov, anzi ne costituiscono una delle categorie piu importanti

Proposition 7.9. Ogni processo X(t) ad incrementi indipendenti e un processodi Markov la cui legge e completamente determinata (a meno di una condizioneiniziale) dalla legge degli incrementi. In particolare, con ∆t > 0, si ha

E [g(X(t+∆t)) |X(t) = x] = E [g(∆X(t) + x)] (7.20)

Proof: Dati i tempi t1 ≤ . . . ≤ tn ≤ t ≤ t + ∆t e un’arbitraria g(x), dalla pro-prieta 3 della Proposizione 3.42 – opportunamente adeguata – e dall’indipendenzadell’incremento ∆X(t) = X(t + ∆t) − X(t) dai precedenti valori del processo siricava innanzitutto la proprieta di Markov nella forma (7.10):

E [g(X(t+∆t)) |X(t) = x,X(tn) = xn, . . . ,X(t1) = x1]

= E [g(∆X(t) +X(t)) |X(t) = x, . . . ,X(t1) = x1]

= E [g(∆X(t) + x) |X(t) = x, . . . ,X(t1) = x1]

= E [g(∆X(t) + x) |X(t) = x]

= E [g(∆X(t) +X(t)) |X(t) = x] = E [g(X(t+∆t)) |X(t) = x]

D’altra parte dalla precedente catena di uguaglianze discende anche (7.20)

E [g(X(t+∆t)) |X(t) = x] = E [g(∆X(t) + x) |X(t) = x] = E [g(∆X(t) + x)]

dato che ∆X(t) e indipendente da X(t). Per mostrare infine che – a meno di unacondizione iniziale – la legge del nostro processo e completamente determinata dallalegge dei suoi incrementi ∆X(t) osserveremo (limitandoci per brevita al caso a.c.)che la conoscenza della p.d.f. degli incrementi f∆X(x; ∆t, t) equivale alla conoscenzadella p.d.f. di transizione nella regione ritardata: infatti

FX(x, t+∆t |y, t) = P X(t+∆t) ≤ x |X(t) = y= P X(t+∆t)−X(t) ≤ x− y |X(t) = y= P ∆X(t) ≤ x− y = F∆X(x− y; ∆t, t)

e quindi per derivazione

fX(x, t+∆t |y, t) = f∆X(x− y; ∆t, t) ∆t > 0 (7.21)

1Infatti, con 0 ≤ s ≤ t ≤ t+∆t, i r.vec.

X(0) X(s)−X(0) X(t)−X(s) ∆X(t) = X(t+∆t)−X(t)

sono indipendenti per definizione, e quindi lo sono anche ∆X(t) e X(s) = [X(s)−X(0)] +X(0)

192

Page 193: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

7.1 Markov processes

D’altra parte, se il processo e ad incrementi indipendenti esso e Markoviano e dallaProposizione 7.7 sappiamo che – a meno di una condizione iniziale – la sua legge edeterminata dalla p.d.f. di transizione ritardata, cioe dalla p.d.f. degli incrementi

Questo risultato e cruciale per capire la relazione che intercorre fra la teoria dei pro-cessi ad incrementi indipendenti e i teoremi limite studiati nel Capitolo 4. Infatti, seX(t) e un processo ad incrementi indipendenti, per studiare la legge degli incrementi∆X(t) = X(t) − X(s) possiamo suddividere l’intervallo [s, t] in n sotto-intervallimediante i punti

s = t0 < t1 < . . . < tn−1 < tn = t

e osservare che gli n incrementi X(tk) − X(tk−1) con k = 1, . . . , n sono tutti in-dipendenti. Conseguentemente l’incremento ∆X(t) risultera essere somma di n r.v.indipendenti, e data l’arbitrarieta di n e della scelta dei punti si intuisce facilmenteche in generale la legge degli incrementi ∆X(t) coincidera la legge limite di qualchesuccessione di somme di r.v. indipendenti. Risulta fondamentale allora nello stu-dio dei processi ad incrementi indipendenti (cioe di una larga classe di processi diMarkov) essere capaci di caratterizzare tutte le possibili leggi limite di somme dir.v. indipendenti. Noi gia ne conosciamo alcune: la legge normale (Teorema LimiteCentrale), la legge degenere (Legge dei Grandi Numeri) e infine la legge di Poisson(Teorema di Poisson). E pero possibile dimostrare che questi sono solo gli esempi piuimportanti di una classe molto piu vasta di leggi limite che prendono il nome di leggiinfinitamente divisibili , introdotte nel 1929 da B. de Finetti e poi completamenteclassificate e caratterizzate negli anni ’30 con i lavori di P. Levy, A. Khintchin e dialtri. Noi non potremo, per ragioni di spazio, entrare in una discussione dettagliatadi queste distribuzioni che sono alla base dei processi di Levy2 (vedi Sezione 7.1.6)e ci limiteremo solo a ricordarne la definizione

Definition 7.10. Si dice che una legge con ch.f. φ(u) e infinitamente divisibilequando per ogni n = 1, 2, . . . esiste un’altra ch.f. φn(u) tale che φ(u) = [φn(u)]

n.

Come si puo capire facilmente da (4.5) cio vuol dire che una r.v. con legge φ sipuo sempre decomporre nella somma di un numero arbitrario di altre r.v. i.i.d. conlegge φn, e questo ovviamente giustifica il nome dato a queste leggi. Oltre le treleggi limite gia ricordate (Gauss, degenere e Poisson), sono infinitamente divisibilianche le leggi di Cauchy, quelle di Student, le esponenziali e molte altre famigliedi leggi continue e discrete. Viceversa ci sono importanti famiglie di leggi che nonsono infinitamente divisibili: in particolare ricorderemo che nessuna distribuzioneconcentrata su intervalli limitati (come le uniformi o le beta) puo essere infinitamentedivisibile. Ovviamente le leggi che non sono infinitamente divisibili non possonoessere leggi di incrementi di processi di Markov con incrementi indipendenti.

2K.I. Sato, Levy Processes and Infinitely Divisible Distributions, Cambridge UP(Cambridge, 1999)

193

Page 194: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

7.1.4 Stationarity and homogeneity

Sappiamo che in generale la stazionarieta degli incrementi di un s.p. non garantiscene la sua stazionarieta globale (Definizione 5.9), ne la sua stazionarieta in senso lato.Capita infatti (e i processi di Poisson e di Wiener sono casi tipici) che le leggi degliincrementi siano stazionarie, ma che attese e varianze non siano costanti. Peraltroanche le condizioni (5.12) e (5.13) sulle leggi a uno e due tempi (che pure garantisconoalmeno la stazionarieta in senso lato) non sono sufficienti per la stazionarieta globaledel processo. Per i processi di Markov, invece, la situazione e diversa: per brevitanel seguito limiteremo l’esposizione a s.p. a.c. dotati di p.d.f.

Proposition 7.11. Un processo di Markov X(t) risulta stazionario se e solo se

f(x, t) = f(x) (7.22)

f(x, t;y, s) = f(x,y; τ) τ = t− s (7.23)

e inoltre, se X(t) ha anche incrementi indipendenti, con τ > 0 risultera

f(x,y; τ) = f∆X(x− y; τ)f(y) (7.24)

Proof: La condizione di stazionarieta

f(x1, t1; . . . ;xn, tn) = f(x1, t1 + τ ; . . . ;xn, tn + τ) (7.25)

per ogni t1, . . . , tn e τ deriva da (7.22) e (7.23) quando le p.d.f. congiunte del processosono calcolate con la regola della moltiplicazione a catena della Proposizione 7.4.Il viceversa e banale. Siccome X(t) e stazionario i suoi incrementi ∆X(t) sonostazionari (vedi discussione nella Sezione 5.5): se essi sono anche indipendenti,da (7.21), (7.22) e (7.23) si ha

f(x,y; τ) = f(x, t+ τ |y, t)f(y, t) = f∆X(x− y; τ)f(y)

cioe la (7.24)

Naturalmente le p.d.f. di transizione (ritardate) di un processo di Markov stazionarioX(t) dipenderanno solo da τ = t− s > 0, per cui useremo la notazione

f(x, t |y, s) = f(x, τ |y) τ = t− s > 0 (7.26)

Se poi gli incrementi sono anche indipendenti, le p.d.f. di transizione saranno deter-minate dalle leggi (stazionarie) degli incrementi

f(x, t |y, s) = f(x, τ |y) = f∆X(x− y, τ) τ = t− s > 0 (7.27)

Corrispondentemente le equazioni di Chapman-Kolmogorov per processi di Markovstazionari si riscriveranno nella forma ridotta (indicando con s > 0, t > 0 le ampiezze)

f(x) =

∫f(x, t |y)f(y) dy (7.28)

f(x, t+ s |y) =

∫f(x, t | z)f(z, s |y) dz (7.29)

194

Page 195: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

7.1 Markov processes

e se gli incrementi sono anche indipendenti

f(x) =

∫f∆X(x− y, t)f(y) dy (7.30)

f∆X(x− y, t+ s) =

∫f∆X(x− z, t)f∆X(z − y, s) dz (7.31)

Si noti che le due prime equazioni (7.28) e (7.30) esprimono il fatto che f(x) e unap.d.f. invariante che resta fissata dalla condizione iniziale; le altre due equazioniinvece sono le condizioni di Markovianita rispettivamente per f(x, t |y) e f∆X(x, t):quando la (7.31) e soddisfatta parleremo anche di incrementi Markoviani

Corollary 7.12. La condizione di Markovianita per incrementi indipendenti e stazionari (7.31)con ampiezze s > 0, t > 0 si puo porre sotto forma di convoluzione

f∆X(x, t+ s) = [f∆X(t) ∗ f∆X(s)](x)

o di semplice prodotto delle corrispondenti ch.f.

φ∆X(u, t+ s) = φ∆X(u, t)φ∆X(u, s)

e coincide con la richiesta che ogni incremento su un intervallo di ampiezza s + tsia somma di due incrementi indipendenti su intervalli di ampiezza s e t

Proof: Per mostrare che la (7.31) assume la forma di una convoluzione basta es-eguire il cambiamento di variabili x − y → x, e z − y → z con determinanteJacobiano uguale a 1, ottenendo

f∆X(x, t+ s) =

∫f∆X(x− z, t)f∆X(z, s) dz

La forma per le ch.f. segue poi banalmente dal teorema di convoluzione.

Definition 7.13. Diremo che un processo di Markov e omogeneo (nel tempo)quando la sua p.d.f. di transizione (7.26) dipende solo dalla differenza τ = t− s; intal caso la seconda equazione di Chapman-Kolmogorov assume la forma (7.29).

Corollary 7.14. Ogni processo con incrementi indipendenti e stazionari e un pro-cesso di Markov omogeneo e – se esiste una distribuzione invariante che sia presacome distribuzione iniziale – esso e anche stazionario.

Proof: Si vede subito da (7.21) che se gli incrementi sono indipendenti e stazionarila p.d.f. di transizione soddisfa anche la (7.26) e quindi il processo e Markoviano eomogeneo. Se poi anche la distribuzione a un tempo e invariante, cioe soddisfa (7.22),e facile vedere che vale anche (7.23) e quindi il processo e stazionario in base allaProposizione 7.11. Si noti pero che in generale non e affatto detto che la legge aun tempo sia invariante, per cui un processo di Markov omogeneo puo benissimo

195

Page 196: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

non essere stazionario (neanche in senso lato). Questo puo accadere o perche ladistribuzione invariante non esiste affatto (come nei casi dei s.p. di Wiener e Poisson),o perche comunque l’eventuale p.d.f. invariante non e stata presa come distribuzioneiniziale lungo l’evoluzione descritta dall’equazione di Chapman-Kolmogorov (7.30).In questi casi quindi il processo non e stazionario (neanche in senso lato) secondo laDefinizione 5.9, ma solo omogeneo secondo la Definizione 7.13

7.1.5 Ergodicity

Supponiamo di voler costruire (la legge di) un processo di Markov stazionario par-tendo dalla assegnazione (almeno nella regione ritardata t > 0) di una p.d.f. ditransizione omogenea f(x, t |y) del tipo (7.26). Dovremo innanzitutto verificareche sia soddisfatta la condizione di Markovianita di Chapman-Kolmogorov nellaforma (7.29): se questo accade, per la Proposizione 7.7 saremo in grado di costruireun’intera famiglia di processi scegliendo arbitrariamente la p.d.f. iniziale f0(x). Iprocessi di Markov cosı ottenuti saranno sicuramente omogenei per definizione, ma– riproducendo la discussione del Corollario 7.14 – essi potrebbero essere tutti nonstazionari. La p.d.f. iniziale f0(x) iniziale, infatti, puo non essere invariante; anziuna p.d.f. invariante potrebbe anche non esistere affatto per la legge f(x, t |y) as-segnata. Se questo avviene (o perche la legge invariante non esiste, o perche se ne escelta un’altra come legge iniziale) il processo sara omogeneo, ma non stazionario esi avra l’evoluzione

f(x, t) =

∫f(x, t|y)f0(y) dy (7.32)

Se invece f0(x) e proprio la legge stazionaria f(x), allora l’equazione (7.32) si riducealla (7.28) con f(x) = f0(x) e il processo e anche globalmente stazionario. Acquistaquindi particolare interesse studiare le procedure tramite le quali le quali si possadeterminare – se esiste – una distribuzione invariante per una assegnata p.d.f. ditransizione omogenea

Riprendendo allora la discussione sulla ergodicita svolta nella Sezione 5.5, con-sideriamo un processo di Markov a.c. e stazionario X(t) con p.d.f. invariante f(x)e poniamoci il problema di stimarne la distribuzione

P X(t) ∈ B = E [χB (X(t))] =

∫B

f(x) dx B ∈ B(RM

)(7.33)

(ovviamente χB(x) e l’indicatore dell’insieme B) tramite una media temporale suun lungo intervallo [−T, T ]. Per fare questo si definisce innanzitutto il processoY (t) = χB (X(t)), per il quale da (7.33) si ha

E [Y (t)] =

∫B

f(x) dx (7.34)

e poi la r.v.

Y T =1

2T

∫ T

−T

Y (t) dt =1

2T

∫ T

−T

χB (X(t)) dt

196

Page 197: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

7.1 Markov processes

che rappresenta la frazione di [−T, T ] durante la quale X(t) si trova in B (cioe unamisura della frequenza relativa dei ritrovamenti del processo in B)

Theorem 7.15. Sia data la famiglia di processi di Markov a.c. e omogenei associatia una p.d.f. di transizione Markoviana e omogenea f(x, t|y): se esiste una p.d.f.asintotica f(x), cioe tale che

limt→+∞

f(x, t |y) = f(x) ∀ y ∈ RM (7.35)

allora f(x) e anche una p.d.f. invariante, e per ogni altro processo omogeneo manon stazionario, con p.d.f. iniziale f0(x) non invariante, risultera

limt→+∞

f(x, t) = f(x) (7.36)

Inoltre, se X(t) e il processo stazionario con p.d.f. invariante f(x), e se la conver-genza (7.35) e abbastanza rapida da garantire anche che∫ +∞

0

|CY (τ)| dτ < +∞ (7.37)

dove CY (τ) e l’autocovarianza di Y (t), allora risultera

limT→∞

-mq Y T =

∫B

f(x) dx (7.38)

e diremo che il processo X(t) e ergodico per la distribuzione

Proof: Supponendo di poter scambiare limiti e integrali, da (7.35) e dall’equazionedi Chapman-Kolmogorov (7.29) avremo innanzitutto∫

f(x, t |y)f(y) dy =

∫f(x, t |y) lim

s→+∞f(y, s |z) dy

= lims→+∞

∫f(x, t |y)f(y, s |z) dy = lim

s→+∞f(x, t+ s |z) = f(x)

per cui la p.d.f. limite e anche una p.d.f. invariante. Inoltre, comunque sceltauna condizione iniziale f0(x) non invariante, dall’equazione di Chapman-Kolmo-gorov (7.32) e da (7.35) si ha anche

limt→+∞

f(x, t) = limt→+∞

∫f(x, t|y)f0(y) dy = f(x)

∫f0(y) dy = f(x)

Infine, nella nostra notazione, la convergenza in m.s. (7.38) equivale a richiedere cheil processo Y (t) = χB (X(t)) sia ergodico per l’attesa nel senso del Teorema 5.11, e

197

Page 198: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

questo, in base al Corollario 5.12, e garantito se risulta verificata la condizione (7.37).D’altra parte, dalla stazionarieta di X(t), per l’autocovarianza di Y (t) si ha

CY (τ) = E [Y (t+ τ)Y (t)]−E [Y (t+ τ)]E [Y (t)]

= E [Y (t+ τ)Y (t)]−E [Y (t)]2

=

∫ ∫χB(x)χB(y)f(x, t+ τ ;y, t) dxdy −

(∫B

f(x) dx

)2

=

∫B

∫B

f(x, τ |y)f(y) dxdy −∫B

∫B

f(x)f(y) dxdy

=

∫B

∫B

[f(x, τ |y)− f(x)

]f(y) dxdy

per cui la condizione (7.35) garantisce innanzitutto che CY (τ) sia infinitesima perτ → +∞. Se poi la convergenza di (7.35) e anche abbastanza rapida, potremoritenere che la condizione (7.37) sia soddisfatta e quindi, a norma del Corollario 5.12,che Y (t) sia ergodico per l’attesa, e X(t) ergodico per la distribuzione

In conclusione, per un processo di Markov omogeneo ed ergodico che ammetta unap.d.f. limite nel senso della (7.35), tutte le p.d.f. iniziali f0(x) seguono nel tempodelle evoluzioni f(x, t) che tendono verso la medesima p.d.f. stazionaria f(x). Inpratica il processo perde progressivamente memoria della legge di partenza e tendeverso una legge limite che coincide anche con la p.d.f. stazionaria f(x). Processicon questa proprieta, dunque, pur non essendo stazionari propriamente parlando,tendono asintoticamente verso un processo stazionario

Si noti infine che in condizioni particolari (ad esempio quando lo spazio disponi-bile risulta suddiviso in regioni segregate e non comunicanti) potrebbero esisterepiu di una p.d.f. invariante o asintotica. In questo caso si deve esercitare una certacura per individuare le p.d.f. stazionarie di interesse e le loro relazioni con le p.d.f.asintotiche: noi pero trascureremo di elaborare ulteriormente su questo punto

7.1.6 Levy processes

Definition 7.16. Diremo che un s.p. X(t) e un processo di Levy se

1. X(0) = 0 P -a.s.

2. ha incrementi indipendenti e stazionari

3. e stocasticamente continuo nel senso della Definizione 5.5, cioe (tenendo contoanche di 1. e 2.) se per ogni ϵ > 0

limt→0+

P |X(t)| > ϵ = 0 (7.39)

198

Page 199: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

7.1 Markov processes

Da quanto detto nelle sezioni precedenti si ricava dunque facilmente che ogni pro-cesso di Levy e un processo di Markov omogeneo, e che le leggi dei suoi incrementidevono essere infinitamente divisibili. Pertanto la legge globale di un processo diLevy sara completamente determinata dalla legge stazionaria dei suoi incrementiper cui assume notevole importanza pratica il seguente risultato

Proposition 7.17. Se X(t) e un processo di Levy, allora esiste una ch.f. infinita-mente divisibile φ(u) e una scala di tempi T > 0 tali che la ch.f. φ∆X(u, t) degliincrementi di ampiezza t sia

φ∆X(u, t) = [φ(u)]t/T t ≥ 0 (7.40)

Viceversa, comunque data una ch.f. infinitamente divisibile φ(u) e una scala ditempi T > 0, la (7.40) rappresentera la ch.f. degli incrementi di un processo di Levy

Proof: Senza entrare nei dettagli di una discussione che eccederebbe i limiti diqueste lezioni3, osserveremo solo in merito al viceversa che l’infinita divisibilita dellach.f. assegnata garantisce che la (7.40) continui a restare una ch.f. infinitamentedivisibile comunque scelto t ≥ 0, e che la forma (7.40) della ch.f. degli incrementi e lamaniera piu semplice per assicurare anche il rispetto delle condizioni di Markovianitadi Chapman-Kolmogorov del Corollario 7.12.

In pratica la costruzione di un generico processo di Levy parte dalla scelta di unauna legge infinitamente divisibile con ch.f. φ(u), e definisce poi la legge del processoassegnando la distribuzione degli incrementi indipendenti e stazionari mediante laloro ch.f. (7.40). La forma esplicita della p.d.f. dell’incremento sara poi ottenuta –ove possibile – invertendo la ch.f..

Exemple 7.18. Abbiamo gia incontrato due esempi di processi di Levy: il pro-cesso di Poisson standard N(t) e un processo stocasticamente continuo, e la ch.f.dei suoi incrementi indipendenti (6.10) si ricava da (7.40) partendo da una leggeinfinitamente divisibile P(α) con ch.f. φ(u) = eα(e

iu−1) e ponendo λ = α/T . Allostesso modo il processo di Wiener standard W (t) e un processo stocasticamente con-tinuo, e la ch.f. dei suoi incrementi indipendenti (6.45) si ricava da (7.40) partendoda una legge infinitamente divisibile N (0, a2) con ch.f. φ(u) = e−a2u2/2 e ponendoD = a2/T . Un terzo esempio, il processo di Cauchy standard, sara introdotto con laDefinizione 7.25, e la ch.f. dei suoi incrementi indipendenti (7.50) si ricava da (7.40)partendo da una legge infinitamente divisibile C(α) con ch.f. φ(u) = e−α|u| e ponendoa = α/T .

3K.I. Sato, Levy Processes and Infinitely Divisible Distributions, Cambridge UP(Cambridge, 1999). D. Applebaum, Levy Processes and Stochastic Calculus, CambridgeUP (Cambridge, 2009)

199

Page 200: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

7.1.7 Continuity and jumps

I diversi tipi di continuita di un s.p. sono gia stati introdotti nella Definizione 5.5, e lecondizioni per la continuita in m.s. (e quindi anche per la continuita stocastica) sonostate discusse nella Proposizione 5.6. Ora vogliamo invece discutere della continuitaglobale di un processo di Markov X(t), intendendo con questo che tutte le suetraiettorie sono continue per ogni t, fatta eccezione al piu per un sottoinsieme ditraiettorie di misura nulla.

Theorem 7.19. Un processo di Markov X(t) e continuo (globalmente) se e solo sesono soddisfatte le condizioni di Lindeberg

supy,t

P |∆X(t)| > ϵ |X(t) = y = o (∆t) ∀ϵ > 0 ∆t → 0 (7.41)

Se il processo ha anche incrementi indipendenti e stazionari tali condizioni si riduconoa

P |∆X(t)| > ϵ = o (∆t) ∀ϵ > 0 ∆t → 0 (7.42)

Proof: Omessa4

In base a questo risultato la continuita del processo di Markov e garantita se (uni-formemente rispetto alle condizioni y e t) la probabilita che in ∆t l’incrementosuperi un’arbitraria soglia ϵ > 0 e un infinitesimo di ordine superiore a ∆t. Si vedein questo modo che la condizione di Lindeberg e una richiesta del tutto ragionevolesulla rapidita con la quale si deve annullare |∆X(t)| quando ∆t → 0. Si noti infineche se il processo e a.c. la condizione (7.41) si scrive anche

lim∆t→0

1

∆tsupy,t

∫|x−y|>ϵ

f(x, t+∆t |y, t) dx = 0 ∀ϵ > 0 (7.43)

ovvero

lim∆t→0

1

∆t

∫|x−y|>ϵ

f(x, t+∆t |y, t) dx = 0 ∀ ϵ > 0 (7.44)

uniformemente in y e t. Se poi il processo ha anche incrementi indipendenti estazionari, con la sostituzione x− y → x le condizioni di Lindeberg si riducono a

lim∆t→0

1

∆t

∫|x|>ϵ

f∆X(x,∆t) dx = 0 ∀ ϵ > 0 (7.45)

Va osservato che c’e una sorta di competitivita fra la Markovianita e la continuitadi un processo in base alla scala dei tempi sui quali si eseguono le osservazioni.Potremmo dire che piu sono brevi i tempi di osservazione, piu un processo risultacontinuo, ma contemporaneamente perde in Markovianita. In un certo senso questo

4W. Feller, An Introduction to Probability Theory and its Applications - II, Wiley(New York, 1971). C.W. Gardiner, Handbook of Stochastic Methods, Springer (Berlin,1997)

200

Page 201: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

7.1 Markov processes

dipende dal fatto che una descrizione continua richiede maggiori informazioni sulpassato della traiettoria e quindi entra in conflitto con la Markovianita. Ad esempiola descrizione del moto di una molecola in un gas con un modello di sfere dure e urtiistantanei produce traiettorie rettilinee a tratti con improvvisi cambiamenti nellavelocita: in questo caso il processo della velocita e discontinuo, mentre quello dellaposizione e continuo e Markoviano (la posizione dopo ogni urto dipende dal puntodi partenza, ma non da come ci si e arrivati). Se pero si passa a scale di tempi piubrevi e si introducono dettagli piu accurati nella descrizione del fenomeno (elasticitae deformazioni dei corpi) anche la velocita puo diventare un processo continuo, mala posizione perde la Markovianita perche una parte della storia del sistema sararichiesta per prevedere, anche solo probabilisticamente, il futuro.

Naturalmente, processi che non sono continui in senso globale possono comunqueesserlo stocasticamente, ma in questo caso bisognera tenere in conto la possibilita chele traiettorie presentino delle discontinuita (salti): si tratta, come vedremo, di unaeventualita tutt’altro che rara, ad esempio, fra i processi di Levy. Tipicamente i saltidei nostri processi Markoviani capiteranno in istanti aleatori e saranno di ampiezzaaltrettanto aleatoria; in generale, pero, si trattera di discontinuita di prima specienel senso che le traiettorie saranno comunque di tipo cadlag, cioe continue da destracon limite finito da sinistra in ogni istante. L’analisi delle discontinuita e delle lorodistribuzioni costituisce una parte rilevante dello studio dei processi di Levy che noi,pero, non potremo sviluppare.

7.1.8 Poisson, Wiener and Cauchy processes

In questa e nella prossima sezione esamineremo le leggi di univariate di alcuni frai processi di Markov piu conosciuti ricavadole da leggi di transizione Markoviane,e le utilizzeremo per studiare le proprieta del processo. In alcuni casi (processi diPoisson e Wiener) si trattera di processi gia introdotti euristicamente costruendodirettamente le loro traiettorie e ricavando da queste le informazioni essenziali sulleloro distribuzioni. Negli altri casi il processo sara introdotto per la prima voltaproprio partendo dalla legge di transizione che consentira di ricavare tutte le altreproprieta del processo

Poisson processes

Definition 7.20. Diremo che N(t) e un processo di Poisson di intensita λ seesso e un s.p. di Markov, stocasticamente continuo, a valori interi con incrementiindipendenti, e con probabilita di transizione Markoviana e omogenea (nella regioneritardata ∆t > 0)

pN(n, t+∆t|m, t) = e−λ∆t (λ∆t)n−m

(n−m)!n = 0, 1, 2, . . . ; 0 ≤ m ≤ n (7.46)

che si ricava dalla distribuzione (6.9) degli incrementi di ampiezza ∆t > 0. Ilprocesso di Poisson standard con N(0) = 0, P -a.s. e un processo di Levy

201

Page 202: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

Ricordiamo inoltre da (6.10) che la ch.f. degli incrementi e

φ∆N(u, t) = eλt(eiu−1) (7.47)

Pertanto, siccome abbiamo anche mostrato nella Proposizione 6.7 che il processo diPoisson e continuo in m.s., e quindi anche stocasticamente, il processo di Poissonstandard e un processo di Levy costruito a partire dalla ch.f. infinitamente divisibile

φ(u) = eλT (eiu−1)

dove T > 0 e una scala di tempi. Data pero la natura delle sue traiettorie discussanella Sezione 6.1.2 e intuitivo che N(t) non sara continuo in senso globale, comeconfermato dal seguente risultato ottenuto sulla base delle condizioni di Lindeberg

Proposition 7.21. Un processo di Poisson N(t) non soddisfa le condizioni di Lin-deberg (7.42) e pertanto non e globalmente continuo

Proof: Si ha infatti che per 0 < ϵ < 1, e per t → 0

P |∆N | > ϵ = 1− P |∆N | ≤ ϵ = 1− P |∆N | = 0 = 1− e−λt

= 1−(1− λt+ . . .+ (−1)n

λntn

n!+ . . .

)= λt+ o(t)

e del primo ordine in t, e quindi la condizione di Lindeberg non e soddisfatta

Il processo N(t) e omogeneo, ma non stazionario, e le sue probabilita di transizionenon convergono verso nessuna distribuzione di probabilita per t → +∞: pertanto ledistribuzioni di transizione non ammettono leggi invarianti, e N(t) non e ergodico

Wiener processes

Definition 7.22. Diremo che W (t) e un processo di Wiener con coefficiente didiffusione D se esso e un s.p. di Markov, stocasticamente continuo, con incrementiindipendenti, e con p.d.f. di transizione Markoviana e omogenea

fW (x, t+∆t|y, t) = e−(x−y)2/2D∆t

√2πD∆t

∆t > 0 (7.48)

che si ricava dalla distribuzione (6.44) degli incrementi di ampiezza ∆t > 0. Ilprocesso di Wiener standard con W (0) = 0, P -a.s. e un processo di Levy

Ricordiamo inoltre da (6.45) la ch.f. degli incrementi risulta

φ∆W (u, t) = e−Dtu2/2 (7.49)

Pertanto, siccome abbiamo mostrato nella Proposizione 6.7 che il processo di Wienere continuo in m.s., e quindi anche stocasticamente, il processo di Wiener standarde un processo di Levy costruito a partire dalla ch.f. infinitamente divisibile

φ(u) = e−DT u2/2

202

Page 203: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

7.1 Markov processes

dove T > 0 e una scala di tempi. A differenza dal processo di Poisson, pero, W (t)risulta anche continuo in senso globale, come mostra il seguente risultato

Proposition 7.23. Un processo di Wiener W (t) soddisfa sempre le condizioni diLindeberg (7.42) e quindi e globalmente continuo

Proof: Si ha infatti da (7.48) che per t → 0+

P |∆W | > ϵ =

∫|x|>ϵ

f∆W (x, t) dx = 2

[1− Φ

(ϵ√Dt

)]−→ 0

dove abbiamo posto

Φ(x) =1√2π

∫ x

−∞e−y2/2dy Φ′(x) =

e−x2/2

√2π

Con α = ϵ/√Dt, avremo allora dal Teorema di l’Hopital

limt→0

1

t

[1− Φ

(ϵ√Dt

)]= lim

t→0

ϵ

2t

e−ϵ2/2Dt

√2πDt

= limα→+∞

Dα3

ϵ2e−α2/2

√2π

= 0

Pertanto la condizione di Lindeberg e rispettata e W (t) e continuo

Infine, come gia sappiamo, W (t) e omogeneo ma non stazionario e le sue p.d.f. ditransizione non convergono verso nessuna altra p.d.f. per t → +∞ (con l’eccezionedella densita di Lebesgue uniforme su tutto R che pero, come e noto, non e unavera p.d.f.): pertanto le p.d.f. di transizione non ammettono leggi invarianti e W (t)non e ergodico

Cauchy processes

Proposition 7.24. Gli incrementi stazionari ∆X(t) ∼ C(a∆t) per a > 0,∆t > 0,con una ch.f.

φ∆X(u,∆t) = e−a∆t|u| (7.50)

e una p.d.f.

f∆X(x,∆t) =1

π

a∆t

x2 + a2∆t2(7.51)

sono Markoviani e permettono quindi di definire una famiglia di processi di Markovad incrementi indipendenti

Proof: Infatti le ch.f. (7.50) soddisfano banalmente la condizione richiesta dalCorollario 7.12 dato che per incrementi s > 0 e t > 0 si ha

φ∆X(u, t+ s) = e−a(t+s)|u| = e−at|u|e−as|u| = φ∆X(u, t)φ∆X(u, s)

Pertanto, in base alla Proposizione 7.7 potremo coerentemente costruire (le leggi di)una intera famiglia di processi X(t) con incrementi indipendenti e stazionari conlegge (7.51)

203

Page 204: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

Definition 7.25. Diremo che X(t) e un processo di Cauchy se e un s.p. diMarkov con incrementi indipendenti, e con p.d.f. di transizione Markoviana

fX(x, t+∆t | y, t) = 1

π

a∆t

(x− y)2 + (a∆t)2∆t > 0 (7.52)

che si ricava dalla distribuzione (7.51) degli incrementi di ampiezza ∆t > 0. Lochiameremo inoltre processo di Cauchy standard se X(0) = 0, P -a.s.

Date le proprieta delle leggi di Cauchy bisogna osservare che per il processo X(t)non sara possibile parlare di attese, varianze, autocorrelazioni, o di altri momentidi ordine maggiore o uguale a 1. Le uniche quantita che potremo sempre calcolaresono le probabilita, e conseguentemente mediane e quantili, ma dovremo fare a menodegli altri concetti piu usuali

Proposition 7.26. Un processo di Cauchy X(t) e sempre stocasticamente continuoma non e continuo in senso globale: pertanto il processo di Cauchy standard e unprocesso di Levy

Proof: Infatti per ϵ > 0 e ∆t → 0 da (7.51) si ha

P |∆X| > ϵ =

∫|x|>ϵ

f∆X(x,∆t) dx = 1− 2

πarctan

ϵ

a∆t−→ 0

per cui dal Teorema di l’Hopital risulta

lim∆t→0

1

∆t

(1− 2

πarctan

ϵ

a∆t

)=

aπlim∆t→0

a2

ϵ2 + a2∆t2=

2a

ϵπ> 0

Pertanto la condizione di Lindeberg non e rispettata e il processo di Cauchy none globalmente continuo. Ciononostante X(t) risulta stocasticamente continuo, equindi il processo standard e un processo di Levy: ricordando infatti che la p.d.f. ela ch.f. di un processo di Cauchy standard sono

fX(x, t) =1

π

at

x2 + a2t2φX(u, t) = e−at|u| (7.53)

da (7.53) si ha

P |X(t)| > ϵ =

∫|x|>ϵ

fX(x, t) dx = 1− 2

πarctan

ϵ

at−→ 0

e quindi la condizione (7.39) e soddisfatta

Si noti che – diversamente da quanto accade per il processo di Poisson – il processodi Cauchy e un processo a salti pur prendendo valori continui in R. Naturalmentesi potrebbe dimostrare che i salti del processo di Cauchy hanno ampiezze comunquepiccole che si addensano attorno a valori infinitesimi, ma questo non contrasta conl’esistenza delle discontinuita. Anche il processo di Cauchy infine e omogeneo, manon e ne stazionario ne ergodico perche le sue p.d.f. di transizione non convergonoverso nessuna p.d.f. limite

204

Page 205: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

7.1 Markov processes

7.1.9 Ornstein-Uhlenbeck processes

Proposition 7.27. La p.d.f. di transizione omogenea (α > 0, β > 0, ∆t > 0)

f(x, t+∆t | y, t) = f(x,∆t | y) = e−(x−ye−α∆t)2/ 2β2(1−e−2α∆t)√2πβ2(1− e−2α∆t)

(7.54)

corrispondente alla legge N (ye−α∆t , β2(1− e−2α∆t)), e Markoviana, ergodica e am-mette come p.d.f. invariante la legge normale N (0, β2) con p.d.f.

f(x) =e−x2/2β2√

2πβ2(7.55)

Proof: Siccome la (7.54) e omogenea nel tempo, per dimostrare la Markovianitadovremo verificare la seconda equazione di Chapman-Kolmogorov nella forma (7.29),e a questo scopo osserveremo che ponendo u = ze−αt, e tenendo conto delle proprietariproduttive (3.70) delle leggi normali, si ottiene∫

f(x, t|z)f(z, s|y) dz =

∫e−(x−ze−αt)2/ 2β2(1−e−2αt)√

2πβ2(1− e−2αt)

e−(z−ye−αs)2/ 2β2(1−e−2αs)√2πβ2(1− e−2αs)

dz

=

∫e−(x−u)2/ 2β2(1−e−2αt)√

2πβ2(1− e−2αt)

e−(u−ye−α(t+s))2/ 2β2e−2αt(1−e−2αs)√2πβ2e−2αt(1− e−2αs)

du

= N (0, β2(1− e−2αt)) ∗N (ye−α(t+s), β2e−2αt(1− e−2αs))

= N (ye−α(t+s), β2(1− e−2α(t+s))) = f(x, t+ s|y)

come richiesto per la Markovianita. L’ergodicita e poi assicurata dal fatto che

N (ye−ατ , β2(1− e−2ατ )) −→ N (0, β2) τ → +∞

con p.d.f. limite data da (7.55), e si verifica che tale legge limite e anche invariante:infatti, adottando ancora una volta il cambiamento di variabile u = ye−αt, si ha∫

f(x, t|y)f(y) dy =

∫e−(x−ye−αt)2/ 2β2(1−e−2αt)√

2πβ2(1− e−2αt)

e−y2/ 2β2√2πβ2

dy

=

∫e−(x−u)2/ 2β2(1−e−2αt)√

2πβ2(1− e−2αt)

e−u2/ 2β2e−2αt√2πβ2e−2αt

du

= N (0, β2(1− e−2αt)) ∗N (0, β2e−2αt) = N (0, β2) = f(x)

dove abbiamo tenuto conto delle proprieta riproduttive (3.70),

Definition 7.28. Diremo che X(t) e un processo di Ornstein-Uhlenbeck seesso e un s.p. di Markov omogeneo ed ergodico con p.d.f. di transizione (7.54);quest’ultima ammette la p.d.f. invariante (7.55) che individua il processo di Orn-stein-Uhlenbeck stazionario. Diremo infine che X(t) e un processo di Orn-stein-Uhlenbeck standard se X(0) = 0, P -a.s.

205

Page 206: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

Proposition 7.29. Un processo di Ornstein-Uhlenbeck X(t) e continuo (global-mente, e quindi anche stocasticamente), ed e anche un processo Gaussiano se X(0)e Gaussiana. In particolare il processo stazionario e Gaussiano e comunque sceltit1, . . . , tn si ha (X(t1), . . . , X(tn)) ∼ N (0,A) con matrice delle covarianze (τjk =tj − tk)

A = β2

1 e−α|τ12| . . . e−α|τ1n|

e−α|τ21| 1 e−α|τ2n|

.... . .

...e−α|τn1| e−α|τn2| . . . 1

(7.56)

e inoltre risulta E [X(t)] = 0, V [X(t)] = β2, e

R(τ) = C(τ) = β2e−α|τ | ρ(τ) = e−α|τ | S(ϖ) =β2

π

α

α2 +ϖ2(7.57)

Infine gli incrementi ∆X = X(t)−X(s) di un processo di Ornstein-Uhlenbeck nonsono indipendenti, e pertanto il processo di Ornstein-Uhlenbeck standard non e unprocesso di Levy

Proof: Rinviando alla Sezione 7.2.4 sulle equazioni di evoluzione una discussionedella continuita del processo, passiamo a verificare la Gaussianita del processostazionario studiandone le distribuzioni congiunte: dalle proprieta di X(t) si hainfatti con τ = t− s > 0

f(x, t; y, s) = f(x, t | y, s)f(y, s) = f(x, τ | y)f(y)

=e−(x−ye−ατ )2/ 2β2(1−e−2ατ )√

2πβ2(1− e−2ατ )

e−y2/2β2√2πβ2

=e−(x2+y2−2xye−ατ )/ 2β2(1−e−2ατ )√

2πβ2√

2πβ2(1− e−2ατ )

sicche da un rapido paragone con la forma generale di una p.d.f. normale bivari-ata (2.24) si ricava che il r.vec. (X(s), X(t)) segue una legge Gaussiana N (0,A)con

A = β2

(1 e−ατ

e−ατ 1

)La generalizzazione al caso di n istanti di tempo si ottiene iterando con un po’ dilavoro la procedura seguita per il caso di 2 istanti. I risultati (7.57) seguono poi dauna semplice applicazione della Gaussianita delle leggi multivariate alle rispettivedefinizioni. Rinviamo invece alla Sezione 8.5.4 la verifica esplicita della Gaussianitadei processi con generiche condizioni iniziali X(0) Gaussiane. Per semplicita, infine,discuteremo la non indipendenza degli incrementi solo per il processo stazionario:innanzitutto, per determinare la legge degli incrementi, osserviamo che con τ = t−s > 0 dalla stazionarieta del processo, tenendo conto di (5.14), con in cambiamentodi variabile z = −y(1 − e−ατ ) e l’uso delle solite proprieta riproduttive delle leggi

206

Page 207: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

7.1 Markov processes

normali, si ha

f∆X(x) =

∫f(x+ y, τ | y)f(y) dy =

∫e−(x+y−ye−ατ )2/ 2β2(1−e−2ατ )√

2πβ2(1− e−2ατ )

e−y2/2β2√2πβ2

dy

=

∫e−(x−z)2/ 2β2(1−e−2ατ )√

2πβ2(1− e−2ατ )

e−z2/2β2(1−e−ατ )2√2πβ2(1− e−ατ )2

dz

= N (0, β2(1− e−2ατ )) ∗N (0, β2(1− e−ατ )2) = N (0, 2β2(1− e−ατ ))

Pertanto la legge degli incrementi e ∆X = X(t) − X(s) ∼ N (0, 2β2(1 − e−ατ )) equindi in particolare si ha costantemente E [∆X] = 0. Per dimostrare allora cheincrementi non sovrapposti di un processo di Ornstein-Uhlenbeck stazionario nonsono indipendenti, useremo questa legge per provare che due incrementi relativi adintervalli disgiunti hanno covarianza non nulla, e quindi sono correlati. Infatti, cons1 < s2 < t1 < t2, dai risultati precedenti si ha

E [(X(t2)−X(t1))(X(s2)−X(s1))] = E [X(t2)X(s2)] +E [X(t1)X(s1)]

−E [X(t2)X(s1)]−E [X(t1)X(s2)]

= β2[e−α(t2−s2) + e−α(t1−s1)

−e−α(t2−s1) − e−α(t1−s2)]

= β2(e−αt2 − e−αt1

)(eαs2 − eαs1)

un’espressione che in generale non si annulla ed esclude quindi l’indipendenza

7.1.10 Non Markovian, Gaussian processes

Esistono processi stocastici non Markoviani (un importante esempio e riportatonell’Appendice J) che ovviamente non godono delle proprieta fin qui esaminate. Inparticolare la semplice conoscenza delle p.d.f. di transizione non permette piu diricostruire la legge globale del processo tramite la regola di moltiplicazione a catena:queste semplificazioni si perdono e in generale la gerarchia di tutte le leggi finito-dimensionali necessarie a definire la loro distribuzione deve essere assegnata con altrimezzi

Exemple 7.30. Leggi di transizione non Markoviane: Supponiamo di consid-erare la p.d.f. condizionata uniforme in [y − α(t− s) , y + α(t− s)]

f(x, t | y, s) = 1

2α(t−s)se |x− y| ≤ α(t− s)

0 se |x− y| > α(t− s)(7.58)

207

Page 208: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

Si puo allora vedere facilmente che usando la notazione∣∣[a, b]∣∣ = |b− a| si ha∫

f(x, t | z, r)f(z, r | y, s) dz

=

∣∣ [x− α(t− r), x+ α(t− r)] ∩ [y − α(r − s), y + α(r − s)]∣∣

4α2(t− r)(r − s)

= f(x, t | y, s)

e quindi l’equazione di Chapman-Kolmogorov (7.17) risulta non soddisfatta pur es-sendo (7.58) una legittima p.d.f. condizionata: essa non potra dunque essere il puntodi partenza per la costruzione delle leggi di un processo di Markov.

Un altro esempio di questo genere e offerto dalla seguente famiglia di p.d.f.condizionate di Student (a > 0, ν > 0)

f(x, t+∆t | y, t) = 1

a∆t B(12, ν2

) ( a2∆t2

(x− y)2 + a2∆t2

) ν+12

(7.59)

dove B e la funzione Beta di Riemann definita dalla relazione

B(x, y) =Γ(x)Γ(y)

Γ(x+ y)(7.60)

tramite la funzione Gamma introdotta in (3.71). Si vede facilmente che le (7.59) nonsono altro che una semplice generalizzazione delle p.d.f. di transizione di Cauchy (7.52)che si ottengono per ν = 1. Anche in questo caso si tratta dunque di p.d.f. asso-lutamente legittime, ma un calcolo non elementare che non riportiamo consentedi verificare che ancora una volta l’equazione di Chapman-Kolmogorov (7.17) non esoddisfatta con l’eccezione di un solo caso: quello di Cauchy ν = 1 che come gia sap-piamo e Markoviano. In realta un processo di Levy (e quindi di Markov) detto pro-cesso di Student esiste, ma le sue p.d.f. di transizione non sono della forma (7.59),e non sono neanche conosciute in forma esplicita con l’eccezione del caso di Cauchy

Sara importante allora notare che c’e un altra famiglia di processi (in generale nonMarkoviani) le cui leggi possono essere comunque assegnate con metodi piuttostoelementari: i processi Gaussiani della Definizione 5.3. La semplificazione princi-pale discende dalle proprieta delle leggi Gaussiane multivariate che risultano sempredefinite a partire dalle matrici di covarianza e dai vettori delle medie. Applicandoqueste idee a un processo Gaussiano X(t) (per semplicita con una sola componente)potremo dire in base alla Definizione 4.17 che la sua legge sara completamentedefinita tramite l’assegnazione delle funzioni (5.1) e (5.3)

m(t) = E [X(t)] C(t, s) = E [X(t)X(s)]−m(t)m(s)

Infatti se sono note una generica m(t) e una C(t, s) definita non negativa, comunqueassegnati t1, . . . , tn il r.vec. (X(t1), . . . , X(tn)) avra legge N (b,A) dove

bj = m(tj) ajk = C(tj, tk)

208

Page 209: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

7.2 Evolution equations

e conseguentemente la ch.f. di un’arbitraria distribuzione finito-dimensionale delnostro processo X(t) avra la forma

φ(u1, t1; . . . ;un, tn) = e i∑

j m(tj)uj− 12

∑jk C(tj ,tk)ujuk

La legge di un processo Gaussiano X(t) e quindi completamente conosciuta unavolta che siano assegnate m(t) e C(t, s) (definita non negativa). Noi abbiamo giaincontrato alcuni casi di processi Gaussiani che sono contemporaneamente ancheprocessi di Markov: ad esempio il processo di Wiener standard W (t), per il qualedalle Proposizioni 6.17 e 6.18 sappiamo che

mW (t) = 0 CW (t, s) = Dmins, t

o il processo di Ornstein-Uhlenbeck stazionarioX(t) per il quale dalla Proposizione 7.29abbiamo

mX(t) = 0 CX(t, s) = β2e−α|t−s|

ma i casi rilevanti non si limitano a questi due e vari altri tipi di processi possonoessere introdotti in questo modo. Un importante esempio di processo Gaussiano, manon Markoviano, il moto Browniano frazionario, e presentato nell’Appendice J

7.2 Evolution equations

L’equazione di Chapman-Kolmogorov (7.17) e una importante condizione di com-patibilita per p.d.f. di transizione Markoviane, ma – trattandosi di un’equazioneintegrale e non lineare – e difficile usarla come vera e propria equazione per deter-minare le leggi di un processo. Sara importante allora mostrare che, per una vastaclasse di processi di Markov, essa assume una forma piu maneggevole. Bisogna no-tare subito, inoltre, che le equazioni che troveremo in questo modo non sono altro chele generalizzazioni delle equazioni di diffusione trovate da Einstein nel 1905, e quindisi pongono all’interno del primo dei due filoni di ricerca che abbiamo menzionatonella Sezione 6.4: si tratta cioe di equazioni per le leggi e non per le traiettorie delprocesso. I processi di Markov X(t) = (X1(t), . . . , XM(t)) ai quali faremo riferi-mento in questa sezione sono dotati di p.d.f. di transizione f(x, t |y, s) nella regioneritardata t > s, e soddisfano le seguenti condizioni5:

1. esiste ℓ(x|z, t) ≥ 0 tale che, per ogni ϵ > 0, e uniformemente in x, z, t, risulta

lim∆t↓0

1

∆tf(x, t+∆t |z, t) = ℓ(x|z, t) con |x− z| > ϵ (7.61)

ℓ(x|z, t) si chiamera anche densita di Levy

5W. Feller, An Introduction to Probability Theory and its Applications - II, Wiley(New York, 1971). C.W. Gardiner, Handbook of Stochastic Methods, Springer (Berlin,1997)

209

Page 210: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

2. esiste A(z, t) tale che, per ogni ϵ > 0, e uniformemente in z, t, risulta

lim∆t↓0

1

∆t

∫|x−z|<ϵ

(xi − zi)f(x, t+∆t |z, t) dx = Ai(z, t) +O(ϵ) (7.62)

Ovviamente questo vuol dire che, con χB(x) indicatore di B,

Ai(z, t) = limϵ→0+

lim∆t↓0

E

[∆Xi(t)

∆tχ[0,ϵ)(|∆X(t)|)

∣∣∣∣ X(t) = z

](7.63)

il vettore A(z, t) si chiamera anche vettore di trascinamento o di deriva

3. esiste B(z, t) tale che, per ogni ϵ > 0, e uniformemente in z, t, risulta

lim∆t↓0

1

∆t

∫|x−z|<ϵ

(xi− zi)(xj − zj)f(x, t+∆t |z, t) dx = Bij(z, t)+O(ϵ) (7.64)

Ovviamente questo vuol dire che

Bij(z, t) = limϵ→0+

lim∆t↓0

E

[∆Xi(t)∆Xj(t)

∆tχ[0,ϵ)(|∆X(t)|)

∣∣∣∣ X(t) = z

](7.65)

la matrice B(z, t) si chiamera anche matrice di diffusione

Si potrebbe dimostrare che, nelle condizioni date, potenze di ordine superiore alsecondo in formule del tipo (7.62) e (7.64) condurrebbero a valori nulli: esse nonvengono quindi prese in considerazione per questo motivo. Si noti inoltre che seℓ(x|z, t) = 0 per x = z la condizione di Lindeberg (7.44) e soddisfatta e il processosara continuo. Una ℓ(x|z, t) non nulla e legata quindi alla presenza di discontinuitanelle traiettorie, cioe alla presenza di termini di salto nelle equazioni

7.2.1 Forward equations

Theorem 7.31. Se X(t) e un processo di Markov a.c. con X(0) = X0, P -a.s., e seesso soddisfa le ipotesi 1, 2 e 3, le sue p.d.f. f(x, t) saranno soluzioni dell’equazione

∂tf(x, t) = −∑i

∂i[Ai(x, t)f(x, t)] +1

2

∑i,j

∂i∂j[Bij(x, t)f(x, t)]

+

∫z =x

[ℓ(x|z, t) f(z, t)− ℓ(z|x, t) f(x, t)] dz (7.66)

con condizione inizialef(x, 0+) = f0(x) (7.67)

dove f0(x) e la p.d.f. di X0. In particolare le p.d.f. di transizione f(x, t |y, s) nellaregione ritardata t > s saranno le soluzioni di (7.66) corrispondenti alle condizioni

f(x, s+) = δ(x− y) (7.68)

L’equazione (7.66) prende anche il nome di equazione in avanti

210

Page 211: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

7.2 Evolution equations

Proof: Tenendo conto del fatto che l’uniformita delle convergenze richiesta nellenostre ipotesi ci permettera di eseguire i limiti necessari anche sotto segno di in-tegrale, cominceremo con il dimostrare che una p.d.f. di transizione Markovianaf(x, t |y, s) nella regione ritardata t ≥ s e soluzione di (7.66). Presa a questo scopouna funzione h(x) derivabile almeno due volte (per poter usare la formula di Taylorfino al secondo ordine), ricordando che le derivate – se esistono – coincidono con lederivate destre, avremo

∂tE [h (X(t)) |X(s) = y] = ∂t

∫h(x)f(x, t |y, s) dx =

∫h(x) ∂tf(x, t |y, s) dx

= lim∆t↓0

∫h(x)

f(x, t+∆t |y, s)− f(x, t |y, s)∆t

dx

Ma, con ∆t > 0 e ridenominando alcune variabili, dall’equazione di Chapman-Kol-mogorov (7.17) e dalle relazioni di normalizzazione potremo scrivere che∫

h(x)f(x, t+∆t |y, s) dx =

∫∫h(x)f(x, t+∆t | z, t)f(z, t|y, s) dxdz∫

h(x)f(x, t |y, s) dx =

∫h(z)f(z, t |y, s) dz

=

∫∫h(z)f(x, t+∆t | z, t)f(z, t|y, s) dxdz

per cui, dividendo il dominio di integrazione in |x− z| < ϵ e |x− z| ≥ ϵ con ϵ > 0arbitrario, avremo∫

h(x) ∂tf(x, t |y, s) dx

= lim∆t↓0

∫∫[h(x)− h(z)]

f(x, t+∆t |z, t)∆t

f(z, t|y, s) dxdz

= limϵ↓0

lim∆t↓0

[∫∫|x−z|<ϵ

[h(x)− h(z)]f(x, t+∆t |z, t)

∆tf(z, t|y, s) dxdz

+

∫∫|x−z|≥ϵ

[h(x)− h(z)]f(x, t+∆t | z, t)

∆tf(z, t|y, s) dxdz

]Si consideri innanzitutto l’integrazione nel dominio |x− z| < ϵ: con ϵ → 0 si potrausare la formula di Taylor di h(x) attorno al punto z arrestata al secondo ordine

h(x) = h(z) +∑i

(xi − zi)∂ih(z)

+1

2

∑i,j

(xi − zi)(xj − zj)∂i∂jh(z) + |x− z|2R(x,z)

211

Page 212: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

nella quale per il resto dovra intendersi che R(x,z) → 0 quando |x− z| → 0. Si haallora per l’integrale su |x− z| < ϵ∫∫

|x−z|<ϵ

[h(x)− h(z)]f(x, t+∆t |z, t)

∆tf(z, t|y, s) dxdz

=

∫∫|x−z|<ϵ

[∑i

(xi − zi)∂ih(z)

+1

2

∑i,j

(xi − zi)(xj − zj)∂i∂jh(z)

]f(x, t+∆t |z, t)

∆tf(z, t|y, s) dxdz

+

∫∫|x−z|<ϵ

|x− z|2R(x,z)f(x, t+∆t |z, t)

∆tf(z, t|y, s) dxdz

e quindi, al limite per ∆t → 0 e ϵ → 0, da (7.62) e (7.64) e con delle integrazioniper parti otteniamo∫ [∑

i

Ai(z, t)∂ih(z) +∑i,j

1

2Bij(z, t)∂i∂jh(z)

]f(z, t|y, s) dz

=

∫h(z)

−∑i

∂zi[Ai(z, t)f(z, t |y, s)

]+

1

2

∑i,j

∂zi∂zj[Bij(z, t)f(z, t |y, s)

]dz

Nel dominio |x − z| ≥ ϵ invece – con uno scambio dei nomi delle variabili di inte-grazione x e z nel primo dei due addendi – si ha∫∫

|x−z|≥ϵ

[h(x)− h(z)]f(x, t+∆t |z, t)

∆tf(z, t|y, s) dxdz

=

∫∫|x−z|≥ϵ

h(z)

[f(z, t+∆t |x, t)

∆tf(x, t|y, s)

−f(x, t+∆t | z, t)∆t

f(z, t|y, s)]dxdz

e passando poi al limite per ∆t → 0 da (7.61) si ottiene prima∫∫|x−z|≥ϵ

h(z)[ℓ(z|x, t) f(x, t|y, s)− ℓ(x|z, t) f(z, t|y, s)

]dxdz

e successivamente per ϵ → 0∫h(z)

∫x =z

[ℓ(z|x, t) f(x, t|y, s)− ℓ(x|z, t) f(z, t|y, s)

]dx

dz

dove abbiamo introdotto la notazione abbreviata∫x=z

. . . dx = limϵ→0

∫|x−z|≥ϵ

. . . dx

212

Page 213: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

7.2 Evolution equations

Raccogliendo allora tutti i termini avremo∫h(z) ∂tf(z, t |y, s) dz

=

∫h(z)

−∑i

∂zi [Ai(z, t)f(z, t |y, s)] +1

2

∑i,j

∂zi∂zj [Bij(z, t)f(z, t |y, s)]

+

∫x=z

[ℓ(z|x, t) f(x, t|y, s)− ℓ(x|z, t) f(z, t|y, s)

]dx

dz

e data l’arbitrarieta di h(x) potremo in definitiva scrivere (scambiando per comoditala z con la x)

∂tf(x, t |y, s) = −∑i

∂xi[Ai(x, t)f(x, t |y, s)] +

1

2

∑i,j

∂xi∂xj

[Bij(x, t)f(x, t |y, s)]

+

∫z =x

[ℓ(x|z, t) f(z, t|y, s)− ℓ(z|x, t) f(x, t|y, s)] dz (7.69)

Questo mostra che le p.d.f. di transizione soddisfano l’equazione integro-differenzialein avanti (7.66). Per ottenere poi l’equazione per le p.d.f. f(x, t) bastera moltiplicareambedue i membri della (7.69) per f(y, s) e integrare in dy: la prima equazione diChapman-Kolmogorov (7.16) si incarichera allora di mostrare che anche le f(x, t)sono soluzioni di (7.66), in particolare anche per s = 0

Theorem 7.32. Se sono assegnati

1. un vettore di trascinamento A(x, t)

2. una matrice di covarianza definita non negativa B(x, t)

3. una densita di Levy non negativa ℓ(x|y, t)

sotto adeguate ipotesi esiste sempre un’unica soluzione non negativa e normalizzatadell’equazione in avanti (7.66) con condizione iniziale degenere (7.67) e opportunecondizioni ai limiti; tale soluzione f(x, t |y, s) con t > s e una p.d.f. di transizionenella regione ritardata che soddisfa l’equazione di Chapman-Kolmogorov (7.17) equindi e Markoviana: pertanto in base alla Proposizione 7.7 essa individua unaintera famiglia di processi di Markov, uno per ogni possibile condizione iniziale

Proof: Omessa6

Si noti che per ottenere questi risultati abbiamo supposto che il processo fosse dotatodi p.d.f. f : e evidente quindi che gli enunciati devono essere parzialmente modificati

6I.F. Gihman, A.V. Skorohod, The Theory of Stochastic Processes - II, Springer(Berlin, 1975). C.W. Gardiner, Handbook of Stochastic Methods, Springer (Berlin, 1997)

213

Page 214: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

per trattare il caso in cui il processo non sia dotato di p.d.f.. Per limitarci ai casi piusemplici consideriamo allora un processo che assuma solo valori interi, come ad esem-pio il processo di Poisson N(t), e riformuliamo innanzitutto le ipotesi (7.61), (7.62)e (7.64). A questo scopo si noti che per un processo a valori interi le condizioni|x − z| > ϵ e |x − z| ≤ ϵ con ϵ > 0 arbitrario si traducono semplicemente inn = m e n = m. Ne consegue immediatamente che la seconda e terza ipotesi (7.62)e (7.64) banalmente si riducono a chiedere che A = 0 e B = 0. Quanto alla primaipotesi (7.61), invece, essa viene sostituita dalla sua versione discreta

lim∆t↓0

1

∆tp(n, t+∆t |m, t) = ℓ(n|m, t) con n = m (7.70)

e uniformemente in n,m e t. Sotto queste condizioni si puo dimostrare allorache l’equazione (7.69) viene sostituita da una master equation della forma (vediSezione 7.2.3 per ulteriori dettagli)

∂tp(n, t) =∑k

[ℓ(n|k, t)p(k, t)− ℓ(k|n, t)p(n, t)

](7.71)

la cui soluzione e la probabilita di transizione p(n, t |m, s) se p(n, s+) = δnm. Nat-uralmente per processi di questo tipo, data la natura intrinsecamente discontinuadei valori del processo, e piuttosto scontato che il ruolo principale sia giocato dallaℓ(n|m, t). Non si deve pero pensare che la funzione ℓ(x|y, t) sia sempre nulla neicasi di processi con valori continui. E gia stato osservato alla fine della Sezione 7.1.1,infatti, che anche questi possono presentare delle discontinuita nelle loro traiettoriecome ad esempio avviene per il processo di Cauchy che riprenderemo nel seguito

7.2.2 Backward equations

Le equazioni di evoluzione che abbiamo cosı determinato si chiamano anche equazioniin avanti (forward) perche esse – intese come equazioni per le p.d.f. di transizionenella regione ritardata – sono equazioni sulle variabili finali x, t delle f(x, t |y, s) concondizioni iniziali all’istante s < t. Esiste pero anche una formulazione di questeequazioni detta all’indietro (backward): in questo caso le variabili coinvolte nelleoperazioni integro-differenziali sono quelle iniziali y, s, mentre le soluzioni devonosoddisfare delle condizioni finali al tempo t. Si potrebbe infatti mostrare che le p.d.f.di transizione ritardate del nostro processo di Markov soddisfano anche la seguenteequazione all’indietro

∂sf(x, t |y, s) = −∑i

Ai(y, s)∂yif(x, t |y, s)

−1

2

∑i,j

Bij(y, s)∂yi∂yjf(x, t |y, s) (7.72)

+

∫z =y

ℓ(z|y, s)[f(x, t|y, s)− f(x, t|z, s)

]dz

214

Page 215: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

7.2 Evolution equations

con condizione finale f(x, t |y, t−) = δ(x−y). Le due equazioni in avanti (7.69) eall’indietro (7.72) sono equivalenti: le p.d.f. ritardate f(x, t |y, s) soluzioni dell’equazionein avanti in x, t con condizioni iniziali y, s, sono anche soluzioni dell’equazioneall’indietro in y, s con i medesimi coefficienti e con condizioni finali x, t. Le equazionipossono quindi essere ambedue usate secondo le esigenze: quelle in avanti sono piucomuni nelle ordinarie applicazioni, ma anche quelle all’indietro trovano impiego indiversi problemi come quelli dei tempi di primo passaggio.

Da un punto di vista matematico, comunque, le equazioni all’indietro (7.72) sonoconsiderate preferibili proprio per il fatto che esse operano sulle variabili del con-dizionamento y, s. Infatti per poter scrivere l’equazione in avanti nella forma (7.69)bisogna supporre che il processo sia dotato di p.d.f. f(x, t |y, s) visto che le oper-azioni integro-differenziali coinvolte lavorano sulle variabili finali x, t. D’altra partee chiaro che tale ipotesi non e sempre soddisfatta, e quindi (come nel caso dei pro-cessi a valori interi) bisogna stabilire una formulazione distinta per i casi senza p.d.f..Viceversa le variabili del condizionamento y, s sono sempre esplicitamente disponi-bili in qualunque tipo di legge o attesa condizionate dall’evento X(s) = y. Questopermette di dare una versione del tutto generale delle equazioni di evoluzione senzaoperare nessuna distinzione sulla base dell’esistenza o meno delle p.d.f..

Cosı ad esempio, trascurando per semplicita i termini di salto le equazioniall’indietro di tipo (7.72) si riducono alla forma

∂sf(x, t |y, s) = −∑i

Ai(y, s)∂yif(x, t |y, s)

−1

2

∑i,j

Bij(y, s)∂yi∂yjf(x, t |y, s) (7.73)

e in questo caso, posto per un’arbitraria funzione h(x)

g(y, s) = E[h(X(t))

∣∣X(s) = y]=

∫h(x)f(x, t |y, s) dx

con una moltiplicazione per h(x) e una integrazione la (7.73) diviene

∂sg(y, s) = −∑i

Ai(y, s)∂ig(y, s)−1

2

∑i,j

Bij(y, s)∂i∂jg(y, s) (7.74)

con condizione finale g(y, t−) = h(y). La (7.74) e anche nota in letteratura comeequazione di Kolmogorov e puo essere enunciata senza fare riferimento alcunoall’esistenza delle p.d.f. del processo

7.2.3 Families of forward equations

Esamineremo ora alcune particolari categorie di equazioni di evoluzione in avantiscegliendo opportunamente i coefficienti A,B e ℓ e svolgendo alcune considerazionieuristiche per studiare la natura delle soluzioni

215

Page 216: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

Jump processes: Master equation

Innanzitutto consideriamo il caso in cui A = B = 0, mentre solo ℓ = 0: l’equazionein avanti (7.66) si riduce allora a

∂tf(x, t) =

∫z =x

[ℓ(x|z, t) f(z, t)− ℓ(z|x, t) f(x, t)] dz (7.75)

e in particolare, nel caso in cui il processo e a valori interi (come il processo diPoisson), essa assume la forma discreta (7.71). Equazioni come queste prendono ilnome di master equation, e i processi X(t) (anche quelli con valori continui) le cuileggi soddisfano un’equazione del tipo (7.75) si chiamano processi di puro salto

Proposition 7.33. Se X(t) e un processo di puro salto con valori continui, laprobabilita che esso compia un salto di lunghezza finita in un intervallo [t, t+ dt] e

P X(t+ dt) = X(t) |X(t) = y = dt

∫x=y

ℓ(x|y, t) dx (7.76)

Proof: La p.d.f. di transizione ritardata f(x, t|y, s), con t > s e condizione inizialef(x, s+|y, s) = δ(x− y), e soluzione della master equation (7.75) nella forma

∂tf(x, t|y, s) =∫z =x

[ℓ(x|z, t) f(z, t|y, s)− ℓ(z|x, t) f(x, t|y, s)] dz

che, prendendo in particolare s = t, puo anche essere simbolicamente scritta come

f(x, t+ dt|y, t)− δ(x− y)

dt=

∫z =x

[ℓ(x|z, t)δ(z − y)− ℓ(z|x, t)δ(x− y)

]dz

ovvero anche come

f(x, t+ dt|y, t) =[1− dt

∫z =x

ℓ(z|x, t) dz]δ(x− y) + dt

∫z =x

ℓ(x|z, t)δ(z − y) dz

Avremo pertanto

P X(t+ dt) = X(t) |X(t) = y =

∫x=y

f(x, t+ dt|y, t) dx

=

∫x=y

dx

[1− dt

∫z =x

ℓ(z|x, t) dz]δ(x− y)

+dt

∫x=y

dx

∫z =x

ℓ(x|z, t)δ(z − y) dz

e quindi la (7.76) discende dal fatto che per le proprieta della δ di Dirac∫x=y

dx

[1− dt

∫z =x

ℓ(z|x, t) dz]δ(x− y) = 0∫

x=y

dx

∫z =x

ℓ(x|z, t)δ(z − y) dz =

∫x=y

ℓ(x|y, t) dx

216

Page 217: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

7.2 Evolution equations

Questo risultato permette di riconoscere la natura discontinua del processo e ilsignificato della funzione ℓ(x|y, t): per intervalli di tempo infinitesimi il termineℓ(x|y, t) dt gioca infatti il ruolo di una densita di probabilita di non restare nellaposizione iniziale y, compiendo un salto di lunghezza finita x − y come indicatoin (7.76). Si tenga presente pero che questa interpretazione non puo essere spintaoltre un certo limite dato che ℓ(x|y, t) non e normalizzata (e potrebbe anche nonessere normalizzabile) e quindi non puo essere considerata come una vera p.d.f.:l’integrale di ℓ(x|y, t) puo infatti approssimare una probabilita solo come un in-finitesimo, cioe se moltiplicato per dt.

Diffusion processes: Fokker-Planck equation

Consideriamo ora il caso in cui ℓ = 0, ma B = 0: il criterio di Lindeberg garantisceallora che quasi ogni traiettoria del processo X(t) e continua, e l’equazione in avantisi riduce a

∂tf(x, t) = −∑i

∂xi[Ai(x, t)f(x, t)] +

1

2

∑i,j

∂xi∂xj

[Bij(x, t)f(x, t)] (7.77)

che prende il nome di equazione di Fokker-Planck e, a differenza di (7.66), eun’equazione puramente differenziale. In particolare l’equazione (6.54) per il pro-cesso di Wiener con una sola componente e proprio di questo tipo con A = 0 eB = D. Quando le leggi di un processo di Markov X(t) soddisfano un’equazione diFokker-Planck si usa anche dire che X(t) e un processo di diffusione

Proposition 7.34. Se la legge di un processo di Markov e soluzione dell’equazione diFokker-Planck (7.77) con condizione X(t) = y,P -a.s. (cioe con X(t) ∼ N (y, 0) =δy), allora dopo un tempo infinitesimo dt > 0 la legge del processo evolve in

X(t+ dt) ∼ N(y +A(y, t)dt , B(y, t)dt

)(7.78)

Proof: La p.d.f. di transizione ritardata del nostro processo f(x, t|y, s), con t > se condizione iniziale f(x, s+|y, s) = δ(x− y), e soluzione dell’equazione di Fokker-Planck (7.77) nella forma

∂tf(x, t|y, s) = −∑i

∂xi[Ai(x, t)f(x, t|y, s)] +

1

2

∑i,j

∂xi∂xj

[Bij(x, t)f(x, t|y, s)]

Se l’intervallo di tempo [s, t] e infinitesimo la p.d.f. di transizione f al tempo tvicino ad s sara ancora molto concentrata attorno alla posizione iniziale y, e quindi– attorno a y dove e non nulla – presentera derivate spaziali molto grandi. Potremoallora supporre che le derivate (spaziali) di A e B siano trascurabili rispetto a quelledi f , e che in prima approssimazione A e B possano essere considerate praticamente

217

Page 218: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

costanti e uguali ai loro valori in y al tempo s. L’equazione in avanti (7.77) si ridurracosı alla forma semplificata

∂tf(x, t |y, s) = −∑i

Ai(y, s)∂xif(x, t |y, s) + 1

2

∑i,j

Bij(y, s)∂xi∂xj

f(x, t |y, s)

nella quale A e B dipendono solo dalle variabili y, s non coinvolte nelle operazionidifferenziali. Si noti che, nonostante la somiglianza formale, questa equazione dif-ferisce dall’equazione all’indietro senza termini di salto (7.73): non solo il segno deltermine di diffusione B e invertito, ma in (7.73) le derivate riguardano y, s e nonx, t sicche i termini A e B non possono essere considerati come termini costanti. Lanostra equazione di Fokker-Planck approssimata con coefficienti costanti puo essereora facilmente risolta: ponendo infatti t − s = dt > 0 si verifica con un calcolodiretto che la soluzione e

f(x, t |y, s) =

√∣∣B−1(y, s)∣∣

(2π)Mdte−[x−y−A(y,s)dt]·B−1(y,s)[x−y−A(y,s)dt] / 2dt

dove |B−1| indica il determinante della matrice B−1. Se ora in questa espressione,per adeguare le notazioni all’enunciato della proposizione, eseguiamo le sostituzionis → t, e t → t + dt, potremo affermare che, partendo da X(t) = y, la soluzionedi (7.77) in un intervallo infinitesimo [t, t+dt] evolve proprio verso la legge annunciatanella relazione (7.78). In particolare cio mostra esplicitamente sia il ruolo di velocitadi trascinamento di A, sia quello di coefficiente di diffusione di B e ne giustificapertanto i nomi.

Degenerate processes: Liouville equation

Consideriamo infine ℓ = B = 0 e solo A = 0, caso in cui l’equazione in avanti diviene

∂tf(x, t) = −∑i

∂i[Ai(x, t)f(x, t)] (7.79)

e prende il nome di equazione di Liouville. Si tratta di un’equazione differen-ziale che governa l’evoluzione di una p.d.f. senza ne salti ne diffusioni, e quindie l’equazione di un caso degenere: mostreremo infatti che la soluzione con con-dizione iniziale f(x, s+) = δ(x − y) evolve mantenendo sempre inalterata la suaconcentrazione in un punto che segue una traiettoria deterministica.

Proposition 7.35. Dato un sistema dinamico x(t) governato dall’equazione

x(t) = A[x(t), t

]t ≥ s (7.80)

e detta x(t|y, s) la soluzione che corrisponde alla condizione iniziale x(s) = y, lasoluzione dell’equazione di Liouville (7.79) corrispondente alla condizione inizialef(x, s+ |y, s) = δ(x− y) e

f(x, t |y, s) = δ[x− x(t|y, s)

](7.81)

218

Page 219: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

7.2 Evolution equations

cioe essa resta sempre concentrata attorno al punto x(t|y, s) seguendone fedelmentela traiettoria senza diffondere

Proof: Per ottenere questo risultato richiameremo la seguente proprieta delle dis-tribuzioni δ

∂tδ[x− g(t)

]= −

∑i

gi(t) ∂iδ[x− g(t)

]Infatti, limitandoci per semplicita al caso unidimensionale, per una generica funzionedi prova φ(x) si ha∫

φ(x) ∂tδ[x− g(t)

]dx = ∂t

∫φ(x)δ

[x− g(t)

]dx

= ∂t[φ(g(t))

]= g(t)φ′(g(t))

−∫

φ(x)g(t) ∂xδ[x− g(t)

]dx = g(t)

∫φ′(x) δ

[x− g(t)

]dx = g(t)φ′(g(t))

Tenendo allora conto di (7.80) si ha

−∑i

∂i[Ai(x, t) δ

(x− x(t |y, s)

)]= −

∑i

∂i[Ai

(x(t |y, s), t

)δ(x− x(t |y, s)

)]= −

∑i

Ai

(x(t |y, s), t

)∂iδ(x− x(t |y, s)

)= −

∑i

xi(t |y, s) ∂iδ(x− x(t |y, s)

)= ∂tδ

(x− x(t |y, s)

)e questo prova che la (7.81) e soluzione dell’equazione di Liouville (7.79)

7.2.4 Equations of notable processes

Esamineremo ora alcuni esempi classici di equazioni in avanti : per semplicita eper riconnettersi alla discussione dei capitoli precedenti, in questa sezione ci lim-iteremo a prendere in considerazione solo processi con una componente per i qualil’equazione (7.66) del caso a.c. con p.d.f. f si riduce a

∂tf(x, t) = −∂x[A(x, t)f(x, t)] +1

2∂2x[B(x, t)f(x, t)]

+

∫z =x

[ℓ(x|z, t) f(z, t)− ℓ(z|x, t) f(x, t)] dz (7.82)

mentre la master equation (7.71) di un processo a valori interi diventa

∂tp(n, t) =∑k

[ℓ(n|k, t)p(k, t)− ℓ(k|n, t)p(n, t)

](7.83)

219

Page 220: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

Nel seguito determineremo esplicitamente i coefficienti A, B e ℓ delle equazioni inavanti a partire dalle leggi di transizione Markoviane che individuano le diversefamiglie di processi introdotti nelle sezioni precedenti, e daremo anche qualche indi-cazione sui metodi di risoluzione

Poisson process

Proposition 7.36. Le leggi dei processi di Poisson con probabilita di transizione (7.46)soddisfano la master equation

∂tp(n, t) = −λ[p(n, t)− p(n− 1, t)

](7.84)

Proof: Trattandosi di processi di conteggio con valori interi, le traiettorie sarannotipicamente discontinue per cui – in base alle osservazioni conclusive della Sezione 7.2.1– avremo innanzitutto A = B = 0, sicche l’equazione di evoluzione in avanti sarauna master equation di tipo (7.83). Per calcolare ℓ(n|m, t) da (7.70) consideriamoallora la probabilita di transizione (7.46) con n = m: al limite per ∆t → 0 avremo

1

∆tpN(n, t+∆t |m, t) =

λe−λ∆t → λ se n = m+ 1O(∆tn−m) → 0 se n ≥ m+ 2

Complessivamente potremo quindi dire che per un processo di Poisson

ℓ(n|m, t) = λδn,m+1 (7.85)

e quindi che in generale le distribuzioni soddisferanno la master equation (7.84)e al variare delle condizioni iniziali esauriranno tutta la famiglia dei processi diPoisson della Definizione 7.20. In particolare la probabilita di transizione (7.46)corrispondera alla condizione iniziale degenere p(n, t) = δnm

Se viceversa una master equation viene assegnata, il nostro problema sara quellodi risolverla con una condizione iniziale per determinare la legge del corrispondenteprocesso di Markov discreto N(t). Il metodo piu noto per farlo e quello della fun-zione generatrice: ad esempio, nel caso piu semplice della master equation (7.84)con condizione iniziale degenere p(n, 0) = δn0, il metodo consiste nel verificare, conun uso diretto della (7.84), che la funzione generatrice della legge di N(t), definitacome

γ(u, t) = E[uN(t)

]=∑n

unp(n, t) (7.86)

soddisfa a sua volta l’equazione

∂tγ(u, t) = λ(u− 1)γ(u, t) γ(u, 0) = 1

Si vede allora facilmente che la soluzione e

γ(u, t) = eλ(u−1)t

220

Page 221: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

7.2 Evolution equations

e, confrontando lo sviluppo in serie di Taylor di quest’ultima attorno a u = 0

γ(u, t) = e−λt∑n

un (λt)n

n!

con la definizione (7.86), si ottiene in definitiva

p(n, t) = e−λt (λt)n

n!

Questo risultato ovviamente conferma che la soluzione della master equation (7.84)con condizione iniziale degenere e proprio la legge di un processo di Poisson standard

Wiener process

Proposition 7.37. Le leggi dei processi di Wiener con p.d.f. di transizione (7.48)soddisfano l’equazione di Fokker-Planck

∂tf(x, t) =D

2∂2xf(x, t) (7.87)

Proof: Innanzitutto, usando la regola di l’Hopital, si ottiene facilmente da (7.48)che per x = y e ∆t → 0

1

∆tfW (x, t+∆t | y, t) = e−(x−y)2/2D∆t

∆t√2πD∆t

−→ 0

cioe ℓ(x|y, t) = 0, coerentemente con il risultato della Proposizione 7.23 secondo ilquale un processo di Wiener e sempre (globalmente) continuo. Inoltre sara A = 0per simmetria, mentre per il coefficiente di diffusione B, ponendo y = (x−z)/

√D∆t,

avremo

1

∆t

∫ z+ϵ

z−ϵ

(x− z)2fW (x, t+∆t | z, t) dx = D

∫ +ϵ/√D∆t

−ϵ/√D∆t

y2e−y2/2

√2π

dy −→∆t→0

D

Raccogliendo tutte queste osservazioni avremo in definitiva che la p.d.f. di un pro-cesso di Wiener soddisfera l’equazione di Fokker-Planck (7.87) – della forma gia in-contrata in (6.54) – e che la p.d.f. di transizione (7.48) sara la particolare soluzionecon condizione iniziale f(x, t+) = δ(x− y)

Se invece viene assegnata un’equazione di Fokker-Planck con condizione inizialedegenere

∂tf(x, t) =D

2∂2xf(x, t) f(x, s+) = δ(x− y) (7.88)

potremo determinare la p.d.f. di transizione dei processo di Wiener associato. Ilmetodo di risoluzione piu noto e quello della trasformata di Fourier, ovvero lach.f. dell’incognita

φ(u, t) =

∫ +∞

−∞eiuxf(x, t) dx

221

Page 222: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

per la quale si verifica che essa soddisfa l’equazione

∂tφ(u, t) = −Du2

2φ(u, t) φ(u, s) = eiuy

la cui soluzione banalmente e

φ(u, t) = eiuye−Du2(t−s)/2

L’inversione di questa ch.f. e immediata e fornisce un risultato coerente con la p.d.f.di Wiener (7.48)

f(x, t | y, s) = e−(x−y)2/2D(t−s)√2πD(t− s)

Cauchy process

Proposition 7.38. Le leggi dei processi di Cauchy con p.d.f. di transizione (7.52)soddisfano la master equation

∂tf(x, t) =a

π

∫z =x

f(z, t)− f(x, t)

(x− z)2dz (7.89)

Proof: Infatti innanzitutto abbiamo

1

∆tfX(x, t+∆t | y, t) = a

π

1

(x− y)2 + (a∆t)2−→∆t→0

ℓ(x|y, t) = a

π(x− y)2

per cui le traiettorie del processo presenteranno sicuramente delle discontinuita.Inoltre risulta A = 0 per simmetria, mentre per il coefficiente di diffusione si ha cony = (x− z)/a∆t

1

∆t

∫ z+ϵ

z−ϵ

(x− z)2fX(x, t+∆t | z, t) dx =a2∆t

π

∫ +ϵ/a∆t

−ϵ/a∆t

y2

1 + y2dy

=2a2∆t

π

( ϵ

a∆t− arctan

ϵ

a∆t

)−→∆t→0

2aϵ

π

e quindi per ϵ → 0 si ottiene in definitiva B = 0. Il processo di Cauchy e quindiun processo di puro salto e l’equazione soddisfatta dalla sua p.d.f. e la master equa-tion (7.89). Le p.d.f. di transizione (7.52) sono le soluzioni individuate dalla solitacondizione iniziale degenere f(x, t) = δ(x− y)

Diversamente dai due casi precedenti questa equazione non era gia stata introdottasulla base di considerazioni euristiche: essa infatti e derivabile solo nel quadro delladiscussione sui processi di Markov. Naturalmente anche in questo caso e possibileassumere un punto di vista opposto, cioe quello di ricostruire la legge del processorisolvendo l’equazione in avanti (7.89) con condizione iniziale f(x, s+) = δ(x−y) perdeterminare prima la p.d.f. di transizione e poi tutte le altre leggi; questa volta pero,trattandosi di un’equazione integro-differenziale, non ci sono procedure elementariper determinare la soluzione.

222

Page 223: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

7.2 Evolution equations

Ornstein-Uhlenbeck process

Proposition 7.39. Le leggi di un processo di Ornstein-Uhlenbeck con p.d.f. di tran-sizione (7.54) soddisfano l’equazione di Fokker-Planck

∂tf(x, t) = α∂x[xf(x, t)] +D

2∂2xf(x, t) (7.90)

dove abbiamo posto D = 2αβ2, e e pertanto il processo e globalmente continuo

Proof: Vedi Appendice K. Noteremo soltanto che la continuita globale del processo– lasciata in sospeso nella discussione della Proposizione 7.29 – deriva dall’osservazioneche per un processo di Ornstein-Uhlenbeck il coefficiente di salto ℓ si annulla, percui le condizioni di continuita di Lindeberg sono soddisfatte

Anche in questo caso i metodi per risolvere l’equazione (7.90) sono meno elementaridi quelli usati in queste lezioni e quindi trascureremo di esporli, limitandoci invecead osservare che con poco sforzo si puo verificare che la p.d.f. di transizione (7.54) esoluzione della nostra equazione per la condizione iniziale degenere f(x, t) = δ(x−y)

223

Page 224: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

224

Page 225: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

Chapter 8

Outline of stochastic calculus

8.1 Wienerian white noise

Anche in questo capitolo, per ragioni di semplicita, prenderemo prevalentementein considerazione processi con una sola componente. Abbiamo gia osservato nellaSezione 6.3 che il rumore bianco e un processo singolare le cui caratteristiche dipen-dono dalla non derivabilita di alcuni processi. Come primo esempio abbiamo infattimostrato esplicitamente che il processo degli impulsi di Poisson (6.64) e il relativoprocesso compensato (6.66) sono rumori bianchi prodotti dalla derivazione formalerispettivamente di un processo di Poisson N(t) e della sua versione compensata

N(t). Allo stesso modo abbiamo fatto vedere che anche la derivata formale del pro-cesso di Wiener W (t) – non derivabile in base alla Proposizione 6.18 – gode delleproprieta (6.70) di un rumore bianco, e nell’Appendice H abbiamo suggerito chetale rumore bianco W (t) giochi il ruolo di forza fluttuante B(t) nell’equazione diLangevin (6.78) del moto Browniano. Dopo l’introduzione dei processi di Markovpossiamo ora fornire una argomentazione matematicamente piu convincente perquesta ultima identificazione.

L’equazione di Langevin (6.78) si presenta come un caso particolare dell’equazione

X(t) = a(X(t), t) + b(X(t), t)Z(t) (8.1)

dove a(x, t) e b(x, t) sono funzioni assegnate e Z(t) e un processo con E [Z(t)] = 0non correlato con X(t). Da una integrazione formale di (8.1)

X(t) = X(t0) +

∫ t

t0

a(X(s), s) ds+

∫ t

t0

b(X(s), s)Z(s) ds

si vede pero che X(t) risultera costruito a partire dai valori di Z(s) con t0 < s < t, epertanto e intuitivo che per garantire la non correlazione fra X(t) e Z(t) bisognerarichiedere anche la non correlazione di Z(s) e Z(t) per s = t. Inoltre la suppostairregolarita di Z(t) suggerisce che la sua varianza (che nel nostro caso e semplice-mente E [Z2(t)]) presenti un comportamento singolare, e quindi in definitiva, per

225

Page 226: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

qualche costante D > 0, sara piuttosto naturale supporre che

E [Z(t)Z(s)] = D δ(t− s)

cioe che Z(t) sia un rumore bianco stazionario con media nulla e intensita D. Nelseguito supporremo inoltre che Z(s) e Z(t) siano addirittura indipendenti1 per s = t,e che – se l’equazione (8.1) e destinata a descrivere fenomeni fisici analoghi al motoBrowniano – tutti i processi coinvolti siano continui in senso globale. Mostreremoora che sotto queste ipotesi il rumore bianco Z(t) non puo che essere un rumorebianco Wieneriano W (t)

Proposition 8.1. Se Z(t) e un rumore bianco stazionario di intensita D > 0 conZ(s) indipendente da Z(t) per s = t, allora il processo

W (t) =

∫ t

t0

Z(s) ds (8.2)

se e globalmente continuo, e un processo di Wiener con coefficiente di diffusione D

Proof: Per dimostrare la tesi faremo vedere che le leggi del processo W (t) definitoin (8.2) soddisfano l’equazione di Fokker-Planck (7.87) di un processo di Wiener. Gliincrementi di W (t) in intervalli non sovrapposti t1 < t2 ≤ t3 < t4 hanno la forma

W (t2)−W (t1) =

∫ t2

t1

Z(s) ds W (t4)−W (t3) =

∫ t4

t3

Z(s) ds

cioe sono somme di r.v. Z(s) indipendenti per ipotesi, e sono quindi a loro volta in-dipendenti. Segue allora dalla Proposizione 7.9 che W (t) e innanzitutto un processodi Markov, ed essendo continuo per ipotesi le sue leggi soddisferanno un’equazionedi Fokker–Planck (con ℓ = 0) del genere discusso nella Sezione 7.2.3. Per scoprireallora la natura del processo W (t) bastera calcolare i coefficienti (7.63) e (7.65)dell’equazione i quali per il nostro caso con una sola componente si riducono a

A(x, t) = limϵ→0+

lim∆t→0

∫|y−x|<ϵ

y − x

∆tf(y, t+∆t |x, t) dy

B(x, t) = limϵ→0+

lim∆t→0

∫|y−x|<ϵ

(y − x)2

∆tf(y, t+∆t |x, t) dy

D’altra parte a causa della continuita sappiamo dalle condizioni di Lindeberg (7.44)che comunque scelto ϵ > 0 risultera

lim∆t→0

∫|y−x|>ϵ

1

∆tf(y, t+∆t |x, t) dy = 0

1Si noti che questa ipotesi non e molto restrittiva: in vista del fatto che i processi in questionesi riveleranno essere Gaussiani, indipendenza e non correlazione sono proprieta equivalenti

226

Page 227: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

8.1 Wienerian white noise

sicche, per ∆t → 0, il supporto di f(y, t+∆t |x, t) tendera a stare tutto all’internodell’intervallo [x−ϵ , x+ϵ]. Conseguentemente le definizioni di A e B possono esseresemplificate senza modificarne il valore estendendo gli integrali a tutto (−∞,+∞):si ottiene cosı

A(x, t) = lim∆t→0

∫ +∞

−∞

y − x

∆tf(y, t+∆t |x, t) dy

= lim∆t→0

E

[∆W (t)

∆t

∣∣∣∣ W (t) = x

]B(x, t) = lim

∆t→0

∫ +∞

−∞

(y − x)2

∆tf(y, t+∆t |x, t) dy

= lim∆t→0

E

[[∆W (t)]2

∆t

∣∣∣∣ W (t) = x

]Ma nel nostro caso sappiamo dalle proprieta di Z(t) che

E [∆W (t) | W (t) = x] = E

[∫ t+∆t

t

Z(s) ds

∣∣∣∣ W (t) = x

]=

∫ t+∆t

t

E [Z(s)] ds = 0

E[[∆W (t)]2

∣∣ W (t) = x]

= E

[∫ t+∆t

t

Z(s) ds

∫ t+∆t

t

Z(s′) ds′∣∣∣∣ W (t) = x

]=

∫ t+∆t

t

ds

∫ t+∆t

t

ds′E [Z(s)Z(s′)]

= D

∫ t+∆t

t

ds

∫ t+∆t

t

ds′δ(s− s′)

= D

∫ t+∆t

t

ds = D∆t

e quindi in definitiva si ottengono i coefficienti

A(x, t) = 0 B(x, t) = D

che sono quelli dell’equazione di Fokker–Planck (7.87) per il processo di Wiener

Dalla proposizione precedente si ricava dunque che W (t) definito da (8.2) e unprocesso di Wiener, e che la sua derivata formale Z(t) = W (t) e un rumore biancoWieneriano. Tale rumore bianco gioca il ruolo di forza aleatoria nell’equazionedi Langevin, ma strettamente parlando non esiste per cui l’equazione (8.1) nonpuo ancora essere considerata come ben definita nella forma fin qui presentata.Ricorderemo pero di aver osservato alla fine della Sezione 6.3 che, benche la derivatadi un processo di Wiener W (t) non esista, sembra invece avere un senso piu preciso

227

Page 228: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

il concetto del suo differenziale dW (t) inteso come limite infinitesimo per ∆t → 0dell’incremento ∆W (t) = W (t+∆t)−W (t), per il quale vale ovviamente la relazione∫ t

t0

dW (s) = W (t)−W (t0)

Possiamo quindi pensare di riscrivere l’equazione (8.1) in termini di differenzialiin modo che – avendo cura di sostituire sostituire dW (t) alle espressioni singolariZ(t)dt = W (t)dt – essa assuma la forma

dX(t) = a(X(t), t)dt+ b(X(t), t)dW (t)

il cui significato piu preciso e

X(t) = X(t0) +

∫ t

t0

a(X(s), s) ds+

∫ t

t0

b(X(s), s) dW (s)

Bisogna pero notare subito che, mentre il primo di questi due integrali∫ t

t0

a(X(s), s) ds

puo essere adeguatamente definito sulla base delle considerazioni gia svolte nellaSezione 5.4, resta invece aperto il problema del significato da attribuire al secondointegrale ∫ t

t0

b(X(s), s) dW (s) (8.3)

nel quale la misura e definita a partire da un processo di Wiener: un caso noncontemplato nelle nostre precedenti discussioni. La definizione di questo nuovo tipodi integrali costituira l’argomento della prossima sezione e caratterizzera la strutturadel calcolo stocastico.

8.2 Stochastic integration

Ci sono diverse forme di integrali stocastici che risultano ben definiti sotto variecondizioni: in ogni caso, quando esistono, essi sono sempre delle r.v.. Noi abbiamogia discusso nella Proposizione 5.8 la convergenza in m.s. del caso piu semplice diintegrale stocastico (5.8) che puo ora essere agevolmente generalizzato nella forma∫ b

a

Y (t) dx(t)

dove Y (t) e un processo mentre x(t) e una funzione che in generale viene suppostaa variazione limitata2. Quest’ultima ipotesi, sotto condizioni molto generali per

2Una funzione Φ(x) definita in [a, b] si dice a variazione limitata se esiste C > 0 tale che

n∑k=1

|Φ(xk)− Φ(xk−1)| < C

228

Page 229: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

8.2 Stochastic integration

il processo Y (t), consente di dimostrare3 che questo integrale, non solo esiste inm.s., ma converge anche nel senso di Lebesgue–Stieltjes per quasi ogni traiettoria diY (t). In pratica l’integrale e ben definito, in un senso tradizionale, traiettoria pertraiettoria. Il problema pero si complica quando e l’integratore ad essere un processostocastico X(t) perche in questo caso non si puo piu supporre che le sue traiettoriesiano a variazione limitata e quindi i procedimenti tradizionali non consentono piudi garantire coerentemente la convergenza dell’integrale. Il caso tipico con il qualeavremo a che fare nel resto di queste lezioni e quello in cui l’integratore e proprio ilprocesso di Wiener W (t) le cui traiettorie – non essendo derivabili in nessun punto– non sono a variazione limitata

8.2.1 Wiener integral

Prendiamo prima di tutto in considerazione un integrale del tipo∫ b

a

y(t) dX(t) (8.4)

dove ora y(t) e una funzione non aleatoria mentreX(t) e un processo: come gia osser-vato, la definizione di (8.4) traiettoria per traiettoria con la procedura di Lebesgue–Stieltjes non puo piu essere adottata perche in questo caso le traiettorie del processoX(t) non sono in generale funzioni a variazione limitata: come nel caso del processodi Wiener, infatti, dovremo supporre ora che in generale le traiettorie non sianoderivabili, e quindi non siano a variazione limitata (vedi nota 2 in questa sezione).La forma piu comune di integrali di questo genere e quella in cui l’integratore e unprocesso di Wiener ∫ b

a

y(t) dW (t) (8.5)

e in questo caso di parla di integrale di Wiener. Restando comunque nel caso piugenerale (8.4), questo integrale puo essere definito rigorosamente per

per ogni decomposizione finta a = x0 < x1 < . . . < xn = b, e in tal caso la quantita

V [Φ] = supD

n∑k=1

|Φ(xk)− Φ(xk−1)|

dove D e l’insieme delle decomposizioni finite di [a, b], si chiama variazione totale di Φ. E noto chel’integrale di Lebesgue-Stieltjes ∫ b

a

f(x) dΦ(x)

puo essere correttamente definito quando Φ(x) e una funzione a variazione limitata. Si noti in-fine che ogni funzione a variazione limitata e quasi ovunque derivabile. Per maggiori dettagli siveda A.N. Kolmogorov, S.V. Fomin, Elementi di Teoria delle Funzioni e di AnalisiFunzionale, Mir (Mosca, 1980)

3J.L. Doob, Stochastic Processes, Wiley (New York, 1953)

229

Page 230: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

• processi X(t) con incrementi non correlati (ad esempio il processo di Wienerha incrementi indipendenti e quindi anche non correlati)

• funzioni y(t) di quadrato integrabile secondo Lebesgue

adottando una procedura che qui riportiamo in maniera semplificata4:

1. si definisce prima in maniera elementare un integrale per funzioni φ(t) agradino ∫ b

a

φ(t) dX(t)

2. si considera poi una successione di funzioni a gradino φn(t) che approssimi y(t)in media quadratica (si dimostra che tale successione esiste e che la particolarescelta della successione e irrilevante)

3. si definisce infine l’integrale (8.4) come limite in media quadratica della suc-cessione di r.v. ∫ b

a

φn(t) dX(t)

Si dimostra che questa procedura conduce a una definizione perfettamente coerente,e inoltre si fa vedere che, se la funzione y(t) e continua, l’integrale (8.4) puo ancheessere calcolato con un’altra procedura del tutto analoga a quella usata per definireil tradizionale integrale di Riemann:

1. si considera un’arbitraria partizione a = t0 < t1 < . . . < tn = b dell’intervallodi integrazione

2. si scelgono arbitrariamente dei punti τj in [tj, tj+1] e si pone

δ = maxj

tj+1 − tj

3. si calcola l’integrale come il limite in media quadratica

limn,δ→0

-mqn−1∑j=0

y(τj)[X(tj+1)−X(tj)

]Quando l’integrale esiste, la seconda procedura conduce a un risultato identico aquello definito nella prima, e questo accade indipendentemente sia dalla successionedi partizioni considerata, sia dalla scelta dei punti τj in [tj, tj+1]. In particolare inquesto modo viene dato un significato preciso agli integrali di Wiener (8.5)

4J.L. Doob, Stochastic Processes, Wiley (New York, 1953)

230

Page 231: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

8.2 Stochastic integration

8.2.2 Ito integral

L’integrale (8.4) e un caso particolare dell’integrale di tipo piu generale∫ b

a

Y (t) dX(t) (8.6)

nel quale X(t) e Y (t) sono ambedue processi: l’integrale (8.3) nel quale ci siamoimbattuti alla fine della sezione precedente e proprio un esempio di questo genere.Una definizione rigorosa di (8.6) non e pero semplice5 e richiede una nuova proceduraintrodotta da K. Ito (1944) per il caso in cui l’integratore e il processo di Wiener∫ b

a

Y (t) dW (t) (8.7)

e poi estesa ad una classe di integratori X(t) un po’ piu ristretta di quella degliintegrali della Sezione 8.2.1. La nuova definizione richiede inoltre che il processointegrando Y (t) soddisfi delle condizioni piuttosto generali, la piu importante dellequali per il caso degli integrali di Ito di tipo (8.7) e la non-anticipativita rispetto alprocesso W (t)

Definition 8.2. Dato un processo di Wiener W (t) e detta Ft = σW (s), s ≤ t lafamiglia crescente delle σ-algebre da esso generate (filtrazione naturale), diremo cheun processo Y (t) e non-anticipativo rispetto a W (t) se

• Y (t) e Ft-misurabile,

• Y (t) non dipende da W (s)−W (t) con s > t.

cioe se Y (t) dipende dal passato (e dal presente) di W (t), ma non dal suo futuro.

Questo concetto, che esprime un requisito di causalita piuttosto naturale, e essen-ziale per una definizione rigorosa di integrale – e quindi di equazione differenzialestocastica – di Ito, nel senso che molti risultati possono essere dedotti solo con questaipotesi. In particolare si verifica che tutti i seguenti processi sono non-anticipativi:

W (t)

∫ t

t0

h[W (s)] ds

∫ t

t0

h[W (s)] dW (s)

e che anche i processi ∫ t

t0

Y (s) ds

∫ t

t0

Y (s) dW (s)

sono non-anticipativi se Y (t) lo e.Nel seguito quindi supporremo sempre, tra le altre ipotesi, che i nostri integrandi

Y (t) siano non-anticipativi rispetto aW (t), e all’interno di queste ipotesi adotteremouna procedura per la definizione rigorosa dell’integrale di Ito che per molti versie analoga a quella dell’integrale di Wiener discussa nella Sezione 8.2.1:

5I. Karatzas, S.E. Shreve, Brownian Motion and Stochastic Calculus, Springer(Berlin, 1991). B. Øksendal, Stochastic Differential Equations, Springer (Berlin, 2005)

231

Page 232: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

1. si definisce prima in maniera elementare un integrale di Ito per funzioni agradino Φ(ω; t) (cioe per dei particolari processi stocastici non-anticipativi):∫ b

a

Φ(ω; t) dW (ω; t)

2. si considera poi una successione di funzioni a gradino Φn(t) che approssimi unassegnato processo non-anticipativo Y (t) in media quadratica (si dimostra chetale successione esiste e che la particolare scelta della successione e irrilevante)

3. si definisce infine l’integrale di Ito (8.7) come limite in media quadratica dellasuccessione di r.v. ∫ b

a

Φn(t) dW (t)

Naturalmente anche in questo caso si dimostra che il limite non dipende dalla par-ticolare successione Φn(t) scelta in modo che la definizione risulti perfettamentecoerente, ma la nuova procedura, nonostante le evidenti analogie con quella chedefinisce l’integrale di Wiener, prevede l’introduzione due importanti novita:

• come nel caso dell’integrale di Wiener (8.5), l’integrale di Ito puo essere cal-colato anche adottando una procedura alla Riemann del tipo

limn,δ→0

-mqn−1∑j=0

Y (tj)[W (tj+1)−W (tj)

](8.8)

ma in questo caso i valori Y (tj) dell’integrando devono sempre essere calcolatinell’estremo sinistro dell’intervallo [tj, tj+1], e non in un generico τj ad essointerno: infatti si potrebbe mostrare che ora il valore del limite (8.8) dipendeda questa scelta, e si prova che solo l’uso di Y (tj) fornisce come risultato ilcorretto valore dell’integrale di Ito definito precedentemente con la proceduradi Ito; illustreremo piu oltre questo comportamento elaborando un esempioesplicito

• la definizione di integrale di Ito non arriva senza un costo aggiuntivo: essaha come conseguenza anche l’introduzione di un nuovo calcolo stocastico conregole diverse da quelle dell’ordinario calcolo integrale e differenziale alle qualisiamo abituati; un anticipo di questa importante novita – alla quale bisogneraimparare ad adattarsi per poter fare tesoro delle proprieta del nuovo integrale– si trova gia nella discussione sui possibili errori dovuti a un uso impropriodel calcolo differenziale nella Appendice H: noi comunque dedicheremo buonaparte delle prossime sezioni proprio a un’analisi dettagliata di queste nuoveregole

Qualche osservazione relativa a possibili definizioni alternative di integrali stocastici,come l’integrale di Stratonovich che permetterebbe di conservare le regole tradizion-ali del calcolo differenziale, e infine riportata nell’Appendice L

232

Page 233: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

8.3 Ito stochastic calculus

8.3 Ito stochastic calculus

Nel seguito calcoleremo tutti gli integrali di Ito (8.7) con la procedura di Rie-mann (8.8) per un processo di Wiener W (t) con coefficiente di diffusione D, ma concondizioni iniziali non standard W (t0) = w0, P -a.s.. Per questa ragione i risultatidelle Proposizioni 6.16, 6.17 e 6.18 vanno adeguati osservando che, se ora indichi-amo con W0(t) il processo standard con condizioni W0(0) = 0, P -a.s., ovviamenteavremo W (t) = W0(t− t0) +w0 per il processo non standard definito per t ≥ t0. Inparticolare si verifica subito allora che W (t) ∼ N (w0, D(t− t0)), e inoltre

E [W (t)] = w0 V [W (t)] = D(t− t0) (8.9)

E [W (s)W (t)] = Dmins− t0, t− t0+ w20 (8.10)

Per semplicita, per ogni partizione t1 < . . . < tn di una procedura di Riemann,adotteremo anche le notazioni sintetiche con j = 1, . . . , n

Wj = W (tj) ∆Wj = Wj −Wj−1 ∆tj = tj − tj−1

8.3.1 Elementary integration rules

Lemma 8.3. Se W (t) e un processo di Wiener con W (t0) = w0, P -a.s., allora

Wj ∼ N (w0, D(tj − t0)) ∆Wj ∼ N (0, D∆tj) (8.11)

E[(∆Wj)

4]= 3D2(∆tj)

2 (8.12)

Proof: La prima relazione (8.11) deriva immediatamente dal fatto gia osservatoche W (t) ∼ N (w0, D(t − t0)) per ogni t. Quanto alla seconda di (8.11), essendogli incrementi ∆W (t) comunque Gaussiani secondo la Proposizione 6.16, e tenendoconto di (8.9) e (8.10), bastera osservare che

E [∆Wj] = E [Wj −Wj−1] = w0 − w0 = 0

V [∆Wj] = E[(∆Wj)

2]= E

[W 2

j +W 2j−1 − 2WjWj−1

]= w2

0 +D(tj − t0) + w20 +D(tj−1 − t0)− 2[w2

0 +D(tj−1 − t0)]

= D(tj − tj−1) = D∆tj

Infine la (8.12) discende dal fatto del tutto generale che, se X ∼ N (0, σ2), con unaintegrazione per parti si ha

E[X4]

=

∫ +∞

−∞x4 e

−x2/2σ2

σ√2π

dx = −σ2

∫ +∞

−∞x3 d

dx

(e−x2/2σ2

σ√2π

)dx

= 3σ2

∫ +∞

−∞x2 e

−x2/2σ2

σ√2π

dx = 3σ4 = 3E[X2]2

e dalla (8.11) in base alla quale ∆Wj ∼ N (0, D∆tj)

233

Page 234: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

Proposition 8.4. Se W (t) e un processo di Wiener con W (t0) = w0, P -a.s., allora∫ t

t0

W (s) dW (s) =1

2

[W 2(t)− w2

0 −D(t− t0)]

(8.13)

E

[∫ t

t0

W (s) dW (s)

]= 0 (8.14)

Proof: Si noti innanzitutto che in (8.13) il termine 12D(t−t0) e totalmente estraneo

all’usuale formula del calcolo integrale che prevederebbe solo la presenza dei primidue termini: questo e il primo esempio di come il calcolo stocastico Ito conducaa risultati quantitativamente diversi da quelli consueti. Per dimostrare il risultatoosserviamo allora che in questo caso le somme di Riemann (8.8) assumono la formaparticolare

Sn =n∑

j=1

Wj−1(Wj −Wj−1) =n∑

j=1

Wj−1∆Wj

=1

2

n∑j=1

[(Wj−1 +∆Wj)

2 −W 2j−1 − (∆Wj)

2]

=1

2

n∑j=1

[W 2

j −W 2j−1 − (∆Wj)

2]=

1

2

[W 2(t)−W 2(t0)

]− 1

2

n∑j=1

(∆Wj)2

=1

2

[W 2(t)− w2

0

]− 1

2

n∑j=1

(∆Wj)2

per cui il risultato sara dimostrato se riusciremo a provare che

limn-ms

n∑j=1

(∆Wj)2 = D(t− t0) (8.15)

ovvero equivalentemente secondo il Teorema 4.6

limn

E

[n∑

j=1

(∆Wj)2

]= D(t− t0) lim

nV

[n∑

j=1

(∆Wj)2

]= 0 (8.16)

Ricordando allora i risultati del Lemma 8.3, la prima delle (8.16) si ricava facilmenteosservando che comunque scelto n si ha

E

[n∑

j=1

(∆Wj)2

]=

n∑j=1

E[(∆Wj)

2]=

n∑j=1

D(tj − tj−1) = D(t− t0)

per cui il valore rimane sempre lo stesso anche al limite per n → ∞. Quanto allaseconda delle (8.16) cominciamo con l’osservare che dai risultati appena ottenuti

234

Page 235: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

8.3 Ito stochastic calculus

potremo sempre scrivere

V

[n∑

j=1

(∆Wj)2

]= E

( n∑j=1

(∆Wj)2 −D(t− t0)

)2

= E

[n∑

j=1

(∆Wj)4 + 2

∑j<k

(∆Wj)2(∆Wk)

2

−2D(t− t0)n∑

j=1

(∆Wj)2 +D2(t− t0)

2

]

e che queste attese potranno poi essere calcolate tenendo ancora conto del Lemma 8.3– in particolare della formula (8.12) – e dell’indipendenza degli incrementi del pro-cesso di Wiener in base alla quale per j < k

E[(∆Wj)

2(∆Wk)2]= E

[(∆Wj)

2]E[(∆Wk)

2]= D2(tj − tj−1)(tk − tk−1)

Pertanto, riordinando tutti i termini dell’espressione precedente, e ricordando chenella nostra procedura di Riemann

n∑j=1

(tj − tj−1) = t− t0 δ = maxj

tj − tj−1n−→ 0

complessivamente avremo

V

[n∑

j=1

(∆Wj)2

]= 3D2

n∑j=1

(tj − tj−1)2 + 2D2

∑j<k

(tj − tj−1)(tk − tk−1)

−2D2(t− t0)n∑

j=1

(tj − tj−1) +D2(t− t0)2

= 2D2

n∑j=1

(tj − tj−1)2 +D2

n∑j,k=1

(tj − tj−1)(tk − tk−1)−D2(t− t0)2

= 2D2

n∑j=1

(tj − tj−1)2 ≤ 2D2max

jtj − tj−1

n∑j=1

(tj − tj−1)

= 2δD2(t− t0)n−→ 0

In conclusione la convergenza (8.15) e confermata, e conseguentemente la (8.13) ein definitiva dimostrata. Infine per provare la (8.14) bastera osservare che da (8.13)si ha

E

[∫ t

t0

W (s) dW (s)

]=

1

2E[W 2(t)− w2

0 −D(t− t0)]= 0

dove abbiamo nuovamente fatto uso del Lemma 8.3

235

Page 236: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

Exemple 8.5. Nella Sezione 8.2.2 abbiamo accettato senza dimostrazione l’affermazionesecondo la quale il valore corretto di un integrale di Ito come (8.13) e quello che sicalcola con la procedura di Riemann secondo la formula (8.8) nella quale l’integrandodeve essere sempre valutato negli estremi inferiori degli intervalli della partizione.Possiamo ora mostrare con un esempio esplicito che in effetti il risultato della proce-dura di Riemann per il calcolo di (8.13) sarebbe stato differente se avessimo valutatol’integrando in punti diversi dall’estremo inferiore usando somme del tipo

Sn =n∑

j=1

W (τj) [W (tj)−W (tj−1)]

con i τj scelti in maniera arbitraria negli intervalli [tj−1, tj]. Per provare senzacomplicazioni inessenziali che il limite in m.s. della successione Sn dipende dallascelta delle τj sara allora sufficiente mostrare tale dipendenza anche solo per il limitedelle attese E [Sn]. Da (8.10) si ha infatti

E [Sn] = E

[n∑

j=1

W (τj)[W (tj)−W (tj−1)

]]

=n∑

j=1

(E [W (τj)W (tj)]−E [W (τj)W (tj−1)]

)=

n∑j=1

[w2

0 +D(τj − t0)− w20 −D(tj−1 − t0)

]=

n∑j=1

[D(τj − t0)−D(tj−1 − t0)

]= D

n∑j=1

(τj − tj−1)

Se allora introduciamo un parametro α ∈ [0, 1] per individuare la posizione di τj con

τj = αtj + (1− α)tj−1

potremo anche scrivere per ogni n

E [Sn] = αDn∑

j=1

(tj − tj−1) = αD(t− t0)

per cui, scambiando il limite per n → ∞ di Riemann con l’attesa, si ottiene

E

[∫ t

t0

W (s) dW (s)

]= αD(t− t0)

un risultato che manifestamente dipende da α, cioe dalla scelta di τj all’internodell’intervallo [tj−1, tj], e che coincide con la formula corretta (8.14) per l’integraledi Ito solo se α = 0, cioe quando τj e l’estremo sinistro dell’intervallo [tj−1, tj]

236

Page 237: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

8.3 Ito stochastic calculus

8.3.2 Expectations and covariances

Proposition 8.6. Se G(t) e H(t) sono processi non anticipativi

E

[∫ t

t0

G(s) dW (s)

]= 0 (8.17)

E

[∫ t

t0

G(s) dW (s)

∫ t

t0

H(s′) dW (s′)

]= D

∫ t

t0

E [G(s)H(s)] ds (8.18)

Proof: La formula (8.17) generalizza la (8.14): per le solite somme di Riemann,dalla non anticipativita di G(t) e dal Lemma 8.3 si ha infatti

E

[n∑

j=1

Gj−1∆Wj

]=

n∑j=1

E [Gj−1] E [∆Wj] = 0

e se accettiamo (come al solito senza verifica) che le operazioni E [ · ] e limn-ms pos-sano essere scambiate, il risultato segue facilmente. Quanto alla formula di covari-anza (8.18), dalla non anticipativita dei processi, dal Lemma 8.3 e dall’indipendenzadegli incrementi ∆Wj si ha

E

[n∑

j=1

Gj−1∆Wj

n∑k=1

Hk−1∆Wk

]

= E

[n∑

j=1

Gj−1Hj−1(∆Wj)2

]+ E

[∑k>j

(Gj−1Hk−1 +Gk−1Hj−1)∆Wj∆Wk

]

=n∑

j=1

E [Gj−1Hj−1] E[(∆Wj)

2]

+∑k>j

E [(Gj−1Hk−1 +Gk−1Hj−1)∆Wj] E [∆Wk]

=n∑

j=1

E [Gj−1Hj−1] D∆tj

e il risultato segue poi come per la prima formula passando al limite in m.s. sotto ilsegno di valore d’attesa

Questi risultati ci permettono ora di riformulare in una prospettiva rovesciata leconsiderazioni sul rumore bianco Wieneriano condensate nella Proposizione 8.1

Corollary 8.7. Se W (t) con W (t0) = w0 e un processo di Wiener con coefficientedi diffusione D, un processo Z(t) tale che E [Z(t)] = 0, e che dW (t) = Z(t) dt, nonpuo che essere un rumore bianco (Wieneriano) stazionario e di intensita D

237

Page 238: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

Proof: Si tratta di una conseguenza immediata della (8.18): presi infatti due gener-ici processi G(t) e H(t) non anticipativi e indipendenti da Z(t), e supponendo dipoter scambiare attese e integrali dalla (8.18), dalle ipotesi si ha

D

∫ t

t0

E [G(s)H(s)] ds = E

[∫ t

t0

G(s) dW (s)

∫ t

t0

H(s′) dW (s′)

]= E

[∫ t

t0

ds

∫ t

t0

ds′ G(s)H(s′)Z(s)Z(s′)

]=

∫ t

t0

ds

∫ t

t0

ds′E [G(s)H(s′)Z(s)Z(s′)]

=

∫ t

t0

ds

∫ t

t0

ds′E [G(s)H(s′)]E [Z(s)Z(s′)]

che puo essere soddisfatta solo se

E [Z(s)Z(s′)] = Dδ(s− s′)

cioe se Z(t) e un rumore bianco stazionario di intensita D. Naturalmente, siccomerichiediamo dW (t) = Z(t)dt, il rumore bianco in questione non puo che essereWieneriano

8.3.3 Stochastic infinitesimals

Proposition 8.8. Se G(t) e un processo non anticipativo si ha con k = 0, 1, . . .∫ t

t0

G(s) [dW (s)]2+k = limn-mq

n∑j=1

Gj−1(∆Wj)2+k = δk0 D

∫ t

t0

G(s) ds

∫ t

t0

G(s) [dW (s)]1+k ds = limn-mq

n∑j=1

Gj−1 (∆Wj)1+k ∆tj = 0

dove δkℓ e la delta di Kronecker; in maniera simbolica scriveremo anche

[dW (t)]2+k = δk0Ddt [dW (t)]1+k dt = 0 (8.19)

Proof: Questa proposizione permette di dare un significato preciso all’affermazionedella Sezione 6.3 secondo la quale dW (t) e un infinitesimo dell’ordine di

√dt. Piu pre-

cisamente essa suggerisce di trascurare nei calcoli tutti i termini del tipo dW (t) dt, [dW (t)]3 , . . .in quanto infinitesimi di ordine superiore a dt, ma di conservare quelli del tipo[dW (t)]2 = Ddt che – contrariamente alle apparenze – sono invece dell’ordine didt. Per evitare ripetizioni qui ci limiteremo a dimostrare solo che [dW (t)]2 = Ddt,ovvero ∫ t

t0

G(s)[dW (s)

]2= D

∫ t

t0

G(s) ds

238

Page 239: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

8.3 Ito stochastic calculus

tralasciando di verificare – in maniera del tutto analoga – che le altre espressioni siannullano. Dovremo dunque provare con la solita procedura di Riemann che

limn-ms

n∑j=1

Gj−1(∆Wj)2 = D lim

n-ms

n∑j=1

Gj−1∆tj

ovvero equivalentemente che

limn-ms

n∑j=1

[Gj−1(∆Wj)

2 −Gj−1D∆tj]= lim

nEn = 0 (8.20)

avendo posto sinteticamente

En = E

∣∣∣∣∣n∑

j=1

Gj−1

[(∆Wj)

2 −D∆tj]∣∣∣∣∣

2

= E

[n∑

j=1

G2j−1

[(∆Wj)

2 −D∆tj]2

+2∑j<k

Gj−1Gk−1

[(∆Wj)

2 −D∆tj][(∆Wk)

2 −D∆tk]]

A causa della non anticipativita di G(t), il termine G 2j−1 risulta indipendente da

(∆Wj)2 − D∆tj, e Gj−1Gk−1

[(∆Wj)

2 − D∆tj]risulta indipendente da (∆Wk)

2 −D∆tk; pertanto – tenendo anche conto del fatto che in base al Lemma 8.3 si haE [(∆Wk)

2 −D∆tk] = 0 – per il secondo termine dell’espressione di En si ha

E[Gj−1Gk−1

[(∆Wj)

2 −D∆tj][(∆Wk)

2 −D∆tk]]

= E[Gj−1Gk−1

[(∆Wj)

2 −D∆tj]]E[(∆Wk)

2 −D∆tk]= 0

mentre per il primo termine, sempre tenendo conto del Lemma 8.3, si trova

E[[(∆Wj)

2 −D∆tj]2]

= E[(∆Wj)

4]+ (D∆tj)

2 − 2D∆tjE[(∆Wj)

2]

= 3(D∆tj)2 + (D∆tj)

2 − 2(D∆tj)2 = 2(D∆tj)

2

e quindi complessivamente

En = 2D2

n∑j=1

(∆tj)2E

[G2

j−1

]≤ 2D2max

j∆tj

n∑j=1

∆tj E[G2

j−1

]Il risultato (8.20) resta quindi acquisito dato che nella procedura di Riemann δ =maxj∆tj → 0 mentre, con ragionevoli condizioni su G(t), il secondo fattore restalimitato.

239

Page 240: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

Proposition 8.9. Dato un processo di Wiener W (t) con W (t0) = w0, per n =1, 2, . . . risulta∫ t

t0

W n(s) dW (s) =W n+1(t)− wn+1

0

n+ 1− nD

2

∫ t

t0

W n−1(s) ds (8.21)

Proof: La (8.21) generalizza il risultato (8.13) e puo essere ricavata facilmente uti-lizzando i risultati simbolici della Proposizione 8.8 sugli ordini degli infinitesimi. Siha infatti

dW n+1(t) = W n+1(t+ dt)−W n+1(t) =[W (t) + dW (t)

]n+1 −W n+1(t)

=n+1∑k=0

(n+ 1

k

)W n+1−k(t)[dW (t)]k −W n+1(t)

=n+1∑k=1

(n+ 1

k

)W n+1−k(t)[dW (t)]k

=

(n+ 1

1

)W n(t)dW (t) +

(n+ 1

2

)W n−1(t)

[dW (t)

]2= (n+ 1)W n(t)dW (t) +

(n+ 1)n

2W n−1(t)Ddt

e pertanto

W n+1(t)−W n+1(t0) =

∫ t

t0

dW n+1(s)

= (n+ 1)

∫ t

t0

W n(s) dW (s) +(n+ 1)n

2D

∫ t

t0

W n−1(s) ds

da cui si ottiene immediatamente il risultato tenendo anche conto della condizioneW (t0) = w0

8.3.4 Differentiation rules and integration by parts

Proposition 8.10. Se g(x, t) e derivabile almeno due volte in x e una in t, e seW (t) e un processo di Wiener, posto

gx = ∂xg gxx = ∂2xg gt = ∂tg

si ha la seguente regola di differenziazione

dg(W (t), t

)=

[gt(W (t), t

)+

D

2gxx(W (t), t

)]dt+ gx

(W (t), t

)dW (t) (8.22)

240

Page 241: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

8.3 Ito stochastic calculus

Proof: Tenendo conto della Proposizione 8.8 si ha

dg(W (t), t

)= g

(W (t+ dt), t+ dt

)− g(W (t), t

)=

[g(W (t+ dt), t+ dt

)− g(W (t), t+ dt

)]+[g(W (t), t+ dt

)− g(W (t), t

)]=

[g(W (t), t+ dt

)+ gx

(W (t), t+ dt

)dW (t)

+1

2gxx(W (t), t+ dt

)[dW (t)

]2+ . . .− g

(W (t), t+ dt

)]+[g(W (t), t

)+ gt

(W (t), t

)dt

+1

2gtt(W (t), t

)(dt)2 + . . .− g

(W (t), t

)]=

[gx(W (t), t

)+ gxt

(W (t), t

)dt+ . . .

]dW (t)

+1

2

[gxx(W (t), t

)+ gxxt

(W (t), t

)dt+ . . .

] [dW (t)

]2+ . . .

+gt(W (t), t

)dt+

1

2gtt(W (t), t

)(dt)2 + . . .

= gx(W (t), t

)dW (t) +

D

2gxx(W (t), t

)dt+ gt

(W (t), t

)dt

cioe il risultato richiesto (8.22)

Exemple 8.11. In pratica nelle differenziazioni stocastiche bisogna tenere conto

del fatto che[dW (t)

]2e un infinitesimo dell’ordine di dt e non di ordine superiore:

in particolare questo produce la presenza di termini che sarebbero altrimenti nonspiegabili. Cosı ad esempio per un processo di Wiener geometrico (6.59) X(t) =eW (t) si ha g(x, t) = ex e quindi

dX(t) = d(eW (t)

)= eW (t) dW (t) +

D

2eW (t) dt

Allo stesso modo, se X(t) = W 2(t), cioe se g(x, t) = x2, si ottiene

dX(t) = d(W 2(t)

)= 2W (t) dW (t) +Ddt

Si noti che i termini aggiuntivi rispetto alle regole tradizionali sono contrassegnatidalla presenza del coefficiente di diffusione D: se questo si annulla i processi de-generano in traiettorie deterministiche, e le regole tornano ad essere quelle ordi-narie. Naturalmente questa osservazione – adeguatamente riformulata – puo essereestesa anche a tutte le altre formule del calcolo stocastico incontrate finora, ad es-empio (8.13), (8.18), (8.19), (8.21) e (8.22)

241

Page 242: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

Le nuove regole di differenziazione permettono anche di generalizzare le formuledell’integrazione per parti : e noto ad esempio dal calcolo ordinario che

d[x(t)h(x(t), t)

]= x(t) dh(x(t), t) + h(x(t), t) dx(t)

da cui si ricava la formula∫ b

a

h(x(t), t) dx(t) =[x(t)h(x(t), t)

]ba−∫ b

a

x(t) dh(x(t), t)

Questa espressione si riduce a quella piu familiare quando h(x, t) non dipende da x:in questo caso infatti si ha

d[x(t)h(t)

]= x(t) dh(t) + h(t) dx(t) =

[x(t)h(t) + x(t)h(t)

]dt

e quindi con un’integrazione∫ b

a

h(t)x(t) dt =[h(t)x(t)

]ba−∫ b

a

h(t)x(t) dt

Il calcolo stocastico richiede una modifica di questi risultati, ma le differenze sonovisibili solo nel caso in cui h(x, t) dipende anche da x

Proposition 8.12. Integrazione per parti: Se h(x, t) e derivabile almeno duevolte in x e una in t, e W (t) e un processo di Wiener con W (t0) = w0, la regola diintegrazione per parti e∫ t

t0

h(W (s), s

)dW (s) =

[W (s)h

(W (s), s

)]tt0−∫ t

t0

W (s) dh(W (s), s

)−D

∫ t

t0

hx

(W (s), s

)ds (8.23)

Proof: Applicando le regole di differenziazione (8.22) con g(x, t) = xh(x, t) si ha

gt = xht gx = h+ xhx gxx = 2hx + xhxx

e quindi

d[W (t)h

(W (t), t

)]= dg

(W (t), t

)=

[W (t)ht

(W (t), t

)+

D

2

(2hx

(W (t), t

)+W (t)hxx

(W (t), t

))]dt

+[h(W (t), t

)+W (t)hx

(W (t), t

)]dW (t)

= W (t)

[(ht

(W (t), t

)+

D

2hxx

(W (t), t

))dt+ hx

(W (t), t

)dW (t)

]+h(W (t), t

)dW (t) +Dhx

(W (t), t

)dt

= W (t)dh(W (t), t

)+ h(W (t), t

)dW (t) +Dhx

(W (t), t

)dt

da cui segue la formula per semplice integrazione.

242

Page 243: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

8.4 Stochastic differential equations (SDE)

8.4 Stochastic differential equations (SDE)

8.4.1 Stochastic differentials and Ito formula

Definition 8.13. Diremo che un processo X(t) ammette in [0, T ] il differenzialestocastico

dX(t) = A(t) dt+B(t) dW (t) (8.24)

quando per ogni t0, t con 0 ≤ t0 < t ≤ T esso puo essere rappresentato come

X(t) = X(t0) +

∫ t

t0

A(s) ds+

∫ t

t0

B(s) dW (s)

dove W (t) e un processo di Wiener con W (t0) = w0, e A(t) e B(t) sono due processitali che

P

∫ T

0

|A(t)| dt < +∞

= 1 P

∫ T

0

|B(t)|2 dt < +∞

= 1

Proposition 8.14. Formula di Ito: Se X(t) ammette il differenziale stocas-tico (8.24), e se g(x, t) e una funzione derivabile almeno due volte in x e una voltain t, allora anche g

(X(t), t

)ammette il differenziale stocastico

d g(X(t), t

)=

[gt(X(t), t

)+

D

2B2(t)gxx

(X(t), t

)]dt+ gx

(X(t), t

)dX(t) (8.25)

=

[gt(X(t), t

)+ A(t)gx

(X(t), t

)+

D

2B2(t)gxx

(X(t), t

)]dt+B(t)gx

(X(t), t

)dW (t)

Proof: La (8.25) generalizza la (8.22) che si ottiene per A(t) = 0 e B(t) = 1, cioequando da (8.24) si ha che X(t) = W (t). Per dimostrare (8.25) osserviamo cheda (8.24) e dalle regole (8.19) si ha simbolicamente[

dX(t)]2

=[A(t)dt

]2+[B(t)dW (t)

]2+ 2A(t)B(t)dW (t)dt = B2(t)Ddt

e quindi, riproducendo la dimostrazione di (8.22) con X(t) al posto di W (t), avremo

dg(X(t), t

)=

[gx(X(t), t

)+ gxt

(X(t), t

)dt+ . . .

]dX(t)

+1

2

[gxx(X(t), t

)+ gxxt

(X(t), t

)dt+ . . .

] [dX(t)

]2+ . . .

+gt(X(t), t

)dt+

1

2gtt(X(t), t

)(dt)2 + . . .

= gx(X(t), t

)[A(t) dt+B(t) dW (t)

]+D

2B2(t)gxx

(X(t), t

)dt+ gt

(X(t), t

)dt

da cui discende immediatamente la formula di Ito (8.25)

243

Page 244: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

8.4.2 SDE ’s and their solutions

Definition 8.15. Chiameremo equazione differenziale stocastica (EDS) la

dX(t) = a(X(t), t

)dt+ b

(X(t), t

)dW (t) 0 ≤ t0 < t ≤ T (8.26)

X(t0) = X0 P -a.s.

dove W (t) e un processo di Wiener con W (t0) = w0, e X0 una r.v. indipendenteda W (t), e diremo che un processo X(t) e una soluzione se esso ammette (8.26)come differenziale stocastico, ovvero se

X(t) = X0 +

∫ t

t0

a(X(s), s

)ds+

∫ t

t0

b(X(s), s

)dW (s) (8.27)

Si dice che la soluzione e unica se, comunque scelte due soluzioni X1(t) e X2(t)risulta

P

sup

t0≤t≤T|X1(t)−X2(t)| > 0

= 0

Le soluzioni di (8.26) possono essere determinate mediante varie procedure di ap-prossimazioni successive:

1. si costruisce una successione di processi approssimanti mediante la prescrizione

X0(t) = X0

Xn(t) = X0 +

∫ t

t0

a(Xn−1(s), s

)ds+

∫ t

t0

b(Xn−1(s), s

)dW (s)

e se ne studia il processo limite per n → ∞; questo e il tipico procedimentoiterativo usato per la dimostrazione dei Teoremi di esistenza e unicita;

2. si costruiscono le traiettorie del processo soluzione con un metodo iterativomolto usato per generare delle simulazioni: scelti degli istanti (in genereequidistanti)

t0 < t1 < . . . < tn = t ≤ T

si costruiscono i campioni partendo da un valore iniziale x0 e secondo la pre-scrizione

xj+1 = xj + a(xj, tj)∆tj + b(xj, tj)∆wj

dovexj = x(tj) ∆tj = tj+1 − tj ∆wj = w(tj+1)− w(tj)

e w(t) e un campione del processo di Wiener W (t); i campioni ∆wj di ∆Wj

sono ovviamente estratti in maniera indipendente dalle xj. Ogni valore di x0 eogni campione w(t) del processo di Wiener determina una possibile traiettoriadiscretizzata. Si esegue poi un limite per n → ∞ e si dice che la soluzioneesiste se tale limite esiste quasi per ogni campione w(t) del processo di Wiener;la soluzione poi e unica se quasi per ogni campione w(t) del processo di Wienertale traiettoria limite e unica.

244

Page 245: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

8.4 Stochastic differential equations (SDE)

Theorem 8.16. Teorema di esistenza e unicita: L’EDS (8.26) ammette un’unicasoluzione X(t) se sono soddisfatte le condizioni di Lipschitz, cioe se esistono duenumeri k1 e k2 tali che

|a(x, t)− a(y, t)|+ |b(x, t)− b(y, t)| ≤ k1|x− y||a(x, t)|2 + |b(x, t)|2 ≤ k2(1 + |x|2)

comunque presi x, y e t ∈ [0, T ]. La soluzione e un processo (globalmente) continuoe non anticipativo

Proof: Omessa6. La dimostrazione consiste nella verifica del fatto che che la succes-sione di processi Xn(t) generata con la procedura 1 converge P -a.s. e uniformementein [0, T ]. Siccome non sempre le funzioni a(x, t) e b(x, t) soddisfano le condizioni diLipschitz, si usa introdurre il concetto di soluzione debole contrapposto a quellodi soluzione forte introdotto nella Definizione 8.15. Noi non potremo soffermarcisu questa distinzione

Corollary 8.17. Cambiamento di variabile: Se X(t) e soluzione della EDS (8.26)e g(x, t) e una funzione derivabile almeno due volte in x e una volta in t, allora laformula di Ito per il processo Y (t) = g

(X(t), t

)diviene

dg(X(t), t

)=

[gt(X(t), t

)+ a(X(t), t

)gx(X(t), t

)+

D

2b2(X(t), t

)gxx(X(t), t

)]dt

+ b(X(t), t

)gx(X(t), t

)dW (t) (8.28)

e puo essere messa sotto forma di una nuova EDS per Y (t)

Proof: Discende facilmente dalla Formula di Ito (8.25)

8.4.3 SDE ’s and Fokker-Planck aquations

Nel seguito il calcolo dei valori d’attesa sara sempre eseguito tenendo conto di tuttele condizioni iniziali richieste sui processi coinvolti (X(t), W (t) o anche altri), equindi con le corrispondenti distribuzioni condizionate

Proposition 8.18. Ogni soluzione dell’EDS (8.26) e un processo di Markov

Proof: Ci limiteremo a una spiegazione intuitiva costruendo i campioni delle traiet-torie di X(t) secondo la procedura 2. Dato X(s) = y per un dato s > t0, l’evoluzionedi X(t) per t > s dipendera dal campione w(t) di W (t) per t > s. D’altra parteX(t) e non anticipativo, e quindi X(t′) con t′ < s e indipendente da W (t) con t > s.Ne segue che, noto y, i valori di X(t) con t > s saranno indipendenti da quelli cont′ < s, e quindi X(t) e un processo di Markov.

6I. Karatzas, S.E. Shreve, Brownian Motion and Stochastic Calculus, Springer(Berlin, 1991). B. Øksendal, Stochastic Differential Equations, Springer (Berlin, 2005)

245

Page 246: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

Proposition 8.19. Se X(t) e una soluzione a.c. dell’EDS (8.26) con X(t0) =X0, P -a.s., allora la sua p.d.f. sara soluzione dell’equazione di Fokker–Planck

∂tf(x, t) = −∂x [A(x, t)f(x, t)] +1

2∂2x [B(x, t)f(x, t)] f(x, t0) = f0(x)

dove f0 e la p.d.f. di X0, e

A(x, t) = a(x, t) B(x, t) = D b2(x, t) (8.29)

In particolare la p.d.f. di transizione f(x, t |x0, t0) corrispondera alla condizioneiniziale f(x, t0) = δ(x− x0), cioe X(t0) = x0, P -a.s.

Proof: Abbiamo gia osservato che una soluzione dell’EDS (8.26) e un processo diMarkov continuo, e pertanto la sua p.d.f. di transizione sara soluzione di qualcheforma di equazione di Fokker–Planck (7.77). Supponiamo allora cheX(t0) = x0, P -a.s.,e che h(x) sia una funzione derivabile almeno due volte in x, ma costante in t: dallaFormula del cambiamento di variabile (8.28) abbiamo allora

dh(X(t)

)=

[a(X(t), t

)h′(X(t)

)+

D

2b2(X(t), t

)h”(X(t)

)]dt

+ b(X(t), t

)h′(X(t)

)dW (t)

Siccome X(t) e non anticipativo avremo

E[b(X(t), t

)h′(X(t)

)dW (t)

]= E

[b(X(t), t

)h′(X(t)

)]E [dW (t)] = 0

e quindi integrando per parti

E[dh(X(t)

)]= E

[a(X(t), t

)h′(X(t)

)+

D

2b2(X(t), t

)h”(X(t)

)]dt

=

∫ +∞

−∞

[a(x, t)h′(x) +

D

2b2(x, t)h”(x)

]f(x, t |x0, t0) dx dt

=

∫ +∞

−∞

[− ∂x [a(x, t)f(x, t |x0, t0)]

+D

2∂2x

[b2(x, t)f(x, t |x0, t0)

]]h(x) dx dt

D’altra parte abbiamo anche

E[dh(X(t)

)]= dE

[h(X(t)

)]=

d

dtE[h(X(t)

)]dt

=

∫ +∞

−∞h(x)∂tf(x, t |x0, t0) dx dt

Confrontando allora le due espressioni, il risultato per la p.d.f. di transizione derivadall’arbitrarieta di h(x). L’equazione per condizioni iniziali piu generali si ricava poifacilmente da quella per la p.d.f. di transizione.

246

Page 247: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

8.5 Notables SDE’s

Dato il ruolo giocato dai coefficientiA eB nelle equazioni in avanti (vedi Sezione 7.2.3),il risultato della Proposizione 8.19 suggerisce quindi di interpretare anche i coeffici-enti a e b dell’EDS (8.26) rispettivamente come velocita di trascinamento e coeffi-ciente di diffusione.

8.5 Notables SDE ’s

Sara utile ricordare innanzitutto che la legge di un processo di Markov X(t) e com-pletamente specificata dalla conoscenza delle p.d.f. f(x, t) e f(x, t ; y, s). Se peroX(t) e un processo Gaussiano (vedi Sezione 7.1.10) queste due p.d.f. sono comple-tamente determinate da E [X(t)] e cov [X(t), X(s)]: infatti in questo caso si ha

f(x, t) = N(E [X(t)] ,V [X(t)]

)f(x, t; y, s) = N

(b,A

)dove

b =

(E [X(t)]E [X(s)]

)A =

(V [X(t)] cov [X(s), X(t)]

cov [X(t), X(s)] V [X(s)]

)Inoltre, per un processo di Wiener con condizione iniziale W (t0) = w0, sara utiledefinire anche il corrispondente processo centrato per il quale adotteremo la no-tazione W (t) = W (t) − w0 con un riadattamento delle formule (8.9) e (8.10) deltipo

E[W (t)

]= 0 E

[W (s)W (t)

]= Dmins− t0 , t− t0

8.5.1 Constant coefficients SDE ’s

Il caso piu semplice di EDS si ha per a(x, t) = a, b(x, t) = b costanti: in tal casol’equazione si riduce a

dX(t) = a dt+ b dW (t) X(t0) = X0 (8.30)

e la sua soluzione esplicita e semplicemente

X(t) = X0 + a(t− t0) + b[W (t)− w0

]L’equazione di Fokker–Planck corrispondente secondo la Proposizione 8.19 e poi

∂tf(x, t) = −a ∂xf(x, t) +Db2

2∂2xf(x, t) f(x, t0) = f0(x)

se f0 e la p.d.f. di X0. Inoltre la soluzione risulta X(t) Gaussiana se la condizioneiniziale X0 e Gaussiana, e in particolare se X0 = x0, P -a.s.. E facile quindi capireche in questi casi la soluzione di (8.30) non e nient’altro che un processo di Wienerreso un po’ piu generale dall’introduzione di un trascinamento a e di un riscalamento

247

Page 248: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

della diffusione b, in modo che la sua p.d.f. di transizione e N (a(t − t0) , Db2(t −t0)). Naturalmente se in particolare a = 0 e b = 1, X(t) coinciderebbe propriocon un processo di Wiener con equazione (7.87). Si noti che invece un’arbitrariacondizione inizialeX0 produrrebbe un processoX(t) con la stessa p.d.f. di transizioneWieneriana, ma con leggi differenti, in generale non Gaussiane

8.5.2 SDE ’s with time dependent coefficients

Con a(x, t) = a(t), b(x, t) = b(t) dipendenti solo dal tempo l’EDS (8.26) diventa

dX(t) = a(t) dt+ b(t) dW (t) X(t0) = X0, P -a.s. (8.31)

e formalmente la sua soluzione esplicita e

X(t) = X0 +

∫ t

t0

a(t′) dt′ +

∫ t

t0

b(t′) dW (t′) (8.32)

Anche in questo caso quindi – essendo l’integrale di Wiener ovviamente Gaussiano– la soluzione risulta Gaussiana se X0 lo e, e in particolare se X0 = x0. Inoltre lacorrispondente equazione di Fokker–Planck e ora

∂tf(x, t) = −a(t)∂xf(x, t) +D

2b(t)2∂2

xf(x, t) f(x, t0) = f0(x)

Per determinare la distribuzione del processo bastera calcolare la p.d.f. di transizioneassociata alla condizione iniziale degenere X(t0) = x0: altre soluzioni con condizioniiniziali generiche f0(x) si ottengono dalle equazioni di Chapman-Kolmogorov (7.16)

Proposition 8.20. La soluzione X(t) dell’EDS

dX(t) = a(t) dt+ b(t) dW (t) X(t0) = x0, P -a.s. (8.33)

e un processo Gaussiano con (s ∧ t = mins, t)

m(t) = E [X(t)] = x0 +

∫ t

t0

a(t′) dt′ cov [X(s), X(t)] = D

∫ s∧t

t0

b2(t′) dt′ (8.34)

e quindi la p.d.f. di transizione e N (m(t) , σ2(t)), con σ2(t) = V [X(t)] da (8.34)

Proof: Trattandosi di un processo Gaussiano bastera determinare l’attesa e la co-varianza. Per l’attesa da (8.32) con X0 = x0 si ha

m(t) = E [X(t)] = E [X0] +

∫ t

t0

a(t′) dt′ +

∫ t

t0

b(t′)E [dW (t′)] = x0 +

∫ t

t0

a(t′) dt′

Per la covarianza invece, supponendo t0 < s < t, dai risultati precedenti conX0 = x0

si ha

cov [X(s), X(t)] = E[(X(t)−E [X(t)]

)(X(s)−E [X(s)]

)]= E

[∫ t

t0

b(t′) dW (t′)

∫ s

t0

b(s′) dW (s′)

]248

Page 249: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

8.5 Notables SDE’s

e poi dall’indipendenza dei dW (t) su intervalli non sovrapposti, e da (8.18)

cov [X(s), X(t)] = E

[∫ s

t0

b(t′) dW (t′)

∫ s

t0

b(s′) dW (s′)

]+E

[∫ t

s

b(t′) dW (t′)

∫ s

t0

b(s′) dW (s′)

]= D

∫ s

t0

b2(t′) dt′

per cui in definitiva risultano verificate le (8.34). In particolare poi, ricordando cherisulta anche

σ2(t) = V [X(t)] = cov [X(t), X(t)] = D

∫ t

t0

b2(t′) dt′

si trova che la p.d.f. di transizione e N (m(t) , σ2(t))

8.5.3 SDE ’s with diffusion linear in x

Supponiamo ora che il coefficiente di diffusione sia b(x, t) = cx con c > 0, e persemplicita poniamo a(x, t) = 0 per il trascinamento: la nostra EDS assume quindila forma

dX(t) = cX(t) dW (t) X(t0) = X0 > 0, P -a.s. (8.35)

mentre la corrispondente equazione di Fokker–Planck, con A(x, t) = a(x, t) = 0 eB(x, t) = Db2(x, t) = Dc2x2, e

∂tf(x, t) =Dc2

2∂2x

[x2f(x, t)

]f(x, t0) = f0(x)

Per risolvere la (8.35) converra trasformarla introducendo il processo ausiliario

Y (t) = lnX(t) Y (t0) = Y0 = lnX0

la cui equazione puo essere determinata con un’applicazione della formula (8.28):osservando infatti che

g(x, t) = lnx gx(x, t) =1

xgxx(x, t) = − 1

x2gt(x, t) = 0

da (8.28) si ottiene immediatamente

dY (t) = −Dc2

2dt+ c dW (t) Y (t0) = Y0 (8.36)

Si noti che il primo termine del secondo membro non ci sarebbe se adottassimo leregole del calcolo ordinario: in pratica la formula di Ito richiede la presenza di un

249

Page 250: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

ulteriore termine di trascinamento del tutto estraneo ad una teoria non stocastica.L’EDS (8.36) ha ora dei coefficienti costanti come l’equazione (8.30) trattata nellaSezione 8.5.1, e quindi la sua soluzione e semplicemente

Y (t) = Y0 −Dc2

2(t− t0) + c

[W (t)− w0

](8.37)

Possiamo a questo punto ritornare al processo iniziale con X0 = eY0 per il qualetroviamo

X(t) = eY (t) = X0 e−Dc2(t−t0)/2ec [W (t)−w0]

Il processo Y (t) risulta Gaussiano se Y (t0) lo e, e in particolare se la condizioneiniziale e degenere Y (t0) = y0, P -a.s.; X(t) invece e Markoviano ma non Gaussiano.Potremo comunque calcolare le p.d.f. di transizione per Y (t) e per X(t), e successi-vamente anche le altre distribuzioni mediante le equazioni di Chapman-Kolmogorov

Proposition 8.21. La legge al tempo t delle soluzioni dell’EDS (8.35) con con-dizione iniziale degenere

dX(t) = cX(t) dW (t) X(t0) = x0 > 0, P -a.s. (8.38)

e la p.d.f. di transizione log-normale

lnN

(lnx0 −

Dc2

2(t− t0) , Dc2(t− t0)

)(8.39)

e inoltrecov [X(s), X(t)] = x2

0

(eDc2(s−t0)∧(t−t0) − 1

)(8.40)

Proof: Converra partire da un esame del processo ausiliario Y (t) perche questo, concondizioni iniziali Gaussiane, e a sua volta Gaussiano e la sua legge e completamentedeterminata da E [Y (t)] e cov [Y (s), Y (t)] che si possono calcolare facilmente. In-fatti se Y0 ∼ N (y0, σ

20) e la r.v. iniziale indipendente da W (t), da (8.37) si ha

innanzitutto

E [Y (t)] = y0 −Dc2

2(t− t0) (8.41)

Posto poi per comodita Y0 = Y0 − y0, e

Y (t) = Y (t)−E [Y (t)] = Y0 − y0 + c[W (t)− w0] = Y0 + cW (t)

si ottiene dalle proprieta del processo di Wiener centrato

cov [Y (s), Y (t)] = E[Y (s)Y (t)

]= E

[(Y0 + cW (s))(Y0 + cW (t))

]= E

[Y 20

]+ c2E

[W (s)W (t)

]= σ2

0 +Dc2mint− t0 , s− t0 (8.42)

250

Page 251: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

8.5 Notables SDE’s

da cui anche V [Y (t)] = σ20 +Dc2(t− t0) e quindi al tempo t

Y (t) ∼ N

(y0 −

Dc2

2(t− t0) , σ

20 +Dc2(t− t0)

)Pertanto, tornando al processo X(t) = eY (t), con la condizione iniziale X0 = eY0 ∼lnN (y0, σ

20) = lnN (lnx0, σ

20), risultera al tempo t

X(t) ∼ lnN

(lnx0 −

Dc2

2(t− t0) , σ

20 +Dc2(t− t0)

)Il processo X(t) quindi non e piu Gaussiano, ma si presenta come una generaliz-zazione di un processo di Wiener geometrico. Ponendo poi σ0 = 0 si ottiene lap.d.f. di transizione (8.39) e – con le equazioni di Chapman-Kolmogorov e con laregola di moltiplicazione a catena – la legge completa del processo. Bisogna os-servare che, diversamente dal processo Y (t) che e Gaussiano, questa legge globaledel processo X(t) non e invece deducibile dalla semplice conoscenza di E [X(t)]e cov [X(s), X(t)]. Ciononostante calcoleremo per completezza queste quantita,che comunque contengono importanti informazioni sul processo, sempre per il casoX0 ∼ lnN (y0, σ

20) con x0 = ey0 . Usando a questo scopo le formule (3.68) per le leggi

log-normali, abbiamo innanzitutto

E [X(t)] = x0 eσ20/2 V [X(t)] = x2

0 eσ20

(eσ

20+Dc2(t−t0) − 1

)(8.43)

Per l’autocorrelazione invece osserviamo che X(s)X(t) = eY (s)+Y (t), e che in basealla Proposizione 4.20 le r.v. Y (s) + Y (t) risultano comunque sempre normali conmedie e varianze facilmente calcolabili. Infatti da (8.41) si ha innanzitutto

E [Y (s) + Y (t)] = 2y0 −Dc2

2(s+ t− 2t0)

mentre dalla Proposizione 3.29 e da (8.42)

V [Y (s) + Y (t)] = V [Y (s)] + V [Y (t)] + 2cov [Y (s), Y (t)]

= 4σ20 +Dc2 [(s+ t− 2t0) + 2mint− t0 , s− t0]

Complessivamente quindi risulta

X(s)X(t) ∼ lnN

(2y0 −

Dc2

2(s+ t− 2t0) ,

4σ20 +Dc2 [(s+ t− 2t0) + 2(t− t0) ∧ (s− t0)]

)per cui da (3.68) si ha

E [X(s)X(t)] = e2y0+2σ20+Dc2(t−t0)∧(s−t0) = x2

0 e2σ2

0 eDc2(t−t0)∧(s−t0)

251

Page 252: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

e finalmente da (8.43)

cov [X(s), X(t)] = x20 e

2σ20

(eDc2(t−t0)∧(s−t0) − 1

)Il risultato (8.40) si ottiene infine con condizione iniziale degenere, cioe σ0 = 0

8.5.4 SDE ’s with drift linear in x

Assumendo a(x, t) = −αx con α > 0, e b(x, t) = 1: la nostra EDS sara

dX(t) = −αX(t)dt+ dW (t) X(t0) = X0 (8.44)

e, con la solita identificazione dei coefficienti

A(x, t) = a(x, t) = −αx B(x, t) = Db2(x, t) = D

corrispondera all’equazione di Fokker-Planck per processo di Ornstein-Uhlenbeck

∂tf(x, t) = α∂x[xf(x, t)

]+

D

2∂2xf(x, t) f(x, t0) = f0(x)

gia introdotta nella Proposizione 7.39, e della quale conosciamo gia le soluzioni cheora ricaveremo nuovamente con l’applicazione del calcolo stocastico. Per determinarela soluzione di (8.44) converra anche in questo caso introdurre un processo ausiliario

Y (t) = X(t) eα(t−t0) Y (t0) = X0

la cui equazione si determina da (8.28) osservando che per g(x, t) = xeα(t−t0) si ha

gx(x, t) = eα(t−t0) gxx(x, t) = 0 gt(x, t) = αxeα(t−t0)

Ne segue allora che Y (t) soddisfa l’equazione

dY (t) = eα(t−t0) dW (t) (8.45)

che e del tipo con coefficienti dipendenti solo dal tempo (8.31) con soluzione

Y (t) = X0 +

∫ t

t0

eα(s−t0)dW (s)

Ricordando allora che X(t) = e−α(t−t0)Y (t), la soluzione dell’equazione (8.44) sara

X(t) = X0 e−α(t−t0) +

∫ t

t0

e−α(t−s)dW (s) (8.46)

e sara quindi Gaussiana se X0 lo e, in particolare se X0 = x0 , P -a.s.. Se quindisupponiamo X0 ∼ N (x0, σ

20), potremo ricavare tutte le proprieta del processo X(t)

calcolandone l’attesa e l’autocovarianza: la legge globale del processo seguira poidalle equazioni di Chapman-Kolmogorov e dalla regola di moltiplicazione a catena

252

Page 253: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

8.5 Notables SDE’s

Proposition 8.22. La soluzione X(t) dell’EDS

dX(t) = −αX(t)dt+ dW (t) X(t0) = x0, P -a.s. (8.47)

e un processo Gaussiano con (β2 = D/2α)

E [X(t)] = x0 e−α(t−t0) cov [X(s), X(t)] = β2

(−e−α(s+t−2t0) + e−α|t−s|) (8.48)

e quindi la p.d.f. di transizione e N(x0e

−α(t−t0), β2(1− e−2α(t−t0)))

Proof: Siccome la soluzione con condizione iniziale Gaussiana e ancora Gaussiana,bastera calcolarne attesa e covarianza, e cominceremo supponendo cheX0 ∼ N (x0, σ

20):

dalla (8.17) si ha innanzitutto

E [X(t)] = E [X0] e−α(t−t0) = x0 e

−α(t−t0) (8.49)

Quanto all’autocovarianza invece, da (8.17), (8.18) e dalle indipendenze dei processisu intervalli non sovrapposti si ha

cov [X(s), X(t)] = E [ (X(t)−E [X(t)]) (X(s)−E [X(s)]) ]

= E

[((X0 − x0)e

−α(t−t0) +

∫ t

t0

e−α(t−t′)dW (t′)

)·(

(X0 − x0)e−α(s−t0) +

∫ s

t0

e−α(s−s′)dW (s′)

)]= V [X0] e

−α(s+t−2t0)

+E

[∫ t

t0

e−α(t−t′)dW (t′)

∫ s

t0

e−α(s−s′)dW (s′)

]= σ2

0 e−α(s+t−2t0) +D

∫ s∧t

t0

e−α(t+s−2t′)dt′

= σ20 e

−α(s+t−2t0) +De−α(t+s) e2α(s∧t) − e2αt0

=

(σ20 −

D

)e−α(s+t−2t0) +

D

2αe−α|t−s|

essendo facilmente verificato che s+ t−2(s∧ t) = |t−s|. In questo modo il processoX(t) e completamente determinato e in particolare la sua varianza e

V [X(t)] = cov [X(t), X(t)] = σ20 e

−2α(t−t0) +D

(1− e−2α(t−t0)

)(8.50)

Questi risultati permettono di ricavare anche la p.d.f. di transizione scegliendo comecondizione iniziale X0 = x0 , P -a.s., cioe σ2

0 = 0: infatti ponendo β2 = D/2αfacilmente si ottiene una legge N

(x0e

−α(t−t0), β2(1− e−2α(t−t0)))coincidente con la

ben nota espressione (7.54) date in precedenza per il processo di Ornstein-Uhlenbeck.Si noti la relativa facilita con la quale si ricava questo risultato dall’EDS (8.44) inveceche da una soluzione meno elementare della corrispondente equazione di Fokker-Planck 7.39.

253

Page 254: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

254

Page 255: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

Chapter 9

Dynamical theory of Brownianmotion

Nel 1930 L.S. Ornstein e G.F. Uhlenbeck affrontarono nuovamente il problema delmoto Browniano sviluppando in maniera piu dettagliata l’equazione dinamica diLangevin per studiare il fenomeno a scale di tempi piu piccole di quelle ipotizzateda Einstein e Smoluchowski nel 1905-6. Noi daremo ora, adattandola alle nostrenotazioni, un resoconto della teoria di Ornstein-Uhlenbeck, ed esamineremo sottoquali condizioni la teoria di Einstein-Smoluchowski e una buona approssimazione.

9.1 Free Brownian particle

Nella teoria di Ornstein-Uhlenbeck la posizione della particella Browniana e rap-presentata mediante un processo X(t) che viene supposto derivabile in modo cheesista sempre il processo della velocita V (t) = X(t). Riprendendo allora la discus-sione della Sezione 6.4.2 potremo scrivere le equazioni di Newton di una particellaBrowniana libera sferica, di massa m e diametro a, come un sistema di equazionidifferenziali del tipo

X(t) = V (t) (9.1)

mV (t) = −6πηaV (t) +B(t) (9.2)

dove, come visto nella Sezione 8.1, B(t) e un rumore bianco Wieneriano, mentreη e la viscosita del mezzo. In particolare la (9.2) indica che sulla nostra particellaagiscono due tipi di forze: una forza di attrito proporzionale alla velocita V (t), euna forza aleatoria rappresentata da un rumore bianco. Data la natura singolare diB(t) sappiamo pero che il nostro sistema deve piu correttamente essere scritto intermini di EDS come

dX(t) = V (t) dt (9.3)

dV (t) = −αV (t) dt+ dW (t) (9.4)

255

Page 256: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

dove abbiamo posto

α =6πηa

m(9.5)

mentre W (t) e ora un processo di Wiener con un opportuno coefficiente di diffusioneD. Si noti inoltre che il sistema (9.3), (9.4) e essenzialmente disaccoppiato perche laX(t) non compare nella seconda equazione: questo ci consentira di trattare le dueequazioni separatamente, risolvendo prima la (9.4) e utilizzandone poi la soluzionein (9.3). D’altra parte con un banale adeguamento della notazione si vede subitoche l’EDS (9.4) coincide con la (8.44) trattata nella Sezione 8.5.4 per cui, scegliendoper semplicita t0 = 0, e assegnando le condizioni iniziali X(0) = x0, e V (0) = v0, lesoluzioni del nostro sistema si scrivono immediatamente come

X(t) = x0 +

∫ t

0

V (s) ds (9.6)

V (t) = v0 e−αt +

∫ t

0

e−α(t−s) dW (s) (9.7)

Proposition 9.1. La velocita V (t) di un moto Browniano libero e un processo diOrnstein-Uhlenbeck con

E [V (t)] = v0 e−αt (9.8)

cov [V (s), V (t)] = β2(e−α|s−t| − e−α(s+t)

)(9.9)

dove β2 = D/2α e, con k costante di Boltzmann e T temperatura assoluta, si ha

β2 =kT

m(9.10)

La posizione X(t) e invece un processo Gaussiano, ma non Markoviano con

E [X(t)] = x0 +v0α

(1− e−αt

)(9.11)

cov [X(s), X(t)] =β2

α2

[2α(s ∧ t)− 2 + 2e−αs + 2e−αt

−e−α|s−t| − e−α(s+t)]

(9.12)

Proof: Che il processo V (t) in (9.7) sia un processo di Ornstein-Uhlenbeck conattesa (9.8) e autocovarianza (9.9) e gia stato mostrato nella Sezione 8.5.4: anchele proprieta generali di tale processo sono gia state completamente esposte nelleSezioni 7.1.9 e 7.2.4. Quanto alla (9.10) bisogna ricordare che secondo la Propo-sizione 7.27 per t → +∞ la distribuzione della velocita del processo di Ornstein-Uh-lenbeck tende verso la legge stazionaria N (0, β2). Pertanto in questa condizione diequilibrio termodinamico potremo applicare il principio di equipartizione dell’energianella forma

1

2kT =

1

2mβ2

256

Page 257: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

9.1 Free Brownian particle

da cui la (9.10) segue immediatamente. Dalla (9.6) inoltre si ricava che il processodella posizioneX(t) e Gaussiano per cui, come abbiamo mostrato nella Sezione 7.1.10,la sua legge e completamente determinata dalla conoscenza dell’attesa e dell’autocovarianza.Per provare allora che per la posizione X(t) valgono (9.11) e (9.12), osserviamo in-nanzitutto che da (9.6) si ha

E [X(t)] = x0 +

∫ t

0

E [V (s)] ds = x0 + v0

∫ t

0

e−αsds = x0 +v0α

(1− e−αt

)cioe la (9.11). Per l’autocovarianza invece si nota prima che

cov [X(s), X(t)] =

∫ s

0

∫ t

0

cov [V (s′), V (t′)] ds′dt′ (9.13)

Infatti, introducendo per comodita i processi centrati,

V (t) = V (t)−E [V (t)] = V (t)− v0e−αt (9.14)

X(t) = X(t)−E [X(t)] =

∫ t

0

V (s) ds− v0α

(1− e−αt

)=

∫ t

0

V (s) ds (9.15)

si ha facilmente che

cov [X(s), X(t)] = E[X(s)X(t)

]=

∫ s

0

∫ t

0

E[V (s′)V (t′)

]ds′dt′

=

∫ s

0

∫ t

0

cov [V (s′), V (t′)] ds′dt′

A questo punto da (9.13) e (9.9) risulta

cov [X(s), X(t)] = β2

∫ s

0

∫ t

0

(e−α|s′−t′| − e−α(s′+t′)

)ds′dt′

e la (9.12) si ricava con un’integrazione laboriosa ma elementare. Resta da mostrareche X(t) non e un processo di Markov, e noi lo faremo calcolando esplicitamente lap.d.f. di transizione di X(t), e verificando poi che essa non soddisfa le equazioni diChapman-Kolmogorov. Per calcolare esplicitamente le p.d.f. Gaussiane congiunte diX(t) chiamiamo per brevita b(t), a2(t) ed r(s, t) rispettivamente l’attesa, la varianzae il coefficiente di correlazione che si ricavano da (9.11) e (9.12): si vede allorache le p.d.f. a un tempo f(x, t) sono N (b(t), a2(t)), e quelle congiunte a due tempif(x, t; y, s) sono N (b,A) con

b =

(b(s)b(t)

)A =

(a2(s) a(s)a(t)r(s, t)

a(s)a(t)r(s, t) a2(t)

)A questo punto le p.d.f. di transizione f(x, t | y, s) con s < t si ricavano dalla Propo-sizione 3.40 e sono N (A(s, t)y +B(s, t) , C2(s, t)) dove abbiamo posto

A(s, t) = r(s, t)a(t)

a(s)B(s, t) = b(t)− r(s, t)

a(t)

a(s)b(s)

C2(s, t) = a2(t)[1− r2(s, t)]

257

Page 258: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

La conoscenza delle f(x, t | y, s) ci mette in condizione di verificare direttamente –ma noi non eseguiremo questo calcolo che si presenta piuttosto elaborato – che leequazioni di Chapman-Kolmogorov (7.17) sarebbero soddisfatte solo se risultasse

r(s, u)r(u, t) = r(s, t) s < u < t

Siccome in base alle (9.12) questo non accade, possiamo concludere che nella teoriadi Ornstein-Uhlenbeck il processo della posizione X(t) non e Markoviano in evidentecontrasto con quanto avviene nella teoria di Einstein e Smoluchowski nella quale,come rilevato nella Sezione 6.4.1, la posizione e invece descritta da un processo diWiener che e Markoviano

9.2 Comparison with Einstein-Smoluchowski

Per paragonare correttamente la trattazione di Einstein-Smoluchowski descritta nelCapitolo 6.4 con quella di Ornstein-Uhlenbeck qui introdotta bisogna notare subitoche nelle due teorie il simbolo D assume due significati differenti per cui saremoobbligati ora a introdurre anche due notazioni distinte:

• nella teoria di Einstein-Smoluchowski chiameremo DX il coefficiente di diffu-sione del processo di Wiener WX(t) che rappresenta direttamente la posizionedella particella Browniana; inoltre, dal fatto che la varianza di tale posizionecresce come DXt, ricaviamo che le sue dimensioni fisiche sono

[DX ] =mt2

sec

mentre da (6.76) sappiamo che il suo valore in termini di costanti fisiche e

DX =kT

3πηa

• nella teoria di Ornstein-Uhlenbeck, invece, chiameremo DV il coefficiente didiffusione del rumore WienerianoWV (t) che disturba l’equazione della velocita,per cui ora DV t rappresentera l’andamento della varianza di una velocita e lesue dimensioni fisiche saranno

[DV ] =mt2

sec3

mentre da (9.10) sappiamo che il suo valore e

DV = 2αβ2 =2kTα

m

258

Page 259: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

9.2 Comparison with Einstein-Smoluchowski

Ricordando allora che, come osservato in (9.5), nell’equazione (9.4) il coefficiente diattrito e α = 6πηa/m, e immediato verificare che fra i due coefficienti di diffusionesussiste la relazione

DX =DV

α2

Possiamo a questo punto istituire un confronto fra le due teorie osservando innanz-itutto che nel modello di Ornstein-Uhlenbeck la varianza della posizione si ricavada (9.12) e vale

V [X(t)] =β2

α2

(2αt− 3 + 4e−αt − e−2αt

)e quindi che per t ≫ 1/α avremo

V [X(t)] ≃ 2β2

αt =

DV

α2t = DX t

come nella teoria di Einstein-Smoluchowski. Questo suggerisce quindi di considerarequest’ultima come una buona approssimazione della teoria di Ornstein-Uhlenbeckper grandi tempi, o equivalentemente per grandi valori del coefficiente di attrito α

Proposition 9.2. Nell’ambito delle notazioni fin qui adottate, se α → +∞ (regimesovra-smorzato) e se 2β2/α converge verso un valore finito che chiamiamo DX ,allora il processo della posizione X(t) di Ornstein-Uhlenbeck con condizione inizialeX(0) = x0 converge in distribuzione – nel senso della Definizione 5.4 – verso unprocesso di Wiener WX(t) con coefficiente di diffusione DX e WX(0) = x0

Proof: Da (9.11) e (9.12) si vede facilmente che, nel limite indicato nell’enunciato,per ogni fissato t l’attesa e la covarianza del processo Gaussiano X(t) convergonoverso

E [X(t)] → x0 cov [X(s), X(t)] → DX(s ∧ t)

ovvero X(t) converge in distribuzione verso un processo di Wiener WX(t) con coef-ficiente di diffusione DX e condizione iniziale WX(0) = x0

In conclusione potremo ritenere da ora in poi che in regime sovra-smorzato, o co-munque per tempi t ≫ 1/α, la posizione del processo che descrive il moto Brownianolibero sia un processo di Wiener e soddisfi un’EDS del tipo

dX(t) = dWX(t) (9.16)

Si noti in particolare che asintoticamente la posizione X(t) diffonde in manieraisotropa dato che, come si vede da (9.8), la velocita iniziale v0 viene assorbita dalrumore di fondo e, dopo un breve transitorio, E [V (t)] → 0 per t ≫ 1/α

259

Page 260: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

9.3 Ornstein-Uhlenbeck Markovianity

Abbiamo visto nella Proposizione 9.1 che nella teoria di Ornstein-Uhlenbeck il pro-cesso della velocita V (t) e un processo di Markov, mentre la posizione X(t) non loe. Da un punto di vista formale questo deriva dal fatto che V (t) soddisfa l’EDSdi Langevin (9.4) e quindi e Markoviana in base alla Proposizione 8.18, mentrela (9.3) dice solo che X(t) ammette un differenziale stocastico dipendente pero daun altro processo, autonomo rispetto alla posizione. Dalla discussione svolta nellaSezione 7.1.1 sappiamo anche pero che in generale e possibile recuperare la Marko-vianita di un processo aggiungendo l’informazione necessaria a questo scopo: inquesto caso tipicamente dobbiamo prendere in considerazione processi vettoriali conpiu di una componente proprio per poter accomodare tutta l’informazione necessaria.Nel nostro caso la via da seguire e indicata dal ben noto fatto che in un sistemadinamico Newtoniano lo stato completo non e definito dalla sola posizione x(t),ma deve essere descritto in uno spazio delle fasi dalla coppia x(t), v(t) di posizionee velocita. Questo ci suggerisce quindi di prendere in considerazione il processovettoriale nello spazio delle fasi

Z(t) =

(X(t)V (t)

)mediante il quale potremo scrivere il sistema di equazioni (9.3) e (9.4) come un’unicaEDS

dZ(t) = a(Z(t)) dt+ C dW (t) (9.17)

per la quale abbiamo posto

a(z) = a(x, v) =

(v

−αv

)C =

(0 00 1

)(9.18)

mentre W (t) e un processo di Wiener vettoriale con

W (t) =

(WX(t)WV (t)

)Per ragioni di brevita noi non abbiamo trattato in precedenza il caso di EDS vet-toriali come la (9.17), che piu in generale possono essere scritte nella forma

dZ(t) = a(Z(t), t) dt+ C(Z(t), t) dW (t) (9.19)

ma daremo intuitivamente per acquisito che – con qualche complicazione della no-tazione – la maggior parte dei risultati enunciati nelle sezioni precedenti valga ancheper le EDS del tipo (9.19). La soluzione di (9.17) con la condizione iniziale

Z(0) = z0 =

(x0

v0

)(9.20)

260

Page 261: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

9.3 Ornstein-Uhlenbeck Markovianity

e ovviamente costituita dal vettore Z(t) le cui componenti sono le soluzioni (9.6)e (9.7) gia determinate in precedenza, ma in questa nuova formulazione viene messoin luce un aspetto trascurato nella discussione della Sezione 9.1: la necessita dideterminare anche la correlazione incrociata fra i due processi X(t) e V (t), e piu ingenerale le loro leggi congiunte, e non solo le loro marginali separate

Proposition 9.3. La covarianza incrociata dei processi X(t), V (t) di Ornstein-Uh-lenbeck e

cov [X(s), V (t)] =β2

α

[1 +

|t− s|t− s

(e−α|t−s| − 1

)− 2e−αt + e−α(t+s)

](9.21)

Proof: Utilizzando di nuovo i processi centrati (9.14) e (9.15) si vede prima di tuttoche

cov [X(s), V (t)] = E[X(s)V (t)

]= E

[V (t)

∫ s

0

V (t′) dt′]

=

∫ s

0

E[V (t)V (t′)

]dt′ =

∫ s

0

cov [V (t), V (t′)] dt′

e quindi da (9.9) potremo scrivere

cov [X(s), V (t)] = β2

∫ s

0

(e−α|t−t′| − e−α(t+t′)

)dt′

da cui il risultato (9.21) segue con un’integrazione elementare

Proposition 9.4. La soluzione Z(t) dell’EDS (9.17) con condizione iniziale (9.20) eun processo di Markov vettoriale e Gaussiano con legge congiunta N (b,A) all’istantet, dove

b =

(E 0[X(t)]E 0[V (t)]

)=

(x0 + v0 (1− e−αt) /α

v0 e−αt

)(9.22)

A =

(V0[X(t)] cov0[X(t), V (t)]

cov0[X(t), V (t)] V0[V (t)]

)

=β2

α2

(2αt− 3 + 4e−αt − e−2αt α (1− 2e−αt + e−2αt)α (1− 2e−αt + e−2αt) α2 (1− e−2αt)

)(9.23)

Proof: Se Z(t) soddisfa la (9.17), una generalizzazione della Proposizione 8.18 cipermette di affermare che tale soluzione e anche un processo di Markov vettori-ale. Sappiamo anche dalla Proposizione 9.1 che le componenti X(t) e V (t) di Z(t)sono separatamente processi Gaussiani, ma questo come e noto non e sufficienteper affermare che tali componenti siano anche congiuntamente Gaussiane: noi peril momento lo ammetteremo senza dimostrazione rimandando alla proposizione suc-cessiva l’indicazione di una procedura per verificarlo. Da (9.21) e dalle (9.9) e (9.12)

261

Page 262: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

si ricava allora che il vettore delle medie e la matrice delle covarianze del vettoreZ(t) sono (9.22) e (9.23)

Anche la Proposizione 8.19 che associa EDS ed equazioni di Fokker-Planck puoessere generalizzata al caso di processi vettoriali del tipo (9.19), ma naturalmenteora l’equazione di Fokker-Planck avra la forma di una equazione multivariata deltipo (7.77) per la quale – almeno per il caso in cui sia presente un solo rumoreWieneriano – i coefficienti saranno dati con le regole seguenti che generalizzanole (8.29)

A(x, t) = a(x, t) B(x, t) = DC(x, t)CT(x, t) (9.24)

dove CT e la trasposta di C. Questa osservazione permette di dimostrare facilmentela proposizione che segue

Proposition 9.5. Le p.d.f. congiunte del r.vec. Z(t) soluzione dell’EDS (9.17) concondizioni iniziali (9.20) soddisfano nello spazio delle fasi l’equazione di Fokker-Planck

∂tf(x, v, t) = −v∂xf(x, v, t) + α ∂v [vf(x, v, t)] +D

2∂2vf(x, v, t) (9.25)

f(x, v, 0) = δ(x− x0)δ(v − v0)

Proof: Bastera scrivere l’equazione di Fokker-Planck multivariata (7.77) tenendoconto di (9.24) e di (9.18)

Si noti che viceversa le p.d.f. del processo X(t) isolato non soddisfano nessuna e-quazione differenziale alle derivate parziali di questo tipo dato che X(t) non e unprocesso di Markov. L’equazione (9.25) permette infine una conferma diretta delrisultato enunciato nella Proposizione 9.4 secondo il quale il vettore Z(t) e Gaus-siano: sarebbe infatti sufficiente scrivere esplicitamente le p.d.f. di Z(t) dalle (9.22)e (9.23) e poi controllare che esse sono soluzioni di (9.25). Noi pero per brevita ciasterremo da questa verifica

9.4 Brownian particle in a force field

Supponiamo ora che la nostra particella Browniana sia immersa in un campo diforze esterno, e quindi che il sistema di equazioni (9.3) e (9.4) sia modificato in

dX(t) = V (t) dt (9.26)

dV (t) = γ (X(t), t) dt− αV (t) dt+ dWV (t) (9.27)

dove γ e un nuovo termine con le dimensioni di un’accelerazione che descrive ilnostro campo di forze. Il nuovo sistema potra essere ancora scritto come un’unicaEDS vettoriale della forma (9.17) per Z(t) con coefficienti

a(z) = a(x, v) =

(v

γ(x, t)− αv

)C =

(0 00 1

)(9.28)

262

Page 263: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

9.4 Brownian particle in a force field

e pertanto Z(t), in quanto soluzione di (9.17), risulta ancora essere un processodi Markov vettoriale, ma questa volta le due equazioni che compongono il sistemasono accoppiate in una maniera che non consente piu di risolverle separatamenteuna dopo l’altra. Una trattazione generale del problema presenterebbe quindi mag-giori difficolta rispetto al caso libero trattato in precedenza, ma noi, piu che allesoluzioni generali, siamo interessati a un’indagine sulla possibilita di estendere –sotto opportune condizioni – la formulazione approssimata che abbiamo discussonella Sezione 9.2. Dalla Proposizione 9.2 sappiamo infatti che per il moto Brow-niano libero un processo di Wiener sullo spazio delle configurazioni (posizioni x)e – sotto opportune condizioni – una buona approssimazione per la posizione delprocesso di Markov vettoriale Z(t) sullo spazio delle fasi x, v. Nel caso del motoBrowniano in un campo di forze tale approssimazione Markoviana sullo spazio delleconfigurazioni e stata trovata da Smoluchowski e noi ne descriveremo nel seguito lecaratteristiche principali.

Partiamo prima di tutto dal caso piu elementare in cui il campo di forze

γ(x, t) = γ0

e costante in modo che le due equazioni del nostro sistema

dX(t) = V (t) dt (9.29)

dV (t) = [γ0 − αV (t)] dt+ dWV (t) (9.30)

siano di nuovo disaccoppiate e possano essere risolte facilmente come nel caso libero.L’unica differenza e ora la presenza della costante γ0 che pero puo essere riassorbitadefinendo un nuovo processo per la velocita

Vγ(t) = V (t)− γ0α

per il quale sia soddisfatta la nuova equazione

dVγ(t) = −αVγ(t) dt+ dWV (t)

che sostituisce (9.30) e che e formalmente identica all’equazione di Ornstein-Uh-lenbeck (9.4) per V (t) nel caso libero. La soluzione per Vγ(t) e quindi ancora dellaforma (9.7), e pertanto da (9.8) si deduce che, con qualunque condizione iniziale e pertempi t ≫ 1/α, la Vγ(t) tendera in media ad annullarsi, mentre corrispondentementela velocita V (t) tendera verso la costante γ0/α. A questo punto potremo ancheaffermare che – dopo un breve transitorio iniziale – la posizione X(t) del processodi Markov Z(t) soddisfera l’equazione

dX(t) =γ0α

dt+ dWX(t) (9.31)

che generalizza la (9.16) del caso libero, e che ha come soluzione un processo diWiener sovrapposto ad un trascinamento costante γ0t/α.

263

Page 264: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

Il passo successivo consiste nell’osservare che questa discussione suggerisce diestendere il risultato anche al caso in cui il campo γ(X(t), t) varia lentamente sullescale di tempi 1/α caratteristiche del modello, e puo quindi essere ritenuto approssi-mativamente costante. In questo modo si ottiene l’equazione di Smoluchowski

dX(t) =γ(X(t), t)

αdt+ dWX(t) (9.32)

che e quindi alla base di una teoria approssimata nella quale la dinamica comparesolo come un termine di trascinamento, e la posizione si comporta come un processodi Markov. L’equazione di Smoluchowski descrive cosı nello spazio delle configu-razioni una teoria dinamica con molte caratteristiche interessanti

Exemple 9.6. Forza di richiamo elastica: L’approssimazione di Smoluchowskifornisce delle soluzioni del tutto accettabili nel caso in cui il campo di forze ha laforma lineare di una forza di richiamo elastica

γ(x, t) = −ω2x (9.33)

per cui le equazioni della teoria di Ornstein-Uhlenbeck sono

dX(t) = V (t) dt (9.34)

dV (t) = −ω2X(t) dt− αV (t) dt+ dWV (t) (9.35)

ovverodZ(t) = a(Z(t), t) dt+ C(Z(t), t) dW (t)

con

a(z) = a(x, v) =

(v

−ω2x− αv

)C =

(0 00 1

)Le soluzioni di (9.34) e (9.35) possono essere calcolate esplicitamente1, ma sono pi-uttosto complicate e noi eviteremo di discuterle. E piu interessante invece osservareche la soluzione della corrispondente equazione di Smoluchowski

dX(t) = −ω2

αX(t) dt+ dWX(t) (9.36)

e piuttosto semplice e realistica2. Infatti la (9.36) – con un’opportuna ridefinizionedei coefficienti – si presenta come un’equazione di Ornstein-Uhlenbeck (8.44) perla posizione X(t) la quale sara ora un processo di Markov, Gaussiano con leggeN (x0e

−ω2t/α, β2(1− e−2ω2t/α)) e con

β2 =αDX

2ω2=

kT

mω2

1S. Chandrasekhar, Rev. Mod. Phys. 15 (1943) 12Il comportamento di un moto Browniano soggetto ad una forza di richiamo elastica e anche

stato investigato sperimentalmente con degli ingegnosi esperimenti di E. Kappler, Ann. Phys. 11(1931) 233, che confermano l’idea che l’approssimazione di Smoluchowski e valida quando l’attritoα e grande

264

Page 265: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

9.5 Boltzmann distribution

dove come al solito k e la costante di Boltzmann e T la temperatura. Asintotica-mente tale processo ammette poi una distribuzione stazionaria N (0, β2) che descriveuna situazione nella quale – trascorso il transitorio, o comunque in regime sovra-smorzato – il nostro processo non diffonde piu in maniera illimitata a causa delcontrasto esercitato dalla forza elastica che lo lega

L’approssimazione di Smoluchowski (9.32) ha una validita che non si limita soloal caso delle forze di richiamo elastiche: una formulazione piu precisa di questaaffermazione e contenuta nell’enunciato che segue nel quale introduciamo anche lavelocita

a(x, t) =γ(x, t)

α

Proposition 9.7. Se la funzione a(x, t) soddisfa ragionevoli condizioni di regolarita,dette X(t) e V (t) le soluzioni del sistema di EDS

dX(t) = V (t) dt X(0) = x0

dV (t) = αa(X(t), t) dt− αV (t) dt+ αdW (t) V (0) = v0

e detta Y(t) la soluzione dell’EDS

dY (t) = a(Y (t), t) dt+ dW (t) Y (0) = x0

per ogni fissato v0 si ha

limα→∞

X(t) = Y (t) P -a.s.

uniformemente in t in tutti i compatti di [0,+∞)

Proof: Omessa3

9.5 Boltzmann distribution

Nella equazione di Smoluchowski di un moto Browniano in un campo di forze

dX(t) =γ(X(t), t)

αdt+ dW (t) (9.37)

la dinamica esterna rappresentata da γ(x, t) si riflette solo nella forma della velocitadi trascinamento a = γ/α, mentre e completamente assente nel termine di diffusioneb = 1. In questa sezione prenderemo in considerazione il caso di forze esternemγ(x) indipendenti dal tempo per le quali potremo supporre l’esistenza di un’energiapotenziale ϕ(x) tale che

mγ(x) = −ϕ′(x) (9.38)

3E. Nelson, Dynamical Theories of Brownian Motion, Princeton UP (Princeton, 1967)

265

Page 266: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

in modo che (9.37) diviene

dX(t) = −ϕ′(X(t))

αmdt+ dW (t)

D’altra parte da (6.76) e (9.5) otteniamo che

1

αm=

D

2kT=

2

dove il parametro termodinamico 1/kT tradizionalmente indicato con il simbolo β(che abbiamo preferito conservare) non deve essere confuso con l’omonimo parametrodel processo di Ornstein-Uhlenbeck trattato nelle sezioni precedenti. Potremo per-tanto scrivere l’equazione di Smoluchowski nella forma

dX(t) = −D

2βϕ′(X(t)) dt+ dW (t)

in modo che dalla Proposizione 8.19 con a(x, t) = −D2βϕ′(x), e b(x, t) = 1 si ottiene

per il nostro moto Browniano immerso in un potenziale ϕ(x) la seguente equazionedi Fokker-Planck

∂tf(x, t) =D

2∂x[βϕ

′(x)f(x, t)] +D

2∂2xf(x, t) (9.39)

Proposition 9.8. La soluzione stazionaria dell’equazione (9.39) – se esiste – e ladistribuzione di Boltzmann

f(x) =e−βϕ(x)

Z(β)(9.40)

dove la costante di normalizzazione

Z(β) =

∫ +∞

−∞e−βϕ(x) dx (9.41)

prende il nome di funzione di partizione

Proof: Innanzitutto verifichiamo che la distribuzione di Boltzmann soddisfa l’equazione (9.39):a questo scopo bastera osservare da (9.40) che ∂tf = 0, e che ∂xf = −βϕ′f . Vicev-ersa, se f(x) e soluzione stazionaria, si ha ∂tf = 0 e quindi da (9.39) si ricava chef(x) deve soddisfare l’equazione del primo ordine

βϕ′(x)f(x) + f ′(x) = C

dove C e una costante di integrazione. D’altra parte, per essere una p.d.f. normal-izzabile, f(x) deve essere infinitesima per x → ±∞. Supponendo allora che f siannulli abbastanza rapidamente all’infinito con la sua derivata prima, in modo tale

266

Page 267: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

9.5 Boltzmann distribution

che il primo membro dell’equazione sia complessivamente infinitesimo per x → ±∞,otterremo che C = 0 e quindi che la f stazionaria deve soddisfare l’equazione

βϕ′(x)f(x) + f ′(x) = 0

la cui soluzione si calcola con metodi elementari e, una volta normalizzata, coincidecon la distribuzione di Boltzmann (9.40)

Exemple 9.9. Forza di richiamo elastica: Riprendendo l’Esempio 9.6 con γdata da (9.33), si vede da (9.38) che ϕ e il potenziale dell’oscillatore armonico

ϕ(x) =1

2mω2x2 (9.42)

per cui con la notazione adottata in questa sezione l’equazione di Smoluchowski (9.36)assume la forma

dX(t) = −D

2βmω2X(t) dt+ dW (t) (9.43)

Dalla Proposizione 9.8 si ottiene allora la distribuzione di Boltzmann

Z(β) =

√2π

βmω2=

√2πkT

mω2

f(x) =e−

12βmω2x2√2π

βmω2

=e−mω2x2/2kT√

2πkTmω2

che ovviamente coincide con la soluzione stazionaria N(0, kT

mω2

)dell’equazione di

Ornstein-Uhlenbeck (9.36) esaminata nella sezione precedente.

Exemple 9.10. Forza peso: Supporremo ora che l’accelerazione sia costante γ(x) =−g e che il processo avvenga solo sul semiasse positivo x ≥ 0. Se immaginiamo che xrappresenti l’altezza della particella al di sopra del suolo posto in x = 0 questo mod-ello descrivera la distribuzione delle particelle Browniane soggette alla forza peso.In questo caso da (9.38) si ottiene per il potenziale ϕ(x) = mgx, mentre l’equazionedi Smoluchowski (9.37) diviene

dX(t) = −D

2βmg dt+ dW (t)

ed e del tipo a coefficienti costanti gia discusso nella Sezione 8.5.1, ma con la con-dizione aggiuntiva x ≥ 0, cioe f = 0 per x < 0, per cui ora la soluzione non potrapiu essere Gaussiana. La corrispondente equazione di Fokker-Planck (9.39) e

∂tf(x, t) =D

2βmg ∂xf(x, t) +

D

2∂2xf(x, t) x ≥ 0

267

Page 268: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

Φ HxL

f HxL

1a Π

Gauss

ax

Φ HxL

f HxL

1aΠ

Student

ax

Figure 9.1: Distribuzioni stazionarie di Gauss e Student rispettivamente per leequazioni di Smoluchowski (9.43) e (9.46). La temperatura T e scelta in modoche 2kT = mω2a2: cio implica in particolare che la legge di Student coincide con lalegge di Cauchy. La scala delle energie e invece fissata in maniera convenzionale perrendere paragonabili le curve sovrapposte.

e dalla Proposizione 9.8 si ottiene per la soluzione stazionaria

Z(β) =1

βmg=

kT

mg

f(x) = βmg e−βmgxϑ(x) =mg

kTe−mgx/kTϑ(x)

dove ϑ e la funzione di Heaviside (2.13): pertanto la legge stazionaria e un’esponenzialeE(βmg) = E

(mgkT

).

La Proposizione 9.8 permette infine di formulare e risolvere il seguente problemainverso: determinare la dinamica (il potenziale ϕ) di un moto Browniano che am-metta come soluzione stazionaria un’assegnata distribuzione di Boltzmann (9.40)

Exemple 9.11. Leggi di Student: La famiglia T(β) di leggi di Boltzmann

f(x) =1

aB(

12, βmω2a2−1

2

) ( a2

a2 + x2

) 12βmω2a2

=e−βϕ(x)

Z(β)(9.44)

e una generalizzazione delle distribuzioni di Student Tn introdotte alla fine dellaSezione 3.5.2: qui a > 0 e una lunghezza caratteristica, ω > 0 e un parametro cherappresenta l’intensita del potenziale esterno e

B(x, y) =Γ(x)Γ(y)

Γ(x+ y)

268

Page 269: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

9.5 Boltzmann distribution

Student

Gauss

ax

Figure 9.2: Velocita di trascinamento (9.47) rispettivamente per le equazioni diSmoluchowski (9.43) e (9.46). I valori dei parametri coincidono con quelli usatinella Figura 9.1.

e la funzione Beta di Riemann. Queste distribuzioni sono ben definite quandoβmω2a2 > 1, ovvero quando mω2a2 > kT : cio indica che le nostre soluzionistazionarie esistono solo se viene rispettata questa relazione fra l’intensita del poten-ziale ω e la temperatura T . Si vede subito da (9.44) che

ϕ(x) =1

2mω2a2 ln

(1 +

x2

a2

)Z(β) = aB

(1

2,βmω2a2 − 1

2

)(9.45)

per cui l’equazione di Smoluchowski assume ora la forma

dX(t) = −D

2βmω2X(t)

a2

a2 +X2(t)dt+ dW (t) (9.46)

Sara istruttivo esaminare analogie e differenze fra le soluzioni stazionarie di Studentdell’equazione di Soluchowski (9.46), e le soluzioni stazionarie Gaussiane dell’equazionedi Smoluchowski (9.43). Nella Figura 9.1 sono rappresentati due esempi di questedistribuzioni stazionarie assieme ai potenziali ϕ(x) che le producono: le curve sonotracciate usando gli stessi valori dei parametri a, ω e T per i due casi. I due poten-ziali (9.42) e (9.45), che coincidono nelle vicinanze di x = 0, divergono ambedueper x → ±∞, ma con diverse velocita: nel caso armonico (9.42) cresce comex2, mentre (9.45) cresce solo come lnx. Da un punto di vista fisico e proprioquesto che produce la differenza fra le due distribuzioni stazionarie: il potenzialearmonico (9.42) infatti, essendo piu intenso e vincolante, produce delle distribuzionistazionarie Gaussiane che sono visibilmente piu concentrate attorno a x = 0 delleleggi di Student (si osservi nella Figura 9.1 il diverso comportamento delle code).Siccome infine nell’approssimazione di Smoluchowski l’effetto della dinamica com-pare solo nella forma della velocita di trascinamento a(x), sara utile anche parago-

269

Page 270: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

narne le due forme

−D

2βmω2x − D

2βmω2x

a2

a2 + x2(9.47)

ottenute rispettivamente dalle equazioni di Smoluchowski (9.43) e (9.46). La Figura 9.2mostra i due comportamenti: ambedue i campi trascinano la particella Brownianaverso il centro x = 0 da ogni parte dell’asse x; ma mentre nel caso Gaussianodi (9.43) il trascinamento e sempre lo stesso a qualunque distanza da x = 0, perle leggi di Student di (9.46) esso raggiunge un massimo a distanza a dal centro epoi si spegne asintoticamente. Ancora una volta il confronto mostra in che sensoil potenziale armonico (9.42) deve essere considerato piu forte del potenziale (9.45)che genera distribuzioni di Student.

270

Page 271: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

Part III

Appendices

271

Page 272: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of
Page 273: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

Appendix A

Consistency (Sect. 2.3.4)

Consistency conditions are instrumental in the two Kolmogorov theorems 2.35 and2.37, but they are also crucial in the supposedly more elementary discussion aboutcopulas at the end of the Section 2.3.4. In the following we will show that compliancewith these conditions is not at all a foregone conclusion, even in the very simplecontext we will restrict to: that of discrete distributions on finite sets of integernumbers

Take first a trivariate, discrete distribution on the set 0, 1 × 0, 1 × 0, 1 ofthe 0 -1 triples that (with a notation taken from the Section 2.1) will be denoted as

pijk = P i, j, k i, j, k ∈ 0, 1

Such a distribution always is well define provided that

0 ≤ pijk ≤ 1∑i,j,k

pijk = 1 (A.1)

Here and in the following it will be understood that the summation indices alwaystake the values 0 and 1. From pijk it is then possible to deduce – as in the Sec-tion 2.3.3 – the three bivariate, marginal distributions on 0, 1 × 0, 1

p(1)jk =

∑i

pijk p(2)ik =

∑j

pijk p(3)ij =

∑k

pijk

and the three univariate, marginal (Bernoulli) distributions on 0, 1

p(1,2)k =

∑i,j

pijk p(2,3)i =

∑j,k

pijk p(1,3)j =

∑i,k

pijk

Apparently this procedure also entails by construction the consistency of the three

273

Page 274: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

levels of distributions because the extra marginalization relations

p(1,2)k =

∑j

p(1)jk =

∑i

p(2)ik

p(2,3)i =

∑k

p(2)ik =

∑j

p(3)ij

p(1,3)j =

∑k

p(1)jk =

∑i

p(3)ij

are always trivially satisfied. We are interested now in finding to what extent – ifat all – this consistency can be preserved when we start instead backward from thelowest level, namely from some univariate distributions

Start then now with three arbitrary, univariate Bernoulli distributions on 0, 1(upper indices are now gone, because we are no longer supposing a priori to havededuced them from some other given multivariate distribution)

pi =

P i = 1

1− P i = 00 ≤ P ≤ 1

qj =

Q j = 1

1−Q j = 00 ≤ Q ≤ 1

rk =

R k = 1

1−R k = 00 ≤ R ≤ 1

and ask first if it would be possible to find three bivariate distributions pij, qjk e rikhaving the given Bernoulli as their marginals in the sense that∑

j

pij =∑k

rik = pi∑i

pij =∑k

qjk = qj∑j

qjk =∑i

rik = rk (A.2)

This is a linear system of 12 equations in the 12 unknowns pij, qjk and rik, but weshould also remember that in order to be acceptable our solutions must take valuesin [0, 1] in compliance with the conditions∑

ij

pij =∑jk

qjk =∑ik

rik = 1

Only 9 among the 12 equations (A.2) are however linearly independent1, so that ingeneral we expect ∞3 solutions, with three free parameters p, q, r to be chosen – ifpossible – in a way giving rise to acceptable solutions. It is easy to check now that,for given P,Q,R of the initial distributions, the solutions can be put in the form

p11 = pp10 = P − pp01 = Q− pp00 = 1− P −Q+ p

q11 = qq10 = Q− qq01 = R− qq00 = 1−R−Q+ q

r11 = rr10 = P − rr01 = R− rr00 = 1− P −R + r

1The rank of the coefficient matrix is indeed 9, and it coincides with the rank of the same matrixaugmented with the column of the constant terms

274

Page 275: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

and that in their turn they are acceptable distributions provided that P,Q,R, p, q, rcomply with the following restrictions

0 ≤ P ≤ 1 0 ≤ Q ≤ 1 0 ≤ R ≤ 1 (A.3)

0 ≤ p ≤ P ∧Q 0 ≤ q ≤ Q ∧R 0 ≤ r ≤ P ∧R (A.4)

which can always be easily met (here x ∧ y = minx, y). In conclusion, howevertaken the numbers P,Q,R in [0, 1] (namely, for every choice of the initial univariatedistributions), we can always find (infinite) bivariate distributions consistent withthe given univariate

Go on now to the next level: take 6 numbers P,Q,R, p, q, r in compliance withthe conditions (A.3) and (A.4) (namely: take arbitrary, but consistent univariateand e bivariate distributions pi, qj, rk and pij, qjk, rik) and ask if it is always possibleto find also a trivariate distribution pijk which turns out to be consistent with thesegiven univariate and bivariate. In short ask if we can always find 8 numbers pijk incompliance with the limitations (A.1), and satisfying the 12 equations

∑k

pijk = pij∑i

pijk = qjk∑j

pijk = rik (A.5)

The system (A.5) apparently is overdetermined (12 equations and 8 unknowns),but we could check that both the coefficient matrix, and that augmented with thecolumn of the constant terms

1 1 0 0 0 0 0 00 0 1 1 0 0 0 00 0 0 0 1 1 0 00 0 0 0 0 0 1 11 0 0 0 1 0 0 00 1 0 0 0 1 0 00 0 1 0 0 0 1 00 0 0 1 0 0 0 11 0 1 0 0 0 0 00 1 0 1 0 0 0 00 0 0 0 1 0 1 00 0 0 0 0 1 0 1

1 1 0 0 0 0 0 0 p0 0 1 1 0 0 0 0 P − p0 0 0 0 1 1 0 0 Q− p0 0 0 0 0 0 1 1 1− P −Q+ p1 0 0 0 1 0 0 0 q0 1 0 0 0 1 0 0 Q− q0 0 1 0 0 0 1 0 R− q0 0 0 1 0 0 0 1 1−Q−R + q1 0 1 0 0 0 0 0 r0 1 0 1 0 0 0 0 R− r0 0 0 0 1 0 1 0 P − r0 0 0 0 0 1 0 1 1− P −R + r

have the same rank 7. Hence – according to the Rouche-Capelli theorem – thesystem (A.5), albeit overdetermined, turns out to be compatible, and in fact hasinfinite solutions with one free parameter s. It is possible to show then that the

275

Page 276: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

solutions of the system (A.5) take the form

p111 = 1− P −Q−R + p+ q + r − sp110 = P +Q+R− 1− q − r + sp101 = P +Q+R− 1− p− q + sp100 = 1−Q−R + q − sp011 = P +Q+R− 1− p− r + sp010 = 1− P −R + r − sp001 = 1− P −Q+ p− sp000 = s

(A.6)

and we must ask now if – for every choice of the numbers P,Q,R, p, q, r in compliancewith the conditions (A.3) and (A.4) – is it possible to find some s ∈ [0, 1] suchthat (A.6) are acceptable according to the limitations (A.1). Surprisingly enoughthe answer to this question is in the negative, and we will show that by means of acounterexample

Since it would be easy to check that the sum of the pijk in (A.6) always adds upto 1, we are left with the problem of looking if all these 8 can be in [0, 1], at least forsome choice of s. Suppose then – in compliance with the condition (A.3) and (A.4)– to take in particular

P = Q = R =1

2p = q =

2 +√2

8≈ 0.426777 r =

1

4(A.7)

namely the following consistent family of bivariate and univariate distributionsp11 =

2+√2

8

p10 =2−

√2

8

p01 =2−

√2

8

p00 =2+

√2

8

q11 =

2+√2

8

q10 =2−

√2

8

q01 =2−

√2

8

q00 =2+

√2

8

r11 =

1/4r10 =

1/4r01 =

1/4r00 =

1/4

(A.8)

p1 = p0 =1/2 q1 = q0 =

1/2 r1 = r0 =1/2

With this choice the (A.6) become

p111 =1+

√2

4− s ≈ 0.603553− s

p110 = −√28+ s ≈ −0.176777 + s

p101 = −√24+ s ≈ −0.353553 + s

p100 =2+

√2

8− s ≈ 0.426777− s

p011 = −√28+ s ≈ −0.176777 + s

p010 =14− s = 0.25− s

p001 =2+

√2

8− s ≈ 0.426777− s

p000 = s

and it is easy to see that there exists no value of s ∈ [0, 1] such that all the pijk liein [0, 1]: to this end it is enough to remark that we should choose s ≥ 0.353553 in

276

Page 277: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

order to have p101 ≥ 0, and that in this case it would be p010 ≤ 0.25 − 0.353553 =−0.103553. In short: there are consistent families of univariate and bivariate dis-tributions not allowing a consistent trivariate one

For later convenience, it is useful to remark here that the same conclusions couldhave been drawn for a given set of univariate and conditional distributions, insteadof joint, bivariate distributions. It is easy to understand indeed that, from a formalpoint of view to give the set (A.8) it is equivalent to give the set of the univariateand conditional probabilities pi|j = pij/pj, qj|k = qjk/qk, ri|k = rik/rk, namely

p1|1 =2+

√2

4

p1|0 =2−

√2

4

p0|1 =2−

√2

4

p0|0 =2+

√2

4

q1|1 =

2+√2

4

q1|0 =2−

√2

4

q0|1 =2−

√2

4

q0|0 =2+

√2

4

r1|1 =

1/2r1|0 =

1/2r0|1 =

1/2r0|0 =

1/2

(A.9)

p1 = p0 =1/2 q1 = q0 =

1/2 r1 = r0 =1/2

that again can fit no trivariate distribution in a unique probability spaceIt is crucial to point out moreover that the previously underlined circumstance

does not pertain to the nature of the probability spaces, but it is rather a featureof the families of distributions. If indeed we would suppose a priori to be insidea given, unique probability space (Ω,F ,P ), and if we take only the distributionsdefined from triples of events A,B,C ∈ F through relations such as

p111 = P ABC p110 = PABC

. . .

p11 = P AB p10 = PAB

. . . q11 = P BC . . .

p1 = P A p0 = PA

q1 = P B . . .

it would be easy to show that they would always be perfectly consistent. The pointedout impossibility of finding trivariate laws consistent with arbitrary given bivariateand univariate ones appears instead only when we consider families of distributionswithout a priori connecting them with a unique probability space. From the exampleproduced in the present appendix we can say indeed that families of univariate andbivariate laws with parameters of the type (A.7), while perfectly consistent amongthem, are not derivable as marginals of a unique trivariate, and hence can not bedescribed as probabilities of events in a unique probability space. On the otherhand it would be useful to remember that, while laws and distributions are directlyconnected with empirical observations, the probability spaces (albeit very importantto give rigor to the theory) are theoretical constructs introduced with the aim ofdescribing how the probabilities are combined: and in principle the model for thesecombinations could be different from that of the probability spaces defined in theChapter 1

The relevance of this last remark is better understood, however, if we considera point which has been so far left in the background: it is all too natural indeed toask why should we worry about the paradoxical behavior of a family of distributions

277

Page 278: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

so carefully tailored to be baffling as that in (A.8) or (A.9): has ever been observedin the reality some physical system displaying such an awkward behavior? Couldnot be this just an anomalous, but practically irrelevant case? Even the answerto this question, however, is rather surprising: the distributions (A.8), or (A.9)have not at all been chosen in a captious or malicious way, and are instead of aconsiderable conceptual interest. We will show now indeed that the conditionaldistributions2 (A.9) are the quantum mechanical distributions (calculated with theusual procedures based on the square modulus of scalar products) of the possiblevalues of the three observables α·S, β·S, and γ·S projecting the spin S = (σx, σy, σz)

of the Pauli matrices on three versors α, β and γ lying in the x, z plane at angles0, π/4,

π/2 with the z axis, in an initial eigenstate of σy

The Cartesian components v = (sin θ cosϕ, sin θ sinϕ, cos θ) of a versor in a three-dimensional space depend on both the angle θ ∈ [0, π] between v and the z axis,and the angle ϕ ∈ [0, 2π] between its projection ont the x-y plane and the x axis.As a consequence the versors of our example have the following components

α = (0, 0, 1) β =(√

2/2, 0,√2/2

)γ = (1, 0, 0)

the spin projections are

α ·S = σz =

(1 00 −1

)β ·S =

√2

2(σx + σz) =

√2

2

(1 11 −1

)γ ·S = σx =

(0 11 0

)while the system is supposed to be in an eigenstate of

σy =

(0 −ii 0

)It is easy to check now that the previous four observables have eigenvalues ±1, thatthe orthonormal systems of eigenvectors of the spin projections are

|α+⟩ =(

10

)|α−⟩ =

(01

) | β+⟩ =√

2−√2

2

(1√2− 1

)| β−⟩ =

√2−

√2

2

(1

−√2− 1

) | γ+⟩ = 1√2

(11

)| γ−⟩ = 1√

2

(1−1

)2It is expedient here to use the conditional distributions (A.9) rather than the joint bivariate

distributions (A.8) because in quantum mechanics we can not calculate joint distributions whenthe observables do not commute, while the corresponding conditional distributions are alwaysavailable

278

Page 279: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

and finally that the two orthonormal eigenvectors of σy (possible states of our sys-tem) are

| y+⟩ = 1√2

(1i

)| y−⟩ = 1√

2

(1−i

)Take now | y+⟩ as the system state: if we call pi, qj e rk the distributions respectively

of α ·S, β ·S and γ ·S, we first find in agreement with (A.9)

p1 = |⟨α+|y+⟩|2 = 1/2p0 = |⟨α−|y+⟩|2 = 1/2

q1 = |⟨β+|y+⟩|2 = 1/2q0 = |⟨β−|y+⟩|2 = 1/2

r1 = |⟨γ+|y+⟩|2 = 1/2r0 = |⟨γ−|y+⟩|2 = 1/2

As for the conditional distributions pi|j, qj|k, ri|k they will be then calculated fromthe usual quantum procedure as |⟨α ±|β±⟩|2, |⟨β ±|γ±⟩|2, |⟨α ±|γ±⟩|2, so that,by using the explicit form of our eigenvectors, we get the following conditionalprobabilities

p1|1 = |⟨α+|β+⟩|2 = 2+√2

4

p1|0 = |⟨α+|β−⟩|2 = 2−√2

4

p0|1 = |⟨α−|β+⟩|2 = 2−√2

4

p0|0 = |⟨α−|β−⟩|2 = 2+√2

4q1|1 = |⟨β +|γ+⟩|2 = 2+

√2

4

q1|0 = |⟨β +|γ−⟩|2 = 2−√2

4

q0|1 = |⟨β −|γ+⟩|2 = 2−√2

4

q0|0 = |⟨β −|γ−⟩|2 = 2+√2

4r1|1 = |⟨α+|γ+⟩|2 = 1/2r1|0 = |⟨α+|γ−⟩|2 = 1/2r0|1 = |⟨α−|γ+⟩|2 = 1/2r0|0 = |⟨α−|γ−⟩|2 = 1/2

which are nothing else than (A.9), and hence could not possibly fit any trivariatedistribution in a unique probability space. In other words, the systems of (univariateand conditional) distributions coming from quantum mechanics can not in generalebe coherently shoehorned into a (unique) classical probabilistic model

In short, our example shows that there are quantum systems that do not al-low a coherent description within the framework of a unique probability space, andconsequently brings to the fore the probabilistic roots of the quantum paradoxes. Itis well known, on the other hand, that the probabilistic models of the quantummechanics are not centered around a probability space (Ω,F ,P ), but are ratherrelated to states as vectors in some Hilbert space with all the aftereffects we know.The discussion in the present appendix, however, hints also that having conditionaldistributions not consistent with a unique probability space is an open possibilityeven independently from quantum models (albeit these seem today to be the onlyavailable concrete examples). In other words, there is more in the multivariate fam-ilies of laws than there is within the framework of Kolmogorov probability spaces, so

279

Page 280: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

that the possibility of having conditional distributions which behave in a quantumway is already allowed in the usual probability if we drop any reference to prob-ability spaces. The inconsistencies recalled here are indeed known since longtimeand have motivated many inquiries to find general conditions for the existence ofKolmogorovian models for given families of laws: in this perspective the celebratedBell inequalities (proved in the 60’s within a discussion about the Einstein-Podolski-Rosen paradox) can be considered as an example of such conditions that apparentlyare not always satisfied by the quantum systems

280

Page 281: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

Appendix B

Inequalities (Sect. 3.3.2)

In questa appendice richiameremo – nella loro formulazione probabilistica – alcuneimportanti disuguaglianze tipiche della teoria dell’integrazione che saranno applicatein alcune parti del testo

Proposition B.1. Disuguaglianza di Jensen: Se g(x) e una funzione di Borelconvessa (verso il basso) e se X e una r.v. integrabile, si ha

g (E [X]) ≤ E [g(X)]

Proof: La disuguaglianza di Jensen e una proprieta molto generale, utile nella de-duzione delle successive proposizioni. Se g(x) e convessa (verso il basso), comunquescelto x0 ∈ R esistera un numero λ(x0) tale che

g(x) ≥ g(x0) + (x− x0)λ(x0) , ∀x ∈ R

Sostituendo allora E [X] a x0, e calcolando le funzioni in X si ha

g(X) ≥ g(E [X]) + (X −E [X])λ(E [X])

sicche il risultato si ottiene prendendo il expectation di ambedue i membri.

Corollary B.2. Disuguaglianza di Lyapunov: Se X e una r.v. si ha

E [|X|s]1/s ≤ E[|X|t

]1/t0 < s ≤ t

In particolare si ha la seguente catena di disuguaglianze

E [|X|] ≤ E[|X|2

]1/2 ≤ · · · ≤ E [|X|n]1/n ≤ . . .

Proof: Posto r = t/s ≥ 1, e Y = |X|s, si applica la disuguaglianza di Jensen allafunzione convessa g(x) = |x|r e si ottiene |E [Y ] |r ≤ E [|Y |r], cioe

E [|X|s]t/s ≤ E[|X|t

]281

Page 282: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

da cui segue immediatamente la tesi. La successiva catena di disuguaglianze none che un caso particolare. Una conseguenza importante della disuguaglianza diLyapunov e che se una r.v. X ha un momento assoluto di ordine r finito (E [|X|r] <+∞), allora anche tutti i momenti assoluti di ordine inferiore a r sono finiti; nonaltrettanto si puo dire in generale sui momenti assoluti di ordine superiore a r.

Proposition B.3. Disuguaglianza di Holder: Dati due numeri p, q con

1 < p < +∞ 1 < q < +∞ 1

p+

1

q= 1

e date le r.v. X e Y con E [|X|p] < +∞ e E [|Y |q] < +∞, allora il prodotto XYrisulta integrabile e si ha

E [|XY |] ≤ E [|X|p]1/p E [|Y |q]1/q

Si noti che la ben nota disuguaglianza di Schwarz

E [|XY |]2 ≤ E[X2]E[Y 2]

e un caso particolare di questa disuguaglianza per p = q = 2.

Proof: Omessa1: riprodurremo per completezza solo la dimostrazione della disug-uaglianza di Schwarz. Consideriamo dapprima il caso in cui E [X2] = 0 e E [Y 2] = 0e poniamo

X =X√E [X2]

Y =Y√E [Y 2]

in modo che risulti E[X2]= 1 e E

[Y 2]= 1. Siccome

(|X| − |Y |

)2 ≥ 0, e quindi

2 |X Y | ≤ X2 + Y 2

abbiamo che2E

[|X Y |

]≤ E

[X2]+E

[Y 2]= 2

ovvero

E[|X Y |

]2≤ 1 = E

[X2]·E[Y 2]

e la tesi si ottiene sostituendo le definizioni di X e Y in termini di X e Y . Quandoinvece almeno uno dei due expectation e nullo, ad esempio se E [X2] = 0, da 5 diProposizione 3.26 risulta X = 0 P -a.s., e quindi da 3 della medesima proposizionesi ha anche E [|XY |] = 0. E facile vedere allora che la tesi e banalmente verificataanche in questo caso.

1N. Cufaro Petroni, Calcolo delle Probabilita, Edizioni dal Sud (Bari, 1996)

282

Page 283: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

Proposition B.4. Disuguaglianza di Minkowski: Dato il numero p con

1 ≤ p < +∞

e due r.v. X e Y tali che E [|X|p] < +∞ e E [|Y |p] < +∞, allora E [|X + Y |p] <+∞ e si ha

E [|X + Y |p]1/p ≤ E [|X|p]1/p +E [|Y |p]1/p

Proof: Omessa2

2N. Cufaro Petroni, Calcolo delle Probabilita, Edizioni dal Sud (Bari, 1996)

283

Page 284: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

284

Page 285: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

Appendix C

Bertrand paradox (Sect. 3.5.1)

Nel primo capitolo del suo classico trattato Calcul des Probabilites (Paris, 1889)Joseph Bertrand si sofferma a lungo sulla definizione di probabilita, e in particolareosserva che i modelli aleatori con un numero infinito non numerabile di possibilirisultati sono soggetti a equivoci particolarmente insidiosi. Ad esempio, se chiediamoquale e la probabilita di avere un numero reale maggiore di 50 scegliendolo a casofra 0 e 100 la risposta naturale sembra essere 1

2; ma siccome i numeri reali tra

0 e 100 sono anche biunivocamente associati ai loro quadrati fra 0 e 10 000, lanostra domanda potrebbe essere equivalentemente riformulata chiedendo quale e laprobabilita che il nostro numero estratto a caso abbia un quadrato maggiore di 2 500.Se pero immaginiamo di prendere un numero a caso fra 0 e 10 000, intuitivamentevalutiamo 3

4, e non 1

2la probabilita di trovarlo maggiore di 2 500. I due problemi

sono equivalenti, ma la due risposte (ambedue legittime) sono differenti: da cosanasce questo paradosso? Bertrand afferma, con ragione, che la spiegazione risiedenel fatto che i due enunciati sono imprecisi perche l’espressione a caso e usata troppogenericamente, e che gli esempi potrebbero moltiplicarsi all’infinito: egli ne elencamolti, ma in particolare quello che segue e oggi universalmente noto come Paradossodi Bertrand.

Facendo riferimento alla Figura C.1, si prenda a caso una corda su un cerchio Γdi raggio 1: quale e la probabilita che la sua lunghezza sia maggiore di quella (paria√3) del lato del triangolo equilatero inscritto? Sono possibili tre soluzioni (tutte

legittime) che forniscono tre risultati numericamente differenti e che discuteremofacendo sempre riferimento alla Figura C.1:

1. Scegliere una corda a caso e come sceglierne il punto di mezzo: affinche lacorda sia piu lunga del lato del triangolo equilatero e necessario e sufficienteche tale punto di mezzo si trovi all’interno del cerchio concentrico γ di raggio12inscritto nel triangolo equilatero. La probabilita che cio avvenga sara data

quindi dal rapporto fra l’area π4di γ, e l’area π di Γ: si ottiene quindi che la

probabilita cercata e p1 =14.

2. La posizione di un’estremita della corda non influenza la probabilita a causa

285

Page 286: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

121

Π 3G

Γ

3

X,Y

H1L

A

B

Τ

H2L

RQ

H3L

Figure C.1: Paradosso di Bertrand.

della simmetria del cerchio. Presa quindi una delle due estremita, la lunghezzadella corda dipendera dall’angolo compreso fra 0 e π che essa forma con la tan-gente nell’estremita fissata. Se allora si traccia il triangolo equilatero inscrittocon uno dei vertici nel punto considerato, la corda sara piu grande del suo latose l’angolo che essa forma con la tangente si trova fra π

3e 2π

3, e pertanto la

probabilita che cio accada e p2 =13.

3. La conoscenza della direzione della corda presa a caso non influenza il valoredella probabilita richiesta a causa della simmetria del cerchio. Assegnata alloratale direzione, la corda sara piu lunga di

√3 se la sua intersezione con il raggio

ad essa perpendicolare si trovera ad una distanza dal centro inferiore a 12, e

questo si verifichera con probabilita p3 =12.

Per cogliere la radice del paradosso dobbiamo ricordare che quando parliamo di pren-dere a caso un numero, in genere intendiamo che esso e uniformemente distribuito inqualche intervallo. Ora e possibile mostrare che cio che e uniformemente distribuitoin ciascuna delle tre soluzioni, non e affatto altrettanto uniformemente distribuitonelle altre due soluzioni: in pratica nelle tre soluzioni noi – scegliendo diversamente

286

Page 287: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

cio che consideriamo uniformemente distribuito – surrettiziamente adottiamo tre di-verse misure di probabilita, e quindi non c’e da meravigliarsi se alla fine le rispostesono differenti.

Per discutere piu precisamente il problema dobbiamo introdurre (come in Figura C.1)tre coppie di r.v. che rappresentano le coordinate necessarie per determinare la po-sizione della nostra corda nelle tre soluzioni proposte:

1. le coordinate Cartesiane (X, Y ) del centro della corda;

2. gli angoli (A,B) che individuano rispettivamente la posizione dell’estremo fis-sato della corda e l’orientamento di quest’ultima rispetto alla tangente;

3. le coordinate polari (R,Θ) dell’intersezione fra la corda e il raggio ad essaperpendicolare.

In ognuna delle tre soluzioni e nascosta l’ipotesi che la corrispondente coppia dicoordinate sia distribuita uniformemente, ma queste tre assunzioni, come vedremo,non sono affatto compatibili fra di loro, anzi sottintendono – sullo spazio (Ω,F)sul quale tutte le nostre r.v. sono definite – tre diverse misure di probabilita P1,P2

e P3. Piu precisamente le tre soluzioni prospettate presuppongono le seguenti tredistribuzioni congiunte uniformi (χ[a,b](x) e come al solito un indicatore):

1. la p.d.f. congiunta e uniforme di (X, Y ) su (Ω,F ,P1) e

fXY (x.y) =1

πχ[0,1](x

2 + y2) (C.1)

e le due r.v. non sono indipendenti;

2. la p.d.f. congiunta e uniforme di (A,B) su (Ω,F ,P2) e

fAB(α, β) =1

2π2χ[0,2π](α)χ[0,π](β) (C.2)

con componenti indipendenti;

3. la p.d.f. congiunta e uniforme di (R,Θ) su (Ω,F ,P3) e infine

fRΘ(r, θ) =1

2πχ[0,1](r)χ[−π,π](θ) (C.3)

anch’essa con componenti indipendenti.

Naturalmente se si adottasse un unico spazio di probabilita per tutte e tre le soluzionii tre risultati sarebbero perfettamente coincidenti, ma in questo caso solo una delletre coppie di coordinate potrebbe essere uniformemente distribuita, mentre le leggicongiunte delle altre due coppie dovrebbero essere ricavate con la tecnica sviluppatanella sezione 3.47 per le funzioni di r.v.. Infatti e chiaro che ci sono delle precise

287

Page 288: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

trasformazioni di variabili che permettono di passare da una coppia all’altra: utiliz-zando queste trasformazioni si potrebbe allora verificare che se una delle tre coppieha legge uniforme, le altre due hanno leggi diverse da quella uniforme.

Senza sviluppare completamente i calcoli per tutti e tre i casi ci limiteremo aillustrare queste affermazioni discutendo il rapporto fra la soluzione (1) e la soluzione(3). Le trasformazioni che legano le coordinate Cartesiane (X,Y ) a quelle polari(R,Θ) sono ben note:

x = r cos θy = r sin θ

r =

√x2 + y2 r > 0

θ = arctan yx

−π < θ ≤ π

con determinante Jacobiano

J(r, θ) =

∣∣∣∣ ∂r∂x

∂r∂y

∂θ∂x

∂θ∂y

∣∣∣∣ = ∣∣∣∣ cos θ sin θ−1

rsin θ 1

rcos θ

∣∣∣∣ = 1

r

Conseguentemente da (3.66) otteniamo che se (X, Y ) hanno p.d.f. uniforme (C.1),la coppia (R,Θ) avra ora p.d.f. non uniforme

f(1)RΘ(r, θ) =

r

πχ[0,1](r)χ[−π,π](θ)

diversa dalla fRΘ in (C.3) e che rappresentera la sua legge nello spazio (Ω,F ,P1).Con questa nuova distribuzione si vede facilmente ora che la probabilita calcolatanel quadro della soluzione (3) e

p3 =

∫ 12

0

r

πdr

∫ π

−π

dθ =1

4

in perfetto accordo con la soluzione (1).Sara importante precisare, per concludere, che – come ga osservato all’inizio di

questa appendice – i paradossi di Bertrand si manifestano solo quando consideri-amo delle probabilita attribuite a insiemi non numerabili. Per chiarire questo puntobastera riprendere l’esempio, ricordato all’inizio, della probabilita che un numeroscelto a caso fra i numeri reali in [0, 100] risulti maggiore di 50: qui il paradossonasce dalla constatazione che si otterrebbe una risposta diversa (ma altrettanto le-gittima) se la domanda fosse riformulata considerando i quadrati dei nostri numeriscelti ora a caso in [0, 10 000], e con il numero 50 sostituito dal suo quadrato 2 500.Il paradosso scompare invece se si richiede la probabilita di scegliere un numeromaggiore di 50 prendendolo a caso fra gli interi (equiprobabili) da 1 a 100. In-fatti questa volta otterremmo la stessa risposta (banalmente: 1

2) anche passando ai

quadrati 1, 4, 9, . . . , 10 000, perche ovviamente ora i nostri quadrati sono ancora 100ed equiprobabili,

288

Page 289: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

Appendix D

Lp spaces of r.v.’s (Sect. 4.1)

Con il simbolo Lp(Ω,F ,P ), ovvero anche semplicemente con Lp, si denotano gliinsiemi delle r.v. definite su (Ω,F ,P ) e tali che E [|X|p] < +∞, con p > 0. Questiinsiemi possono essere dotati di strutture geometriche particolarmente adatte alleapplicazioni. Prima di tutto osserviamo che, quale che sia il valore di p > 0, esempre possibile dotarli di una metrica, cioe una distanza fra r.v. definita come

d(X,Y ) = E [|X − Y |p]1/p

per cui tutti i nostri Lp saranno spazi metrici. Se poi p ≥ 1, la disuguaglianza diMinkowski (Proposizione B.4) consente di affermare che i corrispondenti Lp sonoanche spazi vettoriali per i quali combinazioni lineari di elementi di Lp sono ancorain Lp. Inoltre su questi spazi vettoriali Lp e possibile introdurre una norma, cioeuna lunghezza dei vettori X ∈ Lp, mediante la definizione

∥X∥p = E [|X|p]1/p

e quindi anche il concetto di convergenza versoX delle successioni (Xn)n∈N mediantela convergenza verso zero delle successioni numeriche ∥Xn−X∥p. Siccome tali spazinormati sono anche completi1, essi sono spazi di Banach, e in essi la distanzaviene assegnata tramite la norma:

d(X, Y ) = ∥X − Y ∥p

Si noti che dalla disuguaglianza di Lyapunov (Corollario B.2) si deduce immediata-mente che

∥X∥1 ≤ ∥X∥p ≤ ∥X∥q 1 ≤ p ≤ q < +∞1In uno spazio normato (E , ∥ · ∥) una successione (xn)n∈N si chiama successione di Cauchy

quandolimn,m

∥xn − xm∥ = 0

Si dice che lo spazio normato e completo se ogni successione di Cauchy di elementi di E convergeverso un altro elemento di E . In tal caso si dice anche che (E , ∥ · ∥) e uno spazio di Banach.

289

Page 290: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

Ne segue che, se 1 ≤ p ≤ q, e X ∈ Lq, allora anche X ∈ Lp, sicche

L1 ⊇ Lp ⊇ Lq 1 ≤ p ≤ q < +∞

Fra gli spazi di Banach Lp con p ≥ 1, un ruolo particolarmente rilevante e giocatodal caso p = 2, cioe dallo spazio L2(Ω,F ,P ): e facile controllare infatti che in questocaso la norma ∥ · ∥2 puo essere realizzata tramite il prodotto scalare

⟨X, Y ⟩ = E [XY ]

nel senso che in L2 si ha

∥X∥2 =√⟨X,X⟩ =

√E [X2]

Gli spazi dotati di prodotto scalare, quando sono completi, prendono anche il nomedi spazi di Hilbert. L’introduzione del concetto di prodotto scalare consente diusare in probabilita, non solo i ben noti metodi dell’analisi funzionale, ma anche ideee concetti mutuati dalla geometria. Diremo ad esempio che due r.v. X, Y ∈ L2 sonoortogonali quando ⟨X, Y ⟩ = E [XY ] = 0 e diremo che una famiglia di r.v. dl L2

forma un sistema ortogonale quando comunque prese in essa due r.v. distinte esserisultano ortogonali. Se inoltre, in un sistema ortogonale, risulta anche ∥X∥2 = 1per ogni elemento, si dice che la famiglia forma un sistema ortonormale. Notiamoinfine che, se due v.a. sono non correlate si ha

⟨X, Y ⟩ = E [XY ] = E [X]E [Y ]

per cui esse risulteranno ortogonali se almeno una delle due ha expectation nullo.

290

Page 291: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

Appendix E

Moments and cumulants(Sect. 4.2.1)

Se tutti i momenti mn = E [Xn] di una r.v. X esistono e sono finiti, il Teorema 4.11ci dice che essi ci permettono di scrivere lo sviluppo in serie di potenze della ch.f. φ(u)della nostra r.v.; inoltre i Teoremi 4.12 e 4.13 ci dicono che la ch.f. φ(t) determina inmodo unico la p.d.f. f(x) della X (che per semplicita supporremo a.c.). Ha quindisenso porsi la seguente domanda che prende il nome di problema dei momenti:e possibile risalire in modo unico dalla conoscenza dei momenti (mn)n∈N di una r.v.X alla sua p.d.f. f(x)? In particolare il problema dell’unicita puo essere posto inquesta forma: se fossero date due p.d.f. f(x) e g(x) tali che∫ +∞

−∞xnf(x) dx =

∫ +∞

−∞xng(x) dx , n ≥ 1

e possibile affermare che f(x) = g(x) in ogni x? In realta si fa vedere con deicontroesempi1 che la risposta e in generale negativa: e possibile cioe costruire es-plicitamente leggi diverse che danno luogo alla medesima successione di momenti.Sara allora importante determinare sotto quali condizioni sufficienti il problema deimomenti ammette invece una ed una sola soluzione

Theorem E.1. Data una r.v. X e posto mn = E [Xn] e µn = E [|X|n], se i momentiassoluti µn risultano tutti finiti e se

limn

µ1/nn

n< +∞

allora i momenti mn determinano la legge di X in maniera unica. In particolarequeste condizioni sufficienti sono soddisfatte se la distribuzione di X e concentratasu un intervallo limitato.

1A.N. Shiryaev, Probability, Springer (New York, 1996)

291

Page 292: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

La formula 4.18 del Teorema 4.11 sullo sviluppo in serie della ch.f. di una r.v. Xpuo essere estesa anche al caso in cui φ(u) e la ch.f. di un r.vec. X = (X1, . . . , Xn)nella forma

φ(u1, . . . , un) =∑k

i|k|

k1! . . . kn!uk11 · . . . · ukn

n mn(k1, . . . , kn)

dove per brevita abbiamo posto k = k1, . . . , kn e |k| = k1 + . . .+ kn, mentre

mn(u) = mn(k1, . . . , kn) = E[Xk1

1 · . . . ·Xknn

]sono i momenti misti delle componenti di X. Naturalmente lo sviluppo in seriedegenera in una somma finita con resto infinitesimo (formula di Taylor) se i momentida un certo ordine in poi non esistono.

E utile introdurre a questo punto anche la cosiddetta caratteristica logaritmicadella r.v. X

η(u1, . . . , un) = lnφ(u1, . . . , un)

che viene a volte usata al posto della ch.f.. Essa infatti e spesso piu semplice dellaφ e le sue proprieta possono essere studiate piu facilmente. Ad esempio per una r.v.Gaussiana N(b, a2) si ha

η(u) = ibu− a2u2

2

per una Cauchy C(a, b) eη(u) = ibu− a|u|

e per una Poisson P(α) eη(u) = α(eiu − 1)

Anche la caratteristica logaritmica ammette (con le precisazioni dovute all’esistenzadei momenti) uno sviluppo in serie della la forma

η(u1, . . . , un) =∑k

i|k|

k1! . . . kn!uk11 · . . . · ukn

n cn(k1, . . . , kn)

ma i coefficienti cn(k1, . . . , kn), che prendono il nome di cumulanti, non sono sem-plici valori d’attesa di prodotti di r.v.. Confrontando opportunamente i due sviluppiin serie e pero possibile dedurre delle relazioni che connettono i cumulanti con i mo-menti misti delle componenti diX, e ad esempio si ha (qui la scelta della collocazionedegli indici diversi da zero e arbitraria e solo esemplificativa)

cn(1, 0, 0, . . . , 0) = mn(1, 0, 0, . . . , 0)cn(1, 1, 0, . . . , 0) = mn(1, 1, 0, . . . , 0)−mn(1, 0, 0, . . . , 0)mn(0, 1, 0, . . . , 0)cn(1, 1, 1, . . . , 0) = mn(1, 1, 1, . . . , 0)−mn(1, 1, 0, . . . , 0)mn(0, 0, 1, . . . , 0)

−mn(1, 0, 1, . . . , 0)mn(0, 1, 0, . . . , 0)−mn(0, 1, 1, . . . , 0)mn(1, 0, 0, . . . , 0)

292

Page 293: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

+2mn(1, 0, 0, . . . , 0)mn(0, 1, 0, . . . , 0)mn(0, 0, 1, . . . , 0) .

Le relazioni generali sono piuttosto complicate e non saranno qui riportate2, noter-emo pero che il valore dei cumulanti in cui piu di un indice e diverso da zero costitu-isce una misura della correlazione delle corrispondenti componenti Xk. Ad esempio,se le Xk sono tutte indipendenti la ch.f. si fattorizza e quindi η(u1, . . . , un) si riducealla somma di n termini ciascuno dei quali dipende da una sola uk. In questo casosi vede facilmente dallo sviluppo in cumulanti che le cn con piu di un indice diversoda zero si annullano.

Inoltre, mentre a causa della disuguaglianza di Lyapunov E [Xn]2 ≤ E [X2n] nonpossiamo annullare tutti i momenti da un certo ordine in poi (cioe tutti i momenticontengono informazione rilevante), per i cumulanti questo e possibile in casi parti-colari. A questo proposito si dimostra in particolare3 che se η(u) e un polinomio, ilsuo grado grado non puo essere superiore a 2: si veda ad esempio la caratteristicalogaritmica di N(b, a2). Ne segue quindi che o tutti i cumulanti si annullano eccettoi primi due, oppure il numero dei cumulanti non nulli e infinito.

2Per una procedura di calcolo dei cumulanti vedi ad esempio C.W. Gardiner, Handbook ofStochastic Methods, Springer (Berlin, 1997)

3A.N. Shiryaev, Probability, Springer (New York, 1996)

293

Page 294: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

294

Page 295: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

Appendix F

Binomial limit theorems(Sect. 4.3)

Le forme piu antiche di Teoremi limite (inizio del XVIII secolo) riguardavano fonda-mentalmente successioni di r.v. binomiali ed erano dimostrati utilizzando le proprietaanalitiche delle loro distribuzioni. Le formulazioni piu moderne riportate nel testo,confermando e generalizzando questi risultati, si riferiscono invece a casi molto piugenerali e usano tecniche di dimostrazione piu evolute. In questa appendice richi-ameremo brevemente queste forme arcaiche di teoremi limite che conservano un loropotere suggestivo

Il teorema piu antico dovuto a J. Bernoulli1 parte dall’osservazione che se ler.v. della successione (Xn)n∈N sono i.i.d. B (1; p), e rappresentano gli esiti delleestrazioni di palline bianche e nere secondo il modello di Bernoulli delle Sezioni 2.1.2e 3.2.4, le somme Sn = X1+. . .+Xn risultano binomiali B (n; p) e per esse sappiamoche

E [Sn] = np V [Sn] = np(1− p)

Ne segue allora che il expectation della r.v. frequenza empirica Sn/n coincide anchecon la probabilita p di trovare una pallina bianca in ogni singolo tentativo:

E

[Sn

n

]= p

Ma la frequenza Sn/n e una r.v., non un numero come p, e quindi in generale il suovalore non coincidera con p quando eseguiamo una n-pla di tentativi. Sara allorainteressante valutare di quanto la r.v. frequenza Sn/n si discosta dal suo valored’attesa, cioe dalla probabilit a p, per sapere con quale affidabilita possiamo stimarep (che in generale non e nota) tramite una misura della frequenza empirica Sn/n sun tentativi di verifica. L’unica quantita accessibile alle nostre osservazioni, infatti,e sempre e soltanto il conteggio delle frequenze e non il valore p delle probabilitaa priori. Si potrebbe in breve dire che il problema originario della statistica e

1J. Bernoulli, Ars Coniectandi, Thurneysen (Basilea, 1713)

295

Page 296: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

proprio quello di stabilire le condizioni sotto le quali un’osservazione della frequenzaempirica Sn/n consente di ricavare una stima affidabile di p. Mostreremo ora in chesenso preciso si possa ritenere piccolo lo scarto fra la frequenza e la probabilita apriori p prendendo n abbastanza grande.

Theorem F.1. Legge dei grandi numeri di Bernoulli: Se Sn e una successionedi r.v. binomiali B (n; p), si ha

Sn

n

P−→ p

Proof: Dalla disuguaglianza di Chebyshev (3.42), e dalle proprieta delle r.v. bino-miali B (n; p) si ha

P

∣∣∣∣Sn

n− p

∣∣∣∣ ≥ ϵ

≤ 1

ϵ2V

[Sn

n

]=

1

n2ϵ2V [Sn] =

np(1− p)

n2ϵ2=

p(1− p)

nϵ2≤ 1

4nϵ2

da cui discende facilmente il risultato in base alla Definizione 4.1.

Anche la prima versione del Teorema limite centrale di De Moivre2 si limitavaa considerare successioni di r.v. binomiali B

(n; 1

2

), e le formulazioni successive di

Laplace3 si riferivano pur sempre a successioni di r.v. B (n; p) con 0 < p < 1. Questiteoremi limite si presentavano sotto molteplici vesti, e qui per brevita riporteremoinformalmente solo il contenuto degli enunciati piu classici. Se le Xn sono r.v. i.i.d.di Bernoulli B (1; p), sappiamo che Sn = X1, . . . , Xn ∼ B (n; p), e tenendo contodi (3.35) e (3.36) la somma standardizzata

S∗n =

Sn − np√npq

(F.1)

assumera gli n+ 1 valori (non interi)

xk =k − np√npq

k = 0, 1, . . . , n

Si avra quindi da (2.1)

P S∗n = xk = P Sn = k = pn(k) = pn

(np+ xk

√npq)=

(n

k

)pk qn−k

La forma classica dei teoremi limite per il caso binomiale consiste nella formulazionedi risultati asintotici (n → ∞) che consentono di esprimere probabilita di eventirelativi alla r.v. S∗

n in termini di funzioni di Gauss. Noi non li enunceremo nellaloro forma rigorosa che e piuttosto complicata4, ma ci limiteremo solo a ricordarnei contenuti essenziali.

2A. De Moivre, The Doctrine of Chances, Woodfall (London, 1738)3P.S. de Laplace, Theorie analytique des probabilites, Courcier (Paris, 1812)4A.N. Shiryaev, Probability, Springer (New York, 1996)

296

Page 297: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

Un primo enunciato che porta il nome di Teorema Limite Locale (TLL)rappresenta la formulazione esatta dell’affermazione secondo la quale, per grandivalori di n, i valori della distribuzione binomiale pn(k) = pn

(np+xk

√npq)sono ben

approssimati dalla funzione gaussiana

e−(k−np)2/2npq

√2πnpq

=1

√npq

e−x2k/2

√2π

Va pero precisato che questa approssimazione e buona solo se k non e troppo lontanodal expectation np di Sn, ovvero se xk non e troppo lontano da 0. In pratica il TLLstabilisce che per grandi valori di n esistono degli opportuni numeri positivi An eBn tali che

P Sn = k ≃ e−(k−np)2/2npq

√2πnpq

se |k − np| ≤ An ,

P S∗n = xk ≃ 1

√npq

e−x2k/2

√2π

se |xk| ≤ Bn .

L’approssimazione non e invece altrettanto buona se ci spostiamo troppo verso lecode della distribuzione, cioe se k si allontana troppo da np, ovvero se xk si allontanatroppo da 0.

Se vogliamo eliminare queste limitazioni si deve passare ad una seconda formu-lazione nota come Teorema Limite Integrale (TLI). Per far questo osserviamoinnanzitutto che, per p ed n dati, i numeri xk sono tutti equidistanti, e poniamo

∆xk = xk+1 − xk =1

√npq

Per n → ∞ e con xk non troppo lontano da 0 il TLL ci autorizza allora a scrivere

P S∗n = xk = pn

(np+ xk

√npq)≃ e−x2

k/2

√2π

∆xk

Siccome per n → ∞ risulta anche ∆xk → 0, l’insieme dei punti xk tendera aricoprire tutta la retta reale, e quindi potremo attenderci che, in qualche sensoopportunamente definito, per n molto grande e con a < b arbitrari, il valore di

P a < S∗n ≤ b =

∑k:a<xk≤b

pn(np+ xk

√npq)≃

∑k:a<xk≤b

e−x2k/2

√2π

∆xk

possa essere approssimato mediante l’integrale∫ b

a

e−x2/2

√2π

dx = Φ(b)− Φ(a)

297

Page 298: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

dove Φ(x) e la funzione errore standard (2.16). Il TLI stabilisce infatti che, co-munque scelti −∞ ≤ a < b ≤ +∞, per n → ∞ otterremo sempre

P a < S∗n ≤ b →

∫ b

a

e−x2/2

√2π

dx = Φ(b)− Φ(a)

ovvero, prendendo α = np+ a√npq e β = np+ b

√npq,

P α < Sn ≤ β → Φ

(β − np√npq

)− Φ

(α− np√npq

)Da un punto di vista tecnico la differenza fra le due formulazioni dei Teoremi lim-ite binomiali sta nel fatto che, mentre nel TLL si confrontano i singoli valori delladistribuzione (discreta) binomiale standardizzata con i valori di una funzione (con-tinua) normale standard, nel TLI si confrontano somme della suddetta distribuzionebinomiale con integrali della normale standard su intervalli anche illimitati.

Le dimostrazioni tradizionali di questi due teoremi fanno ricorso ad argomentianalitici piuttosto complicati che noi tralasceremo5. Per mostrare invece ancora unavolta l’utilita delle ch.f. daremo una semplice dimostrazione della convergenza indistribuzione delle binomiali standard (F.1) S∗

n verso una legge normale standardN (0, 1) facendo uso delle ch.f.. Infatti, se X1, . . . , Xn sono r.v. i.i.d. di BernoulliB (1; p), posto

Yk =Xk − p√npq

=Xk√npq

−√

p

nq

potremo scrivere

S∗n =

n∑k=1

Yk

e siccome da (4.3) e (4.8) si ha

φYk(u) = E

[eiuYk

]= e−iu

√p/nqφXk

(u

√npq

)= p eiu

√q/np + q e−iu

√p/nq

la ch.f. di S∗n risulta essere

φS∗n(u) = E

[eiuS

∗n]=

n∏k=1

E[eiuYk

]=

(p eiu

√q/np + q e−iu

√p/nq

)n

Dallo sviluppo in serie di potenze degli esponenziali si ha allora

φS∗n(u) =

[p

(1 + iu

√q

np− u2

2

q

np

)+ q

(1− iu

√p

nq− u2

2

p

nq

)+ o

(1

n

)]n=

[1− u2

2n+ o

(1

n

)]n→ e−u2/2

e quindi in base al Teorema 4.16 si ottiene S∗n

d−→ N(0, 1).

5A.N. Shiryaev, Probability, Springer (New York, 1996)

298

Page 299: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

Appendix G

Non uniform point processes(Sect 6.1.1)

Nella procedura di limite che ci ha condotto a definire i processi di punto nellaSezione 6.1.1 abbiamo supposto che la distribuzione dei punti lanciati su ogni inter-valli finito restasse sempre uniforme U

[− τ

2, τ2

]. Questa ipotesi pero non e essenziale

e puo essere opportunamente modificata immaginando che l’intensita della pioggiadi punti possa variare da zona a zona.

Per esaminare questa idea osserviamo innanzitutto che, nel caso uniforme studi-ato finora, la r.v. N che conta il numero di punti caduti in un arbitrario intervallodi larghezza ∆t risulta seguire una legge di Poisson P(α) con α = λ∆t, per cuiE [N ] = α = λ∆t. Se allora teniamo conto del fatto che

α = E [N ] → 0 per ∆t → 0

e adottiamo la notazione ∆ν = α = E [N ] = numero medio di punti in un intervallodi larghezza ∆t, potremo anche scrivere

λ =∆ν

∆t−→ dν

dt∆t → 0

coerentemente con l’idea che λ rappresenta il numero medio di punti per unita ditempo. Una λ costante, come da noi ipotizzato in precedenza, corrispondera all’ideadi una densita uniforme di punti, ma possiamo anche supporre che λ(t) sia unadensita variabile con il tempo. In questo caso avremmo

λ(t) =dν(t)

dtossia dν(t) = λ(t) dt

e quindi anche

α = ∆ν =

∫ t+∆t

t

λ(s) ds (G.1)

Se ora N e il numero di punti aleatori che cadono in [t, t + ∆t], ripercorrendo glistessi argomenti esposti in precedenza per il caso uniforme potremo mostrare ancora

299

Page 300: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

una volta che N segue una distribuzione di Poisson P(α), ma in questo caso il valoredi α sara (G.1) e non dipendera solo dall’ampiezza ∆t dell’intervallo considerato,ma anche dalla collocazione temporale t del suo estremo sinistro. Si noti infine cheλ(t) e una densita (numero medio di punti per unita di tempo), ma non e una p.d.f..Infatti tipicamente si ha ∫ +∞

−∞λ(t) dt = +∞

coerentemente con il fatto che tale integrale rappresenta il numero totale (infinito,quindi) di punti lanciati su tutto l’asse dei tempi. Nel testo abbiamo supposto sempreche l’intensita λ sia costante, ma le eventuali generalizzazioni possono comunqueessere ottenute senza troppe difficolta sulla base delle precedenti osservazioni.

300

Page 301: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

Appendix H

Stochastic calculus paradoxes(Sect. 6.4.2)

Per mostrare quali errori si possono commettere adattando in maniera eccessiva-mente sbrigativa l’usuale calcolo differenziale ai processi stocastici, proviamo adestendere il metodo euristico di Langevin esposto nella Sezione 6.4.2 a un problemaun po’ diverso: il rumore granulare prodotto nei tubi a vuoto dalle correnti aleatoriegenerate dall’arrivo di elettroni isolati.

Per rappresentare la corrente aleatoria I(t) prodotta dall’arrivo degli elettroniuseremo un rumore granulare con h(t) = ϑ(t)qe−at, per cui, tenendo conto anchedi (6.67) con rumore bianco di Poisson, la nostra corrente sara un processo del tipo

I(t) =∞∑k=1

h(t− Tk) = [h ∗ N ](t) =

∫ +∞

−∞h(t− s)N(s) ds

= qe−at

∫ t

−∞easN(s) ds

Dalle usuali regole del calcolo differenziale, e introducendo anche il rumore bianco (6.66)del processo di Poisson compensato, si ha

I(t) = −qae−at

∫ t

−∞easN(s) ds+ qN(t)

= −aI(t) + qN(t) = [λq − aI(t)] + q˙N(t) (H.1)

Si tratta di una equazione differenziale del primo ordine simile all’equazione diLangevin (6.78) nella quale il ruolo della forza fluttuante a media nulla B(t) e

giocato da q˙N(t) che sara anche qui supposto non correlato con I(t). Per esaminare

le fluttuazioni di I(t) ne studieremo la varianza

V [I(t)] = E[I2(t)

]−E [I(t)]2

301

Page 302: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

e a questo scopo prenderemo innanzitutto l’attesa di (H.1)

d

dtE [I(t)] = λq − aE [I(t)]

da cui si ottiene facilmente

E [I(t)] =λq

a+ Ce−at (H.2)

dove C e una costante di integrazione. Per ottenere la varianza dovremo ora calcolareE [I2(t)]: moltiplicando (H.1) per I(t), dalle regole del calcolo differenziale abbiamoinnanzitutto

1

2

dI2(t)

dt= I(t)I(t) = λqI(t)− aI2(t) + qI(t)

˙N(t) (H.3)

e quindi prendendo il valor d’attesa

1

2

d

dtE[I2(t)

]= λqE [I(t)])− aE

[I2(t)

](H.4)

Dalla (H.2) si ha allora

d

dtE[I2(t)

]+ 2aE

[I2(t)

]= 2λqE [I(t)] = 2λq

(λq

a+ Ce−at

)e con un’altra costante di integrazione A

E[I2(t)

]=

(λq

a

)2

+ C2λq

ae−at + Ae−2at

In conclusione la varianza della corrente aleatoria sara

V [I(t)] = E[I2(t)

]−E [I(t)]2 =

(λq

a

)2

+ C2λq

ae−at + Ae−2at −

(λq

a+ Ce−at

)2

sicche per grandi tempi paradossalmente avremo

limt→+∞

V [I(t)] = 0 (H.5)

cioe, dopo un breve transitorio, le fluttuazioni semplicemente spariscono, mentre cisaremmo attesi di veder convergere la loro varianza verso una costante positiva nonnulla. Questo risultato merita di essere esaminato in maggior dettaglio

Ripartiamo dalla relazione – apparentemente ovvia – utilizzata nell’equazione (H.3):

dI2(t)

dt= 2I(t)I(t)

e rivisitiamo, alla luce delle considerazioni svolte nella Sezione 6.3, i classici argo-menti che la giustificano. Tipicamente, con un dt infinitesimo, si considera

d[I2(t)

]= I2(t+dt)− I2(t) =

[I(t)+dI(t)

]2− I2(t) = 2I(t)dI(t)+[dI(t)

]2(H.6)

302

Page 303: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

ma ora – a causa della non derivabilita di I(t) – non possiamo piu affermare che il

termine[dI(t)

]2coincide con

[I(t)dt

]2, cioe con un infinitesimo di ordine superiore

a dt. Piuttosto dobbiamo riprendere l’equazione (H.1) riscritta – per evitare diintrodurre derivate – nella forma

dI(t) = λqdt− aI(t)dt+ qdN(t) (H.7)

e sostituirla in (H.6):

d[I2(t)

]= 2I(t)

[λqdt− aI(t)dt+ qdN(t)

]+[λqdt− aI(t)dt+ qdN(t)

]2=

[2λqI(t)− 2aI2(t)

]dt+

[λq − aI(t)

]2(dt)2

+2qI(t) dN(t) + 2q[λq − aI(t)

]dN(t) dt+ q2

[dN(t)

]2Passando poi alle attese, si trascurano i termini di ordine superiore a dt ricordando

pero che in base a (6.73) E[dN2

]= λdt e ora dell’ordine di dt per cui

dE[I2(t)

]=(2λqE [I(t)]− 2aE

[I2(t)

])dt+ λq2dt

In definitiva invece di (H.4) avremo

1

2

d

dtE[I2(t)

]= λqE [I(t)]− aE

[I2(t)

]+

λq2

2

nella quale compare il nuovo termine aggiuntivo λq2/2. Utilizzando allora an-cora (H.2) e ripercorrendo i medesimi passaggi che hanno condotto al risultatoparadossale (H.5) si perviene alla seguente soluzione con i corretti andamenti as-intotici per t → +∞

E [I(t)] =λq

a+ Ce−at −→ λq

a

E[I2(t)

]=

(λq

a

)2

+λq2

2a+ C

2λq

ae−at + Ae−2at −→

(λq

a

)2

+λq2

2a

V [I(t)] = E[I2(t)

]−E [I(t)]2 −→ λq2

2a> 0

Le osservazioni sugli ordini degli infinitesimi introdotte nella Sezione 6.3 – ancorcheimprecise e intuitive – giocano quindi un ruolo cruciale per ottenere un risultatoaccettabile

Merita infine un beve esame il modo in cui Langevin – pur basandosi su unaformulazione matematica poco rigorosa – e riuscito ad evitare gli errori prima es-posti per le correnti, arrivando invece a risultati corretti. Mostreremo infatti che, adifferenza della relazione (H.3), le due relazioni (6.79) e (6.80), per quanto solo sim-boliche, sono sostanzialmente corrette; e a questo scopo osserveremo innanzituttoche la distinzione fra le due formulazioni (6.77) e (6.78) dell’equazione dinamica

303

Page 304: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

nasconde alcuni dettagli importanti. La possibilita di tale distinzione indica infattiche X(t) e considerata derivabile, cioe che il processo X(t) = V (t) esiste, e che inqualche senso risulta

X(t) =

∫ t

0

V (s) ds

mentre l’equazione di Newton

mX(t) = −6πηaX(t) +B(t) (H.8)

equivale al sistema

X(t) = V (t)

mV (t) = −6πηaV (t) +B(t) (H.9)

Siccome la forza aleatoria B(t) disturba essenzialmente solo la V (t), questa – diver-samente da X(t) – risultera non derivabile, sicche l’equazione di Langevin (H.9), conV (t) al posto di I(t), sara dello stesso tipo dell’equazione (H.1) usata per discutereil problema di rumore granulare. Da queste osservazioni discende prima di tutto chese Langevin avesse usato la (H.9) assieme a una formula del tipo

dV 2(t)

dt= 2V (t)V (t) (H.10)

avrebbe raggiunto per V (t) le stesse conclusioni paradossali dell’equazione (H.5)per il rumore granulare: dopo un breve transitorio la particella Browniana si ar-resterebbe, con V (t) = 0 non solo in media, ma addirittura P -a.s., cioe con varianzanulla. Il suo ragionamento parte invece dall’equazione di Newton (H.8) per il pro-cesso X(t) e usa le relazioni, simboliche ma sostanzialmente corrette,

d

dt

[X2(t)

]= 2X(t)X(t) (H.11)

d2

dt2[X2(t)

]= 2X2(t) + 2X(t)X(t) = 2V 2(t) + 2X(t)X(t) (H.12)

per ricavare il risultato di Einstein (6.82). Dobbiamo allora spiegare perche leequazioni (H.11) e (H.12) possono essere usate senza problemi, mentre la (H.10),come abbiamo visto, conduce a dei paradossi.

Prima di tutto bisogna osservare che, essendo X(t) derivabile, risulta dX(t) =X(t)dt = V (t)dt, per cui dX(t) e un infinitesimo dell’ordine di dt, e quindi la (H.11)e corretta e potremo sicuramente scrivere

d

dt

[X2(t)

]= 2X(t)X(t) = 2X(t)V (t) (H.13)

La (H.12), invece, pur essendo sostanzialmente corretta, resta puramente simbolicaperche contiene una derivata X(t) = V (t) che non esiste. Per vedere allora in che

304

Page 305: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

senso essa resta accettabile dovremo osservare che

d[X(t)V (t)

]= X(t+ dt)V (t+ dt)−X(t)V (t)

=[X(t) + dX(t)

] [V (t) + dV (t)

]−X(t)V (t)

=[X(t) + V (t)dt

] [V (t) + dV (t)

]−X(t)V (t)

= V 2(t)dt+X(t)dV (t) + V (t)dV (t)dt

D’altra parte dV (t) e certamente un infinitesimo, anzi piu precisamente un infinites-imo dell’ordine O

(dt1/2

): infatti, come vedremo meglio nella Sezione 8.1, la forza

aleatoria B(t) che compare nell’equazione di Langevin (H.9) e proprio un rumorebianco Wieneriano W (t), per cui riscrivendo (H.9) nella forma

mdV (t) = −6πηaV (t)dt+ dW (t)

si ricava che dV (t) e un infinitesimo dello stesso ordine di dW (t), cioe O(dt1/2

).

In definitiva potremo ritenere che dV (t)dt sia comunque un infinitesimo di ordinesuperiore al primo, cioe O

(dt3/2

), e al primo ordine potremo scrivere

d[X(t)V (t)

]= V 2(t)dt+X(t)dV (t)

Pertanto, almeno simbolicamente, possiamo dire che

d

dt

[X(t)V (t)

]= V 2(t) +X(t)V (t) = V 2(t) +X(t)X(t)

e possiamo quindi giustificare la (H.12) tramite la (H.13).

305

Page 306: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

306

Page 307: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

Appendix I

Pseudo-Markovian processes(Sect. 7.1.2)

Daremo in questa appendice un semplice esempio1 di processo non Markoviano le cuiprobabilita di transizione soddisfano comunque l’equazione di Chapman-Kolmogo-rov: processi di questo genere sono anche chiamati pseudo-Markoviani. Si consideriil processo X(t) che assume solo i due valori 0, 1 ai tempi t = 1, 2, 3: si tratta di unprocesso estremamente semplice le cui traiettorie si riducono alle 8 = 23 possibiliterne di simboli 0, 1, e quindi la sua legge puo essere fissata scegliendo in modocoerente le probabilita per questi 8 elementi. In particolare – adottando per brevitanotazioni del tipo p1,2,3(x1, x2, x3) = P X(1) = x1, X(2) = x2, X(3) = x3, oppurep3|2,1(x3|x2, x1) = P X(3) = x3 |X(2) = x2, X(1) = x1 e cosı via – noi fisseremo iseguenti valori per la distribuzione congiunta p1,2,3(x1, x2, x3)

x1 x2 x3 p1,2,3

0 0 0 00 0 1 1/40 1 0 1/40 1 1 01 0 0 1/41 0 1 01 1 0 01 1 1 1/4

Questa tabella definisce completamente la legge del processo perche tutte le altreleggi congiunte possono poi da essa essere ricavate per marginalizzazione, come negli

1Questo esempio e riportato come esercizio alla p. 79 di N.G. van Kampen, StochasticProcesses in Physics and Chemistry, North-Holland (Amsterdam, 1992), ma la sua originerisale a una nota di P. Levy (C. R. Acad. Sci. Paris 228 (1949) 2204) ripresa prima da W. Feller(Ann. Math. Stat. 30 (1959) 1252) e poi da E. Parzen (Stochastic Processes, Holden-Day(San Francisco, 1962) p. 203)

307

Page 308: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

esempi seguenti

p1,2(0, 0) = p1,2,3(0, 0, 0) + p1,2,3(0, 0, 1) =1/4

p1,2(1, 0) = p1,2,3(1, 0, 0) + p1,2,3(1, 0, 1) =1/4

p2,3(0, 0) = p1,2,3(0, 0, 0) + p1,2,3(1, 0, 0) =1/4

p2(0) = p1,2,3(0, 0, 0) + p1,2,3(1, 0, 0) + p1,2,3(0, 0, 1) + p1,2,3(1, 0, 1) =1/2

p2(1) = p1,2,3(0, 1, 0) + p1,2,3(1, 1, 0) + p1,2,3(0, 1, 1) + p1,2,3(1, 1, 1) =1/2

dando luogo ai risultati riportati in dettaglio nelle successive tabelle

x1 x2 p1,2

0 0 1/40 1 1/41 0 1/41 1 1/4

x2 x3 p2,3

0 0 1/40 1 1/41 0 1/41 1 1/4

x1 x3 p1,3

0 0 1/40 1 1/41 0 1/41 1 1/4

x1 p1

0 1/21 1/2

x2 p2

0 1/21 1/2

x3 p3

0 1/21 1/2

Siamo pertanto in grado di calcolare anche le distribuzioni condizionate e di verificareinnanzitutto che il processo X(t) non e Markoviano: infatti si ha che

p 3| 2,1(0 | 0, 0) =p1,2,3(0, 0, 0)

p1,2(0, 0)=

01/4

= 0

p 3| 2(0 | 0) =p 2,3(0, 0)

p 2(0)=

1/41/2

= 1/2

per cui, almeno in un caso, risulta p 3|2,1 = p 3|2, e quindi il processo non e Marko-viano. Ciononostante e facile vedere che le probabilita di transizione p 2|1, p 3|2 e p 3|1soddisfano le equazioni di Chapman-Kolmogorov, cioe – in base alla Definizione 7.6– sono leggi di tansizione Markoviane. Infatti dalle tabelle precedenti si ricava facil-mente che in tutti i casi

p 2|1(x2 | x1) = p 3|2(x3 | x2) = p 3|1(x3 | x1) =1/2 x1, x2, x3 = 0, 1

per cui le equazioni diChapman-Kolmogorov

1∑x2=0

p 3|2(x3 | x2)p 2|1(x2 |x1) =1/2 ·1/2 +1/2 ·1/2 = 1/4 +

1/4 =1/2 = p 3|1(x3 | x1)

sono sempre soddisfatte.Questo paradosso e discusso in generale nella Sezione 7.1.2, dove si fa notare

che esso puo essere risolto ricordando che – con lo stesso spazio delle traiettorie –

308

Page 309: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

possono esistere processi dotati di leggi differenti, ma che condividono la medesimafamiglia di leggi di transizione Markoviane: di questi processi solo uno puo essereMarkoviano. Nel nostro esempio – sullo spazio delle 8 traiettorie (x1, x2, x3) – ilprocesso X(t) la cui legge p e definita nella tabella iniziale non e Markoviano, male sue leggi di transizione lo sono: a partire da queste ultime, mediante la regoladella moltiplicazione a catena (Proposizione 7.4), sara quindi possibile definire un

altro processo X(t) (sullo stesso spazio delle traiettorie, ma con una legge differentep ) che ovviamente risultera Markoviano. Per le leggi congiunte di questo secondoprocesso avremo infatti per tutti i valori x1, x2, x3 = 0, 1

p1,2,3(x1, x2, x3) = p 3|2(x3 | x2)p 2|1(x2 |x1)p1(x1) =1/2 ·1/2 ·1/2 = 1/8

cioe la tabella

x1 x2 x3 p1,2,3

0 0 0 1/80 0 1 1/80 1 0 1/80 1 1 1/81 0 0 1/81 0 1 1/81 1 0 1/81 1 1 1/8

Le distribuzioni bivariate e univariate, invece, restano uguali a quelle del processoX(t)

309

Page 310: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

310

Page 311: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

Appendix J

Fractional Brownian motion(Sect. 7.1.10)

Bisogna ricordare che esistono casi anche piuttosto semplici di p.d.f. di transizioneche non soddisfano l’equazione di Chapman-Kolmogorov (7.17): in tal caso la nostrap.d.f. – pur potendo legittimamente essere la p.d.f. condizionata a due tempi di unqualche ipotetico processo stocastico – non puo giocare il ruolo di p.d.f. di transizionedi un processo di Markov, e quindi non permettera da sola di ricostruire la legge delprocesso mediante la regola di moltiplicazione a catena. Abbiamo pero gia notatonella Sezione 7.1.10 che per la determinazione della legge del processo si puo supplirealla mancanza di Markovianita se il processo e Gaussiano. Ricorderemo allora che unimportante caso di processo Gaussiano non Markoviano e rappresentato dal cosid-detto moto Browniano frazionario Y (t) che puo essere considerato come unageneralizzazione dell’usuale processo di Wiener. Partiamo dall’osservazione (facil-mente verificata con un calcolo diretto) che per s, t > 0 risulta

mins, t =t+ s− |t− s|

2=

|t|+ |s| − |t− s|2

e poi per definire le leggi Gaussiane di Y (t) prendiamomY (t) = 0 e la nuova funzionedi autocovarianza

CY (t, s) =D

2

(|t|2H + |s|2H − |t− s|2H

)dove H, detto indice di Hurst , e un numero reale con 0 < H < 1. Da quantodetto prima e evidente che l’autocovarianza dell’usuale processo di Wiener si ot-tiene nel caso particolare H = 1

2, mentre per tutti gli altri valori di H si prova

che CY e definita non negativa, e quindi che puo essere legittimamente utilizzataper costruire il processo Gaussiano Y (t) che prende il nome di moto Brownianofrazionario. Ovviamente le specifiche proprieta del processo Y (t) cambiano secondoil valore di H fissato, e possono essere esaminate in dettaglio – anche se noi eviter-emo di farlo – visto che le leggi finito-dimensionali del processo sono esplicitamente

311

Page 312: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

conosciute. In particolare il valore dell’indice di Hurst H e legato alla dipendenzafra gli incrementi di Y (t), e conseguentemente alla irregolarita delle traiettorie. Sipotrebbe mostrare infatti che – escludendo il caso Wieneriano H = 1

2per il quale

gli incrementi sono indipendenti – un valore H > 12indica una correlazione positiva

fra gli incrementi, mentre un valore H < 12e segno di una correlazione negativa.

Intuitivamente potremmo dire che l’andamento precedente (crescente o decrescente)della traiettoria ne influenza quello successivo: se H > 1

2la correlazione positiva

tende a rendere piu regolari le traiettorie (l’andamento precedente tende ad essereconservato), mentre se H < 1

2la correlazione negativa produce l’effetto opposto

(l’andamento precedente viene costantemente smentito da quello successivo).

312

Page 313: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

Appendix K

Ornstein-Uhlenbeck equations(Sect. 7.2.4)

Riportiamo in questa appendice un calcolo esplicito dei coefficienti dell’equazione inavanti per processi di Ornstein-Uhlenbeck X(t), per mostrare che le loro leggi sod-disfano l’equazione di Fokker-Planchk (7.90) della Proposizione 7.39. La continuitaglobale dei processi di Ornstein-Uhlenbeck discende allora dal fatto che il terminedi salto si annulla.

Cominceremo infatti con il provare che il termine di salto (7.61) si annulla equindi che X(t) e continuo. Osserviamo infatti che da (7.54) si ha

1

∆tf(x, t+∆t | y, t) =

e− [(x−y)+y(1−e−α∆t)]2

2β2(1−e−2α∆t)

∆t√

2πβ2(1− e−2α∆t)

=α e

− (x−y)2

2β2(1−e−2α∆t)

α∆t√2πβ2(1− e−2α∆t)

e− y2(1−e−α∆t)2+2y(x−y)(1−e−α∆t)

2β2(1−e−2α∆t)

=e− (x−y)2α∆t

2β2(1−e−2α∆t)

1α∆t

(α∆t)32

√2πβ2 1−e−2α∆t

α∆t

α e− y2(1−e−α∆t)+2y(x−y)

2β2(1+e−α∆t)

e siccome e facile vedere che

lim∆t→0

α e− y2(1−e−α∆t)+2y(x−y)

2β2(1+e−α∆t) = αe− y(x−y)

2β2 lim∆t→0

1− e−2α∆t

2α∆t= 1

potremo eseguire il limite in due tempi riducendoci prima a

ℓ(x|y, t) = αe− y(x−y)

2β2 lim∆t→0

e− (x−y)2

4β21

α∆t

(α∆t)32

√4πβ2

e poi, con z = 1α∆t

→ +∞, eseguendo il limite elementare

ℓ(x|y, t) = αe− y(x−y)

2β2√4πβ2

limz→+∞

z32 e

− (x−y)2

4β2z= 0

313

Page 314: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

Ne segue in particolare che l’equazione del processo di Ornstein-Uhlenbeck saraun’equazione di Fokker-Planck della quale dovremo ora determinare i coefficienti Ae B. Modificando opportunamente la notazione, da (7.62) abbiamo innanzitutto che

A(x, t) = limϵ→0+

lim∆t→0+

1

∆t

∫|z−x|<ϵ

(z − x)f(z, t+∆t | x, t) dz

e quindi da (7.54), ponendo

y =z − xe−α∆t√β2(1− e−2α∆t)

a± =x(1− e−α∆t)± ϵ√β2(1− e−2α∆t)

risultera

A(x, t) = limϵ→0+

lim∆t→0+

1

∆t

[√β2(1− e−2α∆t)

∫ a+

a−

ye−y2

2

√2π

dy

−x(1− e−α∆t)

∫ a+

a−

e−y2

2

√2π

dy

]Tenendo poi conto delle primitive Gaussiane∫

e−y2

2

√2π

dy = Φ(y) + cost

∫ye−

y2

2

√2π

dy = −e−y2

2 + cost

dove Φ(x) e la funzione errore (2.16), avremo in definitiva

A(x, t) = limϵ→0+

lim∆t→0+

√αβ2

π

1− e−2α∆t

2α∆t

e−a2−2 − e−

a2+2

√∆t

−αx1− e−α∆t

α∆t(Φ(a+)− Φ(a−))

]Osservando allora che per ogni ϵ > 0

lim∆t→0+

a± = ±∞ lim∆t→0+

(Φ(a+)− Φ(a−)) = 1 limu→0

1− e−u

u= 1

si avra

lim∆t→0+

1− e−α∆t

α∆t(Φ(a+)− Φ(a−)) = 1 lim

∆t→0+

√αβ2

π

1− e−2α∆t

2α∆t=

√αβ2

π

mentre per l’altro fattore sviluppando i calcoli si ha

e−a2−2 − e−

a2+2

√∆t

= e− x2(1−e−α∆t)2

2β2(1−e−2α∆t)e− ϵ2

2β2(1−e−2α∆t)

√∆t

(e

ϵx(1−e−α∆t)

β2(1−e−2α∆t) − e− ϵx(1−e−α∆t)

β2(1−e−2α∆t)

)

= e− x2(1−e−α∆t)

2β2(1+e−α∆t)e− ϵ2

4β2α∆t2α∆t

1−e−2α∆t

√∆t

(e

ϵx

β2(1+e−α∆t) − e− ϵx

β2(1+e−α∆t)

)314

Page 315: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

e siccome con u = 1∆t

risulta

lim∆t→0+

e− x2(1−e−α∆t)

2β2(1+e−α∆t)

(e

ϵx

β2(1+e−α∆t) − e− ϵx

β2(1+e−α∆t)

)= e

ϵx2β2 − e

− ϵx2β2

lim∆t→0+

2α∆t

1− e−2α∆t= 1

lim∆t→0+

e− ϵ2

4β2α∆t

√∆t

= limu→+∞

u12 e

− ϵ2u4αβ2 = 0

in definitiva avremo per ogni ϵ > 0

lim∆t→0+

e−a2−2 − e−

a2+2

√∆t

= 0

Raccogliendo allora tutti i fattori si ottiene

A(x, t) = −αx

Con una procedura simile, che per brevita non riporteremo, si prova infine che ilcoefficiente di diffusione B e costante. Piu precisamente, introducendo per analogiacon il caso Wieneriano la quantita D = 2αβ2, si ha

B(x, t) = D = 2αβ2

sicche in definitiva l’equazione di Fokker-Planck per il processo di Ornstein-Uhlenbeckassume la forma (7.90)

∂tf(x, t) = α∂x[xf(x, t)] + αβ2∂2xf(x, t) = α∂x[xf(x, t)] +

D

2∂2xf(x, t)

La p.d.f. di transizione (7.54) al tempo t + ∆t corrispondera in particolare allacondizione iniziale f(x, t) = δ(x− y)

315

Page 316: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

316

Page 317: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

Appendix L

Stratonovich integral (Sect. 8.2.2)

E importante ricordare che sono state tentate delle definizioni alternative a quella diIto. Una in particolare, dovuta a R.L. Stratonovich, richiede qualche precisazione:si tratta infatti di una definizione basata essenzialmente su una procedura alla Rie-mann del tipo (8.8), ma con i valori dell’integrando Y (t) calcolati nel punto di mezzodell’intervallo [tj, tj+1], e non nel suo estremo sinistro tj∫ b

a

Y (t) dW (t) = limn,δ→0

-mqn−1∑j=0

Y

(tj + tj+1

2

)[W (tj+1)−W (tj)

]Si noti l’introduzione del simbolo “” nella notazione per distinguere questo integraledal corrispondente integrale di Ito. L’interesse principale di questa definizione stanel fatto che le conseguenti regole del calcolo stocastico restano identiche a quelledel calcolo ordinario, e questo e probabilmente il motivo per il quale l’integrale diStratonovich e rimasto a lungo molto popolare fra i fisici. Purtroppo pero esso nongode delle stesse proprieta matematiche dell’integrale di Ito, anzi la sua convergenzae la coerenza della sua definizione non sono esenti da problemi per cui la sua naturaresta abbastanza incerta. Non vi e peraltro nessuna regola del tutto generale chemetta in relazione le due definizioni, tranne il seguente risultato1

Proposition L.1. (E. Wong, M. Zakai - 1969) Se X(t) e soluzione dell’EDSdi Ito (8.26), e se g(x, t) e una funzione continua e derivabile, con ipotesi di rego-larita che qui trascureremo, gli integrali di Ito e di Stratonovich soddisfano P -a.s.la relazione∫ b

a

g(X(t), t) dW (t) =

∫ b

a

g(X(t), t) dW (t) +1

2

∫ b

a

gx(X(t), t) b(X(t), t) dt

nel senso che il membro sinistro esiste se e solo se esiste quello destro, e in questocaso i due coincidono. Ovviamente qui b(x, t) e il coefficiente di diffusione dell’EDSdi Ito (8.26)

1Per maggiori dettagli vediC.W. Gardiner, Handbook of Stochastic Methods, Springer(Berlin, 1997); T. Neckel, F. Rupp, Random differential equations in scientific com-puting, Versita (London, 2013)

317

Page 318: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes

Proof: Omessa (vedi T. Neckel, F. Rupp, Random differential equationsin scientific computing, Versita (London, 2013), p. 159)

Si noti che in particolare gli integrali di Ito e di Stratonovich coincidono se g(x, t) =g(t) non dipende da x. Inoltre, se X(t) e soluzione dell’EDS di Ito (8.26) (interpre-tata nel senso integrale (8.27)), prendendo h(x, t) = b(x, t) si vede facilmente dallaProposizione L.1 che X(t) risulta anche (sempre nel senso integrale) soluzione dellaseguente EDS di Stratonovich

dX(t) = a(X(t), t) dt+ b(X(t), t) dW (t)

a(x, t) = a(x, t)− 1

2b(x, t) bx(x, t)

Naturalmente tutti questi risultati possono essere usati anche per dare – almenoper questi casi particolari – una definizione coerente di integrale (e di EDS ) diStratonovich basata sulle analoghe definizioni di Ito che, a loro volta, sono benposte. Noi pero eviteremo di addentrarci lungo questa strada e baseremo sempre lenostre considerazioni sull’integrale di Ito – che sara considerato come definito sullabase della procedura esposta nella Sezione 8.2.2 – con le conseguenti modifiche nelleregole del calcolo differenziale e integrale

318

Page 319: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

Index

distribution function, 32

additivity, 17ago di Buffon, 93algebra, 14assenza di memoria, 93atom, 14

Bernoulli trials, 29Borel set, 15

cadlag, 32caratteristica logaritmica, 292coefficiente di correlazione, 80coefficiente di diffusione, 171combination, 12condizioni

di Lipschitz, 245consistence, 52convergence

pointwise, 60convergenza

P -a.s., 105debole, 106degenere, 120in Lp, 105in mq, 105in m.s., 139in distribuzione, 105in generale, 106in probabilita, 105

convex combination, 40convolution

discrete, 68convoluzione, 100

composizione di leggi, 118covarianza, 80

cumulante, 292cumulanti, 111cylinder, 16

decomposition, 14decomposizione di leggi, 118densita di probabilita

condizionata, 86, 89del χ2, 102di Erlang, 119di Student, 103log-normale, 99, 175

deviazione standard, 80differenziale stocastico, 178, 243disposition, 11distribution, 25

Bernoulli, 35binomial, 35Cauchy, 39degenerate, 34exponential, 38Gaussian (normal), 37bivariate, 45multivariate, 45standard, 38

joint, 63Laplace, 38marginal, 63Poisson, 26, 35probabilityfinite dimensional, 64

singular, 39uniform, 37

distribution function, 57absolutely continuous, 35generalized, 33

319

Page 320: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes INDEX

generalized multivariate, 43joint, 63marginal, 46, 63multivariate, 43

distribution of a r.v., 56distribuzion

Bernoulli, 25binomial, 25discrete, 34multinomial, 30

distribuzionedel χ2, 102di Boltzmann, 266di Erlang, 119, 152di Student, 103log-normale, 99

disuguaglianzadi Chebyshev, 86di Holder , 282di Jensen, 281di Lyapunov, 281di Minkowski, 283di Schwarz, 282

equazionedi Fokker-Planck, 173, 217, 221di Langevin, 183di Smoluchowski, 264differenziale stocastica, 244soluzioni deboli, 245soluzioni forti, 245

in avanti, 210equazioni

all’indietro, 214di Chapman–Kolmogorov, 189di Kolmogorov, 215in avanti, 214

equiprobability, 9event, 12eventi independent

condiconditionally, 23expectation, 71, 72

filtrazione

naturale, 231formula

di Bayes, 22di inversione, 112multiplication, 21total probability, 20

frequenza, 295function

Borel, 55error, 38Heaviside, 34

funzionea variazione limitata, 228Beta, 208, 269caratteristica, 108r.v. N(b, a2), 110r.v. B (1; p), 109r.v. B (n; p), 109r.v. δb, 109r.v. C(a), 111r.v. E(a), 110r.v. En(a), 119r.v. L(a), 111r.v. P(α), 109r.v. U (a, b), 110

di partizione, 266Gamma, 102generatrice, 220

funzionidefinite non negative, 113

iff, 32incrementi, 135

indipendenti, 191processo degli, 135stazionari, 142

independent σ-algebras, 22independent events, 22indicator, 55indice di Hurst, 311integral

Lebesgue, 72over a set, 73

320

Page 321: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

INDEX INDEX

Lebesgue-Stieltjes, 73integrale

di Ito, 231di Stratonovich, 317stocastico, 228

integrale stocastico, 141integrazione per parti, 242

Kolmogorov axioms:, 19

law, 25Gaussian (normal)standard, 38

law of a r.v., 56legge dei grandi numeri, 95

debole, 120di Bernoulli, 296forte, 122

leggi infinitamente divisibili, 193

marginalization, 46master equation, 156, 214, 216matrice

delle correlazioni, 81delle covarianze, 81, 85di diffusione, 210

matrixnon-negative definite, 45

measurability, 55measure, 19

absolutely continuous, 35finite, 19Lebesgue, 19probability, 19σ-additive, 19σ-finite, 19Wiener, 53

metrica, 289miscela, 40misure

Lebesgue-Stieltjes, 33moda, 80modificazione, 136moment, 73

absolute, 73momenti, problema dei, 111, 291Monte Carlo, metodo di, 95, 122moto Browniano, 167, 179

frazionario, 311geometrico, 174

norma, 289

ortogonalita, 290

P -a.s., 19partition, 11permutation, 11positive and negative parts, 71probability, 9, 17, 19

a posteriori, 22a priori, 22classical definition, 9, 17condizional, 20finite space, 17joint, 20space, 19

probability density, 35, 58Cauchy, 39exponential, 38Gaussian (normal), 37joint, 65Laplace, 38marginal, 65multivariate, 44uniform, 37

processiequivalenti, 136equivalenti in s.l., 136indistinguibili, 136

processoad incrementi indipendenti, 154, 191canonico, 137centrato, 138continuo, 139, 200degli impulsi, 176degli incrementi, 154, 168, 178derivabile, 140

321

Page 322: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

N. Cufaro Petroni: Probability and Processes INDEX

di Cauchy, 203di diffusione, 217di Levy, 193, 198di Markov, 185, 187di nascita, 156di Ornstein-Uhlenbeck, 181, 205, 252di Poisson, 154compensato, 160composto, 161

di Poisson semplice, 201di punto, 151di salto, 216di Wiener, 167, 168, 202geometrico, 174standard, 168

ergodico, 144, 197Gaussiano, 137, 173, 208non-anticipativo, 231omogeneo, 195pseudo-Markoviano, 307separabile, 137stazionario, 142, 194stazionario in senso lato, 143stocastico, 135

prodotto scalare, 290proprieta di Markov, 185proprieta riproduttiva, 102

leggi δb, 118leggi N(b, a2), 118leggi P(α), 118

random element, 61random sequence, 62random variable, 55

absolutely continuous, 58absolutely integrable, 72canonical, 59continuous, 58degenerate, 56, 58discrete, 58extended, 61integrable, 72simple, 56

random variablesidentical P -a.s., 57identically distributed, 57, 66independent, 66indistinguishable, 57

random vector, 62canonical, 59discrete, 65Gaussian (normal), 66

random walks, 167regola di moltiplicazione a catena, 188regressione, 96rinnovi, 152rumore bianco, 175rumore granulare, 165, 301

σ-algebra, 14Borel, 15generated by a r.v., 60generated by a family of subsets, 14

samplingwith replacement, 11without replacement, 11

sequence of r.v.’s, 62shot noise, 165space

probabilizable, 14sample, 10

spaziodei campioni, 19di Banach, 289di Hilbert, 290

spettro di covarianza, 148spettro di potenza, 146, 148statistica, 295statistics, 17stima in m.s., 95stochastic process, 63subadditivity, 19

teoremadi Bochner, 113di continuita, 114di esistenza e unicita, 245

322

Page 323: and Stochastic Processes - Istituto Nazionale di Fisica ...cufaro/didactic/ProbProc_ENG.pdf · Department of Physics Master’s Degree in Physics Class of Probabilistic Methods of

INDEX INDEX

di P. Levy, 114di Poisson, 129per v.a. binomiali, 127per vett.a. multinomiali, 128

di unicita, 112di Wiener-Khinchin, 146limitecentrale di Lyapunov, 125centrale per v.a. i.i.d., 124integrale, 297locale, 297

teoremi limite, 193theorem

Bayes, 22Kolmogorov on R∞, 52Kolmogorov on RT , 53Lebesgue, 61Lebesgue-Nikodym, 41Radon–Nikodym, 35

transizionedensita di, 170probabilita di, 154

trasformata di Fourier, 108

valore d’attesar.v. B (1; p), 77r.v. B (n; p), 77, 79r.v. δb, 77r.v. χ2

n, 102r.v. C(a, b), 78r.v. E(a), 78r.v. En(a), 119r.v. L(a), 78r.v. Tn, 103r.v. lnN(b, a2), 99r.v. N (b, a2), 78r.v. P(α), 77r.v. U (a, b), 78condizionatorispetto a un r.vec., 92rispetto a una r.v., 90

variabile aleatoriacomplessa, 62

standardizzata, 124variabili aleatorie

non correlate , 81varianza, 80

r.v. B (1; p), 83r.v. B (n; p), 83r.v. δb, 83r.v. χ2

n, 102r.v. C(a, b), 84r.v. E(a), 84r.v. En(a), 119r.v. L(a), 84r.v. Tn, 103r.v. lnN(b, a2), 99r.v. N (b, a2), 84r.v. P(α), 83r.v. U (a, b), 84

Venn diagrams, 12vettore

di deriva, 210di trascinamento, 210

vettore aleatoriogaussiano (normale), 115bivariato, 85

vettore delle medie, 85vita media, 92

weighed average, 71white noise, 175

323