Czemu rozkład Gaussa jest ,,normalny”? De Moivre, wzór Stirlinga i Laplace

Skąd się bierze wszechobecność rozkładu Gaussa? Jednym z powodów jest rozkład dwumianowy. Rozpatrzmy prościutki model. Przyjmijmy, że wzrost dorosłego mężczyzny warunkowany jest czterdziestoma genami w taki sposób, że każdy z nich może zwiększyć wzrost o 2 cm ponad pewne minimum albo nie zwiększyć. Zygota, z której powstaliśmy, wylosowała 40 genów i każdy z nich z prawdopodobieństwem p=\frac{1}{2} mógł dodać nam 2 cm wzrostu. Jeśli za minimum fizjologiczne uznamy 140 cm, to możliwy jest każdy wynik z przedziału (140, 220). Oczywiście, nie należy traktować tego przykładu dosłownie. Matematycznie oznaczałoby to 40 niezależnych losowań z prawdopodobieństwem sukcesu p. Rozkład liczby sukcesów wygląda wówczas następująco:

Dyskretny rozkład dwumianowy został tu przedstawiony z przybliżającym go rozkładem Gaussa. Naszym celem będzie zrozumienie, czemu takie przybliżenie działa, gdy mamy do czynienia z dużą liczbą prób.

Zacznijmy od samego rozkładu dwumianowego. Dla dwóch prób sytuacja wygląda tak (p – prawdopodobieństwo sukcesu, q=1-p – prawdopodobieństwo porażki):

Każda droga z lewa na prawo oznacza konkretny wynik. Wzdłuż drogi prawdopodobieństwa się mnożą, ponieważ są to niezależne próby (definicja zdarzeń niezależnych). Zeru sukcesów odpowiada prawdopodobieństwo q^2, dwóm sukcesom p^2. Jeden sukces możemy osiągnąć na dwa sposoby: sukces-porażka albo porażka-sukces, prawdopodobieństwa należy dodać, jeśli interesuje nas wyłącznie całkowita liczba sukcesów, a nie jej konkretna realizacja. Łatwo zauważyć związek z dwumianem Newtona

(p+q)^n=(p+q)(p+q)\ldots (p+q),

gdzie mamy n czynników. Każdy wynik to wybór jednego z dwóch składników nawiasu: p albo q. Mnożymy je kolejno przez siebie, co odpowiada losowaniom, a następnie dodajemy. Oczywiście suma wszystkich prawdopodobieństw równa jest 1. Składniki zawierające k sukcesów mają czynnik p^k. Wzór Newtona (znany zresztą przed Newtonem) daje nam

(p+q)^n=\displaystyle \sum_{k=0}^{n}{n\choose k}p^k q^{n-k}.

Prawdopodobieństwo k sukcesów jest równe

P(k)=\displaystyle {n\choose k}p^k q^{n-k}.

Jest to nasz punkt wyjścia. Przy dużych wartościach n obliczanie symboli Newtona było w XVIII wieku trudne, ponieważ występują tam silnie dużych liczb. Zwłaszcza w rejonie środka rozkładu obliczenia takie były kłopotliwe, ponieważ zostaje wiele czynników, które się nie skracają. Abraham de Moivre, francuski protestant zmuszony do emigracji z ojczyzny z przyczyn religijnych, spędził życie w Londynie, ucząc matematyki. Podobno jeździł po Londynie od ucznia do ucznia z kolejnymi kartkami wyrwanymi z Matematycznych zasad Newtona i w wolnym czasie zgłębiał treść tej masywnej księgi. De Moivre podał sposób przybliżania P(k) oraz wartości silni – to drugie przybliżenie nazywamy dziś wzorem Stirlinga od nazwiska drugiego matematyka, który w tym czasie zajmował się tym zagadnieniem.

Zaczniemy od P(k). Jeśli spojrzeć na histogram z obrazka rzuca się w oczy ogromna dysproporcja miedzy prawdopodobieństwami różnych wyników. Dlatego będziemy szukać przybliżenia nie dla P(k), lecz dla \ln P(k).

Wykres przedstawia histogram \ln P(k), a także przybliżającą go parabolę. Każdą przyzwoitą funkcję możemy przybliżyć rozwinięciem Taylora:

f(k)=f(k_0)+(k-k_0)f'(k_0)+\dfrac{1}{2!}(k-k_0)^2 f''(k_0)+\ldots.

W maksimum znika pierwsza pochodna, mamy więc

f(k)=f(k_0)+\dfrac{ (k-k_0)^2 f''(k_0)}{2}+\ldots.

Naszą funkcją jest

f(k)=\ln P(k)=\ln n!-\ln k!-\ln (n-k)! +k \ln p+(n-k) \ln q.

Potrzebujemy pochodnej z silni dla dużych wartości k oraz (n-k). Pochodna to przyrost funkcji odpowiadający jednostkowemu przyrostowi argumentu. Ponieważ

\ln k!=\ln 1+\ln 2+\ldots \ln k,

powinna ona być równa

\dfrac{d\ln k!}{dk}=\ln k.

Poniżej uzasadnimy to precyzyjnie, choć ostatni wzór powinien być zrozumiały intuicyjnie: nachylenie funkcji logarytmicznej stopniowo maleje, więc sumę można coraz lepiej przybliżać za pomocą pola pod krzywą.

Odpowiada to przybliżeniu

\ln k! \approx \displaystyle \int_{1}^{k} \ln t \, dt \Rightarrow \dfrac{d\ln k!}{dk}=\ln k.

Warunek na maksimum funkcji przybiera postać

\dfrac{d\ln P(k)}{dk}=-\ln k+\ln (n-k)+\ln p -\ln q =0 \Rightarrow k_0=np.

Druga pochodna równa jest

\dfrac{d^2 \ln P(k)}{dk^2}=-\dfrac{1}{k}-\dfrac{1}{n-k}=-\dfrac{1}{npq}.

Ostatnia równość daje wartość pochodnej w punkcie k=np. Nasze przybliżenie przybiera więc postać

P(k)=P(0) \exp\left(-\dfrac{(k-np)^2}{2npq}\right)+\ldots.

Jest to rozkład Gaussa o wartości średniej np oraz szerokości (odchyleniu standardowym) npq. Wartość P(0) można wyznaczyć z warunku normalizacji: pole pod naszą krzywą powinno być równe 1. Można ściśle pokazać, że przy dużych wartościach n wyrazy wyższych rzędów są do pominięcia przy obliczaniu prawdopodobieństw: różnice między parabolą a histogramem na wykresie dotyczą sytuacji, gdy prawdopodobieństwa są bardzo małe.

Przyjrzymy się teraz bliżej obliczaniu silni z dużych liczb. Zacznijmy od następującej funkcji zdefiniowanej jako całka:

g(t):=\displaystyle \int_{0}^{\infty}\exp(-\alpha t)\, dt,\alpha>0.

Różniczkując ją kolejno n razy po \alpha i kładąc na koniec \alpha=1, otrzymamy

n!=\displaystyle \int_{0}^{\infty} t^{n}\exp(- t)\, dx\equiv \Gamma (t+1).

Otrzymaliśmy funkcję gamma Eulera, która jest uogólnieniem silni, ponieważ zdefiniowana jest nie tylko dla wartości całkowitych n, lecz może być uogólniona na płaszczyznę zespoloną i określona wszędzie oprócz argumentów całkowitych ujemnych. Nam wystarczą tutaj wartości rzeczywiste dodatnie, szukamy przybliżenia dla dużych n. Zapiszmy funkcję podcałkową w postaci wykładniczej i zastosujmy rozwinięcie Taylora wokół maksimum, dokładnie tak jak powyżej dla funkcji P(k):

n!=\displaystyle \int_{0}^{\infty} \exp(n\ln t- t)\, dx\approx \exp(n\ln n-n)\int_{0}^{\infty} \exp\left(-\frac{(t-n)^2}{2n}\right) dt.

Wykres przedstawia przybliżenie gaussowskie oraz (na czerwono) wartości funkcji po wyłączeniu czynnika \exp (n\ln n-n). W przybliżeniu gaussowskim możemy rozszerzyć dolną granicę całkowania do -\infty, co nawet zmniejsza błąd przy niedużych wartościach n, a niczego nie psuje przy dużych wartościach n. Jeśli przeskalujemy funkcję gaussowską tak, aby miała jednostkową szerokość, porównanie wypadnie jeszcze lepiej.

 

Widzimy więc, że można ostatnią całkę wziąć po całej prostej. Jej wartość jest równa \sqrt{2\pi n}. Otrzymujemy wzór Stirlinga:

\ln n!\approx n\ln-n +\ln\sqrt{2\pi n}+O(1/12n).

Zaznaczyliśmy też wielkość następnego wyrazu w szeregu malejących potęg n. W wielu zastosowaniach można pominąć zupełnie całkę gaussowską i wnoszony przez nią wyraz \sqrt{2\pi n}. Jak się trochę popracuje nad dalszymi wyrazami rozwinięcia Taylora, można otrzymać i tę poprawkę 1/12n.

Pierre Simon Laplace rozwinął techniki szacowania wartości asymptotycznych całek. Jego wyprowadzenie wzoru Stirlinga było elegantsze, lecz rachunkowo trudniejsze (wymagało odwrócenia rozwinięcia w szereg). Laplace wykazał także, iż sumy zmiennych losowych zachowują się jak zmienne gaussowskie także w ogólniejszych sytuacjach niż ta przez nas rozpatrywana. Innymi słowy pierwszy zauważył, że zachodzi tzw. centralne twierdzenie graniczne. Ścisły dowód pojawił się znacznie później.

Adolphe Quetelet, krzywa dzwonowa i statystyczny człowiek (1835)

Był z wykształcenia matematykiem, z temperamentu organizatorem, lecz do historii przeszedł głównie dzięki swej niepohamowanej namiętności do stosowania metod statystycznych. Pragnął stworzyć statystyczną naukę o człowieku, opartą na rozmaitych szczegółowych spisach dotyczących narodzin, rozwoju, zdolności, karalności, chorób i zgonów ludnosci różnych obszarów czy grup. Jego dwutomowe dzieło z roku 1835 zatytułowane Sur l’homme et le développement de ses facultés, ou Essai de physique sociale („O człowieku i rozwoju jego zdolności, czyli zarys fizyki społecznej”) stało się szybko klasyczne. Quetelet wprowadził pojęcie statystycznego czy też przeciętnego człowieka (l’homme moyen), wyobrażając sobie, iż istnieje pewien idealny wzór, od którego poszczególni ludzie odchylają się za sprawą wielu różnych przyczyn. Pojęcie rozkładu statystycznego, który mieści całe spektrum badanej cechy, dopiero się kształtowało. Wcześniej  uczeni stosowali rozkłady statystyczne takie, jak rozkład Gaussa, do analizy błędów pomiarowych, gdy wiadomo, że mierzona wielkość przyjmuje pewną określoną wartość, a problemem jest jej ustalenie na podstawie obarczonych błędami pomiarów. Równolegle przebiegał społeczny proces uznania różnic między ludźmi za coś naturalnego, a nawet potrzebnego, nie za błąd w rozwoju czy niedostatek.

Jak to zwykle bywa w przypadku badań pionierskich, wiele wyników zostało potem zrewidowanych, niektóre stwierdzenia rażą dziś naiwnością. W swojej epoce był jednak Quetelet powszechnie uznawany za postać ważną, jego prace czytali uczeni tak różni, jak James Clerk Maxwell (który idee statystyczne zastosował do gazów) i Charles Darwin. Kontynuatorem prac Queteleta stał się kuzyn Darwina Francis Galton (to on ochrzcił rozkład Gaussa mianem rozkładu normalnego).

Znany powszechnie indeks masy ciała BMI (iloraz masy i kwadratu wzrostu) jest wynikiem obserwacji Queteleta, iż objętość ciała człowieka dorosłego nie jest proporcjonalna do sześcianu, lecz raczej do kwadratu wzrostu:

Gdyby człowiek rósł jednakowo we wszystkich wymiarach, ciężar w różnym wieku byłby proporcjonalny do sześcianu wzrostu. Obserwuje się jednak co innego. Wzrost masy jest mniej gwałtowny, z wyjątkiem pierwszego roku po urodzeniu, kiedy rzeczywiście na ogół obserwuje się powyższą proporcję. Potem jednak aż do okresu pokwitania ciężar ciała rośnie mniej więcej jak kwadrat wzrostu. (Sur l’homme, t. 2, s. 52)

Quetelet nie interesował się wszakże różnicami między ludźmi, starał się raczej odnaleźć typ idealny. Wskaźnik BMI zaczął być stosowany dopiero w drugiej połowie wieku XX, gdy problemem medycznym i ubezpieczeniowym w społeczeństwach zachodnich stały się nadwaga i otyłość.

W swym traktacie podał też Quetelet zaskakujący wzór na skłonność do przestępstwa y (mierzoną statystycznie) jako funcję wieku w latach x:

y=(1-\sin x)\,\dfrac{1}{1+2^{18-x}},

gdzie argument funkcji sinus podany jest w gradach: 100 gradów odpowiada kątowi prostemu. Wykres obserwowanej skłonności do przestępstwa wygląda u Qeteleta następująco:

źródło ilustracji: gallica.bnf.fr

Drugi wykres z płaskim obszarem szczytowym między trzydziestym a czterdziestym piątym rokiem życia dotyczy zdolności literackich. Wróćmy jeszcze do owej skłonności do przestępstwa.

Zależność Queteleta jest iloczynem dwóch funkcji: malejącej funkcji 1-\sin x w pierwszej ćwiartce (czyli czegoś zbliżonego do paraboli) oraz funkcji logistycznej, która opisuje szybki wzrost w okolicy x=18. Nb. krzywa logistyczna zastosowana została kilka lat później przez Pierre’a François Verhulsta, ucznia Quteleta, do modelowania ograniczonego wzrostu populacji, który zaczyna się wykładniczo (nieograniczone rozmnażanie), lecz osiąga naturalną barierę (np. brak pożywienia). Tutaj, w pracy Queteleta, krzywa logistyczna zdaje sprawę z osiągania dojrzałości przez człowieka, na dobre i złe. Oczywiście, nie powinniśmy zbyt serio traktować tego wzoru. Sam Quetelet w późniejszych latach ograniczał się do opisu danych statystycznych, nie upierając się przy żadnym wyrażeniu.

Wykres skłonności do przestępstw wg płci. Widzimy, że kobiety wkraczają później na ścieżkę kryminalną, lecz dłużej są aktywne.

Trwałym dorobkiem Queteleta okazało się stosowanie krzwej dzwonowej do opisu rozkładu statystycznego. Sam po raz pierwszy zastosował ją do statystyki obwodu w piersiach szkockich rekrutów. Jego dane wyglądały następująco:

Obwód w klatce piersiowej wyrażony jest w calach. Quetelet starał się dopasować do tych danych krzywą Gaussa, lecz w praktyce użył rozkładu dwumianowego z prawdopodobieństwami sukcesu/porażki 1/2 oraz liczbą prób równą 999 (tak, żeby mieć 1000 różnych wyników). Inaczej mówiąc, są to prawdopodobieństwa uzyskania k orłów w 999 rzutach monetą.

Jako uczeń Fouriera i Laplace’a wiedział dobrze, że rozkład dwumianowy dąży przy dużych wartościach liczby prób do rozkładu Gaussa. W ten sposób zaczęła się oszałamiająca kariera krzywej Gaussa w zastosowaniach statystycznych. W latach późniejszych przesadne stosowanie rozkładu Gaussa do wszelkich możliwych danych zaczęto nawet nazywać „quetelizmem” – bo, oczywiście, istnieją też inne rozkłady, choć w wielu sytuacjach właśnie rozkład Gaussa prawidłowo opisuje stan faktyczny.

Joseph Louis Lagrange i „wektor Laplace’a-Rungego-Lenza” (1781)

Pisałem kiedyś o zasadzie Arnolda: „Jeśli jakieś pojęcie nazwano czyimś imieniem, to nie jest to imię odkrywcy”. Przykładem może tu być tzw. wektor Rungego-Lenza, niemal odkryty przez Jakoba Hermanna, a na pewno odkryty przez Josepha Lagrange’a.

Joseph Louis Lagrange jest mało znany poza kręgiem profesjonalnych matematyków i fizyków. Wiele jego dokonań weszło do języka nauki i stała się dobrem powszechnym, funkcjonującym często bezimiennie. Urodzony w Turynie jako Giuseppe Luigi Lagrangia, poddany królestwa Sardynii, syn urzędnika królewskiego francuskiego pochodzenia, odkrył w sobie talent matematyczny jako nastolatek-samouk. Ojciec stracił fortunę w ryzykownych spekulacjach i syn potrzebował płatnego zajęcia. Pod koniec życia uczony twierdził, że gdyby nie potrzeba zarabiania, pewne nie zostałby matematykiem. Zapewne przesadzał. Talent tej wielkości nie daje chyba możliwości wyboru. W każdym razie młody Lagrange zadziwił Leonharda Eulera, z którym zaczął korespondować na temat rachunku wariacyjnego. W wieku dziewiętnastu lat został też mianowany sostituto – „zastępcą” profesora matematyki w szkole artyleryjskiej w Turynie. Uczył tam młodzieńców starszych od siebie, artyleria była uczonym rodzajem wojsk – to ze szkoły artylerii Napoleon Bonaparte wyniósł swój szacunek do przedmiotów ścisłych. Niezbyt przedsiębiorczy i cichy Lagrange spędził w Turynie wiele lat. Dopiero w wieku trzydziestu lat dzięki protekcji Jeana d’Alemberta został powołany do Akademii Nauk w Berlinie w miejsce Eulera, który wolał carową Katarzynę II od Fryderyka II pruskiego. Piemontczyk spędził w Prusach dwie dekady, narzekając na chłody i pisząc wciąż nowe ważne prace. W Berlinie powstało jego największe dzieło Méchanique analitique (sic!), opublikowane w dwóch tomach już w Paryżu, gdzie spędził resztę życia. Tam podczas Rewolucji zajmował się wprowadzeniem metrycznego systemu miar oraz nowego kalendarza i nowego podziału doby. Metr zdefiniowano wtedy jako jedną czterdziestomilionową część południka paryskiego, lecz babiloński, sześćdziesiątkowy podział godzin i minut okazał się zbyt głęboko zakorzeniony i tutaj zmiany się nie przyjęły. Został też Lagrange pierwszym profesorem analizy w École polytechnique, elitarnej i bardzo nowoczesnej na swe czasy szkole wyższej, modelu dla licznych politechnik na całym świecie.

Książka Lagrange’a była, niemal równo sto lat po Zasadach matematycznych Isaaca Newtona, podsumowaniem dorobku Newtonowskiej mechaniki za pomocą metod analitycznych spod znaku Leibniza, Bernoullich i Eulera.

W książce tej nie znajdzie Czytelnik żadnych rysunków. Metody, jakie w niej wykładam, nie wymagają żadnych konstrukcji ani rozumowań geometrycznych bądź mechanicznych, lecz jedynie operacji algebraicznych poddanych regularnym i jednolitym procedurom. Ci, co kochają Analizę, z przyjemnością zobaczą, jak mechanika staje się jej kolejną gałęzią i będą mi wdzięczni za takie poszerzenie jej domeny.

Newton byłby zapewne wstrząśnięty lekturą dzieła Lagrange’a. Zwyciężyła w nim algebra, metody formalnego przekształcania równań. Algorytmy zwyciężyły z wyobraźnią, ponieważ do ich stosowania wystarczy trzymać się prostych reguł. W ten sposób druga zasada dynamiki stała się układem trzech (lub więcej, zależnie od problemu) równań różniczkowych. Zagadnienie trzech przyciągających się ciał – jeden z wielkich problemów epoki, wymaga dwunastu całkowań. Lagrange pokazał w jednej ze swych prac, jak z dwunastu potrzebnych całkowań, zostaje do wykonania tylko siedem. Osiągnięcia tego rodzaju musiały być elitarne, choć miały też szersze znaczenie. Wielkim problemem epoki ponewtonowskiej była stabilność Układu Słonecznego. Newton przypuszczał, że wzajemne przyciąganie planet doprowadzi z czasem do rozregulowania się kosmicznego zegara, co zresztą może leżeć w boskim planie stwórczym: jako gorliwy czytelnik i komentator Apokalipsy św. Jana traktował znaną nam postać świata jako przejściową, próbował nawet oszacować, kiedy nastąpi ponowne przyjście Chrystusa. Lagrange, a po nim Pierre Simon Laplace (obaj raczej indyferentni religijnie) podjęli zagadnienie stabilności Układu Słonecznego. Wyglądało na to, że system planetarny zmienia się jedynie okresowo i nie ma w nim jednokierunkowych zmian parametrów orbit takich, jak ich rozmiar czy mimośród – a zatem grawitacja nie musi prowadzić do katastrofy kosmicznej. Zagadnienie to okazało się zresztą bardziej skomplikowane, niż sądzili Lagrange i Laplace. Pokazał to pod koniec wieku XIX Henri Poincaré. W wieku XX zrozumiano, że w układach takich jak planetarne powszechnie występują zjawiska chaotyczne. Chaos nie jest jednak nieuchronny, niezbyt wielkie zaburzenia nie naruszają bowiem regularnego charakteru ruchu. Wielkim osiągnięciem dwudziestowiecznej mechaniki analitycznej jest teoria KAM, zwana tak od nazwisk jej twórców: Andrieja Kołmogorowa, Vladimira Arnolda (to jego nazwisko pojawia się w zasadzie Arnolda – sformułowanej oczywiście nie przez niego, lecz przez Michaela Berry’ego) i Jürgena Mosera.

Pokażemy, jak Lagrange wprowadził trzy stałe ruchu Keplerowskiego, które dziś nazywa się powszechnie wektorem (Laplace’a)-Rungego-Lenza. Było to w roku 1779, a dwa lata później zostało opublikowane w pracach Akademii Berlińskiej (w Oeuvres de Lagrange, t. 5, s. 127-133). Algebraiczne podejście Lagrange’a łatwo daje się uogólnić na przestrzeń n-wymiarową {\mathbb R}^n, dlatego tak je pokażemy, uwspółcześniając nieco zapis. Siła grawitacji jest odwrotnie proporcjonalna do kwadratu odległości od centrum, działa wzdłuż promienia wodzącego planety (wektor o współrzędnych x_i/r jest wektorem jednostkowym o kierunku promienia wodzącego). Przyspieszenie planety zapisane jako składowe kartezjańskie spełnia równania

\ddot{x}_i=-\dfrac{\mu x_i}{r^3},\,i=1\ldots n,

gdzie kropki oznaczają pochodne po czasie t, \mu jest iloczynem masy Słońca i stałej grawitacyjnej, a r=x_ix_i\equiv x_1^2+\ldots+x_n^2. Po powtarzających się wskaźnikach sumujemy – jest to konwencja sumacyjna Einsteina, którą uczony żartobliwie nazywał swoim największym odkryciem matematycznym (nigdy nie uważał się za matematyka, lecz za fizyka, któremu przyszło stosować nowe techniki matematyczne i który przychodził do matematyki z innej strony). Za czasów Lagrange’a i jeszcze długo później pisano po trzy równania dla współrzędnych x,y,z, co wydłużało (niepotrzebnie z naszego dzisiejszego punktu widzenia) prace. Sam zapis równań jako trzech składowych kartezjańskich nie był czymś oczywistym za życia Newtona, a więc nawet na początku XVIII wieku. Jakob Hermann uważał, iż wymaga to uzasadnienia.

Szukamy wyrażeń, kombinacji współrzędnych i prędkości, które pozostają stałe podczas ruchu (są to tzw. całki pierwsze). Znanym wyrażeniem tego rodzaju jest energia E będąca sumą energii kinetycznej i potencjalnej:

E=\dfrac{1}{2}\dot{x}_1^2-\dfrac{\mu}{r}.

Lagrange podał jeszcze inne całki ruchu Keplerowskiego (w istocie wystarczy, aby siła działająca ze strony centrum skierowana była radialnie, konkretna jej postać jest nieistotna):

L_{ij}=x_i\dot{x}_j-x_j\dot{x}_i.

Mamy tych całek tyle, ile możliwości wyboru dwóch różnych wskaźników spośród n, czyli {n\choose 2}=\frac{n(n-1}{2}. Naprawdę jest to Keplerowskie prawo pól w przebraniu, a właściwie prawo pól plus stwierdzenie, że ruch zachodzi w płaszczyźnie (to ostatnie bywa nazywane zerowym prawem Keplera, co jest o tyle słuszne historycznie, że od niego Johannes Kepler zaczął swoje badania – przyjął je jako założenie. Kopernik nie wiedział, że tory planet są płaskie!). Zawsze możemy wybrać współrzędne tak, żeby co najwyżej dwie były różne od zera podczas ruchu, np. x_1, x_2. W przypadku 3D trzy całki (L_{23},L_{31},L_{12}) zachowują się jak wektor, jest to wektor momentu pędu.

Trzecia grupa całek, odkryta przez Lagrange’a i właściwa tylko siłom grawitacji, daje się zapisać w postaci

\mu e_i=-\dfrac{\mu x_i}{r}+\dot{x}_j L_{ij},\,i=1 \ldots n.

Wartości e_i są stałe. Jest to wektor zwany powszechnie w literaturze wektorem Rungego-Lenza. Lepiej poinformowani piszą o wektorze Laplace’a-Rungego-Lenza. W istocie jest to wektor Lagrange’a, którego szczególny przypadek podał Jakob Hermann, o czym Lagrange zapewne nie wiedział. Nie interesował go zresztą fakt, że jest to wektor, ważne dla niego były trzy całki ruchu. Laplace zaczerpnął te całki z pracy Lagrange’a i spopularyzował je, umieszczając w słynnym traktacie o mechanice niebios: Traité de mécanique céleste. Laplace, który uczył się pracy naukowej, czytając Lagrange’a, nie zawsze był lojalny wobec starszego kolegi. Ten zaś był chyba zbyt dumny, aby stale jak kupiec podkreślać swoje zasługi, co czyniła większość uczonych, konkurujących między sobą o niewielką pulę płatnych posad. Całki Lagrange’a z dzieł Laplace’a czerpali później inni bądź też sami odkrywali je niezależnie, jak William Rowan Hamilton. Runge i Lenz trafili do historii przypadkiem, z lenistwa późniejszych autorów, zbyt zajętych bieżącą pracą, aby włożyć wysiłek w przypisy.

Zobaczmy jeszcze, jak z wektora Lagrange’a wynika kształt toru planety. Mnożąc obie strony ostatniego równania przez x_i i sumując po powtarzającym się wskaźniku i, otrzymujemy

r +e_i x_i=L^2, 

gdzie L^2= \frac{1}{2} L_{ij}L_{ij}.Jest to równanie stożkowej o mimośrodzie e=\sqrt{e_i e_i}.

Trzeba podkreślić, że dla Lagrange’a nie było to jakieś szczególne osiągnięcie, lecz jedynie punkt wyjścia do pracy nad bardziej skomplikowanym zagadnieniem, gdy do problemu Keplera dodamy jeszcze siłę zaburzającą, jak w rzeczywistym problemie ruchu planet przyciąganych nie tylko przez Słońce, ale także przez inne planety.

Pokażemy jeszcze powyższe wyniki w zapisie wektorowym. Mamy wówczas

{\bf \ddot{r}}=-\dfrac{\mu {\bf r}}{r^3}.

Moment pędu równa się

{\bf L = r\times\dot{r}},

a wektor Lagrange’a:

\mu {\bf e}=-\dfrac{\mu {\bf r}}{r}+{\bf \dot{r}\times L}.

Mnożąc obie strony skalarnie przez {\bf r}, otrzymamy

r+{\bf e\cdot r}=\dfrac{L^2}{\mu}.

Uwaga techniczna. Łatwo sprawdzić, że podane wielkości są całkami pierwszymi, trudniej było je oczywiście odgadnąć. Kluczem jest tutaj obliczenie pochodnej po czasie z wektora jednostkowego, co Lagrange robi pozornie bez powodu, to znaczy powód wyjaśnia się po chwili. Mamy bowiem

\dfrac{d}{dt}\left(\dfrac{x_i}{r}\right)=\dfrac{\dot{x}_i r-\dot{r} x_i}{r^2}=\dfrac{x_jL_{ji}}{r^3}.

Korzystamy z faktu, że r\dot{r}=x_i\dot{x}_i (jest to zróżniczkowane tw. Pitagorasa: r^2=\sum_i x^2_i). Postać wektorowa jest przejrzysta, lecz ograniczona do {\bf R}^3.

 

 

Jakob Hermann pisze do Johanna Bernoulliego na temat ruchu planet, 12 lipca 1710 r.

Ulmenses sunt mathematici – mieszkańcy Ulm to matematycy – głosiło stare porzekadło. Znamy jednego matematyka z Ulm Johannesa Faulhabera, który miał kontakty z Keplerem i być może z Kartezjuszem. Słynna ogrzewana komora, w której rozmyślał francuski filozof pewnej jesieni, mieściła się w Neuburgu niezbyt oddalonym od Ulm. No i w Ulm urodził się Albert Einstein, lecz rodzina rok później się przeprowadziła i uczony jako człowiek dorosły nigdy potem nie odwiedził już swego miasta rodzinnego.

Prawdziwą kolebką matematyków była natomiast leżąca niezbyt daleko od Ulm Bazylea. Stąd pochodziła rozgałęziona rodzina Bernoullich, a także Leonhard Euler i Jakob Hermann. Protoplastą naukowego rodu był Jakob Bernoulli, to od niego uczyli się matematyki jego brat Johann oraz Jakob Hermann. Johann z kolei był ojcem wybitnego Daniela i nauczycielem genialnego Eulera. Ponieważ posad dla matematyków nie było w Europie wiele, więc wszyscy ci matematycy sporo podróżowali. Dzięki bazylejskim matematykom rachunek różniczkowy i całkowy Leibniza stał się podstawą nowożytnej matematyki.

Drugim wielkim zadaniem uczonych od końca XVII wieku stało się przyswojenie osiągnięć Isaaca Newtona. Matematyczne zasady filozofii przyrody zawierały rewolucyjną fizykę przedstawioną za pomocą indywidualnego języka matematycznego, stworzonego przez autora. Nie było w historii nauki traktatu tak oryginalnego zarówno pod względem treści fizycznej, jak i matematycznej. Toteż jego zrozumienie i opanowanie zajmowało całe lata nawet wybitnym uczonym. Na kontynencie panował matematyczny idiom Leibniza i twierdzenia Newtona tłumaczono niejako na tę zrozumiałą wśród uczonych symbolikę.

Jakob Hermann pierwszy podał różniczkowe sformułowanie II zasady dynamiki. Miało ono u niego postać

G=M dV: dT,

gdzie G,M oznaczały siłę i masę, a dV, dT – różniczki prędkości i czasu. Zapis ten pojawił się dopiero na 57 stronie jego traktatu Phoronomia (1716) i odnosił się do siły ciężkości zależnej od położenia. Oczywiście, Newton już w 1687 r. rozważał takie siły, ale wyłącznie w postaci geometrycznej. Jego II prawo brzmiało: „Zmiana ruchu jest proporcjonalna do przyłożonej siły poruszającej i następuje w kierunku prostej, wzdłuż której siła ta jest przyłożona.” Newton miał na myśli zmiany pędu ciała w pewnym krótkim czasie. Jednym problemem tego sformułowania była kwestia opisywania zmian w czasie, drugim problemem był wektorowy charakter siły: ilość ruchu, pęd, zmienia się w kierunku przyłożonej siły.

Pokażemy, jak Hermann rozwiązał problem ruchu ciała przyciąganego siłą odwrotnie proporcjonalną do kwadratu odległości od nieruchomego centrum. Zwolennicy Leibniza mieli zastrzeżenia do Newtonowskiego dowodu tego faktu, zbyt szkicowego. Pragnęli wyraźnego wykazania, że tylko stożkowe (albo część linii prostej) mogą być torem ciała. Opisywałem kiedyś rozwiązanie tego problemu podane w XIX wieku przez Williama Rowana Hamiltona.

Wyobrażamy sobie przyciągane przez centrum S ciało zakreślające krzywą CD. Jego ruch w nieskończenie krótkim czasie dt można przedstawić jako sumę wektorową ruchu bezwładnego od C do E oraz spadania od E do D wzdłuż kierunku siły w punkcie C, tzn. odcinki SC i DE są równoległe. Zmiana współrzędnej x w ruchu bezwładnym byłaby równa dx. Efekt działania siły przyciągającej to różniczka drugiego rzędu ddx (co później zapisywano d^{2}x). Oczywiście do ddx wchodzi tylko x-owa składowa siły.

Dziś narysowalibyśmy to tak, Hermann odnajduje trójkąty podobne na swoim rysunku i dochodzi do wniosku, że

ddx \propto F\dfrac{x}{r} dt^2.

Pole SCD zakreślane w czasie dt można przedstawić jako pole trójkąta o bokach [x,y] oraz [dx,dy], a więc jest ono równe połowie pola równoległoboku dt\propto y dx-x dy.
Ostatecznie różniczkę ddx możemy zapisać następująco (siła jest odwrotnie proporcjonalna do kwadratu odległości):

-a ddx=\dfrac{x}{r^3}(y dx-x dy)^2,

gdzie a jest stałą proporcjonalności. Naszym zadaniem jest znalezienie równania krzywej.
Całką tego równania jest

a dx=\dfrac{y}{r}(ydx-xdy).

Dzieląc obustronnie przez x^2 i całkując ponownie, otrzymujemy

-\dfrac{a}{x}+c=-\dfrac{r}{x}\;\Rightarrow\; a-cx=r,

gdzie c jest stałą całkowania. Jest to równanie stożkowej (po obustronnym podniesieniu do kwadratu otrzymamy wielomian kwadratowy w zmiennych x,y).

Postępowanie Hermanna jest pomysłowe, choć całkowania są nieintuicyjne. Można jednak, jak zawsze, sprawdzić je, idąc od końca do początku, tzn. wykonując dwa kolejne różniczkowania. Tak naprawdę sztuka rozwiązywania równań różniczkowych jest często zamaskowanym odgadywaniem całek. Różniczkowania wynikają z reguły Leibniza dla iloczynu d(uv)=v du+u dv.
W naszym przypadku mamy np. dla drugiego równania

d\left(\dfrac{y}{r}\right)=\dfrac{rdy-ydr}{r^2}=\dfrac{r^2 dy-y rdr}{r^3}.

Pamiętając, że r^2=x^2+y^2, mamy rdr=xdx+ydy. Itd. itp. rachunki „od końca” są łatwe. W pierwszym całkowaniu przyjęliśmy stałą całkowania równą zeru, co nie zmniejsza ogólności wyniku, bo Hermann zakłada, iż oś Sx jest osią toru planety, tzn. przecięcie z osią x z lewej strony punktu S następuje w peryhelium albo aphelium, czyli przy y=0 powinno być dx=0.
Johann Bernoulli, który miał dość nieznośny charakter (nigdy nie dość wypominania mu, jak to konkurował ze swym synem Danielem) odpowiedział wybrzydzaniem na procedurę Hermanna i przedstawił swoją ogólniejszą, opartą na innym podejściu.

Z dzisiejszego punktu widzenia Hermann odkrył pewną całkę pierwszą problemu Keplera (tak się dziś nazywa problem ruchu wokół centrum przyciągającego jak 1/r^2). Całka pierwsza to wyrażenie, którego wartość nie zmienia się podczas ruchu. U Hermanna jest to

-\dfrac{dx}{dt}L_{z}-\dfrac{y}{r}=A_{y}=const.

W wyrażeniu tym L_z=xp_{y}-yp_{x}. Gdyby zająć się przyspieszeniem wzdłuż osi Sy, otrzymalibyśmy drugą całkę. Razem składają się one na wektor

\vec{A}=\vec{p}\times \vec{L}-\dfrac{\vec{r}}{r}.

Nazywa się go wektorem Rungego-Lenza, choć odkrył go właściwie Jakob Hermann. W pełni zdał sobie sprawę z faktu, że mamy trzy takie całki pierwsze, czyli w istocie wektor, Joseph Lagrange, a po nim Pierre Simon Laplace. Laplace przedyskutował też systematycznie wszystkie całki pierwsze problemu Keplera (trzy to moment pędu, trzy to nasz wektor, jedna to energia całkowita planety). Carl David Runge (ur. 1856) oraz Wilhelm Lenz (ur. 1888) pojawiają się w tej historii późno i w rolach dość przypadkowych. Pierwszy (znany z algorytmu Rungego-Kutty) użył tego wektora w swoim podręczniku analizy wektorowej, drugi zastosował go do pewnego problemu w starej teorii kwantów, przepisując go z podręcznika Rungego. Zupełnie niekosztowny sposób wejścia do historii. Wilhelm Lenz jest natomiast autorem tzw. modelu Isinga (Ernst Ising był jego doktorantem). Wektor odegrał pewną rolę w powstaniu mechaniki kwantowej. Stosując go, Wolfgang Pauli otrzymał wartości energii w atomie wodoru na podstawie formalizmu macierzowego Heisenberga. Chwilę później Erwin Schrödinger zrobił to samo w swoim formalizmie i wielu fizyków nie wiedziało, co o tym myśleć, bo na pierwszy rzut oka oba podejścia różniły się kompletnie.

François Arago i prędkość światła (1810)

W roku 1809 dwudziestotrzyletni Arago został przyjęty do Akademii Nauk (przejściowo zwanej Instytutem Francji, uczeni należeli do jego pierwszego wydziału). Młody człowiek zdążył już przepracować kilka lat w Obserwatorium Paryskim i wziąć udział w trzyletniej podróży naukowej, której celem był dokładniejszy pomiar długości południka – czyli obwodu Ziemi. Rewolucja Francuska oprócz zmian politycznych przyniosła też system dziesiętny, nawet w kalendarzu: należało pracować dziewięć dni, by wypoczywać w dziesiątym, a kąt pełny miał mieć odtąd 400°, a nie 360°. Planowano też wprowadzić podział doby na dziesięć godzin po sto minut, lecz zapał rewolucyjny minął zbyt szybko. Zdążono natomiast wprowadzić jako jednostkę długości metr, równy jednej czterdziestomilionowej długości południka paryskiego. Pomiar południka oznaczał zatem dokładniejsze wyznaczenie metra. Ponieważ czasie pomiarów wojska francuskie dokonały inwazji Hiszpanii, więc ludność Balearów, widząc, jak Arago każe rozpalać ogniska na szczytach gór i w ogóle zachowuje się podejrzanie, uznała go za szpiega. Uwięziony w fortecy Bellver w Palma de Mallorca, zdołał z niej zbiec w łódce rybackiej, zabierając wyniki pomiarów, a nawet przyrządy geodezyjne. Trafił do Algieru, skąd popłynął do Marsylii, lecz niedaleko celu podróży hiszpańscy korsarze napadli na statek, co spowodowało dalsze uwięzienie, tym razem na wybrzeżu Katalonii, skąd trafił znowu do Algieru, w następnej przeprawie do Marsylii przeszkodziły wiatry północne. Wreszcie po kolejnych kilku miesiącach uczony dotarł tam wreszcie i musiał odbyć jeszcze długą kwarantannę w lazarecie. Mógł jednak zawiadomić bliskich, że żyje, w co nikt już nie wierzył. Otrzymał też niebawem list od poruszonego tymi przygodami sławnego przyrodnika Alexandra von Humboldta. Tak zaczęła się ich przyjaźń (choć starszy i homoseksualny Humboldt miał ochotę na coś więcej).

Niewątpliwie młody człowiek wykazał, że ma głowę na karku, choć można się zastanawiać, czy to wystarczy, by zostać członkiem Instytutu. Przeciwny kandydaturze Arago był wielce wpływowy Pierre Simon Laplace, który miał własnego kandydata, nieco starszego Siméona Poissona (tego od równania Poissona). Laplace wysuwał argument, że Arago niczego wielkiego jeszcze nie dokonał i jest za wcześnie, by go przyjmować do tego elitarnego grona. Odpowiedział mu podobno Joseph Lagrange, jedyna osoba, która mogła z Laplace’em mówić jak równy z równym: „Pan także, Laplace, przed wejściem do Akademii nie dokonał niczego godnego uwagi, można było jedynie pokładać w panu nadzieję. Pańskie wielkie odkrycia przyszły dopiero później” [Arago, Oeuvres complètes, t. 1, Histoire de ma jeunesse] Rzeczywiście, Laplace przyjęty został w wieku dwudziestu czterech lat, będąc dopiero u progu ważnych odkryć z mechaniki niebios. To odwieczny dylemat: czy stabilizacja finansowa powinna ułatwiać osiągnięcia, czy być za nie nagrodą. Francja miała silny państwowy system popierania nauki, który w tamtych czasach funkcjonował znakomicie, wystarczy popatrzeć na nazwiska członków Akademii z początku XIX wieku. Cesarz Napoleon I był autokratą, ale nie był idiotą i zatwierdził nominację Arago, zaprzysięgłego republikanina, a pod koniec życia chronił go przed represjami także następny cesarz, Napoleon III. Arago był przez wiele lat deputowanym do parlamentu, gdzie zajmował się popieraniem nowych wynalazków w rodzaju kolei żelaznych czy fotografii.

W grudniu 1810 roku jako świeżo upieczony członek Instytutu Arago przedstawił pracę poświęconą prędkości światła. Przyjmował w niej założenie, że światło ma naturę cząstkową. Francuz czytał pracę Michella i znał jego przewidywania, że prędkość światła emitowanego przez masywne gwiazdy może być znacznie mniejsza niż obserwowana w pobliżu Ziemi. Także Laplace przeprowadził podobne rachunki, wyszło mu, że ciało gęstości Słońca stałoby się ciemną gwiazdą, gdyby jego promień przekraczał 250 promieni Słońca. Prawdopodobnie także on zasugerował astronomowi sprawdzenie, czy różnice prędkości światła odbijają się jakoś na zjawisku aberracji światła gwiazd. Maksymalny kąt aberracji równy jest v/c, gdzie v – jest prędkością orbitalną Ziemi, a c – prędkością światła. Kąt ten jest mały i równy mniej więcej 10^{-4} \mbox{ rd} \approx 20'' , jak odkrył na początku XVIII w. James Bradley. Jeśli światło gwiazd dociera do nas z różną prędkością, to kąty aberracji powinny się indywidualnie różnić w zależności od gwiazdy. Efekty te powinny także zależeć od kierunku ruchu Ziemi, a więc zmieniać się w rytmie rocznym. Ponieważ najmniejsze kąty możliwe do zmierzenia były rzędu kilku sekund, więc tą drogą można by wykryć tylko bardzo znaczne zmiany prędkości światła.

Bardziej obiecujące wydawało się zjawisko załamania światła, którego wielkość także zależy od prędkości promieni w próżni. Światło różnych gwiazd powinno się więc załamywać w różnym stopniu. Arago starał się wykryć te różnice, umieszczając przed obiektywem teleskopu pryzmat. Aby obrazy gwiazd nie rozmyły się wskutek rozszczepienia światła w pryzmacie, używał dwóch sklejonych ze sobą pryzmatów ze szkła ołowiowego i zwykłego, które tworzyły układ achromatyczny – odchylający światło (w przybliżeniu) niezależnie od jego barwy. Astronom mierzył różnicę kąta między promieniem światła przepuszczonym obok pryzmatu i załamanym przez pryzmat dla szeregu gwiazd. Kąty odchylenia promienia były jednak praktycznie takie same, różniąc się najwyżej o kilka sekund, najwyraźniej w sposób przypadkowy – należało zatem przypisać je błędom pomiaru. Według obliczeń Arago zmiana prędkości światła o 1/10000 powinna skutkować różnicą kierunku promienia nawet o 14’’ – a więc znacznie więcej niż jego błędy pomiarowe. Ponieważ Ziemia porusza się z prędkością 1/10000 prędkości światła, więc obserwacje Arago powinny być wrażliwe na kąt między kierunkiem prędkości Ziemi a kierunkiem ku gwieździe. Żadnej tego typu zależności nie udało mu się wykryć. Jak napisał w swoim wystąpieniu przed Instytutem: „Na pierwszy rzut oka wynik ten wydaje się być w jawnej sprzeczności z Newtonowską teorią załamania [światła], ponieważ rzeczywiste nierówności między prędkościami promieni nie wywołują żadnych nierówności w ich odchyleniu”. Jeśli wierzyć Popperowi, teoria Newtona została tym samym obalona: jeśli z teorii wynika wniosek niezgodny z obserwacjami, to tym samym założenia teorii są nieprawdziwe. Obserwacje Arago były kłopotliwe, zwłaszcza dla ludzi takich, jak Laplace czy patronujący młodemu astronomowi Jean Baptiste Biot – zaprzysięgłych zwolenników teorii korpuskularnej światła. Obaj uczeni nie dali się przekonać nie tylko wynikom Arago, ale także i falowej teorii światła.

Arago zaproponował dziwaczne i dość desperackie wyjście z sytuacji: może promienie świetlne różnią się prędkościami, ale oko ludzkie reaguje tylko na wąski przedział prędkości. Wiedziano już od niedawna, że istnieje promieniowanie podczerwone, które przenosi ciepło, a także nadfioletowe, które zaczernia chlorek srebra (ten ostatni fakt otworzył drogę do wynalezienia fotografii). Może więc to prędkość decyduje o tym, czy widzimy dane cząstki światła, czy nie. Praca Arago nie została opublikowana, uczony poprzestał na jej odczytaniu. Można przypuszczać, że astronom sam nie wiedział, jak wytłumaczyć uzyskane wyniki. Choć na jego rezultaty powoływali się inni uczeni, to praca ukazała się drukiem dopiero czterdzieści lat później.

Wtedy kontekst był już inny. Pojawił się bowiem w nauce francuskiej Augustin Fresnel i jego wersja teorii falowej (wcześniejsza teoria falowa Thomasa Younga we Francji zrobiła jeszcze mniejsze wrażenie niż w Anglii). Arago należał do wczesnych zwolenników teorii falowej. Nic jednak nie jest proste na tym świecie: także w teorii falowej wyjaśnienie obserwacji Arago nie było zbyt naturalne: trzeba założyć, że eter świetlny jest wleczony, ale tylko częściowo, przez poruszający się ośrodek. Dopiero teoria względności wyjaśniła w roku 1905 rezultaty Arago w sposób naturalny: prędkość światła padającego na pryzmat z próżni równa jest zawsze c, bez względu na ruch pryzmatu, gwiazdy i Ziemi. Arago nie wykrył zmian odchylenia, bo ich po prostu nie ma.

Carl Friedrich Gauss i jego funkcja błędu (1809)

Gauss był cudownym dzieckiem, jego zdolności zwróciły uwagę księcia, dzięki czemu młody człowiek mógł się kształcić: najpierw w rodzinnym Brunszwiku, potem w Getyndze. Syn skromnego ogrodnika i murarza początkowo nie znał nawet dokładnej daty swego urodzenia – matka pamiętała jedynie, że była to środa, osiem dni przed Wniebowstąpieniem Pańskim – w 1799 roku młody uczony obliczył, że musiało to być 30 kwietnia 1777 roku. Już jego wczesne prace matematyczne, Disquisitiones Arithmeticae, poświęcone teorii liczb, oraz doktorat, zawierający dowód podstawowego twierdzenia algebry (każde równanie wielomianowe ma przynajmniej jeden pierwiastek zespolony), zawierały istotne wyniki, szeroki rozgłos zdobył jednak dzięki astronomii. W Nowy Rok 1801 teatyn z Palermo, Giuseppe Piazzi, zaobserwował słaby obiekt, który okazał się nową planetą (według współczensej terminologii: planetą karłowatą), zwaną dziś Ceres. Planeta zbliżyła się po pewnym czasie pozornie do Słońca i Piazzi nie potrafił jej później odnaleźć. Odkrył więc nową planetę i ją zagubił. Próbowano obliczyć orbitę Ceres na podstawie dostępnych obserwacji, zadanie to rozwiązał najlepiej właśnie Gauss: jego metoda nie wymagała żadnych upraszczających założeń, np. że orbita nowo odkrytego ciała niebieskiego jest okręgiem. Dzięki obliczeniom Gaussa, który był nie tylko znakomitym matematykiem, ale też bardzo sprawnym rachmistrzem, Ceres została odnaleziona. Kilka lat później uczonemu zaproponowano stanowisko dyrektora obserwatorium w Getyndze, które zajmował aż do śmierci. W roku 1809 opublikował swoją metodę wyznaczania orbity pt. Theoria motus corporum coelestium in sectionibus conicis solem ambientium (Teoria ruchu ciał niebieskich krążących wokół Słońca po krzywych stożkowych). Był to rok tragiczny dla Gaussa, we wrześniu urodziło się jego trzecie dziecko, syn Louis, miesiąc później wskutek komplikacji poporodowych zmarła jego żona Johanna. Louis przeżył swą matkę o zaledwie kilka miesięcy. Uczony ożenił się wprawdzie niedługo później ponownie: miał dwoje małych dzieci na wychowaniu, ale tragedia ta odcisnęła się głęboko na jego psychice.

Bendixen_-_Carl_Friedrich_Gauß,_1828

Portret z 1828 roku (Wikipedia)

Theoria motus zawiera rozważania na temat błędów i metody najmniejszych kwadratów. Sama ta metoda została wcześniej opublikowana przez Adriena Marie Legendre’a, lecz rozważania Gaussa poszły dalej, inspirując z kolei Laplace’a. Przedstawimy podejście Gaussa do funkcji błędu – dziś nazywamy ją rozkładem Gaussa bądź rozkładem normalnym. Gauss założył, że prawdopodobieństwo otrzymania w pomiarze wyniku różniącego się o (x, x+dx) od rzeczywistej wartości równe jest p(x)dx. Naszym zadaniem jest wyznaczenie kształtu owej funkcji. Można przypuszczać, że powinna mieć ona kształt dzwonowy: błędy przeciwnych znaków powinny być jednakowo prawdopodobne, dla dużych wartości |x| prawdopodobieństwo powinno być niewielkie.

Załóżmy, że dysponujemy serią niezależnych wyników pomiaru pewnej wielkości \mu: x_0, x_1,\ldots, x_n. Jeśli za każdym razem funkcją błędu jest p(x), to prawdopodobieństwo powinno być proporcjonalne do iloczynu:

p(x_0-\mu)p(x_1-\mu)\ldots p(x_n-\mu).

Szukamy wartości najbardziej prawdopodobnej, traktując iloczyn jako funkcję \mu. Możemy zlogarytmować nasz iloczyn i poszukać maksimum sumy logarytmów:

\ln{p(x_0-\mu)}+\ln{p(x_1-\mu)}+\ldots+\ln{p(x_n-\mu)}.

W maksimum pochodna równa jest zero, oznaczając tę pochodną przez g(x)=\frac{d\ln{p(x)}}{dx}, mamy

g(x_0-\mu)+g(x_1-\mu)+\ldots+g(x_n-\mu)=0.\mbox{(*)}

Funkcje p(x), g(x) przedstawione są jakościowo na rysunku.

error_function

Następnie Gauss robi założenie, że prawidłową wartością \mu powinna być średnia arytmetyczna wszystkich wyników. Jeśli tak, to równanie (*) słuszne jest dla każdej liczby składników i dowolnych wyników pomiaru. Możemy wziąć np. wartości

x_0-(n+1)y=x_1=\ldots=x_n,

gdzie y jest dowolną liczbą. Równanie (*) przyjmuje wówczas postać:

g(ny)+ng(-y)=0\Rightarrow g(ny)=ng(y).

Łatwo zauważyć, że oznacza to, iż g musi być funkcją liniową, którą zapiszemy jako g(y)=-y/h^2, gdzie h jest pewną stałą; uwzględniając definicję g(x), dostajemy

p(x)=C\exp{(-\frac{x^2}{2h^2})}.

Mamy więc słynną krzywą dzwonową Gaussa. Stała C musi być tak dobrana, aby pole pod krzywą było równe 1.

normal67

Parametr h zależy od dokładności pomiarów i określa szerokość krzywej, nazywamy go odchyleniem standardowym (na wykresie jest on jednostką na osi x). Iloczyn gęstości prawdopodobieństwa przyjmuje postać:

\exp{(-(x_0-\mu)^2-(x_1-\mu)^2+\ldots-(x_n-\mu)^2)}.

Szukanie najbardziej prawdopodobnej wartości \mu odpowiada więc minimalizacji sumy kwadratów odchyleń w wykładniku:

(x_0-\mu)^2+(x_1-\mu)^2+\ldots+(x_n-\mu)^2.

Nieśmiertelny wynalazek Josepha Fouriera (1804-1822)

Fourier, syn krawca, którego wcześnie odumarli rodzice, wszystko zawdzięczał swemu talentowi, a także umiejętności niezrażania sobie ludzi. Jego kariera wiele mówi o Francji tamtych czasów. Urodził się i wychowywał za panowania Ludwika XVI. Ktoś zwrócił uwagę na zdolnego chłopca i polecił go biskupowi Auxerre. Dzięki protekcji duchownego Fourier został przyjęty do szkoły artyleryjskiej kierowanej przez maurystów (benedyktyńska kongregacja św. Maura). Wcześnie ujawnił talent matematyczny. Zabiegał o przyjęcie na służbę do artylerii, lecz mimo poparcia słynnego matematyka Adrien Marie Legendre’a, minister odmówił. „Fourier, nie pochodząc ze szlachty, nie ma wstępu do artylerii, choćby nawet był drugim Newtonem” – oświadczył minister. Młody człowiek wstąpił więc do nowicjatu u maurystów, ale wybuchła Rewolucja Francuska i Fourier zmienił zdanie. Ojcowie zatrudnili go mimo to w swej szkole artyleryjskiej, gdzie uczył matematyki, a jak było trzeba, to także retoryki, filozofii i historii. Należał do słuchaczy École normale roku III: był to swoisty eksperyment szkolny, mający dostarczyć Rewolucji nowy zastęp nauczycieli. Tysiąc pięciuset uczniów słuchało wykładów największych uczonych Francji: Lagrange’a, Laplace’a, Monge’a, Bertholleta. Prawdziwą karierę zrobił Fourier dopiero za czasów Napoleona: był wśród uczonych towarzyszących Pierwszemu Konsulowi w wyprawie egipskiej („Osły i uczeni do środka” – wołali oficerowie, kiedy konwój Francuzów został zaatakowany na pustyni). Fourier został sekretarzem Instytutu Egipskiego powołanego przez Napoleona, wniósł swój wkład do jego publikacji. Po kapitulacji armii i powrocie do Francji, został prefektem departamentu Izery, gdzie budował drogi i osuszył bagna Bourgoin. W tym czasie dobiegający czterdziestki uczony zajął się poważniej fizyką matematyczną: zagadnieniem rozchodzenia się ciepła. W roku 1807 wygrał konkurs Akademii Nauk poświęcony temu zagadnieniu. W roku 1822 opublikował swą słynną monografię Théorie analytique de la chaleur – „Analityczną teorię ciepła”.

Joseph_Fourier
Wiedza o cieple nie była zbyt wielka: znano pojęcie temperatury i ciepła właściwego. Nie wiedziano, czym jest ciepło, wyobrażano sobie, że jest rodzajem nieważkiej cieczy, która przepływa z jednego ciała do drugiego, nie ginąc ani nie powstając (zasady termodynamiki sformułowano trzydzieści lat później). Fourier przyjął, że strumień ciepła na jednostkę powierzchni i czasu zależy od tego, jak szybko zmienia się temperatura z odległością.

fourier-strum

J_x=-a\dfrac{\Delta T}{\Delta x}=-a\dfrac{dT}{dx}.

Szybkość zmiany temperatury to gradient. Strumień ciepła jest więc proporcjonalny do gradientu temperatury: jeśli ten sam spadek temperatury przypada na dwa razy krótszy odcinek, to strumień będzie dwa razy większy. Znak minus informuje, że ciepło płynie od temperatury wyższej do niższej, a nie odwrotnie. Stała a charakteryzuje materiał.
Będziemy szukali przepływów stacjonarnych, tj. takich, które nie zależą od czasu. Jeśli przepływ ciepła jest jednowymiarowy, tzn. strumień jest wyłącznie w kierunku osi x, to łatwo stwierdzić, że stacjonarność oznacza wówczas stałość J_x. Powierzchnie izoterm to płaszczyzny prostopadłe do osi Ox, a gradient temperatury jest stały.
Znacznie ciekawsza jest sytuacja w przypadku 2D. Wyobraźmy sobie prostokąt o bokach \Delta x, \Delta y. W naszym przypadku stacjonarnym całkowita ilość ciepła wypływająca w jednostce czasu z prostokąta musi być równa zeru: inaczej prostokąt ogrzewałby się albo oziębiał z czasem.

fourier box

Warunek ten zapisany matematycznie oznacza, że

\Delta y(J_x(x+\Delta x, y)-J_x(x, y))+\Delta x(J_y(x, y+\Delta y)-J_y(x, y))=

=\Delta x\Delta y\left(\dfrac{\partial{J_x}}{\partial{x}}+\dfrac{\partial{J_y}}{\partial{y}}\right)=0.

W pierwszym wierszu mnożymy strumienie przez długości odpowiedniego boku prostokąta, aby otrzymać ilość ciepła przechodzącą przez daną krawędź. Korzystając z tego, że strumień związany jest z gradientem, otrzymujemy następujący warunek stacjonarnego przepływu:

\dfrac{\partial^2{T}}{\partial{x^2}}+\dfrac{\partial^2{T}}{\partial{y^2}}=0.

Jest to równanie Laplace’a, występujące też w elektromagnetyzmie i teorii grawitacji. Aby zrozumieć jego sens, można wyobrazić sobie punkt płaszczyzny otoczony przez cztery inne punkty oddalone o niewielką odległość h.

fourier neighbours

Równanie Laplace’a mówi, że średnia arytmetyczna temperatur w punktach czerwonych równa się temperaturze w środkowym punkcie niebieskim. Nie powinno to dziwić: chodziło przecież o to, aby ciepło nie gromadziło się w żadnym obszarze ani z niego nie uciekało (**). Biorąc odpowiednio małe h, można w ten sposób rozwiązać równanie Laplace’a numerycznie. Można pokazać ogólnie, że gdy funkcja spełnia równanie Laplace’a, to jej średnia wartość po małej sferze (u nas okręgu) o promieniu h równa jest wartości w środku sfery.

fourier sfera

Wśród zagadnień rozważanych przez Fouriera znalazło się i takie: mamy nieskończony dwuwymiarowy pasek, którego jeden bok utrzymywany jest w temperaturze 1, a dwa boczne w temperaturze 0 (odpowiadały one w naszej skali 100^{\circ}\mbox{C} oraz 0^{\circ}\mbox{C}). Zakładamy też, że w nieskończoności temperatura spada do zera. Szukamy rozwiązania stacjonarnego.

fourier_boundary
Łatwo można znaleźć rozwiązania, w których temperatura na obu bokach równa jest zeru oraz stopniowo spada:

T(x,y)=C\exp{(-nx)}\sin{ny},\mbox{(*)}

gdzie parametr n jest całkowity. Dla n=1 wygląda to tak:

fourier1

Dla x=0 mamy jednak funkcję zdecydowanie różną od stałej. Łatwo sobie wyobrazić, że tak będzie i dla innych wartości n. Idea Fouriera polegała na tym, aby temperaturę wzdłuż osi Oy przedstawić jako sumę nieskończenie wielu sinusów:

T(0,y)=\frac{4}{\pi}(\sin y+\frac{1}{3}\sin 3y+\frac{1}{5}\sin 5y+\ldots).

Tak wygląda suma pierwszych trzech wyrazów:

fourier3A tak ośmiu:

fourier8

Naprawdę nasza suma sinusów jest nieparzysta i wygląda następująco (osiem składników):

fourier8full

Jest to funkcja o okresie 2\pi. Podejście Fouriera spotkało się z niedowierzaniem i krytyką. Wprowadzał on do rozważań „dziwne” funkcje, które nie są określone jednym wzorem i nie są ciągłe, przybliżając je wszystkie czymś tak banalnie prostym jak sinusoidy. Wiele prac z dziedziny fizyki i matematyki wyrosło z podejścia Fouriera. Matematycy zastanawiali się nad zbieżnością i pojęciem funkcji, fizycy i inżynierowie stosowali w praktyce. Dziś traktujemy szereg Fouriera jak przedstawienie wektora za pomocą pewnych wektorów bazowych. Np. każdy wektor na płaszczyźnie możemy przedstawić jako kombinację dwóch jednostkowych wektorów o kierunkach osi x i y. Funkcje okresowe o okresie 2\pi wyrażają się przez funkcje \sin{nx} i \cos{nx}, które pełnią rolę wektorów bazowych. Przestrzeń tak zdefiniowana jest nieskończenie wymiarowa i nazywa się przestrzenią Hilberta. Z punktu widzenia fizyka czy inżyniera analiza fourierowska pozwala rozłożyć każdy impuls okresowy na składowe, co pozwala wiele zrozumieć. Np. wysokość tonu wydawanego przez instrument muzyczny określona jest pierwszym sinusem, a następne przesądzają o barwie dźwięku: po tym odróżniamy a zagrane na fortepianie od a zagranego na skrzypcach.

Kiedy już mamy naszą dziwną funkcję rozwiniętą w szereg Fouriera, wystarczy zsumować nieskończenie wiele rozwiązań takich jak (*). Pierwsze trzy składniki dadzą rozwiązanie poniżej (możemy zawsze w razie potrzeby użyć większej liczby wyrazów).

fourier3 laplace

(**) Związek średniej arytmetycznej z równaniem Laplace’a wynika z rozwinięcia w szereg Taylora z dokładnością do h^2:

T(x\pm h,y)=T(x,y)\pm h\dfrac{\partial{T}}{\partial{x}}+\frac{1}{2}h^2\dfrac{\partial^2{T}}{\partial{x^2}},

T(x,y\pm h)=T(x,y)\pm h\dfrac{\partial{T}}{\partial{y}}+\frac{1}{2}h^2\dfrac{\partial^2{T}}{\partial{y^2}}.

Biorąc średnią arytmetyczną z tych czterech wyrażeń i odejmując wartość T(x,y), otrzymujemy

\overline{T}-T=\frac{1}{4} h^2 \left(\dfrac{\partial^2{T}}{\partial{x^2}}+\dfrac{\partial^2{T}}{\partial{y^2}}\right).

Od igły Buffona do metody Monte Carlo: statystyczne wyznaczenie liczby pi oraz wielkości mrowiska

Jean Marie Leclerc, hrabia de Buffon, był obok swego rówieśnika ze Szwecji Carla Linneusza najsławniejszym naturalistą drugiej połowy XVIII wieku. Za jego życia ukazało się trzydzieści sześć tomów historii naturalnej, a jeszcze kilka po jego śmierci z pozostawionych przez uczonego materiałów. W młodości nic nie zapowiadało, że zdolny jest do tak gigantycznej pracy. Studiował nauki przyrodnicze i Newtona zamiast poświęcić się prawu i być jak ojciec, adwokat parlamentu Burgundii oraz poborca podatku od soli. W Angers zabił w pojedynku chorwackiego oficera i musiał uciekać. Podróżował dłuższy czas po Europie razem z Evelynem Pierrepontem, drugim diukiem Kingston-upon-Hall, potem osiadł w Paryżu i zaczął starać się o przyjęcie do Akademii Nauk. Bardziej od zasług naukowych liczyły się kontakty, Buffon napisał jednak oryginalną, choć nietrudną pracę dotyczącą pewnej gry hazardowej, le jeu du franc-carreau. Polegała ona na tym, aby upuszczać przypadkowo monetę na posadzkę z drobnych płytek. Liczyło się, czy moneta mieści się całkowicie wewnątrz jednej z płytek, czy przecina jakieś granice między nimi. Buffon zastanawiał się, jak duże muszą być monety w stosunku do długości boku kwadratowej płytki, aby gra taka była sprawiedliwa. Przedstawił też jej prostszą odmianę: rzucamy w sposób przypadkowy igły długości l na podłogę z desek o szerokości d i sprawdzamy, czy igła przecina linię oddzielającą deski. Znów można zadać pytanie, przy jakim stosunku l/d gra będzie sprawiedliwa.

BuffonsNeedle

http://demonstrations.wolfram.com/BuffonsNeedleProblem/

Okazuje się, że prawdopodobieństwo przecięcia którejś linii równe jest

p=\dfrac{2}{\pi}\dfrac{l}{d}.

Wzór ten słuszny jest dla l\le d.Buffon ogłosił swe rozważania, po czterdziestu z górą latach, w roku 1777, w długiej rozprawie Essai d’arithmétique morale (arytmetyka moralna to rachunek prawdopodobieństwa). Dla kogoś, kto przełożył na francuski Traktat o fluksjach Isaaca Newtona, nie było to trudne zagadnienie. W roku 1812 Pierre Simon de Laplace zwrócił uwagę, że jeśli znamy stosunek długości igły do odległości linii, możemy eksperymentalnie wyznaczyć wartość liczby \pi. Np. na rysunku powyżej wylosowano 100 rzutów i igła przecina linię 66 razy oraz l=d. Wartość liczby \pi oszacowana na podstawie tego eksperymentu równa jest

\pi=\dfrac{2}{0,66}\approx 3,03

 My pokażemy, jak znaleźć to prawdopodobieństwo, nie korzystając z żadnych całek. Jeśli igła dowolnej długości l pada losowo na układ równoległych linii, to może je przeciąć pewną skończoną liczbę razy. Załóżmy, że zliczamy liczby przecięć dla kolejnych rzutów.

buffon1

Wartość oczekiwana liczby przecięć równa jest

E(l)=p_1+2p_2+3p_3+\ldots.

 Prawdopodobieństwo, że przecięć będzie k oznaczyliśmy p_k, suma zawiera tyle składników, ile trzeba dla danej długości igły. Jeśli podzielimy naszą igłę na dwie części o długościach l=l_1+l_2, to można ustalić zawsze, która część przecina daną linię.

buffon1_5

Jeśli przecięcia obu części będziemy zliczać oddzielnie, a następnie je zsumujemy, wynik nie może być inny niż przed podzieleniem igły:

E(l)=E(l_1)+E(l_2).

Moglibyśmy podzielić igłę na dowolną liczbę kawałków, łatwo widać, że E(cl)=cE(l) dla dowolnych wymiernych wartości c. Funkcja E(l) jest rosnąca, możemy więc napisać

E(l)=E(1)l=cl.

Wyznaczenie E(l) sprowadza się więc do znalezienia stałej c, która jest niezależna od długości igły.

Wyobraźmy sobie, że nasza igła to kawałek drutu, który zaginamy, jak na rysunku. Wartość oczekiwana liczby przecięć nadal będzie sumą wartości oczekiwanych liczby przecięć obu części. Inaczej mówiąc, wygięcie drutu nie zmieni wartości oczekiwanej całkowitej liczby liczby przecięć.

buffon2

A skoro tak, to możemy wyobrazić sobie, że rzucamy jakieś wielokąty foremne i obliczamy wartość oczekiwaną całkowitej liczby przecięć wielokąta z liniami prostymi. Nadal powinna to być ta sama funkcja E(l).

buffon2_5

Aby znaleźć wartość stałej c rozpatrzymy zamiast wielokątów ich graniczny przypadek czyli okrąg o średnicy d. Okręgi takie przecinają nasze linie proste dokładnie w dwóch punktach.

buffon3

Możemy więc napisać równość

2=E(d\pi)=d\pi E(1) \Rightarrow E(l)=\dfrac{2l}{\pi d}.

Obliczyliśmy w ten sposób wartość oczekiwaną liczby przecięć dla dowolnej igły. Co to ma wspólnego z prawdopodobieństwem pojedynczego przecięcia? Jeśli nasza igła jest krótsza niż odległość linii, to może przeciąć najwyżej jedną z nich, a więc E(l)=p_1.

Nietrudno zauważyć, że nasze obliczenie sprowadza się do ustalenia stosunku dwóch pól powierzchni z rysunku, czyli inaczej mówiąc do obliczenia pola powierzchni między sinusoidą a osią odciętych.

buffon0Można sobie wyobrazić bardziej bezpośredni sposób obliczenia pola powierzchni i tym samym liczby \pi. Wyobraźmy sobie kwadrat i załóżmy, że losujemy w sposób całkowicie przypadkowy punkty wewnątrz tego kwadratu. Jeśli w kwadrat wpiszemy okrąg, to niektóre z nich znajdą się wewnątrz okręgu, inne na zewnątrz.

MonteCarlo1000

Na rysunku wylosowano 1000 punktów, 773 leżą wewnątrz okręgu, zatem

\dfrac{\pi}{4}\approx\dfrac{773}{1000}\Rightarrow \pi\approx 3,092

Obliczenie to stanowi prosty przykład działania metody Monte Carlo. Jest ona dość powolna, bo trzeba wygenerować wiele punktów, aby wynik był w miarę dokładny. Zauważmy jednak, że moglibyśmy w ten sposób zmierzyć pole pod dowolną krzywą, czyli mówiąc inaczej, obliczyć dowolną całkę. Metodę tę zaproponował w roku 1946 Stanisław Ulam, pracujący wówczas w Los Alamos. Dzięki pierwszemu komputerowi ENIAC można już było generować liczby losowe. Podczas rekonwalescencji po chorobie Ulam, specjalista od metod probabilistycznych, a do tego wielki miłośnik gier i hazardu, układał sobie pasjanse Canfielda i zaczął zastanawiać się, jak obliczyć w tym przypadku prawdopodobieństwo sukcesu. Było to trudne, ale można by np. wymodelować pewną liczbę gier i oszacować prawdopodobieństwo na podstawie częstości sukcesów. Razem z Johnem von Neumannem zastosowali po raz pierwszy metodę Monte Carlo do obliczeń dyfuzji neutronów.

Ciekawe zastosowania rozumowania typu igły Buffona można napotkać w biologii. Wyobraźmy sobie płaski obszar wypukły o polu powierzchni S. Zamiast igieł mamy dwa zestawy łuków krzywych. Ich całkowita długość to l_1 oraz l_2. Jeśli będziemy losowo umieszczać krzywe obu rodzajów w naszym obszarze, to średnia liczba przecięć między krzywymi obu rodzajów dana jest wzorem analogicznym do wzoru Buffona:

E=\dfrac{2l_1l_2}{\pi S}.

Możemy np. posłużyć się tą zależnością do statystycznego wyznaczenia pod mikroskopem długości pewnej krzywej (np. kawałka korzenia rośliny). Umieszczamy losowo w naszym obszarze badaną krzywą wraz z odcinkami prostej o ustalonej długości. Teraz wystarczy obliczyć, ile razy badana krzywa przecina się z odcinkami prostoliniowymi, co jest znacznie prostsze niż śledzenie za konkretną krzywą (wyobraźmy sobie, że mamy do zbadania tysiące takich korzeni).

root

Niech N będzie liczbę przecięć, zaś H całkowitą długością wylosowanych odcinków, wówczas długość krzywej równa jest

R=\dfrac{\pi NS}{2H}.

Zależność ta (oraz rysunek) pochodzą z klasycznej pracy E.I. Newmana, A Method of Estimating the total length of root in a SampleJournal of Applied Ecology, t. 3, (May, 1966), s. 139-145. Wzór Newmana można też wykorzystać do znalezienia pola powierzchni S, gdy znane są pozostałe wielkości. Sugerowano, że algorytmu tego rodzaju używają mrówki, szacując, czy jakieś miejsce nadaje się na nowe mrowisko. Dwa zestawy krzywych byłyby w tym przypadku dwoma trasami tej samej mrówki-zwiadowcy: liczyłaby ona, ile razy pierwsza trasa i druga się przecinają (trasy są znaczone feromonami, zakłada się, że mrówka reaguje na swoje indywidualne feromony). Nie potrafię ocenić, czy to dobra hipoteza, z pewnością ciekawa. Szczegóły można znaleźć w pracy: E.B. Mallon, N.R. Franks, Ants estimate area using Buffon’s needle, „Proc. R. Soc. London” B, t. 267 (2000) s. 765-770.

Racjonalni inaczej? Kognitywistyka kwantowa

Nie jest to tytuł grantu z Akademii Lagadyjskiej. Chodzi o zastosowanie reguł kwantowej probabilistyki do psychologii. Nie zakładamy, że umysł jest układem kwantowym (być może zresztą jest, ale tutaj to nieistotne). Stosujemy reguły fizyki kwantowej jako alternatywne podejście do kwestii prawdopodobieństwa. Zdaniem wielu współczesnych badaczy, zwłaszcza w obszarze informacji kwantowej, fizyka kwantowa jest czymś więcej niż tylko fizyką, a mianowicie pewnym rodzajem teorii probabilistycznej, różnym od klasycznego prawdopodobieństwa, Laplace’a i Kołmogorowa. Nie jest więc niemożliwe, że zasadnicze reguły prawdopodobieństwa kwantowego można zastosować także poza fizyką.

Stan układu w mechanice kwantowej przedstawia się za pomocą wektora. Ów wektor stanu zawiera potencjalne odpowiedzi na różne pytania eksperymentalne, jakie możemy zadać, wykonując odpowiedni pomiar. W najprostszej sytuacji możemy sobie wyobrażać, że jest to wektor na płaszczyźnie. Pomiar może dać nam binarną odpowiedź: nasz układ ma własność F albo przeciwną ~F. Geometrycznym odpowiednikiem pomiaru jest rzutowanie wektora stanu na osie układu współrzędnych.

linda problem0

Możemy więc nasz wektor zapisać jako sumę rzutów na kierunki F oraz ~F, albo na jakieś inne dwa prostopadłe kierunki B oraz ~B. Operator rzutowania oznaczamy przez P z odpowiednim indeksem:

S=P_{F}S+P_{\sim F}S=P_{B}S+P_{\sim B}S

Kwadraty długości owych rzutów są prawdopodobieństwami uzyskania określonych wyników. Przyjmujemy, że nasz wektor S ma długość jednostkową. Suma kwadratów długości obu rzutów jest zatem także równa 1 (jak powinno być dla prawdopodobieństw wykluczających się zdarzeń, których suma jest pewna), obrót układu współrzędnych tego nie zmienia, bo długość wektora S nadal musi być równa 1.

Oto dwa przykłady zastosowania tego podejścia. Pierwszy to Problem Lindy. Uczestnikom badania przedstawia się sylwetkę Lindy, która studiowała filozofię w liberalnym college’u, interesowała się problemami dyskryminacji i rasizmu, brała udział w demonstracjach przeciwko broni atomowej, jest singielką. Pytamy, co jest bardziej prawdopodobne: czy to, że Linda pracuje w banku przy obsłudze klientów, czy to, że pracuje w banku przy obsłudze klientów oraz jest feministką. Badani częściej wybierają drugą możliwość. Według klasycznej teorii prawdopodobieństwa dołączenie dodatkowego warunku nie może powiększać prawdopodobieństwa (B\cap F\subset B). W modelu kwantowym może być inaczej.

linda problem

Jeśli wektor stanu umysłu S rzutujemy najpierw na oś F, to przechodzi on w wektor P_F S. Pytanie o pracę w banku daje nam kolejne rzutowanie, tym razem na oś B. Wynik jest wyraźnie różny od rzutowania S od razu na oś B (czyli wykonania jednego pomiaru). Kwadraty długości to prawdopodobieństwa, można zatem rozwiązać Problem Lindy.

Jako drugi przykład rozpatrzymy znany z badań opinii publicznej fakt, że kolejność zadania pytań ma wpływ na wyniki. W prowadzonych w Stanach Zjednoczonych sondażach pytano: „Czy uważasz Billa Clintona za człowieka uczciwego i godnego zaufania?”, zadawano też to samo pytanie w odniesieniu do Ala Gore’a (był wiceprezydentem za kadencji Clintona). Ci, którzy, najpierw pytani o Gore’a, odpowiedzieli pozytywnie, częściej byli dobrego zdania o Clintonie niż w przypadku pozytywnej odpowiedzi na pytania w odwrotnej kolejności.

problem gore clinton

 

 

Operacje rzutowania na oś C i na oś G nie są przemienne: wynik zależy od kolejności. Według klasycznego podejścia mamy tu do czynienia z iloczynem zdarzeń, a ten jest przemienny.

Podejście kwantowe może wydawać się zupełnie arbitralne i dowolne: zawsze możemy sobie ustawić osie, jak wygodnie w danym przypadku. Jednak pewne związki miedzy prawdopodobieństwami są niezależne od modelu i potwierdzają się w badaniach empirycznych. Rośnie także liczba sytuacji, w których zastosowano takie podejście (np. dylemat więźnia). Nie jest dla mnie jasne, czy liczby zespolone odgrywają tutaj jakąś rolę. W mechanice kwantowej tylko w szczególnych przypadkach można ograniczać się do wektorów rzeczywistych, najważniejsza część mechaniki kwantowej związana jest z liczbami zespolonymi. Por. też: Piękna fizyka: kwantowe interferencje do kwadratu. W każdym razie se non è vero, è ben trovato.

Podejście to omawia praca: Peter D. Bruza, Zheng Wang, and Jerome R. Busemeyer, Quantum cognition: a new theoretical approach to psychology, „Trends in Cognitive Sciences”, t. 19, nr 7 ((July 2015), s. 383-393, a także wiele innych publikacji.

Albert Einstein każe Bogu grać w kości (1916)

Słynne jest powiedzenie Einsteina, że Bóg nie gra w kości – chodziło mu o to, że prawa rządzące najmniejszymi, elementarnymi cząstkami powinny być przyczynowe. Prawami takimi są zasady dynamiki Newtona: jeśli znamy położenie i prędkość różnych ciał dziś, to w zasadzie moglibyśmy obliczyć, co się z tymi ciałami stanie w przyszłości. Pierre Simon de Laplace sformułował to następująco:

Inteligencja, która by w danej chwili znała wszystkie siły, które działają w przyrodzie, oraz wzajemne położenia bytów ją tworzących i była przy tym dostatecznie dostatecznie rozległa, by te dane poddać analizie, mogłaby w jednej formule zawrzeć ruch największych ciał wszechświata i najmniejszych atomów: nic nie byłoby dla niej niepewne i zarówno przyszłość, jak przeszłość byłyby dostępne dla jej oczu. Umysł ludzki daje słabe pojęcie owej inteligencji, której doskonałość osiągnąć potrafił jedynie w astronomii. [Théorie analytique des probabilités (1812)]

Otóż Einstein jako najwybitniejszy fizyk XIX wieku (podobnie jak Jarosław Iwaszkiewicz nazwany został, nie bez pewnej racji, najwybitniejszym polskim pisarzem dziewiętnastowiecznym) wierzył w słowa Laplace’a, technicznie rzecz ujmując, sądził, że równania różniczkowe mogą ściśle opisać rzeczywistość. Był w tym spadkobiercą Laplace’a i Jamesa Clerka Maxwella oraz całej plejady wybitnych fizyków wieku pary i elektryczności.

Jednak już sam Laplace zastanawiał się nad zdarzeniami przypadkowymi, w cytowanej książce podał klasyczną definicję prawdopodobieństwa, której każdy się uczył. Fizycy zastosowali prawdopodobieństwa do opisu obiektów zbyt złożonych, aby znać szczegóły ich ruchu, jak np. gaz doskonały. Nie musimy znać szczegółów zderzeń wszystkich cząstek w gazie, wystarczy, jeśli znamy pewne charakterystyki średnie, np. średnią energię. Metodę tę rozwinął zwłaszcza Ludwig Boltzmann, a także Josiah Willard Gibbs w Stanach Zjednoczonych oraz Albert Einstein.

W ostatnich latach wieku XIX odkryto radioaktywność niektórych pierwiastków, a Ernest Rutherford podał prawo rozpadu promieniotwórczego: liczba pozostałych jąder maleje wykładniczo z czasem t, tzn. po pewnym czasie \tau pozostaje połowa jąder, po następnym czasie \tau połowa tej połowy, czyli 1/4 itd. Wygląda to tak:

Halflife-sim

Animacja z Wikipedii, z lewej strony na początku mamy 4 atomy, z prawej 400, u góry wyświetla się liczba półokresów rozpadu.

A matematycznie można zapisać następująco:

N=N_0 2^{-\dfrac{t} {\tau} }=N_0 \exp{(-\lambda t)}.

Przez N_0 oznaczona jest początkowa liczba jąder. Ostatnia równość jest tożsamościowa: możemy po prostu zapisać naszą funkcję w obu tych postaciach, jeśli odpowiednio wybrać stałą rozpadu \lambda. Gdy przyjrzymy się przez chwilę animacji powyżej, nasuwa się pytanie: skąd dane jądro wie, kiedy ma się rozpaść? Ponieważ wszystko wskazuje, że jądra rozpadają się niezależnie od siebie, więc oznacza to, iż prawdopodobieństwo przeżycia czasu t przez dowolne jądro równe jest

p(t)=2^{-\dfrac{t}{\tau} }=\exp{(-\lambda t)}.

Jest to bardzo dziwne prawo: znaczy bowiem, że każde jądro, niezależnie od tego, jak długo już istnieje, ma ciągle takie same prawdopodobieństwo rozpadu w nadchodzącym przedziale czasu. To jak gra w ruletkę: jeśli nawet 10 razy z rzędu wypadło czerwone, to za jedenastym razem prawdopodobieństwo, że i tym razem wypadnie czerwone jest wciąż takie samo jak przedtem. Każde zakręcenie koła ruletki rozpoczyna cykl od nowa i jego wynik nie zależy od tego, co wypadło poprzednio. Prawdopodobieństwo rozpadu jądra w małym przedziale czasu (t, t+\Delta t) jest równe

p(t)-p(t+\Delta t)=\exp{(-\lambda t)}-\exp{(-\lambda (t+\Delta t))}=\\ \\p(t)(1-\exp{(-\lambda \Delta t)}\approx p(t)\lambda \Delta t.

Jest ono iloczynem prawdopodobieństwa dotrwania do chwili t i prawdopodobieństwa rozpadu w krótkim czasie \Delta t. Zatem prawdopodobieństwo rozpadu (pod warunkiem, że w chwili t że jądro nadal istnieje) jest proporcjonalne do długości przedziału \Delta t i nie zależy wcale od tego, jak długo już obserwujemy tę sytuację:

p_{rozpadu}=\lambda\Delta t.

Inaczej mówiąc, prawdopodobieństwo rozpadu na jednostkę czasu jest stałe i równe \lambda. Kiedy Rutherford podał prawo rozpadu promieniotwórczego, zastanawiano się nad tym, że wygląda ono tak, jakby rozpad nie miał konkretnej przyczyny. Nie potrafiono w każdym razie wskazać takiej przyczyny. Nie znaczy to bynajmniej, że rozpad danego jądra nie nastąpi. Sytuacja przypomina grę w rosyjską ruletkę: bierzemy rewolwer bębenkowy i ładujemy kulę do jednej komory, po czym kręcimy komorą, aż zatrzyma się w przypadkowym położeniu. Przykładamy sobie do głowy i naciskamy spust: albo przeżyliśmy, albo nie. Jeśli tak, to możemy ten zabieg powtarzać, aż w końcu nam się uda. Można pokazać, że przypadku rosyjskiej ruletki średnia liczba prób będzie równa 6 (jest to liczba komór w bębenku). Wcale to jednak nie znaczy, że konkretny gracz nie przetrwa np. 24 prób. Nie jest to bardzo prawdopodobne, ale jest możliwe.

I tu dochodzimy do pracy Einsteina z roku 1916. Pół roku wcześniej podał on równania teorii grawitacji, zrobił parę mniejszych prac i zajął się oddziaływaniem promieniowania z materią. Trzy lata wcześniej Niels Bohr ogłosił swój model atomu. Wynikało z niego, że każdy atom powinien mieć pewien zbiór określonych – skwantowanych – energii. Rozpatrzmy atomy pewnego rodzaju, a w nich dowolną parę stanów o dwóch różnych energiach E_1 < E_2. Jeśli nasze atomy znajdą się w zbiorniku z promieniowaniem o temperaturze T, to liczba atomów w stanie o wyższej energii będzie mniejsza niż tych w stanie o niższej energii:

\dfrac{N_2}{N_1}=\dfrac{\exp{(-\dfrac{E_2}{kT}})}{\exp{(-\dfrac{E_1}{kT}})}=\exp{(-\dfrac{E_2-E_1}{kT})}.

Stała k zwana jest stałą Boltzmanna, a sam rozkład liczby atomów od energii także nazywany jest rozkładem Boltzmanna. Co oznacza taka równowaga cieplna? Ano tyle, że czasem nasz atom w stanie E_1 pochłonie promieniowanie i przejdzie do stanu E_2, a czasem na odwrót (wtedy energia zostanie oddana w postaci promieniowania). W równowadze oba procesy powinny zachodzić z taką samą szybkością.

emisja

Einstein założył – i to jest punkt zasadniczy – że możliwe są procesy jak na rysunku: dwa pierwsze oznaczają przejścia między poziomami wymuszone promieniowaniem – tzw. absorpcję i emisję wymuszoną. Prawdopodobieństwa tych procesów na jednostkę czasu będą równe iloczynowi odpowiedniej stałej B oraz gęstości energii promieniowania u(\nu). Mamy tu jeszcze jeden proces: emisję spontaniczną. Jej prawdopodobieństwo na jednostkę czasu jest równe A_{2\rightarrow 1} – tutaj prawo jest takie samo jak w rozpadzie promieniotwórczym. Wiedząc to wszystko, możemy zapisać ilość przejść 1\rightarrow 2 oraz 2\rightarrow 1 na jednostkę czasu:

N_1 B_{1\rightarrow 2}u(\nu)=N_2 B_{2\rightarrow 1}u(\nu)+N_2 A_{2\rightarrow 1}.

Obliczamy stąd funkcję u(\nu) i porównujemy ze znanym rozkładem Plancka:

u(\nu)=\dfrac{A_{2\rightarrow 1}}{B_{1\rightarrow 2}\exp{(\frac{E_2-E_1}{kT})}-B_{2\rightarrow 1}}=\dfrac{8\pi h\nu^3}{c^3}\dfrac{1}{\exp{(\frac{h\nu}{kT})}-1}.

Łatwo z tej równości wysnuć pewne wnioski nt. zależności między współczynnikami A, B. Np. zgodność obu równań jest możliwa tylko wówczas, gdy

E_2-E_1=h\nu.

Niels Bohr założył słuszność takiego równania, tutaj pojawia się ono jako wniosek. Nie będziemy wchodzić w szczegóły. Rzec można, Einstein obliczył maksimum tego, co było możliwe bez mechaniki kwantowej. Jedenaście lat później P.A.M. Dirac pokazał, jak wartości einsteinowskich współczynników wynikają z teorii kwantowej. Równania Einsteina prawidłowo opisują oddziaływanie atomów i promieniowania. Np. działanie lasera opiera się na emisji wymuszonej, opisywanej współczynnikiem B_{2\rightarrow 1}. Nie znaczy to, że Einstein zbudował laser, ale z pewnością zrozumiałby, gdyby jakiś mądry ET opisał mu taki wynalazek.

Dlaczego Einstein każe tu Bogu grać w kości? Współczynnik emisji spontanicznej musi być niezerowy i taki też zazwyczaj jest w przyrodzie (chyba że są powody, aby jakieś przejście było niemożliwe, np. ze względu na symetrię). To wszystko znaczy, że atom w wyższym stanie energetycznym kiedyś przejdzie do stanu niższego: tak samo jak gracz w rosyjskiej ruletce kiedyś się zastrzeli. Tyle że w przypadku atomu nikt nie pociąga za spust. Nie ma żadnej doświadczalnie możliwej do wykrycia przyczyny tego przejścia. Okazało się, że te współczynniki Einsteina to wszystko, co możemy wiedzieć i nie ma żadnej lepszej teorii, która by nam powiedziała, kiedy dany atom wyśle foton albo kiedy dane jądro się rozpadnie. Einstein w roku 1916 jeszcze nie rozumiał, że osiągnął granicę możliwości fizyki. Nigdy się z tym zresztą nie pogodził, stając się pogodnym dziwakiem w oczach kolegów i pracując wytrwale nad teorią, która by usunęła te probabilistyczne rozważania raz na zawsze. Jak wiemy, nigdy mu się to nie udało, dziś chyba mało kto wierzy, aby przedsięwzięcie tego rodzaju było wykonalne. Laplace i Einstein nie mieli racji, Bóg najwyraźniej gra w kości.