Zaznacz stronę
Napisali Krzysztof Kryca i Bartosz Kleszcz

Naukowcy z Uniwersyteu w Wirginii właśnie opublikowali wyniki swoich badań, jakie prowadzili od listopada 2011 do Grudnia 2014 roku (Science 28 August 2015: Vol. 349 no. 6251). W tym czasie dokonali replikacji, czyli ponownych badań spośród 100 już przeprowadzonych, wybranych z trzech czasopism naukowych poświęconych psychologii społecznej i poznawczej: Psychological Science, Journal of Personality and Social Psychology oraz Journal of Experimental Psychology: Learning, Memory, and Cognition. Wyniki ich badań zaskoczyły chyba wszystkich: autorów oryginalnych badań, autorów badań powtórzonych, redaktorów czasopism oraz wszystkie osoby, które zajmują się psychologią, zarówno zawodowo, jak i hobbystycznie. Co się bowiem okazało? Spodziewając się powtórzenia wyników na jak najwyższym poziomie, udało się uzyskać wynik na poziomie ledwie 39 procent – czyli 61 procent wyników nie znalazło ponownego uzasadnienia. Nasuwa się pytanie: to dużo czy mało? Według nas pytanie jest źle postawione, a ta publikacja jest najlepszym, co mogło spotkać psychologię oraz naukę w ogóle. Prowadzi ono zarówno do wielu ciekawych konkluzji, jak i powtarza stare prawdy, których trzymanie się mogłoby zaoszczędzić dużo pracy. W poniższej dyskusji przyjrzymy się zagadnieniom, jakie nasuwają się w związku z jego wynikami.

Krzysztof Kryca. Psychologia, pomimo swoich prawie 150 lat, jest ciągle młodą nauką i normalnym jest, że popełnia błędy. Ba, nawet naukom dużo od niej starszym takie sytuacje też się zdarzają, ale dużo rzadziej. Jest to więc bardzo dobry moment, aby poprawić narzędzia badawcze, które aktualnie są stosowane w psychologii (a nie zadawać pytanie: czy psychologia ma sens? Oczywiście, że ma, ale trzeba o niego ciągle pytać i go uaktualniać). Komunikat jest prosty: to, z czego korzystacie, nie jest doskonałe. Co prawda nie pojawiła się sugestia, jak robić to lepiej (poza powtórzeniem badania, ale gdzie jest granica takiego procesu?), więc nie pozostaje nic innego, jak kontynuować tę drogę, być ostrożniejszym oraz szukać innych metod badawczych.

Gdyby spojrzeć na 150 lat psychologii, jak na kilka tysięcy lat matematyki lub astronomii, to czy ta współczesna nauka o człowieku miała już swój przewrót kopernikański? Prawdziwy wstrząs, który zmieniłby jej myślenie i wywrócił do góry nogami dotychczasowe wnioski? Kto wie, czy to badanie nie będzie właśnie takim przełomem.

Bartosz Kleszcz. Jestem sceptyczny co do przełomowości tych badań – jest bardzo ważne, ale czy przełomowe? Zobaczymy, jakie wnioski wyciągnie z niego społeczność psychologów. Co do przewrotów, to powstanie psychologii jako gałęzi wiedzy odrębnej od filozofii już samo w sobie było historycznym przełomem. Jeszcze Immanuel Kant uważał, że nie da się psychiki ludzkiej badać naukowo, tymczasem symboliczna data początku nowoczesnej psychologii – otwarcie laboratorium Wundta w Lipsku w 1879 roku – znaczy radykalną zmianę w rozumieniu człowieka i zwrot w kierunku naukowości. Myślę, że takim przewrotem było też Freudowskie pokazanie, że da się pokazać racjonalną strukturę tego, co nieracjonalne, oraz program badawczy behawioryzmu z mniej więcej pierwszej połowy XX w., który moim zdaniem jest najobfitszym w konsekwencje wydarzeniem w historii psychologii.

Krzysztof Kryca. Sama naukowość psychologii jest jednak podważana właśnie przez to badanie. Zwraca się przy nim i przy innych sytuacjach ze świata nauki uwagę, że potrzeba sukcesu i medialnego splendoru dotyka również teoretycznie rzetelną dziedzinę wiedzy ludzkiej. Okazuje się bowiem, że redaktorzy czasopism naukowych nie wykazują daleko idącej sympatii dla publikowania artykułów, które sprawdzają już poprzednie badania (a powinni!). Czasopismo, żeby cieszyło się szacunkiem, musi być czytane i cytowane, a uzyskuje to przez publikowanie nowatorskich badań. Prowadzi to oczywiście do wyścigu, kto wymyśli coś bardziej innowacyjnego. A taki pośpiech niestety, ale nie służy rzetelności i wysokiej jakości procesu badawczego. Ponadto, co może niektórym wydawać się kuriozalne, ale z punktu widzenia rzetelności i profesjonalizmu jest czymś jak najbardziej naturalnym: gdy naukowiec stawia hipotezę a i prowadzi badania, które hipotezy nie potwierdzają, a następnie formułuje wniosek: „badanie nie potwierdziło postawionej hipotezy a”, to dochodzi do bardzo ważnego wniosku, który popycha naukę do przodu. Trudno mi jednak sobie wyobrazić, aby jakiekolwiek czasopismo opublikowało taki wynik.

Bartosz Kleszcz. To rzeczywiście kłopotliwa sytuacja, która jest problemem szerszym niż sama psychologia i wynika z obowiązującej na uniwersytetach filozofii publish or perish, gdzie naukowiec nie ma swobody w wyborze sfery badawczej, będąc ograniczonym przez to, co ma szanse na zdobycie punktów, czyli publikacji w liczących się czasopismach. Tym z kolei zależy na jak najwyższym wskaźniku cytowania, więc skłaniają się do faworyzowania ekscytujących wyników, na niekorzyść rozwoju nauki jako takiej, gdzie powinno być miejsce także dla replikacji – badań starających się sprawdzić, czy wyniki, które ktoś uzyskał, da się powtórzyć. Niestety takie badania często lądują do szuflady lub nie są nigdy rozpoczynane. Jako sprzeciw ku temu, powstały czasopisma specjalizujące się w badaniach, których nie udało się zreplikować np. Journal of Negative Results lub Journal of Negative Results in Biomedicine. Także ogólniejsze czasopisma naukowe zaczynają zwracać uwagę na ten problem, jak Perspectives on Psychological Science, które zaczyna promować badania replikacyjne.

[Następne 5 akapitów jest przeznaczonych dla psychologicznych geeków zainteresowanych statystyką. Czytasz na własną odpowiedzialność. ]

W dziedzinie psychoterapii temat replikacji jest tak samo aktualny, a kwestia faworyzowania pozytywnych badań każe także wnikliwiej przeglądać metaanalizy. Metaanaliza to badanie na temat wszystkich badań w danej dziedzinie, zbierające wyniki pojedynczych badań i mielące je za pomocą matematycznych obliczeń w jedną liczbę, za pomocą której można następnie określić, czy dana terapia czy teoria psychologiczna spełnia swe założenia czy nie oraz jak dobrze lub źle to robi.

Bardzo użyteczna w metaanalizie jest statystyka failsafe N. W swej najbardziej konserwatywnej wersji zakłada ona, że wszystkie badania, które wylądowały w szufladzie, mają wielkość efektu równą 0 – psycholog wykonał rzetelnie badanie, nic nie wyszło, nie dało się tego opublikować ze znanych nam względów. W związku z tym, jeśli publikuje się przede wszystkim pozytywne badania, możemy być w błędzie wynikającym z niewiedzy na temat wszystkich tych przypadków, kiedy negatywny wynik się nie ukazał. Failsafe N podaje, ile jeszcze musiałoby się negatywnych badań ukazać, aby zredukować efekt do nieistotnego statystycznie (czyli takiego, w którym nie jesteśmy w stanie powiedzieć, czy wynik jest przypadkowy czy wynikający z eksperymentu czy terapii). Krótko mówiąc, im wyższy failsafe N, tym lepiej. Niski failsafe N każe się zastanawiać, czy nie jest jeszcze za wcześnie na konkluzje.

Przykładowo, ostatnia ogólna metaanaliza psychoterapii ACT (A-Tjak et al. 2015), badająca 39 randomizowanych badań kontrolnych, wylicza, że krytyczny failsafe N zaczynałby się w okolicy 1100 – potrzeba by 1100 schowanych do szuflady publikacji o zerowym wyniku, aby zredukować pozytywny efekt tych 39 badań nad ACT do nieistotnego statystycznie, co jest mało prawdopodobne.

Z kolei badanie porównujące ACT z CBT, czyli klasyczną terapią poznawczo-behawioralną (Ruiz, 2012) opiera się na mniejszej próbie 16 badań, a same różnice między ACT a CBT nie są tak duże. W związku z tym failsafe N wynosi 78 – potrzeba by 78 nieprzyjętych publikacji, aby znikł efekt terapii, o jakim możemy wnioskować z tych 16 badań, które mamy. To pozytywny wynik, ale już nie tak silny, jak poprzednio.

Są zatem nawet już teraz sposoby na to, aby rozeznać w jakości wiedzy psychologicznej, przynajmniej w tych szkołach psychoterapii, gdzie korzysta się z naukowych metod.

Krzysztof Kryca. Co więcej, nawet sami autorzy artykułu zauważają, że ich badanie nie jest wystarczającym dowodem na nieprzydatność psychologii i przestrzegają przed wyciąganiem daleko idących wniosków. Jeśli nowy pomysł okazałby się już w pierwszym badaniu w całości poprawny i nie wymagałby żadnych korekt, a ewentualna powtarzalność potwierdzałaby pierwotne założenia, nauka mogłaby się zatrzymać w miejscu. Jak trzeźwo odnotowują autorzy, zdrowa dyscyplina naukowa zalicza mnóstwo falstartów, które pozwalają konfrontować obecny stan wiedzy z ideałem, do którego warto dążyć.

Przytoczę jeszcze jedną konkluzję autorów: nasze analizy pokazują, że wciąż jest dużo do zrobienia, aby dowiedzieć się co naprawdę wiemy, na temat tego, co wiemy. Nierzadko wniosek, do którego się dochodzi zostaje pozostawiony sam sobie i odłożony na półkę, podczas gdy wybitne odkrycie powinno wzbudzić najwyższą czujność. Badanie nie kończy się, gdy hipoteza została potwierdzona. Można wręcz powiedzieć, że proces ten nigdy nie ma swojego końca (być może przechodzi przez różne fazy), a nierzadko powrót do początku może być inspirujący, a nawet konieczny. Co więcej, jak słusznie zwraca uwagę Lisa Feldman Barret, jeśli powtórzone badanie doprowadzi nas do innej konkluzji, poszerzamy dzięki temu swoją wiedzę przez świadomość, że początkowy wynik jest prawdziwy, ale pod pewnymi warunkami, w określonym kontekście.

Bartosz Kleszcz. Tak, interpretacja prof. Barret pozwoliła mi spojrzeć na tę kontrowersję z innej perspektywy. Polecam jej artykuł każdemu, kto chce wyjść poza tabloidowe rozumienie tego badania i ogólniej nauki jako procesu.

Krzysztof Kryca. Myślę, że kluczem łączącym racjonalne podejście do nauki to sceptycyzm. Najprawdopodobniej o nim zapomniano w wielu przeprowadzonych badaniach. Trudno się dziwić człowiekowi, że reaguje emocjonalnie pozytywnie, gdy ktoś się z nim zgadza, lub w sytuacji, kiedy założona hipoteza odnajduje swoje potwierdzenia. Jednak celem nauki nie jest to, abyśmy czuli się lepiej i spokojniej. Albo precyzyjniej: nie tylko to. Mając do wyboru dwa niekorzystne rozwiązania: brak uczucia komfortu oraz czasowy komfort do momentu, aż okaże się, że był on złudny, nauka zawsze powinna wybierać pierwszą opcję. Co prawda niezwykle łatwo o tym zapomnieć w życiu codziennym. Zaryzykuję nawet tezę, że nie istnieje taka możliwość, aby w naszym codziennym życiu, gdy dokonujemy wyborów podczas zakupów, planów na weekend, aż po ważne decyzje takie jak wybór partnera, zawodu, czy przyjaciół kierować się tylko stuprocentową pewnością, lub przeprowadzać długie eksperymenty, które pozwolą nam wybrać z szeregu możliwości tą najlepszą. Jednakże sceptycyzm zarówno w nauce, jak i w życiu codziennym nie ma się sprowadzać do tego, aby nie wypowiadać żadnych sądów. Może on bowiem polegać na tym, aby po pierwsze wypowiadać sądy, co do których mamy największą pewność i przekonanie, a po drugie, aby nie popaść w dogmatyzm i zmienić swoje stanowisko, gdy napotkamy na swojej drodze poglądy, które rzetelnie podważają nasz punkt widzenia.

Bartosz Kleszcz. Warto tutaj przyjrzeć się temu, co oznacza zbyt daleko posunięty sceptycyzm w kwestii rozumienia tych wyników. Spotkałem się bowiem z wnioskiem, że z tej publikacji wynika, że psychologia nie może być uznana za naukę. Karl Popper, filozofii nauki, powiedział, że istotnym wyznacznikiem naukowości jest możliwość falsyfikacji – stworzenia takich warunków, w którym naukowiec będzie się starał podważyć hipotezę i jeśli mu to się nie uda, będzie można ją przyjąć do czasu, do kiedy ktoś jej wreszcie nie podważy.

Przypomina mi się tutaj hormizm, nurt psychologii sprzed kilkudziesięciu lat, który zakładał, że człowiek dysponuje określoną, skończoną ilością instynktów. Wszystko wyglądało dobrze, kiedy ich lista była krótka, ale wraz z upływem lat ich ilość rozrosła się do kilku tysięcy, a sam hormizm zszedł ze sceny raczej przez to, że wypadł z mody i uczenie się ogromnej tabeli absurdów niczego nie ujawniało o człowieku, a nie temu, że można było udowodnić, że teoria jest błędna, ponieważ zawsze można założyć, że ilość instynktów jest skończona, tylko że nie wymieniliśmy jeszcze wszystkich.

Dziś mamy inną sytuację i nawet w najskrajniejszym scenariuszu, gdyby okazało się, że nie udało się zreplikować żadnego badania (lub nawet gdyby ktoś pokazał, że wszystko, co wiemy, jest nieprawdziwe), to byłoby to prawdziwe święto, bo sam wynik badania pozostaje w nurcie nauki, jest nośnikiem nowej wiedzy, gdzie badacz jest w stanie merytorycznie i empirycznie podważyć zdanie innego badacza. Tak rozumiana nauka to wielka ściana do crash testów, gdzie różne hipotezy rozbijają się i to, co wytrzyma zderzenie, staje się nową ścianą, którą naukowcy będą starać się rozbić. Prawdopodobnie wszystko, co aktualnie uznajemy za prawdziwe, kiedyś zostanie uznane za wymagające korekty – jest to przeznaczenie wszystkich teorii, nie tylko w psychologii, i należy być na to otwartym czy otwartą. Im wcześniej wiemy, co jest nie tak, tym lepiej dla każdego zainteresowanego rozwojem naszej wiedzy.

Krzysztof Kryca. Podsumowując, jeśli wyciągniemy daleko idące wnioski z tej publikacji, to popełnimy błąd, w ogóle nie rozumiejąc o co chodzi. Wnioski są proste: trzeba powtarzać badania, aby móc choć z minimalnym prawdopodobieństwem ocenić wiarygodność uzyskanej dzięki nim wiedzy. Również tej, która płynie z artykułu w Science, przecież to oczywiste! Tak długo, jak nikt nie powtórzy tego badania, albo nie znajdzie innej (lepszej, bardziej skutecznej metody), będziemy mieć tylko do czynienia z niewielką wartością owych 60 badań, które nie zdały powtórnego testu. A co z trzecim podejściem? Czwartym, piątym? No i z setkami tysięcy badań i artykułów, które już zostały opublikowane? Powtarzam to raz jeszcze, ponieważ nie musi to być dla wszystkich oczywiste: ta publikacja nie pokazuje, że wszystkie badania z zakresu psychologii są bezwartościowe. Ono pokazuje dwie rzeczy: że replikacja jest bardzo istotna w procesie zdobywania nowej wiedzy oraz że nie wolno nigdy wierzyć ostatecznie w wyniki jakichkolwiek badań. Artykuł z Science kończy zdanie: „Gromadzenie dowodów jest metodą społeczności naukowej na naprawę własnych błędów oraz najlepszą dostępną możliwością dla osiągnięcia ostatecznego celu: prawdy”.