Warunkowanie instrumentalne

Warunkowanie instrumentalne (ang. instrumental conditioning, operant conditioning), in. warunkowanie II typu – forma uczenia się; ze względu na przebieg, między innymi aktywność uczącego się, warunkowanie instrumentalne należy odróżnić od warunkowania klasycznego, w którym uczący się pozostaje bierny.

Warunkowanie instrumentalne odkrył i opisał Jerzy Konorski (1928). Do najbardziej znanych psychologów zajmujących się tą problematyką należą: Burrhus Frederic Skinner, Edward Tolman i Edward Thorndike, który wprowadził termin prawo efektu opisujący relację między zachowaniem a następującą po nim konsekwencją. Istota warunkowania sprawczego polega na modyfikowaniu częstości zachowania poprzez stosowanie kar i nagród, co wpływa na prawdopodobieństwo wystąpienia danego zachowania.

Zarówno kary jak i nagrody mogą mieć charakter pozytywny lub negatywny.

Rys historyczny

Thorndike i prawo efektu

Warunkowanie instrumentalne, nazywane też warunkowaniem sprawczym, pierwotnie było badane przez Edwarda L.Thorndike (1874–1949), który obserwował zachowanie kotów starających się wydostać ze sporządzanych przez niego skrzynek problemowych. Początkowo koty po raz pierwszy umieszczone w skrzynce problemowej potrzebowały dużo czasu na to, żeby z nich się wydostać. Później, gromadząc doświadczenie, nieadaptacyjne zachowania kotów nieprowadzące do satysfakcjonującego rezultatu były przejawiane coraz rzadziej, a częstość zachowań skutkujących pożądanym wynikiem zwiększała się i zwierzę potrzebowało coraz mniej czasu, żeby odnaleźć rozwiązanie. W prawie efektu Thorndike założył, że reakcja wzmocniona osiągnięciem pożądanych skutków podnosi prawdopodobieństwo ponownego wystąpienia tej reakcji w przyszłości, lecz zachowania prowadzące do niepożądanych konsekwencji zmniejszają prawdopodobieństwo pojawienie się takich zachowań w przyszłości. Precyzując, niektóre skutki wzmacniają reakcje, a niektóre je hamują/wygaszają.

Większość ludzkich działań jest zdeterminowana poprzez procedurę warunkowania sprawczego. Często warunkowanie sprawcze nie jest ukierunkowane bezpośrednio na to, żeby kogoś uwarunkować, lecz mimo to jednak zachodzi w sposób pośredni. Warunkowanie sprawcze to naturalna technika nauczania, która jest stosowana od tysięcy lat, aczkolwiek nie było szczegółowo badane przed eksperymentami Thorndike’a na początku XX wieku.

Skinner

Za twórcę procedur warunkowania instrumentalnego uważa się B.F. Skinnera. Twierdził on, że czynnikami najsilniej wpływającymi na zachowanie są konsekwencje, czyli to, co następuje bezpośrednio po zachowaniu. Nie był on jednak pierwszym psychologiem, który zwrócił uwagę na koncepcję nagród i kar. Swoją ideę Skinner zapożyczył od Edwarda Thorndike’a, który w swoich eksperymentach nad zwierzętami zwrócił uwagę na prawo efektu. Bazując na wynikach Thornidke’a, Skinner oczyścił je z subiektywnych i nienaukowych spekulacji na temat uczuć, zamiarów czy celów organizmu. Jako radykalny behawiorysta, Skinner odrzucił myślenie o tym, co dzieje się w psychice danego organizmu, ponieważ niemożliwe było sprawdzenie tego podczas obserwacji.

Technikę wzmacniania Skinner opracował przy użyciu „komory sprawczej”, zwanej również skrzynką Skinnera, w której znajdowała się dźwignia przy naciśnięciu której zwierzę otrzymywało pokarm. Jej główną zaletą była możliwość kontrolowania układu wzmocnień, czasu i częstości występowania, które to czynniki wywierają znaczny wpływ na zachowanie. Skonstruowana została również maszyna, która tworzyła wykresy raportowe. Wykresy te były głównymi danymi, z których Skinner i jego współpracownicy korzystali. Na podstawie owych wyników wyprowadzono wniosek, że proces wzmacniania można zoperacjonalizować jako jakąkolwiek procedurę, która dostarcza organizmowi wzmocnienia według szczegółowej i sprecyzowanej reguły. Istotę zjawiska wzmocnienia można określić w tym, że jakakolwiek reakcja, która zostanie wzmocniona, ma tendencję do powtarzania się. Natomiast reakcje, które nie zostały w żaden sposób wzmocnione mają tendencje do stopniowego zaniku reakcji, czyli wygaszania.

Procedury i narzędzia

Do procesu kształtowania zachowania konieczna jest obecność konsekwencji, jakimi są wzmocnienia i kary występujące w zbieżności z danym zachowaniem. Występują również bodźce poprzedzające, które stanowią sygnał dla organizmu, by wykonać wcześniej wyuczoną reakcję. Kary i wzmocnienia wpływają na pojawienie się pożądanego zachowania.

Czynnik wzmacniający – każdy bodziec, którego pojawienie się w zbieżności z zachowaniem, zwiększa prawdopodobieństwo pojawienia się danej reakcji w przyszłości. Wzmocnienie oznacza podanie czynnika wzmacniającego po wystąpieniu danej reakcji.
Czynnik karzący – każdy bodziec, którego pojawienie się w zbieżności z zachowaniem, zmniejsza prawdopodobieństwo pojawienia się danej reakcji w przyszłości. Karanie oznacza podanie czynnika karzącego po wystąpieniu danej reakcji.

„Pozytywność“ i „negatywność“ to pojęcia odnoszące się do obecności bądź nieobecności bodźca apetytywnego lub awersyjnego.

Pozytywność – wiąże się z obecnością bodźca apetytywnego bądź awersyjnego
Negatywność – wiąże się z nieobecnością bodźca apetytywnego bądź awersyjnego

Dodatkową procedurą związaną z warunkowaniem sprawczym jest proces wygaszania reakcji.

Wygaszanie – pojawia się, gdy zaprzestanie się podawania wzmocnienia. W miarę coraz rzadszego podawania wzmocnień (negatywnych lub pozytywnych) reakcja systematycznie zaczyna wygasać, aż w końcu całkowicie zanika. W przypadku wzmacniania sporadycznego reakcja jest znacznie bardziej odporna na wygaszanie.

Cztery podstawowe konsekwencje warunkowania sprawczego:

1. Wzmocnienie pozytywne – polega na podaniu bodźca apetytywnego po danym zachowaniu, co zwiększa prawdopodobieństwo jego ponownego wystąpienia. Potocznie nazywane jest nagrodą.

2. Wzmocnienie negatywne – polega na usunięciu bodźca awersyjnego po danym zachowaniu.

3. Karanie pozytywne – polega na podaniu bodźca awersyjnego po danym zachowaniu, co zmniejsza prawdopodobieństwo jego ponownego wystąpienia.

4. Karanie negatywne – polega na odebraniu bodźca apetytywnego po danym zachowaniu.

Inne pojęcia i procedury związane z warunkowaniem sprawczym

Warunkowanie ucieczki – rodzaj uczenia się, w którym zastosowanie ma wzmocnienie negatywne. Jest to nauka reakcji organizmu, która powoduje ustanie działania bodźca awersyjnego. Dla przykładu: osoba uczy się otwierać parasol podczas burzy by uniknąć nieprzyjemnego bodźca, jakim jest deszcz.

Warunkowanie unikania – drugi rodzaj uczenia się, w którym zastosowanie ma wzmocnienie negatywne. Jest to nauka reakcji przez organizm, która nastawiona jest na zapobieganie działania bodźca awersyjnego zanim się pojawi. Dla przykładu: samochód jest wyposażony w irytujący dźwięk przypominający o zapięciu pasów: by uniknąć dźwięku osoba uczy się je zapinać zanim pojawi się brzęczyk.

Rozkłady wzmacniania – różne reguły podawania wzmocnienia sporadycznych. Występują w dwóch formach: rozkłady stosunkowe oraz rozkłady interwałowe.

1. Rozkłady stosunkowe

a) Rozkłady wzmacniania według stałych proporcji – wzmocnienie podaje się po wykonaniu przez osobę ustalonej liczby reakcji. Dla przykładu: można podawać wzmocnienie co 10 prawidłowo wykonanych reakcji.

b) Rozkłady wzmacniania według zmiennych proporcji – wzmocnienie podaje się po pierwszej reakcji, która pojawi się po zmiennej liczbie reakcji, której średnia jest z góry ustalona. Taki rozkład wzmocnień daje najlepsze rezultaty – najszybsze tempo reagowania oraz największą odporność na wygaszanie. Przykładem tutaj mogą być wzmocnienia dostarczane przez gry hazardowe.

2. Rozkłady interwałowe

a) Rozkłady wzmacniania o stałych odstępach czasowych – wzmocnienie podaje się po pierwszej reakcji, która się pojawi po upływie ustalonego czasu od poprzedniego wzmocnienia. Dla przykładu: wzmocnienie może być podawane co 10 minut, reakcje występujące między tym czasem nie są wzmacniane. Zwykle powoduje niskie tempo reagowania.

b) Rozkłady wzmacniania o zmiennych odstępach czasowych – wzmocnienie podaje się po pierwszej reakcji, która pojawi się po upływie z góry ustalonej przeciętnej długości czasu od poprzedniego wzmocnienia. Przykładowo, odstęp czasowy można ustalić 30 sekundowy, następnie 3 minutowy a potem 1 minutowy.

Bodźce dyskryminacyjne – bodziec, który sygnalizuje wzmocnienie, oraz kiedy określone zachowanie przyniesie w rezultacie wzmocnienie pozytywne. Organizm uczy się w obecności jakich bodźców jego zachowanie będzie miało z danym prawdopodobieństwem określony wpływ na środowisko. Bodźce te sygnalizują warunki do pojawienia się, bądź nie danej reakcji. Przykładowo osoba nauczona reakcji na światło zielone oznaczające pozwolenie do jazdy, nie reaguje w ten sam sposób na każde światło, a jedynie na zielone.

Generalizacja – zjawisko, polegające na rozszerzaniu reakcji powstałej w wyniku warunkowania, na inne bodźce podobne do bodźca dyskryminacyjnego. Przykładowo: reakcja została uwarunkowana w obecności zielonego światła i występuje zarówno przy świetle jasnozielonym, jak i ciemnozielonym.

Wzorce związków między zachowaniem a wzmocnieniem

Czyli ustalenie związków między reakcją, a zmianami w sytuacji, które następują po tej reakcji.

Możliwe sposoby łączenia reakcji z czynnikami wzmacniającymi

Wzmocnienia ciągłe jest to typ rozkładu wzmocnień, w którym wzmacnianie są wszystkie poprawne reakcje. Użyteczny sposób na początku procesu uczenie się, ponieważ pojawiająca się nagroda za poprawną reakcję i jej brak za niepoprawną są informacją zwrotną. Znajduje on też zastosowanie w procesie kształtowania- technika uczenia się sprawczego, która prowadzi do pojawienia się nowych zachowań, poprzez wzmacnianie reakcji podobnych do reakcji pożądanej (np. nauka czytania w szkole). Negatywną stroną tego rozkładu jest fakt, że każde, jednorazowe nienagrodzenie pozytywnej reakcji prowadzi do interpretacji, że jest ona reakcją niepoprawną. Ponadto wraz z coraz większym nasyceniem organizmu nagrodami maleje ich moc sprawcza. Wzmocnienia sporadyczne zwane także wzmocnieniem częściowym jest to typ rozkładu wzmocnienia, w którym wzmacnianie są niektóre, lecz nie wszystkie reakcje poprawne; stosowany, gdy pożądana reakcja została już dobrze wyuczona. Taki rozkład wzmocnień jest najskuteczniejszym sposobem na podtrzymania wyuczonych wcześniej zachowań. Jego zaletą jest odporność na wygaszanie, czyli proces, w którym wyuczona reakcja zostaje osłabiona ze względu na brak wzmocnień. Wzmocnienie sporadyczne może przebiegać w dwóch głównych formach: w rozkładzie stosunkowym i w rozkładzie interwałowym. Rozkład stosunkowy to taki program, w którym nagroda pojawia się po jakiejś liczbie poprawnych reakcji. Można wyróżnić dwie subkategorie w obrębie tego konstrukt: rozkłady wzmocnień według stałych proporcji, gdzie wzmocnienie pojawia się po pewnej niezmiennej liczbie poprawnych reakcji oraz rozkłady wzmocnień według zmiennych proporcji, gdzie liczba reakcji potrzebnych do uzyskania wzmocnienia zmienia się z próby na próbę. Drugą możliwą formą są rozkłady interwałowe, gdzie pojawianie się wzmocnienia zależy od czasu, jaki upłynął od ostatniego wzmocnienia. Istnieją dwie formy takiego rozkładu. Pierwszą z nich są rozkłady wzmocnienia o stałych odstępach czasowych, gdzie nagroda pojawia się po upływie stałego czasu. Drugą zaś są rozkłady wzmocnienia o zmiennych odstępach czasowych, w których wzmocnienie pojawia się po pewnym czasie, który zmienia się z próby na próbę.

Czynniki wpływające na efektywność warunkowania

Gdy używamy konsekwencji – karania lub nagradzania – do modyfikowania reakcji podmiotu, to efektywność działania może być podwyższona lub obniżona przez wiele czynników:

Deprywacja. Efektywność zachowania będzie zredukowana, jeśli „apetyt” jednostki dla danego źródła stymulacji będzie zaspokojony. Przeciwny efekty wystąpi, gdy jednostka zostanie pozbawiona danego bodźca i wtedy efektywność wzrośnie.
Bezpośredniość. To jak bezpośrednio i jak szybko występuje zachowanie po działaniu bodźca determinuje jego efektywność. Gdy za przekroczenie prędkości dostanie się mandat tydzień po zdarzeniu jest to mniej efektywne jako karanie, niż gdyby dostało się ten mandat od razu po wykroczeniu.
Niepewność. Gdy konsekwencja nie występuje zawsze po zachowaniu, to efektywność tego zachowania może być zredukowana i odwrotnie – gdy konsekwencja wystąpi zawsze po zachowaniu, to efektywność zachowania może wzrosnąć. Schemat wzmocnień, jeżeli jest konsekwentny, to prowadzi do szybszej nauki. Jeżeli jednak jest zmienny, to nauka jest wolniejsza.
Bilans. Bilans zysków i strat wpływa na efektywność zachowania. Jeśli stosunek tego bilansu jest wystarczający duży, by zachowanie było warte wysiłku, to będzie ono bardziej efektywne.

To jak istotne są te czynniki jest zależne od różnych biologicznych powodów. Przykładowo, celem deprywacji jest zachowanie homeostazy organizmu – gdy organizm jest pozbawiony cukru, to efektywność poszukiwania jego źródła jest większa niż gdyby organizm nie potrzebował danej substancji. Ponadto bezpośredniość i niepewność istnieją dzięki reakcjom neurochemicznym. Gdy organizm doświadcza nagradzającego bodźca, to ścieżki dopaminergiczne są aktywowane w mózgu, co pozwala niedawno pobudzonym synapsom na zwiększenie swojej wrażliwości na sygnały eferentne, a więc zwiększa też prawdopodobieństwo wystąpienia reakcji organizmu. Te reakcje mogą być odpowiedzialne za sukcesywne osiąganie wzmocnień.

Uczenie się unikania

Polega na utrwalaniu się pewnego zachowania, dzięki któremu możliwe jest uniknięcie awersyjnego bodźca.

Można wyodrębnić dwa rodzaje warunkowania unikowego:

czynne/aktywne – organizm uczy się jak zareagować aby uniknąć bodźca awersyjnego
bierne – nauka powstrzymywania się od reagowania

Klasyczne badania ukazujące uczenie się unikania przeprowadzano na szczurach umieszczonych w labiryncie. Zwierzęta te musiały nauczyć się sposobu reagowania, który pozwoliłby im zapobiec porażeniu prądem.

Uczenie się awersji do smaku

Przykładem silnie ewolucyjnego mechanizmu opartego na warunkowaniu unikania jest uczenie się awersji do smaku. W przypadku wystąpienia objawów zatrucia po spożyciu danego pokarmu, zwierzęta uczą się unikać tego konkretnego pożywienia. Awersja do smaku, w porównaniu do innych mechanizmów uczenia się, jest zjawiskiem szczególnym. Zostaje wyuczona w konsekwencji tylko jednorazowego kontaktu z bodźcem awersyjnym i wystąpienie jej możliwe jest nawet w przypadku długiej przerwy między spożyciem pokarmu a wystąpieniem objawów. Co więcej, jest oporna na wygaszanie.

Zobacz też

Bibliografia

Colman, A.M. (2009). Słownik psychologii. Wydawnictwo Naukowe PWN: Warszawa.
Gerrig, R.I., Zimbardo, P. G. (2009). Psychologia i życie. Warszawa: Wydawnictwo Naukowe PWN.
Konorski J., Integracyjna działalność mózgu, Warszawa 1969.
Zimbardo, P. G., Johnson, R. L., & McCann, V. (2010). Psychologia: kluczowe koncepcje. Motywacja i uczenie się. Warszawa: Wydawnictwo Naukowe PWN.