pies, rasy psów, hodowle   
Nasze konto NK
Nasze artykuły
  • Tytuł : 2. Uczenie się poprzez warunkowania - część 1
  • Dział: Szkolenie psów
  • Kategoria : Szkolenie metodą klikerową
  • Dodany : 31/03/08
  • Ilość wyświetleń: 15854

KLIKEROWE SZKOLENIE PSÓW

Praca magisterska - Uczenie się poprzez warunkowania - część 1


Autor:
Agnieszka Prymaka
Szkoła Główna Gospodarstwa Wiejskiego - Wydział Nauk o Zwierzętach




2. UCZENIE SIĘ POPRZEZ WARUNKOWANIA

2.1. ROZWÓJ KLIKEROWEJ METODY SZKOLENIA PSÓW


Od wieków pies towarzyszy człowiekowi. Dzięki wierności i przywiązaniu zdobył miano najwierniejszego przyjaciela człowieka. Pies charakteryzuje się dobrą zdolnością uczenia się, zapamiętywania oraz szerokim repertuarem zachowań. Dzięki tym cechom ludzie wykorzystują psy do szkoleń podstawowych, które mają ułatwić współprace z właścicielem w codziennym życiu, jak i szkoleń specjalistycznych [Kaleta 1999]. Szkolenie psów stało się bardzo popularne. Powstało wiele ośrodków szkolących psy, co za tym idzie powstało także wiele metod szkoleniowych. Najczęściej metody te polegają na stosowaniu kar i przymusu. Do dziś w ten sposób szkoli się psy, jednak metody te, zwane w kręgach szkoleniowych, tradycyjnymi, zaczynają być wypierane przez pozytywne metody szkolenia psów [Fisher 2002].

Jedną z nich jest metoda klikerowa, która została dokładnie opisana w rozdziale trzecim. Nie jest to metoda nowa, była stosowana na świecie od wielu lat. Okazywała się niezmiernie przydatna szczególnie w przypadku zwierząt, których nie da się nakłonić do współpracy poprzez stosowanie przymusu tj. np. delfiny [Pryor 1985].

W ostatnich latach metoda ta zdobyła popularność wśród osób zajmujących się szkoleniem psów. W Stanach Zjednoczonych była stosowana już w latach 30-tych, do Polski dotarła dopiero w latach 90-tych. Szybko zdobyła zwolenników, których grono wciąż się powiększa. Sednem metody jest nagradzanie zwierzęcia za pożądane zachowanie, które w skutek tego będzie powtarzane. Przewodnik używa języka doskonale przez zwierzę rozumianego, stosując wszystkie prawa związane z uczeniem się poprzez warunkowania.


2.2. TEORIE UCZENIA SIĘ


Uczenie się jest procesem powstawania, poprzez doświadczenie, względnie trwałych zmian w zachowaniu się organizmu. Zmiany te pozwalają na lepsze funkcjonowanie w danym środowisku. Wyróżnia się dwa podstawowe rodzaje uczenia się: warunkowanie klasyczne i warunkowanie instrumentalne. Poprzez warunkowanie klasyczne jednostki uczą się przewidywać pojawienie się ważnych wydarzeń w środowisku np. pojawienie się pokarmu, i przygotowywać się na nie. Natomiast poprzez warunkowanie instrumentalne jednostki uczą się, które z ich zachowań przynoszą korzystne, a które niekorzystne zmiany w środowisku. Uczą się więc, które reakcje warto powtarzać, a których unikać [Ostaszewski 2001].


2.3. WARUNKOWANIE KLASYCZNE


Warunkowanie klasyczne to proces, w którego przebiegu początkowo obojętny dla organizmu bodziec w wyniku długotrwałego podawania go wraz z bodźcem, który bez wcześniejszego uczenia wywołuje reakcję organizmu, nabiera także zdolności do wywoływania tej samej reakcji.

Warunkowanie klasyczne zostało odkryte przez rosyjskiego uczonego, Iwana Pawłowa. Badał on wydzielanie śliny u psów podczas karmienia. Pokarm jest naturalnym źródłem dla ślinienia się. Najpierw widok pożywienia wywoływał ślinienie u badanych psów, później widok eksperymentatora, który przynosił pokarm, a w końcu odgłos jego kroków wystarczył do wywołania ślinienia [Zimbardo 1994]. Aby potwierdzić te obserwacje Pawłow bezpośrednio przed karmieniem włączał dzwonek. Po kilku tego typu sesjach zaobserwował, że psy ślinią się już na sam dźwięk dzwonka. Dźwięk dzwonka wywoływał u nich takie same reakcje fizjologiczne, jak widok pożywienia.

Pokarm jest wrodzonym bodźcem bezwarunkowym (Sb), który wywołuje reakcję bezwarunkową (Rb), czyli ślinienie się. Natomiast bodziec, który w wyniku podawania go z bodźcem bezwarunkowym (pokarmem) wywołuje podobną reakcję (ślinienie) nazywa się bodźcem warunkowym (Sw) (dzwonek). Reakcja przez niego wywoływana jest reakcją warunkową (Rw).

Bodziec warunkowy sygnalizuje teraz pojawienie się bodźca bezwarunkowego. Gdy połączenie to zastanie wyuczone, organizm reaguje na dzwonek tak jakby to był pierwotny, silny bodziec.


Sb -> wywołuje -> Rb

(pokarm)               (ślinienie)


Sw -> wywołuje -> Rw

(dzwonek)              (ślinienie)


Pawłow zajmował się także warunkowaniem awersyjnym. Traktował łapę psa wstrząsem elektrycznym, stosując przy tym różne bodźce dźwiękowe i wzrokowe. Pies był w uprzęży, z której nie mógł się uwolnić, dlatego uniknięcie bolesnych wstrząsów było niemożliwe. Pies nie miał wpływu na odruch warunkowy. Reagował cofnięciem łapy, a także strachem [Zimbardo 1994]. Bodźcami warunkowymi mogą stać się bodźce fizyczne, jak również akustyczne i optyczne.

Jeżeli przed wystąpieniem bodźca bezwarunkowego nie będzie się pojawiać bodziec warunkowy, reakcja warunkowa będzie stopniowo zanikać. Zjawisko to nazwano wygaszaniem odruchu warunkowego [Ostaszewski 2001].

Zaobserwowano również, że jeżeli po wygaszeniu tego odruchu, użyje się takiego samego bodźca warunkowego, reakcja warunkowa zostanie wznowiona. Nazywa się to spontanicznym odnowieniem odruchu. Jeżeli następnie bodziec warunkowy ponownie przestanie być podawany, reakcja warunkowa szybko zaniknie (wygaśnie) [Ostaszewski 2000]. Natomiast badania Liddela (1934) wykazały, że w przypadku awersyjnego warunkowania nie wszystkie reakcje organizmu ulegną wygaszeniu. Reakcje emocjonalne (jak np. strach) mogą się utrzymywać przez czas nieograniczony [Zimbardo 1994].

W początkowej nauce reagowania na bodziec warunkowy, pojawia się wiele bodźców podobnych do właściwego, które także wywołują reakcję warunkową. Zjawisko to nosi nazwę generalizacji. Organizm musi nauczyć się rozróżniać, czyli różnicować bodźce istotne i nieistotne oraz hamować swoją reakcję na wszystkie inne bodźce nie związane z bezwarunkowym zdarzeniem bodźcowym. Im łatwiejszy do odróżnienia sygnał, tym szybciej zostanie zidentyfikowany [Zimbardo 1994].

Jeżeli przed bodźcem warunkowym podany zostanie inny, początkowo nieznany bodziec, zwierzę po pewnym czasie zacznie traktować ten bodziec jako warunkowy. Na przykład, Pawłow przez 10 sekund pokazywał psu czarny kwadrat, następnie pies słyszał dzwonek, czyli bodziec warunkowy wywołujący ślinienie. Po kilku takich sesjach czarny kwadrat wystarczył do wywołania u psa ślinienia [Skinner 1995]. Proces ten został nazwany warunkowaniem drugiego rzędu. Wywnioskowano z niego, że podczas przebiegu warunkowania klasycznego organizm uczy się związku między bodźcami warunkowymi a reakcjami warunkowymi. Do powstania odruchu warunkowego niezbędne jest wystąpienie zależności między bodźcem warunkowym a pojawieniem się bodźca bezwarunkowego. Najszybsze warunkowanie zachodzi gdy bodziec bezwarunkowy pojawia się zawsze po bodźcu warunkowym i nigdy nie występuje bez zapowiedzi w postaci bodźca warunkowego. Jeżeli bodziec bezwarunkowy występuje częściej bez bodźca warunkowego niż po nim, bodziec warunkowy nabiera znaczenia hamującego [Ostaszewski 2001]. Reakcja warunkowa pełni funkcję adaptacyjną. Przygotowuje organizm do przyjęcia bodźca bezwarunkowego. Na przykład, wydzielanie śliny na dźwięk dzwonka, który zapowiada pojawienie się pokarmu, ułatwia trawienie.

Dzięki warunkowaniu klasycznemu organizm uczy się odczytywania sygnałów, które umożliwiają przewidzenie wystąpienia określonego zdarzenia. Uczy się reagować na nie w odpowiedni sposób [Anderson 1998].

Uczenie się nie jest jednak ograniczone tylko do warunkowania powłowskiego. Organizmy uczą się także tego, jakie konsekwencje pojawiają się po wykonaniu określonych reakcji (zachowań). Pozwala im to samodzielnie kształtować i zmieniać środowisko, w którym żyją. Proces nabywania takich umiejętności nazywany jest warunkowaniem instrumentalnym, zwanym także warunkowaniem sprawczym.


2.4. WARUNKOWANIE INSTRUMENTALNE


Zasadniczy wkład do badań nad warunkowaniem instrumentalnym wniósł Burrhus F. Skinner. Odkryte przez niego w latach trzydziestych dwudziestego wieku prawa uczenia się uznawane są w psychologii do dziś.

Skinner odkrył, że organizm uczy się wykonywania lub powstrzymywania się od wykonania danej reakcji w zależności od tego, jakie pojawiają się wraz z wykonaniem reakcji konsekwencje. Konsekwencje mogą być atrakcyjne, nazywane nagrodami lub awersyjne czyli kary.

Warunkowanie instrumentalne tworzy ścisły związek pomiędzy zachowaniem i jego skutkami. Skinner wyróżnił cztery podstawowe rodzaje relacji :

1. wzmacnianie pozytywne (R+), czyli każda konsekwencja zachowania, która powoduje zwiększenie się prawdopodobieństwa powtórzenia się tego zachowania w przyszłości [Ostaszewski 2001].

np. pies dostaje nagrodę w chwili, gdy usiądzie - zwiększa to szansę na ponowne siadanie psa.

2. pozytywne wygaszanie (P+) nazywane potocznie karą, czyli każda konsekwencja zachowania, która zmniejsza prawdopodobieństwo pojawienia się tego zachowania w podobnych warunkach w przyszłości [Ostaszewski 2001].

np. uderzenie psa w chwili, kiedy położy się na boku zmniejsza szansę jego ponownego położenia się na boku w podobnych warunkach.

3. negatywne wzmacniania (R-), czyli takie wykonanie reakcji, które pozwala uniknąć przykrych, awersyjnych konsekwencji, co powoduje zwiększenie się prawdopodobieństwa powtórzenia tej reakcji w przyszłości [Ostaszewski 2001].

np. szarpanie psa na smyczy, gdy stoi, co powoduje jego siadanie w celu uniknięcia szarpania.

4. wygaszanie ujemne (P-) nazywane także pomijaniem, jeśli po wystąpieniu zachowania nie pojawiają się konsekwencje, które wystąpiłyby gdyby ta reakcja nie powstała. Z otoczenia zastaje usunięty czynnik, którego brak zmniejszy prawdopodobieństwo powtórzenia danego zachowania [Ostaszewski 2001],

np. odwrócenie się i odejście od psa gdy ten skacze na właściciela, co zmniejsza prawdopodobieństwo ponownego skakania.


2.4.1. BODŹE KONTROLUJĄCE


Jak już wiadomo, jeżeli wytwarzana jest pewna reakcja sprawcza i następuje po niej bodziec wzmacniający (Sr), prawdopodobieństwo ponownego wystąpienia tej reakcji wzrasta.

R -> Sr

Bodziec, który kontroluje zachowanie, czyli tak zwany bodziec kontrolujący, zmienia prawdopodobieństwo wystąpienia reakcji instrumentalnej. Bodźce kontrolujące pełnią role adaptacyjną dzięki możliwości przewidywania przez organizm konsekwencji jego działania w określonych warunkach. W obecności bodźca kontrolującego częstość występowania reakcji sprawczej może być większa lub mniejsza niż w przypadku braku tego bodźca. Wyróżnia się dwa typy bodźców kontrolujących: bodźce dyskryminacyjne (Sd) oraz wygaszeniowe (Sd) [Ostaszewski 2001].

Bodźce dyskryminacyjne informują dany organizm, że po wykonaniu reakcji pojawi się wzmocnienie czyli nagroda lub kara.

Jak pisze Zimbardo: "Bodziec dyskryminacyjny stwarza warunki czy daje sposobność organizmowi, by wytwarzał on reakcję sprawczą, która jest jednak reakcją dowolną".

Bodziec dyskryminacyjny sygnalizuje, kiedy wykonać daną reakcję, aby uzyskać wzmocnienie. Na przykład w klatce szczura wyposażonej w dźwignię, której naciśnięcie powoduje podanie pokarmu, ale tylko w obecności zapalonej lampki, bodźcem dyskryminacyjnym jest paląca się lampka. Początkowo szczur naciska dźwignię przez cały czas, kojarząc naciskanie z otrzymaniem pokarmu. Z czasem jednak uczy się, że pokarm pojawia się tylko gdy jest zapalona lampka, inaczej naciskanie dźwigni nie powoduje pojawienia się pokarmu. Szczur uczy się dyskryminować te bodźce, które są sygnałami czynników wzmacniających. W obecności bodźca dyskryminacyjnego po reakcji sprawczej następuje bodziec wzmacniający.

Sd R -> Sr

Bodźce wygaszeniowe informują, że po wykonanej reakcji nie pojawi się wzmocnienie. Prawdopodobieństwo wystąpienia danego zachowania spada. Na przykład, jeżeli zmieni się znaczenie palącej się lampki tzn. w obecności zapalonej lampki pokarm nie będzie się pojawiał to stanie się ona bodźcem wygaszeniowym. Szczur przestanie naciskać dźwignie, gdy będzie zapalona lampka.


2.4.2. GENERALIZACJA I RÓŻNICOWANIE BODŹCÓW


W warunkowaniu instrumentalnym, podobnie jak w klasycznym, następuje generalizacja bodźca. Jest to zjawisko uogólnienia reakcji na bodźce, które nie wystąpiły podczas pierwotnej sytuacji uczenia się. Bodźce te muszą być podobne do bodźców pierwotnych.

Np. gołąb, który nauczył się uderzać dziobem w narysowane kółko, może reagować także na narysowany owal. Jeżeli nie reaguje na owalną figurę znaczy, że wzmocnione zostało dziobanie koła czyli nastąpiło różnicowanie bodźców. Gołąb dostawał tylko pokarm za dziobanie w koło, nauczył się, że dziobanie w inne elementy nie przynosi korzyści [Tavris, Wode 1999].


2.4.3. POJĘCIE WZMACNIANIA


Wzmocnienie jest oddziaływaniem polegającym na podawaniu określonego bodźca skorelowanego z innym bodźcem lub reakcją. Wzmacnianie jest jednym z najważniejszych działań zwiększających podobieństwo pojawiania się pożądanych reakcji.

Behawioryści przez długi okres zastanawiali się nad tym, co sprawia, że czynnik wzmacniający wzmacnia. Opierano się na teorii redukcji popędu. Popęd uważa się za podstawową energię potrzebną do wykonania reakcji. Popędami są więc: jedzenie, picie, kontakty seksualne, unikanie bólu. Zachowania, które redukują lub zaspokajają popędy są wzmacniające dla organizmu [Anderson 1998].

Skinner badał warunkowanie sprawcze na przykładzie białych szczurów, a później gołębi. Skonstruował do tego celu słynną skrzynkę nazwaną skrzynka Skinnera. Była to dźwiękoszczelna komora z dźwignią, której naciśnięcie lub uderzenie dziobem powodowało pojawienie się nagrody w postaci pokarmu. Skrzynka była wyposażona w urządzenie rejestrujące reakcje badanych zwierząt [Myers 2003]. Badał szybkość naciskania dźwigni u szczurów, które pierwszy raz znalazły się w skrzynce. Naciskały one dźwignię zaledwie kilka razy w ciągu godziny z nieregularną szybkością. Natomiast gdy skorelował tą reakcję z bodźcem wzmacniającym w postaci dźwięku z pojemnika, z którego wypada pokarm, to szybkość wzrosła. Warunkiem uzyskania maksymalnego wzmocnienia reakcji na dźwignię jest wykształcenie reakcji różnicującej na dźwięk z pojemnika z pokarmem. Szczur uczy się rozróżniać tackę pustą od tacki pełnej, przy której występuje dźwięk. W dniu warunkowania pierwsza reakcja wystąpiła 5 minut po wpuszczeniu szczura do skrzynki. Wzmocnienie nie wywarło zauważalnego wpływu na jego zachowanie. Druga reakcja pojawiła się 51,5 min. później i też nie stwierdzono szczególnego wpływu wzmocnienia na zachowanie. Trzecia reakcja wystąpiła 47,5 min. później, czwarta zaś 25 min. po niej. Po czwartej reakcji stwierdzono znaczne zwiększenie szybkości i gwałtowne przyśpieszenie naciskania dźwigni. Przerwy przed piątą, szóstą i kolejnymi reakcjami wynosiły odpowiednio: 43;21;10;10 i 15 sekund. Od tego momentu szczur reagował ze stałą szybkością. W pewnym momencie dostrzegalny jest spadek szybkości reagowania na dźwignię tzw. przyśpieszenie ujemne. Spowodowane jest to zmianą poziomu głodu [Skinner 1995].


Wyróżnia się dwa rodzaje czynników wzmacniających:


- pierwotny czynnik wzmacniający, czyli bodziec o naturalnym działaniu wzmacniającym, przede wszystkim zaspokajający potrzeby fizjologiczne np. pożywienie

- wtórny czynnik wzmacniający, czyli bodziec, który nabiera właściwości wzmacniających przez skojarzenie z pierwotnymi czynnikami wzmacniającymi np. dźwięk dzwonka, pieniądze, pochwała, dobre stopnie. Wtórne czynniki zapowiadają pojawienie się pierwotnych czynników [Tavris, Wode 1999].

Od samego początku badań nad uczeniem się istniały dowody na to, że organizmy mają różne oczekiwania co do wzmocnień. Tinklepaugh (1928) wykazał, że małpy są rozczarowane, gdy oczekiwane wzmocnienie (kawałek banana) był zastępowany mniej cenionym wzmocnieniem (sałatą). Wynik ten wykazuje, że czynnik wzmacniający stanowi element asocjacji.

Corwill i Rescorla (1985;86;88) twierdzą, że organizmy budują asocjacje zawierające trzy elementy: bodziec, reakcja i wzmocnienie. Wykazali oni, że organizmy mogą nauczyć się oczekiwania specyficznych wzmocnień na specyficzne reakcje [Anderson 1998].

W eksperymencie przeprowadzonym przez St. Claire-Smitha i MacLarena (1983) szczury, umieszczone w skrzynce Skinnera uczono, że naciśnięcie dźwigni wywołuje dźwięk. Następnie tą grupę szczurów ćwiczono w wiązaniu dźwięku z pokarmem, gdy w skrzynce nie było dźwigni, a inną grupę kontrolną ćwiczono w wiązaniu światła i pokarmu. Gdy w skrzynce ponownie pojawiła się dźwignia (tym razem pokarmu nie podawano) szczury nauczone związku dźwięk - pokarm, częściej naciskały dźwignię niż szczury z grupy kontrolnej. Reakcja naciskania dźwigni nie przynosiła rezultatów w postaci pokarmu, ale zwierzęta nauczyły się kojarzyć dźwignię z innymi doświadczeniami. Umiejętność tworzenia asocjacji pomiędzy reakcjami i obojętnymi skutkami stanowi krytyczny czynnik dla uczenia się złożonych łańcuchów reakcji, z których tylko ostatnia jest wzmacniana. Np. uczenie szczura przechodzenia przez labirynt opiera się na nagradzaniu po przejściu całego labiryntu bez nagradzania poszczególnych skrętów i załamań labiryntu [Anderson 1998].

Premack (1962) zajmował się badaniem zachowań wzmacniających inne zachowania. Stwierdził, że zachowania bardziej cenione wzmacniają zachowania mniej cenione. Jedzenie zazwyczaj wzmacnia bieganie w kole aktywności u głodnego szczura, gdyż jedzenie ma większą wartość niż bieganie [Zimbardo 1994]. Według Premack'a z uczeniem się związane są nierozerwalnie pary zachowań. Dla każdej pary zachowanie niezależnie oceniane jako bardziej prawdopodobne, jest nagrodą dla zachowania mniej prawdopodobnego. Np. możliwość robienia czegoś co się lubi może być nagrodą czegoś co się lubi mniej. Jeżeli np. pies przed wyjściem z domu siedzi spokojnie przed drzwiami nagrodą jest dla niego wyjście na spacer, gdyż jest to bardziej preferowane zachowanie [www.kliker.pieski.eu.org/Teoria/ zasada_Premack].

Najlepszy efekt wzmocnienia wyjaśnia teoria deprywacji zachowania odkryta przez Timberlake'a i Allison'a w 1974 roku. Zakłada ona, że narzucane organizmowi ograniczenia zaburzają podstawowe, spontaniczne relacje między wykonywanymi przez niego zachowania. Jeżeli pozostawi się organizmowi całkowitą swobodę w rozporządzaniu własną aktywnością, to rozdzieli on czas poświęcony na różne zachowania w sposób dla niego optymalny i najprzyjemniejszy.



Rys. 1. Wykres przedstawiający czas poświęcony każdej z wykonywanych czynności.

Punkt B jest punktem zadowolenia, oznaczający dla jednostki optymalne rozłożenie czasu na zachowania A i B, mierzone w warunkach całkowitej swobody. Linie X i Y reprezentują różne ograniczenia narzucone na oba zachowania. Linia x wyznacza warunki, w których zachowania A wzmacnia zachowanie B. Linia Y wyznacza warunki, w których zachowanie B wzmacnia zachowanie A [Ostaszewski 2001].

Punkt B jest punktem zadowolenia. Punkt ten może zmieniać swoje położenie w zależności od warunków środowiskowych. Jeżeli zostaną wprowadzone ograniczenia do zachowań, spowoduje to dążenie organizmu do przywrócenia równowagi między czynnościami, a punktem zadowolenia. Jeżeli narzucone ograniczenie powoduje, że natężenie reakcji zależnej nie pozwala na wykonanie reakcji niezależnej, jednostka oddala się od punktu zadowolenia. Wywoła to taki wzrost natężenia reakcji zależnej, aby być jak najbliżej punktu zadowolenia. W ten sposób zastaje osiągnięty efekt wzmocnienia pozytywnego. Jeżeli natomiast ograniczenie powoduje, że natężenie reakcji zależnej zmuszą jednostkę do zwiększenia natężenia reakcji niezależnej, wówczas oddala się ona od punktu zadowolenia. Wywołuje to spadek natężenia reakcji zależnej. Efekt nazywany jest karą [Ostaszewski 2001].



► UWAGA!

Dalsza część pracy znajduje się w dziale szkolenie - Przejdź do działu

dodajdo