pies, rasy psów, hodowle   
Nasze konto NK
Nasze artykuły
  • Tytuł : 3. Uczenie się poprzez warunkowania - część 2
  • Dział: Szkolenie psów
  • Kategoria : Szkolenie metodą klikerową
  • Dodany : 31/03/08
  • Ilość wyświetleń: 3293

KLIKEROWE SZKOLENIE PSÓW

Praca magisterska - Uczenie się poprzez warunkowania - część 2


Autor:
Agnieszka Prymaka
Szkoła Główna Gospodarstwa Wiejskiego - Wydział Nauk o Zwierzętach


2.4.4. WYGASZANIE

Jest to proces, w którym wyuczona wcześniej reakcja przestaje się pojawiać na skutek usunięcia czynnika wzmacniającego lub zaprzestania na jakiś czas podawania tego czynnika. Na początku wygaszania, reakcja może się nawet nasilić, lecz później stopniowo słabnie i wygasa [Tavris, Wode 1999]. Skinner zbadał, że warunkowania sprawczego nie można "wygasić do zera" i możliwe jest przywrócenie wygaszonej reakcji. Nazywane jest to warunkowaniem powtórnym. Polega na ponownym wzmacnianiu reakcji, której prawdopodobieństwo częstszego występowania zwiększa się [Skinner 1995].

Brak wzmocnienia w celu wygaszenia reakcji, wywołuje efekt emocjonalny u zwierzęcia. Początkowo szybkość i siła reagowania osiąga wartość maksymalną, jednak jeżeli żadna reakcja nie jest wzmacniana, zmniejsza się siła z jaką osobnik reaguje [Skinner 1995].

Niepożądana reakcja zostaje wygaszona tylko wtedy, gdy rzeczywiście można wyeliminować wszystkie czynniki wzmacniające. Całkowite ich wyeliminowanie jest trudne do zrealizowania poza laboratorium. Proces wygaszania jest, więc skuteczniejszy, gdy wycofanie czynników wzmacniających połączone zostanie z wzmacnianiem pozytywnym w celu zwiększenia prawdopodobieństwa pożądanej reakcji [Zimbardo 2001]. Np. jeżeli treser chce wygasić skakanie psa przy powitaniu powinien wzmacniać siadanie psa. Szybciej zostanie wyeliminowane niepożądane zachowanie, ponieważ siadanie będzie dla psa przynosiło korzyści.


2.4.5. MOTYWACJA


Wykonywanie przez organizm wielu zachowań jest zależnie od okoliczności, jak również od celów. Są to procesy kierowane przez pewne potrzeby lub cele, a kończące się, gdy potrzeby są zaspokajane lub cele osiągane [Zimbardo 2001].


Wszystkie motywowane działania składają się z trzech faz:


1. reakcja wzbudzenia

2. uruchomienia czy zainicjowania specyficznych mechanizmów i czynności

3. wytrwałego dążenia do pewnych celów przy zastosowaniu różnych sposobów [Altman 1966].

Zwierzę "nie motywowane" zazwyczaj pozostaje w bezruchu - może np. leżeć na boku, odprężone i senne. Wystąpienie stanu motywacyjnego przejawia się najpierw jako reakcja wzbudzenia, wzrost czujności i oznaki pobudzenia ruchowego. Druga faza, inna w różnych stanach motywacyjnych, polega na zainicjowaniu i podjęciu specyficznych czynności, które mogą zaspokoić potrzeby organizmu. Na koniec, jeśli cel nie zostanie od razu osiągnięty, zwierzę będzie uparcie dążyć do celu swego motywowanego zachowania, próbować różnych sposobów, dopóki nie osiągnie celu lub póki jego siły się nie skończą [Altman 1966].


2.4.6. SPOSOBY UZYSKIWANIA POŻĄDANYCH ZACHOWAŃ


Istnieje kilka sposobów, za pomocą których można wywołać pożądaną reakcję, niezależnie od tego, czy jest to reakcja znana dla organizmu, czy całkowicie nowa. Wyróżnia się kilka metod nakłaniania jednostki do wykonania pierwszej reakcji, tak aby można było ją wzmocnić [Zimbardo 1994].

Jedna z nich jest zwiększanie motywacji. Polega na pobudzeniu organizmu do reagowania co zwiększa prawdopodobieństwo, że jedna z reakcji będzie poprawna np. naelektryzowanie kraty podłogowej skłoni szczura do biegania, dzięki czemu będzie mógł odkryć drogę ucieczki.

Do motywowania działania można użyć zagrożeń lub obietnic przyszłej nagrody, jak również stanów deprywacji lub przykrych bodźców. Czynniki motywacyjne mogą mieć niekorzystne następstwa. Nie zaleca się podnoszenia poziomu motywacji w przypadku nieznanych zachowań [Zimbardo 1994].

Inną metodą jest zmniejszanie zahamowań. W przypadku gdy organizm nabył już umiejętność potrzebną do wykonywania poprawnej reakcji, lecz mimo odpowiednich warunków motywacyjnych jej nie wykonuje, możliwe jest, że reakcja ta jest zahamowana lub stłumiona. Np. nieśmiałe dziecko znające odpowiedź na pytanie nauczyciela, nigdy nie uzyska wzmocnienia, jeśli nie podniesie ręki i nie odpowie na pytanie. Zabieranie głosu na lekcji jest dla niego bardzo stresujące. Jedynie usunięcie czynników hamujących może pomóc w wywołaniu pożądanej reakcji [Zimbardo 1994] .

Kolejnym sposobem uzyskiwania zachowań jest strukturalizacja otoczenia. Ucząc zwierzę naciskania dźwigni, dziobania przycisku, otwierania zasuwy, można zwiększyć prawdopodobieństwo tych zachowań usuwając rozpraszające, nieistotne bodźce, upraszczając otoczenie. Przedmioty służące do manipulowania (dźwignia, przycisk itp.) powinny być bardziej widoczne niż elementy otoczenia.

Stosując przymus można szybko wywołać reakcje, jednak jego konsekwencje przynoszą skutki uboczne. Technika ta polega na fizycznej pomocy w wykonywaniu kilku pierwszych zachowań. Np. ucząc psa przewracania trener najpierw podaje sygnał słowny, a następnie przewraca psa nagradzając tą reakcje dopóki zwierzę nie nauczy się tego zachowania [Zimbardo 1994].

Organizmy mogą uczyć się poprzez obserwowanie innych organizmów. Odgrywa to ważną rolę w uczeniu się społecznym, zarówno u zwierząt jak i u ludzi. Jednak nadmierne naśladowanie może ograniczyć własną inicjatywę danej jednostki i nauczyć ją konformizmu. Może także prowadzić do "podchwytywania" mnóstwa innych reakcji, nie koniecznie związanych z pożądaną reakcją [Zimbardo 1994].

Bardzo ważną metodą ucznia jest kształtowanie. Jest ona przydatna zwłaszcza podczas uczenia nowych, nieznanych zachowań i sekwencji reakcji. Kształtowanie polega na wzmacnianiu początkowych reakcji, które mają związek z ostatecznym zachowaniem, ale mogą w niewielkim stopniu przypominać jego końcową formę. Jeżeli uczy się szczura naciskania dźwigni, za reakcję początkową uważa się każdy ruch szczura w kierunku dźwigni np. zwrócenie ciała w tym kierunku, unoszenie łapek i opieranie się o dźwignię. Nagradzane są zachowania coraz bliższe oczekiwanej reakcji. Wymagania muszą być zwiększane bardzo powoli. Reakcja szczura będzie stopniowo ulegała zmianie w pożądanym kierunku [Skinner 1995].

Skinner uważa, że bardziej złożone zachowania są sekwencjami reakcji z których każda reakcja jest początkiem dla następnej. Aby nauczyć złożonego zachowania, należy rozpocząć od pierwszego kroku i uczyć każdego elementu łańcucha. Dzięki kształtowaniu reakcji można uzyskać skomplikowane zachowania. Jednak pewne czynniki mogą przeszkadzać w kształtowaniu reakcji. Brelandowie, którzy uczyli różne gatunki zwierzęt bardzo różnorodnych zachowań odkryli u nich tendencje instynktowne. Uczyli oni świnię brania dużej, drewnianej monety i umieszczania jej w skarbonce. Świnia w nagrodę dostawała pokarm. Przez kilka tygodni dobrze wykonywała to zachowanie, ale później drewnianą monetę zakopywała lub podrzucała do góry. Świnia zaczęła obchodzić się z monetą jak z pokarmem. Zachowanie to stanowiło element naturalnego zachowania związanego z gromadzeniem pokarmu u świń. Brelandowie próbowali też nauczyć szopy umieszczania monet w koszu. Po pewnym czasie szopy zaczęły wykonywać zachowania odpowiadające praniu i czyszczeniu jedzenia. Stanowiło to element specyficznego gatunkowo dla szopów zachowania wiążącego się z gromadzeniem pokarmu. Instynktowne zachowania organizmu mogą przezwyciężyć reakcje starannie kształtowane [Anderson 1998].

Każdy ze sposobów ucznia ma pewne zalety i wady. Wybór metody jest często uzależniony od potrzeb uzyskiwania zachowań, od tego czy mają dawać wyniki natychmiastowe, czy też bardziej trwałe, długoterminowe [Zimbardo 1994].


2.4.7. ROZKŁADY WZMOCNIEŃ


Behawioryści opracowali podstawowe procedury stosowania wzmocnień, które mówią o tym, jak często i w jakich warunkach dane zachowanie zostaje wzmocnione.

Są to:


1. rozkład ciągły - polega na wzmacnianiu każdej poprawnie wykonanej reakcji;

2. rozkład o stałych odstępach czasowych - wzmacniana jest reakcja wykonana tylko po upływie stałego czasu od poprzedniego wzmocnienia;

3. rozkład o zmiennych odstępach czasowych - wzmacnianie pojawia się w różnych odstępach od poprzedniego wzmocnienia;

4. rozkład o stałych proporcjach - wzmocnienie pojawia się po stałej liczbie reakcji;

5. rozkład o zmiennych proporcjach - wzmocnienie pojawia się po pewnej liczbie reakcji, lecz liczba ta jest zmienna [Ostaszewski 2001].

Zachowania wzmacniane w sposób ciągły są podatne na wygaszenie. Jeżeli natomiast stosowany jest rozkład o zmiennych proporcjach jest on bardziej odporny na wygaszenie, ponieważ osobnik nie może przewidzieć kiedy pojawi się nagroda. Podstawą wszelkich gier hazardowych jest zmienny schemat wzmocnień. Ludzie stają się niewolnikami hazardu, gdyż nie mogą przewidzieć, czy wygrają fortunę, czy też nic. Wzmocnienie w postaci pieniędzy może wystąpić już przy pierwszej grze, a może równie dobrze przy dziesiątej [Pryor 1985].

Uczenie się jest zazwyczaj szybsze, jeśli reakcja, której osobnik się uczy, będzie wzmacniana za każdym razem. Gdy już reakcja zostanie utrwalona, będzie bardziej odporna na wygaszenie, jeśli będzie nagradzana nieregularnie.

Różne rozkłady wzmocnień mogą być łączone w łańcuchy, w których dopiero wykonanie wymagań ostatniego rozkładu powoduje wzmocnienie. Warunkiem takich łańcuchów jest podanie sygnału informującego, na zakończenie każdego z etapów pośrednich, że osobnik wykonuje to dobrze i na koniec zachowania dostanie nagrodę (wzmocnienie) [Ostaszewski 2001].

Niezależnie od rozkładu wzmacniania czynniki wzmacniające, należy podawać szybko, aby były skuteczne. W przypadku długiego upływu czasu między ostatnią reakcją lub łańcuchem reakcji, efekt wzmocnienia zostaje całkowicie zaprzepaszczony. Ucząc niektórych zachowań czasem nie możliwe jest szybkie podanie wzmocnienia, dlatego jednym z rozwiązań tego problemu jest stosowanie warunkowych czynników wzmacniających, które zastępują tymczasowo pierwotne czynniki wzmacniające [Zimbardo 1994].

Zdarza się, że organizm ma do wyboru dwa lub więcej sposobów na uzyskanie w tym samym czasie wzmocnień. Np. szczur w skrzynce ma do wyboru dwie dźwignie, które są związane z różnymi rozkładami wzmocnień. Wiąże się to z dokonaniem wyboru przez szczura w celu wybrania odpowiedniej dźwigni.


2.4.8. DOKONYWANIE WYBORU


Prawo dopasowania jest podstawowym prawem związanym z wyborem dokonywanym przez organizmy. Mówi o tym, jak rozdysponowują one swoimi reakcjami i czasem między uzyskaniem wzmocnienia. Wybór mniejszej, ale szybciej otrzymanej nagrody zamiast większej, ale bardziej odroczonej jest nazywany impulsywnością. Samokontrolą zaś nazywany jest wybór większej, bardziej odroczonej nagrody zamiast mniejszej, choć szybciej osiągalnej [Ostaszewski 1997].

Rachlin i Green przeprowadzili w 1972 roku badania, w których gołębie miały do wyboru dwie nagrody - mniejszą natychmiastową i większą odroczoną o 4 sekundy. Większa nagroda był preferowana bardziej niż mniejsza. Mimo to gołębie wybierały mniejszą, natychmiastową nagrodę. Nie były w stanie czekać 4 sekund na większą. Zachowywały się więc impulsywnie. Po pewnym czasie zmieniono odroczenie obu nagród dodając stopniowo po kilka sekund do czasów oczekiwania na wzmocnienie. Zwierzęta ciągle preferowały mniejsze, szybsze nagrody. Jednak gdy czas odroczenia obu nagród zbliżył się do 10 sekund, czyli na pierwszą nagrodę zwierzęta czekały 10 sekund, a na drugą 14 sekund, gołębie zaczęły częściej wybierać większą nagrodę, mimo że była odroczona bardziej, a czas rozdzielający obie nagrody utrzymywał się na tym samym poziomie co na początku badania. Gołębie zmieniły swoje preferencje i wykazały zdolność do samokontroli [Ostaszewski 1997].

Zwierzęta wybierają wcześniejszą nagrodę, która jest mniejsza, rezygnując z większej, bardziej preferowanej, ale odroczonej. Ostaszewski pisze, że zwierzęta często stają przed wyborem: zaakceptować mniejszy, łatwiej dostępny pokarm, czy kontynuować poszukiwanie większego pokarmu. Odraczanie, czyli poszukiwanie pokarmu większego, może wiązać się z jego zepsuciem się lub zdobyciem przez osobnika konkurencyjnego. Zwierzęta wybierają więc pokarm natychmiastowy, mimo że jest często mniejszy. Jednak w przypadku zwiększenia odroczeń obu nagród są w stanie do samokontroli, czyli wybrania nagrody większej, dłużej oczekiwanej [Ostaszewski 1997].


2.4.9. NAGRODA I KARA


Podczas uczenia się organizmy mogą doświadczać, w odpowiedzi na ich reakcje, nagród jak i kar. Nagrody wiążą się z przyjemnymi konsekwencjami dla organizmu. Już w starożytności pojawiło się przekonanie o poszukiwaniu przyjemności przez wszystkie organizmy i unikaniu kar z czym wiąże się ból i cierpienie. Stwierdzono, że organizmy wykorzystując zależności, których się nauczyły, wybierają najkorzystniejsze dla siebie zachowania. Zachowują się więc w sposób racjonalny [Anderson 1998].


Anderson (1998) podaje przykład czterech reakcji, które zwierze może wybrać:


R1- reakcja zwiększająca ilość dostępnego pokarmu

R2- zwiększa częstotliwość otrzymywania wstrząsów

R3- zmniejsza tempo otrzymywania pokarmu

R4- zmniejsza częstotliwość otrzymywania wstrząsów

Zwierzę będzie wybierało tylko reakcje R1 i R4 w zależności od tego, jak ważne jest otrzymywanie pokarmu do unikania wstrząsów. Będzie się zachowywało racjonalnie nie wybierając reakcji R2 i R3, gdyż one wiążą się z nieprzyjemnością.

Zwierzę potrafi więc eliminować zachowania, które nie prowadzą do celu, czyli do otrzymania pokarmu lub uniknięcia wstrząsów [Sadowski, Chmurzyński 1989].

Karanie ma także swoich zwolenników, którzy twierdzą, że tylko dzięki karaniu można osiągnąć doskonałe efekty. Johnson (1972) pisze: " Z żadnych danych nie wynika, że którakolwiek z tych procedur (wygaszanie, nasycenie, zmiana bodźca, ograniczenie fizyczne) daje efekty tak natychmiastowe, trwałe i w ogóle skuteczniejsze, jak te, które przynosi właściwe zastosowanie technik karania." [Zimbardo 1994].

Badano także efektywność karania i to co na nią wpływa. Wynika z nich, że kara powinna być stosowana z jak największym natężeniem. N.E. Miller (1960) stwierdził, że gdy rozpoczynano od łagodnych kar, a następnie zwiększano ich surowość organizm stawał się mniej wrażliwy na karę i najsurowsze kary nie były tak skuteczne, jak wówczas, gdy wprowadzono je na początku. Azrin, Holz i Hake (1963) zbadali, że efektywność kar była mniejsza, gdy karane były tylko niektóre reakcje. Czasami kara może być tak skuteczna, że już jednokrotne jej użycie eliminuje zachowanie. Np. szczura umieszczono na platformie pod która znajdowała się siatka. Gdy zwierzę stawało na siatce, otrzymywało bolesny wstrząs. Tylko jedno doświadczenie wystarczyło, aby szczur ponownie nie schodził na siatkę. Aby karanie było skuteczne musi nastąpić od razu po reakcji. Nawet kilkusekundowe opóźnienie nie przynosi pożądanych efektów, czyli wyeliminowania pewnych zachowań. Zachowanie może być także podtrzymywane dlatego, że pozwala na uniknięcie bodźców awersyjnych. Zwierzę uczy się wykonywać pożądaną reakcję po zaobserwowaniu bodźca dyskryminującego, który sygnalizuje pojawienie się bodźca awersyjnego. Np. pies umieszczony w skrzynce, którą poddawano wstrząsom, uczy się przeskakiwać barierę skrzynki i w ten sposób uniknąć wstrząsu. Organizm może nauczyć się zachowania, które odsuwa w czasie wydarzenie awersyjne. Jest to tzw. odraczanie pojawienia się kary [Anderson 1998]. Np. ludzie myjąc zęby odsuwają awersyjne konsekwencje, czyli ból zębów.

Jednak kara przynosi więcej ubocznych skutków, a zwłaszcza niewłaściwe jej stosowanie, niż stosowanie pozytywnego wzmacniania.

Skutek kary jest czasami krótkotrwały, ściśle uzależniony od obecności osoby karzącej lub okoliczności jej stosowania. Zachowanie jest zahamowane tylko w obecności kojarzonego z karaniem środowiska. Według Sidmana, jeżeli karzemy psa uderzając ręką, już sama podniesiona ręka stanie się karą. Środowisko w którym pies jest karany stanie się karą.

Karanie za niepożądane zachowanie jest często stosowane z dużym opóźnieniem. Zwierzę często nie jest w stanie skojarzyć otrzymania kary z zachowaniem, za które ją otrzymało. Prowadzi to do strachu , a nawet agresji [Ulrich, Azarin 1962]. Może doprowadzić do zahamowania wszystkich zachowań, dobrych i złych. Sidman twierdzi, że osobnik karany uczy się robić tylko to co konieczne, nie uczy się on niczego nowego. Groźba kary zawężą horyzonty uczenia się, powodując strach przed próbowaniem nowych zachowań, poznawaniem środowiska.

Kara dostarcza także niewiele informacji. Jeżeli następuje po złym zachowaniu, może ukaranemu wskazać, czego nie powinien robić. Nie wskazuje natomiast jak powinien postępować [Tavris, Wade 1999].

"Nie uczymy szybkiego uczenia się, kiedy karzemy za to, że uczy się za wolno, ani przypomina sobie czego się nauczył, kiedy karzemy go za zapominanie, ani logicznego myślenia, karząc go za brak logiki." [Skinner 1968]

Nagroda w przeciwieństwie do kary daje możliwość próbowania innych zachowań i ciągłego uczenia się. Pies nie boi się przewodnika i tego, że za złe zachowanie zastanie ukarany. Nagradzanie kontroluje zachowania, podobnie jak karanie, różnicą jest brak skutków ubocznych. Sidman uważa, że: "zarówno pozytywne jak i negatywne wzmocnienie nauczą tego, czego wymagasz, ale one nauczą tez przy okazji innych rzeczy. I właśnie w tym punkcie wzmocnienia się różnią. Pozytywne wzmocnienie daje nam wolną rękę w zaspokajaniu ciekawości, w próbowaniu nowych rzeczy. Negatywne wzmocnienie wpaja nam wąski repertuar zachowań, ucząc lęku przed nowościami i eksperymentowaniem."

W niektórych przypadkach, jeżeli chodzi o bardzo niebezpieczną sytuację, karanie jest konieczne. Nie przyniesie ono jednak skutków ubocznych, gdy będzie to karanie sporadyczne, a całe postępowanie ze zwierzęciem opiera się na nagradzaniu. Nagradzanie przynosi lepsze efekty niż karanie, zwłaszcza, że efektywne karanie musi być bardzo precyzyjnie stosowane, żeby przyniosło oczekiwane skutki.

Jak pisze Bob Bailey, który szkoli zwierzęta od kilkudziesięciu lat stosując głównie nagradzanie, karanie wymaga więcej doświadczenia, lepszego wyczucia czasu niż nagradzanie.



► UWAGA!

Dalsza część pracy znajduje się w dziale szkolenie - Przejdź do działu

dodajdo