A testalkat és az életkor becslése a beszéd alapján*

Bevezetés

Az alkalmazott fonetika egyik legizgalmasabb kérdése, hogy vajon a beszéd mennyire jellemző az emberre. Kimondható-e, hogy a beszédjellemzők, hasonlóan az ujjlenyomathoz, kétséget kizáróan képesek a beszélő személyt azonosítani? Ma még nem tudunk biztosan válaszolni erre a kérdésre. Az eddigi tudományos eredmények alapján valószínűsíthető, hogy a beszéd akusztikai-fonetikai szerkezete oly mértékben az adott beszélő és csakis az ő sajátja, hogy az ennélfogva egyértelműen definiálja magát a produktumot létrehozót. A jelen eredményei azonban még adósak a pontos módszer, a megbízható eljárás megtalálásával. Még kevesebb ismeretünk van arra vonatkozóan, hogy vajon a beszéd mutat-e összefüggést a beszélő testalkatával. Mindennapi tapasztalat, hogy egy bizonyos embertípushoz egy meghatározott beszédtípust képzelünk el. Ez persze akkor válik nyilvánvalóvá, ha a látott személy beszélni kezd, és az ösztönös „becslésünk” nem találkozik a valósággal. Mindez összefügg a foniátriai gyakorlatban ismert úgynevezett alkati harmóniával (Frint 1999). Ez azt jelenti, hogy egészséges állapotban az alkati harmónia következtében a beszédszervek megfelelően működnek, és így az elvárt hangzás jön létre. Ez az elvárt hangzás azonban mégis nehezen definiálható, általában csak az úgynevezett extrém esetek a feltűnőek (például egy magas, testes férfi relatíve magas hangon szólal meg).

Filmek szinkronizálásakor különös jelentősége van az embertípus és a beszédtípus összhangjának. Nem véletlen, hogy a szinkronizáló személy alkatilag, sőt nemegyszer arcát tekintve is hasonlít a szinkronizálandó személyre. (Nagy a külső hasonlóság például a Piedonét alakító Bud Spencer és „magyar hangja”, Bujtor István között.) Az arcbeállítás hasonlósága szinte magától értetődik: feltételezi a hasonló beszédszerveket (főként a méretek), és ennek alapján a hasonló működéseket. Gondoljunk arra, hogy ha a jól ismert külföldi színész szinkronhangja változik (pl. más az ismert sorozatban és megint más egy filmben), akkor a nézőnek (hallgatónak) kifejezetten bizonytalan, nemritkán kellemetlen érzése van. (Beszédüket a filmvásznon állatoknak kölcsönző színészek megválasztásában is döntő az alkat, a magasság, a súly. Az egérke beszédét alacsony színész, gyakrabban nő valósítja meg, a medvét pedig rendszerint mély hangú, magas, esetleg nem is túl sovány színész.) Azt, hogy a hallgatónak van valami elvárása az alkat és a beszédhang viszonyában, jól szemlélteti az a tény, hogy a rajzfilmek szereplőinél is fontos a szinkronizáló személy jó megválasztása. Nem véletlen, hogy a Frédi és Béni-sorozatban Béni a vékonyabb alkatú Márkus László, Frédi pedig az igen magas Várhelyi Endre hangján szólal meg magyarul. Természetesen az életkor is meghatározó. A Hupikék törpikék című mesefilmsorozat legidősebb törpjének, a jóságos Törpapának Sinkovits Imre kölcsönözte a hangját.

Fujimura, a modern fonetika egyik legnagyobb alakja több mint harminc évvel ezelőtt kijelentette, hogy a beszédhullámok nemcsak nyelvi információkat tartalmaznak, hiszen bizonyos fizikai sajátosságokról is mondhatunk ítéletet a beszéd alapján. Például, hogy nő vagy férfi-e a beszélő, hogy körülbelül hány éves, sőt talán arról is, hogy magas-e vagy alacsony (1972: 108). Laziczius Gyula „hangtulajdonságok” terminusát tágítja ki Vértes O. András, amikor ideért pszichés állapotot, érzelemkeltést, sőt bizonyos összefüggéseket elemez a beszédhang és a foglalkozás, beosztás, társadalmi megítélés között történeti viszonylatokban (1979).

Jó néhány, főként angol nyelvű kísérlet foglalkozott már a beszéd és a beszélő életkorának összefüggéseivel (vö. pl. Hartman–Danhauer 1976). A magyar anyanyelvűekkel végzett kísérlet eredményei szerint az „életkorbecslő készülékünk” viszonylagosan jól működik, bár sokszor pontatlan, a jó találatok aránya több, mint 70% (Gocsál 1998). A beszélő azonosítása a fényképe alapján nagyobb mértékben lehetséges, mint a véletlen találat (vö. Lass–Harvey 1976). A nők felismerése biztosabb, 65%-os, míg a férfiaké 52%-os; de mindkét esetben nagyobb a találati arány, ha egész alakos képet láttak a kísérleti személyek. Noha a szerzők nem próbálkoznak tudományos magyarázattal, megemlítik azt a lehetőséget, hogy a női beszélők pontosabb azonosítása összefüggésben lehetett azzal, hogy a becslési kísérlet résztvevői nagy többségben ugyancsak nők voltak. Az arc és a beszéd kapcsolatát vizsgálta kutatásaiban Hicks, Johnson és McGlone is (1979), s arra az eredményre jutottak, hogy míg a tesztelők egy csoportja a véletlen határa fölött, addig a többiek az alatt voltak csak képesek a hallott beszédet a beszélő arcával azonosítani. A testalkat és a beszéd kapcsolatára vonatkozóan azonban tudomásunk szerint alig akad vizsgálat (utóbbira vö. Lass–Davis 1976). A beszéd számos további sajátosságról is tartalmaz információt, mint a szociális státusz, a személyiség vagy az érzelmi állapot; ezeknek a megfeleltetését a beszéd egyes paramétereivel azonban egyelőre még nem sikerült elvégezni.

Mikor van jelentősége a testalkat, az életkor és a beszéd bizonyos összefüggéseinek? A már említett szinkronizálási gyakorlaton, a színészi munkán (bizonyos szerepek és a megfelelő alkatú és hangszínezetű színészek összhangja) túl mindenekelőtt a beszélő felismerésének több területén. Elsősorban a kriminalisztikában, amikor a beszélő azonosításához nemcsak a szokásos akusztikai-fonetikai vizsgálatokat használják fel, hanem mód nyílna egyben a testalkatnak, illetőleg az életkornak a becslésére is. Ezáltal bizonyos személyek kizárhatósága, illetőleg ki nem zárhatósága nagymértékben csökkentené a lehetséges személyek körét, és növelné a végső döntés biztonságát. Ehhez azonban megfelelő kutatásra van szükség, amelynek eredményei a megbecsülhetőség értékhatárait kijelölik, ezáltal objektíven meghatározható paraméterek birtokába juthatnánk.

A jelen kísérlet az ilyen célú kutatások része. Arra kerestünk választ, hogy milyen mértékben becsülhető meg a beszélő magassága, súlya és életkora egy rövid beszédminta alapján.

Anyag és módszer

A kísérleti anyagot tíz magyar anyanyelvű női és férfi beszélőtől rögzítettük. Életkoruk különböző, 23 évtől 55 évig. Kiválasztásukat a testméreteik határozták meg. A normál magasságúnak és súlyúnak tekintett (azaz sem alacsonynak, sem magasnak, sem soványnak, sem kövérnek nem nevezhető) nőn és férfin kívül mindkét nemből a következő testalkatúakat választottuk bemondónak: alacsony és kövér, magas és kövér, alacsony és sovány, valamint magas és sovány. A beszélők valamennyien pedagógusok. Az 1. táblázat alkati sajátosságaikat és életkorukat összegzi.

1. táblázat. A kísérletben résztvevők alkata és életkori adatai


Beszélő		Magasság	Súly	Életkor	Jel

1.	nő	normál	normál	32	nNN
2.	nő	alacsony	sovány	28	nAS
3.	nő	alacsony	kövér	26	nAK
4.	nő	magas	sovány	23	nMS
5.	nő	magas	kövér	32	nMK
6.	férfi	normál	normál	35	fNN
7.	férfi	alacsony	sovány	40	fAS
8.	férfi	alacsony	kövér	52	fAK
9.	férfi	magas	sovány	31	fMS
10.	férfi	magas	kövér	55	fMK

A táblázatban szereplő beszélőktől rövid, olvasott szöveget rögzítettünk magnetofonszalagra laboratóriumi körülmények között. Ezek átlagidőtartama 16 másodperc (határértékek: 14–19 mp). A felolvasott szövegek tartalma egészen különböző volt. A felvett szövegeket véletlenszerű sorrendben rögzítettük a tesztszalagra úgy, hogy egy-egy szöveg között 5 mp-nyi csendes szünetet hagytunk.

A becslési kísérletben összesen 32 fő vett részt, valamennyien ugyancsak pedagógusok, magyar anyanyelvűek, életkoruk 25 és 35 év közötti (többségük nő). A feladatuk az volt, hogy egy előre elkészített tesztlapon a beszélők egy-egy alkati paraméterét, illetőleg az életkorukat becsüljék meg. A megfelelő helyre X jelet kellett tenniük. Ennek megfelelően háromszor hallgatták meg a tesztanyagot, de mindig csak egyetlen elhangzás alapján kellett az adott paraméterről dönteniük. Elsőként a termet, majd a súly, végül az életkor becslését kértük.

A különböző beszélők beszédét akusztikai, fonetikai szempontból elemeztük. A műszeres vizsgálatok során mértük a beszédtempót, az alaphangmagasságot, továbbá véleményeztük az artikulációs pontosságot. Ezeket az adatokat vetettük össze a percepciós becslési kísérlet eredményeivel. A statisztikai vizsgálatokat az SPSS Windows 8.0 szoftverrel végeztük.

Eredmények

A hipotézisünk az volt, hogy a három paraméter közül csupán az életkor becsülhető meg relatív biztonsággal. Ezt egyrészt a korábbi ilyen jellegű kísérletek adatai alapján, másrészt azért gondoltuk, mert az emberek életük során jobban tudatosítják magukban a beszélő személy életkorát, mint egyéb, alkati sajátosságait. Ennek az a feltételezett következménye, hogy az agy neurális spektrogramjai nyilvánvalóan őriznek adatokat az életkorról (Gósy 1999). A mindennapi kommunikációnk során annak lehet jelentősége, hogy milyen életkorú emberrel beszélünk, de hogy milyen magas vagy milyen súlyú, az a kommunikáció szempontjából rendszerint lényegtelen. Ezért sokkal kevesebb az esélye annak, hogy a hallgatóban kódolódnak a beszélő partner alkati sajátosságai. Öntudatlan feldolgozás persze végbemegy bennünk, hiszen ennek az eredménye az a bevezetőben tárgyalt tény, hogy ha a beszélő alkata és „hangja” ellentmondásos, akkor az a hallgató számára kényelmetlen, akár zavaró is tud lenni. Képzeljünk el egy nehézsúlyú bokszolót egy alacsony vékony emberre jellemző beszéddel! A rajzfilmek világából is hozhatunk megint példát. Ha a filmben egy törpe és egy óriás beszélget, akkor az erős testalkatú színész nyilvánvalóan nem a törpének, hanem az óriásnak kölcsönzi a hangját és így tovább… Amint azt Jakobson már évtizedekkel ezelőtt megállapította, sokkal könnyebb a beszédhangokat megkülönböztetni, mint azonosítani. Ezt a jelen beszédhelyzetre úgy adaptálhatjuk, hogy sokkal könnyebb az ellentmondást felismerni, mint az alkat és a beszéd együttesét azonosítani. Nem tudjuk pontosan megmondani, hogy milyen egy alacsony és kövér ember hangja szemben egy alacsony és sovány avagy egy magas és kövér ember hangjával. Ha azonban a látvány és az akusztikum ellentmond a beszédtapasztalatunknak, akkor arra azonnal felfigyelünk. A 2. táblázatban összegeztük a tíz beszélő alkatára és életkorára kapott becsléseket annak függvényében, hogy a kísérleti személyek hány százalékban azonosították a beszélő külsejét és korát helyesen.

2. táblázat. A beszélők alkatára és korára kapott helyes becslések aránya
(n = nő, f = férfi, A = alacsony, M = magas, N = normál, K = kövér, S = sovány)


Beszélő	Termet (%)	Súly (%)	Életkor (%)

nMS	25	31,2	100
fAS	62,5	18,7	50
nNN	75	68,7	68,7
nAS	56,2	31,2	43,7
fMK	37,5	18,7	37,5
nMK	37,5	18,7	68,7
fNN	68,7	50	81,2
fMS	62,5	68,7	62,5
nAK	37,5	6,2	81,2
fAK	81,2	68,7	93,7

A táblázat adatai igen változatosak. A legmagasabb értékek az életkor becslései között vannak, míg a legalacsonyabbak a súly megítélésében. A termetre vonatkozó ítéletek a kettő közöttiek, itt nagyobb a helyes döntések aránya, mint a súly esetében. Az 1. ábra grafikonja a három paraméter átlagát szemlélteti. A statisztikai elemzések szerint a termet és a súly becslése között a korreláció szignifikáns (p < 0,009), hasonlóan a súly és az életkor között (p < 0,006). Nincs szignifikáns korreláció ugyanakkor a termet és az életkor között.

1. ábra. Az alkatra és az életkorra vonatkozó helyes becslések átlaga

A kiinduló hipotézisünknek megfelelően a kísérleti személyek legnagyobb mértékben helyesen az életkort tudták megbecsülni, majd a termetet és legkevésbé a testsúlyt. Ha ez utóbbira kapott átlagértéket nézzük (38,08%), az kevéssel haladja meg a véletlen találati arányt. A csoporton belül természetesen jó biztonságú, illetőleg nagy valószínűségű becslések is vannak. Az nNN, a fMS és a fAK beszélők súlyának megítélése közel 70%-os, vagyis egészen jónak mondható. Véletlen találatról itt már nem eshet szó. A termet tekintetében hasonlóak az eredmények. A fAK és a nNN beszélők, valamint a fNN képviselik a legbiztosabban felismerhető alacsony és normál termetű beszélőt. Noha életkor szerint nem arányos a beszélők eloszlása, mégis megnéztük, hogy van-e különbség a helyes becslések arányában a különböző életkorok szerint. Nincs különbség a 40 év felettiek megítélésében (a helyes becslés mintegy 65%), ugyanakkor a 20 és 30 közöttieket pontosabban felismerik, az átlag közel 75%. Megnéztük, hogy a termet és a súly hogyan viszonylik egymáshoz a helyes becslések esetében, az adatokat a 2. ábra mutatja.

2. ábra. A termetre és a súlyra kapott helyes becslések egymáshoz viszonyított aránya az egyes beszélők esetében

3. ábra. Tíz kísérleti személy adatai a becslésben résztvevők közül

Elemeztük, hogy vajon az egyes beszélőknél hány paramétert becsültek meg helyesen. Az eredmények e tekintetben véletlenszerűek. A termet és a súly együttes helyes találati aránya mindössze 18,75%, ha az életkort is tekintetbe vesszük, további csökkenést tapasztalunk: 9,37%. A kísérleti személyek átlagosan két beszélőnél tudták helyesen megbecsülni a termetet és a súlyt, bár akadtak ennél jobb teljesítmények is. A legjobb becslést elért résztvevő négy beszélőnél ítélte meg helyesen a magasságot és a súlyt, és közülük kettőnél az életkort is! A 3. ábra a becslést végző személyek közül tíznek az adataival szemlélteti a helyes ítéletek egymáshoz viszonyított arányát.

A szemléltetésre kiválasztott résztvevők adatai vizuálisan is megerősítik a korábbiakban leírtakat. A továbbiakban összesítettük, hogy az egyes beszélőket hogyan becsülték meg a kísérletben résztvevők. A 4. ábra a mindhárom kérdésre (termet, súly, életkor) adott helyes becslések átlagát veszi figyelembe, és csökkenő sorrendben szemlélteti az eredményeket.

4. ábra. Az egyes beszélők sikeres becslésének átlaga a beszédük alapján

A grafikon szemlélteti az egyes beszélőkre kapott eredmények nagy különbségét, és jelzi, hogy a férfiak többségének alkatát pontosabban becsülték a résztvevők, mint a nőkét. Ezek az adatok egyértelműen azt igazolják, hogy bizonyos személyek a beszédük alapján jól valószínűsíthetők, míg mások alig, vagy egyáltalán nem. Ez azonban nem köthető az alkathoz vagy az életkorhoz. Anyagunkban például a négy kövér beszélő közül háromnak az azonosítása igen gyenge, függetlenül attól, hogy nő vagy férfi, avagy hogy alacsony vagy magas. A legjobban ugyanakkor egy alacsony kövér beszélőt ismertek fel (81,2%). A négy magas beszélő közül ugyancsak egynek az azonosítása tekinthető elfogadhatónak (64,5%).

Az eredmények alapján a következő hipotézis állítható fel. Az életkor konkrét a termet és a súly relatív értékéhez képest. Mit értünk ezen? Az életkor azért tekinthető konkrétnak, hiszen függetlenül a beszélgető partnertől vagy bármilyen egyéb külső és belső tényezőtől, az évek száma változatlan érték. A testmagasság és a testsúly relatívak, mivel egymás viszonyában realizálódnak. Ugyanaz a kilószám jelenthet kövérséget vagy soványságot a magasságtól függően. A magasság is viszonylagosabb, mint az életkor, hiszen a beszélő mintegy tudat alatt a saját magasságához viszonyít. Ha egy 170 cm-es férfihez egy 180 cm-es beszél, akkor ő alacsony. Ha azonban egy l62 cm-es személlyel társalog, akkor ő magas, vagyis a termet is relatív. A termetnek és a testsúlynak a relativitását a beszéd vonatkozásában az is növeli, hogy – a nyilvánvaló tendenciától függetlenül – számos kivétel akad. Van például olyan beszélő, aki alacsony és basszus hangú és van, aki alacsony és tenor hangú (s ekkor még csak az alaphangmagasságra vonatkozóan tettünk megállapítást, amely a beszédnek csupán egy összetevője).

A mindennapi kommunikációban az életkornak lehet jelentősége, a termetnek vagy a testsúlynak azonban rendszerint nem. Ebből következik, hogy míg az életkort mintegy tudattalanul (néha tudatosan?) rögzítjük a beszélőnél, s ennek révén az elhangzó beszéddel, addig a termet és a testsúly általában kikerül a figyelem középpontjából, nem alakul ki kapcsolat a beszéd és a magasság vagy a beszéd és a súly között. Az elmondottakból következik, hogy míg a termetre vonatkozó sajátosságokat bizonyos fokig dekódoljuk, s valamilyen mértékben tároljuk is, többé-kevésbé hozzárendelve a beszédhez, addig ugyanez a testsúllyal kapcsolatban nemigen történik meg.

Ezek a különbségek eredményezik, hogy az agyban feltételezett neurális spektrogram viszonylag jó becslést enged meg a beszélő életkoráról a beszéde alapján, viszonylagos felismerést a termetre vonatkozóan, és gyakorlatilag nem tartalmaz használható információt a beszélő testsúlyának és a beszédének a tekintetében.

Elemeztük, hogy vajon a tesztanyag adatközlőinek hangja és beszéde milyen objektív akusztikai-fonetikai sajátosságokkal jellemezhető. A műszeres vizsgálatokhoz a CSL 4300B típusú digitális jelfeldolgozót használtuk. Az objektív adatok birtokában igyekeztünk összefüggéseket találni a beszélő azonosítási eredményekkel. A 3. táblázatban a beszélők alaphangjának objektív paramétereit összesítettük.

3. táblázat. A beszélők alaphangjának adatai
(F = frekvencia, I = intenzitás)


Beszélő	Mért paraméterek
Beszélő	átlagos F0	F-eltérés	I-eltérés	Jel-zaj viszony

nNN	185,9 Hz	1,701%	3,425 dB	1,842 dB
nAS	177,0 Hz	2,227%	2,778 dB	–4,132 dB
nAK	213,3 Hz	1,742%	1,64 dB	–2,327 dB
nMS	181,7 Hz	1,74%	3,628 dB	–1,657 dB
nMK	192,2 Hz	1,705%	0,913 dB	–3,268 dB
fNN	116 Hz	1,136%	1,264 dB	–4,652 dB
fAS	139,5 Hz	1,877%	1,631 dB	–4,466 dB
fAK	116,6 Hz	1,277%	0,818 dB	–5,547 dB
fMS	101 Hz	1,047%	1,19 dB	–6,26 dB
fMK	123,2 Hz	1,145%	1,267 dB	–2,995 dB

A beszélők alaphangmagasságának jellemzéséül szolgáló paraméterek különbözőek (az F-eltérés és az I-eltérés a frekvencia és az intenzitás állandóságáról nyújt felvilágosítást; minél kisebb az érték, annál kevésbé ingadozik az adott paraméter). A jel-zaj viszony a hang tisztaságát jelzi, vagyis azt, hogy a beszédjelhez képest a hangképzés milyen zörejhátteret mutat. Minél nagyobb a mínuszérték, annál kisebb a zörej. Az átlagos alaphangmagasság nőknél 177 Hz és 213 Hz között, férfiaknál 101 Hz és 139 Hz között szór. Ez a nemek egyértelmű elkülönülését jelzi a zönge értékében; a legalacsonyabb női F0 38 Hz-cel magasabb, mint a legmagasabb férfi F0. A legalacsonyabb férfi alaphangmagasság és a legmagasabb női között 112 Hz a különbség.

Az átlagos alaphangmagasság – úgy tűnik – fontos tényező mind az alkat, mind az életkor eldöntésében. Anyagunk alapján kimondható, hogy a nőknél a magasabb alaphangmagasság a fiatalabb életkorral, illetőleg a sovány vagy normál testalkattal mutat szoros összefüggést. A két magas F0-val rendelkező kövér női beszélőnk egyike alacsony, másikuk magas. Ennek ellenére sem magasnak, sem alacsonynak, hanem legnagyobb mértékben normál alkatúnak ítélték őket. A súlyukra vonatkozó becslések egy része is a normál kategóriába került. Nagy arányban tekintik normál testalkatúnak a mély alaphangú női beszélőket is. Az összesített eredmények szerint a mély hangú nők magasságát 52%-ban ítélték meg helyesen, míg a magas hangúakét csak 37,5%-ban. A súlyuk becslése is tendenciájában hasonló eredményeket hozott. A mély hangúak súlyát 43,7%-ban, míg a magas hangúakét csak 12,4%-ban találták el. A férfiak alkati becslése lényegesen jobb volt. A mély hangú férfiak magasságát 70,8%-ban, a magasabb hangúakét 50%-ban ítélték meg helyesen. A súlyukra vonatkozó becsült adatok gyengébbek, de még így is jobbak, mint a nők esetében. A mély hangúaknál 62,4%-ban, a magasabb hangúaknál csak 18,7%-ban pontos az ítélet. Mindezek alapján leszögezhető, hogy a mélyebb F0-val beszélő férfiak termetének és súlyának a megítélése lényegesen jobb, mint az ugyancsak mélyebb alaphangú nőké. A magasabb hangú nők és férfiak súlyának becslése a legbizonytalanabb, a pontos ítélet 20% alatti, vagyis véletlen találat. A három alacsony alaphangú férfi beszélő termetre különböző, egyikük alacsony, másikuk magas, a harmadik normál, magasságuk megítélése mégis feltűnően jó. A magas F0 férfi beszélőnél az alacsony termethez kötődik, természetesen nem független a becslés a konkrét alaphangértéktől. Az átlagosan közel 140 Hz-es magasságon beszélő férfit nagymértékben ítélik kövérnek (valójában sovány), míg az átlagosan 123 Hz-es alaphangot produkáló férfit csupán 18,7%-ban gondolják kövérnek, a lehallgatók döntően normál alkatúnak ítélik. Természetesen a döntés nem egyetlen paraméter alapján történik, hanem az összbenyomás eredménye. Ezt támasztja alá az a tény, hogy az átlagosan 116 Hz-en beszélő kövér férfi súlyát közel 70%-ban azonosítják helyesen.

Az életkor becslése is nyilvánvalóan több észlelet együttes hatásának eredménye. Bizonyos tendenciák mégis akadnak. A magasabb F0 nőknél és a mélyebb F0 férfiaknál a fiatalabb életkort idézi. A nőknél az életkor becslése 72,4%-ban volt pontos, míg a férfiaknál 64,9%-ban. Az alaphang további paramétereit illetően feltűnő összefüggést nem találtunk. A jel/zaj értékében tendenciaszerűen érvényesül, hogy minél kisebb a zörej aránya, annál pontosabb a becslés, elsősorban az életkoré.

Angol anyanyelvűekkel végzett életkorbecslési kísérletben azt találták, hogy az alaphangmagasságon túl a beszédtempó, valamint az artikuláció pontossága is meghatározó volt az ítéletek kialakításában. A gyorsabb beszédtempót és a tiszta hangképzést a fiatalabb életkorra jellemzőbbnek tartották (Hartman–Danhauer 1976). Minthogy beszélőink pedagógusok, ezért nagy különbséget sem a tempójukban, sem a hangképzésünkben nem találtunk. Nagyon kis eltéréssel ugyan, de ketten kissé lassabban, hárman kissé gyorsabban beszéltek, a többiek tempója átlagosnak mondható. A következő értékek a beszédsebességre vonatkoznak. A lassúbb beszélők átlaga 10,8 hang/s és 11,4 hang/s, a gyorsabbaké 13,6 hang/s és 13, 9 hang/s, az átlagosnak tekintettek határértékei pedig 12,2–13,2 hang/s. A beszédképzés valamennyi adatközlő esetében tiszta, az intonációs szerkezetek megvalósítását tekintve kettőnél kiemelkedően szép a beszéd. Az alkati és életkori becslések összességét tekintve egyértelműen látszik, hogy a két minden tekintetben legtökéletesebb beszélő megítélése nagymértékben pontos volt, a nőé 70,8%, a férfié 64,5. (A legjobban azonosított beszélő átlaga ugyanakkor 81,2%.) A beszédtempó és a helyes becslés aránya között nem találtunk összefüggést.

Következtetések

A kísérlet eredményei több tekintetben is jelentősnek mondhatók. Első ízben történt ilyen jellegű vizsgálat magyar anyanyelvű beszélőkkel. Noha a kutatás számos irányban tovább folytatandó, néhány alapvető állítás már most is megfogalmazható. A beszélő személy testalkata megbecsülhető a beszéde alapján, ennek mértéke azonban sok tényezőtől függ. Meglehetősen jól megítélhető a beszélő életkora, és gyengébben ugyan, de a véletlen találatnál jobb arányban becsülhető a magassága. Nem ítélhető meg értékelhető szinten a beszélő súlya, még akkor sem, ha nem egy esetben az adataink jobb eredményt mutatnak, mint a véletlen találat.

Kimondható, hogy a nemek felismerése között van különbség; a jelen kísérlet eredményei szerint a férfiak alkatát (magasságát és súlyát) pontosabban lehet megbecsülni, mint a nőkét. Az angol anyanyelvűekkel végzett kísérletben a termet azonosítása ugyancsak a férfiaknál volt jobb, a súly megítélése azonban a nőknél (Lass–Davis 1976). Az életkor tekintetében a nőknél találtunk a beszédük és a koruk között szorosabb összefüggést. Adatközlőink esetében a mélyebb alaphangmagasságú beszélők alkatának a megítélése volt pontosabb. Számos esetben nem találtunk egyértelmű összefüggést a becslési adatok és a beszéd objektív elemzésének adatai között. Ez nem azt jelenti, hogy ilyen összefüggések nincsenek, csupán azt, hogy a jelenleg rendelkezésre álló ismereteink nem elégségesek ezen összefüggések kimutatásához. Nincsen olyan adathalmaz, amely például az átlagosnál magasabb emberek beszédének akusztikai-fonetikai sajátosságait tartalmazná. Arra azonban már vannak mért adatok, hogy a különböző életkorú beszélőknek (17 évestől 80 évesig) milyen az artikulációs és a beszédtempója (Gocsál 2000).

Az a tény, hogy mind az életkort, mind a testmagasságot elfogadható mértékben meg lehetett becsülni, arra utal, hogy a beszéd kétségkívül tartalmaz olyan paramétereket, amelyek a hallgatóban azonos döntést idéznek elő. Nem zárható ki természetesen az sem, hogy a becslésben részt vevők saját, egyéni tapasztalataik alapján ítéltek (a hallott beszéd egy adott alkatú, korú személyre emlékeztette őket). Ez magyarázná azt is, hogy ugyanazon beszélő miként volt mindhárom kategóriában felismerhető (tehát alacsonynak, normálnak és magasnak). Megjegyezzük ugyanakkor, hogy ez alig fordult elő; a becslést végző személyek rendszerint szomszédos kategóriák mentén „tévedtek”. Valószínűsíthető továbbá az is, hogy a visszatérő, sokakat érintő közös „élmény” – gondolunk itt például az ismert filmek, sorozatok szereplőire és azok beszédhangjára – eredményezi azt, hogy bizonyos külsőhöz a már megismert hangot, beszédet kapcsoljuk.

A kapott eredmények többé-kevésbé megegyeznek az angol anyanyelvűekkel végzett kísérlet adataival. A különbözőségek természetszerűleg adódnak a kísérlet metodológiai eltéréseiből is; az azonosságok azonban arra engednek következtetni, hogy a becslési eredmények – bizonyos fokig – nyelvfüggetlen tények. Nyilvánvalóan hosszú kutatás eredményeként következtethetünk majd megbízhatóan a beszélő személy külsejére a beszéd alapján. Az azonban már az eddigiek alapján is bizonyos, hogy ez a munka szükséges, és sokféleképpen lesz alkalmazható a gyakorlatban.

SZAKIRODALOM

Frint Tibor 1999. Foniátria. Medicina. Budapest.

Fujimura, O. 1972. Acoustics of speech. In: Gilbert, J. H. (ed.): Speech and Cortical Functioning. Academic Press. New York. 107–65.

Gocsál Ákos 1998. Életkorbecslés a beszélő hangja alapján. In: Gósy Mária (szerk.): Beszédkutatás ’98. MTA Nyelvtudományi Intézete. Budapest. 122–35.

Gocsál Ákos 2000. A beszéd időviszonyai különböző életkorú személyeknél. In: Gósy Mária (szerk.): Beszédkutatás 2000. MTA Nyelvtudományi Intézete. Budapest. 39–51.

Gósy Mária 1999. Pszicholingvisztika. Corvina. Budapest.

Hicks, J. W.–Johnson, Ch. C.–McGlone, R. E. 1979. Speaker identification from photographs. In: Wolf, J. J.–Klatt, D. H. (eds.): Speech Communication Papers. MIT, Cambridge. Mass. 503–7.

Hartman, D. E.–Danhauer, J. L. 1976. Perceptual features of speech for males in four perceived age decades. JASA 59. 713–5.

Lass, N. J.–Davis, M. 1976. An investigation of speaker height and weight identification. JASA 60. 700–3.

Lass, N. J.–Harvey, L. A. 1976. An investigation of speaker photograph identification. JASA 59. 1232–6.

Vértes O. András 1979. A hang némely tulajdonságának történeti változásáról. Magyar Fonetikai Füzetek 3. 42–8.

Gósy Mária

SUMMARY

Gósy, Mária

An investigation of speaker height, weight, and age identification

The purpose of this investigation was to determine if listeners were capable of speaker height, weight, and age identification from recorded speech samples. A 16-second speech sample was recorded as spoken by 10 speakers, 5 females and 5 males. A master tape containing the randomly arranged recorded speech samples of all speakers was played to a group of 32 subjects for speaker height, weight, and age identification purposes. Results indicate that the subjects were able to identify the speakers’ age relatively well and that they were capable, with better than chance guessing accuracy, of identifying the height of the speakers as well. The data of this experiment suggest that the listeners’ estimation of the speakers’ weight is little better than mere guessing. Implications of these findings are discussed in terms of speaker recognition research.

* A kutatást a 025965 sz. OTKA támogatta.