Warning: fopen(/home/virtual/audiology/journal/upload/ip_log_2022-01.txt): failed to open stream: Permission denied in /home/virtual/lib/view_data.php on line 73 Warning: fwrite() expects parameter 1 to be resource, boolean given in /home/virtual/lib/view_data.php on line 74 The Study of Contribution of the Auditory and Visual Information to the Communication:Subjects with Normal Hearing
Korean J Audiol Search

CLOSE


Speech perception and production, hearing sciences
Korean Journal of Audiology 1999;3(1):11-16.
The Study of Contribution of the Auditory and Visual Information to the Communication:Subjects with Normal Hearing
Lee Suk Kim1, Mi Young Lee1, Akira Uno2, Soo Jin Kim1, Sang Ryul Kim1
1Department of Otolaryngology, College of Medicine, Dong-A University, Pusan, Korea
2National Institute of Mental Health, National Center of Neurology Psychiatry, Chiba, Japan
대화에 있어 청각·시각적 정보의 영향에 관한 연구(Ⅰ):정상 성인
김리석1, 이미영1, 宇野彰2, 김수진1, 김상렬1
1동아대학교 의과대학 이비인후과학교실
2日本 國立精神·神經センタ一 精神健硏究所
Abstract

Speech perception is regarded as a auditory process, but in most communication auditory-visual information could be an important cue. McGurk effect causes a kind of fusion between auditory and visual information. The purpose of this study was to investigate the speech perceptual fusion of McGurk effect in 52 Korean adults with normal hearing. All subjects were individually tested with 13 consonants in CV combination with the vowel /a/ under three conditions. The three conditions are audition only, auditory-visual discrepancy, and auditory-visual equivalent. In subjects the correct percentage scores under each condition were 93%, 88%, 97%. The results showed that the speech perceptual fusion was induced under auditory-visual discrepancy condition (p<0.05). But the subjectshad a tendency to perceive speech by depending on auditory stimuli rather than visual stimuli even though the visual information was different to auditory information. This study offers contributions with regard to auditory and visual information in speech perception and gives direction to efforts in estimating the process of the speech perception in people with hearing impairment. 

Keywords: Speech perception;McGurk effect.
서론 말인지는 일차적으로 청각을 통하여 이루어진다. 이러한 청각 정보 외에도 대화를 할 때 말하는 사람의 얼굴표정, 입모양 등의 시각 정보도 말인지에 도움을 준다. 1976년 McGurk와 MacDonald는 피검자에게 시각 자극과 청각 자극을 다르게 주었을 때 이 상이한 두 정보를 융합(fusion)하여 인지한다는 것을 발견하였으며, 이를 McGurk 효과(McGurk effect)라 하였다.1)2) 즉, 비디오 화면에서 보여 주는 말의 입모양 /ga/와 실제로 들려주는 음 /ba/를 다르게 하였을 때 시각 자극 /ga/로부터 /ga/라는 정보 외에 조음 위치의 혼동에 의해 /da/라는 정보도 얻을 수도 있고, 청각 자극 /ba/로부터는 /ba/라는 정보 외에 음향 정보가 유사한 /da/라는 정보도 얻을 수 있으므로 이 두 정보의 공통 요소인 /da/로 반응한 것이며 시각 자극의 영향을 새로운 각도에서 설명하였다. McGurk 효과에 대한 보고 이전에는 시각 자극이 청각 자극과 동일할 때 말인지를 도와주는 역할3)4)로서 주로 청각 장애자의 재활을 위해 적용되었다. 그러나 McGurk 효과는 시각 자극이 청각 자극과 다를 때 말인지를 방해하는 요소로서 시각 자극의 영향을 강조한 것이다. 따라서 본 연구에서는 우리 나라 말에서 융합 반응 현상인 McGurk 효과가 나타나는지 알아보고 이를 통해 장애자의 재활 적용을 위한 기초로 삼고자 한다. 아울러 일본 정상 성인을 대상으로 한 연구 결과와 비교 하고자 한다. 연구 대상 및 방법 연구 대상은 정상 청력과 시력을 지닌 23∼26세(평균 24.5세)의 한국 성인 남녀 52명(남자 44명, 여자 8명)으로 하였다. 대상자는 고막검사, 순음청력검사, 어음청력검사, 임피던스검사, 시력검사 등을 실시하여 이상 소견이 없는 경우로 제한하였다. 우리 나라 자음 13개 /ㅂ/, /ㅍ/, /ㄷ/, /ㅌ/, /ㄱ/, /ㅋ/, /ㅁ/, /ㄴ/, /ㅅ/, /ㅈ/, /ㅊ/, /ㄹ/, /ㅎ/를 모음 /아/와 결합시킨 CV 체계의 음절을 사용하였다. 각 음절은 13번씩 총 169개를 자극음으로 하였다. 우리 나라 말이 모국어인 여자가 한 음절씩 무작위로 발화한 입모양을 비디오 녹화하고, 화면의 입모양과 소리가 같은 자극음과 입모양과 소리가 다른 자극음을 각각 더빙하였다. 청각 및 시각 자극을 녹화하기 위하여 비디오 카메라(Sony HandyCAM CCD-TRV12), 비디오테이프 녹음기(Hitachi 5730 Hi-Fi MTS stereo), 마이크(electric condenser microphone ECM), 25 inch 텔레비젼(Anam CK-2590RMS)을 사용하였다. 검사는 다음 세 가지 조건에서 실시하였다:1) 듣기 자극만 제시한 조건, 2) 듣기 자극과 보기 자극을 다르게 제시한 조건, 3) 듣기 자극과 보기 자극을 동일하게 제시한 조건으로 나누어 음소의 인지를 알아보았다. 세 가지 검사 조건에서 각 자극은 매 6초 간격으로 제시했고 텔레비젼 화면과의 거리는 1 m로 하였다. 듣기 자극만 제시한 조건에서는 화면을 보지 않고 듣기만 하여 반응을 적도록 하고 듣기와 보기의 자극을 다르게 제시한 조건과 동일하게 제시한 조건에서는 화면을 주시하면서 동시에 들리는 자극을 적도록 하였다. 자극의 강도는 일상대화 수준인 65 dB SPL로 하였다. 일본 정상 성인 62명을 연구 대상으로 자음 9개 /ㅂ/, /ㅍ/, /ㄷ/, /ㅌ/, /ㄱ/, /ㅋ/, /ㅁ/, /ㄴ/, /ㄹ/를 모음 /아/와 결합시킨 CV 체계의 음절을 사용하여 검사한 결과를 통해 한일 양측의 McGurk 효과를 비교하였다. 결과에 대한 통계분석은 PC-SAS ver.6.12를 사용하여 Kruskal-Wallis Test와 student t-test를 실시하였고, 유의수준은 95%(p<0.05)로 하였다. 결과 듣기 자극만 제시한 검사 조건의 결과 듣기 자극만 제시했을 때 반응의 정확도는 평균 93%였다. 대부분의 청각 자극에 대한 반응 정확도는 90%이상이었고 정확도가 가장 높은 자극은 순음 /마/와 유음 /라/였다. 정확도가 가장 낮은 자극은 무성음 /하/였으며, /파/와 /타/, 연구개음 /가/의 순서로 낮았다. 오류는 /하/는 /파/로, /파/는 /타/로, /타/는 /파/나 /사/로, /가/는 /다/의 형태가 많았다(Fig. 1). 듣기와 보기의 자극을 다르게 제시한 검사 조건의 결과 듣기와 보기의 자극을 다르게 제시한 조건에서 청각 자극에 대한 반응의 정확도는 평균 88%였다. 세 가지 검사 조건 중 정확도가 가장 낮았고(p<0.05), 자극간 정확도의 차이도 다른 조건에 비해 컸다. 청각 자극에 대한 정확도가 높은 자극은 경구개음 /자/와 /라/, 치조음 /나/, /다/ 등이었다. 정확도가 낮은 자극은 무성음 /파/와 /하/의 순서였으며, 반응 형태는 /파/는 /타/, /바/, /하/의 순서로 /하/는 /파/, /타/순서로 많았다(Fig. 2). 시각 자극의 조음 위치에 따른 반응의 형태는 다음과 같다. 시각 자극이 양순음일 때 입모양 /파/와 청각자극 /카/는 /가/로 반응한 정도가 46%로 높았고 입모양 /바/와 청각 자극 /하/, 입모양 /파/와 청각 자극 /하/, 입모양 /마/와 청각 자극 /하/는 모두 /파/로 반응을 보인 정도가 각각 38%, 36%, 29%였다. 시각 자극이 치조음일 때 입모양 /다/와 청각 자극 /파/는 /바/로 반응한 정도가 58%로 가장 높았으며, /다/와 청각 자극 /하/, /나/와 청각 자극 /하/는 /타/로 반응을 보인 정도가 각각 37%와 36%였다. 입모양 /다/와 청각 자극 /카/, 입모양 /나/와 청각 자극 /카/는 /가/로 반응을 보인 정도가 각각 27%였다. 시각 자극이 경구개음일 때 입모양 /차/와 청각 자극 /파/는 /바/로 반응한 정도가 37%로 가장 높았고 입모양 /자/와 청각 자극 /카/는 /가/, 입모양 /자/와 청각 자극 /파/는 /타/ 혹은 /하/로 반응을 보인 정도가 각기 31%, 19%, 17%였다. 시각 자극이 연구개음일 때 입모양 /카/와 청각 자극 /바/는 /다/로 반응한 정도가 40%, 입모양 /카/와 청각 자극 /카/는 /가/로 반응을 보인 정도가 33%, 입모양 /카/와 청각 자극 /파/는 /타/로 반응을 보인 정도가 23%였다. 시각 자극이 성문음일 때 입모양 /하/와 청각 자극 /바/는 /다/로 반응을 보인 정도가 58%, /가/로 반응을 보인 정도는 23%이며, 입모양 /하/와 청각 자극 /카/는 /가/로 반응한 정도가 29%, 입모양 /하/와 청각 자극 /파/는 /타/로 반응을 보인 정도가 21%였다(Table 1). 시각 자극과 청각 자극이 서로 다를 때 일어나는 융합 반응은 시각 자극이 양순음일 때 많이 나타났다. 따라서 융합 반응은 시각 자극을 통한 조음 위치의 영향을 받기도 하였지만 대부분은 청각 자극과 동일한 청각 범위(auditory boundary)내에 있는 음으로 나타났다. 그리고 시각 자극 /파/와 청각 자극 /카/의 사이에서 /가/로 융합 반응이 나타난 정도는 46%로, 시각 자극이 양순음이지만 시각 자극으로부터 조음 위치에 대한 영향을 받지 않은 것을 나타낸다. 시각 자극이 양순음이 아닌 치조음, 경구개음, 연구개음과 성문음 등에서도 시각 자극과 청각 자극 사이에서 융합 반응은 나타났으나 청각 자극과 청각 범위가 비슷하거나 때로는 청각 자극으로부터 조음 위치에 대한 정보를 얻어 반응 한 경우도 있었다. 듣기와 보기의 자극을 동일하게 제시한 검사 조건의 결과 듣기와 보기의 자극을 동일하게 제시했을 때 반응의 정확도는 평균 97%로 세 가지 검사 조건 중 가장 높았다(p<0.05). 모든 자극의 반응 정확도는 90%이상으로 자극간의 차이도 적었다. 반응의 정확도가 100%인 자극은 /마/, /자/, /라/, /와/였으며, 정확도가 낮은 자극은 /타/, /파/, /카/, /하/ 순서로 모두 무성음이었다. 반응 정확도가 낮은 자극이 나타낸 오류는 /타/는 /사/로, /파/는 /타/로, /가/는 /다/로 반응한 형태가 많았다(Fig. 3). 고찰 정상 성인 52명은 서로 다른 시청각 자극 사이에서 융합 반응을 나타냈지만 McGurk와 MacDonald가 보고한 McGurk 효과와 다른 양상을 보였다. McGurk 효과에서는 시각 자극 /가/와 청각 자극 /바/를 /다/로 융합 반응한 정도가 98%였으나, 본 연구에서는 /다/로 반응한 정도는 13%였고 청각 자극으로 반응한 정도도 79%로 높았다. McGurk 효과에서는 시각 자극 /바/와 청각 자극 /가/ 사이에서 청각 자극으로 반응했던 정도는 11%, 시각 자극 /바/로 반응했던 정도가 31%, 그리고 혼합 형태로 반응했던 정도가 54%였다. 이 때 혼합(combination) 반응은 /bagba/나 /gabga/와 같은 복합적인 형태로 시각 자극 양순음 /ba/를 통한 정보 /ba/와 청각 자극 /ga/를 통한 정보 /da/, /ga/와 사이에는 공통 정보가 없기 때문에 발생한 것이며 인지 과정상 우위의 양식이 없는 경우에 발생하는 현상으로 설명하였다. 그러나 본 연구에서는 청각 자극으로 반응한 정도는 98%였고 혼합된 반응 형태는 나타나지 않았다. McGurk 효과에서는 시각 자극 /파/와 청각 자극 /카/ 사이에서 청각 자극으로 반응했던 정도는 18%, 시각 자극 /파/로 반응했던 정도가 37%, 혼합형으로 반응했던 정도가 44%인 것에 비해 본 연구에서는 청각 자극으로 반응한 정도는 50%였고 청각 자극 /카/와 조음 위치가 같은 /가/로 융합 반응한 정도가 46%나 되었다. 또한 McGurk 효과에서는 시각 자극 /카/와 청각 자극 /파/ 사이에서 /타/로 반응한 정도가 81%나 되었으나 본 연구에서는 청각 자극으로 반응한 정도는 58%, /타/로 융합 반응을 정도는 23%였고 그 외 다른 형태로 반응한 경우도 있었다. 결과적으로 시각 자극과 청각 자극이 서로 다른 말인지 과정에서 융합 반응 현상을 보였지만 McGurk 효과와 동일한 반응 형태는 제한적으로 나타났다. 한국 정상 성인의 융합 반응은 시각 자극의 영향에 의해 발생한 McGurk 효과라기보다 통합 반응 현상으로 보는 것이 타당하다. 음소에 대한 반응(phonetic response)이 서로 다른 청각적 단서(acoustic cue)가 되는 영역(dimension)의 단순한 혼합(combination)이 아니라 종종 우위의 위치에 있는 하나의 단서의 영향으로 다른 단서의 가치가 결정되는 과정, 즉 단서들의 복합적인 통합(integration) 과정으로 설명한 McGurk 이후의 연구5-7) 결과와 그 맥을 같이 한다. 따라서 한국 정상 성인은 시각 자극과 청각 자극이 다를 때 청각 우위의 처리 방식으로 말인지 하였다. 이러한 주된 차이점과 함께 검사 방법상의 세부적인 요소들이 다른 점도 결과에 어느 정도 영향을 끼쳤을 것으로 생각된다. 본 연구에서 사용된 음소는 우리 나라 기본 자음 13개로 McGurk의 보고에서 사용된 2 개의 자음보다 훨씬 많았다. 그로 인해 자극 당 제시 횟수와 전체 자극 제시 횟수도 많았다. 이에 따라 전체 실험 시간이 상당히 길어져서 서로 다른 자극이 주어질 때 피검자가 시각 자극과 청각 자극이 동시에 집중하지 않을 수도 있는 요인이 될 수 있었다. 한편 한국 정상 성인이 융합 반응을 많이 나타낸 음은 청각 명료도가 낮은 음이었다. 이러한 청각 명료도와 융합반응과의 상관관계 결과는 일본인의 McGurk 효과에 관한 연구 결과9)와 동일하다. 청각 우위의 처리과정을 보인 정상 성인의 결과는 시각 정보와 청각 정보의 실용 능력에 따라 의사소통 능력이 결정되는 청각장애자 및 그 외 다른 장애자의 구어 재활을 위한 활용 근거가 될 수 있으므로 이에 대한 연구가 필요함을 보여준다. 한국 정상 성인의 McGurk 효과에 관한 연구 결과와 일본 정상 성인의 McGurk 효과에 관한 연구 결과를 비교하면 다음과 같다. 한국 정상 성인의 청각 명료도는 93%로 일본 정상 성인의 청각 명료도 89% 보다 높았으나 통계학적인 유의성은 없었다(p>0.05). 듣기와 보기의 자극이 서로 다른 조건에서도 한국 정상 성인의 반응 정확도는 84%로 일본 정상 성인의 반응 정확도 73% 보다 높았다(p<0.05). 한국 정상 성인보다 일본 정상 성인이 서로 다른 시각 자극과 청각 자극 사이에서 더 많은 융합 반응을 나타냈다. 청각 명료도가 낮을수록 시각 자극에 대한 의존도가 높을수록 융합 반응 정도는 높았다. 이는 영어권의 연구에서 청각 명료도가 높았으나 McGurk 효과가 강하게 나타난 결과와는 달랐다. 시각 자극과 청각 자극이 다른 조건에서 비양순음 시각 자극 /가/-/카/와 청각 자극 /바/-/파/ 사이에서 청각 자극으로 반응을 보인 정도는 한국 정상 성인이 각각 79%, 58%였고 일본 정상 성인은 각각 61%, 17%였다. 양순음 시각 자극 /바/와 청각 자극 /가/ 사이에서 청각 자극으로 반응을 보인 정도는 한국 정상 성인이 98%였고 일본 정상 성인은 83%였다. 그러나 양순음 시각 자극 /파/와 청각 자극 /카/ 사이의 정확도는 한국 정상 성인이 50%였고 일본 정상 성인은 72%였다. 일본 정상 성인의 /바/, /가/, /카/, /파/에 대한 청각 명료도는 각각 74%, 99%, 99%, 79%였다. 낮은 청각 명료도를 지닌 청각 자극 /바/와 /파/가 시각 자극 /가/와 /카/에 의해 많은 융합 반응을 보였을 뿐만 아니라 99%의 높은 청각 명료도를 지닌 청각 자극 /가/와 /카/도 양순음 시각 자극 /바/와 /파/의 영향으로 융합 반응을 많이 보였다. 이 결과는 한국 정상 성인이 낮은 청각 명료도를 지닌 청각 자극에서 많은 오류를 보인 결과와 비교해 볼 때 일본 정상 성인이 한국 정상 성인보다 시각 자극에 더 의존함을 나타낸다. 그러나 일본인의 결과는 일본의 이전 McGurk 효과 연구에서 완벽한 청각 명료도를 지닌 대상자가 듣기와 보기의 자극을 다르게 하더라도 극히 제한적으로 McGurk 효과를 나타낸 결과8)와는 차이가 있었다. 이는 연구 대상자와 자극의 제시 방법 등에 따라 결과의 차이가 생길 수 있음을 시사한다. 한국 정상 성인과 일본 정상 성인 모두는 시각 자극과 청각 자극이 다를 때 두 자극으로부터 얻은 정보를 인지하는 과정에서 융합 반응이 일어났지만 McGurk 효과와 동일한 형태는 제한적으로 나타났다. 또한 일본 정상 성인이 청각 명료도와의 상관 관계없이 시각 자극 쪽으로 융합 반응을 많이 보인 결과는 일본 정상 성인이 한국 정상 성인보다 시각 자극에 대한 의존도가 더 높다는 것을 나타낸다. McGurk 효과와 한국-일본의 융합 반응 현상이 다른 형태로 나타나는 것은 검사 방법의 세부적인 요소의 차이 외에도 시각 단서를 주는 음소, 언어 문화적인 차이 등의 요인으로 생각해 볼 수 있다. 서로간의 얼굴을 보면서 대화를 하는 정도가 한국이나 일본에서는 영어권만큼 중요하지 않으므로 시각 자극의 영향도 덜 받은 것으로 생각된다.11) 결론 시각 자극이 청각 자극과 다를 때 정상 성인 52명은 융합 반응을 나타냈다. 본 연구에서 나타난 융합 반응은 시각 자극의 조음 위치에 대한 정보와 청각 자극의 유무성음과 조음 방법에 대한 정보를 통합하는 형태로 청각 우위의 처리 양상을 보였다. 청각 우위의 처리 양상 외에도 대상자, 검사 방법상의 세부적인 조건 등과 언어 문화적인 차이 등은 융합 반응의 형태에 영향을 줄 수 있는 요인으로 생각된다. 정상 성인의 청각 정보와 시각 정보의 기여도에 관한 기초적인 자료는 의사소통시 시청각 정보간의 영향을 많이 받는 청각 장애자 및 그 외 다른 장애자의 구어 재활을 위해 활용될 수 있을 것이다.
REFERENCES
1) McGurk H, MacDonald J. Hearing lips and seeing voices. Nature 1976;264:746-8. 2) MacDonald J, McGurk H. Visual influences on speech perception processes. Percept Psychophy 1978;24:253-7. 3) Dodd B. The role of vision in the perception of speech. Perception 1977;6:31-40. 4) Summerfield Q. Some preliminaries in a comprehensive account of audio visual speech perception. In: Hearing by eye (ed. Campbell R & Dodd B), London: Erlhaum, 1986:3-51. (Chapters in a book) 5) Green KP, Kuhl PK. The role of visual information in the processing of place and manner features in speech perception. Percept Psychophy 1989;45:34-42. 6) Green KP, Kuhl PK. Integral processing of visual place and auditory voicing information during phonetic perception. J Exp Psychol Hum Percept Perform 1991;17:278-88. 7) Green KP, Gerdeman A. Cross-modal discrepancies in coarticulation and the integration of speech information: The McGurk effect with mismatched vowels. Exp Psychol Hum Percept Perform 1995;21(6):1409-26. 8) Sekiyama K, Tohkura Y. McGurk effect in non-English listeners: Few visual effects for Japanese subjects hearing Japanese syllables of high auditory intelligibility. J Acoust Soc Am 1991;90(4):1797-805. 9) Sekiyama K. Differences in auditory-visual speech perception between Japanese and Americans: McGurk effect as a function of incompatibility. J Acoust Soc Jpn(E) 1994;15(3):143-58. 10) 積山薰, 東倉洋一. 音聲言語の讀脣依存症(こおけんるあ文化的相違-日米比較-. 日本音響學會講演論文集, 1991:401-2. 11) 重野純. 音聲言語學の知覺における聽覺情報統合過程 In: 「知學と認知の心理學4」知覺の機序,東京: 培鳳館, 1993:90-109. (Chapter in a book) 12) 岩蓮也. McGurk Effect 實驗用 ンプルの解析2. 東京工科大學卒業論文 1994. 13) 飯田美香, 黃井秀一. 讀脣に利用される畵像情報の分析. 日本音聲學會講演論文集, 1995:391-2.


ABOUT
ARTICLES

Browse all articles >

ISSUES
TOPICS

Browse all articles >

AUTHOR INFORMATION
Editorial Office
Department of Otorhinolaryngology-Head and Neck Surgery, Seoul St. Mary’s Hospital
#505 Banpo-dong, Seocho-gu, Seoul 06591, Korea
Tel: +82-2-2258-6213    Fax: +82-2-595-1354    E-mail: khpent@catholic.ac.kr                

Copyright © 2022 by The Korean Audiological Society and Korean Otological Society. All rights reserved.

Developed in M2PI

Close layer
prev next