AWS Transcribe 사례. 음성 녹취의 Speech-to-Text 자동화
[bbb코리아에 대해서]
비비비코리아는 사람을 생각하는 bbb 운동의 나눔과 봉사정신으로
활기찬 소통의 세상을 만들기 위해 노력하는 언어·문화 NGO 입니다.
전용 어플리케이션으로 통역이 필요한 사람에게 자원봉사자를 연결하여, 통역 서비스를 제공합니다.
[당면과제]
비비비코리아는 통역요청자 – 자원봉사자 – 통역대상자 간의 3자 통화를 음성녹취 형태로 저장하고 있습니다.
고객사는 저장된 음성녹취를 텍스트로 변환하고, 텍스트를 분석하여 다양한 통계 데이터와 통찰력을 얻고자 합니다. 3자
통화의 특성상, 다중 언어의 인식과 다양한 언어의 지원이 필수적으로 필요합니다.
또한, 이러한 기능을 만족하면서 초기 구축비용이나 라이선스 비용이 부담되지 않아야 합니다.
[아마존 웹서비스를 선택한 이유]
전산 장치의 추가나 웹기반이 아닌, API 를 통해 On-Demand 형식으로 음성 파일을 STT 처리할 수 있는 서비스를 제공하는 부분이 강점이었으며, 특히 영어 뿐만 아니라 프랑스어를 포함한 다중 언어 인식을 통해 매우 높은 정확도를 보여주었습니다.
[콤텍시스템을 선택한 이유]
콤텍시스템은 체계화되고 전문적인 지식을 바탕으로 자사의 시스템을 잘 이해하고 있었으며, AWS의 서비스와 철학을 명확하게 이해하고 가이드 해주었습니다.
AWS Transcribe 를 통한 STT 처리에 대한 활용 뿐만 아니라, S3 와 Lambda 를 활용한 자동화 방향을 제시하여, 운영 리소스를 사전에 절감할 수 있도록 도움을 주었습니다.
[구성도]
아래의 AWS 아키텍처는 bbb코리아에서 AWS를 이용한 운영방안을 보여줍니다.
[AWS Transcribe 서비스의 활용]
AWS Transcribe 서비스는 전산장비나 솔루션의 설치 및 배포 과정없이, 쉽고 빠르게 Speech-to-Text 처리할 수 있는 솔루션 입니다.
Transcribe 는 단일 언어 뿐만 아니라, 여러 언어가 혼용되는 음성파일도 인식하여 텍스트로 변환할 수 있습니다.
웹브라우저에서 직접 STT 작업을 등록할 수 있지만, CLI 또는 SDK 를 활용하여 S3 에 저장되어 있는 음성파일을 처리할 수 있습니다.
Automation Step
녹취 데이터 저장 서버에서 주기적으로 S3 에 녹취 파일을 배치 전송하며, S3 에 파일 저장이 완료되면, AWS Lambda Function 이 트리거 됩니다.
트리거된 Lambda Function 은 S3 에 저장된 녹취 파일을 AWS Transcribe Job 으로 제출하고, 변환된 텍스트 파일을 S3 에 저장합니다.
텍스트 파일이 저장되면, 데이터베이스에 메타 데이터를 전송하는 Lambda Fucntion 을 트리거하여, SQL 쿼리문을 수행합니다.
[결과 및 이점]
기존에 구축되어 있는 녹취 시스템에서 음성 파일을 S3 로 전송하면, STT 작업과 메타데이터가 데이터베이스에 저장되며, 이 과정은 모두 자동으로 진행됩니다. STT 결과는 만족스럽고, 비용 역시 사용한 만큼 부과되어, 초기비용을 대폭 절감할 수 있었습니다.
댓글