AI 음성은 오디오가 딥페이크일 수 있다는 것을 알더라도 알아내기 어렵습니다.

딥페이크 오디오는 AI가 생성한 음성을 듣고 있음을 알면서도 사람들을 속일 수 있습니다. AI 기반 탐지기는 사람들이 딥페이크와 진짜 인간 음성을 구별할 수 있도록 돕기 위해 한 단계 더 발전해야 할 수도 있습니다.

제레미 슈(Jeremy Hsu)

2023년 8월 2일

AI가 생성한 음성을 듣고 있는지 알 수 있나요?

셔터스톡/fizkes

사람들이 AI가 생성한 음성을 듣고 있다는 것을 알더라도 영어와 중국어 사용자 모두 딥페이크 음성을 안정적으로 감지하는 것은 여전히 어렵습니다. 이는 세계에서 가장 많이 사용되는 언어를 이해하는 수십억 명의 사람들이 딥페이크 사기나 잘못된 정보에 노출될 경우 잠재적으로 위험에 처할 수 있음을 의미합니다.

University College London의 Kimberly Mai와 그녀의 동료들은 500명 이상의 사람들에게 여러 오디오 클립 중에서 음성 딥페이크를 식별하도록 도전했습니다. 일부 클립에는 영어나 표준 중국어로 일반적인 문장을 읽는 여성 화자의 진짜 목소리가 포함되어 있었고, 다른 클립에는 여성 목소리에 훈련된 생성 AI가 만든 딥페이크가 포함되어 있었습니다.

더 읽어보세요:

에너지 저장 콘크리트는 태양열 주택의 기초를 형성할 수 있습니다.

연구 참가자들은 두 가지 가능한 실험 설정에 무작위로 배정되었습니다. 한 그룹은 모국어로 된 20개의 음성 샘플을 듣고 클립이 진짜인지 가짜인지 결정해야 했습니다.

사람들은 영어와 중국어 음성 샘플 모두에서 딥페이크와 실제 음성을 약 70% 정확하게 분류했습니다. 이는 대부분의 사람들이 AI가 생성한 음성을 듣고 있을 수도 있다는 사실을 미리 알 수 없기 때문에 실제 생활에서 인간이 딥페이크를 탐지하는 것이 훨씬 더 나쁠 것임을 시사합니다.

두 번째 그룹에는 무작위로 선택된 20개의 오디오 클립 쌍이 주어졌습니다. 각 쌍에는 인간과 딥페이크가 말하는 동일한 문장이 포함되어 있으며 참가자들은 가짜를 신고하도록 요청 받았습니다. 이로 인해 감지 정확도가 85% 이상으로 향상되었습니다. 하지만 팀은 이 시나리오가 청취자에게 비현실적인 이점을 제공한다는 점을 인정했습니다.

The Daily 뉴스레터에 가입하세요

최신 과학 뉴스가 매일 받은 편지함으로 전달됩니다.

“이 설정은 실제 시나리오를 완전히 대표하지는 않습니다.”라고 Mai는 말합니다. "청취자는 자신이 듣고 있는 내용이 실제인지 여부를 미리 알 수 없으며 화자의 성별 및 연령과 같은 요소가 감지 성능에 영향을 미칠 수 있습니다."

또한 이 연구에서는 청취자들에게 딥페이크가 흉내내는 대상과 같은지 여부를 식별하도록 요구하지 않았다고 버클리 캘리포니아 대학의 Hany Farid가 말했습니다. 실제 상황에서는 특정 발언자의 진짜 목소리를 식별하는 것이 중요합니다. 사기꾼은 비즈니스 리더의 목소리를 복제하여 직원에게 돈을 송금하도록 속이고, 잘못된 정보 캠페인을 통해 유명 정치인의 딥페이크를 소셜 미디어 네트워크에 업로드했습니다.

더 읽어보세요:

인공 거미줄은 공기에서 식수를 수확하는 데 도움이 될 수 있습니다

그럼에도 불구하고 Farid는 이러한 연구를 AI가 생성한 딥페이크가 얼마나 잘 "불쾌한 계곡을 통과"하는지 평가하는 데 도움이 된다고 설명했습니다. 이는 청취자에게 으스스하게 느껴질 수 있는 미묘한 음성 차이를 유지하지 않고 인간 목소리의 자연스러운 소리를 모방합니다. 이번 연구는 자동화된 딥페이크 탐지 시스템에 대한 유용한 기준을 제공한다고 그는 말했습니다.

딥페이크 탐지를 개선하기 위해 참가자를 교육하려는 추가 시도는 일반적으로 실패했습니다. 이는 AI 기반 딥페이크 감지기를 개발하는 것이 중요하다는 것을 의미한다고 Mai는 말했습니다. 그녀와 동료들은 음성 데이터를 처리할 수 있는 대규모 언어 모델이 해당 작업을 수행할 수 있는지 테스트하려고 합니다.

저널 참고자료: