Scale AI는 낮은 수준을 사용합니다. | 난퉁 우퍼스 그룹 유한회사

실리콘 밸리의 가장 큰 인공지능 개발자들은 언어 문제를 안고 있습니다. ChatGPT와 같은 생성적 AI 도구는 영어와 스페인어로 성공합니다. 그러나 초기 연구에 따르면 이러한 동일한 도구는 인터넷에서 덜 대표되는 "저자원" 언어에서 만성적으로 성능이 저하되는 것으로 나타났습니다. 이제 교육 데이터의 가장 큰 공급업체 중 하나가 이 문제를 정면으로 해결하고 있는 것 같습니다.

실리콘 밸리의 가장 유명한 교육 데이터 회사 중 하나인 Scale AI는 현재 수십 개 언어에 걸쳐 약 60명의 계약 작성자 역할을 채용하고 있습니다. 각 구인 목록에는 해당 작업이 "더 나은 작가가 되기 위한 생성 인공 지능 모델"을 교육하는 프로젝트를 위한 것이라고 주장합니다. 언어로는 하우사어, 펀자브어, 태국어, 리투아니아어, 페르시아어, 코사어, 카탈로니아어, 줄루어 등이 있습니다. "전문가" 카테고리 아래 6개의 채용 공고에서는 칸나다어, 구자라트어, 우르두어, 텔루구어를 포함한 남아시아 지역 언어에 특화된 작가를 고용하려고 합니다.

언어 간에는 상당한 임금 격차가 있으며, 서구 언어는 남반구 언어보다 15배나 더 높습니다. 예를 들어, 독일 작가를 위한 채용 공고는 시간당 $21.55를 지불하는 반면, 텔루구어 전문가를 위한 채용 공고는 시간당 $1.43만 제공합니다.

저임금 언어 중 다수는 "저자원"으로 간주됩니다. 즉, 인터넷에서 덜 일반적으로 사용할 수 있는 언어를 의미하므로 AI 모델의 데이터가 부족하고 종종 열악합니다. 우르두어, 벵골어와 같이 세계에서 가장 많이 사용되는 언어 중 일부는 온라인에서의 존재감이 낮기 때문에 여전히 자원이 부족한 언어입니다. 예일대학교 조교수이자 로스쿨 정보사회 프로젝트 회원인 줄리안 포사다(Julian Posada)에 따르면 Scale AI가 "저자원" 언어 성능을 개선하기 위해 인간 작업자를 사용하는 것은 주목할만한 변화입니다.

“당신은 이미 전체 인터넷을 청소했습니다. 이제 데이터를 다른 곳에서 가져와야 합니다.”라고 Posada는 Rest of World에 말했습니다. "이것은 4chan에서 얻을 수 있는 임의의 데이터가 아니라 실제로 전문 지식을 갖춘 사람이 구축한 데이터가 필요하다는 것을 의미할 수 있습니다."

MIT(매사추세츠 공과대학)의 인공 지능 및 의사 결정 조교수인 Dylan Hadfield-Mennell에 따르면 생성 AI 시스템이 저자원 언어에서 왜 그렇게 나쁜지에 대한 몇 가지 일반적인 설명이 있습니다.

“한 가지 [이론]은 좋은 모델을 구축하기에 감독되지 않은 데이터가 충분하지 않다는 것입니다. 예를 들어 벵골어의 언어 패턴이 있습니다.” Hadfield-Mennell은 Rest of World와의 인터뷰에서 이와 같은 언어가 인터넷에 얼마나 적게 표현되는지 지적했습니다. 벵골어를 모국어로 사용하는 사람은 2억 7천만 명으로 전 세계 인구의 거의 3%에 달하지만 전체 웹 도메인 중 0.013%만이 벵골어를 사용합니다.

Scale AI의 채용 설명에 설명된 한 가지 작업은 이 문제를 해결하려는 것일 수 있습니다. 바로 단편 소설을 작성하는 것입니다. 데이터 작업자에게 벵골어와 같은 언어로 특정 주제에 대한 창의적인 글을 작성하도록 요청하는 것은 기존 인터넷 도메인에 얽매이지 않는 새로운 디지털 텍스트 본문을 구축하는 방법입니다.

Posada에 따르면 대부분 증오심 표현이 없고 개발자가 완전히 소유한 이러한 독창적인 스토리를 사용하면 콘텐츠 조정의 필요성을 줄이는 추가 이점을 얻을 수 있다고 합니다. 또한 New York Times가 OpenAI에 대해 고려 중인 소송과 같이 잠재적으로 비용이 많이 드는 소송을 피하는 데 도움이 될 수도 있습니다.

새로운 데이터를 생성하는 것이 하나의 솔루션이지만 다른 전략도 작용하고 있다는 것은 분명합니다. 채용 공고의 또 다른 작업은 작가에게 "AI 모델에 의해 생성된 일련의 응답 순위를 지정"하도록 요청합니다.

Hadfield-Mennell에게 이는 RLHF, 즉 "인간 피드백을 통한 강화 학습"의 명확한 예입니다. RLHF는 입력만 변경하는 것이 아니라 모델의 출력을 개선하는 데 초점을 맞춘 기술입니다. 이는 모델이 저자원 언어로 어려움을 겪는 이유에 대한 또 다른 일반적인 이론을 다룹니다. “또 다른 가능성은 [저자원] 언어로 글을 잘 쓰는 방법에 대한 피드백을 근본적으로 놓치고 있다는 것입니다.”라고 그는 말했습니다.