banner
뉴스 센터
탁월한 고객 서비스

AI 기업들은 데이터 스크래핑에 대한 책임을 져야 한다

Jul 14, 2023

안녕하세요, Eye on AI에 오신 것을 환영합니다. 지난 주 전 세계 12개 데이터 보호 감시 단체가 모여 데이터 스크래핑과 그것이 개인 정보 보호에 미치는 영향을 다루는 공동 성명을 발표했습니다.

호주, 캐나다, 멕시코, 중국, 스위스, 콜롬비아, 아르헨티나, 영국의 개인 정보 보호 담당자가 서명한 이 성명서는 웹 사이트 운영자, 특히 소셜 미디어 회사를 대상으로 하며 데이터 보호에 따른 의무가 있음을 명시합니다. 불법적인 데이터 스크랩으로부터 플랫폼의 정보를 보호하기 위한 개인정보 보호법. 공개적으로 접근 가능한 개인 정보에도 대부분의 관할권에서 이러한 법률이 적용된다고 성명서는 주장합니다. 특히, 이 성명서는 개인 정보를 수집하는 데이터 스크래핑 사건이 많은 관할권에서 보고 가능한 데이터 침해로 간주될 수 있다는 점을 간략하게 설명합니다.

저자는 성명서를 게시하는 것 외에도 Alphabet(YouTube), ByteDance(TikTok), Meta(Instagram, Facebook 및 Threads), Microsoft(LinkedIn), Sina Corp(Weibo) 및 X Corp에 직접 성명을 보냈다고 밝혔습니다. (X, 이전 트위터). 또한 스크래핑 활동을 모니터링하고 대응할 팀을 지정하는 것을 포함하여 데이터 스크래핑과 관련된 피해로부터 사용자를 보호하기 위해 이러한 회사가 마련해야 하는 일련의 제어 기능을 제안합니다.

설명된 잠재적 피해에는 사이버 공격, 신원 사기, 감시, 무단 정치 또는 정보 수집, 원치 않는 마케팅 및 스팸이 포함됩니다. 그러나 인공 지능은 성명서에서 한 번도 언급되지 않았지만 점점 이 문제의 주요 발화점이 되고 있습니다.

소셜 미디어 사이트의 정보를 포함하여 인터넷을 스크랩하는 것은 OpenAI, Meta, Google과 같은 AI 강국이 모델 교육을 위해 많은 데이터를 얻은 방법과 정확히 같습니다. 그리고 지난 몇 주 동안 데이터 스크래핑이 새로운 AI 환경의 주요 전쟁터로 떠올랐습니다. 예를 들어, New York Times는 이번 달 초 AI가 콘텐츠를 스크랩하는 것을 방지하기 위해 서비스 약관을 업데이트했으며 현재 출판사는 이 문제에 대해 OpenAI를 고소하는 방안을 모색하고 있습니다. 이는 OpenAI와 투자자인 Microsoft가 지난 6월에 제기한 집단소송에 이은 것입니다. 이 소송은 OpenAI가 통지, 동의 또는 정당한 보상 없이 인터넷에서 수억 명의 사용자의 개인정보를 비밀리에 삭제했다고 주장합니다.

강력한 문구의 편지는 이러한 거대 기술 기업이 하는 일에 영향을 미칠 가능성이 거의 없지만 데이터 스크래핑에 대한 소송 및 규정은 영향을 미칠 수 있습니다. 예를 들어, 데이터 프라이버시와 현재 AI 규제가 상당히 빠르게 진행되고 있는 EU에서는 데이터 스크래핑이 정부 기관에 의해 점점 더 면밀히 조사되고 있습니다.

AI의 핵심은 데이터입니다. 따라서 다음과 같은 질문이 제기됩니다. 기업이 데이터를 자유롭게 스크랩할 수 없다면 모델 교육에 필요한 데이터를 어디서 얻을 수 있을까요?

한 가지 옵션은 실제 사건에 의해 생성된 정보가 아닌 인위적으로 생성된 정보를 나타내는 합성 데이터입니다. 항상 그런 것은 아니지만 이 프로세스에는 종종 AI 자체를 사용하여 소규모 실제 데이터 세트에서 대규모 합성 데이터 세트를 생성하는 작업이 포함되며, 결과 합성 데이터는 실제 데이터의 통계적 속성을 반영합니다.

원본 데이터가 긁히지 않는 한 이는 실행 가능한 솔루션이 될 수 있습니다. Gartner는 2030년까지 합성 데이터가 AI 모델에서 실제 데이터를 능가할 것으로 추정합니다. 그러나 합성 데이터에는 단점도 있습니다. 예를 들어, 이상값을 놓치고, 부정확성을 도입할 수 있으며, 이상적으로는 프로세스 속도를 늦추는 추가 확인 단계가 포함될 수 있습니다. 일부 회사는 합성 데이터가 편향을 제거한다고 주장하지만 많은 전문가는 이를 반박하고 일부 형태의 합성 데이터가 실제로 데이터 세트에 추가 편향을 도입할 수 있는 방법을 확인합니다.

또 다른 잠재적인 솔루션은 사전 동의된 자사 데이터입니다. 실제 데이터가 역사적으로 스크랩되고, 허가 없이 사용되었으며, 심지어 하위 사용자로부터 매진되었던 방식과 달리, 이는 자발적으로 선택되고 제공되는 실제 데이터입니다.