GitHub Copilot에 대해 제기된 저작권 침해 소송 분석
Ⅰ 서론
2022년 11월, Butterick을 중심으로 한 오픈소스 개발자들이 ‘Copilot’의 개발∙운영에 관여한 회사들을 상대로 집단 소송을 제기했다. Copilot 서비스를 출시한 GitHub, GitHub를 인수한 MS, 코파일럿의 개발에 참여한 Open AI가 소송의 대상이 되었다. Copilot은 사용자가 일부 코드를 입력하면 나머지 코드를 자동 완성해주는 AI 서비스인데, Copilot이 오픈소스 저작자 및 최종 사용자에 대한 법적 의무를 위반했다는 것이다.
6월 현재, 소송은 여전히 시작 단계에 있다. 관련 판례가 없기 때문에, 어떤 판결이 나올지도 불확실하다. 판결에 따라 생성형 AI(이하 “GAI”)의 미래가 달라지므로, 해당 소송은 매우 중요하다. 본 보고서는 해당 소송의 ‘지식재산권 관련’ 쟁점, 이에 대한 양 당사자의 주장, 그리고 소송 결과가 GAI의 미래에 미칠 영향에 대해 정리하고자 한다.
Ⅱ 지식재산권 관련 쟁점
오픈소스 코드들은, 각 자료가 제시한 라이센스를 지킨다는 전제 하에 무료로 이용할 수 있다. Copilot은 해당 코드들을 수십억 줄 학습했으나, 라이센스에서 요구한 사항(저작권 고지나 출처 기재 등)들을 지키지 않았다. 이에 대해 원고인 오픈소스 개발자 측은, Copilot이 오픈소스 라이센스를 위반함으로써 본인들의 저작물을 무단 사용했고, 이로 인해 저작권이 침해됐다고 주장한다. 반면 피고인 Copilot 측은, GAI의 훈련 과정에서 공개 데이터를 사용하는 것은 저작권법 상 예외를 허용하는 ‘공정 이용’에 해당된다고 주장한다. 따라서, 지식재산권과 관련된 쟁점은 다음과 같다. 좁게는 ‘Copilot이 오픈소스 개발자들의 저작권을 침해한 것인가’가, 넓게는 ‘GAI를 훈련시키고자 공개 데이터를 이용하는 것이 공정 이용의 범위에 해당되는가’가 쟁점이 된다.
Ⅲ 양 당사자의 주장
원고인 오픈소스 개발자 측은, 다음과 같이 주장한다. 첫째, Copilot은 오픈소스 라이센스를 위반했고, 이로 인해 본인들의 저작권이 침해되었다. 각 오픈소스 코드마다 라이센스가 다르지만, 대부분의 라이센스는 원작자, 저작권 고지, 라이센스 내용 등을 기재할 것을 요구한다. 그러나 Copilot의 출력값에는 이 내용이 기재되지 않으니, 대부분의 라이센스가 위반된 것이다. Copilot이 해당 코드들을 무단 이용해, 해당 코드들의 저작권이 침해됐다고도 할 수 있다. 둘째, Copilot의 오픈소스 코드 이용은 공정 이용으로 볼 수 없다. 개발자들이 코드를 오픈소스로 무료 공개하는 이유는, 타 개발자를 돕기 위해서이다. 그런데 Copilot은 무료 오픈소스 코드로 훈련한 후 유료 서비스로 운영돼 수익을 얻으므로, 공정 이용이 아니다. 오히려 오픈소스 운동의 근본 취지를 훼손하는 부당한 행위다. 그렇다고 해당 행위가 공정 이용이라는 주장을 뒷받침할 판례가 있는 것도 아니다. 따라서 공정 이용이라고 할 수 없다.
반면 피고인 Copilot 측은, 다음과 같이 주장한다. 오픈소스와 같은 공개 데이터를 이용한 AI 학습 훈련은 공정 이용에 해당하므로, 라이센스 예외 적용을 받을 수 있다. 누구나 쓸 수 있는 공개 코드를 이용한 학습 행위였으며, 출력값(생성 코드)이 훈련 데이터(공개 코드)와 99% 이상 불일치한다. 따라서 공정 이용의 법리에 충분히 부합하며, 저작권 침해 문제가 없다. 또한, 저작권법의 취지가 ‘창의적 표현을 장려하고 보편적인 경제적 혁신을 달성하기 위함’인 것을 고려했을 때, Copilot의 학습은 오히려 해당 목적의 달성에 도움이 된다.
Ⅳ GAI의 개발과 발전에 미칠 영향 및 예상되는 관련 리스크
공정 이용이 아니라는 판결이 나면, Copilot을 포함한 대부분의 GAI가 저작권 위반 리스크를 지게 된다. Copilot처럼 공개 데이터를 대량 훈련하는 방식이 일반적이기 때문이다. 타 GAI 회사들도 저작권 소송에 휘말릴 것이고, GAI의 상용화는 제동이 걸릴 것이다. ‘블로그∙카페 글을 AI 훈련에 이용할 수 있다’는 약관을 준비한 네이버의 사례에서 보이듯, 정보 공급처가 있는 개발사들은 대안 모색이 가능하나, 소형 개발사들은 저작권자들의 협상에서 어려움을 겪을 것이다. 다만 데이터의 거래가 활발해지면서, 새 시장이나 서비스의 등장 계기가 될 수도 있다. GAI의 사용자들도 저작권 위반 리스크를 지게 된다. GAI는 출처를 출력값에 포함하지 않기 때문이다. 저작권에 문제가 있는 결과가 출력되어도 사용자는 알 수 없으므로, 저작권 위반 리스크를 같이 지게 된다. 특히 출력값을 ‘제안’으로 칭하고 이에 대한 책임을 지지 않을 경우, 사용자가 선제적인 주의를 기울여야 한다. 오픈소스 개발자를 포함한 데이터 저작권자들은, 저작권에 대한 수익을 추구할 것인지 정해야 한다. 수익화를 결심했다면, 저작권을 등록해 분쟁 리스크를 줄여야 한다. 또한 기능적이거나 아이디어와 결합된 표현은 저작권의 보호를 받지 못함을 유념해야 한다.
공정 이용이 맞다는 판결이 나면, GAI는 큰 리스크가 사라지므로 상용화에 박차를 가하게 된다. 타인의 코드, 이미지, 데이터를 제약 없이 학습할 수 있기 때문이다. 다만, ‘공개 데이터’의 활용이 아니면 판결이 달라질 수 있다. 공정 이용의 판단 요소에는 이용목적(변형적 이용 여부), 저작물 특성, 이용량, 경제적 영향 등이 있기 때문이다. 모든 상황에서 공정 이용이 인정된 것은 아니니 주의해야 한다. GAI 사용자들은 여전히 리스크가 존재한다. GAI 개발이 공정 이용이라 해서, 사용자도 공정 이용이지는 않기 때문이다. 출력값을 검토하지 않고 그대로 사용하면 저작권을 위반하게 될 수 있다. 오픈소스 개발자를 포함한 데이터 저작권자들은, 저작물이 존중되지 못할 위기에 놓인다. 저작권을 등록하고, AI 학습을 금한다는 의사 표시를 하고, 공개된 위치에 저작물을 공유하지 않는 것이 최선이다.