표절 탐지 서비스, 오류율 4∼9%로 신뢰성 낮아
미국 대학들이 인공지능(AI) 챗봇을 악용한 표절을 방지하기 위해 쓰고 있는 표절 탐지 서비스의 오류율이 높아 실제로는 사람이 직접 쓴 것인데도 표절물이라고 잘못 판정하는 경우가 잦다는 지적이 나온다.
표절했다는 누명을 쓰고 억울한 일을 당할까 봐 대학생들이 과제 작성 전 과정을 영상으로 기록하는 방식으로 자신이 직접 썼다는 증거를 남겨놓는 경우도 늘고 있다.
미국 일간 뉴욕타임스(NYT)는 18일자(현지시간) 지면에 휴스턴-다운타운 대학교 전산학과 학생 리 버럴(23)이 당한 사연을 소개했다.
그는 2학년 초에 가슴이 덜컥 내려앉는 통보를 받았다.
버럴은 작문 과목 최종 성적의 15%를 차지하는 자기소개서 작성 과제에서 교수로부터 'AI 챗봇 표절로 판정됐다'는 통보를 받고 0점 처리를 당했다.
그는 실제로는 AI 챗봇에 과제를 맡긴 적이 없고, 이틀에 걸쳐 직접 글을 썼다.
하지만 학교 측이 표절 여부 판정을 위해 사용하는 '터니틴'(Turnitin) 서비스는 버럴의 글을 AI가 생성한 것으로 판정했다.
다행히도 구글 독스에는 버럴이 글을 작성하고 다듬는 과정들이 단계별, 시간별로 상세히 남아 있었으며, 그는 이런 증거자료를 15페이지짜리 PDF 파일로 만들어 영문학과 학과장에게 보내 누명을 벗고 0점 처리를 취소시킬 수 있었다.
다음번 작문 과목 과제물을 제출할 때 버럴은 자신의 글쓰기 과정 전체에 시간대를 표시해 고속으로 보여주는 93분짜리 유튜브 영상을 제작해 업로드했다.
짜증이 나는 일이긴 했지만 안심하려면 그렇게 해야만 했다고 그는 설명했다.
작년에 실시된 퓨리서치 조사에 따르면 미국의 10대 청소년 중 26%는 학교 과제에 챗GPT를 이용한 적이 있다고 답했다. 이는 그 전 해인 2023년 대비 갑절이다.
AI를 악용한 과제물 표절이나 온라인시험 부정행위가 최근 수년간 급증하면서 학교들은 이를 적발하겠다며 표절 탐지 서비스를 이용하고 있다.
하지만 이런 서비스들의 신뢰성이 높지 않아서 문제다.
메릴랜드대가 최근 12개 AI 표절 탐지 서비스의 정확도를 조사한 결과, 실제로는 인간이 쓴 글을 AI가 생성했다고 잘못 판정하는 비율이 평균 6.8%에 이르렀다.
이 분석 대상에 포함되지 않은 터니틴은 2023년에 자사 서비스의 이런 오류율이 약 4%였다고 발표했다.
오픈AI도 이런 탐지 프로그램을 내놓은 적이 있으나, 정확도가 낮다고 판단하고 6개월 만인 2023년 7월 없애버렸다.
폐지 전 오픈AI의 탐지 프로그램은 AI가 쓴 글을 'AI가 썼을 가능성 높음'으로 판정하는 '진양성'(true positives) 비율이 26%, 인간이 쓴 글을 AI가 썼다고 판정하는 '위양성' 비율이 9%였다.
뉴욕주립 버팔로대에서는 AI 표절 탐지 서비스의 사용을 중단토록 대학 당국에 촉구하는 청원에 1천여명이 서명했다.
서비스의 신뢰성이 낮아 억울한 피해자들이 다수 나오고 있다는 이유에서다.
버팔로대 당국은 이런 청원을 받아들일 뜻이 없다고 밝혔으나, 버클리 캘리포니아대, 밴더빌트대, 조지타운대 등은 신뢰성 문제를 거론하며 터니틴의 AI 표절 탐지 기능을 사용하지 않기로 결정했다.
(서울=연합뉴스) 임화섭 기자 solatido@yna.co.kr