본문으로 이동

위키미디어 프로젝트의 인공지능

위키백과, 우리 모두의 백과사전.
G15 기준에 따라 빠른 삭제 대상으로 지정된 AI 생성 초안 문서

인공지능위키미디어 프로젝트의 발전을 위해 사용된다.[1]

위키백과의 다양한 문서는 전부 또는 부분적으로 인공지능의 도움을 받아 생성되었다. AI가 생성한 내용은 신뢰할 수 없거나 가짜 출처를 포함할 경우 위키백과에 해로울 수 있다.

저품질 AI 생성 콘텐츠 문제를 해결하기 위해 위키백과 공동체는 2023년에 위키프로젝트AI 정리를 만들었다. 2025년 8월, 위키백과는 AI가 생성한 것으로 의심되는 문서를 빠른 삭제 대상으로 지정할 수 있도록 하는 정책을 채택했다.

위키백과에 인공지능 활용

[편집]

ORES

[편집]

객관적 문서 개정 평가 서비스(ORES) 프로젝트는 위키백과 편집의 품질을 평가하는 인공지능 서비스이다.[2][3] 위키미디어 재단은 2015년 11월에 ORES 프로젝트를 발표했다.[4]

위키 봇

[편집]

문서 훼손 대처에 가장 유명한 봇은 ClueBot NG이다. 이 봇은 2010년 위키백과 사용자 Christopher Breneman (한국어: 크리스토퍼 브렌만) 과 Cobi Carter (한국어: 코비 카터) 가 만들었다.(오리지널 ClubBot에 이어서 개발된 것으로, NG는 차세대/Next Generation를 의미함)[5] 기계 학습베이즈 통계학을 사용하여 편집의 문서 훼손 여부를 검출해 낸다.[6][7]

편향 감소

[편집]

2018년 8월, 프라이머라는 회사는 위키백과의 젠더 편향 문제를 해결하기 위해 여성에 대한 위키백과 문서를 생성하는 데 인공지능을 사용했다고 보고했다.[8][9]

생성형 AI의 시작

[편집]

2022년, 챗GPT의 공개 출시는 AI와 위키백과 문서 작성에 대한 더 많은 실험을 촉발했다. 이러한 대형 언어 모델이 그럴듯한 오정보를 생성하는 경향, 즉 가짜 출처를 포함하고, 백과사전적이지 않은 문체를 생성하며, 편향을 재현하는 경향이 있다는 점을 고려할 때, 이러한 목적에 적합한지 여부와 정도에 대한 논쟁이 촉발되었다.[10][11] 2023년부터 ChatGPT 및 유사한 대형 언어 모델(LLM)에 대한 위키백과 정책 초안 작성 작업이 진행되었는데, 예를 들어, 위에서 언급한 위험뿐만 아니라 명예 훼손 또는 저작권 침해의 가능성을 들어, LLM에 익숙하지 않은 사용자는 LLM 사용을 피하도록 권고하는 내용이 포함되었다.[11]

2022년 12월 6일, 파로스라는 위키백과 기여자는 자신의 연습장에 "Artwork title" 문서를 만들고, ChatGPT를 사용하여 실험했으며 광범위하게 수정할 것이라고 밝혔다. 다른 편집자는 이 문서가 처음에 출처가 없는 AI 생성 콘텐츠였고 나중에 출처가 추가되었다고 주장하며, "독자 연구"로 태그를 지정했다. 이 초기 버전의 ChatGPT로 실험한 다른 편집자는 ChatGPT의 주제 개요는 괜찮았지만, 인용문이 조작되었다고 말했다.[12] 위키교육재단은 일부 숙련된 편집자들이 AI가 초안 작성이나 새 문서 생성에 유용하다고 생각했다고 보고했다. 재단은 ChatGPT가 위키백과 문서가 어떻게 생겼는지 "알고" 있으며 위키백과 스타일로 작성된 문서를 쉽게 생성할 수 있지만, ChatGPT가 홍보성 언어를 사용하는 경향이 있다고 경고했다.[13] 스페인 출신의 전 위키미디어 회원 미겔 가르시아는 ChatGPT가 처음 출시되었을 때 사이트의 AI 생성 문서 수가 최고조에 달했다고 말했다. 그는 현재는 커뮤니티의 노력으로 AI 문서 생성률이 안정화되었다고 덧붙였다. 그는 출처가 없는 대부분의 문서는 즉시 삭제되거나 삭제 대상으로 지정된다고 말했다.[14]

2023년, 위키백과 공동체는 위키백과에서 저품질 AI 콘텐츠를 제거하는 데 도움을 주기 위해 위키프로젝트AI 정리를 만들었다. 2024년 10월, 프린스턴 대학교의 연구에 따르면 영어 위키백과에 새로 생성된 문서 3,000개(2024년 8월 생성) 중 약 5%가 AI를 사용하여 생성되었다고 밝혀졌다. 이 연구는 일부 AI 문서가 무해한 주제에 관한 것이었고 AI가 문서 작성에만 사용되었을 가능성이 있다고 말했다. 다른 일부 문서에서는 AI가 사업이나 정치적 이익을 홍보하는 데 사용되었다.[15][16]

2025년 8월, 위키백과 공동체는 AI가 생성한 것으로 의심되는 문서를 빠른 삭제 대상으로 지정할 수 있도록 하는 정책을 만들었다. 편집자들은 AI가 생성한 문서가 문서 주제와 관련 없는 인용문을 사용하거나 조작된 인용문을 사용하기 때문에 이를 인식한다. 문서의 문구도 AI 저작물을 인식하는 데 사용된다. 예를 들어, 문서가 "여기에 귀하의 위키백과 문서가 있습니다" 또는 "마지막 학습 업데이트까지"와 같이 사용자에게 LLM 응답처럼 읽히는 언어를 사용하는 경우, 해당 문서는 일반적으로 빠른 삭제 태그가 지정된다.[15][17] AI 사용의 다른 징후로는 em 대시의 과도한 사용, "게다가(moreover)"라는 단어의 과도한 사용, 무언가를 "숨 막히는" 것으로 묘사하는 홍보성 자료, 그리고 직선 따옴표 대신 곱슬 따옴표를 사용하는 것과 같은 서식 문제가 있다. 빠른 삭제 정책 구현에 대한 논의 중에 한 문서 검토자는 AI를 사용하여 생성된 "끔찍한 초안으로 끊임없이 넘쳐난다"고 말했다. 다른 사용자들은 AI 문서에 "거짓말과 가짜 참고 문헌"이 많고 문제를 해결하는 데 상당한 시간이 걸린다고 말했다.[18][19]

위키프로젝트 AI 정리의 설립자 일리야스 레블뢰는 자신과 동료 편집자들이 챗GPT와 연결될 수 있는 부자연스러운 글쓰기 패턴을 발견했다고 말했다. 그들은 AI가 완전히 가짜이면서도 실제처럼 들리는 콘텐츠를 대량 생산할 수 있어, 위키백과에 삭제해야 할 날조 문서가 생성된다고 덧붙였다.[20][21] 위키백과는 "AI 글쓰기 징후"라는 제목으로 AI가 생성한 글쓰기 징후를 식별하는 방법에 대한 가이드를 만들었다.[22]

날조와 악의적인 AI 사용

[편집]

2023년, 연구원들은 챗GPT가 사용자에게 정보를 자주 조작하고 가짜 문서를 만든다는 것을 발견했다. 당시 AI 금지는 공동체에 의해 "너무 가혹하다"고 여겨졌다.[23][24] AI는 위키백과에 다양한 날조 문서를 생성하는 데 의도적으로 사용되었다. 예를 들어, 일리야스 레블뢰와 그의 팀은 존재하지 않는 오스만 요새에 대한 2,000단어 분량의 심층 문서를 발견했다.[25][26] 또 다른 예에서는 사용자가 딱정벌레 종인 Estola albosignata에 대한 문서에 AI가 생성한 오정보를 추가했다. 해당 문단은 평범해 보였지만 관련 없는 문서를 참조했다.[27]

AI는 위키백과의 논란이 있는 주제 지침에 따라 다루어지는 문서에서 특정 정치적 견해를 옹호하는 데 위키백과에서 사용되었다. 한 사례에서는 차단된 편집자가 AI를 사용하여 편집 분쟁에 참여하고 알바니아 역사 관련 문서를 조작했다. 다른 사례로는 사용자가 정치 운동이나 무기에 대한 문서를 생성했지만, 콘텐츠의 대부분을 다른 주제에 할애하는 경우가 있었는데, 예를 들어 JD 밴스볼로디미르 젤렌스키를 의도적으로 언급하는 식이었다.[28][더 나은 출처 필요]

간단한 문서 요약

[편집]

2025년, 위키미디어는 구글 검색AI 개요와 유사하게 위키백과 문서의 AI 생성 요약을 제공하는 "간단한 문서 요약" 기능을 테스트하기 시작했다. 이 결정은 위키백과 편집자들로부터 즉각적이고 혹독한 비판을 받았는데, 그들은 이 기능을 "끔찍한 아이디어"이자 "PR 과대 광고"라고 불렀다. 그들은 AI의 환각 경향으로 인해 사이트에 대한 신뢰가 상실될 것이라고 비판했으며 기능의 필요성에 의문을 제기했다.[29] 부정적인 비판으로 인해 위키미디어는 간단한 문서 요약 출시를 중단했지만, 생성형 AI가 위키백과에 어떻게 통합될 수 있는지에 여전히 관심을 가지고 있음을 시사했다.[30]

인공지능을 위한 위키백과 활용

[편집]
위키백과의 데이터셋은 AI 모델 훈련에 널리 사용된다.[31][더 나은 출처 필요]

온라인 포럼에서 유해한 댓글을 식별하는 구글의 Perspective API 개발에는 수십만 개의 위키백과 토론 페이지 댓글과 사람이 라벨링한 유해성 수준을 포함하는 데이터셋이 사용되었다.[32] 위키백과 코퍼스의 하위 집합은 AI 훈련에 사용할 수 있는 가장 큰 잘 선별된 데이터셋으로 간주된다.[33]

2012년 논문에 따르면 인공지능을 사용하는 논문을 포함하여 1,000편 이상의 학술 논문이 위키백과를 조사하고, 위키백과에서 정보를 재사용하며, 위키백과와 연결된 기술 확장 기능을 사용하거나, 위키백과에 대한 커뮤니케이션을 연구한다고 보고되었다.[34] 2017년 논문은 위키백과를 기계 학습에 사용할 수 있는 인간이 생성한 텍스트의 보고로 묘사했다.[35]

2016년 "인공지능 백년 연구"라는 연구 프로젝트는 위키백과를 인공지능 응용 프로그램과 인간 참여 간의 상호 작용을 이해하기 위한 핵심 초기 프로젝트로 선정했다.[36]

챗GPT와 같은 대형 언어 모델에서 위키백과 문서에 대한 저작자 표시가 부족하다는 우려가 있다.[33][37] 위키백과의 라이선스 정책은 누구나 수정된 형태를 포함하여 텍스트를 사용할 수 있도록 허용하지만, 출처를 명시해야 한다는 조건이 있다. 이는 AI 모델이 출처를 명확히 밝히지 않고 답변에 콘텐츠를 사용하는 것이 사용 약관을 위반할 수 있음을 의미한다.[33]

다른 위키미디어 프로젝트에 인공지능 활용

[편집]

Detox는 구글이 위키미디어 재단과 협력하여 위키미디어 공동체 토론에서 사용자들이 불친절한 댓글을 게시하는 문제를 해결하는 데 사용될 수 있는 방법을 연구하기 위한 프로젝트였다.[38] Detox 프로젝트의 다른 부분 중에서 위키미디어 재단과 직소는 인공지능을 사용하여 기초 연구를 수행하고 문제를 해결하기 위한 기술적 솔루션을 개발하는 데 협력했다. 2016년 10월, 이들 조직은 그들의 발견을 설명하는 "Ex Machina: Personal Attacks Seen at Scale"을 출판했다.[39][40] 다양한 인기 미디어 매체는 이 논문의 출판을 보도하고 연구의 사회적 맥락을 설명했다.[41][42][43] DeepL과 같은 기계 번역 소프트웨어는 기여자들에 의해 사용된다.[44][45][46]

반응

[편집]

2023년 11월, 위키백과 공동 설립자 지미 웨일스는 AI는 신뢰할 수 있는 출처가 아니며 챗GPT를 사용하여 위키백과 문서를 작성할 의도가 없다고 말했다. 2025년 7월, 그는 초안이 거부될 때 맞춤형 기본 피드백을 제공하기 위해 LLM을 사용할 것을 제안했다.[47]

위키미디어 재단의 제품 디렉터 마셜 밀러는 위키프로젝트 AI 정리가 사이트 콘텐츠를 중립적이고 신뢰할 수 있게 유지하며, AI가 저품질 콘텐츠 생성을 가능하게 한다고 말했다. 404 미디어와의 인터뷰에서 일리야스 레블뢰는 빠른 삭제를 더 심각한 AI 사용 사례에 대한 "밴드에이드"라고 묘사하며, AI 사용의 더 큰 문제는 계속될 것이라고 말했다. 그들은 또한 일부 AI 문서가 삭제되기 전에 일주일 동안 논의된다고 말했다.[48]

같이 보기

[편집]

각주

[편집]
  1. Gertner, Jon (2023년 7월 18일). “Wikipedia's Moment of Truth - Can the online encyclopedia help teach A.I. chatbots to get their facts right — without destroying itself in the process? + comment”. 《The New York Times》. 2023년 7월 18일에 원본 문서에서 보존된 문서. 2023년 7월 19일에 확인함. 
  2. Simonite, Tom (2015년 12월 1일). “Software That Can Spot Rookie Mistakes Could Make Wikipedia More Welcoming” (영어). 《MIT Technology Review》. 
  3. Metz, Cade (2015년 12월 1일). “Wikipedia Deploys AI to Expand Its Ranks of Human Editors”. 《Wired》. 2024년 4월 2일에 원본 문서에서 보존된 문서. 
  4. Halfaker, Aaron; Taraborelli, Dario (2015년 11월 30일). “Artificial intelligence service "ORES" gives Wikipedians X-ray specs to see through bad edits”. 《Wikimedia Foundation》. 
  5. “This machine kills trolls”. 《The Verge》. 2014년 2월 18일. 2017년 4월 11일에 확인함. 
  6. Nasaw, Daniel (2012년 7월 25일). “Meet the 'bots' that edit Wikipedia”. 《BBC News》. 
  7. Raja, Sumit. “Little about the bot that runs Wikipedia, ClueBot NG”. 《digitfreak.com》. 2013년 11월 22일에 원본 문서에서 보존된 문서. 2017년 4월 11일에 확인함. 
  8. Simonite, Tom (2018년 8월 3일). “Using Artificial Intelligence to Fix Wikipedia's Gender Problem”. 《Wired》. 
  9. Verger, Rob (2018년 8월 7일). “Artificial intelligence can now help write Wikipedia pages for overlooked scientists” (영어). 《Popular Science》. 
  10. Harrison, Stephen (2023년 1월 12일). “Should ChatGPT Be Used to Write Wikipedia Articles?” (영어). 《Slate Magazine》. 2023년 1월 13일에 확인함. 
  11. Woodcock, Claire (2023년 5월 2일). “AI Is Tearing Wikipedia Apart” (영어). 《Vice》. 
  12. Harrison, Stephen (2023년 1월 12일). “Should ChatGPT Be Used to Write Wikipedia Articles?”. 《Slate Magazine》. 
  13. Ross, Sage (2023년 2월 21일). “ChatGPT, Wikipedia, and student writing assignments”. 《Wiki Education Foundation》. 
  14. Bejerano, Pablo G. (2024년 8월 10일). “How Wikipedia is surviving in the age of ChatGPT” (미국 영어). 《엘 파이스》. 
  15. Wu, Daniel (2025년 8월 8일). “Volunteers fight to keep 'AI slop' off Wikipedia” (미국 영어). 《워싱턴 포스트》. ISSN 0190-8286. 
  16. Stokel-Walker, Chris (2024년 11월 1일). “One in 20 new Wikipedia pages seem to be written with the help of AI” (미국 영어). 《뉴 사이언티스트》. 
  17. Maiberg, Emanuel (2025년 8월 5일). “Wikipedia Editors Adopt 'Speedy Deletion' Policy for AI Slop Articles” (영어). 《404 미디어》. 
  18. Roth, Emma (2025년 8월 8일). “How Wikipedia is fighting AI slop content” (미국 영어). 《더 버지》. 2025년 8월 10일에 원본 문서에서 보존된 문서. 
  19. Gills, Drew (2025년 8월 8일). “Read this: How Wikipedia identifies and removes AI slop” (미국 영어). 《AV 클럽》. 
  20. Maiberg ·, Emanuel (2024년 10월 9일). “The Editors Protecting Wikipedia from AI Hoaxes” (영어). 《404 미디어》. 
  21. Lomas, Natasha (2024년 10월 11일). “How AI-generated content is upping the workload for Wikipedia editors” (미국 영어). 《테크크런치》. 
  22. Clair, Grant (2025년 8월 20일). “Wikipedia publishes list of AI writing tells” (미국 영어). 《보잉 보잉》. 
  23. Woodrock, Claire (2023년 5월 2일). “AI Is Tearing Wikipedia Apart”. 《바이스 미디어 그룹》. 2024년 10월 4일에 원본 문서에서 보존된 문서. 
  24. Harrison, Stephen (2023년 8월 24일). “Wikipedia Will Survive A.I.”. 《슬레이트 매거진》. 
  25. Durpe, Maggie (2024년 10월 10일). “Wikipedia Declares War on AI Slop”. 《퓨처리즘》. 
  26. Funaki, Kaiyo (2024년 10월 25일). “Wikipedia editors form urgent task force to combat rampant issues with recent wave of content: 'The entire thing was ... [a] hoax'. 《TCD》. 
  27. Nine, Adrianna (2024년 10월 9일). “People Are Stuffing Wikipedia with AI-Generated Garbage” (영어). 《익스트림테크》. 
  28. Brooks, Creston; Eggert, Samuel; Peskoff, Dennis (2024년 10월 7일). “The Rise of AI-Generated Content in Wikipedia” (영어). 《ArXiv》. 
  29. Whitwam, Ryan (2025년 6월 11일). "Yuck": Wikipedia pauses AI summaries after editor revolt”. 《Ars Technica》. 
  30. Wiggers, Kyle (2025년 6월 11일). “Wikipedia pauses AI-generated summaries pilot after editors protest”. 
  31. Villalobos, Pablo; Ho, Anson; Sevilla, Jaime; Besiroglu, Tamay; Heim, Lennart; Hobbhahn, Marius (2022). “Will we run out of data? Limits of LLM scaling based on human-generated data”. arXiv:2211.04325 [cs.LG]. 
  32. “Google's comment-ranking system will be a hit with the alt-right”. 《Engadget》. 2017년 9월 1일. 
  33. “Wikipedia's Moment of Truth”. 《New York Times》. 2023년 7월 18일. 2024년 11월 29일에 확인함. 
  34. Nielsen, Finn Årup (2012). 《Wikipedia Research and Tools: Review and Comments》 (영어). 《SSRN Working Paper Series》. doi:10.2139/ssrn.2129874. ISSN 1556-5068. 
  35. Mehdi, Mohamad; Okoli, Chitu; Mesgari, Mostafa; Nielsen, Finn Årup; Lanamäki, Arto (March 2017). 《Excavating the mother lode of human-generated text: A systematic review of research that uses the wikipedia corpus》. 《Information Processing & Management》 53. 505–529쪽. doi:10.1016/j.ipm.2016.07.003. S2CID 217265814. 
  36. “AI Research Trends - One Hundred Year Study on Artificial Intelligence (AI100)” (영어). 《ai100.stanford.edu》. 
  37. “Wikipedia Built the Internet's Brain. Now Its Leaders Want Credit.”. 《Observer》. 2025년 3월 28일. 2025년 4월 2일에 확인함. Attributions, however, remain a sticking point. Citations not only give credit but also help Wikipedia attract new editors and donors. " If our content is getting sucked into an LLM without attribution or links, that's a real problem for us in the short term,” 
  38. 《Research:Detox - Meta》 (영어). 
  39. Wulczyn, Ellery; Thain, Nithum; Dixon, Lucas (2017). 〈Ex Machina: Personal Attacks Seen at Scale〉. 《Proceedings of the 26th International Conference on World Wide Web》. 1391–1399쪽. arXiv:1610.08914. doi:10.1145/3038912.3052591. ISBN 9781450349130. S2CID 6060248. 
  40. Jigsaw (2017년 2월 7일). “Algorithms And Insults: Scaling Up Our Understanding Of Harassment On Wikipedia”. 《Medium》. 
  41. Wakabayashi, Daisuke (2017년 2월 23일). “Google Cousin Develops Technology to Flag Toxic Online Comments” (영어). 《The New York Times》. 
  42. Smellie, Sarah (2017년 2월 17일). “Inside Wikipedia's Attempt to Use Artificial Intelligence to Combat Harassment” (미국 영어). 《Motherboard》. 바이스 미디어 그룹. 
  43. Gershgorn, Dave (2017년 2월 27일). “Alphabet's hate-fighting AI doesn't understand hate yet”. 《Quartz》. 
  44. Costa-jussà, Marta R.; Cross, James; Çelebi, Onur; Elbayad, Maha; Heafield, Kenneth; Heffernan, Kevin; Kalbassi, Elahe; Lam, Janice; Licht, Daniel; Maillard, Jean; Sun, Anna; Wang, Skyler; Wenzek, Guillaume; Youngblood, Al; Akula, Bapi; Barrault, Loic; Gonzalez, Gabriel Mejia; Hansanti, Prangthip; Hoffman, John; Jarrett, Semarley; Sadagopan, Kaushik Ram; Rowe, Dirk; Spruit, Shannon; Tran, Chau; Andrews, Pierre; Ayan, Necip Fazil; Bhosale, Shruti; Edunov, Sergey; Fan, Angela; Gao, Cynthia; Goswami, Vedanuj; Guzmán, Francisco; Koehn, Philipp; Mourachko, Alexandre; Ropers, Christophe; Saleem, Safiyyah; Schwenk, Holger; Wang, Jeff (June 2024). 《Scaling neural machine translation to 200 languages》 (영어). 《Nature》 630. 841–846쪽. Bibcode:2024Natur.630..841N. doi:10.1038/s41586-024-07335-x. ISSN 1476-4687. PMC 11208141 |pmc= 값 확인 필요 (도움말). PMID 38839963. 
  45. “Wikipedia's Moment of Truth”. 《New York Times》. 2023년 7월 18일. 2024년 11월 29일에 확인함. 
  46. Mamadouh, Virginie (2020). 〈Wikipedia: Mirror, Microcosm, and Motor of Global Linguistic Diversity〉 (영어). 《Handbook of the Changing World Language Map》. Springer International Publishing. 3773–3799쪽. doi:10.1007/978-3-030-02438-3_200. ISBN 978-3-030-02438-3. Some versions have expanded dramatically using machine translation through the work of bots or web robots generating articles by translating them automatically from the other Wikipedias, often the English Wikipedia. […] In any event, the English Wikipedia is different from the others because it clearly serves a global audience, while other versions serve more localized audience, even if the Portuguese, Spanish, and French Wikipedias also serves a public spread across different continents 
  47. Maiberg, Emanuel (2025년 8월 21일). “Jimmy Wales Says Wikipedia Could Use AI. Editors Call It the 'Antithesis of Wikipedia'. 《404 Media》. 
  48. Crider, Michael (2025년 8월 6일). “Wikipedia goes to war against AI slop articles with new deletion policy” (영어). 《PC 월드》. 

외부 링크

[편집]