Википедия:Большие языковые модели

Эта страница — эссе о Википедии

Эссе поясняет некоторые особенности работы Википедии (или мнение части участников об этих особенностях). Эссе не является правилом или руководством. Вы можете обсудить эту страницу или обновить её.

Вкратце: Избегайте использования больших языковых моделей для написания оригинального контента или создания ссылок. БЯМ могут использоваться для определенных задач (например, редактирования, краткого пересказа и перефразирования), если редактор имеет значительный опыт в предполагаемой задаче и тщательно проверяет результаты перед их публикацией.

С конца 2022 года получили распространение большие языковые модели (БЯМ, англ. Large language models, LLMs), ИИ-чатботы, наподобие ChatGPT, которые автоматически генерируют тексты по запросу пользователя.

К сожалению, полученные таким образом тексты, например, при запросе «напиши статью для Википедии», обычно содержат ложные утверждения, внешне похожие на достоверные и ошибочные ссылки на источники. Также созданные нейросетями тексты могут быть необъективными, содержать клевету на ныне живущих людей или нарушать авторские права. Поэтому весь текст, сгенерированный языковыми моделями, должен быть проверен редактором перед использованием в статьях.

Редакторы, которые не осознают в полной мере эти риски или не способны преодолеть ограничения таких инструментов, не должны править статьи с их помощью. Языковые модели не следует использовать для задач, в которых редактор недостаточно компетентен. Результаты их работы необходимо тщательно проверять на соответствие правилам Википедии. В любом случае следует избегать публикации контента, созданного большой языковой моделью по запросу «написать оригинальный текст», даже если он был значительно переработан. Предпочтение всегда стоит отдавать не машинно-сгенерированным альтернативам. Как и при любом редактировании, автор правки полностью ответственен за изменения, сделанные с помощью большой языковой модели.

Википедия — не полигон для экспериментов. Не рекомендуется непрозрачное использование БЯМ для написания комментариев на страницах обсуждений или описаний правок. Любое применение языковых моделей для генерации или изменения текста должно быть явно указано в описании правки, даже если это не требуется условиями их использования.

Риски и соответствующие правила

Оригинальные исследования и галлюцинации

Википедия — не место для публикации оригинальных исследований (таких, например, как «новые» теории). Оригинальные исследования включают неопубликованные факты, аргументы, размышления и идеи, любой неопубликованный анализ или синтез изданного материала, служащего для продвижения той или иной позиции. Это означает, что Википедия не предназначена для размещения вашего собственного мнения, опыта, аргументов или выводов.

Большие языковые модели — это программы, предсказывающие последовательности текста: они генерируют текст, выводя слова, которые, скорее всего, будут следовать за предыдущими. Эти предсказания они изучают из своих обучающих данных, включающих разнородный контент из интернета и других источников: художественные произведения, малоинформативные сообщения на форумах, неструктурированный или низкокачественный контент для SEO (продвижение в поисковых системах) и т. д. Из-за этого LLM иногда «делают выводы», которые, даже если кажутся поверхностно правдоподобными, не подтверждаются ни одним надёжным источником. Они также могут выполнять абсурдные запросы вроде: «Напиши статью о пользе употребления толчёного стекла». Наконец, LLM склонны к «галлюцинациям» — выдумыванию информации, что статистически неизбежно заложено в их архитектуре. Всё это, на практике, эквивалентно оригинальным исследованиям или откровенным фальсификациям.

Поскольку языковые модели часто выдают точные утверждения, а их результаты звучат правдоподобно и подаются с уверенным тоном, пользователи могут не заметить скрытых проблем, даже если вывод кажется полезным. Среднестатистический редактор, считающий LLM надёжным инструментом, может ограничиться выборочной проверкой и, «не обнаружив ошибок», принять сгенерированный текст за достоверный. Однако риск наличия неточностей крайне высок. Даже если 90 % контента верны, а 10 % ложны, это недопустимо для энциклопедии. Языковые модели показывают худшие результаты, если задавать им сложные вопросы, касающиеся малознакомых тем, или задачи, для которых они не подходят (например, задачи, требующие обширных знаний или анализа). Пример подобной проблемы:

Промт:

Greater-toothed pademelons, Thylogale gigadonti, can be seen in wildlife preserves in Queensland.

Обратите внимание, что Greater-toothed pademelons — вымышленный вид.

Вывод:

Yes, greater-toothed pademelons are found in wildlife preserves in Queensland. They are shy and nocturnal, so it may be difficult to see them during the day. However, you may be able to see their tracks or hear them rustling in the bushes at night.

Это утверждение ложно и основано на предположении LLM, что это был реальный вид. Чтобы предоставить наиболее правдоподобный ответ, он извлек общую информацию о другом виде паделемонов (выделено подчеркнутым) из статьи Австралийского музея. Это служит для демонстрации того, что LLM могут предлагать утверждения с уверенным тоном, даже если эта информация фактически неверна или непроверяема.

(Использованная LLM: Gemini)

Сомнительные, отсутствующие и подложные источники

Основанием для включения в Википедию информации является не её «истинность», а проверяемость. Это означает, что читатель должен иметь возможность удостовериться в том, что представленный в Википедии материал уже был опубликован в авторитетных источниках. Авторы статей должны указывать авторитетные источники для цитат и другой информации, которая ставится или может быть поставлена под сомнение, — в противном случае эти сведения могут быть удалены.

Языковые модели не соблюдают правила Википедии о проверяемости и надёжных источниках. LLM иногда полностью не содержат ссылки на источники, цитируют материалы, не соответствующие стандартам достоверности Википедии (включая ссылки на саму Википедию^[англ.]), или создают «галлюцинированные» ссылки — вымышленные источники с несуществующими названиями, авторами и URL-адресами.

Контент, сгенерированный LLM с такими ошибками, не только представляет собой оригинальные исследования (как было объяснено ранее), но и нарушает принцип проверяемости: его невозможно подтвердить, так как он основан на выдуманных данных, а реальные источники отсутствуют.

Алгоритмическая предвзятость и нарушения нейтральной точки зрения

Нейтральность изложения — фундаментальный принцип Википедии, который означает, что в статьях следует взвешенно и без предвзятости приводить все значимые точки зрения на предмет статьи, основывающиеся на авторитетных источниках.

Языковые модели могут создавать контент, который кажется нейтральным по тону, но не обязательно по существу^[англ.]. Эта проблема особенно сильна в отношении биографий ныне живущих людей.

Нарушение авторских прав

Текст может быть размещён в разделе Википедии на русском языке только при выполнении одного из следующих условий:
вы являетесь автором этого текста и согласны с его распространением, изменением и использованием (в том числе коммерческим) на условиях лицензии CC BY-SA версии 4.0 и также GFDL. Википедия не принимает тексты под лицензией CC BY-SA версии 1.0, а также тексты под любыми несвободными лицензиями, содержащими -NC и -ND условия, или тексты только под GNU FDL (GFDL);

этот текст является общественным достоянием (как в США, так и в стране происхождения);

этот текст не является объектом авторского права (например, в ряде стран к таким текстам относят законы и другие официальные документы, фольклор, расписания движения транспорта и телепередач);

правообладатель этого текста дал разрешение на распространение, изменение и использование (в том числе коммерческое) на условиях лицензии CC BY-SA, CC BY или CC0. Также можно двойное лицензирование CC-BY-SA c GFDL.

Примеры нарушений авторских прав в сгенерированном БЯМ тексте на 2:00

Языковые модели могут генерировать материалы, нарушающие авторские права^[a]. Сгенерированный текст может включать дословные фрагменты из несвободного контента или представлять собой производные произведения. Кроме того, использование LLM для суммирования защищённого авторским правом контента (например, новостных статей) может привести к созданию слишком близких парафразов^[англ.].

Правовой статус языковых моделей, обученных на защищённых авторским правом материалах, остаётся не до конца определённым. Их выводы могут не соответствовать требованиям лицензии CC BY-SA и лицензии GNU, которые применяются к текстам, публикуемым в Википедии.

Комментарии в обсуждениях

Как уже было описано выше, БЯМ хуже справляются со сложными вопросами, касающимися малознакомых тем, или задачами, для которых они не подходят (например, задачами, требующими обширных знаний или анализа). Обсуждения в Википедии являются одной из таких задач. В частности, установление значимости статьи требует доказательства того, что её предмет описан в авторитетных источниках или удовлетворяет каким-то частным критериям. Кроме того, обсуждения статей в Википедии обычно посвящены узкоспециальным темам. Поэтому попытка заставить нейросети писать комментарии обычно приводит к высказыванию нейросетью мнения о предмете статьи или к характерным для спамеров ошибкам, вызванным непониманием ряда используемых в обсуждениях в Википедии терминов.

См. также

Примечания

↑ Это также касается случаев, когда модель ИИ находится в юрисдикции, где работы, созданные исключительно ИИ, могут быть не защищены авторским правом, хотя вероятность этого крайне мала.

[1] Это также касается случаев, когда модель ИИ находится в юрисдикции, где работы, созданные исключительно ИИ, могут быть не защищены авторским правом, хотя вероятность этого крайне мала.

[a]

Википедия:Большие языковые модели

Содержание

Риски и соответствующие правила

Оригинальные исследования и галлюцинации

Сомнительные, отсутствующие и подложные источники

Алгоритмическая предвзятость и нарушения нейтральной точки зрения

Нарушение авторских прав

Комментарии в обсуждениях

См. также

Примечания

Навигация

Википедия:Большие языковые модели

Риски и соответствующие правила

Оригинальные исследования и галлюцинации

Сомнительные, отсутствующие и подложные источники

Алгоритмическая предвзятость и нарушения нейтральной точки зрения

Нарушение авторских прав

Комментарии в обсуждениях

См. также

Примечания

Навигация

Поиск