Back/writing

为什么 AI 仍然无法像你一样写作

Updated 2026-04-12
2 min read
389 words

为什么 AI 仍然无法像你一样写作

尽管 AI 模型在物理、生物、化学等领域展现出博士级别的知识,Anthropic 甚至声称其 Opus 4.5 模型"基本解决了编程问题",但 AI 写作仍然容易被识别出来

典型 AI 写作特征:

  • "It's not an idea. It's a breakthrough."(套路化表达)
  • "Delve"(过度使用的词汇)
  • 三项列表且不使用"and"

1. 潜意识决策定义写作风格

风格计量学(Stylometry)的历史

  • 19世纪:风格计量学家讨论莎士比亚是否真的写了那些戏剧
  • 1960年代:仅凭"upon"这个词的使用,分离出汉密尔顿在《联邦党人文集》中的贡献
  • 2020年代:LLM 引入了研究风格的新方法

Cornell 大学研究:功能性特征最具识别性

研究方法: 系统性地操纵文本片段,每次移除一个属性(如专有名词或大写),测量对 LLM 作者归属准确性的影响。

关键发现

  • 移除停用词(stop words)会导致模型更频繁地错误归属作者
  • 停用词:常见的功能性词汇,如冠词("a"、"the")或代词("I"、"she")
  • 这些词通常在文本分析中被过滤掉,因为它们不传达太多意义

核心洞察

停用词和词序是写作风格最独特的标记

这些纯功能性的写作方面主要反映潜意识决策。当我们写作时,我们专注于选择有意义的词,潜意识倾向于填充其余部分。但潜意识对句子的贡献方式是独特的。


2. 大多数人的写作极不一致

Bucknell 大学研究:风格模仿的保真度

研究问题:"LLM 能多好地模仿人类写作风格?"

关键发现

  • 仅几个写作样本就能将风格保真度提高约 23 倍
  • 少量示例就能产生很大效果

困惑度(Perplexity)分数揭示人机差异

概念解释

  • 困惑度分数衡量语言变异性
  • 词汇选择和句子结构的多样性和不可预测性越高,困惑度越高

研究发现

平均而言,人类写作的变异性是机器的两倍

  • 人类写作更加不一致和不可预测
  • 这种不一致性恰恰是人类写作的特征

3. 写作风格随时间剧烈变化

LLM 的时间漂移问题

LLM 的本质: LLM 只是一串数字。与 ChatGPT 或 Claude 交互时,你在"对话"的是一组静态数字文件——人类语言的时间点快照。

语言演化速度: 由于社交媒体和超连接性,我们的词汇演化速度比以往任何时候都快。

如果训练在我们开始说"skibidi"之前就结束了,模型有什么用?

Virginia Tech 研究:量化时间漂移

研究发现

  • GPT-2 和 GPT-3 的说话方式在发布一年后落后一般词汇约 15%
  • 两年后落后约 28%

LLM 反过来改变语言

讽刺现象: LLM 本身正在改变语言,包括学术研究。

ChatGPT 发布后的论文包含显著更多的"AI 腔":

  • "underscore"(强调)
  • "highlight"(突出)
  • "showcase"(展示)

"Delve"是最大的罪魁祸首:在 2022 年至 2024 年间,论文中的使用量飙升了 2000% 以上


4. 关键外部研究

Cornell 大学研究

链接https://arxiv.org/pdf/2502.03647 核心发现:停用词和功能性特征是识别作者的最可靠指标

Bucknell 大学研究

链接https://arxiv.org/pdf/2509.24930 核心发现:人类写作的变异性是机器的两倍

Ted Chiang 的经典比喻

链接https://www.newyorker.com/tech/annals-of-technology/chatgpt-is-a-blurry-jpeg-of-the-web 核心观点:"ChatGPT 是网络的模糊 JPEG"——一个近似人类洞察但永远无法准确命中的工具


立即可应用的方法

1. 利用停用词和功能词识别 AI 生成内容

具体步骤

  1. 分析停用词模式:检查文章、代词、连词的使用模式
  2. 检查困惑度:使用 NLP 工具计算文本的困惑度分数
  3. 识别 AI 腔标志词:"delve"、"underscore"、"highlight"、三项列表且不使用"and"

2. 构建个人写作风格档案

具体步骤

  1. 收集写作样本:从博客、通讯、社交媒体收集历史写作
  2. 提取关键标识符:识别常用的停用词模式、典型短语
  3. 创建风格指南:文档化写作特征
  4. 应用到 AI 工具:使用 Spiral 等工具导入风格

3. 设计风格保真度测试流程

具体步骤

  1. 建立基准:选择 5-10 篇亲自写的文章
  2. 生成 AI 草稿:使用 AI 工具生成相同主题的草稿
  3. 对比分析:比较停用词模式、困惑度差异
  4. 迭代改进:根据差异调整风格指南

4. 应对 LLM 时间漂移的策略

具体步骤

  1. 定期更新风格样本:每季度添加新的写作样本
  2. 关注语言演化:跟踪新词汇和表达
  3. 使用最新模型:优先选择训练截止日期较近的模型
  4. 人工审核和调整:AI 生成内容后必须人工审核

启发性创意

Idea 1:潜意识写作特征是最难模仿的

核心洞察

  • 我们写作时专注于有意义的词汇选择
  • 潜意识填充停用词、冠词、代词
  • 这些"无意识"的选择恰恰最能体现个人风格
  • AI 很难模仿这种潜意识的独特性

Idea 2:人类写作的"不一致性"是特征而非缺陷

核心洞察

人类写作的变异性是机器的两倍

  • 我们在不同时间、不同情境下写作风格会变化
  • 这种"不一致"恰恰是人性的体现
  • AI 的一致性反而暴露了其机器本质

哲学思考: 完美的一致性是机器的特征,不完美的变异性是人类的特征。在 AI 时代,"不完美"成为价值。

Idea 3:LLM 正在创造新的"AI 方言"

核心洞察

  • "Delve"在学术论文中的使用量 2 年内增长 2000%
  • LLM 不仅被语言训练,也在训练语言
  • 正在形成一种新的"AI 方言"

Idea 4:写作风格的时间漂移需要持续校准

核心洞察

  • LLM 在发布一年后落后词汇 15%,两年后 28%
  • 语言演化速度比以往更快
  • 静态的风格模型会迅速过时
  • 需要动态的、持续更新的风格系统

关键数据

指标 数值
风格保真度提升 少量样本可提高 23 倍
人类写作变异性 是机器的 2 倍
LLM 一年后落后 15%
LLM 两年后落后 28%
"Delve"使用量增长 2000%+(2年内)

总结

这篇文章深入探讨了 AI 写作的本质局限:

  1. 潜意识决策是风格的核心:停用词和功能词的使用模式最能体现个人风格
  2. 人类的不一致性是特征:变异性是人性的体现,而非缺陷
  3. 语言在快速演化:LLM 面临时间漂移问题,同时也在创造新的"AI 方言"
  4. 风格模仿需要持续更新:静态模型会迅速过时

最重要的启示

  • AI 写作工具的未来在于更好地理解和模仿人类的潜意识写作习惯
  • 但完全消除人机差距可能永远不可能
  • 关键是找到人机协作的最佳平衡点

行动建议

  1. 建立个人写作风格档案,包括停用词模式
  2. 定期更新风格样本以反映演化
  3. 开发风格保真度测试流程
  4. 关注"AI 方言"的渗透,保持写作的人性化

Sources

Linked from