为什么 AI 仍然无法像你一样写作
尽管 AI 模型在物理、生物、化学等领域展现出博士级别的知识,Anthropic 甚至声称其 Opus 4.5 模型"基本解决了编程问题",但 AI 写作仍然容易被识别出来。
典型 AI 写作特征:
- "It's not an idea. It's a breakthrough."(套路化表达)
- "Delve"(过度使用的词汇)
- 三项列表且不使用"and"
1. 潜意识决策定义写作风格
风格计量学(Stylometry)的历史
- 19世纪:风格计量学家讨论莎士比亚是否真的写了那些戏剧
- 1960年代:仅凭"upon"这个词的使用,分离出汉密尔顿在《联邦党人文集》中的贡献
- 2020年代:LLM 引入了研究风格的新方法
Cornell 大学研究:功能性特征最具识别性
研究方法: 系统性地操纵文本片段,每次移除一个属性(如专有名词或大写),测量对 LLM 作者归属准确性的影响。
关键发现:
- 移除停用词(stop words)会导致模型更频繁地错误归属作者
- 停用词:常见的功能性词汇,如冠词("a"、"the")或代词("I"、"she")
- 这些词通常在文本分析中被过滤掉,因为它们不传达太多意义
核心洞察:
停用词和词序是写作风格最独特的标记
这些纯功能性的写作方面主要反映潜意识决策。当我们写作时,我们专注于选择有意义的词,潜意识倾向于填充其余部分。但潜意识对句子的贡献方式是独特的。
2. 大多数人的写作极不一致
Bucknell 大学研究:风格模仿的保真度
研究问题:"LLM 能多好地模仿人类写作风格?"
关键发现:
- 仅几个写作样本就能将风格保真度提高约 23 倍
- 少量示例就能产生很大效果
困惑度(Perplexity)分数揭示人机差异
概念解释:
- 困惑度分数衡量语言变异性
- 词汇选择和句子结构的多样性和不可预测性越高,困惑度越高
研究发现:
平均而言,人类写作的变异性是机器的两倍
- 人类写作更加不一致和不可预测
- 这种不一致性恰恰是人类写作的特征
3. 写作风格随时间剧烈变化
LLM 的时间漂移问题
LLM 的本质: LLM 只是一串数字。与 ChatGPT 或 Claude 交互时,你在"对话"的是一组静态数字文件——人类语言的时间点快照。
语言演化速度: 由于社交媒体和超连接性,我们的词汇演化速度比以往任何时候都快。
如果训练在我们开始说"skibidi"之前就结束了,模型有什么用?
Virginia Tech 研究:量化时间漂移
研究发现:
- GPT-2 和 GPT-3 的说话方式在发布一年后落后一般词汇约 15%
- 两年后落后约 28%
LLM 反过来改变语言
讽刺现象: LLM 本身正在改变语言,包括学术研究。
ChatGPT 发布后的论文包含显著更多的"AI 腔":
- "underscore"(强调)
- "highlight"(突出)
- "showcase"(展示)
"Delve"是最大的罪魁祸首:在 2022 年至 2024 年间,论文中的使用量飙升了 2000% 以上
4. 关键外部研究
Cornell 大学研究
链接:https://arxiv.org/pdf/2502.03647 核心发现:停用词和功能性特征是识别作者的最可靠指标
Bucknell 大学研究
链接:https://arxiv.org/pdf/2509.24930 核心发现:人类写作的变异性是机器的两倍
Ted Chiang 的经典比喻
链接:https://www.newyorker.com/tech/annals-of-technology/chatgpt-is-a-blurry-jpeg-of-the-web 核心观点:"ChatGPT 是网络的模糊 JPEG"——一个近似人类洞察但永远无法准确命中的工具
立即可应用的方法
1. 利用停用词和功能词识别 AI 生成内容
具体步骤:
- 分析停用词模式:检查文章、代词、连词的使用模式
- 检查困惑度:使用 NLP 工具计算文本的困惑度分数
- 识别 AI 腔标志词:"delve"、"underscore"、"highlight"、三项列表且不使用"and"
2. 构建个人写作风格档案
具体步骤:
- 收集写作样本:从博客、通讯、社交媒体收集历史写作
- 提取关键标识符:识别常用的停用词模式、典型短语
- 创建风格指南:文档化写作特征
- 应用到 AI 工具:使用 Spiral 等工具导入风格
3. 设计风格保真度测试流程
具体步骤:
- 建立基准:选择 5-10 篇亲自写的文章
- 生成 AI 草稿:使用 AI 工具生成相同主题的草稿
- 对比分析:比较停用词模式、困惑度差异
- 迭代改进:根据差异调整风格指南
4. 应对 LLM 时间漂移的策略
具体步骤:
- 定期更新风格样本:每季度添加新的写作样本
- 关注语言演化:跟踪新词汇和表达
- 使用最新模型:优先选择训练截止日期较近的模型
- 人工审核和调整:AI 生成内容后必须人工审核
启发性创意
Idea 1:潜意识写作特征是最难模仿的
核心洞察:
- 我们写作时专注于有意义的词汇选择
- 潜意识填充停用词、冠词、代词
- 这些"无意识"的选择恰恰最能体现个人风格
- AI 很难模仿这种潜意识的独特性
Idea 2:人类写作的"不一致性"是特征而非缺陷
核心洞察:
人类写作的变异性是机器的两倍
- 我们在不同时间、不同情境下写作风格会变化
- 这种"不一致"恰恰是人性的体现
- AI 的一致性反而暴露了其机器本质
哲学思考: 完美的一致性是机器的特征,不完美的变异性是人类的特征。在 AI 时代,"不完美"成为价值。
Idea 3:LLM 正在创造新的"AI 方言"
核心洞察:
- "Delve"在学术论文中的使用量 2 年内增长 2000%
- LLM 不仅被语言训练,也在训练语言
- 正在形成一种新的"AI 方言"
Idea 4:写作风格的时间漂移需要持续校准
核心洞察:
- LLM 在发布一年后落后词汇 15%,两年后 28%
- 语言演化速度比以往更快
- 静态的风格模型会迅速过时
- 需要动态的、持续更新的风格系统
关键数据
| 指标 | 数值 |
|---|---|
| 风格保真度提升 | 少量样本可提高 23 倍 |
| 人类写作变异性 | 是机器的 2 倍 |
| LLM 一年后落后 | 15% |
| LLM 两年后落后 | 28% |
| "Delve"使用量增长 | 2000%+(2年内) |
总结
这篇文章深入探讨了 AI 写作的本质局限:
- 潜意识决策是风格的核心:停用词和功能词的使用模式最能体现个人风格
- 人类的不一致性是特征:变异性是人性的体现,而非缺陷
- 语言在快速演化:LLM 面临时间漂移问题,同时也在创造新的"AI 方言"
- 风格模仿需要持续更新:静态模型会迅速过时
最重要的启示:
- AI 写作工具的未来在于更好地理解和模仿人类的潜意识写作习惯
- 但完全消除人机差距可能永远不可能
- 关键是找到人机协作的最佳平衡点
行动建议:
- 建立个人写作风格档案,包括停用词模式
- 定期更新风格样本以反映演化
- 开发风格保真度测试流程
- 关注"AI 方言"的渗透,保持写作的人性化