科技
AI 模型训练数据污染现象引发关注:GPT-4o 中文词元分析揭示灰色内容影响
作者: yiming
分享:
AI 模型训练数据污染现象引发关注:GPT-4o 中文词元分析揭示灰色内容影响
AI 模型中文训练数据污染问题引发关注
一项由清华大学、蚂蚁集团和南洋理工大学联合开展的研究指出,当前主流的大语言模型(LLM)在训练过程中存在不同程度的中文数据污染现象。这些污染词元(Polluted Chinese Tokens,简称 PoC Tokens)主要来源于色情、网络赌博等灰色内容。
研究团队通过分析 GPT-4o 的词汇库,发现超过 23% 的长中文词元(包含两个以上汉字)与色情或网络赌博相关。其中包括「波多野结衣」、「大快三」、「传奇服」、「青*草」等词汇。这些词元因在训练数据中出现频率较高,被算法自动识别并固化为模型的基本构成单位。
研究人员进一步指出,尽管部分模型在训练过程中进行了清洗和对齐处理,但由于污染词元缺乏正常语义上下文,导致模型在面对这些词元时容易出现幻觉或生成不相关的内容。
研究团队开发了两个工具:POCDETECT 和 POCTRACE,用于检测和追踪污染词元。POCDETECT 可以分析上下文并识别潜在的污染内容;POCTRACE 则可以通过词元 ID 反推其出现频率。
测试结果显示,GPT-4o 的长中文词元污染率为 46.6%,显著高于其他模型。相比之下,Qwen 系列为 1.00%,GLM4 和 DeepSeek-V3 分别为 0.25% 和 0.17%。
研究还发现,「波多野结衣」这一词组及其子序列在 GPT-4o 的词汇库中被单独收录,其出现频率约为「您好」的 2.6 倍。这一现象反映了中文互联网环境中某些特定内容的高频出现对 AI 训练数据造成的深远影响。