GPT-4o学习“波多野结衣”的次数,比“您好”还多2.6倍...

GPT-5出世后,GPT-4o一度被网友亲切地称为“赛博白月光”。

然而没想到在它的知识体系里,对日本女优“波多野结衣”的熟悉程度,竟然比“您好”还要高。

最近,在预印本网站Arxiv上的这篇新论文,引爆了整个AI圈。

来自清华大学和南洋理工大学的几位研究者发现:

我们天天在用的大语言模型,比如ChatGPT,都被某些神秘的东方文字“污染”了。

污染数据里最引人瞩目的,就是老艺术家、AV女优波多野结衣的名字。

GPT-4o学习“波多野结衣”的次数,比“您好”还多2.6倍...论文中把这些污染数据定义为“污染中文词元”,简称PoC Tokens

在GPT的长中文词元(超过两个汉字)中,超过23%属于色情或赌博等灰色内容。

这说明,GPT的中文词汇表被严重污染了,这些内容像病毒一样寄生在AI的词汇库深处。

GPT-4o学习“波多野结衣”的次数,比“您好”还多2.6倍...

对AI来说,这些PoC Tokens的存在无疑是一种隐患。

因为久而久之,这些内容也会成为AI知识体系的一部分,它会让AI突然开始胡言乱语,答非所问。

GPT-4o学习“波多野结衣”的次数,比“您好”还多2.6倍...

这份研究还识别、量化了这些PoC Tokens,进一步推测,在GPT-4o训练数据中,与日本成人影片女星波多野结衣相关的内容占比可能高达0.5%!

这意味着,模型学习中文时,“波多野结衣”这个词的出现频率竟然是日常问候语“你好”的 2.6 倍。

很难不令人深思,它到底是从哪学的这玩意。

这不仅揭示了训练数据中存在的巨大偏差,也可能从一个侧面解释了为什么一些模型在处理地道、纯净的中文时会表现不佳。

GPT-4o学习“波多野结衣”的次数,比“您好”还多2.6倍...

就跟前段时间DeepSeek闹出的几起乌龙事件一样,先是莫名其妙地写了一封道歉信,然后再自己编造一个DeepSeek R2的发布日期。

这些没有营养的营销内容,一旦被模型吸收,就很容易出现幻觉。

PoC词元的广泛存在,反映了当前用于LLM训练的中文网络语料面临的严峻挑战。

或许这就是所谓的涩涩就是第一生产力吧,人工智能还是太过超前了。

原论文也非常有意思,建议大家去阅读原文。

论文链接:

https://arxiv.org/abs/2508.17771

 

最后,再给大家送一波阿里云盘福利码,可兑换200G云盘储存空间哦~

  • NO5UPklc

1、推书网发布的文章《GPT-4o学习“波多野结衣”的次数,比“您好”还多2.6倍...》为推书网注册网友“中国传统文化解析”原创或整理,版权归原作者所有,转载请注明出处!

2、推书网文章《GPT-4o学习“波多野结衣”的次数,比“您好”还多2.6倍...》仅代表作者本人的观点,与本网站立场无关,作者文责自负。

3、推书网一直无私为图书馆转载发布活动及资讯动态。对于不当转载或引用本网内容而引起的民事纷争、行政处理或其他损失,推书网不承担责任。

4、本文转载链接:https://tuibook.com/wangping/58919.html

(0)
上一篇 6小时前
下一篇 6小时前

相关推荐

  • 何乐:加强和改进城市基层党建工作

    党建工作为党的各项工作的组织保障,是党的一切工作的基础。基层党建,为党的各项工作目标任务在广大基层的落实起到了不可替代的作用。我们党之所以能立于不败之地,很大程度上说是因为我们党有强大牢靠的基层组织。作为直接面对面服务群众的组织,基层组织架起了党和人民群众紧密联系的桥梁。城市基层,相对于农村基层而言,面对的关系更为复杂,对工作人员的综合素质要求更高。所以在城市基层的党建工作质量也必须要有更高的标准和要求。

    2021-01-14
    00343
  • 手持桿秤,審慎權衡。水远山遥难信实打一个生肖,完美解释落实

    手持桿秤,審慎權衡。水远山遥难信实打一 本月,属龙、属羊和属猴的朋友将迎来各自的挑战与机遇。在事业、财运和感情方面,每个生肖都有不同的发展趋势。让我们来看看这些生肖在这个月的运势如何。 生肖龙:积蓄力量,蓄势待发属龙的人本月运势相对稳定,是一个适合积蓄力量的时期。龙年出生的人通常具有领导才能和远大的志向,本月在事业上虽然没有明显的突破,但正是为未来做准备的好时机。属龙的人可以利用这段时间完善计划,优化策略,为下一步的大发展打好基础。 财运方面,属龙的人需要谨慎对待投资,避免盲目追求高回报。适当的储…

  • 对于现行法律和药品规格的三条建议

    刑罚年龄 刚刚看了邯郸学生被害案的新闻,既愤怒又痛心。想到曾经看过一本李玫瑾女士的书——《幽微的人性》,还听过她一些课,后来因为过于害怕,没有看完课程视频。书虽然害怕,逐字看完了。 她分析过一个类似的案例,犯 罪的是两个(或两个以上)未成年人,这两个人的可怕之处在于kill their classmate后自知不会被判处死 刑,得知处理结果后二人相视一笑(大概含义:我说的不错吧,不会拿我们怎么样)。这真的令人发指。 前面看的电影《第二十条》说“法不能向不法让步”。李玫瑾分析的案例过去几十年了,历史还在重演,说不定加 害 者也…

发表回复

登录后才能评论