AMAZINGINDEX.COM 每日 AI 简报
52.6
VOL. 2026.06
2026.06.04
← 返回 2026.06.04 日报
日报快照 · Daily Snapshot
NO. 015

Cloudflare 揭示全球流量真相

#ARTICLE HackerNews 2026.06.04
值得看指数 55.0 NO. 015 · 2026.06.04
发布2026/06/03Score116Comments55
查看原文 →

Cloudflare Radar 数据显示全球互联网流量中机器人请求占比持续攀升,部分时段已超过人类流量。这对依赖真实用户行为做产品决策的 AI 应用开发者意味着数据源污染风险正在加剧。

HN 评论区的高赞讨论指向一个被低估的连锁反应:大模型训练数据越来越依赖 Common Crawl 等网络抓取源,而机器人流量膨胀意味着这些语料本身正在被其他 AI 生成的内容污染。这不是未来问题,GPT-4 训练截止后的网页数据质量下滑已有实证研究支持。

做预训练数据清洗的团队需要把 bot 识别前置到采集环节,而不是事后过滤。Cloudflare 这套分类体系本身可以作为特征工程参考,但注意它的 bot 定义偏广义(包括合法爬虫),需要结合内容质量模型做二次筛分。

负面 56 条评论

核心争论:机器人流量是否已长期超过人类,以及数据准确性与CAPTCHA失效问题

vaylian

Given how many rounds of captchas I have to fight through, I'm not sure if these numbers are accurate.

elaus

You have to fight, for some bots it might not be a real fight anymore...

layer8

Captchas are part of the traffic. ;)