Cloudflare 揭示全球流量真相
为什么值得看
Cloudflare Radar 数据显示全球互联网流量中机器人请求占比持续攀升,部分时段已超过人类流量。这对依赖真实用户行为做产品决策的 AI 应用开发者意味着数据源污染风险正在加剧。
编辑判断
HN 评论区的高赞讨论指向一个被低估的连锁反应:大模型训练数据越来越依赖 Common Crawl 等网络抓取源,而机器人流量膨胀意味着这些语料本身正在被其他 AI 生成的内容污染。这不是未来问题,GPT-4 训练截止后的网页数据质量下滑已有实证研究支持。
做预训练数据清洗的团队需要把 bot 识别前置到采集环节,而不是事后过滤。Cloudflare 这套分类体系本身可以作为特征工程参考,但注意它的 bot 定义偏广义(包括合法爬虫),需要结合内容质量模型做二次筛分。
社区反馈
负面 56 条评论
核心争论:机器人流量是否已长期超过人类,以及数据准确性与CAPTCHA失效问题
Given how many rounds of captchas I have to fight through, I'm not sure if these numbers are accurate.
You have to fight, for some bots it might not be a real fight anymore...
Captchas are part of the traffic. ;)