OpenAI致力解决数据燃眉之急实施爬虫限制面临公众质疑

由于数据、算力、算法是生成式AI的三个核心要素，OpenAI等明星公司通常能够轻松应对算力问题，但数据稀缺却成为他们的一大难题。近日，OpenAI承认推出了名为GPTBot的网络爬虫机器人，用于收集数据用于大模型训练，引发争议。尽管OpenAI表示机器人会遵守规则，仅收集非付费和匿名的信息，并与美联社合作购买训练数据，但公众对于数据隐私的关注仍未消除。

OpenAI的爬虫机器人被指埋伏于网络中，长时间搜集个人的在线数据，这一指控令公众倍感担忧。不过，OpenAI坚称并未收集包含个人身份的数据，并通过提供修改robots.txt文件及屏蔽IP地址的方法，让用户能够拒绝爬虫机器人的访问。此外，OpenAI与美联社达成协议，以购买AI训练数据所需的内容，努力构建合规的数据获取方式。

然而，尽管OpenAI一再表明其对数据隐私问题的重视，但公众对其信任度却大打折扣。尼尔·克拉克等人质疑OpenAI不尊重作者和创意人士的权利，认为其产品大多基于受版权保护的作品。尼尔·克拉克举例称Common Crawl组织运营的CCBot爬虫机器人至今未有删除数据的成功案例。他还质疑OpenAI愿意为大公司付费购买数据，却不愿意为其他人的信息付费。

与大公司的纠纷中，普通人往往处于弱势地位。如何平衡个人隐私保护和技术创新，并找到企业的最优道路已经成为生成式AI事业面临的挑战。由于数据安全隐患，大模型往往需要借助分布式计算和云服务等技术进行训练和部署。然而，OpenAI等公司要确保合规的数据获取并非易事。

通过限制爬虫机器人的行为，OpenAI试图解决数据获取的难题，但公众对此举仍然存疑。在处理版权问题时，OpenAI也面临多方状告的困扰。随着生成式AI技术的迭代，类似纠纷势必会增加，而大公司往往成为众矢之的。因此，让数据获取合规成为一项重要任务，对于致力于生成式AI事业的公司来说，是一场规避道义危机的考验。（财联社）