由于数据、算力、算法是生成式AI的三个核心要素,OpenAI等明星公司通常能够轻松应对算力问题,但数据稀缺却成为他们的一大难题。近日,OpenAI承认推出了名为GPTBot的网络爬虫机器人,用于收集数据用于大模型训练,引发争议。尽管OpenAI表示机器人会遵守规则,仅收集非付费和匿名的信息,并与美联社合作购买训练数据,但公众对于数据隐私的关注仍未消除。
OpenAI的爬虫机器人被指埋伏于网络中,长时间搜集个人的在线数据,这一指控令公众倍感担忧。不过,OpenAI坚称并未收集包含个人身份的数据,并通过提供修改robots.txt文件及屏蔽IP地址的方法,让用户能够拒绝爬虫机器人的访问。此外,OpenAI与美联社达成协议,以购买AI训练数据所需的内容,努力构建合规的数据获取方式。
然而,尽管OpenAI一再表明其对数据隐私问题的重视,但公众对其信任度却大打折扣。尼尔·克拉克等人质疑OpenAI不尊重作者和创意人士的权利,认为其产品大多基于受版权保护的作品。尼尔·克拉克举例称Common Crawl组织运营的CCBot爬虫机器人至今未有删除数据的成功案例。他还质疑OpenAI愿意为大公司付费购买数据,却不愿意为其他人的信息付费。
与大公司的纠纷中,普通人往往处于弱势地位。如何平衡个人隐私保护和技术创新,并找到企业的最优道路已经成为生成式AI事业面临的挑战。由于数据安全隐患,大模型往往需要借助分布式计算和云服务等技术进行训练和部署。然而,OpenAI等公司要确保合规的数据获取并非易事。
通过限制爬虫机器人的行为,OpenAI试图解决数据获取的难题,但公众对此举仍然存疑。在处理版权问题时,OpenAI也面临多方状告的困扰。随着生成式AI技术的迭代,类似纠纷势必会增加,而大公司往往成为众矢之的。因此,让数据获取合规成为一项重要任务,对于致力于生成式AI事业的公司来说,是一场规避道义危机的考验。(财联社)