随着生成式AI技术的迅猛发展,其背后的数据获取与利用问题日益成为公众关注的焦点。微软AI部门新任首席执行官穆斯塔法・苏莱曼(Mustafa Suleyman)近日在接受CNBC采访时,就生成式AI从网络获取数据的问题发表了看法,引发了广泛讨论。
苏莱曼表示,对于已经在网上公开的内容,自90年代以来,这些内容的社会契约就是“合理使用”,即任何人都可以复制、重新创作、再现这些内容。他进一步指出,这些内容一直被视作“免费软件(freeware)”,是公众的共识。这番言论无疑在业界和版权保护领域掀起了波澜。
AI旋风认为,苏莱曼的观点在一定程度上反映了当前AI技术发展中的现实困境。随着AI技术的不断进步,其对于数据的需求也呈几何级数增长。而网络作为信息的重要载体,自然成为了AI训练数据的重要来源。然而,这也引发了关于版权保护和数据使用权限的争议。
苏莱曼在采访中还特别提到了一种“灰色地带”的情况。他指出,当一个网站、出版商或新闻机构明确表示,其内容仅允许被用于索引和查找,而不允许被用于其他目的时,AI公司如何获取和使用这些数据就成了一个亟待解决的问题。苏莱曼认为,这个问题需要在法院中逐渐得到解决。
然而,事实上,这一“灰色地带”已经引发了多起诉讼。据报道,去年至今已有多家新闻出版机构或作家起诉微软和OpenAI,指控其旗下聊天机器人“窃取”自己的作品训练AI模型,侵犯了版权。这些诉讼的原告包括《纽约时报》以及多名普利策奖得主等知名机构和个人。
面对这些指控,微软和OpenAI的回应并不一致。OpenAI方面表示,其在训练AI模型时确实使用了受版权保护的内容,但这是在特定情况下,符合法律规定的“合理使用”。而微软方面则更倾向于强调网络内容的“免费软件”属性,认为这些内容的使用是符合社会契约的。
这场关于AI训练数据使用的争议实际上反映了当前AI技术发展与版权保护之间的深层次矛盾。一方面,AI技术的发展需要大量的数据支持,而网络作为信息的重要来源,自然成为了AI公司获取数据的重要途径;另一方面,网络上的内容往往受到版权保护,未经授权的使用可能侵犯版权所有者的权益。
为了解决这一矛盾,需要寻求一种既能满足AI技术发展需求,又能保护版权所有者权益的平衡方案。这可能需要通过立法、司法和行业自律等多种手段来实现。例如,可以制定更加明确的法律法规来规范AI公司从网络获取和使用数据的行为;同时,也可以通过加强行业自律和建立数据共享机制等方式来促进AI技术的健康发展。
总之,随着AI技术的不断进步和应用场景的不断拓展,关于AI训练数据使用的争议也将持续存在。我们需要通过不断的探索和努力来寻求一种既能促进AI技术发展又能保护版权所有者权益的平衡方案。