在人工智能领域,数据透明度和道德问题一直是公众关注的焦点。近日,OpenAI的高管们在回应关于其视频生成器Sora是否使用了YouTube数据进行训练的问题时,再次陷入了困境。这一事件不仅引发了业界的广泛关注,也再次将AI训练数据的透明度和道德问题推向了风口浪尖。
在最近举行的Bloomberg科技峰会上,OpenAI席运营官Brad Lightcap被问及Sora是否使用了YouTube数据进行训练时,他的回答显得含糊其辞,未能给出明确答案。面对记者Shirin Ghaffary的追问,Lightcap试图通过冗长的回答转移话题,但最终还是未能回避这一核心问题。
“你能否说出Sora是否使用了YouTube数据?”Ghaffary问道。Lightcap的回答是一段冗长的话语,他首先强调了数据讨论的重要性,然后表示OpenAI显然需要知道数据的来源。然而,在随后的回答中,他并没有直接回答是否使用了YouTube数据,而是开始描述未来的“AI内容识别系统”,并暗示这是一个“非常困难”的问题。
“是的,我们正在研究这个问题,”Lightcap说道,“这确实非常困难。”他接着表示,虽然OpenAI对这个“困难”问题还没有“所有答案”,但可能会在2026年之前找到。然而,当Ghaffary再次追问关于YouTube的答案时,Lightcap却表示“暂时没有答案”。
这一回答引发了人们对于OpenAI高管在类似问题上的回避态度的关注。事实上,早在今年三月份,OpenAI的首席技术官Mira Murati在接受华尔街日报采访时也曾遭遇类似的尴尬。当时,在被问及Sora是否使用了YouTube数据进行训练时,Murati同样没有给出明确答案,只是表示使用了“公开可获得的数据和授权数据”。当被进一步追问关于YouTube视频时,她表示“对此我其实不确定”,并在长时间的追问后试图解释自己认为这些数据是“公开可获得的”,但对此并不确定。
AI旋风认为,这种含糊其辞的回答方式不仅无法消除公众的疑虑,反而加剧了人们对于AI训练数据透明度和道德问题的担忧。在人工智能领域,数据的来源和使用方式对于模型的性能和道德性至关重要。如果AI模型使用了未经授权或存在争议的数据进行训练,那么其生成的内容可能会存在偏见、误导或侵犯他人权益等问题。
对于OpenAI而言,其作为人工智能领域的领军企业之一,应该更加重视数据的透明度和道德问题。只有通过公开、透明和负责任的方式使用数据,才能确保AI技术的健康发展和社会信任。同时,对于类似Sora这样的视频生成器,更应该对其训练数据的来源和使用方式进行严格的审查和监管,以避免潜在的风险和问题。
总之,OpenAI高管在回应关于Sora是否使用YouTube数据进行训练的问题时再次陷入了困境。这一事件不仅引发了业界的广泛关注,也再次提醒我们要重视AI训练数据的透明度和道德问题。只有通过公开、透明和负责任的方式使用数据,才能确保AI技术的健康发展和社会信任。