辽宁省科学技术协会

推动人工智能产业快速发展　要把保障数据安全放在突出位置

发布日期：2024年04月12日

美国人工智能公司OpenAI推出GPT Store，掀起AI应用新潮流；谷歌遭遇裁员风波，聚焦AI战略调整；特斯拉创始人埃隆·马斯克起诉OpenAI，指控其背离了初衷，将人工智能用于盈利而非为人类福祉服务……近期，人工智能领域大模型声势高涨，产品与服务推陈出新，但同时也伴随着诸多争议，尤其是在数据安全方面。

　　AI大模型训练是一个复杂而精细的过程，它依赖于大量的高质量数据来提升模型的性能和智能水平。在这个过程中，科技巨头为了保持竞争优势，不断寻求更丰富的数据资源，包括文本、图片、视频以及专业领域的知识等，从而使AI模型能够更好地生成和理解内容。

　　训练AI模型时，数据的来源和使用方式也引起了公众和法律界的广泛关注。特别是当涉及版权、隐私和知识产权等敏感问题时，数据的使用就更需谨慎。最近，视频网站YouTube首席执行官尼尔·莫汉（Neal Mohan）在一次采访中提到了这一问题，他表示，尽管没有直接证据表明OpenAI使用了YouTube的视频内容来训练其文生视频AI工具Sora，但如果确实存在这种行为，那么这将明显违反YouTube平台的使用条款。

　　莫汉表示，YouTube平台上的内容创作者有权对他们的作品进行控制，包括如何使用这些内容。当创作者将他们的作品上传到YouTube时，他们期望这些内容能够受到保护，并按照平台的规则和他们与平台之间的协议来使用。这意味着，任何未经授权的使用，尤其是用于商业目的的AI模型训练，都可能构成侵权行为。

　　此外，《纽约时报》的报道认为，OpenAI和谷歌可能使用了YouTube视频的转录文本来训练他们的AI模型，这可能侵犯了内容创作者的版权。OpenAI被指控使用其Whisper语音识别工具转录了超过100万小时的YouTube视频内容，并用这些数据来训练其模型。这一行为如果未经内容创作者的许可，就可能违反了版权法，并引发关于AI训练数据合法性的讨论。

　　在AI领域，数据的重要性不言而喻。随着数据资源的日益紧张，如何合法、合规地获取和使用数据成为一个亟待解决的问题。特别是在AI大模型备受瞩目且承载厚望的当下，数据的质量、多样性以及专业性等将直接决定AI模型生成内容的质量高低和适用场景的广泛程度。

　　推动人工智能产业快速发展，要把保障数据安全放在突出位置。近年来，我国高度重视人工智能安全发展，逐步完善相关政策法规。国务院印发《新一代人工智能发展规划》，提出面向2030年我国新一代人工智能发展的指导思想、战略目标、重点任务和保障措施，部署构筑人工智能发展的先发优势，加快建设创新型国家和世界科技强国。面向算法治理，出台《关于加强互联网信息服务算法综合治理的指导意见》《互联网信息服务算法推荐管理规定》等。面向人工智能合成技术的快速突破，出台《互联网信息服务深度合成管理规定》《生成式人工智能服务管理暂行办法》等。在全球数字经济激烈竞争格局下，科学把握风险防范的尺度至关重要。

　　以大模型为代表的人工智能技术，其潜能正日益显现。要抓住这一技术所带来的巨大机遇，必须同时警惕其潜在的安全风险和隐患。因此，科技企业需要采取更为透明和负责任的举措来对待数据问题。这要求企业积极与内容创作者建立合作关系，确保获取的数据拥有合法授权。同时，积极探索新的数据来源，例如利用合成数据和公开数据集。合成数据可以帮助解决数据匮乏、数据质量不高等问题，特别是在一些难以获取真实数据的场景中，合成数据成为训练AI模型的有效手段。此外，企业还需要加强内部的数据管理和合规审查，确保所有的数据使用都符合法律法规和道德标准。（作者吴双）

来源：人民邮电报

上一篇：国产算力探索资源配置“最优解” 下一篇：中国科研人员发现新物种长肋原花鳅