2025年7月,国家网信办联合版权局发布《生成式人工智能训练数据安全管理办法》,针对大模型训练数据的采集、使用、存储等环节制定明确规范,其中著作权保护和个人信息授权两大条款引发行业广泛关注。该办法的出台填补了此前《生成式人工智能服务管理暂行办法》在训练数据输入端的监管空白,预计将使大模型训练数据合规成本提升30%,但长期将推动行业健康发展。
办法明确了训练数据使用的“三重授权原则”:使用受著作权保护的作品需获得权利人明确授权,无法联系权利人的需通过著作权集体管理组织备案,使用开源数据需符合开源协议要求。针对《纽约时报》诉OpenAI等国际纠纷,办法特别规定,境外大模型在华提供服务的,其训练数据中包含的中文作品需符合中国《著作权法》要求。同时,办法建立了训练数据“白名单”制度,百度文心、阿里通义等12家企业的合规训练数据集首批入选。
企业已启动合规转型。腾讯混元大模型建立了“授权作品库”,与100余家出版社和2000余名作家达成合作,明确训练数据使用范围和收益分成机制;字节跳动则开发了训练数据溯源系统,对每一条训练数据标注来源、授权状态和使用范围,通过区块链技术确保不可篡改。中国政法大学研究显示,此前国内80%的大模型训练数据存在著作权风险,办法实施后预计合规率将提升至75%以上。
个人信息保护方面,办法要求训练数据中的个人信息需经过“去标识化+匿名化”双重处理,敏感个人信息使用需获得单独授权。科大讯飞推出的个人信息脱敏系统,可自动识别并处理训练数据中的姓名、身份证号等敏感信息,脱敏准确率达99.5%。业内专家指出,办法将推动大模型行业从“野蛮生长”转向“合规创新”,训练数据服务商和版权确权平台将成为新的行业增长点,2025年相关市场规模有望突破50亿元。