大模型训练数据合规新规出台著作权保护成核心焦点 – 金海境科技 | 服务器数据恢复-分布式数据恢复-虚拟化数据恢复-勒索病毒解密-vSAN数据恢复-Ceph数据恢复-RAID数据恢复

2025年7月，国家网信办联合版权局发布《生成式人工智能训练数据安全管理办法》，针对大模型训练数据的采集、使用、存储等环节制定明确规范，其中著作权保护和个人信息授权两大条款引发行业广泛关注。该办法的出台填补了此前《生成式人工智能服务管理暂行办法》在训练数据输入端的监管空白，预计将使大模型训练数据合规成本提升30%，但长期将推动行业健康发展。

办法明确了训练数据使用的“三重授权原则”：使用受著作权保护的作品需获得权利人明确授权，无法联系权利人的需通过著作权集体管理组织备案，使用开源数据需符合开源协议要求。针对《纽约时报》诉OpenAI等国际纠纷，办法特别规定，境外大模型在华提供服务的，其训练数据中包含的中文作品需符合中国《著作权法》要求。同时，办法建立了训练数据“白名单”制度，百度文心、阿里通义等12家企业的合规训练数据集首批入选。

企业已启动合规转型。腾讯混元大模型建立了“授权作品库”，与100余家出版社和2000余名作家达成合作，明确训练数据使用范围和收益分成机制；字节跳动则开发了训练数据溯源系统，对每一条训练数据标注来源、授权状态和使用范围，通过区块链技术确保不可篡改。中国政法大学研究显示，此前国内80%的大模型训练数据存在著作权风险，办法实施后预计合规率将提升至75%以上。

个人信息保护方面，办法要求训练数据中的个人信息需经过“去标识化+匿名化”双重处理，敏感个人信息使用需获得单独授权。科大讯飞推出的个人信息脱敏系统，可自动识别并处理训练数据中的姓名、身份证号等敏感信息，脱敏准确率达99.5%。业内专家指出，办法将推动大模型行业从“野蛮生长”转向“合规创新”，训练数据服务商和版权确权平台将成为新的行业增长点，2025年相关市场规模有望突破50亿元。