2025年2月9日,经济合作与发展组织(OECD)发布了一篇题为《人工智能基于抓取数据的知识产权问题》的专题报告,该报告深入探讨了人工智能(AI)技术快速发展背景下,数据抓取(Data Scraping)在模型训练中的应用及其对知识产权(IP)体系的冲击。报告指出,随着生成式AI的爆发式增长,数据抓取已成为获取海量训练数据的主要手段,但这一过程频繁涉及版权、商标、数据库权利等法律争议,亟需全球协调的政策框架与技术创新应对挑战。
数据抓取:AI创新的双刃剑
报告将“数据抓取”定义为“通过自动化工具从第三方网站、数据库或社交媒体平台提取信息的行为”。其核心流程包括数据收集、预处理、存储及模型训练。例如,大型语言模型(如GPT-3)的训练数据中,超过80%来自Common Crawl等公开网络抓取数据集。这类数据为AI模型提供了多样化的语言表达和跨领域知识,但也埋下隐患——抓取内容可能包含受版权保护的书籍、文章、图像,甚至个人隐私信息。
数据显示,当前约70%的AI训练数据集缺乏清晰的来源许可信息。2023年一项对1800个常用数据集的审计发现,部分数据集包含盗版内容,如“Books3”数据集涉嫌收录17万本未经授权的书籍,被用于训练Meta的Llama等知名模型。此类争议已引发多国诉讼。美国作家协会、《纽约时报》等机构已对OpenAI、微软等企业提起诉讼,指控其未经许可使用受版权保护内容训练AI;欧盟、日本等地也出现类似案件。
法律困境:全球规则碎片化
报告强调,现行知识产权法律体系多制定于AI技术普及之前,难以适应数据抓取引发的复杂问题。各国法律对“合理使用”“文本与数据挖掘(TDM)例外”等关键概念的解释存在显著差异:
-欧盟通过《数字单一市场版权指令》允许研究机构在合法获取数据的前提下进行TDM,但版权所有者可通过合同或技术手段“选择退出”(Opt-out);
-日本《著作权法》允许出于“非娱乐目的”的TDM,包括商业用途;
-美国依赖“合理使用”原则,需通过司法案例逐案判断;
-新加坡2021年修订的《版权法》新增“计算数据分析例外”,明确允许基于数据分析的机器学习,但禁止衍生内容用于其他目的。
这种法律碎片化导致跨国企业面临合规难题。例如,欧盟《人工智能法案》要求通用AI模型提供者遵守欧盟版权法,即使模型在境外训练,只要输出用于欧盟市场即需担责。这种“长臂管辖”凸显了国际协调的必要性。
政策工具箱:行为准则、技术工具与公众教育
为平衡AI创新与权利保护,OECD提出四大政策方向:
1. 自愿行为准则:制定跨国“数据抓取行为准则”,明确术语定义(如区分数据抓取、网络爬虫等技术细节),要求企业披露训练数据来源、尊重技术保护措施(如网站robots.txt协议),并建立违规登记与追责机制。准则可参考G7《广岛AI行为守则》,区分商业与非商业用途,鼓励平台采用“数据集卡片”(Dataset Cards)标注数据许可信息。
2. 标准化技术工具:开发支持版权管理的技术方案。例如,改进现有robots.txt协议,设计机器可读的“选择退出”标识;探索数据访问控制工具,允许版权方通过API授权使用,并集成自动付费系统。欧盟正推动此类工具研发,以配合《人工智能法案》的透明度要求。
3. 标准合同条款:针对数据提供者与AI开发者的合作协议,设计兼顾灵活性与合规性的模板条款。例如,OpenAI与美联社、Shutterstock等机构的内容授权协议,或成为行业参考范式。
4. 公众意识提升:通过教育项目帮助创作者理解权利边界,指导AI用户遵守使用限制(如避免生成侵权内容),并推动企业公开模型训练的伦理审查流程。
未来挑战:技术迭代与利益平衡
报告警示,高质量训练数据可能在2026年前耗尽,迫使企业转向语音转录、合成数据等新型抓取手段,进一步加剧法律风险。同时,AI生成内容对个人形象权、艺术风格模仿等新型侵权形式的界定仍存争议。例如,AI生成的“虚拟歌手”是否侵犯原声音乐人的权利?模仿画家风格的AI作品是否构成道德权利侵害?这些问题亟待法律与伦理框架的更新。
OECD呼吁各国政府、企业与社会组织加强合作,在保护创新激励与公共利益之间寻求平衡。正如报告主笔之一、杜克大学教授李·蒂德里奇(Lee Tiedrich)所言:“没有一刀切的解决方案,但通过技术规范、合同创新与国际对话,我们可以为AI的可持续发展铺平道路。”