近期,关于华为盘古大模型涉嫌抄袭阿里通义千问模型的讨论在网络上引起了广泛关注。主要质疑点在于,有研究者在GitHub上发布报告,指出华为盘古Pro MoE模型与阿里巴巴通义千问Qwen-2.5 14B模型在注意力参数分布上存在异常高的相似度。
针对这些质疑,华为盘古Pro MoE技术开发团队已发表声明进行了回应,解释了为什么他们认为不存在抄袭行为。其主要论点基于以下几点:
华为的回应及辩护理由
基于自主硬件平台开发: 华为强调,盘古Pro MoE开源模型是基于华为昇腾硬件平台开发、训练的基础大模型,并非基于其他厂商的模型进行增量训练。这意味着模型的基础架构和训练环境是华为自主研发的,而不是直接在阿里模型的“地基”上进行修改。
参考业界开源实践: 华为盘古团队在声明中指出,盘古Pro MoE开源模型的部分基础组件代码实现参考了业界开源实践,并严格遵循开源许可证的要求,在开源代码文件中清晰标注了开源代码的版权声明。在大模型领域,许多基础技术和代码模块都是基于开源社区的成果进行开发和优化的。只要遵循相应的开源协议并进行正确的归属标注,这种“参考”和“复用”是符合行业规范的。
对评估方法的质疑: 华为盘古团队还对提出质疑的研究者所使用的评估方法提出了质疑,认为其科学性不足。他们认为,仅仅通过“注意力参数分布”的相似性来断定抄袭,可能无法全面反映模型的底层设计和训练过程。模型在训练过程中,即使使用不同的初始参数和数据集,也可能因为达到类似的优化目标而在某些指标上表现出相似性。
行业视角下的理解
此次争议也引发了业界对AI大模型开源生态、知识产权界定以及开源协议清晰度的反思:
开源的复杂性: 大模型通常涉及巨量的参数和复杂的架构,其训练过程和内部状态是高度复杂的。在开源社区中,代码复用、技术借鉴是常态,关键在于是否透明、合规。
界定难度: 由于大模型的训练过程涉及海量数据和无数次迭代,很难像传统软件那样,通过简单的代码比对来判断“抄袭”。“相似性”可能源于多种因素,包括共同的SOTA(State-of-the-Art)技术路线、模型收敛的特性等。
技术差异: 尽管在某些层面可能存在相似性,但不同厂商的大模型通常在整体架构设计、训练数据、优化算法、应用场景以及所依赖的底层算力平台(如华为的昇腾)等方面存在显著差异,这些共同构成了模型的“自主性”。
总的来说,华为的辩护核心在于其模型是基于自主硬件平台独立开发和训练的,并且对外部开源代码的使用遵循了合规的开源协议。争议的焦点在于如何科学地界定大模型这种复杂系统的“原创性”和“抄袭”,以及在开源生态下技术复用的边界。
评论列表 (0)