GitHub被\"GitHub Copilot\" 倒逼成为开源项目？

386 阅读 0 评论 0 点赞

点击蓝字

默默关注

GitHub 在上周推出了一个名为"GitHub Copilot"的工具，此工具使用了机器学习技术来提供代码建议/自动补全，并因此引发了不小的争议。原因是许多开发者认为，GitHub Copilot 宣称的基于公开代码训练其实是在未遵循开源许可证的情况下，肆意“抄袭”开源代码。

个别比较激进的开发者为了抗议 GitHub 未经授权和许可便使用受版权保护的源代码作为 GitHub Copilot 的训练数据，宣布弃用 GitHub。

在众多的质疑和批评声中，被讨论较多的一个问题是：如果 GitHub Copilot 的训练模型使用了遵循 GPL 的软件进行训练，那么会发生什么？

题为"Is GitHub a derivative work of GPL'd software?（GitHub 是 GPL 软件的衍生作品吗？）"的博客文章描述了对这个问题的一些想法。下面是对这篇文章的一些整理。

GPL 的一系列许可证被认为是"Copyleft"许可证，其特点是具备“传染性”。特别是，Copyleft 作品的常见特征是要求“衍生作品”使用与原始 Copyleft 许可相同的条款发布其新作品。

这就引申出了一个有趣的法律问题：机器学习系统生成的作品，甚至是机器学习系统本身，是否属于“投喂”给训练模型的数据的衍生作品？如果答案为“否”，是不是意味着可以把 GitHub Copilot 作为一种手段，借此将自己想使用的 GPL 代码进行“清洗”，从而达到无需遵循其许可协议的目的。

但是，如果答案为“是”呢？也就是说机器学习模型生成的作品属于输入数据的衍生作品，这样一来，GitHub 本身也就可以被认为是 Copyleft 软件的衍生作品。因为 GitHub 的博客文章在说明"Copilot"的训练数据时，曾发表如下的表述：

“在 GitHub Copilot 的早期开发过程中，作为内部试用的一部分，近 300 名员工在日常工作中使用了它。”

如果 300 名 GitHub 员工将 Copilot 用作其日常工作流的一部分，他们很可能已将 Copilot 生成的代码整合到 GitHub 的几乎所有软件资产中，后者为用户提供了 Web 服务。如果训练模型是在遵循 AGPL 的软件上进行训练，并且 Copilot 使用该模型创造了一个衍生作品。那么，所有 GitHub 用户有权根据 AGPL 的条款获得 GitHub 的源代码副本——亦即倒逼 GitHub 被迫成为了一个开源项目。

事实上，这里面还涉及到了机器学习的伦理问题，被纳入机器学习训练数据的内容的所有者应该有什么权利？

举个例子，如果我想发表一个不希望被纳入训练模型的作品，或者说如果自己的作品被用于训练模型，但能让公众有权访问此模型，是否可以实现？是否应该允许我这样做？如果被使用的作品是我的个人信息，并且在我不知情或未经同意的情况下被收集，怎么处理？如果这些被收集的信息被服务商滥用，甚至是用在一些对自己不利的场景，比如在做贷款决定时，怎么办？如果它被用来做违背整个社会利益的事怎么办？

END

扫码关注最新动态

公众号ID:fosslab

我就知道你“在看”

来源:https://mp.weixin.qq.com/s/vnQu0sByMPzhtce17Lwwmg

点赞(0) 打赏

本文分类：资讯
本文标签：无
浏览次数：386 次浏览
发布日期：2021-07-06 17:27:40
本文链接：http://muker.cc/cms/news2/159.html

上一篇 > 华为小米布局物联网，选人用人优先考虑.NET！（内推）
下一篇 > 深度操作系统deepin 20.2.2发布，新版应用商店上线

GitHub被\"GitHub Copilot\" 倒逼成为开源项目？

评论列表共有 0 条评论

发表评论取消回复

GitHub被\"GitHub Copilot\" 倒逼成为开源项目？

浅议Linq和MoreLinq

浅议Linq和MoreLinq

Yarp+AgileConfig 配置热更新的代理网关

在业务层实现校验请求参数

评论列表 共有 0 条评论

发表评论 取消回复

评论列表共有 0 条评论

发表评论取消回复