OSI 开源AI定义的最新进展：v0.0.7 发布

生成式AI在持续快速发展进化，OSI 也在持续推动行业共识，研讨“开源人工智能”的定义，笔者一直在跟进该项工作的进展，近期看到OSI官方博文发布了最新的v0.0.7版本，特此翻译供参考。（OSI官网内容采用知识共享署名 4.0 国际许可协议）

HackMD上发布的 OSAI v0.0.7，欢迎参与反馈和讨论。 https://hackmd.io/@opensourceinitiative/osaid-0-0-7

OSI官方博客文章链接 https://opensource.org/blog/open-source-ai-definition-weekly-update-april-15

OSI官方论坛的讨论帖，欢迎反馈意见与建议。 https://discuss.opensource.org/t/draft-v-0-0-7-of-the-open-source-ai-definition-is-available-for-comments/298

缩略语与术语

AI 人工智能或人工智能系统
OSAI 开源人工智能
Gen AI 生成式人工智能
OSI 开放源代码促进会，是一个国际的开源促进组织，官网 https://opensource.org/，开源定义就由其组织完成，并发布了经其认证的开源许可清单。
Data card “数据卡”，结合中文语境和使用习惯，下文使用了“数据信息看板”
Model card “模型卡”，结合中文语境和使用习惯，下文使用了“模型信息看板”

开源 AI 定义

版本 0.0.7.1

注：本文件由三部分组成：前言说明了本文件的意图、开源人工智能定义本身以及评估法律文件的核对表。

本文件采用了经济合作与发展组织（OECD）对人工智能系统的定义（https://legalinstruments.oecd.org/en/instruments/OECD-LEGAL-0449）。

人工智能系统是一种以机器为基础，可以根据明确或隐含的目标，从接收到的输入信息中推断出如何生成预测、内容、建议或决策等输出结果，从而影响物理或虚拟环境的系统。不同的人工智能系统在部署后的自主性和适应性程度各不相同。

关于人工智能系统定义的更多信息，请访问 OSI 博客（https://blog.opensource.org/open-source-ai-establishing-a-common-ground/）。

前言

我们为何需要开源人工智能（AI）

开源已经证明，当消除学习、使用、共享和改进软件系统的障碍时，每个人都会受益匪浅。这些好处是使用遵守开源定义的许可证的结果，可以总结为自主性、透明度和协作改进。

每个人都有权力从人工智能受益。我们需要基本的自由让用户能够构建和部署可靠、透明的人工智能系统。

不在讨论范围内的问题

开源人工智能的定义并不会说明如何开发和部署一个符合伦理道德、值得信赖或负责任的人工智能系统，尽管它并不阻止这样做。讨论负责任地开发、部署和使用人工智能系统，包括通过适当的政府监管，与之相关的努力是另一个话题。

什么是开源 AI

开源人工智能是一种根据授予以下自由的条款提供的人工智能系统：

可出于任何目使用系统，而无需征求许可。
研究系统的工作原理并检查其组件。
可出于任何目的修改系统，包括更改其输出。
可出于任何目的共享系统给他人使用，无论系统是否经过修改。

行使这些自由的先决条件是能够使用首选形式对系统进行修改。

机器学习系统评估清单

本清单基于 2024 年 3 月 21 日发表的论文《模型开放性框架：促进人工智能的可重复性、透明性和可用性的完整性和开放性》。

修改机器学习系统的首选形式

机器学习开源人工智能所需的默认组件集包括：

数据透明度：关于系统如何训练的足够详细的信息。这可能包括训练方法和技术、所使用的训练数据集及其来源信息、范围和特征；如何获取和选择数据、标记过程和数据清理方法。
代码：用于预处理数据的代码，用于训练、验证和测试的代码，分词器和超参数搜索代码（如果有使用）等支持库，推理代码以及模型架构。
模型：模型参数，包括权重。在适用的情况下，这些参数应当包括训练关键中间阶段的检查点以及优化器的最终状态。

默认必要组件表

必要组件	法律框架
代码
- 数据预处理	符合OSI标准的许可时可用
- 训练、验证和测试	符合OSI标准的许可时可用
- 推理	符合OSI标准的许可时可用
- 支持库和工具	符合OSI标准的许可时可用
模型
- 模型架构	符合OSI标准的许可时可用
- 模型参数（包括权重）	符合开源原则的条款时可用
数据透明度
- 训练方法和技术	符合OSI标准的许可时可用
- 训练数据的范围和特征	符合OSI标准的许可时可用
- 训练数据来源（包括如何获取和选择数据）	符合OSI标准的许可时可用
- 训练数据打标签步骤（如果有使用）	符合OSI标准的许可时可用
- 训练数据清洗方法	符合OSI标准的许可时可用

以下组件并非必需，但希望能将其纳入版本中。

可选组件
代码
- 执行基准测试推理使用的代码
- 评估代码
数据所有数据集，包括：
- 训练数据集
- 测试数据集
- 验证数据集
- 基准评测数据集
- 数据信息看板
- 评估指标和结果
- 所有其他数据文档
模型所有模型元素，包括：
- 模型信息看板
- 模型输出示例
其他生成的或用到的任何其他文档或工具，包括：
- 详细的研究论文
- 使用文档
- 技术报告
- 支持工具

译文至此结束。

感谢给与我专业反馈的同事和同行，当前版本仍存在很多不足，非常期待你的意见和建议。

这是一项非常艰难的工作，我们看到OSI的工作组在为此而持续努力。我对于该团队的行事风格印象深刻，比如其公开的“市政厅”会议中的行为准则约定、选取的多元化研究合作项目以及工作照片。

（在线公开会议资料 https://opensource.org/wp-content/uploads/2024/04/osi_townhall_8.pdf）

让我们共同期待OSAID的未来版本，在此呼吁大家积极参与向上游的反馈和贡献。以下是部分该工作组的年度计划，供参考。

OSI 官方论坛 https://discuss.opensource.org/

缩略语与术语​

开源 AI 定义​

前言​

我们为何需要开源人工智能（AI）​

不在讨论范围内的问题​

什么是开源 AI​

机器学习系统评估清单​

修改机器学习系统的首选形式​

默认必要组件表​