农业数据空间的互操作性
本案例研究了农业领域内数据空间互操作性的机会,特别是如何减少数据交换的壁垒,并确保数据所有者对其数据保持控制。因此,数据空间的实施基于Gaia-X Pontus-X生态系统,使用基于Web3和区块链的基础设施,为设计提供了数据主权。此外,由于Pontus-X基于Gaia-X,其构建模块用于促进数据空间的联合,特别是Gaia-X数字清算所(GXDCH)[^1]。具体来说:
-
所有参与者都使用由GXDCH合规服务[^2]验证的自我描述来识别自己,该服务基于GXDCH注册表[^3]提供的信任框架。此外,GXDCH公证服务[^4]用于为所有参与者生成可验证声明,包括法律注册号。参与者的符合条件的自我描述是:
-
Universitat de Lleida(UdL):https://compliance.agrospai.udl.cat/.well-known/UdL.vp.json
-
Centre of Swine Studies of Catalonia(CEP):https://compliance.agrospai.udl.cat/.well-known/CEP.vp.json
-
数据空间中提供的数据集和服务也具有自我描述,这些自我描述同样由GXDCH合规验证,例如:
-
数据集和服务的自我描述在经过合规检查后,通过GXDCH凭证事件服务(CES)[^5]宣布,以便将它们包含在联合目录中。例如:https://ces-development.lab.gaia-x.eu/credentials-events/0b041d31-e306-4a54-96d1-a4f9ef818877
本案例由Universitat de Lleida(UdL)与Centre of Swine Studies of Catalonia(CEP)合作负责,CEP是一家由Lleida Diputació、La Noguera区域委员会、Torrelameu市政厅和Universitat de Lleida组成的联合体管理的实验性猪场。CEP的主要作用是作为数据来源,为愿意通过数据空间共享来自不同实验产生的数据。对于CEP来说,控制其贡献的数据至关重要,尤其是当这些数据由第三方生成时,如自动化喂养机制造商在CEP中测试他们的产品。
此外,Pontus-X提供的货币化机制正在被测试,以评估不同的激励机制,使案例变得可持续超出了当前概念验证阶段。
目前,提供了两个基于CEP数据的服务。首先,基于CEP一处猪栏视频监控设备的图像,一个动物福利评估算法执行自动图像分割和跟踪以识别和跟踪猪的运动。此外,还可以监测猪对指定感兴趣区域(如自动化喂养机或饮水碗)的访问。这 样就可以自动生成可用于动物福利评估的指标。
数据主权通过使用“计算到数据”实现的数据室来确保,如图16所示。算法在数据室内访问图像序列,分析它们,并且仅计算出的指标离开了数据室。因此,没有任何图像从猪栏内部泄露出来。它们只是被复制到数据室并在计算后销毁,而没有离开数据室。CEP同意让算法“访问”的示例数据集可在线获得[^6]。
图1. 通过基于“计算到数据”的数据室实现CEP数据的主权交换(来源:AgrospAI)
第二个服务支持通过数据空间共享数据的“按使用付费”方法。与要求编辑者集成基于现有方案的数据(这会带来大量的初始负担)不同,按使用付费模式偏好渐进式方法。这样做降低了进入壁垒,使数据交换变得更加容易。
数据以表格形式发布,例如由CEP产生的自动化喂养机数据。语义集成由实现RML(W3C R2RML标准扩展)的算法提供,该算法不仅可以将关系数据库映射到RDF语义数据,还可以从CSV、TSV、XML和JSON数据源映射到RDF。
此外,数据主权通过数据室来确保。映射的数据不会离开数据室,而是在其中处理并存储在一个知识图中,该图仍然位于数据室内。这意味着它保持在数据来源方Centre of Swine Studies of Catalonia(CEP)的控制之下。
稍后,CEP可以决定允许受信任算法访问数据室并切割知识图以提取相关的语义集成数据。同样,在这种情况下,数据主权得到保证,因为只有计算结果(如聚合或使用AI训练的模型)才会离开数据室,而不是原始数据或子集。
目前,CEP可以直接共享其现有的猪日常体重和自动化喂养机数据。这些数据保持在其控制之下,因为CEP可以决定哪些算法可以访问数据室。例如,可以使用探索性数据分析算法来构建对数据的摘要[^7]。
此外,RML映射器算法[^8]为CEP提供了日常体重和自动化喂养机数据格式的映射,使得可实现按使用付费模式提出的渐进式方法。它将此类CSV数据映射到基于W3C RDF语义数据的、良好建立的词汇表和本体,这些词汇表和本体促进了数据集成,甚至可以在不同的用例和活动部门之间实现。
由该算法实现的映射生成基于智能应用参考本体(SAREF)的RDF数据,该本体是欧洲电信标准协会(ETSI)兼容的词汇表,使得智能应用领域内的数据集成更加容易。
例如,对于猪日常体重数据:
| 动物ID | 日期 | 体重(克) |
|---|---|---|
| 982091062894196 | 2021-03-16 | 16300 |
和自动化喂养机数据:
| 猪栏 | 动物ID | 日期 | 时间(秒) | 持续时间 | 喂食量(克) | 体重(克) |
|---|---|---|---|---|---|---|
| 4 | 982091062894196 | 2021-03-17 | 10:46 | 50 | 14 | 16500 |
RML映射生成集成了这两种数据源的语义RDF数据图,如图2所示。
图2. CEP猪日常体重和自动化喂养机数据的语义集成(来源:AgrospAI)
[^1]:https://compliance.lab.gaia-x.eu
[^2]:https://compliance.lab.gaia-x.eu/development/docs
[^3]:https://registry.lab.gaia-x.eu/development/docs
[^4]:https://registrationnumber.notary.lab.gaia-x.eu/development/docs