《食品科学》:北京工商大学许继平副教授等:
近年来,食品安全问题日益严峻,而在食品全程全息过程中会产生并收集大量食品全程全息风险信息数据,企业和监管机构(RA)不再满足于利用人工智能相关技术仅对其自身收集的风险信息数据进行分析处理,数据共享是解决这些问题最好的方法。
联邦学习是一种分布式机器学习方法,它允许模型训练方以分布式方式训练并贡献局部模型,最终通过中央服务器聚合为全局模型。 区块链是一种以分布式账本、非对称加密、共识机制、点对点网络和智能合约为核心技术的独特链式数据结构,区块链上各个节点共同维护链上数据的安全,且全链条数据具有可追溯性以及不可篡改性,极大地保证了数据的真实性与安全性。 用区块链弥补传统联邦学习的不足已成为当下可信共享的新范式。
北京工商大学计算机与人工智能学院的张新、谭学泽、许继平*等依托区块链和联邦学习技术,提出一种风险信息可信共享模式。首先,建立食品全程全息风险信息可信共享模型,满足不同数据共享优先级下各方的交互需求;其次,将风险信息交互过程划分为横、纵向两种不同的联邦学习类型,采用FedAvg和FedBCD两种算法完成模型聚合。最后,利用同态加密和零知识证明对所得模型进行分级加密,使用中继链实现跨环节风险信息(CLRI)的跨链交互,保证风险信息数据共享过程安全可信。本研究提出可信共享模式,以期提高企业和RA对食品全程全息风险信息的利用率和共享的决心,满足企业以研究、行业竞争、风险管控和监管部门以监管、信息管理和行政程序为目的的数据共享需求,并服务于食品安全领域。
本研究提出一种基于区块链和联邦学习的食品全程全息风险信息可信共享模型,如图1所示,该模型总共有3 层,从下到上依次是:多个环节链层(link chain layer,LCL)、一个交互链层(interaction chain layer,ICL)和一个监管链层(regulatory chain layer,RCL)。其以分层区块链架构实现模型数据的收集、记录与共享,能够提高联邦学习过程中模型数据的安全性和真实性。同时以分层联邦学习模式实现模型的聚合,每一链层收集不同的数据用以训练不同的模型并上传给上级链层,从而提高模型的质量和准确度。
食品全程全息包含六大环节:生产、收储、加工、运输、仓储、销售,分别对应6 个不同的LCL以及若干企业节点(EN)和检测设备(TE)。TE负责收集不同环节存在的重点风险信息,EN充当分布式训练方进行局部模型更新。以某生产企业A为例,其根据自己的TE检测到的农残等数据进行局部模型训练,并将训练结果广播到生产LCL中的所有生产ENs。同时企业B、C、D等生产企业也会广播一个风险信息局部模型至所有生产ENs。每个EN又作为服务器收集所有风险信息局部模型,并将其打包成候选区块。最终共识后发布的区块代表着该环节所有企业联邦学习的结果,记录在该LCL的分布式账本(LDL)中,实现对该环节风险信息的全息可见。
由若干中继节点组成的中继链,其本质是由被连接的区块链抽象形成的跨链操作层,为侧链机制和公证人机制的融合与扩展,主要实现在不依赖可信第三方的情况下,收集不同平行LCL中EN的风险信息,进行验证和转发,实现通信中枢的功能,满足上下游利益相关企业间交互各自风险信息的意愿,同时作为链上公共钥匙库,为各个EN生成并存储公私钥对。在中继机制中,所有平行LCL都必须遵守跨链协议,从而实现与中继链的连接。EN首先向ICL中的中继节点(relay node,RN)发起跨链请求,交互数据将被放到对应的队列中,供跨链网关获取与调用。跨链网关是连接平行LCL与ICL的通信组件,包含3 个模块:交互感知、协议调制、路由发放。交互感知模块负责感知、接收、同步各个平行LCL发送的跨链请求,将跨链请求转发给ICL中继链。协议调制模块负责接收交互感知模块发送的跨链交互,将平行LCL发出的跨链交互信息调制为CCIP格式;同时也可以将ICL发送的CCIP格式调制为平行LCL可识别的跨链交互信息格式。路由发放模块负责接收协议调制模块发送的跨链信息交互,同时将跨链信息交互路由发放到ICL。此次跨链请求经验证通过后会由ICL发送到目标平行LCL,随后在目标平行LCL上根据共识机制进行跨链交互操作。
本研究结合公证人机制和中继思想,提出一种基于ICL中继链的平行LCL跨链信息交互方式,将平行LCL间对风险信息交互执行机制的信任转化为跨链双方对链间可信中继验证机制的信任,平行LCL只需要验证ICL中继链中的验证结果和跨链风险信息交互正确性即可完成跨链信息交互。
构建一条让数据交互双方都信任的中继链,旨在让同一供应链环节完成企业间安全共享风险信息的同时,实现不同环节上下游利益相关企业间风险信息等敏感信息的安全交互。这种形式既满足实际生产生活需求,又能够提高局部模型和全局模型的训练质量。
EN在进行跨链交互时,会从两个方面验证这次信息交互是否可信:其一是进行此次风险信息交互的数据目标链是否信任数据来源链上信息交互的执行机制;其二是对风险信息数据来源链上的信息交互执行结果进行验证。
验证区块来源:ICL通过存储在当前区块头中的哈希指针验证这个区块来自于哪一条区块链,以避免恶意竞争企业利用不正确的区块进行伪造攻击。
验证区块共识:验证当前区块是否符合风险信息来源链上共识算法,进一步确定此区块是否在平行LCL上的ENs间达成共识。
验证区块共识:验证交互存在,判定该区块中是否有信息交互请求,避免恶意竞争企业利用未发生或未执行的风险信息交互进行伪造攻击。
验证验证结果正确:风险信息目标LCL链通过验证ICL中继链对风险信息来源LCL链区块来源、区块共识、交互存在的验证,从而判断此次信息交互是否符合预订规则。
验证信息交互正确:通过交互具体内容判别此次平行LCL的ENs间的信息交互是否正确和是否符合企业间预期的约定,避免恶意竞争企业用虚假风险信息交互进行攻击。
验证过程通过部署在各链中的智能合约完成。针对食品全程全息参与企业众多,每个环节企业数量不同,各链网络拓扑结构、共识算法、安全机制、区块生成以及验证逻辑不一致的特点,本研究设计了3 种ICL中继链的异构平行LCL链跨链风险信息交互智能合约,分别为风险信息交互合约、风险信息验证合约以及风险信息跨链合约,其职能如下:
风险信息交互合约:平行LCL以及各个EN通过调用风险信息交互合约,生成跨链风险信息交互的具体内容。
风险信息验证合约:对风险信息交互结果(区块来源、区块共识、交互是否存在、验证结果正确与否以及信息交互是否正确)进行验证。
风险信息跨链合约:收集风险信息交互合约提供的平行LCL风险信息跨链交互内容以及风险信息验证合约提供的平行LCL风险信息跨链交互结果,同时调用以及对接其他平行LCL链和ICL中继链上的风险信息跨链合约进行跨链操作。
3 种智能合约间相互调用反馈组成跨链智能合约模块。以上下游利益相关企业A和E为例,其风险信息跨链交互流程如图2所示。
在RCL中,每个EN作为分布式训练方,将其本地原始风险数据、跨环节交互的风险数据以及记录在LDL上的训练结果一起进行训练,得到新的风险信息局部模型,并将训练结果广播到RCL中的各个RA节点。每个RA收集所有ENs发送的风险信息局部模型,并将其打包成候选区块。最终共识后发布的区块代表着TEs和ENs学习结果的总和,记录在RCL的分布式账本(RCL distributed ledger,RDL)中,并且用来训练得到全局模型,以进行下一轮联邦学习。本链层实现了对所有环节所有企业风险信息的全程全息可见。
每个企业内部会根据其本地风险信息模型敏感程度将风险信息局部模型分为两类:企业级风险信息局部模型(LMERI)和监管级风险信息局部模型(LMRRI)。其中LMERI是联邦学习过程中TEs向所属企业共享的模型以及同一LCL内ENs间共享的模型,这种模型只在企业间以加密的形式进行共享,不会共享到RCL中的监管节点;LMRRI是各个EN向RA共享的模型,这种模型只会共享到RCL中的监管节点,不会在企业间共享。而不同环节上下游利益相关企业间传输风险信息局部模型的同时,也存在交换本地风险信息数据明文的需求。将这种跨环节企业间交互的风险信息称为CLRI。
以生产环节和收储环节两个相邻环节的LCL为例,其风险信息局部模型与明文在图1模型中的流转流程如图3所示,生产企业A、B、C、D对应的与其利益相关的上下游企业分别为收储企业a、b、c、d。在生产LCL中以企业A为例,企业A将TEs收集的数据进行训练得到LMERI,并将其广播至当前生产LCL的所有企业。同时企业B、C、D也都会和企业A一样训练一个LMERI并将其广播至所有此链层的其他企业。作为上下游利益相关企业的双方,如企业A和a,会将需要交互的风险信息局部模型或明文以CLRI的形式通过ICL进行交互。在上述交互完成后,各个LCL的每个企业会训练得到LMRRI,并将其广播到RCL的所有监管节点RA。
食品全程全息敏感风险信息数据在传统明文交互方式下容易出现隐私泄露问题,使企业不愿贡献真实或完整数据。而单一加密手段得到的密文无法应用于联邦学习模型聚合,且无法满足食品全程全息不同环节的上下游利益相关企业间交换本地风险信息数据的需求。
本研究选用效率高、成本低的Paillier加法和Elgamal乘法部分同态加密算法结合零知识证明思想分别对食品全程全息中LMERI、LMRRI和CLRI进行加密传输,实现对风险信息数据的分级隐私加密,消除联邦学习过程中EN对风险信息数据泄露的顾虑。
3 种算法均主要由3 个部分组成,分别为密钥对生成算法KeyGen、加密算法Encrypt以及解密算法Decrypt。
在LMERI交互过程中,ICL依据Paillier算法生成参与联邦学习的EN的密钥对,操作如下:ICL选取
pq两个随机质数,其中pq,即pq等长,为给定的安全参数,定义计算函数L(χ)如式(1)所示:
通过式(4)得到每个联邦学习参与节点的公钥pk以及与之对应的私钥sk。ICL链层将公私钥派发给各个EN,且公钥不存储在ICL链上公共钥匙库。
p,要求p-1有大质数因子,然后构造一个p阶的有限域ZpgZp乘法群的一个生成元。随机选取∈[1,p-1]为RCL私钥,通过式(5)计算得到RCL公钥。ICL链层将私钥派发给各个RAs监管节点,公钥存储在ICL链上公共钥匙库中。
在CLRI交互过程中,首先需要生成系统参数。系统参数在区块链网络中是唯一的,其存储在区块链的分布式账本中,且一旦设定完成便无法修改。系统参数供智能合约和应用端在完成信息交互过程中使用,为风险信息交互双方提供零知识证明证据、生成密钥以及加密风险数据等。系统参数具体生成过程如下:基于Paillier算法,可以得到随机整数
g1、变量N、函数LN以及卡迈克尔函数。在此基础上首先通过式(6)计算得到一个系统参数k
将私钥记作Prv,公钥记作Pub。ICL链层将私钥Prv派发给各个EN,公钥Pub存储在ICL链上公共钥匙库中。
食品全程全息风险信息交互过程中,即使传输的是风险信息局部模型,但由于数据本身过于敏感,所以需要对风险信息局部模型进行加密处理。
在LMERI交互过程中,各个EN将其利用本地食品全程全息风险信息局部模型作为明文
m,要求m是小于N的整数;随机选取整数b,要求bN2 互质且小于N2 ;则通过食品全程全息LMERI对应的密文c表示为式(11):
k∈Zp-1,要求(kp-1)=1,利用Zp乘法群的一个生成元g、随机质数p、RCL公钥以及LMRRIM计算得到密文组Cc1c2c1c2分别如式(12)、(13)所示:
在CLRI交互过程中,食品全程全息某一环节下企业A作为CLRI明文来源方,企业A所属环节的相邻环节中上下游利益相关企业B作为CLRI明文需求方。企业A将CLRI
m作为加密对象,要求mN。随机选取两个整数r0r1,要求两个随机整数都小于N。企业A通过ICL链上公共钥匙库存储的企业B的公钥hB 以及系统参数Prm计算可得4 份密文cc0c1c2c3),分别如式(14)~(17)所示:
c2是零知识证明中CLRI来源方企业A对其明文m的承诺,可用来验证零知识证明的相等性证明。加密完成后,企业A与企业B按照ICL中继链跨链流程和跨链协议完成CLRI密文交互。
在LMERI交互过程中不涉及解密步骤,风险信息局部模型始终以密文形式传输,各个节点通过聚合这些局部模型密文从而更新局部模型以及全局模型,消除企业对敏感信息泄露的顾虑,使其能持续、主动地贡献优质风险信息局部模型。
在LMRRI交互过程中,为达到更好的监管效果以及训练更好的风险信息全局模型,RCL需要用式(18)对收到的加密LMRRI进行解密:
在CLRI交互过程中,企业B收到企业A通过ICL中继链交互的CLRI密文后,通过企业B的私钥
XB 、密文c中的c0 和c2 以及系统参数Prm计算可解密得到中间函数cm 如式(19)所示,风险信息明文m如式(20)所示:
XB 、密文c中的c1 和c3 以及系统参数Prm计算可解密得到中间函数cr 0 如式(21)所示,随机数r0 如式(22)所示:
在CLRI交互过程中,利用风险信息需求方的公钥进行加密,所得密文只能通过风险信息需求方的私钥才可解密。公钥存储在ICL链上钥匙库中供所有环节所有节点查询以及使用,私钥则由企业自己保管。通过这种方式,CLRI密文在区块链网络中所有节点流传,但只有风险信息需求方才能解密,达成了风险信息原始数据明文在特定上下游利益相关企业间的交互目的。
受限于数据量大小、网络状态、地理位置等因素,同步更新机制联邦学习面临着straggler的问题,即所有节点需等待最慢节点结束训练才可完成此轮学习,这大大降低了联邦学习的效率。而异步更新机制联邦学习参与者无需等待其他节点完成训练,但与数据需求者多频次交互提高了通讯成本,降低了模型精度。
本研究将同步更新机制算法与异步联邦学习思想结合,提出一种基于综合权重的通讯组划分算法,通过对节点网络状态和数据处理量的综合考虑,评估节点的算力。在训练开始前,将所有参与者按照综合权重进行划分,降低straggler的问题对效率的影响,同时保证模型精度,算法流程如下。
T1 。每个EN接收STD,并随机选出TE收集的风险信息中20%数据作为训练样本与STD一同按照训练要求进行模型聚合,并将局部模型上传给RCL,记录上传时间为T2 。RCL收集所有的局部模型后,按照式(23)计算每个EN的综合权重WEN ,其中为每一个EN进行模型训练的数据量,D为RCL收到的数据总量。
WEN大小降序排列,RCL按照数据总量、模型期望准确率和最大训练轮次规定参与方比例记为∈(0, 1],按进行分组,每个通讯组记为DGi (i=1, 2, 3, …)。ENs间以及EN与RA间共享局部模型时,会按照DGi 的升序顺次完成当轮联邦学习。
食品全程全息风险信息可信共享模型采用分层联邦学习训练和更新模型,本研究设计了一种分布式联邦学习算法,流程如下。
1)RCL制定并下发联邦学习任务:监督链层作为数据请求者负责制定联邦学习任务并下发至各个企业。联邦学习任务中需要包含基于食品全程全息对应的国家标准及相关要求的训练方法、时间、风险权重
2)LCL进行联邦学习:食品全程全息全部企业的所有TE不断收集风险信息,在收集一定量的本地数据之后,EN按照联邦学习任务的要求训练一个风险信息局部模型,将训练结果广播到所属环节的所有ENs,这个训练结果定义为LCL本地风险模型(LLMR)。
3)LCL发布区块:在既定的时间间隔内,每个EN不断地收集LLMR,并将所收集的全部LLMR打包到候选区块。在经过区块验证和达成共识之后,包含当前环节所有企业学习结果的区块将被记录在LCL的分布式账本LDL中,用以进行下一步联邦学习。
4)RCL进行联邦学习:在RCL中,每一个EN作为联邦学习参与者利用本地风险信息数据、与上下游企业间交互的风险信息数据以及LDL上记录的学习结果训练一个新的局部模型,并通过ICL将局部模型广播到所有RA节点。这个训练结果定义为RCL本地风险模型(RLMR)。同一环节EN组成的LCL作为联邦学习参与者定义为ENs。
5)RCL发布区块:在既定的时间间隔内,每个RA不断地收集RLMR,并将所收集的全部RLMR打包到候选区块。在经过区块验证和达成共识之后,包含所有环节所有企业学习结果的区块将被记录在RCL的分布式账本RDL中,用以训练全局模型。
6)全局模型与权重更新:RCL通过本轮所有环节所有企业的学习结果,对每一个企业提供的风险信息进行权重评估。通过更新后的权重
R和RDL中的学习结果训练当前学习轮次的全局模型。最后,RCL检查损失函数是否收敛或已达到最大训练轮次,若是,则停止训练;若否,则将全局模型广播给所有ENs,开始新一轮学习。
同一企业内与同一环节企业间的风险信息样本重叠较少,但风险信息特征大致相同,所以这部分联邦学习为横向联邦学习。本研究设计的分布式联邦学习算法以联邦平均算法(FedAvg)为基础 ,用区块链代替传统算法中的中央服务器。使联邦学习过程中数据不可篡改,支持追溯恶意模型提供者,增强模型的鲁棒性。在保证模型训练质量的同时,能够使分布式学习结果更加接近于集中式学习。算法设计如下:
K为风险信息局部模型训练参与方总数,风险信息全局模型参数初始值为0 ,风险信息局部模型训练全部参与方风险信息样本总数为n,第k个参与方拥有的数据样本数为nk ,批样本大小为B(把nk分成大小为B的块),训练轮数为E,参与方比例为C,局部模型学习率为,代优化的目标函数为minf),其中Rf)计算如式(24)所示:
对每个数据集上个例(i ,yi )的预测损失为fi ()。则损失函数的表达式见式(25)。第k个参与方的目标函数为Fk (),其表达式见式(26):
综上,结合模型和生产实际需求,本研究提出的基于区块链的分布式联邦平均算法代码如下:
按照风险信息来源样本不同,将六大环节涉及企业划分为:原材料、过渡以及成品上下游企业,如图4所示。其中生产、收储企业只涉及食品原材料环节;加工企业作为过渡企业,既涉及食品原材料环节,又涉及食品成品环节;仓储、物流、销售企业只涉及食品成品环节。供应链CLRI交互过程在上下游利益相关企业间进行,以“仓储-物流-销售”3 个局部环节为例,物流环节的样本A在仓储和销售环节同样存在,但因环节变化,风险信息特征聚焦点不同,所以这部分联邦学习为纵向联邦学习。同时RCL中所有RAs接收六大LCL的ENs共享风险信息局部模型,以纵向联邦学习思想聚合最终的全局模型。
本研究中选择纵向联邦学习算法FedBCD-p聚合纵向联邦学习过程中的风险信息模型 。 此算法具体流程如下。
K个风险信息模型训练方,其基于N个风险信息样本训练风险信息局部模型,特征向量Xi 分布在Kk 是k方的特征维度。
为训练参数;k为第k个训练方的训练参数;为超参数;fS)为损失函数;k)为正则化器。
NS是风险信息S中的样本数量; 是训练方k拥有的标注风险信息的数据标签;g是损失函数对Hi的偏导结果。为了在局部计算∇kf(kS),每一个k∈[K-1]将 发送给K方,然后K方计算 并发送给其他风险信息局部模型训练方,最后所有风险信息局部模型训练方根据式(32)计算梯度更新。
k∈[K]并行执行Q>1个连续的风险信息局部模型更新,然后在风险信息局部模型训练方之间传输中间结果。在训练方本地执行多个本地步骤,可以显著降低通讯成本。
k个特征,其中S是小批量的数据点,则第k个参与方此轮的梯度更新k如式(37)所示:
结合以上所有公式给出并行联邦随机块坐标下降算法FedBCD-p的总体流程,如算法2所示。
实验阶段以食品安全风险评估为背景进行仿真,以国家市场监督管理局食品日常监督管理抽检数据为基础,对本研究提出的基于区块链和联邦学习的食品全程全息风险信息可信共享模型的可行性与安全性进行验证,并最终实现对食品及食品添加剂中存在的化学性、生物性以及物理性危害可能对人体健康造成的影响,围绕危害的识别及特征描述、暴露评估、风险特征描述等进行科学评估,以期为食品安全监管部门和国务院卫生行政部门提供有关食品风险评估的科学决策依据,推动我国食品安全管理由末端控制向风险控制转变,由经验主导向科学主导转变。
本研究提出的可信共享模型通过区块链网络实现数据共享,企业和监管节点在各自所属链层通过协作的方式决定当前的风险信息交互是否被确认和添加到区块链网络中,可有效避免恶意竞争企业上传错误的食品全程全息风险信息数据或对违规超标的风险信息数据进行篡改,以逃避监管机构的处罚。确保了所有节点在不需要信赖第三方机构的情况下对链上食品全程全息风险信息数据摘要存储与交互的一致性,使本模型更加安全、可靠、可信。
采用联邦学习实现风险信息模型数据的聚合,其使得各个企业不需要共享食品全程全息风险信息明文,而只需共享梯度等模型参数。风险信息原始数据自始至终不出企业本地,进一步加强了对食品全程全息风险信息敏感数据的保护。
采用同态加密和零知识证明算法对交互数据进行加密传输,以避免恶意节点利用反转批平均梯度等方法暴力破解原始数据。本研究选用基于伪随机数生成器的逆转法生成3 种加密算法对应的3 副密钥对及其随机参数,确保加解密过程涉及的参数具有不可预测性、随机性和无周期性。而选择随机足够大素数时,采用先选取某一足够大随机数,然后再判别此数是否为素数的策略。结合联邦学习过程中需要对数据进行计算以达到模型聚合的需求,选用Paillier同态加密算法对企业级风险信息模型进行加密传输与解密,此算法基于复合剩余类难题,即给定一个合数
n和整数z,确定modn2 的n阶剩余数z是否存在是几乎不可能的,难题的困难性保证了此算法的安全性;选用Elgamal同态加密算法对监管级风险信息模型进行加密传输与解密,其安全性是基于求解大数离散对数难题的困难性,即给定一个离散对数关系ygmodp,已知gy,求解,目前数学手段还无法求解,所以此算法的安全性得到了保障;最后将零知识证明思想运用于CLRI加密传输过程中,可以使上下游利益相关企业中的数据拥有者在不泄露隐私信息的情况下向数据需求者证明并使对方相信其拥有此数据且能保证其正确性,协议的完备性、可靠性以及零知识性保证了信息交互的安全性。
以上3 种加密手段中,私钥由ICL生成后通过安全通道传递给目标企业,由目标企业自主保管。企业级风险信息模型加密过程涉及的公钥由企业自己保管,监管级和CLRI加密过程涉及的公钥由ICL生成后保存在链上公共钥匙库内,非法企业无法窃取私钥,进一步保证了食品全程全息风险信息数据的安全。
本研究仿真数据集来源为某地区人民政府门户网站上公开的该地区2022—2023年食品监督抽检合格与不合格信息总和。将原有数据集16 项特征进行筛选,保留5 个核心样本特征:食品名称、食品类别、检测项目、检测值、国标值。实验样本聚焦农业农村部等国家监管部门联合实施的“治违禁控药残促提升”行动治理对象“三棵菜”(豇豆、韭菜、芹菜)中的豇豆。筛选出豇豆样本5 000 例,涉及检测项目6 类:克百威、氧乐果、阿维菌素、百菌清、倍硫磷、磷。
本研究提出一种食品全程全息风险信息等级划分方法,旨在使评估结果更加精准直观。如表1所示,以某农残物A为例,其在某蔬菜a上检测值为
v,A在蔬菜a中的最新国标值为X。如果实际检测值v小于0.6 倍的国标值X,则被检测蔬菜风险等级为低风险;如果实际检测值v大于等于0.6 倍的国标值X,但小于国标值本身,则风险等级为中风险;如果实际检测值v大于国标值X,则风险等级为高风险。
某检测项目在国标中规定具体限量范围的,将范围替换为具体数值,例如用“0.2”替换“≤0.2”;某检测项目在国标中规定是否检出的,将检测/未检测到该检测项目用“1/0”代替。本文对数据的预处理严格按照食品安全国家标准:GB 2762—2022《食品中污染物限量》、GB 2763—2021《食品中农药最大残留限量》、GB 31650—2019《食品中兽药最大残留限量》等执行,预处理完成后的部分数据见表2。
将数据集进行数字化处理:食品名称定义为联邦学习样本“id”;食品类别、检测项目、检测值、国标值依次定义为“
3 ”;风险等级作为风险评估指标定义为“y”,并在联邦学习中作为“label”值。5 000 个豇豆样本按照1~5 000的自然顺序依次编号作为“id”。食品类别“0 ”中,将蔬菜及其制品类规定为“1”。检测项目“1 ”中不同危害物种类用不同数字进行替代。风险等级“y”按照低、中、高顺序,依次定义为“0”“1”“2”。联邦学习数据集方面,将5 000 个数据随机打乱,拿出1 500 条数据作为测试集,之后按照不等分原则将剩余的3 500 条数据分为5 个部分,分别代表豇豆生产环节5 个不同的企业A、B、C、D、E。处理好后的数据集转化为.csv格式用以进行模型训练,企业A部分数据如表3所示。传统机器学习数据集方面,则是将所有5 000 条数据采用批量梯度下降算法进行集中式训练,特征与标签选择和联邦学习组保持一致。
联邦学习的底层模型选用逻辑回归模型,将FedAvg和FedBCD两种联邦学习聚合算法内嵌到逻辑回归模型中,其中基于逻辑回归的FedAvg算法用以进行横向联邦学习,记作FedAvg-HoLR;基于逻辑回归的FedBCD算法用以进行纵向联邦学习,记作FedBCD-HeLR;没有用到联邦学习的传统逻辑回归模型记作逻辑回归(logistic regression,LR)。算法配置方面以横向联邦学习训练算法配置为例,规定了步长为0.02、学习率为0.1、最大迭代次数为1 000、label分类标准为多分类等。
本仿真实验中,用训练集进行模型训练时,模型以食品类别、检测项目、检测值、国标值作为学习特征,将已知的食品风险等级输出为
y,作为label指标给出,供模型进行学习。而在用测试集进行评估测试时,模型训练的4 个特征不变,但已知的食品风险等级将不再作为label指标给出,测试集label一列将以空白的形式出现,模型利用学习成果对测试集食品风险等级进行自主评估。利用评价指标准确率(Accuracy)表示模型正确预测食品风险等级的样本数与总样本数之比。
局部性能测试阶段,以某一节点为例,将局部LR与FedAvg-HoLR、FedBCD-HeLR进行比较。其中局部LR中使用该节点被分配的训练集进行模型训练;FedAvg-HoLR、FedBCD-HeLR中该节点与其他子节点利用各自本地数据集参与联邦学习,最终通过聚合算法得到全局模型。3 种算法在局部性能测试阶段的准确率指标结果如图5所示。
由图5可知,局部LR准确率远低于两种联邦学习模式,因为局部LR将最小化其本地数据集损失作为训练目标,仅可得到局部最优解,对于联邦学习模式下得到的全局最优解存在一定差距。
全局性能测试阶段,将全局LR与FedAvg-HoLR、FedBCD-HeLR进行比较。其中全局LR中采中央服务器聚合形式,将所有训练集数据用于模型训练。FedAvg-HoLR、FedBCD-HeLR中仍采用联邦学习模式进行模型训练。
3 种算法在测试过程中的损失函数值(loss)指标分析结果如图6所示,3 种算法在进行模型训练时,其损失函数值都能在500 个epoch通信轮次之前逐步下降直至趋于平衡,且损失函数值最终都趋于0.37左右,可知3 种算法通过本模型进行联邦学习时,最终都能得到收敛的训练模型,且模型的健壮性和鲁棒性都较好。
将评估结果与测试集已知的食品风险等级label标签进行比较,其对比结果以混淆矩阵形式给出,如表4所示,准确率指标分析结果如图7所示。
由表4和图7可知,FedAvg-HoLR算法准确率为95.4%,FedBCD-HeLR算法准确率为95.2%,两种联邦学习算法较传统LR算法的准确率(95.8%)分别低0.4%和0.6%,3 种算法准确率都在95%以上。通过仿真测试可知,两种算法依托于基于区块链和联邦学习的食品全程全息风险信息可信共享模型,对未知风险等级的食品进行风险评估时,可得到比子节点单独训练模型时更高的准确率,且联邦学习训练效果与传统中心化机器学习较为接近。验证了模型的可行性以及证明了其在实际生产生活中拥有较优的性能。
本研究深度挖掘食品行业风险信息共享困难、数据易泄露的问题,同时严格依附于实际生产生活中各个生产阶段不同角色对敏感风险信息交互的不同需求,提出了基于区块链和联邦学习的食品全程全息风险信息可信共享模型。运用区块链、联邦学习技术,在支持各个EN风险信息敏感数据不出本地的同时,运用FedAvg横向联邦学习聚合算法和FedBCD纵向联邦学习聚合算法实现对不同结构联邦学习过程中模型的有效聚合;基于Paillier和Elgamal两种加密算法分别实现对企业级与监管级风险信息模型的加密共享;引入中继思想构建ICL中继链,通过零知识证明思想实现CLRI的安全交互。本研究创新性地将分层区块链以及联邦学习架构运用于食品领域,将区块链多链、跨链思想融入联邦学习过程,对风险信息进行多次分级聚合,提高了模型训练质量,也更加符合实际生产生活需求。本研究提出的基于区块链和联邦学习的食品全程全息风险信息可信共享模型能够保护食品供应链上各方敏感风险信息的安全,实现对风险信息的分级加密共享。
本文《基于区块链和联邦学习的食品全程全息风险信息可信共享模式》来源于《食品科学》2024年45卷15期1-12页。作者:张新,谭学泽,王小艺,赵峙尧,于家斌,许继平。DOI:10.7506/spkx1009-046。点击下方阅读原文即可查看文章相关信息。
实习编辑:陈丽先;责任编辑:张睿梅。点击下方阅读原文即可查看全文。图片来源于文章原文及摄图网
为深入探讨未来食品在大食物观框架下的创新发展机遇与挑战,促进产学研用各界的交流合作,由北京食品科学研究院、中国肉类食品综合研究中心、国家市场监督管理总局技术创新中心(动物替代蛋白)及中国食品杂志社《食品科学》杂志、《Food Science and Human Wellness》杂志、《Journal of Future Foods》杂志主办,西华大学食品与生物工程学院、四川旅游学院烹饪与食品科学工程学院、西南民族大学药学与食品学院、四川轻化工大学生物工程学院、成都大学食品与生物工程学院、成都医学院检验医学院、四川省农业科学院农产品加工研究所、中国农业科学院都市农业研究所、四川大学农产品加工研究院、西昌学院农业科学学院、宿州学院生物与食品工程学院、大连民族大学生命科学学院、北京联合大学保健食品功能检测中心共同主办的“第二届大食物观·未来食品科技创新国际研讨会”即将于2025年5月24-25日在中国 四川 成都召开。
为进一步深入探讨食品产业在当前复杂多变环境下的高质量发展路径,并着重关注食品科学、营养安全保障的基础研究与关键技术研发,贯彻落实“大食物观”和“健康中国2030”国家战略,北京食品科学研究院和中国食品杂志社《食品科学》杂志、《Food Science and Human Wellness》杂志、《Journal of Future Foods》杂志,将与国际谷物科技协会(ICC)、湖南省食品科学技术学会、湖南省农业科学院农产品加工研究所、湖南农业大学、中南林业科技大学、长沙理工大学、湘潭大学、湖南中医药大学、湖南农业大学长沙现代食品创新研究院共同举办“第十二届食品科学国际年会”。本届年会将于2025年8月9-10日在中国 湖南 长沙召开。
猜你喜欢
- 12-27AICoin顶级挖矿平台ATMs再发币!
- 12-20AICoin公链在项目中的重要性以
- 08-19AICoin区块链赋能知识产权保护
- 01-12AICoin多元生态公链在全球首创
- 12-20AICoin公链的关键技术与应用
- 11-04AICoinBase生态爆发:TVL突破385亿
- 02-13AICoin公链开发技术的无限可能
- 06-13AICoin武汉区块链知识产权保护
- 07-12AICoin区块链赋能绿色低碳供应