中唇多巴胺适应了行动的学习率

  所有方案和动物处理程序均严格按照协议(第19-190号)的规定(第19-190号)进行 ,并由Janelia机构动物护理和使用委员会批准,并符合评估和认证实验室动物护理协会规定的标准 。   For behaviour and juxtacellular recordings, we used 24 adult male DAT-Cre::ai32 mice (3–9 months old) resulting from the cross of DATIREScre (The Jackson Laboratory stock 006660) and Ai32 (The Jackson Laboratory stock 012569) lines of mice, such that a Chr2–EYFP fusion protein was expressed under control of the endogenous dopamine transporter Slc6a3特异性标记多巴胺能神经元的基因座。将小鼠维持在没有特定的无病因条件下。小鼠被安置在独立的,单独通风的(每小时大约60个空气)架上(Allentown Inc.) 。固定室用100%的外部过滤空气进行通风 ,每小时更换> 15个空气 。每个通风的笼子(Allentown)都配有玉米库床上用品(Shepard特色纸) ,至少8克嵌套材料(Bed-r’est,Andersons)和红色小鼠隧道(Bio-Serv)。将小鼠保持在12:12-H(上午8点至下午8点)的光/黑暗周期中,并在9点至下午3点之间进行记录。保持室温保持在21±1°C ,相对湿度为30%至70% 。随意提供了辐照的啮齿动物实验室Chow(Labdiet 5053)。在从头顶植入手术中恢复至少4天后,动物的耗水量至少在训练前至少3天,至少每天1.2毫升。如果小鼠降至原始体重的75%以下 ,则每天接受健康检查,并减轻水限制 。   在≥3天内长度增加的多个会话中,小鼠在与记录钻机的单独区域中习惯于头部固定。在此期间 ,他们通过注射器收到了一些手动水管理。然后将小鼠习惯于头部固定,同时在录制钻机中的弹簧悬浮篮中休息至少两次30分钟以上的时间,然后进行训练 。在此记录钻机适应期间 ,没有给予液体奖励;因此,数据中的试验1代表幼稚小鼠在训练环境中首次获得液态水奖励。奖励由3μl的水组成,这些水是通过在螺线管控制的舔端口传递的非含量甜味剂糖精中加糖的。在“提示 ”试验中 ,一个0.5-s ,10 kHz的音调先于奖励交付1.5 s,而随机选择的奖励中有10%是“未付出的” 。在三个课程之后,与以前的培训计划9相匹配 ,小鼠还经历了“遗漏”探针试验,其中提示被交付但没有奖励,但在10%的随机选择试验中。从随机置换的指数分布中选择中间间隔 ,平均值约为25 s。环境室的噪音为50–55 dB,在水输送时,伴随着螺线管开口的可听见 ,预测性音调约为65 dB 。小鼠每次会议进行100次试验,每天进行一次一次会议,持续8-10天 。在以前的试点实验中 ,观察到,在类似的间隔间隔中,在150-200试验中 ,某些小鼠对提示和奖励的行为反应开始减少。因此 ,选择每个会话限制的100次试验以确保整个数据集的动机参与度的同质性。   一些动物接受了与奖励交付同时发生的VTA -DA神经元的光遗传刺激,取决于其在延迟期间的行为(请参见下面的技术详细信息) 。训练前,将小鼠随机分配到刺激组(对照 ,Stimlick-,Stimlick+)。在数据收集过程中,实验者并未对群体身份视而不见。在有或没有外源多巴胺刺激的痕量调节之后 ,五只小鼠经历了一次额外的疗程,在此期间,VTA -DA神经元与提示呈现同时刺激了VTA -DA神经元(扩展数据图4) 。然后将小鼠随机分配给组进行新实验 ,在该实验中,轻度提示预测了没有并发液态水奖励的VTA -DA刺激(5-7天,每天150-200次试验)。光提示由500毫秒的闪光闪光灯组成 ,该闪光是蓝色的发射二极管(LED),该二极管(LED)针对头部固定的墙壁。从随机置换的指数分布中选择中间间隔,平均值约为13 s 。补充表1列出了每只小鼠在经历实验的顺序中分配给的实验组。   面部视频在每个会话中连续捕获100 Hz ,单个摄像头(跳蚤3 ,FLIR)位于头部固定点,与水平的角度约30º角,并用J. Keller编写的自定义代码压缩并流式传输到磁盘(可在https://github.com/neurojak.com/neurojak/neurojak/phinc.plincapture)。在钻机中保持了昏暗的可见光 ,以使学生不会过于扩张,并且在面部训练的红外LED(模型#)为视频捕获提供了照明 。视频已根据要求提供了可用的自定义MATLAB代码的后处理。   简而言之,对于每个会话 ,每个测量的矩形区域(ROI)是根据500个随机绘制帧的平均值定义的。估计瞳孔直径是通过MATLAB RegionProps函数检测到的物体的主要和次要轴的平均值,通过将图像降低到分离光和深色像素,然后施加圆形平均过滤器 ,然后扩张并侵蚀图像,然后删除噪声 。这种去除噪声过程是由于眼前的晶须通过通过的帧而扭曲的,并且小鼠之间的面部照明略有差异 。对于每个会话 ,通过在实际图像上覆盖估计的瞳孔,以大约20-50个随机绘制的帧覆盖拟合的适当性。可以更改一个变量,即深/光像素阈值值 ,以确保每个会话的最佳拟合。在使用图像登记算法(MATLAB IMREGDEMONS)估算的ROI Y轴中提取鼻子运动为像素位移的平均值 。晶须垫运动被估计为帧之间的晶须垫ROI的绝对差异(MATLAB IMABSDIFF;这足够准确地定义了晶须 ,并且所需的计算时间比IMRegDemons少得多。确定鞭打是在阈值上方的垫子运动的交叉处确定的,并且通过与平滑的内核进行卷动垫运动连续进行搅拌。随着面部和Lick端口之间的ROI的矩像素强度的瞬间强度越过阈值,将舔舔 。   人体运动被总结为篮子运动 ,由三轴加速度计(Adafruit,ADXL335)记录在悬挂在Springs(Century Spring Corp,ZZ3-36)下的定制设计的三维印刷篮子的底面。通过低通滤波加速度计2.5 Hz跟踪相对篮子位置。使用Arduino Mega硬件(https://www.arduino.cc) ,刺激和提示交付与定制写的软件协调 。使用CEREBUS信号处理器(BlackRock Microsystems)同步记录所有测量和控制信号(行为数据为1 kHz,用于行为数据为1 kHz,用于光纤光度法数据)。使用MATLAB软件(Mathworks)分析数据。   为了描述行为适应和奖励收集绩效之间的关系 ,创建了对照组A中的每只鼠标,以预测每个试验中的预备和反应性预测变量的奖励收集潜伏期 。通过测量提示奖励之前的1-S延迟期间的每个信号的平均值来量化舔,鞭打 ,身体运动和瞳孔直径的预备变化。鼻子运动信号不包括在内,因为它没有显示一致的准备变化。质量,鼻子运动和身体运动中的反应反应是奖励交付后第一个响应的潜伏期 。对于搅拌 ,这只是奖励交付后搅拌的第一刻 。为了进行鼻子运动 ,将原始信号与平滑的内核进行了卷积,然后将第一个响应视为信号累积总和的阈值交叉。对于身体运动,响应被检测为奖励交付后数据中的第一个峰。在偶尔试验中 ,在分析窗口中未检测到任何事件 。此外,由于鼠标3,第7节的数据收集错误 ,由于数据收集错误而丢失了离散试验块;鼠标4,会话5;和鼠标9,第4节。为了通过这些缺乏的数据点拟合学习曲线 ,使用最近的邻居插值填充了丢失的试验。   试用奖励收集潜伏期和预测变量(预备,搅拌,身体运动和学生直径;以及反应性的鼻子运动 ,搅拌和身体运动)是中值过滤(MATLAB MEDFILT1(信号,10)),以最大程度地减少培训方差的试验差异 。使用MATLAB GLMFIT预测Z尺寸的预测变量的收集潜伏期是为每个预测变量拟合β值的。每个预测变量的独特解释方差被计算为在不使用该预测指标的情况下拟合β值的整个模型和部分模型之间解释方差的差异。   预备和反应性预测变量用于定义抽象学习轨迹 ,这些轨迹是收集潜伏期的图 ,针对第一个800个800个提示 - 奖励训练试验中的每个提示和预备变量 。反应性和准备变量计算为GLM拟合中使用的个体反应性和预备变量的第一个主要成分。为了进行可视化,我们将参数模型拟合到所有三个变量(用于使用MATLAB拟合函数的准备性和延迟的双重指数的单个指数)。通过目视检查所有小鼠的所有数据,可以验证拟合质量和模型的选择 。然后 ,通过绘制拟合功能的下采样版本来可视化单个小鼠的轨迹,以进行延迟,反应性和准备性。箭头放置在对数间距试验中。   为了量化训练中给定点的每只小鼠的总准备行为总数(最终的准备行为 ,扩展数据图3F),将每种预备措施(瞳孔,舔 ,搅拌和身体运动)进行z评分,并将小鼠跨小鼠组合为单个数据矩阵 。计算此矩阵的第一个主要成分,并将加载到PC1上定义为衡量行为策略的基本“预备 ”组成部分的量度 。这产生了所有预备措施的同样加权 ,方差分布的组合,以允许单个小鼠之间的比较。使用类似方法将反应变量的维度降低到一个“反应性 ”维度,该维度捕获了动物跨动物的反应性行为变量的大多数差异(最终的反应性行为 ,扩展数据图3G)。通过多重回归(特别是 ,在训练结束时,通过多重回归(特别是)通过多重回归(特别是对全部动物生理信号数据矩阵的数据矩阵乘以数据矩阵的数据矩阵),从700-800的试验中预测了最初的NAC – DA信号 。   在一次手术课程中 ,收到的Dat-cre :: AI32小鼠:VTA中的AAV2/1-CAG-FLEX-JRCAMP1B(150 nl)(在150 nl坐标-3.1 mm坐标 - 前置(A-P),1.3 mm内侧 - 内部(AT)和4.在Bregmma,4.黑质NIGRA PARS CMPSACTA(坐标为100 nL -3.2 mm A – P ,0.5 mm m – L,深度为4.1,mm);自定义0.39-Na ,200-μm纤维套管在VTA上方植入双侧(-3.2 mm A – P,0.5 mm M – L,深度为-4.1 mm);和纤维套管单方面植入DS(0.9 mm A – P ,1.5 mm M – L,深度为2.5 mm)和NAC(1.2 mm A – P,0.85 mm mm M -L ,深度为4.3 mm)。半球的选择是在个人之间平衡的。该方法的详细描述先前已发表56 。   成像在使用定制的光纤光度法系统(图2A)56开始后开始> 20天。通过五端口滤波器立方体(FMC5 ,Doric镜头)可以同时测量RCAMP1B和EYFP荧光,后者的目的是控制存在运动人工伪像。纤维耦合的LED为470 nm和565 nm(M470F3,M565F3 ,Thorlabs)与激发端口连接,其接受带宽分别为465–490 nm和555-570 nm,分别为200-nm ,200-mm,0.22-mm,0.22-na na fibers(doric lesess) 。通过200μm核 ,0.39-Na纤维(Doric镜头)在陶瓷钢铁中终止的样品端口和动物之间的光线传达,该陶瓷纤维终止于陶瓷纤维套管,该陶瓷纤维套管通过使用缝制式凝胶型粘合glab效率(g608nnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnny3333030303)。从单独的输出端口(发射带宽500–540 nm和600–680 nm)中测量从样品纤维收集的光 ,通过600-μm核,0.48-NA纤维(Doric镜头)连接到硅光子(2151,Newport)。   使用了时间划分策略 ,其中以100 Hz的频率(1 ms ON ,10 ms关)控制LED,相互抵消,以避免在通道之间进行串扰 。Y型电缆将每个LED输出分配在过滤器立方体和光电探测器之间 ,以测量输出功率。LED输出功率为50–80μW。这种低功率与用于多路复用的10%占空比相结合,可以防止局部CHR2激发56乘473 nm EYFP激发 。在其LED输出功率高时,仅通过将数据从每个通道中保留 ,从而在后处理中恢复了激发特定的信号 。将数据降低至100 Hz,然后使用二阶Butterworth滤波器在0.01和40 Hz之间过滤频带通话。尽管将小鼠在钻机中被固定时(可移动篮的设计以最大程度地减少颅骨的运动)时,运动伪影是可以忽略的 ,但根据标准程序,EYFP移动工件信号的最小二乘拟合是从JRCAMP1B信号中减去EYFP移动工件信号的最小二乘。通过将原始信号除以在整个会话中定义为多项式趋势(MATLAB降低)的基线来计算DF/F 。保留的局部慢速信号在校正光漂白时会发生变化。使用Z得分DF/F进行了小鼠之间的比较。   确定分析窗口并建立自定义代码以量化光纤光度法信号和行为测量时,实验者对分析的初始阶段中的群体身份视而不见 。选择分析窗口以捕获每种刺激后平均体相动激活的程度。对于NAC – DA和VTA – DA ,奖励交付后0到2 s量化了奖励响应,并且提示交付后0到1 s量化了提示响应。DS – DA表现出更快的动力学,因此在输送后从0到0.75 s量化了奖励和提示反应 。   用473 nm激光器(50 MW ,OEM激光系统)通过分支纤维贴片线(200μM ,Doric透镜)与VTA植入的纤维一起使用陶瓷搭配套管进行体细胞CHR2激发。将30 Hz的爆发激活(10毫秒开,23 ms折)的持续时间为150毫秒,用于校准刺激或500毫秒以用于大型刺激。为了进行校准刺激 ,将激光功率设置在1至3 MW(稳态输出)之间,以产生与在会话的前几个试验中观察到的最大瞬变相似振幅的NAC-DA反应性 。事后证实,这大约使与奖励相关的NAC-DA瞬变大小翻了一番(图3A和5B)。对于大型刺激 ,将稳态激光输出设置为10 mW。   这项建模工作的一个重要方面是创建一种生成代理模型,该模型将产生小鼠奖励行为的核心方面 。为此,我们专注于舔 ,这在此任务的背景下是行为的独特方面,这对于收集奖励至关重要 。读者可以在软件存储库中查看dlrnn_pcheck_transfer.m的函数,以欣赏工厂模型的结构。我们在这里简要描述植物的功能。众所周知 ,在消耗性的,重复的舔小鼠期间,小鼠的预备期约为7 Hz 。我们建模了一个简单的固定速率植物 ,具有活跃的“舔”状态 ,该状态在固定时间间隔内排放出观察到的舔声。相对于进入舔状态的舔模式的开始是在间隔的可变阶段开始的(从过渡到舔状态的平均延迟到舔态的平均潜伏期约100毫秒)。“休息”和“舔 ”状态之间的随机过渡受到前进和向后过渡率的管辖 。反向过渡速率是一个常数,取决于奖励的存在(无奖励的5×10-3 ms,5×10-1 ms ,并带有奖励)。向后速率的这种变化捕获了消费舔次比赛的平均持续时间。远期利率受缩放策略网络输出的影响,背景趋势是过渡到试验时间的函数(类似于指数上升的危险函数; = 100 ms) 。策略网络的输出单元是RNN输出单元的总和(通过Tanh激活函数约束{-1,1})和与感觉权重成正比的大型反应性瞬时({0,max_scale}) , 其中max_scale是一个自由参数,通常在初始化期间从5到10。该净输出按s = 0.02 ms -1缩放,以将策略输出中的缩放率转换为缩放率。在扩展数据中说明了植物对一系列策略的行为图2 。探索了许多参数化的结果。选定的参数是通过扫描许多不同的模拟和匹配动物种群中提示 - 奖励配对的平均初始和最终延迟来得出的。可以在提供的代码中探索从RNN输出到过渡速率的过渡的更复杂的版本(高通滤波 ,非线性缩放) 。但是,发现所有转换都会产生定性相似的结果,因此选择了最简单(标量)转换以进行报告以清楚显示 。   正如主要文本中指出的那样 ,模型的RNN组成部分以及用于培训的学习规则引起了参考文献的灵感。36,本身借鉴了节点扰动方法的灵感变体61和经典的策略优化方法称为增强规则3,21。简要介绍,参考 。36证明 ,一项相对简单的学习规则 ,该规则计算了输入变化与输出变化之间相关性的非线性函数乘以目标性能的变化与分析梯度的相关性足够相关,以允许对RNN的有效训练。相对于这项先前的工作,我们实施了一些更改。在下面 ,我们深入研究了此处实施的学习规则,或者读者可以检查评论的开源代码,以进一步澄清 。首先 ,我们在模型的上下文中描述了RNN的结构及其功能的某些核心方面。RNN的构建很大,如参考文献中所述。36,并且与该模型重新实现的结构非常可比 。62。   Although we explored a range of parameters governing RNN construction, many examples of which are shown in Extended Data Fig. 2, the simulations shown in the main results come from a network with 50 units (Nu = 50; chosen for simulation efficiency; larger networks were explored extensively as well), densely connected (Pc = 0.9), spectral scaling to produce preparatory dynamics (g = 1.3), a characteristic time constant ( = 25 ms) and a standard单个单位的Tanh激活函数。根据方程式(在RNN-Dudlab-Master-l-learnda.m)中分配网络的初始内部权重(WIJ)   RNN具有一个单一的主要输出单元 ,其活动构成了行为工厂的连续时间策略(即π(t))输入(请参见上文),而“反馈”单元没有像标准的那样将网络投射回该网络,而是用于在学习率中产生适应性变化(在下面的学习规则中描述了更详细的详细信息) 。   根据目标函数计算模型性能的评估 ,该目标函数将成本定义为性能成本(公式(2),COSTP)和可选的网络稳定性成本(等于等式(4)和(4)和(5)的DLRNN-TRAIN_LEARNDA.M中的第269和387行(例如,第269和387行)(例如 ,第269和387行)   其中T是试验指数。在所有提出的模拟中 ,WN = 0.25。按照以下所述的学习规则,使用αR= 0.75的前36计算过过滤的平均成本r,用于更新方程中 ,用于更改网络权重 。对于所有常数,尝试了一系列值,其结果在定性上相似 。性能目标是由COSSP定义的 ,ΔT是在可用后收集奖励的潜伏期。网络稳定成本(COSTN)惩罚了在某些(但不是全部)模拟中可能出现的高频振荡动力学。到目前为止,这种振荡与观察到的神经活动动力学不一致 。   为了检查最佳性能所需的RNN的属性,我们通过数千种模拟网络配置(WIJ的随机初始化)进行了扫描 ,并根据其平均成本(ROBJ)对这些网络进行对50次试验进行的(ROBJ)进行对(ROBJ)进行50次试验(在扩展数据中显示了此类模拟的示例性小组。该分析揭示了最优性所需的RNN的一些关键方面。首先,一项预备政策从发现提示到提供水奖励的时间延伸时间可最大程度地减少潜伏成本 。其次,尽管最佳RNN对某些参数(例如PC)相对漠不关心 ,但它们倾向于需要耦合系数(G)1.2。已知该耦合系数的值范围可以确定RNN开发准备动力学的能力63。与这种解释一致,我们的发现表明,在具有较大领先特征值的RNN中观察到了最佳策略(扩展数据图2;即长期构成动力学64) 。这些分析将最佳策略定义为一项最佳策略 ,该策略需要跨越提示偏移和奖励交付之间间隔的输出单元活动的准备动态 ,并进一步揭示了具有长时间计算动力学的RNN才能实现这种策略。直觉:预期行为或“有条件的响应”,优化了收集延迟。如果代理人在奖励交付奖励时已经在舔,以收集奖励的潜伏期将最小化 。   在我们的实验中测试的所有小鼠都开始训练 ,没有预备的提示和长期潜伏期(约1 s或更多)来收集水奖励。这表明动物行为与整个试验中具有策略π(t)≈0的RNN初始化一致。如上所述,RNN的许多随机初始化可以产生清晰的准备行为甚至最佳性能 。因此,我们对RNN初始化(随机矩阵WIJ)进行了大量搜索 ,并且仅使用了输出单元中大约0个平均活性的初始化 。我们在报告的模拟中使用了各种不同的初始化(图1和扩展数据图2),实际上,根据初始条件 ,观察到的收敛速率可能存在实质性差异(因为跨小鼠也存在)。为了模拟个体差异(图1J和扩展数据图2),选择了不同的网络初始化(如上所述),并为控制初始化和初始化进行了配对的比较 ,其中输入权重从内部RNN单元的奖励中的权重增加了三倍。   在下面,我们阐明了模型首字母缩写词的每个方面ACTR(自适应率的增强绩效成本)如何反映在控制RNN更新的学习规则中 。先前已经讨论了此处使用的节点扰动变体与增强21之间的连接36。在ACTR模型中,由不同的学习规则控制的重量变化有两个关键的体重变化。首先 ,我们将讨论控制RNN(WIJ)“内部 ”权重的变化的学习 。该规则的想法是使用扰动(每个单元中的1-10 Hz扰动率;报告的模拟使用了3 Hz)来驱动活动的波动 ,并在输出单元的相应变化中驱动可以改善或降低性能的相应变化。为了解决时间信用分配问题,我们使用了类似于先前描述的资格痕迹36。这里的一个区别是,资格痕迹呈指数衰减 ,时间常数为500毫秒,尚不清楚衰减是否是先前工作的特征 。给定连接i,j的资格跟踪()可以在任何时间点通过计算ITH单元(i)输入中衍生物的乘积的非线性函数()和RNN中的jth单元(rj)的输出率(在DLRNNNN_ENGINE.MM)中的jth单元(RJ)的输出率来更改。   如参考文献中所述。36 ,该函数只需要是签名的非线性函数 。同样,在我们的模拟中,我们还发现可以使用一系列功能。通常 ,我们使用ϕ(y)= y3或ϕ(y)= | y |×y和仿真通常是后者,其运行速度更快。   然后,将原始配方中RNN中连接权重(WIJ)的变化计算为资格迹线的乘积 ,而PE的变化通过学习速率参数缩放 。我们的实施保留了计算的核心方面,但是进行了几个关键更新,并将描述 。首先 ,由于据信资格迹线被“读取”到突触中的塑性变化中 ,多巴胺射击58,我们选择评估从平行反馈单元的活性中估算出的多巴胺活性爆发时的资格(请参阅下面,请参阅下面的更多详细信息)。同样 ,不使用此惯例的模型也可能会收敛,但总体上比观察到的小鼠更差,差异不太相似。因此 ,更新方程是(例如,dlrnn-train_learnda.m中的第330行)   其中是基线学习率参数,通常在5×10-10-4±1×10-3和βDA的范围内使用 ,是“自适应速率”参数,是策略的非线性函数(sigmoid),策略的总和(sigmoid)在奖励时奖励时奖励时的奖励范围和奖励反应组件的幅度以及the the the the the the the the the IS t = 1 ,t = 1 = 1 =1 。sigmoid函数映射从{0,10}到{0,3}的输入,带有参数:σ= 1.25,μ= 7)(例如 ,在dlrnn-train_learlnda.m中的第259行):   如图1所述的行为数据的描述所述 ,很明显,动物行为表现出对提示的准备行为反应以及反应性学习的学习,从而减少了感觉输入(提示或奖励)和电动机输出之间的反应时间。这在早期训练中尤其突出 ,在此期间,即使在行为的准备成分中没有特别大变化的情况下,奖励收集潜伏期也会显着下降。我们将这种反应性分量解释为与文献中反应时间处理的“直接 ”感觉运动转化65 ,因此反应性学习更新了感觉输入和输出单元之间的权重(下面的RNN索引的一个特定元素) 。该反应性学习也根据PES进行了更新。特别是,ROBJ(T)与奖励交付时输出单元的活动之间的差异。对于提示,更新与提示的输出单位活动中的导数与奖励交付时的PE之间的差异成正比 。这些速率也通过相同的DA自适应学习率参数缩放(例如 ,在DLRNN-Train_learnda.m中的第346行):   其中ηi是基线反应性学习率,典型值在提出的模拟中约为0.02(再次测试了一系列不同的初始化)。   我们将完整的ACTR模型中的采集学习与使用多种方法观察到的小鼠行为进行了比较。对于两个关键参数ηi和ηw,我们扫描了大约两个数量级 。我们还旨在在一系列初始化范围内对模型进行采样 ,这些初始化大约涵盖了对照小鼠所表现出的学习曲线范围。为了扫描此空间,我们遵循以下步骤。我们初始化了具有随机内部权重和初始感觉输入权重的500–1,000个网络(如上所述) 。由于我们没有观察到最初表现出持续舔的小鼠,因此我们选择了六个网络初始化 ,预备策略大约是恒定和0 。对于这6个净初始化 ,我们进行了24个模拟,每个初始化都有4个条件。具体而言,我们模拟了初始权重= [0.1 、0.125、0.15、0.175]和基线学习率ηi= [2 、2.25 、2.5、2.75]×8×10-3。这些模拟的代表性曲线如图1J所示 。   为了可视化控制学习的客观表面 ,我们扫描了通过行为厂的一系列政策(反应性和预备组件的组合)。覆盖的反应性成分的范围为[0:1.1],预备力为[-0.25:1]。该范围对应于ACTR网络可实现的所有可能策略输出的空间 。对于每对价值,计算一项策略并通过了行为工厂50次 ,以估算平均性能成本。然后使用三维多项式(类似于用于实验数据的过程)拟合这些模拟,并将其视为三维表面。   在实验数据的情况下,使用所有小鼠(n = 7,200个观测值)的单个试验数据点的完整分布来拟合三维多项式(MATLAB; FIT) 。通过在拟合的二维表面上找到与参数预备和反应性轨迹的拟合二维表面上的最接近的相应点 ,将观察到的预备与反应性的轨迹叠加在该表面上。这些数据如图1J所示。   我们试图开发可拖动的模型的实验测试(例如,推断未观察到的策略) 。原则上,实验者可以在提示 - 奖励间隔内实时检测舔的实时检测。在模拟中 ,也可以通过监视行为植物的产出可以轻松观察到这一点。因此,在模型中,我们跟踪了个别试验和提示奖励间隔中产生的舔的数量 。为了进行分析实验(图5E) ,我们跟踪了这些试验 ,并根据试验类型分类(Lick– vs Lick+)分别计算了预测的多巴胺反应 。对于图5E中的模拟,我们从相同的初始化中进行了九个重复(与控制小鼠的数量匹配)和误差线的模拟,反映了标准误差。   为了模拟MDA神经元的校准刺激 ,我们将自适应速率参数βDA乘以2,对图5E报告的模拟的适当试验,我们使用了三个条件:对照 ,Stimlick和Stimlick+。对于这三个条件中的每一个,我们进行了9个模拟(3个不同的初始化,3个重复) ,用于27个总学习模拟(800个试验) 。这种选择是试图估算预期的实验差异,因为试验分类方案是基础政策的不完善估计。   在这里,我们提供了模型在伪代码中如何功能的描述 ,以补充主要图中的图形图以及以下单个元素的话语描述。   初始化试验到t = 0   用w(0),rew(t),提示(t)初始化ACTR   重复   运行用于试用的RNN仿真引擎   计算植物输入π(t)= o(t)+(t)   计算LICK输出L(t)=植物(π(t))   计算延迟以收集奖励TCollect←查找L(t)> Treeward   计算成本(t)= 1 -exp(-ΔT/500)   在收集←I ,J(tcollect)上评估资格跟踪   计算βDA= 1+ϕ(∆π(Trewward)+rew)   计算robj(t)= 1 - (1- exp(-ΔT/500)) - o(t ,Treward -1)   估计客观梯度pe = robj(t)-r(t)   计算更新∆W = - ηj××pe×βDa   更新W(t+1)←W(t)+∆W   更新奖励(t+1)←rew(t)+×robj(t)×βda   更新提示(t+1)←提示(t)+×robj(t)×βda   直到t == 800   in which T is the current trial and t is time within a trial, W is the RNN connection weight matrix, is the sensory input strength, O is the RNN output, π is the behavioural policy, ∆t = tcollect − treward, ϕ is the nonlinear (sigmoid) transform, R(T) is the running mean PE, ηJ is the baseline learning rate for W and is the baseline learning rate for input .   在图1K中,我们考虑了相当于多巴胺信号传导的三种模型变体,多巴胺耗竭和阶段性多巴胺活性的丧失 - 文献中已发表的所有操纵 。为了完成这些模拟 ,我们:将βDA更改为相等的PE;将βDA的偏移偏移到0.1。并将βDA更改为等于1,并去除了自适应项。   在图2中 。第3和5,将校准的刺激建模为设置βDA ,使其在正常学习下最大可能的βDA幅度加倍。在图2中。3c – e和5i,除了校准刺激效果外,我们还将未校准的多巴胺刺激建模为设置PE = +1 。   为了建模标准的TD值学习模型 ,我们重新完成了先前发布的模型,该模型跨越了参考文献的一系列模型参数化。66。   我们表达的ACTR模型旨在为幼稚的痕量调理学习提供合理的机械叙述:rnns;生物学上合理的突触可塑性规则;MDA神经元的概念上准确的电路组织;控制现实行为的“植物”;以及感官提示和奖励处理的多个组成部分 。但是,为了促进价值学习与直接政策学习模型之间的正式比较 ,我们试图开发一个简化的模型,该模型捕获ACTR的关键方面(其使用的特定梯度),并可以与具有相同数量的免费参数的现有价值学习模型进行明确比较 。为了对低参数(与ACTR相比)对TD价值学习模型的策略学习进行建模。67 ,我们使用了相同的核心结构 ,基础函数表示和自由参数。但是,我们没有使用RPE(值梯度)进行更新,而是遵循以前的工作32 ,并考虑一个直接的策略学习版本,其中策略梯度用于更新,如参考文献中最初所述 。21 ,就ACTR实施的有效梯度而言等效。首先,我们考虑收集奖励的延迟,而不是TD模型中使用的奖励价值本身。收集奖励的延迟是基本政策的单调功能 ,因此政策的增加会导致预期舔的增加,以减少收集潜伏期(图1) 。通常,人们使用朝着极限0,1饱和的非线性。为简单起见 ,我们选择了一种柔软的非线性(半高斯),以方便地产生的简单政策梯度。无论高斯(Sigma)的缩放参数如何,策略日志的衍生物随后与1 -pt成正比 ,其中PT是试验t的策略(如果以与Sigma成比例相比 ,则与Sigma相比,该策略与更新等式中的学习率项中的缩放为单位) 。根据增强算法family21,我们具有与(rcurr -b)×(1 -pt)成比例的更新函数 ,其中rcurr是当前的试验奖励收集延迟,b是B =υ×Rcurr+(1-招运B =υ)×B的局部平均值。υ的典型值为0.25(尽管B = 0在内的B = 0的一系列不同计算范围如前所述21)。   与以前的工作32一样,我们试图比较在价值学习(TD)模型或直接策略学习模型的最佳参数化下观察到的数据的相对可能性 。我们旨在评估的数据是在延迟期间的预期舔频率在第一个大约1,000只小鼠的幼稚学习试验中。我们使用了最新的模型形式化 ,以描述Naive Learning67并使用网格搜索来找到参数λ,α和γ的最佳值。为了计算分别观察给定数量的预期舔量作为价值函数或策略的函数的概率,我们使用了以预测的舔频率(7 Hz×value或Policy)为中心的正常概率密度(Sigma = 1) 。初步检查表明 ,Sigma = 1将所有模型的LL最小化,但是在一系列Sigma中的趋势都是相同的 。在所有自由参数组合的试验中,将给定参数化的-LL计算为对数概率的负和对数概率的负和。我们还计算了akaike信息标准68 -ln(sum(restuals2)) - 在某些以前的工作中是首​​选。69 。结果是一致的 ,自由参数的数量等效。因此,我们主要在手稿中报告-LL。为了进行直接比较,我们将每个模型的-LL的最低限度(即其最佳参数化)进行了比较 ,并比较了所有动物的这些最小值 。为了检查模型拟合的“脆性” ,我们比较了每个模型的整个网格搜索参数空间中的中值-LL。   首先,我们假设预期舔的数量是对基本策略的公正估计(上述低参数模型的核心假设)。收集奖励的延迟可以使用ACTR所述的相同方程(2)转换为性能成本 。然后按公式(4)中计算出PE。通过使用3阶,41次试验的Savitzky – Golay滤波器和基线减去计算的PE计算出的PE来计算平滑的基线估计值。   小鼠被麻醉过量(异氟烷 ,> 3%)杀死,并用冰冷的磷酸盐缓冲盐水灌注,然后是多聚甲醛(4%wt/vol的磷酸盐缓冲盐水) 。将大脑在4°C下固定2小时 ,然后用盐水冲洗。然后,使用振动的微型组(VT-1200,Leica Microsystems)对全脑(100μm厚度)进行切割(100μm厚度)。通过引用标准小鼠脑坐标来估计纤维尖端位置70 。   使用Wilcoxon的等级总和测试(MATLAB等级总和)进行了两样本的未配对比较;使用Wilcoxon签名的等级测试(MATLAB Signrank)配对比较 。使用Friedman的测试(MATLAB Friedman)进行了多次比较与重复措施。使用双向ANOVA(MATLAB ANOVA2)进行培训组之间的比较。使用Pearson的相关系数(MATLAB CORR)对相关进行定量 。使用MATLAB FITLM拟合了纤维位置对MDA奖励信号方差的估计贡献的线性回归。用于拟合客观表面的多项式回归为三阶和(MATLAB拟合)。据报道错误为S.E.M.样本量(n)是指重复生物学 ,而不是技术 。没有使用统计方法来预先确定样本量。数据可视化是在MATLAB或GraphPad Prism中创建的。   有关研究设计的更多信息可在与本文有关的自然投资组合报告摘要中获得 。

本文来自作者[admin]投稿,不代表永利号立场,如若转载,请注明出处:http://www.siyonli.com/zlan/202506-1650.html

(9)

文章推荐

  • 2019年梅西为什么金球奖 梅西16年来首次落选金球奖

    2019年梅西为什么金球奖原因一:里奥·梅西赢得欧足联年度最佳前锋奖项尽管里奥·梅西未能帮助巴塞罗那夺得2018-19赛季欧冠冠军,但是他的个人表现还是非常出色的,他带领加泰罗尼亚巨人闯进了欧冠半决赛,还在半决赛巴塞罗那主场那一回合打进2球,但是由于利物浦在自己主场的表现更为出色,所以阿根廷人和他

    2025年04月03日
    46322
  • 暗恋错过含蓄文案 青春暗恋遗憾的文案

    暗恋错过含蓄文案以下是一些关于暗恋与错过的含蓄文案,它们表达了暗恋者内心的情感,同时也传达了错过的遗憾:在那无人的角落,我默默注视着你,却不敢让你知道这份深藏的爱意。如今错过,只能将那份情感化作回忆,深埋心底。我曾在你的世界外徘徊,期待有一天能走进你的心房。然而,时光荏苒,我却错过了那唯一的机会,只

    2025年04月12日
    56309
  • 火箭传播的低频繁殖实验,以确定D区电子密度

      感谢您访问Nature.com。您使用的是浏览器版本对CSS的支持有限。获得  最佳体验,我们建议您使用更多最新的浏览器(或关闭兼容模式  InternetExplorer)。同时,为了确保继续支持,我们正在展示网站,没有样式  和JavaScript。

    2025年06月18日
    11310
  • Google Maps API业务平台:产品,定价,限制

      GoogleMaps平台(GMP)代表一组API和SDK,开发人员将它们用于将Google评论,地图和其他数据嵌入移动应用程序和网页中,还用于为移动应用程序和网站创建自定义地图。所有API和SDK均通过GoogleCloudPlatform控制台管理。  您可能会创建三种类型的产品

    2025年06月20日
    12311
  • 固态LI – S电池可愈合和导电硫

      这项工作得到了美国能源部(DOE)的高级研究项目局(Emangy)的支持,该公司在合同号下。DE-AR0000781。M.L.H.C.和S.P.O.确认由美国科学办公室,基础能源科学办公室,材料科学与工程部门的基础科学办公室资助的材料项目的支持。DEAC02-05-CH11231(材料项目计划编

    2025年06月20日
    10312
  • 石墨,石墨碳和非石墨碳的表面取向和摩擦

      感谢您访问Nature.com。您使用的是浏览器版本对CSS的支持有限。获得  最佳体验,我们建议您使用更多最新的浏览器(或关闭兼容模式  InternetExplorer)。同时,为了确保继续支持,我们正在展示网站,没有样式  和JavaScript。

    2025年06月20日
    7314
  • 原质运动机理

      感谢您访问Nature.com。您使用的是浏览器版本对CSS的支持有限。获得  最佳体验,我们建议您使用更多最新的浏览器(或关闭兼容模式  InternetExplorer)。同时,为了确保继续支持,我们正在展示网站,没有样式  和JavaScript。

    2025年06月21日
    8302
  • 上海大学研究生在哪个校区(上海大学研究生怎么样好不好)

    上海大学研究生院在哪个校区上海大学研究生院在宝山校区。以下是关于上海大学研究生院在宝山校区的具体信息:地理位置:宝山校区位于上海市宝山区上大路9号,地理位置优越,交通便利。教学设施:宝山校区拥有先进的教学设施和研究实验室,为研究生提供了良好的学习和科研环境。上海大学研究生院在宝山校区。上海大学研究

    2025年06月21日
    8304
  • 河北今日起全域低风险/河北3地调整为低风险

    河北唐山防疫最新政策1、首先需要了解自己要去的城市是什么风险等级全国出行防疫政策可以这样查询:点击进入,出发地选择唐山,目的地选择你要去的地方关于来返唐山提前主动报备,遵守属地管理规定。2、唐山迁安目前没有封城。以下是相关解释:防疫政策调整:唐山迁安作为一个城市,会根据疫情形势对防疫政策进行

    2025年06月21日
    9317
  • 西南交通大学一流大学b类是什么意思/西南交大能否成为双一流b类大学

    双一流高校名单1、双一流大学整体属于国内顶尖或较高水平的高校,共147所,可分为7个档次。第一档(4所):清华大学、北京大学、中国科学院大学、国防科技大学。2、第三轮双一流公示名单:北京大学(自主确定建设学科并自行公布)中国人民大学哲学、理论经济学、应用经济学、法学、政治学、社会学、马克思主义理论

    2025年06月21日
    8318
  • 包含冬奥闭幕式几号几点的词条

    冬运会闭幕式几点呢?1、冬奥会闭幕式时间是2022年2月20日晚20点整。2022年2月20日晚,第二十四届冬季奥林匹克运动会闭幕式在国家体育场举行。本次冬季奥运会闭幕式以构建人类命运共同体为核心表达,以简约、安全、精彩为创作原则,立足于从全世界的角度展望美好未来。张艺谋担任2022年北京冬季奥运

    2025年06月22日
    8318
  • 新款a6内饰(新款a6内饰氛围灯如何开启)

    奥迪a6内饰什么颜色好看1、百的宝板材;百的宝板材,黄浦木业旗下品牌,于2012年创立,作为装饰板材行业中的引领者,企业开设了专门的服务体系,提供全面的售后服务。百的宝推出“家装要环保,我选百的宝”的品牌定位,致力于为更多家庭打造健康家居环境。兔宝宝;在1993年创立的兔宝宝,是国内颇具影响力的室

    2025年06月23日
    8308

发表回复

本站作者才能评论

评论列表(3条)

  • admin的头像
    admin 2025年06月20日

    我是永利号的签约作者“admin”

  • admin
    admin 2025年06月20日

    本文概览:  所有方案和动物处理程序均严格按照协议(第19-190号)的规定(第19-190号)进行,并由Janelia机构动物护理和使用委员会批准,并符合评估和认证实验室动物护理协会规...

  • admin
    用户062004 2025年06月20日

    文章不错《中唇多巴胺适应了行动的学习率》内容很有帮助