【技术创新】 ANN Online Learning

creation_zy · 发表于 2015-2-25 12:10:00

继续18楼的讨论
下面是《新发现》中关于神经科学的文章：

似乎从侧面支持了“学习到的东西越多、神经网络就越庞大（否则就会遗忘）”的观点

当然，生物神经可能还受到有限的拓扑、权值调整方式的制约，才不得不大量借助于新神经元的生成的机制。但个人还是认为这种“按需扩展”的模式对时空开销并不低的ANN而言有借鉴意义。
关于楼主提到的可能的分布式在线学习，应当也可以从这种通过生长来学习新事物的模式来实现（在某种较为通用的网络框架及几层基本的特征提取网络之下）每个设备分头学习各自的领域信息，生成相关的新节点，然后进行集中、整合就得到了同时拥有多领域知识的整合体。

ieBugH · 发表于 2015-2-25 13:19:00

我对业界怎么online的不是很了解，为了更好的讨论，我把我对该问题的理解用数学描述一遍，先统一一下目标，希望讨论能更清晰些。

ieBugH · 发表于 2015-2-25 14:56:00

总之，以CF为训练方法的要online感觉很麻烦。
去亲戚家吃饭去了，晚上聊。

click4i · 发表于 2015-2-26 06:40:00

(回复17楼）
Pallashadow: 回复 click4i : 既然分类器都是用RBM或者SAE预训练的，能在最后用BP方法tune的过程中，能不能在cost function中仍然保留一些SAE的特性呢？（通过损失分类精度保留一部分deep autoencoder的特性)
Pallashadow: 回复 click4i : 现在如果只在多层stacked SAE聚类后，只在最后一层用SVM分类，不用BP算法tune前面的网络，分类准确率大致是多少？
------------------------------------------------------------------------------------------------
我的直觉是没有必要用BP算法去tune前面的网络，这样就可以简化OL的问题。下面是一些想法，效果如何有待证实。

假设我们有一个主流的DCNN，含输入层Lin,输出层Lout,以及n个代表特征的隐藏层H1-Hn。
H1-Hn是以标准的DAE方式提出各种特征。
一般Lout和Hn是完全连接且根据一个cost function学分类，也往下层反传以便微调特征。

根据这个主流DCNN我们可以做以下改动：
1）特征不以BP反传微调。理由是相信DAE已经做好了工作。
2） Lout 不仅接 Hn,也同时往下多接几层，如Hn-1,Hn-2,等。理由是这样就可以把本来反传微调特征的工作移到这些新的连接上头，所以就可以不让学习分类的过程影响到DAE算出来的特征了。感觉即使不牵涉OL这也才是正解，而以前BP反传微调特征的做法其实是个hack
3）新样本进来时可以引用现有的特征，所以特征算是global的。
4）一个特征一旦证实有用就可以加以固化，不再受新进样本的影响。这样可以避免catastrophic forgetting. 一个特征是否有用可以根据这特征对于正确分类（或其他的cost function）是否有相当的累计贡献而定。
5）新进样本如果基于现有特征集无法达到满意结果时就会触发成长新的独立隐藏层，以便为这些新样本做DAE训练以提出新的特征。这方面或许跟论文P2有些类似。
6）上面第5步可能会产生重复的特征，必须消除。重复的特征可以用synchrony (同时性）检出。就是说如果两个特征都是经常同时被样本激活且有某种程度的相似的话则可判定为重复，然后较新的那个特征会被删除。

Pallashadow · 发表于 2015-2-27 23:33:00

难道说运算规模能达到人脑水平后就能摆脱BP反传这个hack?

click4i · 发表于 2015-2-28 05:49:00

论文 P3： An Empirical Investigation of Catastrophic Forgetting inGradient-Based Neural Networks （Bengio）http://arxiv.org/pdf/1312.6211v2.pdf

这论文透过选择各种参数（如激活函数，样本类型, 学习算法－ＳＴＤ或ｄｒｏｐｏｕｔ）以小规模实验证明哪种参数组合在面对Catastrophic forgetting的问题时表现最好。其中值得记住的是这一段结论：
When computational resources are too limited to experimentwith multiple activation functions, we recommendusing the maxout activation function trainedwith dropout.
由于这论文并未提出如何解决长期大规模逐步增量增类做ｏｎｌｉｎｅ　ｌｅａｒｎｉｎｇ的方案，因此对本楼关注的研究方向指导意义有限。

think__123 · 发表于 2015-2-28 11:11:00

说“Lout 不仅接 Hn,也同时往下多接几层，如Hn-1,Hn-2,等。”
我怀疑啊，我以前实验过，这样效果不好。
http://tieba.baidu.com/p/3038523445?pid=50393383455&cid=0#50393383455
同一层的特征，和结果的相关性应该差不多，才比较好。

think__123 · 发表于 2015-2-28 14:00:00

以前的文件找不到了，结论当时我想明白了的，不同层次的特征不应该混在一起。
比如l4层都是鼻子眼睛嘴等概念了，混些l2的直线曲线等边缘概念进去，只能是增加噪音

rhythm_S · 发表于 2015-2-28 21:34:00

看来我来晚了T_T

在下的一些观点，理解有误之处恳请各位指出：）

- P1 新的叶子部分做incremental learning时直接搬旧的做初始化值，然后再进行fine-tuning，我觉得这样过于依赖fine-tuning了。新class引入必定会引入新的基本元素，P1的做法好像没有体现这点；

- P2 通过增长units，仅仅更新与新units相关的权重，然后看情况进行特征merge来进行增量。P2的做法在新units对output层的权重这半边给人一种“补救措施”的感觉，就是之前训练好的权重不去动它，仅仅依靠调整新units的权重来”纠正错误“，这点在softmax层特别明显。我想起这跟dropout的主旨好像相矛盾，dropout就是要抑制特征之间有共作用，说明用调整权重去弥补别的权重的错误不大好；

- 我支持click老师去除BP微调的观点。特征就该是特征，不该跟类扯上太大关系（但有些paper做的就是discriminative dictionary learning，学的是与区分性的特征，不过那跟OL没啥关系）。但是我没理解跨层连接具体代表的是什么意义，还恳请赐教^_^

click4i · 发表于 2015-3-1 22:30:00

前面提出的跨层连接建议经过讨论之后决定不可行。下面是另一个建议的解决方法。欢迎大家严厉批评挑出毛病来。

提议2：
这还是基于标准的DCNN做学习，不过做以下改动。以下的简述用人脸识别做为案例以方便理解。
1. 假设第一期的训练是做人脸识别以达成身份认证为目的。第一期训练结束后如果识别结果满意的话，网络中的有用特征即加以固化，这里因为人脸的表情不是有用的特征因此在第一期完全忽视。
2. 假设第二期的目的是做人脸表情识别跟身份认证无关，所以第一期的结果里头没有第二期所需要的一些重要特征。这里的目的是要：1）尽量用上第一期学到的特征以节省资源；2）也同时让第二期训练完后还能保存第一期的成果；3）最终结果要达成OL的目的，即同一网络能够做身份认证和表情识别。
这里我们以第一期得到的网络为起始点进行第二期的工作,步骤如下：
2.a 跳过无监督学习提特征的部分，直接使用第一期得到的特征。
2.b 在做有监督分类学习时如常以BP做特征的微调，不过当BP决定某一个特征节点f需要被微调时，如果f之前已被固化则复制f(即节点及其相关输入权重）而得到f',然后对f'（而不是f)进行微调。这样我们就可以保存以前学到的有用特征f，同时根据f'做调整以达到第二期的目标。f'至输出层的路径也会被复制,因此在网络里形成一个分支。

综合看来，这样做的话底下几层的低级特征（如线条，色块，等）多半能够被重复使用，因此可以省下不少计算资源，同时也达成保存前期学习成果的目标。上几层的高级特征则会根据需要可能会被复制分支，以便为特定任务做特定处理。

这里头还有很多没说的细节，不过大体观念就是这样。各位看法如何？

		自动登录	找回密码
密码			立即注册

[神经网络] 【技术创新】 ANN Online Learning

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源