学习

并不是noise越少越好，noise主要是为了摆脱鞍点的[¹]

UNDERSTANDING AND SCHEDULING WEIGHT DECAY ↩

U2I 调研

所以主要是要学的一个更好的分布，分布更加均匀，更加散。同时在长尾的例子上希望能学的更好 [¹]

对比学习视角:重新审视推荐系统的召回粗排模型 ↩

强化学习

参考书⬆[¹]

R. S. Sutton and A. G. Barto, Reinforcement learning: an introduction, Second edition. in Adaptive computation and machine learning series. Cambridge, Massachusetts: The MIT Press, 2018. ↩

工作后想问leader的几个问题

负采样MRSE:done，一般负采样不用在评分预估上。
实习时候方法对比热榜是不是有偏重

毕设进度跟踪

方向一

人脸识别for human

标准脸

标准脸图片

Backdoor Toolbox 适配图数据注意事项

首先是需要对图数据写一个适配器，返回Data，label形式（one-time only）
然后需要禁用所有的pin_memory至少在我本机上是这样的
修改backdoor形式
改优化器
改文件夹保存的文件名格式，”:”改成“_”
处理引用__init__.py

毕业论文latex模板调整

Algorithm

Style/artratex.sty:316:注释掉了
Thesis.tex:48-52:增加了Algoritme的包及其设置

工作前的论文以及代码阅读

强化学习

command line

Basics [¹]

The Art of Command Line ↩

pytorch-geometric进阶

前向传播方式 [¹]

MEMORY-EFFICIENT AGGREGATIONS ↩

笔试题

KMP：
- 重复的子字符串KMP
- strstr

面试概率题

排列组合

最优化方法

线性规划

单纯形法

C++ STL

pair[¹]

Pair is used to combine together two values that may be different in type.

https://www.geeksforgeeks.org/cpp-stl-tutorial/ ↩

手写深度学习库

梯度下降

C++入门

C++ [¹, ²]

global variable is automatically initialized with default value.But local varible not!!.

Adaboost

Adaboost[¹]

注意点：

数据有权重，根据权重进行学习得到基分类器
基分类器学习方法：任一弱分类器？
基分类器的权重系数：根据分类误差率进行设置。
数据权重更新：上一轮权重乘以当前模型分类误差率相关系数
最终模型，基模型相加。
损失函数是指数函数（可证明）：$L(y, f(x))=\exp [-y f(x)]$
1. 证明挺巧妙的，主要是把$f_m(x)$ 拆分为两部分，一部分是之前学的分类器加和以及当前需要学的$G(x)$。
2. 对$f_m(x)$施加指数损失函数后，数据权重$w_{mi}$实际上就是前面分类器的指数损失结果。
3. 而当前求得的$\alpha_m$为将该指数损失函数最小化的结果，通过求导为零解出。
4. $w_{mi}$ 的更新：由于 $\bar{w}_{m i}=\exp \left[-y_{i} f_{m-1}\left(x_{i}\right)\right]$ ，直接将 $f_m(x)$ 展开即可得更新公式为上一步的 $w_{m-1}$ 乘以这一步的 $G(x)$ 的损失直接得到。
5. 最终与原始算法差距一个$Z$系数。
adaboost为什么是前向加法模型：https://blog.csdn.net/zhangyingjie09/article/details/85875264

公式

分类误差率：
\[\begin{equation} e_{m}=\sum_{i=1}^{N} P\left(G_{m}\left(x_{i}\right) \neq y_{i}\right)=\sum_{i=1}^{N} w_{m i} I\left(G_{m}\left(x_{i}\right) \neq y_{i}\right) \end{equation}\]

统计学习方法(第二版) ↩

Linux Basics

多命令连接(数据处理)

free | grep fdf

LDA

LDA [¹]

文本集合的概率模型，文本-话题，话题-单词矩阵的多项式概率参数由狄利克雷分布生成，但是仅生成一次，并不是没生成一个单词就生成一个分布，所以可以计算。和逻辑回归的参数可以假设符合正态分布类似，同时该假设与l2正则等价。参数符合预设的分布能降低过拟合概率。

统计学习方法(第二版) ↩

CRF

CRF [¹]

统计学习方法(第二版) ↩

HMM

HMM [¹]

统计学习方法(第二版) ↩

算法面经整理

Python基础

参考索引[¹, ²]

后门攻击防御

Mitigating Poisoning Attacks on Machine Learning Models: A Data Provenance Based Approach（2017）：该论文增加了假设：数据有标注人ID，所以可以根据ID进行划分删减部分数据进行训练，评估模型的准确率。

深度学习面试

BN的作用

深度学习模型对输入的分布有一定的假设，认为其分布是稳定的。并且模型内部模块也要求内部输入分布是稳定的。

预训练语言模型

ELMO(2018.2): word representation。加上双向LSTM作为模型，在语料上做预训练
- 预训练方式：因为是双向LSTM，所以能计算前向概率以及后向概率，两者相乘就得到了第n个单词生成的概率（算是常规的操作了，和CRF之类的基本差不多）。作者是对logP进行优化，所以就相当于进行相加。最终的优化目标还是句子的生成概率。该生成概率和GPT之类的生成模型的生成概率不一致。为每个单词的条件生成概率相乘，条件为其他所有单词。 $\begin{equation} p\left(t_{1}, t_{2}, \ldots, t_{N}\right)=\prod_{k=1}^{N} p\left(t_{k} \mid t_{1}, t_{2}, \ldots, t_{N}\right) \end{equation}$
- 然后将输入以及模型所有层的输出拼接在一起，作为下游任务的输入。
- 同时论文还给不同层的输出设置了权重，该权重通过在下游任务中训练得到（作者在论文中提到，底层的输出对语法更为关注，而顶层的输出则对语义信息更为关注。）。

面试整理

阿里

BERT:

Optimization Method

SGD:

Boosting, GBM, XGBoost and LightGBM

梯度提升树和提升树区别在于，梯度提升树拟合的是负梯度，当loss采用l2loss的时候，负梯度和残差一致。
GBM算法：
[¹]

百面机器学习 ↩

linear model

一般说的线性回归通常用的l2 loss。

KKT

参考：foundations of machine learning , appendix B

SVM

By keeping $y$ of points at the margin line being $ \pm 1$,let

how to solve Ax=b in linear algebra

How to solve $ Ax=b $? ( $A\in \mathbb{R}^{m*n}, x \in \mathbb{R}^{n*1}, b \in \mathbb{R}^{m*1}$)

when $m=n$ and $\mathrm{Rank}(A) = m$:

ill conditioned matrix in solving Ax=b

import numpy as np

graduation project

\[\begin{aligned} &\left.\ell_{\text {atk }}\left(\theta, g_{t}\right)=\mathbb{E}_{G \in \mathcal{D}\left[y_{t}\right], G^{\prime} \in \mathcal{D}\left[y_{y}\right]} \Delta\left(f_{\theta}\left(m\left(G ; g_{t}\right)\right)\right), f_{\theta}\left(G^{\prime}\right)\right) \\ &\ell_{\text {ret }}\left(\theta, g_{t}\right)=\mathbb{E}_{G \in \mathcal{D}} \Delta\left(f_{\theta}(G), f_{\theta_{0}}(G)\right) \end{aligned}\]

Maximum Entropy

from：统计学习方法第二版,

潜在语义分析

LSA

Regularization

L2

降维

PCA

Statistics vs Bayesian

from：Deep Learning- lan,

频率派，学习是对参数做点估计，参数是固定值，但是采样是随机的。
贝叶斯：后验概率公式还是啥，对概率做积分？参数是随机的，而数据不是。
- 判别式：模型给一个条件概率公式
- 生成式：模型给联合概率公式，然后自己用贝叶斯公式求条件概率。

博客以及其他闲聊

图片格式： ![_config.yml]({{ site.baseurl }}/images/config.png)

方向一

标准脸

Algorithm

强化学习

Basics [1]

前向传播方式 [1]

排列组合

线性规划

pair[1]

推荐系统[1]

梯度下降

C++ [1, 2]

Adaboost[1]

注意点：

公式

多命令连接(数据处理)

LDA [1]

CRF [1]

HMM [1]

推荐系统

BN的作用

阿里

LSA

L2

PCA

Basics [¹]

前向传播方式 [¹]

pair[¹]

推荐系统[¹]

C++ [¹, ²]

Adaboost[¹]

LDA [¹]

CRF [¹]

HMM [¹]