集成学习task7打卡_ZYT

机器学习路线

待学习:

随机过程、最优化方法、信息论

支持向量机及支持向量回归
随机森林adaboost、gbdt、xgboost、lightgbm、catboost、
blending、stacking

空间分析(元胞自动机、马尔科夫链结合元胞自动机)

深度学习:
前馈传播与后向传播、多层感知机、卷积神经网络、循环神经网络

概率机器学习:
概率图基础:(马尔科夫网络、有向图和无向图、图论、动态规划)
随机采样与随机模拟:(贝叶斯决策、分布函数采样、MCMC、变分推断)
概率机器学习:(Em算法、隐马尔科夫模型HMM模型、无向图模型CRF)
无监督学习:(K均值及其变体、高斯混合模型、主题模型LDA)
NLP/贝叶斯ML

非结构数据处理之计算机视觉CV

将图像展开为像素矩阵,一般彩色图片是RGB三色矩阵组成。

非结构数据处理之自然语义处理

文本数据

——本文切分/词语切分

——文本规范化(文本清洗)

——删除特殊字符

——扩展缩写词

——大小写转换

——删除停用词(a, the, and so on)

——校正重复词语、

——词干提取

——词形还原

以上所有操作都是为了去除数据噪声,以建立更好的模型。

词袋模型:

对word进行统计个数;缺点是维度太大,向量决定于词语出现的频率,且没有语序

TF-IDF模型:

给重要的词语赋予一定的权重

高级词向量模型word2vec:

One-hot编码(01编码),不能准确表达不同词之间的相似度
distributed representation分布式词向量(连续值编码)

跳字模型(skip-gram)

根据背景词预测中心词