Skip to content

zhengyu19921215/AI-Algorithmic-Engineer-Manual

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

31 Commits
 
 
 
 

Repository files navigation

AI Algorithmic Engineer Manual(AI算法工程师手册)

数学基础

一、基础知识

二、向量操作

三、矩阵运算

四、特殊函数

一、概率与分布

二、期望与方差

三、大数定律与中心极限定理

四、常见概率分布

五、先验分布与后验分布

六、信息论

七、其它

一、数值稳定性

二、梯度下降法

三、二阶导数与海森矩阵

四、牛顿法

五、拟牛顿法

六、约束优化

一、蒙特卡罗洛方法

二、马尔科夫链

三、MCMC采样

统计学习

一、基本概念

二、监督学习

三、机器学习三要素

一、线性回归

二、广义线性模型

三、对数几率回归

四、线性判别分析

五、感知机

一、线性可分支持向量机

二、线支持向量机

三、非线性支持向量机

四、支持向量机回归

五、SVDD

六、序列最小优化方法

七、其他讨论

一、贝叶斯定理

二、朴素贝叶斯

三、半朴素贝叶斯分类器

四、其他讨论

一、原理

二、特征选择

三、生成算法

四、剪枝算法

五、CART树

六、连续值、缺失值处理

七、多变量决策树

一、k近邻算法

二、kd树

一、集成学习误差

二、Boosting

三、Bagging

四、集成策略

五、多样性分析

一、提升树

二、xgboost

三、LightGBM

一、缺省值处理

二、特征编码

三、数据标准化、正则化

四、特征选择

五、稀疏表示和字典学习

六、多类分类问题

类别不平衡问题

一、泛化能力

二、过拟合、欠拟合

三、偏差方差详解

四、参数估计准则

五、泛化能力评估

六、训练集、验证集、测试集

七、性能度量

八、超参数调节

九、传统机器学的挑战

一、维度灾难

二、主成分分析PCA

三、核化线性降维

四、流形学习

五、度量学习

六、概率PCA

七、独立主成分分析

八、t-SNE

九、LargeVis

一、性能度量

二、原型聚类

三、密度聚类

四、层次聚类

五、谱聚类

一、半监督学习

二、生成式半监督学习

三、半监督学习SVM

四、图半监督学习

五、基于分歧的方法

六、半监督聚类

七、总结

一、示例

二、EM算法原理

三、EM算法与高斯混合模型

四、EM算法与Kmeans模型

五、EM算法的推广

一、最大熵模型MEM

二、分类任务最大熵模型

三、最大熵的学习

一、隐马尔可夫模型HMM

二、HMM基本问题

三、最大熵隐马尔可夫模型MEMM

一、概率图模型

二、贝叶斯网络

三、EM算法与高斯混合模型

四、条件随机场CRF

一、精准推断

二、近似推断

一、Unigram Model

二、plSA Model

三、LDA Model

四、LDA优化

五、sentence-LDA

六、模型讨论

深度学习

一、介绍

二、历史

一、基础

二、损失函数

三、输出单元

四、隐单元

五、结构设计

六、历史小记

一、链式法则

二、反向传播

三、算法实现

四、自动微分

一、参数范数正则化

二、显示约束正则化

三、数据集增强

四、噪声鲁棒性

五、早停

六、参数相对约束

七、dropout

八、对抗训练

九、正向传播算法

十、其它相关

一、代价函数

二、神经网络最优化挑战

三、mini-batch

四、基本优化算法

五、自适应学习率算法

六、二阶近似方法

七、共轭梯度法

八、优化策略和原算法

九、参数初始化策略

十、Normalization

十一、OnLine Learing

一、卷积运算

二、卷积层、池化层

三、基本卷积的变体

四、应用

五、历史和现状

一、LeNet

二、AlexNet

三、VGG-Net

四、Inception

五、ResNet

六、ResNet 变种

七、SENet

八、DenseNet

九、小型网络

一、RNN计算图

二、训练算法

三、长期依赖

四、常见RNN变种

一、Transformer

二、Universal Transformer

三、Transformer XL

四、GPT

五、BERT

六、BERT

七、XLNet

八、MT-DNN

九、BERT 扩展

一、向量空间模型 VSM

二、LSA

三、Word2Vec

四、GloVe

五、FastText

六、ELMo

七、变种

一、LR 模型

二、POLY2 模型

三、FM模型

四、FFM模型

五、GBDT-LR 模型

六、FTRL模型

七、LS-PLM 模型

一、性能度量

二、默认的基准模型

三、决定是否收集更多数据

四、选择超参数

五、调试策略

六、示例:数字识别系统

七、数据预处理

八、变量初始化

九、结构设计

工具

CRF

一、安装

二、使用

三、Python接口

四、常见错误

lightgbm

一、安装

二、调参

三、进阶

四、API

五、Docker

xgboost

一、安装

二、调参

三、外存计算

四、 GPU计算

五、单调约束

六、 DART booster

七、Python API

scikit-learn

一、特征处理

二、特征选择

三、字典学习

四、PipeLine

一、PCA

二、MDS

三、Isomap

四、LocallyLinearEmbedding

五、FA

六、FastICA

七、t-SNE

一、线性模型

二、支持向量机

三、贝叶斯模型

四、决策树

五、KNN

六 、AdaBoost

七、梯度提升树

八、Random Forest

一、数据集切分

二、性能度量

三、验证曲线 && 学习曲线

四、超参数优化

一、KMeans

二、DBSCAN

三、MeanShift

四、AgglomerativeClustering

五、BIRCH

六、GaussianMixture

七、SpectralClustering

一、标签传播算法

一、Hmmlearn

二、seqlearn

spark

一、核心概念

二、安装和使用

三、 pyspark shell

四、独立应用

一、概述

二、创建 RDD

三、转换操作

四、行动操作

五、其他方法和属性

六、持久化

七、分区

八、混洗

一、概述

二、SparkSession

三、DataFrame 创建

四、 DataFrame 保存

五、DataFrame

六、Row

七、Column

八、GroupedData

九、functions

一、累加器

二、广播变量

numpy

一、 ndarray

二、 ufunc 函数

三、 函数库

四、数组的存储和加载

scipy

一、 常数和特殊函数

二、 拟合与优化

三、线性代数

四、 统计

五、数值积分

六、 稀疏矩阵

matplotlib

一、matplotlib配置

二、 matplotlib Artist

三、基本概念

四、布局

五、 Path

六、 path effect

七、坐标变换

八、 3D 绘图

九、技巧

pandas

一、基本数据结构

二、 内部数据结构

三、 下标存取

四、 运算

五、变换

六、数据清洗

七、 字符串操作

八、 聚合与分组

九、时间序列

十、 DataFrame 绘图

十一、 移动窗口函数

十二、 数据加载和保存

Author

作者华校专,曾任阿里巴巴资深算法工程师、智易科技首席算法研究员,现任腾讯高级研究员,《Python 大战机器学习》的作者。

Explain

笔记内容仅供个人学习使用,非作者本人同意不得应用于商业领域。

Documentation:

http://www.huaxiaozhuan.com/

《算法导论》的C++实现"代码:https://github.com/huaxz1986/cplusplus-_Implementation_Of_Introduction_to_Algorithms

《Unix 环境高级编程第三版》笔记:https://github.com/huaxz1986/APUE_notes

Contributing

If you find a bug, create a GitHub issue, or even better, submit a pull request. Similarly, if you have questions, simply post them as GitHub issues.