Jozee's技术博客


  • 首页

  • 关于

  • 标签

  • 分类

  • 归档

GMM in python and EM

发表于 2019-12-16 | 更新于: 2019-12-16 | 分类于 机器学习 |
第一部分1234%matplotlib inlineimport matplotlib.pyplot as pltimport seaborn as sns; sns.set()import numpy as np 12345678910from sklearn.datasets.samples_g ...
阅读全文 »

基于ubuntu dialogue corpus构建大型非结构化、多轮对话系统语料

发表于 2019-12-16 | 更新于: 2019-12-16 | 分类于 NLP |
论文:The Ubuntu Dialogue Corpus: A Large Dataset for Research in Unstructured Multi-Turn Dialogue Systems 本论文基于ubuntu 对话语料库,该语料库包含大约100万条多轮对话。在该论文中,会构建一 ...
阅读全文 »

The-Annotated-Transformer-Harvard

发表于 2019-10-21 | 更新于: 2019-10-21 | 分类于 NLP |
1234567891011import numpy as npimport torchimport torch.nn as nnimport torch.nn.functional as Fimport math, copy, timefrom torch.autograd import Varia ...
阅读全文 »

MLE和MAP的关系之L1与L2正则化项

发表于 2019-09-16 | 更新于: 2019-09-16 | 分类于 机器学习 |
L1和L2可以从两个角度进行推导: 带约束条件的优化分解(拉格朗日乘子法) 贝叶斯学派:最大后验概率 基于约束条件的最优化令目标函数为: \min_w \mathcal{J}(w;X,y)\tag{1-1}为了降低模型的复杂度,即减少模型的参数个数,我们可以通过为目标函数增加约束条件,得: ...
阅读全文 »

Airbnb实时搜索排序中的Embedding技巧

发表于 2019-09-11 | 更新于: 2019-09-11 | 分类于 推荐系统 |
论文:Real-time Personalization using Embeddings for Search Ranking at Airbnb。 在这篇论文中提出了如何对listing(短租房源)和User(用户)的信息进行embedding的技术。该embedding模型可以捕获用户的短期和 ...
阅读全文 »

潜在狄利克雷分布LDA

发表于 2019-09-06 | 更新于: 2019-09-07 | 分类于 机器学习 |
潜在狄利克雷分布(latent Dirichlet allocation,LDA),作为基于贝叶斯学习的话题模型,是潜在语义分析、概率潜在语义分析的扩展。 LDA模型是文本集合的生成概率模型。假设每个文本由话题的一个多项分布表示,每个话题由单词的一个多项分布表示,特别假设文本的话题分布的先验分布是狄 ...
阅读全文 »

马尔可夫链蒙特卡罗法

发表于 2019-09-06 | 更新于: 2019-09-06 | 分类于 机器学习 |
蒙特卡罗法(Monte Carlo method),也称为统计模拟方法,是通过从概率模型的随机抽样进行近似数值计算的方法。 马尔可夫链蒙特卡罗法(MCMC),则是以马尔可夫链为概率模型的蒙特卡罗法。 马尔可夫链蒙特卡罗法构建一个马尔可夫链,首先基于该马尔可夫链进行随机游走,产生样本的序列,然后使用该 ...
阅读全文 »

概率潜在语义分析

发表于 2019-09-01 | 更新于: 2019-09-01 | 分类于 机器学习 |
概率潜在语义分析(probabilistic latent semantic analysis,PLSA),也称概率潜在语义索引(PLSI),是一种利用概率生成模型对文本集合进行话题分析的无监督学习方法。 模型的最大特点是用隐变量表示话题。整个模型表示文本生成话题,话题生成单词,从而得到单词-文本共 ...
阅读全文 »

潜在语义分析

发表于 2019-09-01 | 更新于: 2019-09-01 | 分类于 机器学习 |
潜在语义分析(latent semantic analysis,LSA)是一种无监督学习方法,主要用于文本的话题分析,其特点是通过矩阵分解发现文本与单词之间的基于话题的语义关系。 潜在语义分析使用的是非概率的话题分析模型。具体地,将文本集合表示为单词-文本矩阵,对单词-文本矩阵进行奇异值分解,从而得 ...
阅读全文 »

PCA主成分分析

发表于 2019-08-28 | 更新于: 2019-08-28 | 分类于 机器学习 |
主成分分析(PCA)是一种常用的无监督学习方法,这一方法利用正交变换把由线性相关变量表示的观测数据转换为少数几个由线性无关变量表示的数据,线性无关的变量称为主成分。 主成分的个数通常小于原始变量的个数,所以主成分分析属于降维方法。 主成分分析主要用于发现数据中的基本结构,即数据中变量之间的关系。 总 ...
阅读全文 »
12…5

jozee

44 日志
6 分类
95 标签
© 2020 jozee
本站访客数:人 | 本站总访问量:次