标签搜索 - 人工智能

标签： 人工智能

关注

强化学习之一二

在这篇文章中，我们从强化学习的基本概念开始，而后介绍一些经典的算法，带大家快速浏览强化学习世界。希望这篇文章帮助新手快速开始精彩的强化学习之旅。【注意】这篇文章比较长哦。

人工智能策略梯度强化学习 TD学习蒙特卡洛

爱吃猫的鱼

16527

2021年9月13日

Zero-Shot Text-to-Image Generation

在文本生成图片的任务中，人们一直致力于在确定的小数据集下寻找更好的网络结构，然而一些假设通常会引入复杂的模型结构或者繁琐的损失函数。本文提出一种简单的自回归策略，利用transformer将文本和图片同等建模，即使在zero shot情况下也可以达到SOTA效果。GPT3证明了在文本上使用大规模参数和大规模数据对模型带来的提高，本文使用120亿参数的模型在2.5亿数据上进行了训练，证明了大规模模型在文本到图像生成任务上也有很好的效果。

人工智能图片生成 dVAE DALL-E zero-shot

爱吃猫的鱼

2885

2021年9月7日

PowerSGD: Practical Low-Rank Gradient Compression for Distributed Optimization

在分布式机器学习中，如果模型非常大，网络传输效率就会成为瓶颈，那么训练时如何降低网络通信开销就成了一个重要问题。本文研究了一种高效的有损压缩的方法，可以在很大程度上改善网络开销，并且可以保持甚至超过原有的准确率。

人工智能分布式机器学习 PowerSGD 梯度压缩

爱吃猫的鱼

4451

2021年7月5日

Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks

这篇论文提出了一个新的模型:Sentence-BERT (SBERT)，它在预训练的BERT基础之上，使用*孪生网络(siamese network)*和*三元组网络(triplet network)*，对模型进行了微调。这样模型就可以生成句子的嵌入表示（sentence embedding），这些句子的嵌入表示可以直接用来计算句子间的余弦相似度。这样在前面提到的寻找最相似句子的任务中，就无需对每个句子对进行推理，大大减少了计算时间（65小时 -> 5秒），并且不会降低准确率。

人工智能自然语言处理 NLP 句子嵌入

爱吃猫的鱼

1659

2021年7月5日

FaceNet: A unified embedding for face recognition and clustering

本文中提出了一个非常著名的概念：triplet loss。使用该loss函数，作者提出了一个新的系统FaceNet，它可以学习一个从人脸图像到一个小的欧几里得空间的映射，并且在这个新的空间中像点之间的距离可以反映原本人脸图片之间的相似性。这类似于词嵌入(Word Embedding)的方法，只不过本文中实现的是人脸图片的嵌入。文中使用了卷积神经网络来直接优化Embedding，而没有使用之前的一些论文中常用的瓶颈层。

人工智能神经网络人脸验证 Triplet-Loss Triplet-Network

爱吃猫的鱼

1106

2021年7月5日

Learning a similarity metric discriminatively, with application to face verification

这篇论文提出了一个可以用来训练一个用于衡量数据间的相似度模型的方法。它可以用于一些进行识别或者验证的应用程序，并且该方法可以用于训练样本种类非常多、单个类别样本数量非常少的情况。在验证类型的应用中，即使样本类别在原来训练数据中没有出现过也可以使用。

人工智能孪生网络人脸识别人脸验证

爱吃猫的鱼

548

2021年7月5日

Signature Verification Using A "Siamese" Time Delay Neural Network

这篇论文描述了一个基于人工神经网络的签名验证算法。这个签名通过触摸板进行数据的收集。论文提出的网络结构被作者称为孪生时延神经网络。它之所以被称为孪生神经网络，是因为它由两个一摸一样的神经网络组成。在训练过程中，模型会去学习输入签名间的的相似性。模型被用作验证的时候，只有孪生网络的一半被用做前向推理。这半个网络的输出被当作原始签名的特征表示。验证过程就是将需要被验证的签名的特征表示向量与原始存储的特征表示进行比较，从而判断签名是否一致。

人工智能签名验证神经网络孪生网络

爱吃猫的鱼

970

2021年7月5日

High-Dimensional Continuous Control Using Generalized Advantage Estimation

强化学习中常用的策略梯度算法有两个主要的挑战： 1. 算法需要大量样本支撑：以降低训练过程中的样本方差大的问题； 2. 稳定训练困难：在实际训练过程中，我们经常可以看到模型得到的奖励值波动非常大。对于第一个挑战，本文通过设计的值函数，可以以少量偏差的损失为代价来换取方差的降低。对于第二个问题，本文提出对于策略函数和值函数应用可信域优化的方法来稳定训练过程。

人工智能策略梯度 GAE 强化学习

爱吃猫的鱼

2080

2021年6月18日

有限样本学习（二）：主动学习

这是有限样本学习的第二部分内容。这次，我们允许使用有限的预算来进行人工打标签的工作。由于预算有限，我们必须非常谨慎地去选取待标记样本。

深度学习人工智能有限样本学习主动学习 Active Learning

爱吃猫的鱼

13261

2022年3月4日

常用激活函数及其梯度可视化

本文给出了pytorch里面支持的所有二十几种激活函数的可视化作图。

机器学习人工智能神经网络可视化激活函数

爱吃猫的鱼

6507

2022年2月19日

有限样本学习（一）：半监督学习

简介在监督学习中，高质量的标签是任务性能的保障。然而，给大量的数据样本打标签的代价是非常昂贵的。由此，机器学习中诞生了一些新的范式，专门用于解决在标签非常缺乏的情况下的学习问题。在这些范式中，半监督学习是一个可选方案（半监督学习仅需依赖很少部分打过标签的数据+大量无标签数据）。

机器学习人工智能半监督学习微调预训练

爱吃猫的鱼

6240

2021年12月23日

Parameter-exploring policy gradients

本文介绍了一种解决部分可观测马尔可夫问题的一种无模型（model-free）强化学习方法（PGPE）。和一般策略梯度方法不同的是，此方法通过在参数空间中直接进行采样来得到梯度值的估计。PEPG可以降低梯度值估计的方差，让学习过程更加稳定、快速，并且在策略不可导的情况下也可以使用。

人工智能强化学习 PGPE

爱吃猫的鱼

4990

2021年10月8日

深度强化学习中的探索策略

在强化学习中，探索与利用是一个非常重要的主题。我们希望智能体可以尽可能快地找到最佳解决方案。而同时，在没有经过足够探索的情况所获取到的策略可能很糟糕。它很有可能是一个局部最优方案或者是一个失败的方案。以最大回报率为优化目标的现代强化学习算法可以非常高效地实施“利用”这一过程，但是，如何进行探索一直是一个开放讨论的话题。

人工智能强化学习探索与利用探索策略

爱吃猫的鱼

1701

2022年11月21日

热门主题