想不到吧，emoji也可以说出来

娱乐专题😝 2021-04-30

想不到吧，emoji也可以说出来缩略图

大家可能都用过语音输入来打字，但是除了文字，emoji 是不是也可以用语音说出来呢？

# 一句话总结

许多人会在不方便的时候使用语音输入法。Voicemoji 支持通过说关键词的方式来输入表情，来帮助视障以及运动障碍的用户更方便地使用emoji。

谁会用到语音输入
视障用户会用emoji吗
Voicemoji：把emoji说出来
硬核时刻：emoji 预测

谁会用到语音输入

语音输入，又名听写，也就是通过说话来打字的输入方式，可以通过键盘上的话筒按钮激活。日常生活中你可能很少用到它，毕竟在公共场合下说“哈哈xswl” 还是很羞耻的。然而当你走路，骑车，开车，或者懒得打字的时候，就会情不自禁的点击那个小话筒。相比与打字，听写更像是一种锦上添花的点缀。

然而对于另一群用户而言，语音输入不可或缺。例如视力障碍用户由于看不清键盘，经常会用语音输入来打字；运动障碍（比如无法使用双手）的用户更是要依赖语音来进行各种操作。老年人，比如我们的长辈，也可能因为不熟练拼音或者键盘而使用手写或者语音——总而言之，语音输入是一种非常重要的输入方式。

另外，如果你在和男/女朋友吃饭，收发信息时用语音输入也可以证明自己的清白（大雾。

视障用户会用emoji吗

我在做这个项目的时候，主要是调研了视障用户的群体。既然我们的目的是可以用语音输入emoji，那么第一个要回答的问题就是：视障用户会用emoji吗？因为emoji属于表情，表情是用来看的。如果他们压根不用，那“语音输入表情”也就是个伪需求了。

通过我们的采访，发现视障用户不仅会用emoji，而且还会斗图！大部分用户每天不仅会收到别人发来的表情，而且自己也会使用emoji。

然而他们大都只发十个左右常用的表情，例如😀（微笑），♥（爱心），😂（笑哭），🙏（感谢）这些意义明确的emoji，而很少用到其他例如👴（老子）🤡（小丑竟然是我自己）这种含义奇怪的表情。很大一部分原因是，他们根本不知道有这些emoji。

到今天为止，已经有三千多个emoji被设计出来，这个数字每年都在增长。我们在输入emoji的时候，会进入一个类似列表一样的界面，几十个emoji排成排，大眼一扫就能知道选择哪一个。键盘也会对这些表情进行分类，来方便查找。

（iOS 的 emoji 键盘。对于盲人来讲，在这么多emoji中找到一个合适的并非易事）

这种设计，对于使用读屏软件的视障用户来讲，简直是灾难。因为读屏软件每次只能读一个emoji的描述，他们需要不断地在屏幕上进行滑动来一个一个地听，直到找到想要的那个。

对于常用的熟悉了位置的emoji还好，但是对于另外几千个乱七八糟的emoji来讲，找到它们往往要花上几分钟甚至十几分钟，最后经常因为找不到只好作罢。

另外一个小提示，虽然视障用户也会发表情包，但读屏软件对于gif这种会动的表情支持并不友好，因此如果你和他们聊天，请尽量避免发送动图哦。

Voicemoji：把emoji说出来

Voicemoji通过识别关键字来输入表情，比如当用户说 “给我一个下雪的表情” 时，Voicemoji会识别到 “给我一个 ” 和 “表情 ” 这两个关键词，然后就把中间的描述“下雪”来转换成emoji。

听起来是不是很自然？比如你也可以说 “给我一个小丑竟然是我自己的表情 ” 来获得一个🤡，再也不用花十几分钟去表情键盘里找了！

在提供关键词搜索表情的功能以外，Voicemoji也会根据说话的内容来推荐表情。比如你说了 “今天中午我吃了牛肉面 ”，虽然没有明确要输入某个emoji，但是Voicemoji会返回和这句话相关的一些表情，例如🍜🍝🐄😋。

对于视障用户的好处是，这种推荐会让他们了解有哪些新的表情可以使用，从而不仅仅只用到最常用的那些emoji（推荐的机制详情请移步硬核时刻）。

在实验中我们找到了来自中国和美国两地的视障用户来使用Voicemoji，发现用语音输入表情（平均耗时4.7秒）要比用传统的键盘方式（平均耗时53.7秒）快了十倍以上！而且大家发现表情推荐的功能很好用，让他们学会了许多以前不熟悉的emoji。

硬核时刻：emoji 预测

这里是硬核一点的知识，面向想要进一步了解的同学们：）

Voicemoji 会通过所说的内容来预测相关的 emoji。这是怎么做到的呢？预测的技术涉及到NLP（自然语言处理）中的embedding（词向量）。

通俗一点来讲，就是用数学中向量的方式来表示每一个单词，这样就可以通过一些计算，例如向量求和，求夹角，来找到和某一个词类似的其他词汇。

预测 emoji 也就是先通过把 emoji 向量化，然后找到和所说内容最接近的 emoji 向量。

最常用的词向量技术是使用深度学习的模型，例如word2vec。Voicemoji 中用到的模型来源于 Deepmoji [2]，感兴趣的同学可以去读一读原paper。

(一个emoji embedding的图示。可以发现用法类似的 emoji 距离都比较近 [3] )

Voicemoji 不仅仅是针对视障用户设计的，更重要的是，它提供了一种不用打字也能输入非文字信息的思路。

当然，除了emoji以外，许多动图、表情因为没有规范的描述，依然缺乏有效的输入方式。也希望如果有做输入法的大厂们看到了这篇文章，可以考虑一下在自己的产品中加上语音输入emoji的功能，嘿嘿。

【侵权请联系删除】

作者：小rui

来源：我要把博士读完

emoji 语音