行业洞察 | 未来人形机器可能是最懂你的人

发布时间 : 2022-08-19 阅读量 : 475

近期，小米展示了全尺寸人形仿生机器人CyberOne。据悉，CyberOne身高177CM、体重52KG，艺名“铁大”，能够感知人类情绪、视觉敏锐、可实现双足运动姿态平衡。同时，这款全尺寸人形仿生机器人能够感知45种人类语意情绪，拥有8米内深度信息精度可达1％。小米集团创始人、董事长兼CEO雷军表示，CyberOne以人工智能为内核，以标准人形为载体，是小米对未来科技生态的一次探索，也是小米多元融合技术体系的新成果。该机器人最让人惊艳的是其45种人类语义情绪感知能力，让机器人不再是冰冷的金属材料拼接，变得心灵有“温度”可感知。

「语义情感分析」

语义情感分析属于知识挖掘的范畴，包含信息抽取、观点挖掘、标签建设、图谱建设等任务。情感分析又称倾向性分析，或意见挖掘，它是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。利用情感分析能力，可以针对带有主观描述的自然语言文本，自动判断该文本的情感正负倾向，并给出相应的结果。

「主流技术」

目前主流技术主要分为两种。一种是基于情感词典的情感分析。是指根据已构建的情感词典，对待分析文本进行文本处理，抽取情感词、计算该文本的情感倾向。最终分类效果，取决于情感词典的完善性。

另外一种是基于机器学习的情感分析。是指选取情感词作为特征词，将文本矩阵化，利用逻辑回归（Logistic Regression），朴素贝叶斯（Naive Bayes），支持向量机（SVM）以及神经网络（Neural Networks）等方法进行分类。最终分类效果，取决于训练文本的选择以及正确的情感标注。

目前有些研究者将二者结合，例如某些领域的文本没有标注，该领域的情感词典也不够完善，而人工标注需要耗费大量成本，数据的采集相对于人工成本小很多时；可以选取部分文本，利用基本情感词典的方法粗略地计算这些文本的情感得分值，选取分值偏高或偏低的文本作为已标注的训练文本，再结合机器学习的方法进行分析。根据语义分析的粒度不同，又分为文档级别、句子级别、对象级别、词汇级别的情感分析。

中文人机交互对话语料库：点击查看详情

中文教育客服语料库：点击查看详情

英文医疗客服语料库：点击查看详情

「未来发展趋势」

近年来，NLP领域的SOTA模型基本都是基于预训练的，目前大多情感分析任务都是在预训练模型的基础上进行，综述文章《S. Poria, D. Hazarika, N. Majumder, and R. Mihalcea. Beneath the tip of the iceberg: Current challenges and》列举了IMDB、SST-2/5、Semeval 数据集在不同方法上的指标，SOTA情感分析模型的结果无一例外都是基于预训练模型。

虽然业界 SOTA 模型在一些粗粒度情感数据集上能达到超过 95% 的准确率，但在细粒度和复杂任务上，目前的效果还远不如人类水平。同时情感分析模型在多个场景的迁移能力较差，需要更多的学者研究多域自适应算法解决这一问题。

对于应用场景方面，随着电商、智能客服、舆论媒体、社交媒体、人形机器人等技术的发展，情感分析在这些方向都能落地。也许，未来有一天，你会发现，这个世界上最懂你的是人形机器人。

产品推介｜LLM多领域超自然SFT多轮对话文本数据集

晴数智慧深耕对话式AI领域多年，构建了累计千万轮LLM多领域超自然SFT多轮对话文本数据集，覆盖近20个语种及方言，语料话题分布广泛，涉及休闲娱乐、衣食住行、教育医疗等近20个领域。

勇立潮头！高品质SFT语音数据实现Zero-Shot语音复刻大模型

文本到语音合成（Text to Speech，TTS）作为生成式人工智能（Generative AI 或 AIGC）的重要课题，在近年来取得了飞速发展。为了实现高效合成既自然又高质量的人类语音，有不少机构及企业都进行了相关项目的研究，包括微软亚洲研究院机器学习组和微软 Azure 语音团队去年推出的NaturalSpeech（https://speechresearch.github.io/naturalspeech2/）还有Meta今年发布的Voicebox（https://voicebox.metademolab.com/），都是利用大数据、大模型和零样本（zero-shot)合成技术，实现语音合成的音色、韵律、风格的多样性的代表。

巴别塔再现？高质量端到端数据公海710助力Meta推出AI模型SeamlessM4T

追求卓越与无限的精神一直流淌在人类的基因里。圣经中有故事：在古代，人们说着同一种语言，决定建造一座高耸入云，塔顶能触及天堂的塔，被称为巴别塔，以彰显人类的力量和创造力。然而上帝看到人类的意图，并认为这个塔的建造是人们的傲慢和自大的表现。上帝让人类的语言变得不同，使他们无法相互理解。这导致了混乱和分裂，无法继续合作建造塔。语言不通让人类的沟通变得低效和困难。近日，Meta推出AI模型SeamlessM4T，该模型可翻译和转录近百种语言，似乎将破除因语言不同而导致的沟通障碍。可谓是人类构建“巴别塔”的又一次尝试。

公海710助力数据要素市场标准化，晴数智慧发布大模型数据集企业标准

数据确权授权的标准制定，首先是对数据进行分级分类。结合在高质量数据上多年积累，晴数智慧首发了大模型数据集企业标准。晴数智慧将大模型数据集生产分为L1到L3三个标准，级别越高，数据精度越高。晴数智慧希望公海710通过这套企业标准划分不同的数据处理层级，规范并提升数据质量，并确保数据的可靠性、有效性和知识产权的清晰性。

公海710

新闻

行业洞察 | 未来人形机器可能是最懂你的人

即刻与建立联系？

公海710

新闻

即刻与 建立联系？

即刻与建立联系？