实验室
- 命名实体识别
- 文本分类
- 情感倾向分析
- 中文语料库
- 词向量库
中文语料库
美文美影中文语料库是国内首个全部语料均经人工标注(采用交叉验证系统)的中文语料库。
在NLP(自然语言处理)的业务里,最令人头疼的就是语料库及测试数据的获取。语料的好坏直接影响结果的质量。选择一个好的语料库是得到高质量结果的前提。美文美影中文语料库由我司为您精心呈现,助您在NLP(自然语言处理)的竞赛中拔得头筹。

基础语料库
-
实体识别&词性标注 (共 730w+条):
人名、地名、机构名、专有名词、普通名词。用来进行NER、词向量训练等工作。
-
显著性主体/事件 (共 110w+条):
标注文章中高显著性的语块。用来确定文章主题、主体等信息。可用来进行分类、关键词提取、机推等工作。
应用语料库
-
短文本分类 (共 50w+条):
根据文章内容进行分类。
-
主体情绪倾向 (共 150w+条):
判断文章对核心实体的情感态度,情感倾向(积极、中立、消极)。
-
价值观不正 (共 10w+条):
恶搞优秀传统或文化经典、调侃崇高精神、追捧明星富人网红;炒作隐私家庭矛盾;宣扬一夜成名、炫富享乐、自私自利等。
-
排版不当 (共 10w+条):
段落划分,是否出现堆积排列,影响排版布局及文章表意。长/短段落是否过多。加粗文本过多。字体大小。
-
内容缺失 (共 10w+条):
全文缺失,图片缺失,文字缺失,文段、文字不完整。
-
小众文章 (共 200w+条):
受众面窄,文章内容和主题与大多数人无关,或文章语言文字对于多数读者来说难以识别的现象。
-
广告 (共 105w+条):
文章围绕某个商品、企业、商业活动、公众号等,宣传意图明显。
词向量库
词向量是将自然语言表示的单词转换为计算机能够理解的向量或矩阵形式的技术。基于词向量库,我们可以更加容易地进行个性化推荐、关键词抽取、翻译和问答等工作。
美文美影的工程师使用了业界最先进的模型对我们精标半年1000万条中文语料进行了训练。我们得到了目前技术领先、语料准确度和效性最高的中文词向量库。
应用场景
- 个性化推荐
- 文本分类
- 关键词提取
- 语义召回
我们的优势

语料库
历时半年1000万条人工精编语料, 时效性高、准确度高。

深度学习
采用当前业界领先深度学习Word Embedding 等模型技术。

精度保证
语料库的优质与模型的先进确保了 词向量精度高、匹配相似度稳定。
情感倾向分析
自动对包含主观信息的文本进行情感倾向性判断,为口碑分析、话题监控、舆情分析等应用提供基础技术支持,同时支持用户自行定制模型效果调优。
功能介绍
情感分析通用版
基于深度学习技术和百度大数据,针对带有主观描述的中文文本,自动判断该文本的情感极性类别并给出相应的置信度。情感极性分为积极、消极、中性。
情感分析定制版
基于迁移学习技术,支持用户使用适合自身应用场景的情感极性标注语料,在通用模型基础上进行优化训练,满足专属场景的更高准确率要求。
功能演示
请输入一段想分析的文本:
随机示例分析结果:

应用场景
-
评论分析与决策
通过对产品多维度评论观点进行倾向性分析,给用户提供该产品全方位的评价,方便用户进行决策。
-
评论分类
通过对评论进行情感倾向性分析,将不同用户对同一事件或对象的评论内容按情感极性予以分类展示。
-
舆情监控
通过对需要舆情监控的实时文字数据流进行情感倾向性分析,把握用户对热点信息的情感倾向性变化。
我们的优势
整体精度高
基于深度学习训练,自动学习深层次的语义及句法特征,具备较高泛化能力,在相对长的句子上仍然能保持较高的效果。
定制能力强
业内首创的定制能力。您无需任何开发成本,仅需提供语料,即可完成模型优化,实现各场景下的效果提升,以满足细分业务的需求。
垂类效果优
在多个垂类上(汽车、餐饮、酒店等)情感倾向性分析准确率达到95%以上,已应用于实际电商产品销售分析中。
文本分类
对文章按照内容类型进行自动分类。为文章聚类、文本内容分析等应用提供基础技术支持。
功能介绍
文本分类通用版
支持娱乐、体育、科技等26个主流内容类型。API即调即用。
文本分类定制版
支持客户定义分类,并根据类别准备相应的文本语料进行分类模型训练。分类模型训练完成后可实现文本类别的自动判断。
功能演示
请输入一段想分析的文本:
随机示例分析结果:
...应用场景
-
新闻分类
根据文本描述的内容方向,针对新闻媒体的文章做自动分类,例如军事类、农业类等多种类别方向。
-
主题划分
对新闻资源进行主题划分,支持垂类资源建设,满足各类应用需求。
-
个性化推荐
通过对文章的主题分类计算,结合用户画像,精准的对用户进行个性化推荐。
我们的优势
整体精度高
基于大数据的深度学习,自动学习深层次的语义及语序特征,文本分类的精确度高。
数据支持
美文美影可提供全面且高质量的训练数据采集、标注服务。支持在模型迭代过程中不断扩充数据,助力提升模型效果。
粒度完整
定制版文本分类包含一级分类和二级分类两种粒度,层次清晰,满足各类应用需求。
命名实体识别
命名实体识别(Named Entity Recognition 简称NER),即"专名识别",是指识别自然语言文本中具有特定意义的实体,主要包括人名、地名、机构名、时间日期等。
功能介绍
中文分词
将连续的自然语言文本,切分成具有语义合理性和完整性的词汇序列。
词性标注
词性标注(Part-of-Speech tagging 或POS tagging),可为自然语言文本中的实体词汇赋予相应词性。
功能演示
请输入一段想分析的文本:
随机示例分析结果:
应用场景
-
语音指令解析
分析语音命令中的关键名词、动词、数量、时间等,准确理解命令的含义,提高用户体验。
-
多轮交互式搜索
通过专名识别定位多轮对话中的核心实体,自动判断后续对话中对该实体的进一步信息需求。
-
实体数据库构建
通过挖掘实体之间、实体与关键词之间的关联,构建实体信息(如人物、机构)数据库。
我们的优势
整体精度高
基于大数据的深度学习,自动学习深层次的语义及语序特征,文本分类的精确度高。
数据支持
美文美影可提供全面且高质量的训练数据采集、标注服务。支持在模型迭代过程中不断扩充数据,助力提升模型效果。
自由定制
可根据需求自主干预和定制分词效果,自由定制专名实体类目,打造个性化的分词和专名识别系统。
关键词抽取

即将开放,敬请期待
AI Rewrite
在保持原有文本内容含义不变的情况下,使用基于NLP的重写模型算法,对文本内容进行重写