icon产品背景icon
自然语言处理
腾讯云自然语言处理(Natural Language Process,NLP),是针对中文文本的智能化分析处理服务。它深度整合了腾讯内部(包括AI Lab、信息安全团队和知文团队等)顶级的NLP前沿技术,依托于海量中文语料累积,全面覆盖了从词法分析、到句法分析、再到篇章分析等多个维度的综合文本处理能力。具体包括︰智能分词、命名实体识别、情感分析、敏感识别、关键词抽取、文本纠错等等。
icon产品特性icon
积累厚实

在语言材料上,我们多年来专注中文自然语言处理,在不同场景下积累了千亿级互联网语料;技术上,我们整合了腾讯内部顶级的 NLP 能力,拥有数千篇相关技术专利和论文;服务上,团队曾为数十个腾讯亿级用户产品提供坚实的服务支撑。

服务高效

腾讯云计算平台保障服务高效稳定,可以根据不同的客户需求,提供数据动态扩容能力,并且配备完善及时的开发者支持,全心打造腾讯云人工智能和自然语言处理能力开放平台。

接口全面

腾讯云自然语言处理提供了词法级、句法级、篇章级、向量级等数十个模块的文本处理能力,为您一站式地解决常见的中文语义分析需求,帮助您为日常工作或企业运营降本、增效和创新。

icon产品功能icon
分词和命名实体识别

提供智能分词(基本词和短语)、词性标注、命名实体识别功能。专业的团队对数据、模型、程序进行迭代更新以保证识别效果的不断提升。用户只需简单调用相关 API 接口即可获取到所需结果,无需担心诸如新词发现、歧义消除、调用性能等词法分析难题。

情感分析

为有情感分析需求的产品提供服务。该服务能够对信息进行情感上的正向、负向及中性进行评价。在舆情监控、话题监督、口碑分析等商业分析领域有非常重要的应 用价值。

文本纠错

能够实现对文本的自动纠错功能。用户只需要提供业务数据和日志,无需关注技术细节和更新流程,就可以享受到业务自身定制的纠错服务,甚至不提供业务数据, 享受通用的纠错服务。

关键词提取

基于关键词抽取平台,为用户实现诸如新闻内容关键词自动提取、评论关键词提取等提供基础服务。支持的场景包括新闻和内容媒体信息抽取、金融场景文档结构化 抽取等。

同义词

为用户提供同义词查询服务,团队通过全网数据挖掘出海量同义词,并持续对数据、模型等进行迭代更新,保证同义词的效果始终与时俱进。

icon产品与方案概览—词法分析icon

腾讯云NLP依托于千亿级语料库,采用N元文法模型(N-gram)、隐马尔科夫模型(HMM)和条件随机场模型(CRF)等方法,不仅能够高效准确的进行常规语料的智能分词、词性标注和命名实体识别,还支持自定义词典,和垂直领域的精准分析。其中: (1)智能分词是将连续的自然语言文本切分成具有语义合理性和完整性的词汇序列; (2)词性标注功能为每一个词附上对应的词性,例如名词、代词、形容词、动词等; (3)命名实体识别,快速识别文本中的实体,例如人名、地名、机构名、时间日期等,命名实体是自然语言处理的一个基本任务,是信息抽取,机器翻译、问答系统等功能的基础。知文NLP平台的命名实体识别相较于常规命名实体识别范围更广,包含从常规的人名地名到体育、游戏、交通、金融等多个专业领域。同时结合朴素贝叶斯等方法极大的降低了命名歧义和转义风险。分为构词法命名实体和非构词法命名实体。

icon产品与方案概览—词法分析icon

(1)句法依存分析,利用句子中词与词之间的依存关系来表示词语的句法结构信息,例如主谓宾定状补等结构关系。(2)文本纠错,在自然文本中,检测到错误用词的位置,并对错误用词提供修正候选词,其主要分为两个子任务︰错误检测>>>错误修正。知文NLP平台采用基于字典树、双向N-gram、卷积seq2seq、LSTM-RNN等多语言模型融合的学习框架依托于强大的困惑集(读音相似或字型相似的字集合)。对中文的多字、少字、同音字、相似字等文本错误都有很好的纠正效果。

icon产品与方案概览—篇章分析icon

(1)关键词提取,通过计算词语句子的相关性分数来衡量量每个词的重要性用以提取文章的核心内容(2)文本分类,将待分类的文本数据归为已知类别中的一类或几类 (3)情感分析,对带有情感色色彩的主观性文本进行分析、处理、归纳和推理,判断该文本的情感正负倾向。这里本产品的优势包括:(a )多领域多类别:能识别囊括求职招聘、影视、音乐、健康养生、财经、广告推广、犯罪、政治等40多个类别,同时对类别信息和算法定时更新;( b )数亿标注语料,被用于情感分析,尤其对新闻、影视、产品等领域的评论数据.分析更为准确有效。 (4)自动摘要,对一篇或者一类文章进行自动提炼,生成简洁、流畅、包含文章关键信息的摘要。

icon产品与方案概览—向量技术icon

向量技术是将一个词或句子用向量来表示,是自然语言处理领域中最基础的组件。这里本产品的优势包括∶( a )最前沿的模型:基于Google最新发布的BERT大规模预训练模型.相比比于其他公开模型准确性大幅提高;(b)千亿级语料库∶包括公开数据集、爬虫数据集、腾讯独家数据集(例如腾讯新闻、天天快报的新闻语料等);(c )覆盖率更广:覆盖800多万中文词汇包括现有大多数公开词向量数据集所欠缺的短语,比如"不念僧面念佛面”"“冰火两重天'“煮酒论英雄"、“皇帝菜"、“喀拉喀什河”;( d )新鲜度更新.包含一些最近出现的新词如"恋与制作人”。“三生三世十里桃花”、“打call”、“十动然拒”、“供给侧改革”、“因吹斯汀”等 (1)词义相似度,基于词向量,计算不同词之间的相似度,是相似相关词挖掘的基础(2)同义词挖掘,基于词义相似度,挖掘词条名不同,但含义完全相同或相近的词条 ( 3)短文本相似度,计算句子或者较短文本之间的相似程度,常用用于查询类匹配和聚类。

icon竞品分析icon
  基础算法 行业场景算法 解决方案
腾讯云

· 具备13种原子化能力,能力最丰富;重点能力的效果具备一定的优势,分领域测试集上准确率最优;
· 包括:分词、词性标注、命名实体识别、相似词、句法依存分析、文本纠错、文本分类、自动摘要、关键词抽取、词向量、词相似度、句向量、句相似度

· 具备2种行业场景算法:情感分析,视频商品信息提取;
· 情感分析覆盖场景丰富:支持商品评论类、社交类、美食酒店类、通用领域类域;算法效果在多领域评价类数据集上表现最佳;
· 视频商品信息提取覆盖商品数据有限,还需进一步打磨能力

· 智能合同审核
· 覆盖合同类型单一(仅买卖合同),需进一步扩充合同类型;
抽取要素丰富,核心要素20+,非核心要素60+;准确率还需进一步提升;

· 功能完善且灵活,支持信息抽取、风险条款筛查(规则可根据业务配置)、风险图谱、合同比对
· 游戏舆情
· 整合多种NLP基础能力,训练游戏实体抽取引擎,准确率高,辅助判断热点、分析用户情绪

百度云

· 具备12种NLP基础算法,能力丰富;算法准确率高,在智能硬件、手百信息流产品等经过充分实践;
· 包括:分词、词性标注、命名实体识别、依存句法分析、词向量、DNN语言模型、词相似度、短文本相似度、评论观点抽取、关键词提取、文章分类、文本纠错、新闻摘要

· 具备2种行业场景算法:情感分析、简历抽取;
· 情感分析在外卖评论类数据集效果突出;
简历抽取能力完备,并基于简历的解析结果,将能力进一步扩展到具备人岗匹配、简历画像等

· 百度舆情
· 包括:政务舆情解决方案、媒体舆情解决方案;具备舆情监测系统、热点及风险事件监控、B2B商机感知、大屏可视化系统

 

阿里云

· 具备6种NLP基础算法,数量少;算法准确率一般,单个算法覆盖的解析维度较少;
· 包括:多语言分词、词性标注、命名实体识别、中心词提取、文本信息抽取、智能文本分类

· 具备3种行业场景算法:情感分析、商品评价解析、简历抽取;
· 情感分析、商品评价解析,均面向电商领域,覆盖24个商品品类及不同品类的多个评价指标,分析深度及效果极佳

· 智能合同审查:
· 覆盖合向类型较多,支持常见的10余种类型合同的信息抽取;
· 抽取通用的10+种关键要素,抽取效果不够理想;
· 功能较完善,包括信息抽取、风险条款筛查、合同相对方风险审查、合同比对

icon成功案例icon
微信搜一搜
项目背景∶在社交App或者内容App上,用户输入的一句话,可以针对性地做意图的识别,从而为用户精准地推荐关联的文章,或者广告;
解决方案∶公有云文本分类接口;
客户价值:通用意图分类覆盖面广,颗粒度也可以定制;
场景拓展︰涉及到内容推荐的场景,或者广告推荐的场景,比如趣头条,soulAPP等。
龙族幻想
项目背景∶龙族幻想提升用户社群活跃度,推广游戏;
解决方案∶夸夸群用户聊天记录,用情感分析打分,根据打分,发放红包或礼物,公有云接入;
项目效果:试运营期间,两天类PV增加40万;
场景拓展︰所有需要检测用户动态的观点和态度场景。
澳洲华语新闻网
项目背景∶在社交App、内容App、新闻网站上,针对文本数据,需要做合规检查;
解决方案∶公有云智能分词+敏感词识别+文本审核接口;
客户价值∶有效消除风险、应对审查;
相关客户∶微信、QQ看点、广西电视台、澳洲华语新闻网等。
泰康人寿
项目背景∶保险场景下,大量保单的信息审核,工作量大,人力成本高;
解决方案:OCR+文本纠错+关键词抽取,标准接口+部分定制开发;
同类客户∶宁波银行,证监会,招商信诺等;
场景拓展∶存量文档的结构化抽取。
产品推荐 查看更多>>
    腾讯云消息队列 CKafka

    是一个分布式、高吞吐量、高可扩展性的消息系统,100%兼容开源 Kafka API 0.9.0至2.4.2版本。CKafka 基于发布/订阅模式,通过消息解耦,使生产者和消费者异步交互,无需彼此等待。

    一个分布式、高吞吐量、高可扩展性的消息系统

    100%兼容开源 Kafka API 0.9.0至2.4.2版本

    通过消息解耦,使生产者和消费者异步交互,无需彼此等待

    腾讯云边缘可用区 TEZ

    低延时、广覆盖、少成本的边缘云计算服务

    云的本地扩展

    适用于解决计算、存储和服务可用性问题

    为您带来云的诸多优势,例如弹性、可扩展性和安全性

    腾讯云慧眼智能身份认证

    慧眼-智能身份认证(腾讯云慧眼人脸核身,faceid)是一组对用户身份信息真实性进行验证审核的服务套件,提供人脸核身、身份信息核验、银行卡要素核验和运营商类要素核验等各类实名信息认证能力,以解决行业内大量对用户身份信息核实的需求,广泛应用于金融、运营商、共享出行等领域。

    一组对用户身份信息真实性进行验证审核的服务套件

    提供人脸核身、身份信息核验等各类实名信息认证能力

    解决行业内大量对用户身份信息核实的需求

    广泛应用于金融、运营商、共享出行等领域