达观数据舆情分析与智能文本处理方案_智能舆情分析系统

达观数据舆情分析与智能文本处理方案

达观数据舆情分析与智能文本处理方案，支持爬虫抓取、本地、接口等方式，文本预处理利用自然语言处理技术、机器学习、深度学习算法，对文本数据进行分析。基于语料库、标注数据、经验规则，利用自然语言处理技术、机器学习、深度学习算法，将数据处理结构结合业务需求生成模型。

立即咨询

解决方案-提出思路

数据清洗
将信息转化成舆情的前提，去除脏数据、过滤与分析内容无关的数据

智能分析
自动分类，构建业务模型、根据媒体影响力算法进行排序

输出
生成报告

对接微信和邮件

大数据采集
支持定向海量采集，包括BBS、公众号、行业相关网站，实时增加数据源

文本挖掘（语义分析）
对非结构化文档进行分词、标签抽取、实体抽取、特征识别、情感分析等预处理，提取标题、发布单位、摘要、内容等关键信息

后台管理
可视化管理，自定义监控关键字；能够自定义并随时更换调整关键词以及监控源范围；自定义筛选规则，自定义关注行业，细分领域

数据采集：支持爬虫抓取、本地、接口等方式 icon

利用爬虫技术获取微信公众号、网站数据 ——从指定的网站进行相关信息抓取，存储到原始库，供系统分析使用

确定数据源
已接入：数码之家、网上车市、汽车之家、无忌摄影论坛、太平洋汽车、爱卡汽车、易车网、中华网社区、红网论坛、中国证券网、网易论坛、红豆、SAA搜狐汽车、青年论坛、天涯论坛、大洋网社区、BBS。自定义数据源

可视化配置
采集URL

采集关键词

采集字段

（标题、摘要、正文、出处等）

采集数量

自定义参数

实时抓取数据
任务调度模块

链接管理模块

语义指纹模块（防止重复）

网页抓取模块

Js执行服务（自动执行）

代理服务模块（代理池、Cookie池）

网页解析模块（解析抽取）

抓取任务队列

网页数据队列

结构化存储

数据清洗：去噪初步处理提升数据质量 icon

数据清洗(Data cleaning)是对数据进行重新审查和校验的过程，目的为删除重复信息、纠正存在的错误、剔除无效数据、数据一致性。——例如：广告、重复、无效网页、无效内容、关联性验证。

文本挖掘

文本预处理利用自然语言处理技术、机器学习、深度学习算法，对文本数据进行分析。 ——例如：评论、留言、文章、销售记录

智能分析-业务模型构建 icon

基于语料库、标注数据、经验规则，利用自然语言处理技术、机器学习、深度学习算法，将数据处理结构结合业务需求生成模型。 ——支持噪声识别模型、危机识别模型、舆论分类模型、情感分析模型、媒体影响力模型、热词分析模型、新闻溯源模型

可视化管理分析——自定义统计图表 icon

占比类、比较类

统计维度：枚举类字段，例如“地域”。筛选条件：枚举类字段+值，渠道+值，例如“情感-负面、渠道-微博”。环状图、饼图、雷达图举例：按照地域，统计情感=负面，渠道=微博的声音占比。条形图、柱状图举例：按照地域，统计情感=负面，渠道=微博的声音总数。词云举例：按照地域，统计情感=负面，渠道=微博的声音TopN的词。

趋势类

统计维度：枚举类字段，例如“地域”。筛选条件：枚举类字段+值，渠道+值，例如“情感-负面、渠道-微博”。折线图-总数举例：统计情感=负面，渠道=微博的声音总数。折线图-环比举例：统计情感=负面，渠道=微博的声音环比。折线图-占比举例：统计地域=北京，情感=负面，渠道=微博的声音数占总数比变化。

表格类

统计维度：枚举类字段，例如“地域”。筛选条件：枚举类字段+值，渠道+值，例如“情感-负面、渠道-微博”。表格-总数举例：统计情感=负面，渠道=微博的声音总数。表格-环比举例：统计情感=负面，渠道=微博的声音环比。表格-Top5举例：统计情感=负面，渠道=微博的Top5城市。表格-占比举例：统计地域=北京，情感=负面，渠道=微博的声音数占总数比变化。

可视化管理分析——数据可视化 icon

情感分析

统计维度

• 情感趋势（正面、负面、中性）

• 情感占比

• 评论性质趋势（赞扬、问题/投诉、建议、咨询）

• 评论性质占比

• 情感倾向（倾向、点评数、占比、环比增长）

• 自定义统计图表

辅助功能

• 按时间段统计

• 导出Excel、JPG

可视化管理分析——文本检索 icon

可视化管理分析——危机预警 icon

预警发送管理
设置收件人、邮箱地址

预警规则配置
基本信息：规则名称、状态

预警设置：关键词、全量

模型构建：危机预警模型

预警消息接收
关键词、全量、危机预警

站内账号消息、邮件消息

其他产品功能

总体概览
声量趋势、情感趋势、观点概览、热门词云、渠道Top，其他重点关注指标

系统管理
基础信息配置、权限/订阅管理、规则发布管理

词典管理
新词/热词、基础词典、行业词典、同义词库、通用行业情感

模型知识库
产品树、观点分类体系、样本管理、模型管理

达观数据舆情分析系统总体架构 icon

优势1：NLP与机器学习技术提高长短文本分析准确度 icon

优势2：全面监控危机及时预警 icon

实时监控数据源，可结合多种预警方式自动识别危机事件，预警消息及时通过站内、邮件的方式通知相关人员

关键词识别危机
关键词：例如‘舒适度差、噪声大、悬架硬’，排除词：例如‘舒适度、悬架’

设置阈值触发预警
例如‘情感负面大于10%’、‘观点XXX大于200’、‘投诉大于100’

构建危机识别模型
采用机器学习算法进行危机特征、危机样本训练，自动生成危机识别模型

优势3：机器学习模型结合人工反馈机制不断优化效果 icon

某所智能情报事件分析系统 icon

项目背景

某军工所是国家一类科研事业单位，专门从事情报领域中事件的演变和分析的工作。达观为其开发的智能情报分析系统，实现对已搜集的社交媒体信息分析，为情报人员提供政治、经济、军事、安全方向的事件预测、事件演变等功能。

项目亮点

建立创新性的事件演变分析模型，经过“构建事件特征”—>“判断事件关联性”—> “找出事件演进方向”—>“提取事件演变关系”等步骤，有效提升事件分析的准确性。事件提取、事件聚类、文章分类、情绪分析、中心思想提取、文本纠错等功能，平均F值≥90% ，高于传统分析方式至少10个百分点。在客户对国内市场数十家人工智能厂商进行了为期1年多事件的考察，以及对我司3次深度测评的基础上，最终敲定使用我司的NLP（语义理解系统）为其的情报分析平台的技术平台。

项目价值

通过对人民网、环球网、凤凰网、新浪微博等平台的分析建立情报领域语料库、事件库；逐步实现全球中英文社交网络、社交媒体平台的所采集信息的事件分析。

智能VOC客户声音分析平台 icon

项目背景

华为是全球领先的信息与通信技术解决方案供应商，专注于ICT领域，核心产品包括智能手机、终端路由器、交换机、解决方案等，已应用于全球170多个国家，积累了海内外海量的客户声音急需高效解读。为帮助产品质量部及时掌握产品优势和缺陷，产品服务部及时应对危机提高服务质量，产品研发部动态发现新产品方向，达观数据提供了智能VOC消费者声音分析平台

项目亮点

实现对海内外工单、问卷信息、泛网络数据等多渠道全量数据源实时整合要求，为更好处理客户声音提供支持，同时处理数据格式多样，包括MongoDB，Mysql，Vertica，IQ，Oracle，Hive等。对客户声音数据进行5层分类体系1300多个类别精准自动分类，从客户声音中逐层匹配产品线、功能模块、总结意见及建议。结合不同业务需求，构建情感分析，观点分类，产品识别，噪声预处理，主题发现与热词分析，危机检测模型，满足不同业务部门的使用场景。

项目价值

3个月完成系统定制开发上线，模型准确率均达到90%以上。

智能VOC舆情分析系统 icon

项目背景

吉利汽车在国产汽车品牌综合实力上排名第三，连续七年进入世界500强。设计和产品部门非常关注汽车之家、爱卡汽车等专业车评数据，传统采用人工分析。为了更准确的挖掘数据价值，达观设计的智能VOC舆情分析系统，实现高效准确实时抽取评论观点、做用户分析、产品分析及情感度判断等功能，提高了企业危机预警能力

项目亮点

用户评论数据口语化表达很多，比如“看到了吧”缺少有意义的特征；还有字少信息量大，比如“鲨鱼鳍天线”，需要挖掘领域知识来处理。引进知识图谱做长短文本处理分析（与复旦大学肖仰华教授合作技术）中，解决了文本稀疏性等难题。实现语义归一化，比如“发动机缸气压不够”和“气压不足”等相似的表达进行语义归一处理，做观点聚合并实现精准分类。提供风险预警功能，快速识别涌现出的新网络用语、舆情风险词，如“油亏事件”、“新车自燃”等，达观采用互信息等机器学习技术实时主动发现新词并及时风险提示。

项目价值

帮助吉利汽车系统化构建了客户声音的业务树及感知树的框架化体系，及时精准的获取产品分析、用户分析、竞品分析及预警智能提示。

虎扑识货评论文本标签提取及质量打分 icon

项目背景

虎扑识货是虎扑旗下专业的商品导购网站，为百万级用户提供网购决策指导服务。服务质量的高低取决于对海量商品评论数据情感分析和观点提取的加工能力，之前通过人工+规则的方式来进行分析，很难在短时间内对全量数据进行处理，达观为识货构建评论文本质量审核、标签提取系统，大幅提高虎扑识货评论文本处理效率，让更多优质产品展现给用户。

项目亮点

不仅仅针对文本数据，同时也结合晒图行为和图片中包含的信息，增强了情感分析的能力。原始评论文本数据格式多样及噪声极大，达观为其订制开发数据清洗系统（肖仰华），有效提升了数据可用性。

项目价值

为虎扑识货超过100万的商品评论文本进行精确质量打分、标签提取，使评论文本处理人员由10人缩减至2人，节约企业人力成本。

系统交付方式

达观数据无微不至的后续服务 icon

详尽的技术文档
全面详实的各种接口文档

使用教程等服务

长期开发维护
新需求快速响应

及时排期开发

随时的热线服务
7*24小时热线电话

随时提供技术支持

培训和报告
定期提供培训

和运行数据报告

ISO9001认证
ISO9001品质保证

为数据保驾护航

达观数据：专注于文本智能处理的高科技创业企业 icon

达观数据成立于2015年，总部位于上海浦东软件园，同时在北京、深圳、成都、西安设立产品和解决方案中心，专注于为客户提供文本智能化处理的软件系统。达观运用先进的自然语言处理（NLP）技术，提供的智能系统能够自动对文本进行抽取、审核、纠错、搜索、推荐、写作等操作，让计算机代替人来完成工作，大幅提高效率。先后获得宽带资本、软银赛富、真格基金、元禾重元、联想之星等国际著名投资机构的超2亿元融资，是中国文本语义分析类创业企业中获得融资金额最多的企业。

达观数据：资质最全、权威认证的国家高新技术企业 icon

拥有国家级高新技术企业认证、CMMI3软件成熟度认证、ISO9001质量管理体系认证、ISO27001信息安全管理体系认证、国家双软认证等全面的企业资质。先后成为微软加速器、百度AI加速器、青藤大学、联想之星、SAP、普华永道创新营成员，中国人工智能学会自然语言理解专委会企业会员，同时也是中文开放知识图谱平台OpenKG的发起成员之一。