立即咨询

电话咨询

微信咨询

立即试用
商务合作

还不快来了解一下数据存储方式吗?

2022-11-22

 

    数据存储是现在的一个热点话题,互联网时代各种存储框架层出不穷,眼花缭乱,比如传统的关系型数据库:OracleMySQL。新兴的NoSQLHBaseCassandraRedis。全文检索框架:ESSolr等。

    如何为自己的业务选取合适的存储方案,相信大家都思考过这个问题。本文简单聊聊小编自己对于MysqlHBaseES的理解。希望能和大家一起探讨进步,有不对的地方也欢迎系小伙伴们指出。

    数据存储方式

    如果我们想要知道有哪些文档含有you这个关键字,首先可以创建一个倒排索引,格式如下。

    我们把前面的部分叫做dictionary(字典),里面的每个单词叫做term,后面的文档列表叫做psoting-listlist中记录了所有含有该term的文档id。两个组合起来就是一个完成的倒排索引(Inverted Index),能够看出,假如需要查找含有“you”的文档时,根据dictionary然后找到对应的posting-list即可。

    而全文检索中,创建Inverted Index是最关键也是最耗时的过程,而且真正的Inverted Index结构也远比图中展示的复杂。不仅需要对文档进行分词,ES里中文可以自定义分词器,还要计算TF-IDF。方便评分排序,当查找you时,评分决定哪个doc显示在前面,也就是所谓的搜索排名。压缩操作,每接收一个documentES就会将其信息更新在倒排索引中。

    从这里我们就可以看出ESMySQLHBase的存储还是有很大的区别,而且ES不仅包含倒排索引。默认同时还会把文档doc存储起来,所以当我们使用ES时,也能拿到完整的文档信息。所以某种程度上,感觉就像在使用数据库一样。但是也可以配置不存储文档信息,这时只能根据查询条件得到文档id,并不能拿到完整的文档内容。

    MySQL行存储的方式比较适合OLTP业务,列存储的方式比较适合OLAP业务,而HBase采用了列族的方式平衡了OLTPOLAP。支持水平扩展,如果数据量比较大、对性能要求没有那么高、并且对事务没有要求的话。HBase也是个不错的考虑。ES默认对所有字段都建了索引,所以比较适合复杂的检索或全文检索。

    关于数据存储的知识,本篇文章就介绍到这里了,其实,小编还写了有关数据存储的其他知识的文章,对此感兴趣的小伙伴们,还不赶快去看一下吗。

版权声明:本文为Yun88网的原创文章,转载请附上原文出处链接及本声明。

 

更多产品了解

欢迎扫码加入云巴巴企业数字化交流服务群

产品交流、问题咨询、专业测评

都在这里!

 

热门数字化产品

腾讯云即时通信IM腾讯云即时通信IM,覆盖全平台、低门槛快速集成,可与TRTC、云直播、云点播、互动白板等产品协同使用。支持文字、表情、图片、短语音、短视频、文件、位置等多种消息类型,提升用户活跃度 。好友工作群、陌生人社交群、临时会议群、直播群、社群等多种群组类型,满足特定群聊场景,丰富社交手段。
法大大电子合同SaaS平台法大大电子合同法律效力等同于纸质合同,保障用户权益。人脸生物科技识别、银行卡要素等多重技术手段实名认证,确保颁发电子签名为本人专有。向企业和个人提供全流程的电子合同服务,完善的产品与服务体系。
酷学院企业培训SaaS平台酷学院多个基于AI技术的培训工具,有效降低培训运营传播,显著提升学习效果。基于对14大热点行业标杆企业的大数据分析,深入研究和实验,建立77个重点岗位职能的测评标准。依托AI技术, 精准提取视频、音频、语音等课件中的知识点, 转换成碎片化的知识内容,并对各个内容设置相应标签,形成系统化的知识图谱。
网易数帆有数BI有数BI是由网易数帆推出的一款企业级智能大数据敏捷分析平台。无需代码、PPT式简单拖拽即可轻松完成报告与大屏的制作。丰富的在线图表组件、可视化ETL操作、多终端智能预警等能力真正降低了用户的使用门槛,提高了数据使用效率,助力企业实现数据驱动决策。
连连国际外贸支付连连国际外贸支付专注于提供一站式跨境支付解决方案,服务包括全球收款、阳光结汇、多币种汇兑等,满足不同进出口场景的合规申报需求。一站式外贸收付兑服务,打造极致用户体验。
为你推荐
直播间在线人数卡在500上不去?天志互联抽盒系统从互动率破局

抖音算法推流核心指标是互动率而非GMV。天志互联直播抽盒系统从订单秒级上屏、一键拆盒、氛围引爆三个维度拉高互动率,驱动算法推流的正循环。

2026-06-26
品牌联名越做越亏?天志互联用游戏化体验共创重新定义IP营销

从"换皮联名"到"游戏化体验共创"——拆解彩棠敦煌联名案例的壁画修复小游戏设计逻辑、奶茶品牌联名翻车教训和中小品牌三条低成本高ROI的IP联名路径。

2026-06-26
一个人也能搭游戏化运营体系?低代码时代品牌运营的乐高式搭建指南

低代码时代品牌游戏化运营体系的"乐高式"搭建指南——从选模板、搭积分闭环、数据迭代到多活动并行管理和团队交接的全流程实操方法。

2026-06-26
私域社群打开率跌破3%以后:一个快消品牌的游戏化自救实验

一个快消品牌用游戏化方法三个月救活240个死群的完整复盘——从签到排行榜、互动任务、习惯养成到赛季制防疲劳的六周运营节奏拆解。

2026-06-26
品牌私域裂变怎么设计才不被骂?游戏化社交裂变的三个底线原则

游戏化社交裂变的三个底线原则深度拆解——让转发不像广告、让奖品有炫耀价值、给用户不转发的自由,加3%超级用户识别策略和三个常见翻车点避坑指南。

2026-06-26
查看更多