在日常工作中,开发者经常利用缓存来优化站点或应用程序,然而在实际应用中,大家使用缓存时,总会存在或多或少的误区,反而影响了站点或应用程序的正常运行。近日,highscalability上的一篇文章总结了十大使用缓存的误区和建议。
现就对这十大缓存误区以及使用建议进行一个全面的梳理:
1、依赖默认的序列化方式
使用默认的序列化处理方式可能会消耗大量的CPU资源,尤其是处理复杂类型数据时。所以建议大家一定要根据所使用语言和环境的情况,采用最合理、有效的序列化和反序列化方式。
2、在单一缓存中存储大对象数据
由于序列化和反序列化需要一定的资源开销,当处于高并发高负载的情况下,对大对象数据的频繁读取有可能会使得服务器的CPU崩溃,所以建议大家把大对象数据分成为较小的子对象,然后再各自进行缓存。
3、在不同线程间使用缓存共享对象
在竞态条件(Race conditions)条件下,当写线程对缓存进行写入操作时,如果这是读线程刚好也要访问同一缓冲对象,就有可能读取脏数据,所以在实际开发中要根据实际情况采取外部锁机制,以保证缓存数据的正确读写。
4、认为存储数据操作后,数据即刻就能存储到缓存中
刚进行写入缓存操作的数据并不一定能够马上写入缓存,这是因为当缓存空间不足时,刚写入的缓存有可能被刷新掉。所以在编写程序时,应该首先对获得缓存的值作空值检测。
5、使用嵌套对象存储整个集合
如果将整个集合对象数据进行嵌套缓存的话,获得其中某个具体元素的性能将会严重受到影响,这是因为整个集合存储意味着对整个嵌套对象进行序列化。有鉴于此,建议单独对每个元素进行缓存,这样就可以做到对每个对象分别更新和读取,以减少序列化的影响。
6、对父子对象采取统一与单独混用的存储方式
有时候一个对象可能拥有两个或更多的父对象,同一对象存储在不同地方,这样就会造成缓存的浪费。为了不让同一对象存储于不同地方,这就需要根据统一对象本身的键进行缓存,这样父对象就能够根据需要访问子对象。
7、对配置信息进行缓存
缓存数据的访问是有代价的,所以要尽可能把影响减到最低,所以建议使用本地静态变量代替缓存对配置数据进行存储。
8、对实时对象进行缓存
如果对实时对象(例如:流、文件、注册信息或者网络情况)的引用进行缓存的话,当缓存数据被删除后,之前缓存的实时对象不被删除,这样会造成系统资源泄漏,所以不要对实时对象进行存储。
9、使用多个键存储同一对象
尽管使用多个键存储同一对象就使得使用一个键和索引号来进行访问时带来便利,但是当缓存是基于远程缓存的话,任何关于对象改变都是不可见的,这样会导致缓存数据同步问题的发生,所以不建议使用多个键存储同一对象。
10、在连续存储中进行更新或删除后不及时更新相应缓存对象
由于在一个远程缓存中,数据以拷贝方式存储,所以当更新对象时,缓存不会被同步更新。所以更新对象时,缓存必须被明确地进行更新。然而在基于内存的缓存中,当删除一个对象时,在缓存中不会被同步删除,所以建议通过程序确保缓存对象被正确删除。
好文章,需要你的鼓励
很多人担心被AI取代,陷入无意义感。按照杨元庆的思路,其实无论是模型的打造者,还是模型的使用者,都不该把AI放在人的对立面。
MIT研究团队提出递归语言模型(RLM),通过将长文本存储在外部编程环境中,让AI能够编写代码来探索和分解文本,并递归调用自身处理子任务。该方法成功处理了比传统模型大两个数量级的文本长度,在多项长文本任务上显著优于现有方法,同时保持了相当的成本效率,为AI处理超长文本提供了全新解决方案。
谷歌宣布对Gmail进行重大升级,全面集成Gemini AI功能,将其转变为"个人主动式收件箱助手"。新功能包括AI收件箱视图,可按优先级自动分组邮件;"帮我快速了解"功能提供邮件活动摘要;扩展"帮我写邮件"工具至所有用户;支持复杂问题查询如"我的航班何时降落"。部分功能免费提供,高级功能需付费订阅。谷歌强调用户数据安全,邮件内容不会用于训练公共AI模型。
华为研究团队推出SWE-Lego框架,通过混合数据集、改进监督学习和测试时扩展三大创新,让8B参数AI模型在代码自动修复任务上击败32B对手。该系统在SWE-bench Verified测试中达到42.2%成功率,加上扩展技术后提升至49.6%,证明了精巧方法设计胜过简单规模扩展的技术理念。